Daten im Fußball
Da nun geklärt ist, dass Datenscouting ein unverzichtbares Element im Scoutingprozess ist, stellt sich die Frage, was für Daten es überhaupt gibt und welche davon für die Bewertung von Spielern relevant sind.
Matchsheet-Daten: Grundlegende Informationen zu Spielen und Spielern.
Event-Daten: Details zu spezifischen Ereignissen im Spiel, wie Tore, Pässe usw.
Tracking-Daten: Positionsdaten der Spieler und des Balls während des Spiels.
Matchsheet-Daten
Unter Matchsheet-Daten versteht man in der Regel die grundlegenden Informationen zu einem Spiel, wie z.B. die Aufstellung, die Torschützen, die Karten, die Auswechslungen usw. Diese Daten sind relativ einfach zu erfassen und sind in der Regel für jedes Spiel verfügbar (transfermarkt.de, kicker.de, etc.). Es gibt unzählige Studien, die gezeigt haben, dass Matchsheet-Daten alleine nicht ausreichen, um die Leistung eines Spielers zu bewerten. Matchsheet-Daten sind wichtig, um einen Überblick über das Spiel zu bekommen, aber sie sind nicht ausreichend, um die Leistung eines Spielers zu bewerten.
Event-Daten
Event-Daten sind detaillierte Informationen zu spezifischen Ereignissen im Spiel, wie z.B. Tore, Pässe, Schüsse, Zweikämpfe usw. Diese Daten sind viel detaillierter als Matchsheet-Daten und ermöglichen eine genauere Analyse der Leistung eines Spielers. Event-Daten sind in der Regel nicht öffentlich verfügbar und müssen entweder manuell erfasst oder von spezialisierten Anbietern gekauft werden. Die bekanntesten Anbieter von Event-Daten sind Opta, StatsBomb, Wyscout, InStat, etc. Diese Anbieter erfassen die Daten in der Regel zunächst automatisiert und lassen sie dann von menschlichen Beobachtern überprüfen und korrigieren.
In der Spiel- und Gegneranalyse ist es ebenfalls üblich, die eigenen Spiele und die des kommenden Gegners sogar selbst nach den eigenen Kriterien zu taggen, um die Daten zu standardisieren und die Qualität der Analysen zu erhöhen. Event-Daten bieten den Vorteil, dass sie für eine Vielzahl an Wettbewerben verfügbar sind. Die Datengröße liegt mit circa 1600 Events (Spielaktionen) pro Spiel bei 1,3 MB pro Spiel (im JSON-Format) und knapp 400 MB pro Bundesligasaison. Der Nachteil von Event-Daten ist, dass sie nur die Aktionen erfassen, die mit dem Ball stattfinden. Laufwege und Stellungsspiel ohne Ball werden nicht erfasst.
Tracking-Daten
Tracking-Daten sind Positionsdaten der Spieler und des Balls während des Spiels. Diese Daten werden in der Regel von spezialisierten Anbietern wie StatsBomb oder SecondSpectrum erfasst. Die Daten werden entweder durch Kameras oder GPS-Tracker bestimmt und bieten eine detaillierte Analyse der Bewegungen der Spieler und des Balls während des Spiels. Hiermit werden alle 22 Spieler und der Ball 25 Mal pro Sekunde getrackt.
Es lassen sich eine Vielzahl von Metriken ableiten, wie z.B. Laufwege, Geschwindigkeit, Beschleunigung, Raumvorbereitung, etc. Vor allem Metriken, die ohne Ball stattfinden, sind hierbei interessant, da sie in den Event-Daten nicht erfasst werden. Die Datengröße ergibt sich aus 23 Spalten (22 Spieler + Ball) * 25 Frames * 60 Sekunden
90 Minuten = über 3 Millionen Datenpunkte pro Spiel. Das ergibt über 60 MB pro Spiel siehe Metrica Beispieldaten und somit um die 18 GB pro Bundesligasaison.
Der Nachteil von Tracking-Daten ist, dass sie sehr groß sind und eine spezielle Infrastruktur benötigen, um sie zu verarbeiten. Die Daten sind auch nicht ansatzweise für alle Wettbewerbe verfügbar und sind in der Regel sehr teuer.
Daten-Vergleich
Hieraus ergibt sich schnell, dass aufgrund von Verfügbarkeit und Kosten, die meisten Analysen auf Event-Daten basieren. Tracking-Daten sind jedoch die Zukunft der Spielanalyse und werden in den nächsten Jahren immer wichtiger werden. Aus meiner Sicht haben Tracking-Daten das Potenzial, den Einfluss auf eine Bewertung maßgeblich zu verändern, wohingegen das Potenzial für Wissensvorsprung bei Event-Daten limitiert ist. Zum Beispiel könnten Spieler besser bewertet werden, die intelligente Laufwege ohne Ball machen und dadurch Räume schaffen, was in den Event-Daten nicht erfasst wird.
Erhebung von Daten
Aktuelle Tracking-Daten sind also sehr teuer und nicht für alle Wettbewerbe verfügbar. Matchsheet-Daten sind relativ
einfach zu bekommen, aber nicht ausreichend für eine detaillierte Analyse.
Wie werden Event-Daten erhoben?
Manuell: Daten werden durch menschliche Beobachter erfasst.
KI-basiert: Automatisierte Datenerfassung durch Künstliche Intelligenz.
Live-Daten: Daten, die in Echtzeit erfasst werden, z.B. durch Kameras oder GPS-Tracker. Meist werden diese Daten durch spezielle Algorithmen in Eventdaten umgewandelt (z.B. Opta für die Bundesliga).
Post-Match-Daten: Daten, die nach dem Spiel nochmals überprüft und korrigiert werden.
Quellen von Event-Daten
Kaufen: Erwerb von Daten von spezialisierten Anbietern (Opta, StatsBomb, Wyscout, InStat, etc.).
Scrapen: Automatisiertes Extrahieren von Daten aus öffentlich zugänglichen Quellen.
Selbst erheben: Manuelle Erfassung von Daten Tool zur Unterstützung:.
Freie Daten: Daten, die frei verfügbar sind, z.B. auf Kaggle, GitHub, etc.
Freie Daten sind oft nicht so umfangreich wie die Daten von spezialisierten Anbietern, aber sie sind ein guter Einstieg, um sich mit den Daten vertraut zu machen und erste Analysen durchzuführen. Gleichzeitig fand ich es persönlich aber immer etwas langweilig, mit alten Daten zu arbeiten, da mich die aktuellen Spiele und Spieler viel mehr interessieren. Daher habe ich mich entschieden, die Daten zu scrapen. Wie ich das gemacht habe, werde ich in eines der nächsten Kapitel erläutern.
Hier ein paar Links zu freien Event- und Tracking-Daten:
Statsbomb Free Data: https://github.com/statsbomb
Metrica Free Data: https://github.com/metrica-sports/sample-data
Wyscout Free Data: https://figshare.com/collections/Soccer_match_event_dataset/4415000/5