Etwas Statistik

Bisher habe ich jede einzelne Spielaktion bewertet und aus den summierten Spielaktionen für jeden Spieler eine Bewertung für jeden Spieler für einen bestimmten Zeitraum abgeleitet (Ein Spiel, die Hinrunde, eine Saison … ). Ebenfalls kann ich den Datensatz nun einfach nach actiontype oder bodypart filtern. Selbst nach xy-Koordinaten, um zu sehen, in welchen Bereichen auf dem Spielfeld ein Spieler besser oder schlechter performt.

Für das Spielerscouting können diese rohen Daten jedoch recht umständlich sein. Ein Scout / Entscheidungsträger möchte wissen, wie ein Fußballspieler in einer bestimmten Qualität abschneiden. Um Qualitäten zu berechnen, brauche ich aber zunächst Werte, die ich miteinander vergleichen kann. Hier kommen Z-Scores ins Spiel.

Z-Scores

Z-Scores sind standardisierte Werte, die es ermöglichen, Daten miteinander zu vergleichen, die in unterschiedlichen Einheiten gemessen werden. Sie zeigen an, wie viele Standardabweichungen ein Wert von einem Mittelwert entfernt ist. Ein Z-Score von 0 bedeutet, dass der Wert genau dem Mittelwert entspricht, während ein Z-Score von 1 bedeutet, dass der Wert eine Standardabweichung über dem Mittelwert liegt.

Beispiel: Wenn ich eine Qualität berechnen möchte, die sich aus folgenden Werten zusammensetzt:

  • Tore mit 50%

  • Pässe in den Strafraum mit 20%

  • Erfolgreiche Dribblings mit 30%

Angenommen die absoluten Werte für einen Spieler sind:

  • Tore: 10

  • Pässe in den Strafraum: 270

  • Erfolgreiche Dribblings: 90

Dann ergibt sich daraus ein Score von 10 * 0.5 + 270 * 0.2 + 90 * 0.3 = 86

Wenn sich die Anzahl der Tore verdoppelt ist sein Score 20 * 0.5 + 270 * 0.2 + 90 * 0.3 = 91
Verdoppelt sich die Anzahl erf. Dribblings, ist sein Score 10 * 0.5 + 270 * 0.2 + 180 * 0.3 = 113

Hieraus ergibt sich, dass obwohl sich der Wert der Tore verdoppelt hat, der Score nur um 5 Punkte gestiegen ist.
Der Score bei Verdopplung der erf. Dribblings ist jedoch um 27 Punkte gestiegen. Das würde bedeutet, dass die Qualität der Dribblings wichtiger ist als die Qualität der Tore. Wir möchten aber, dass die Tore einen höheren Einfluss haben (50% vs. 30%). Deshalb ist es notwendig die Werte in Form von z-Scores zu standardisieren.

Also berechne ich für alle Werte Z-Scores und kann dann die Werte miteinander vergleichen. Und daraus dann die Qualität berechnen.

Berechnung

Die Berechnung eines Z-Scores erfolgt in drei Schritten:

  1. Berechnung des Mittelwerts der Datenreihe.

  2. Berechnung der Standardabweichung der Datenreihe.

  3. Berechnung des Z-Scores für jeden Wert in der Datenreihe.

Positionsabhängige Z-Scores

Achtung! Ich berechne die Z-Werte positionsabhängig. Das bedeutet, dass ich für jeden Spieler und jede Position die Z-Werte berechne. Jede Position bildet quasi eine eigene Gruppe von Daten. Die Positionen ergeben sich aus den Startposition der Spieler für jedes Spiel. Ein Spieler wird der Position zugeordnet, für die er die meisten Starteinsätze hatte. Mit genaueren Daten, die auch Positionswechsel während des Spiels berücksichtigen, könnte man die Positionen abhängig der gespielten Minuten bestimmen. Die einzelnen Positionen werden ebenfalls nochmal gruppiert in folgende übergeordnete Positionen zusammengefasst:

  • Abwehrspieler

  • Außenverteidiger

  • Mittelfeldspieler

  • Flügelspieler

  • Angreifer