Sieci podań - czy wiążą się z wynikami?

Analiza danych z Euro 2025

Paulina

3/24/20264 min read

Podobno analityki i data science najlepiej uczymy się wtedy, gdy analizujemy dane, które nas interesują. W moim przypadku będą one dotyczyć kobiecej piłki nożnej, a dokładniej UEFA Women's Euro 2025 rozgrywanego Szwajcarii.

Pierwszy w historii awans naszej reprezentacji na jakikolwiek "dorosły" turniej to wydarzenie epokowe. Z państw zza żelaznej kurtyny do finałów kobiecego Euro od początku ich rozgrywania (czyli od 1984 r.) kwalifikowały się dotąd jedynie Rosja (1997, 2001, 2009, 2013 i 2017) i Ukraina (2009). W rozgrywanym w Anglii Euro 2022 nie wystąpiła żadna drużyna ze wschodniej części Europy. Awans naszej reprezentacji jest jeszcze bardziej imponujący, gdy weźmiemy pod uwagę strukturę PZPN i wysoki poziom seksizmu w polskiej piłce nożnej i społeczeństwie w ogóle.

By uczcić ten sukces, zaciągnęłam swoją rodzinę na tydzień do Lucerny, gdzie Polki rozgrywały dwa ze swoich trzech spotkań. Poza tym na długo zapamiętam, jak szybko (i sensownie) po prawej stronie boiska biegała Johanna Rytting Kaneryd. Ekran w żaden sposób nie oddaje jej sprawiedliwości.

Mistrzostwa dostarczyły też masy danych, które postanowiłam wykorzystać przy okazji doskonalenia swoich umiejętności analitycznych (nauka czegokolwiek musi być choć trochę przyjemna, jeśli ma zadziałać). Kilka najbliższych, nie-psychologicznych wpisów poświęcę więc analizie danych z Women's Euro 2025.

Jednym z ciekawszych rodzajów analiz są te dotyczące sieci podań.

Dokładne dane zbiera m.in. StatsBomb, udostępniający niewielką część swoich zbiorów na GitHubie. Osoby zainteresowane męską piłką uspokajam - w wolnym dostępie są też dane z Mistrzostw Świata w Katarze).

A co na temat metryk sieci podań ma do powiedzenia nauka? Okazuje się, że sporo, ale nie przytłaczająco sporo.

Aby przeprowadzić analizę sieci podań, potrzebujemy macierzy sąsiedztwa (adjacency matrix) o wymiarach n × n, gdzie n to liczba wierzchołków, czyli w naszym przypadku zawodniczek jednej drużyny przebywających na boisku (standardowo 11, chociaż wraz z upływem czasu może się to zmieniać). W tego typu macierzy, komórka A(i, j) przyjmuje wartość 0, jeśli dane zawodniczki nie wymieniły żadnego podania. Kiedy takie podania miały miejsce, wpisujemy 1 albo, częściej, liczbę podań w danej jednostce czasu (wtedy mamy do czynienia z siecią ważoną). Grafy sieci mogą być skierowane lub nieskierowane. Kontynuując przykład, te pierwsze będą różnicować podania Padilli-Bidas do Pajor i Pajor do Padilli-Bidas (A(i, j) ≠ A(j, i). Te drugie nie będą robić takiego rozróżnienia (A(i, j) = A(j, i). Analizy, których wyniki przedstawiam poniżej, posługiwały się grafami nieskierowanymi.

Skąd wziąć odpowiednie dane?

Oczywiście takie dane możemy zakodować też ręcznie, jeśli dysponujemy ich nagraniami. Żeby przekonać się, ile czasu zajęłoby kodowanie "na dziko" (czyli bez żadnego specjalnego oprogramowania czy wytrenowanego modelu computer vision, mając do dyspozycji jedynie arkusz kalkulacyjny z trzema kolumnami "time", "sender", "receiver"), zakodowałam ręcznie pierwsze 90 sekund niedawnego meczu Chelsea - Aston Villa w Women's Super League, wygranego przez Chelsea 4:3. Zakodowanie półtorej minuty zajęło mi 10 minut, co, zakładając stałe tempo, przekłada się na 10 godzin pracy, by zakodować cały mecz. Jeśli więc

nie jest dla nas ważne, by przeanalizować dane z konkretnego meczu, najlepiej chyba skorzystać z tego, co już jest dostępne.

Mimo kilku kursów z analizy sieci nie czuję się szczególnie

Na dobry początek postanowiłam więc dość swobodny sposób zreplikować analizy zaraportowane tu, ale z wykorzystaniem danych pobranych ze StatsBomb. Podstawowe pytanie zatem brzmi: Czy właściwości sieci podań w danym meczu wiążą się z jakością występu drużyny?

Głównym problemem wydają się tu zmiany. Wydaje się, że obowiązującą wśród analityków zasadą jest

Aby uniknąć utraty danych, w swoich analizach przedstawiałam zawodniczkę z wyjściowej jedenastki i jej zmienniczkę jako jeden węzeł. Takie rozwiązanie nie jest oczywiście optymalne - dokonując zmian taktycznych, trenerki i trenerzy zmieniać liczebność poszczególnych formacji, np. wprowadzając obrończynię w miejsce napastniczki; tego typu okoliczności najpewniej rzutują i na to, do kogo dana osoba podaje, jak i w jakim obszarze boiska się znajduje. Biorąc jednak pod uwagę fakt, że zależy mi na uchwyceniu właściwości całej sieci, a nie charakterystyki poszczególnych węzłów, zaakceptowałam ten przetarg.

Aby utrzymać porównywalność pomiędzy meczami, analizowałam dane tylko z pierwszych 90 minut (w niektórych meczach - np. w zakończonym kanonadą chybionych karnych, ćwierćfinale Anglia-Szwecja - były dogrywki, podczas których właściwości sieci mogły się różnić od tych odnotowywanych w podstawowym czasie gry; swoją drogą to ciekawe pytanie empiryczne).

Dla każdego meczu zgromadziłam - liczbę strzelonych i straconych goli, liczbę strzałów, średnią jakość strzału oraz wynik, jakim zakończył się mecz (przegrana - remis - wygrana).

Ale, ale... Tak policzone korelacje nie uwzględniają hierarchicznej struktury danych - występ zespołu w danym meczu może zależeć zarówno od stałych właściwości tego zespołu, jak i od stałych właściwości zespołu przeciwnego czy charakterystyki danego meczu. Tego rodzaju dane należy analizować z wykorzystaniem modeli wielopoziomowych, w których jednostki obserwacji z poziomu 1 są zagnieżdżone w jednostkach obserwacji z poziomu 2 czy poziomu 3 (wyższe poziomy rzadko kiedy pojawiają się w literaturze). Jednocześnie dane dotyczące meczów mają nieco mniej typową strukturę hierarchiczną - zagnieżdżone są w dwóch oddzielnych klasyfikacjach z poziomu 2, czyli wewnątrz zespołów oraz ich oponentów.

Tego typu analizy umożliwiają m.in. sprawdzenie, za jaką część zróżnicowania (wariancji) danej zmiennej odpowiadają czynniki zlokalizowane na poziomie zespołu, oponenta i meczu.

W następnym wpisie sprawdzę, jak drużyny reagowały na utratę bramki oraz jakie właściwości sieci w w ciągu minionych 5 minut przewidywały strzelenie gola.