Analiza skupień - Politechnika Poznańska
Transkrypt
Analiza skupień - Politechnika Poznańska
Sprawozdanie - Case Study Analiza skupień na danych opisujących piłkarzy Politechnika Poznańska Wydział Informatyki, TPD Tomasz Cichowicz 89730 Filip Rytwiński 89819 1 Spis treści 1. Spis treści 2. Wstęp a. Uwagi początkowe b. Opis danych 3. Analiza danych a. Badanie zależności między zmiennymi b. Badanie zmienności atrybutów c. Standaryzacja wartości atrybutów d. Punkty odstające 4. Analiza skupień a. Analiza z użyciem hierarchicznych algorytmów aglomeracyjnych b. Analiza metodami podziałowo-optymalizacyjnymi 5. Opis skupień 6. Podsumowanie 7. Załącznik - dane źródłowe Wstęp W ramach tego studium przypadku należało dokonać analizy skupień, aby zapoznać się z różnymi metodami grupowania i sposobami doboru parametrów do nich. Uwagi początkowe Podczas wykonywania ćwiczenia używano oprogramowania Microsoft Excel 2013 oraz StatSoft Statistica w wersji 10. Wykorzystano algorytmy z dziedziny analizy skupień oraz funkcje statystyczne (statystyki opisowe) w implementacji Statistica. Excel posłużył jedynie jako narzędzie do przygotowania zbioru danych. Opis danych Zgodnie z poleceniem wybrano dane o wielu atrybutach. W celu uproszczenia analizy skupień wszystkie atrybuty są atrybutami liczbowymi. Zdecydowano się wybrać dane o piłkarzach z sezonu 2012/2013. Wybór piłkarzy kierowano osobistymi preferencjami zespołu przeprowadzającego poniższe studium przypadku. Wybrano piłkarzy głównie z pierwszych jedenastek dwóch drużyn: Realu Madryt i FC Barcelony. Listę graczy uzupełniono również o kilka znaczących postaci z angielskiej Premier League i hiszpańskiej Primera Divison. 2 Celowo wybrano graczy zróżnicowanych, grających na różnych pozycjach oraz o różnych stylach gry. Uwzględniono gwiazdy światowego futbolu, jak i zawodników mniej znanych, jednak każdy z graczy uczestniczy w różnych rozgrywkach na najwyższym poziomie. Analizowane statystyki meczowe są sumą wszystkich rozgrywek, w których gracz brał udział od początku sezonu 2012/2013 do końca roku 2012. Naszą intuicją jest, że zawodnicy będą różnić się ze względu na pozycję. Wszystkie dane pozyskano z serwisu transfermarkt.pl. W zbiorze danych nie występują braki wartości dla atrybutów. Dane zamieszczono w załączniku. Każdy z 39 graczy opisany jest przez 14 atrybutów wymienionych poniżej: ● Wiek, ● Wzrost, ● Wartość rynkowa, ● Liczba meczów, ● Liczba bramek strzelonych, ● Liczba bramek samobójczych, ● Liczba asyst, ● Żółte kartki, ● Dwie żółte kartki w jednym meczu, ● Czerwone kartki, ● Zmieniający (wchodzący) - liczba sytuacji, kiedy gracz zmieniał innego gracza, ● Zmieniany (schodzący) - liczba sytuacji, kiedy gracz był zmieniany przez innego gracza, ● Średnia liczba minut na jedną bramkę (jeśli gracz nie zdobył żadnej bramki w sezonie przyjęto wartość 0), ● Liczba minut spędzonych na boisku. Analiza danych Badanie zależności między zmiennymi Na początku wykonano analizę zależności pomiędzy atrybutami. W związku z faktem, iż wszystkie atrybuty są numeryczne wyliczono macierz korelacji między nimi. Na podstawie analizy otrzymanej macierzy postanowiono usunąć atrybut "liczba minut spędzonych na boisku". Do decyzji tej przyczynił się współczynnik korelacji z atrybutem "liczba meczów" o wartości 0,7 oraz słabsze korelacje z atrybutami "liczba żółtych kartek" (0,43) oraz "zmieniający (wchodzący)" (-0,561). Usunięto również atrybut wywiedziony "średnia liczba minut na jedną bramkę". Wyliczano go zgodnie ze wzorem: "liczba minut spędzonych na boisku"/"liczba bramek strzelonych". 3 Badanie zmienności atrybutów Przed rozpoczęciem analizy skupień na wybranym zbiorze danych wykonano analizę zmienności atrybutów. Wyliczenie podstawowych statystyk, takich jak odchylenie standardowe, wariancja oraz współczynnik zmienności, pozwoliło zredukować liczbę atrybutów o kolejne trzy: "dwie żółte kartki", "czerwone kartki" i "bramki samobójcze", otrzymując końcowo 9 atrybutów do dalszej analizy. Ww. atrybuty odrzucono ze względu na odchylenie standardowe bliskie zeru, przez co klasyczny współczynnik zmienności również był blisku zeru. Innymi słowy, dla odrzuconych atrybutów zróżnicowanie wartości było bardzo małe, przez co nie pełniłyby one dobrej roli dyskryminującej dla grupy obserwacji. Standaryzacja wartości atrybutów Charakterystyka danych wymusiła na zespole przeprowadzającym poniższe studium przypadku standaryzację wartości wszystkich atrybutów. Wynikało to z ogromnych różnic w rzędach wielkości pomiędzy poszczególnymi atrybutami (wartość rynkową graczy wyrażano w milionach euro, podczas gdy liczba bramek strzelonych nie przekraczała 36). Standaryzację wykonano przy użyciu oprogramowania Statistica. Wszystkie atrybuty traktowano z taką samą wagą. Punkty odstające Przed rozpoczęciem analizy skupień poddano badaniu występowanie w zbiorze danych punktów odstających. W tym celu wykonano analizę metodą Single Link Agglomerative Clustering do utworzenia drzewa hierarhicznego, na podstawie którego otrzymano dwa przykłady znacząco odstające od pozostałych. 4 Rys. 1 - analiza metodą Single Link Agglomerative Clustering Punkty te to rekordy opisujące Lionela Messiego i Cristiano Ronaldo. Postanowiono jednak uwzględnić obie te obserwacje w dalszej analizie, gdyż wspomniana wyżej dwójka uważana jest przez wielu za najlepszych obecnie piłkarzy na świecie, stąd znacząca odległość od pozostałych graczy. Analiza skupień Analiza z użyciem hierarchicznych algorytmów aglomeracyjnych W pierwszym kroku odnajdywania skupień w wybranym zbiorze danych wykorzystano algorytm aglomeracyjny zaimplementowane w pakiecie StatSoft Statistica. Krok ten miał na celu ułatwienie doboru liczby skupień dla dalszej analizy algorytmem k-średnich. Algorytm ten można sterować przez dobór metryki odległości i metody łączenia skupień. Początkowo korzystano z odległości euklidesowej i metody łączenia skupień poprzez pojedyncze wiązanie (rys. 1). Niestety charakterystyka otrzymanego drzewa pokazywałą, iż możliwe skupienia nie są od siebie znacząco oddalone. Niepoprawność modelu potwierdziła 5 również wiedza ekspercka, która nie pozwoliła znaleźć żadnych merytorycznych cech wspólnych dla możliwych skupień. Rys. 2 - wykres odległości wiązania względem etapów wiązania dla algorytmu aglomeracyjnego wykorzystującego odległość euklidesową i metodę łączenia poprzez pojedyncze wiązania Wykres na rysunku 2. ukazuje niską jakość otrzymanego modelu w kontekście kryterium zmienności międzyskupieniowej. Można na nim również zaobserwować wspomniane wcześniej dwa punkty osobliwe (nagły skok przy końcu wykresu). Podobne wyniki osiągnięto również używając metryki euklidesowej wraz z metodą pełnego wiązania, lecz powstało tam mniej grup, choć zlokalizowanych dalej od siebie (wyniki przedstawiono na rysunku 3). Z jednej strony ułatwiało to interpretację otrzymanych wyników, lecz uznaliśmy taki dendrogram za w dalszym ciągu niewystarczający. 6 Rys. 3 - Otrzymane drzewo (po lewej) i wykres odległości wiązania względem etapów wiązania (po prawej) dla algorytmu algomeracyjnego, odległość euklidesowa, pełne wiązania W dalszych krokach postanowiono wykonać analizę korzystając z innych metryk oraz innych metod łączenia skupień. Zbadano wiele kombinacji parametrów, ale najlepszą w sensie jakościowym (wykres odległości wiązania w kolejnych etapach), jak i wiedzy eksperckiej okazała się metoda minimalnej wariancji Warda w połączeniu z metryką r-Pearsona. Przy użyciu tych algorytmów udało się uzyskać model, który bardzo nas ucieszył, gdyż otrzymane grupy dzieliły piłkarzy ze względu na zajmowane przez nich pozycje na boisku i ich kluczowość dla całej drużyny (liderzy drużyny, zawodnicy podstawowi, czy rezerwowi). Drzewo uzyskane w tym przypadku przedstawia rysunek 4. 7 Rys. 4 - wynik algorytmu aglomeracyjnego dla metody Warda w połączeniu z metryką 1-r Pearsona Z powyższego diagramu widać, iż grupy powstające w procesie analizy skupień są wyraźnie od siebie oddzielone. Na podstawie kształtu otrzymanego drzewa można wyciągnąć wniosek, iż otrzymywane w kolejnych krokach grupy są równomierne jeśli chodzi o gęstość występowania w nich elementów zbioru wejściowego. Wskazuje na to kształt drzewa, który przypomina drzewo zrównoważone. Choć powstałe skupienia początkowo są niewielkie to odpowiednie przycięcie powstałego drzewa doprowadzi do powstania kilku skupień o sensownej merytorycznie zawartości. Kolejnym argumentem wspierającym tezę o dobrym pogrupowaniu badanych przykładów jest kształt wykresu odległości wiązania względem etapów wiązania przedstawiony na rysunku 5. Analiza rysunków 4 i 5. wskazuje na istnienie od 4 do 5 odległych od siebie skupień. 8 Rys. 5 - wykres odległości wiązania dla metody Warda w połączeniu z metryką 1-r Pearsona Analiza metodami podziałowo-optymalizacyjnymi Każda podziałowo-optymalizacyjna metoda analizy skupień na wejściu wymaga podania parametrów. W wypadku poniższego studium przypadku postanowiono użyć metody k-średnich. Metoda ta na wejściu wymaga podania oczekiwanej ilości skupień, liczby iteracji oraz kryterium wyboru początkowych obserwacji. W związku z tym, iż w poprzedniej części ćwiczenia zauważono, iż obserwacje są względnie blisko siebie postanowiono wybrać początkowe położenia centroidów maksymalizujące odległość międzyskupieniową. Na podstawie otrzymanych w poprzednim punkcie dendrogramów wyznaczono liczbę k. Zgodnie z najbardziej obiecującymi wynikami (metoda minimalnej wariancji Warda z metryką r-Pearsona) badania przeprowadzano używając k ϵ {4, 5, 6, 7}. Chęć sprawdzenia wyników algorytmu dla liczby skupień 6 i 7 podyktowana była także wynikami otrzymanymi dla metody pełnego wiązania przy użyciu metryki euklidesowej. 9 Jako pierwsze przedstawmy wyniki algorytmu dla k = 7. Dokładne przydziały do grup opisane zostaną w ostatnim punkcie sprawozdania. Otrzymane w tym przypadku grupy jedynie częściowo dają się wytłumaczyć wiedzą ekspercką, a dodatkowo nie można ich w łatwy sposób dyskryminować między sobą, co pokazuje wykres na rysunku 6. Rys. 6 - wykres średnich każdego skupienia dla k = 7 Wykres ten ukazuje, iż istnieje jedna grupa oddalona znacznie od innych, w momencie gdy 6 pozostałych nie daje się jednoznacznie rozdzielić używając wiedzy eksperckiej. Dodatkowo warto zaznaczyć, iż oddalona grupa jest jednoelementowa - jest to punkt odstający (Lionel Messi). Dla k ϵ {6, 5} otrzymano wyniki bardzo podobne, jak w przypadku k = 7. Grupy w dalszym ciągu były bliskie sobie, lecz udało się zauważyć trend, który pokazywał, iż wraz ze zmniejszaniem k, skupienia są bardziej wyraziste jeśli chodzi o "klasę" tworzących ją zawodników. 10 Rys. 7 - Wykresy średnich dla każdego skupienia dla k ϵ {5, 6} Jeśli chodzi o miary jakościowe, to zgodnie z przypuszczeniami wraz ze zmniejszaniem się k, malała zmienność międzyskupieniowa i zwiększała się zmienność wewnątrzskupieniowa, co początkowo nas zaniepokoiło, lecz biorąc pod uwagę otrzymywane wyniki postanowiliśmy kontynuować eksperyment. Wyniki te przedstawiono w tabeli 1. k Średnia odległość międzyskupieniowa Średnia odległość wewnątrzskupieniowa 4 16,93380 21,06620 5 19,07325 18,92675 6 20,30340 17,69660 7 22,56780 15,43221 Tab. 1 - średnie odległości międzyskupieniowe i wewnątrzskupieniowe dla różnych k Idąc krok dalej, dla k = 4, udało się osiągnąć niemalże idealną klasyfikację zawodników, która opisana zostanie w ostatnim punkcie poniższego sprawozdania. Jak łatwo zauważyć k = 4, jest wartością wskazaną przez algorytm hierarchiczny (metoda minimalnej wariancji Warda i metryka 1-r Pearsona) i od początku była faworytem przy doborze parametrów dla algorytmu podziałowo-optymalizacyjnego. Na rysunku 8 przedstawiono wykres średnich w otrzymanych grupach. 11 Rys. 8 - Wykres średnich dla każdego skupienia dla k = 4 Jak widać na powyższym, grupy są od siebie wyraźniej odseparowane. Dodatkowo utworzony przez algorytm model tłumaczy rzeczywistość, co jest potwierdzeniem poprawności doboru liczby skupień dla algorytmu. Opis skupień 1 Cristiano Ronaldo, Falcao, Lionel Messi, Zlatan Ibrahimovic, Robin van Persie, Robert Lewandowski 2 Álvaro Arbeloa, Carles Puyol, Victor Valdés, Iker Casillas, David Villa, Adriano, Xavi, Dani Alves 3 Mesut Özil, Ángel Di María, Karim Benzema, Alexis Sanchez, Stephan El Shaarawy, Pedro, Jordi Alba 4 José María Callejón, Christial Tello, Martin Montoya, Gonzalo Higuaín, Alex Song 12 5 Marcelo, Wayne Rooney, Cesc Fabregas, Andres Iniesta 6 Pepe, Sergio Ramos, Sergio Busquets, Xabi Alonso, Javier Mascherano 7 Sami Khedira, David de Gea, Gerard Pique, Joe Hart Tab. 2 - skupienia odczytane z dendrogramu z rysunku 4 dla odległości 2 Na początku opiszmy wynik działania algorytmu hierarchicznego z metodą Warda i metryką 1r Pearsona. Pierwsze ze skupień zawiera wybitnych piłkarzy grających w ofensywie, przez co możemy powiedzić, iż jego centroid przedstawia profil świetnego napastnika. Skupienie 4 to gracze rezerwowi i kontuzjowani, natomiast klasa 6 przedstawia graczy z pola o nastawieniu typowo defensywnym. Niestety kolejne skupienia nie posiadają już tak jednoznacznej charakterystyki. Zawierają one graczy zarówno atakujących, bramkarzy, obrońców jak i rezerwowych. Widać pewne tendencje - np. skupienie drugie to obrońcy i bramkarze, a trzecie i piąte to pomocnicy i napastnicy z błędnie zaklasyfikowanymi bocznymi obrońcami. Nie widzimy jednoznacznych zależności od wzrostu czy wieku. Jedynymi silnymi regułami opisującymi grupy jest liczba bramek i wartość rynkowa gracza, co widać szczególnie po pierwszej grupie, w mniejszym stopniu po kolejnych. 1 Gonzalo Higuaín, Marcelo, Xavi, Alex Song, Martin Montoya, Dani Alves, Adriano, Jordi Alba, Carles Puyol 2 Cristiano Ronaldo, Falcao, Zlatan Ibrahimovic, Robin van Persie, Wayne Rooney, Robert Lewandowski, Lionel Messi 3 Pepe, Sergio Ramos, Álvaro Arbeloa, Sami Khedira, Xabi Alonso, Victor Valdés Sergio Busquets, Javier Mascherano, Gerard Pique, Iker Casillas, Joe Hart, David de Gea 4 Mesut Özil, José María Callejón, Ángel Di María, Karim Benzema, Stephan El Shaarawy, David Villa, Pedro, Alexis Sanchez, Christial Tello, Cesc Fabregas, Andres Iniesta Tab. 3 - skupienia otrzymane w wyniku działania algorytmu k-średnich dla k = 4; wyróżniono graczy najbliższych środkowi centroidu Wynik działania algorytmu k-średnich przedstawiony w tabeli 3 dla najmniejszego z badanych k jest najbardziej korzystny, pomimo że niektóre klasy zostały lekko wymieszane. Analizując wspomnianą tabelę oraz rysunek 8, można zauważyć, iż pierwsza klasa prezentuje graczy rezerwowych, kontuzjowanych w sezonie 2012/2013 oraz bocznych obrońców. Cechują ich ogólnie niskie statystyki. Druga z odnalezionych klas to napastnicy, typowi strzelcy bramek, gwiazdy zespołów, a co za tym idzie zawodnicy najdroższi. Skupienie trzecie to zawodnicy odpowiedzialni za strefę obronną, także bramkarze. Charakteryzują się sporym wzrostem oraz niską liczbą bramek i asyst. Ostatnią, czwartą klasę reprezentują pomocnicy i napastnicy nie będący "typowymi 9", a więc wracający często do środka pola. Są oni najczęściej autorami ostatnich podań oraz często wymieniają się, ze względu na spory dystans, który muszą 13 pokonać w każdym meczu. Dodatkowo w ramach ciekawostki, graczy podkreślonych w tabeli 3 traktować możemy jako średni obraz piłkarza w danej grupie. Idąc tym tropem, Pepe przedstawia model średniego, jeśli chodzi o wartości badanych atrybutów, obrońcy. Podsumowanie Na podstawie rzeczywistych danych wejściowych udało się uzyskać zadziwiająco dobre wyniki analizy skupień. Otrzymano grupy opisujące funkcje piłkarzy na boisku i w drużynie. Eksperyment wykazał, iż wykorzystanie jedynie algorytmu AHC nie było wystarczające, gdyż otrzymane grupy nie były interpretowalne w kontekście posiadanej przez nas wiedzy eksperckiej. Natomiast na jego podstawie wyznaczono parametr k, dzięki któremu osiągnięto bardzo dobre wyniki przy użyciu algorytmu k-średnich. Pomimo pogorszania zmienności wewnątrz i między skupieniowych sensownym w kontekście interpretacji wyników okazała się wartość k = 4. Gorsze wartości owych statystyk skutkowały mieszaniem się niektórych informacji. Przykładowo nie ma rozróżnienia pomiędzy bramkarzem, a obrońcą, lecz nie występują grupy, które trudno jednoznacznie opisać jakościowo. Jak opisano w poniższym studium przypadku, grupowanie nie było determinowane przez jeden, bądź dwa atrybuty, lecz okazało się skomplikowane i złożone (model obrońcy, a model napastnika). Załącznik - dane źródłowe Legenda atrybutów: 1. Imię i nazwisko 2. Wiek 3. Wzrost 4. Wartość rynkowa 5. Mecze 6. Bramki 7. Bramki samobójcze 8. Asysty 9. Żółte kartki 10. Dwie żółte kartki 11. Czerwone kartki 12. Zmieniający (wchodzący) 13. Zmieniany (schodzący) 14. Minuty na boisku 15. Minuty na bramkę 14 1 2 3 Mesut Özil 24 183 José María Callejón 25 Ángel Di María 4 5 6 7 8 9 10 11 12 40000000 30 10 0 10 4 0 0 5 178 8000000 23 5 0 4 0 0 0 24 180 40000000 28 5 0 10 3 0 Cristiano Ronaldo 27 186 100000000 13 25 0 6 7 Karim Benzema 25 184 40000000 29 10 0 14 Gonzalo Higuaín 25 184 38000000 16 8 0 Pepe 29 187 30000000 28 2 Sergio Ramos 26 183 40000000 28 Marcelo 24 172 30000000 Álvaro Arbeloa 29 183 Sami Khedira 25 Xabi Alonso 13 14 15 11 2151 215 13 5 1092 218 0 8 14 1802 360 0 0 0 3 2687 107 0 0 0 9 13 1711 171 3 1 0 0 5 7 980 123 0 1 7 0 0 1 1 2453 1227 3 0 1 7 0 0 2 1 2427 809 13 1 0 3 1 0 0 1 2 1130 1130 12000000 25 0 1 1 5 1 0 1 8 2056 0 189 25000000 22 1 1 3 3 0 0 3 5 1567 1567 31 183 30000000 28 0 0 4 10 0 0 1 3 2391 0 Falcao 26 176 50000000 18 20 0 2 5 0 0 0 4 1521 76 Zlatan Ibrahimovic 31 195 35000000 28 26 0 12 5 0 1 0 2 2437 94 Stephan El Shaarawy 20 178 16000000 27 17 0 4 4 0 0 3 10 1988 117 Robin van Persie 29 186 43000000 26 18 0 8 5 0 0 3 4 2064 115 Wayne Rooney 27 176 65000000 21 11 1 11 4 0 0 2 8 1660 151 Robert Lewandowski 24 184 25000000 31 16 0 10 2 0 0 1 3 2674 167 Victor Valdés 30 183 18000000 25 0 0 0 0 0 0 0 1 2218 0 Lionel Messi 25 169 120000000 28 36 0 9 1 0 0 2 0 2406 67 David Villa 31 175 28000000 22 9 0 2 1 0 0 11 9 927 103 Pedro 25 169 28000000 28 7 0 12 5 0 0 4 12 2127 304 15 Alexis Sanchez 24 169 38000000 21 1 0 4 1 0 0 7 9 1252 1252 Christial Tello 21 178 7500000 20 4 0 4 1 0 0 10 6 955 239 Cesc Fabregas 25 179 55000000 27 8 0 12 4 0 0 6 8 1739 217 Andres Iniesta 28 171 70000000 24 3 0 16 1 0 0 5 6 1672 557 Xavi 32 170 30000000 28 5 0 7 0 0 0 3 5 2284 457 Alex Song 25 184 25000000 18 1 0 0 2 0 0 6 1 1139 1139 Sergio Busquets 24 189 42000000 27 1 0 1 7 0 1 2 5 2211 2211 Martin Montoya 21 175 8000000 16 0 0 3 0 0 0 7 0 1050 0 Dani Alves 29 173 30000000 22 1 1 2 0 0 0 2 7 1599 1599 Adriano 28 172 12000000 20 6 0 1 2 0 1 3 6 1404 234 Jordi Alba 23 170 20000000 26 4 1 4 3 0 0 2 5 2143 536 Javier Mascherano 28 174 30000000 24 0 0 1 5 1 0 2 2 1999 0 Carles Puyol 34 178 6000000 10 1 0 0 2 0 0 0 6 735 735 Gerard Pique 25 192 40000000 20 1 0 0 4 0 0 3 2 1490 1490 Iker Casillas 31 182 35000000 28 0 0 0 1 0 0 2 0 2422 0 Joe Hart 25 196 23500000 31 0 0 0 0 0 0 0 0 2790 0 David de Gea 22 192 17500000 20 0 0 0 0 0 0 0 0 1800 0 16