Analiza skupień - Politechnika Poznańska

Transkrypt

Analiza skupień - Politechnika Poznańska
Sprawozdanie - Case Study
Analiza skupień na danych
opisujących piłkarzy
Politechnika Poznańska
Wydział Informatyki, TPD
Tomasz Cichowicz 89730
Filip Rytwiński 89819
1
Spis treści
1. Spis treści
2. Wstęp
a. Uwagi początkowe
b. Opis danych
3. Analiza danych
a. Badanie zależności między zmiennymi
b. Badanie zmienności atrybutów
c. Standaryzacja wartości atrybutów
d. Punkty odstające
4. Analiza skupień
a. Analiza z użyciem hierarchicznych algorytmów aglomeracyjnych
b. Analiza metodami podziałowo-optymalizacyjnymi
5. Opis skupień
6. Podsumowanie
7. Załącznik - dane źródłowe
Wstęp
W ramach tego studium przypadku należało dokonać analizy skupień, aby zapoznać się z
różnymi metodami grupowania i sposobami doboru parametrów do nich.
Uwagi początkowe
Podczas wykonywania ćwiczenia używano oprogramowania Microsoft Excel 2013 oraz
StatSoft Statistica w wersji 10. Wykorzystano algorytmy z dziedziny analizy skupień oraz
funkcje statystyczne (statystyki opisowe) w implementacji Statistica. Excel posłużył jedynie jako
narzędzie do przygotowania zbioru danych.
Opis danych
Zgodnie z poleceniem wybrano dane o wielu atrybutach. W celu uproszczenia analizy skupień
wszystkie atrybuty są atrybutami liczbowymi.
Zdecydowano się wybrać dane o piłkarzach z sezonu 2012/2013. Wybór piłkarzy kierowano
osobistymi preferencjami zespołu przeprowadzającego poniższe studium przypadku. Wybrano
piłkarzy głównie z pierwszych jedenastek dwóch drużyn: Realu Madryt i FC Barcelony.
Listę graczy uzupełniono również o kilka znaczących postaci z angielskiej Premier League i
hiszpańskiej Primera Divison.
2
Celowo wybrano graczy zróżnicowanych, grających na różnych pozycjach oraz o różnych
stylach gry. Uwzględniono gwiazdy światowego futbolu, jak i zawodników mniej znanych, jednak
każdy z graczy uczestniczy w różnych rozgrywkach na najwyższym poziomie. Analizowane
statystyki meczowe są sumą wszystkich rozgrywek, w których gracz brał udział od początku
sezonu 2012/2013 do końca roku 2012. Naszą intuicją jest, że zawodnicy będą różnić się ze
względu na pozycję.
Wszystkie dane pozyskano z serwisu transfermarkt.pl. W zbiorze danych nie występują braki
wartości dla atrybutów. Dane zamieszczono w załączniku.
Każdy z 39 graczy opisany jest przez 14 atrybutów wymienionych poniżej:
● Wiek,
● Wzrost,
● Wartość rynkowa,
● Liczba meczów,
● Liczba bramek strzelonych,
● Liczba bramek samobójczych,
● Liczba asyst,
● Żółte kartki,
● Dwie żółte kartki w jednym meczu,
● Czerwone kartki,
● Zmieniający (wchodzący) - liczba sytuacji, kiedy gracz zmieniał innego gracza,
● Zmieniany (schodzący) - liczba sytuacji, kiedy gracz był zmieniany przez innego gracza,
● Średnia liczba minut na jedną bramkę (jeśli gracz nie zdobył żadnej bramki w sezonie
przyjęto wartość 0),
● Liczba minut spędzonych na boisku.
Analiza danych
Badanie zależności między zmiennymi
Na początku wykonano analizę zależności pomiędzy atrybutami. W związku z faktem, iż
wszystkie atrybuty są numeryczne wyliczono macierz korelacji między nimi. Na podstawie
analizy otrzymanej macierzy postanowiono usunąć atrybut "liczba minut spędzonych na
boisku". Do decyzji tej przyczynił się współczynnik korelacji z atrybutem "liczba meczów" o
wartości 0,7 oraz słabsze korelacje z atrybutami "liczba żółtych kartek" (0,43) oraz "zmieniający
(wchodzący)" (-0,561).
Usunięto również atrybut wywiedziony "średnia liczba minut na jedną bramkę". Wyliczano go
zgodnie ze wzorem: "liczba minut spędzonych na boisku"/"liczba bramek strzelonych".
3
Badanie zmienności atrybutów
Przed rozpoczęciem analizy skupień na wybranym zbiorze danych wykonano analizę
zmienności atrybutów. Wyliczenie podstawowych statystyk, takich jak odchylenie standardowe,
wariancja oraz współczynnik zmienności, pozwoliło zredukować liczbę atrybutów o kolejne
trzy: "dwie żółte kartki", "czerwone kartki" i "bramki samobójcze", otrzymując końcowo 9
atrybutów do dalszej analizy. Ww. atrybuty odrzucono ze względu na odchylenie standardowe
bliskie zeru, przez co klasyczny współczynnik zmienności również był blisku zeru. Innymi słowy,
dla odrzuconych atrybutów zróżnicowanie wartości było bardzo małe, przez co nie pełniłyby one
dobrej roli dyskryminującej dla grupy obserwacji.
Standaryzacja wartości atrybutów
Charakterystyka danych wymusiła na zespole przeprowadzającym poniższe studium przypadku
standaryzację wartości wszystkich atrybutów. Wynikało to z ogromnych różnic w rzędach
wielkości pomiędzy poszczególnymi atrybutami (wartość rynkową graczy wyrażano w milionach
euro, podczas gdy liczba bramek strzelonych nie przekraczała 36). Standaryzację wykonano
przy użyciu oprogramowania Statistica. Wszystkie atrybuty traktowano z taką samą wagą.
Punkty odstające
Przed rozpoczęciem analizy skupień poddano badaniu występowanie w zbiorze danych
punktów odstających. W tym celu wykonano analizę metodą Single Link Agglomerative
Clustering do utworzenia drzewa hierarhicznego, na podstawie którego otrzymano dwa
przykłady znacząco odstające od pozostałych.
4
Rys. 1 - analiza metodą Single Link Agglomerative Clustering
Punkty te to rekordy opisujące Lionela Messiego i Cristiano Ronaldo. Postanowiono jednak
uwzględnić obie te obserwacje w dalszej analizie, gdyż wspomniana wyżej dwójka uważana
jest przez wielu za najlepszych obecnie piłkarzy na świecie, stąd znacząca odległość od
pozostałych graczy.
Analiza skupień
Analiza z użyciem hierarchicznych algorytmów aglomeracyjnych
W pierwszym kroku odnajdywania skupień w wybranym zbiorze danych wykorzystano algorytm
aglomeracyjny zaimplementowane w pakiecie StatSoft Statistica. Krok ten miał na celu
ułatwienie doboru liczby skupień dla dalszej analizy algorytmem k-średnich. Algorytm ten
można sterować przez dobór metryki odległości i metody łączenia skupień.
Początkowo korzystano z odległości euklidesowej i metody łączenia skupień poprzez
pojedyncze wiązanie (rys. 1). Niestety charakterystyka otrzymanego drzewa pokazywałą,
iż możliwe skupienia nie są od siebie znacząco oddalone. Niepoprawność modelu potwierdziła
5
również wiedza ekspercka, która nie pozwoliła znaleźć żadnych merytorycznych cech
wspólnych dla możliwych skupień.
Rys. 2 - wykres odległości wiązania względem etapów wiązania dla algorytmu aglomeracyjnego
wykorzystującego odległość euklidesową i metodę łączenia poprzez pojedyncze wiązania
Wykres na rysunku 2. ukazuje niską jakość otrzymanego modelu w kontekście kryterium
zmienności międzyskupieniowej. Można na nim również zaobserwować wspomniane wcześniej
dwa punkty osobliwe (nagły skok przy końcu wykresu).
Podobne wyniki osiągnięto również używając metryki euklidesowej wraz z metodą pełnego
wiązania, lecz powstało tam mniej grup, choć zlokalizowanych dalej od siebie (wyniki
przedstawiono na rysunku 3). Z jednej strony ułatwiało to interpretację otrzymanych wyników,
lecz uznaliśmy taki dendrogram za w dalszym ciągu niewystarczający.
6
Rys. 3 - Otrzymane drzewo (po lewej) i wykres odległości wiązania względem etapów wiązania
(po prawej) dla algorytmu algomeracyjnego, odległość euklidesowa, pełne wiązania
W dalszych krokach postanowiono wykonać analizę korzystając z innych metryk oraz innych
metod łączenia skupień. Zbadano wiele kombinacji parametrów, ale najlepszą w sensie
jakościowym (wykres odległości wiązania w kolejnych etapach), jak i wiedzy eksperckiej
okazała się metoda minimalnej wariancji Warda w połączeniu z metryką r-Pearsona.
Przy użyciu tych algorytmów udało się uzyskać model, który bardzo nas ucieszył, gdyż
otrzymane grupy dzieliły piłkarzy ze względu na zajmowane przez nich pozycje na boisku i ich
kluczowość dla całej drużyny (liderzy drużyny, zawodnicy podstawowi, czy rezerwowi). Drzewo
uzyskane w tym przypadku przedstawia rysunek 4.
7
Rys. 4 - wynik algorytmu aglomeracyjnego dla metody Warda w połączeniu z metryką 1-r
Pearsona
Z powyższego diagramu widać, iż grupy powstające w procesie analizy skupień są wyraźnie od
siebie oddzielone. Na podstawie kształtu otrzymanego drzewa można wyciągnąć wniosek, iż
otrzymywane w kolejnych krokach grupy są równomierne jeśli chodzi o gęstość występowania
w nich elementów zbioru wejściowego. Wskazuje na to kształt drzewa, który przypomina
drzewo zrównoważone. Choć powstałe skupienia początkowo są niewielkie to odpowiednie
przycięcie powstałego drzewa doprowadzi do powstania kilku skupień o sensownej
merytorycznie zawartości.
Kolejnym argumentem wspierającym tezę o dobrym pogrupowaniu badanych przykładów jest
kształt wykresu odległości wiązania względem etapów wiązania przedstawiony na rysunku 5.
Analiza rysunków 4 i 5. wskazuje na istnienie od 4 do 5 odległych od siebie skupień.
8
Rys. 5 - wykres odległości wiązania dla metody Warda w połączeniu z metryką 1-r Pearsona
Analiza metodami podziałowo-optymalizacyjnymi
Każda podziałowo-optymalizacyjna metoda analizy skupień na wejściu wymaga podania
parametrów. W wypadku poniższego studium przypadku postanowiono użyć metody k-średnich.
Metoda ta na wejściu wymaga podania oczekiwanej ilości skupień, liczby iteracji oraz kryterium
wyboru początkowych obserwacji.
W związku z tym, iż w poprzedniej części ćwiczenia zauważono, iż obserwacje są względnie
blisko siebie postanowiono wybrać początkowe położenia centroidów maksymalizujące
odległość międzyskupieniową.
Na podstawie otrzymanych w poprzednim punkcie dendrogramów wyznaczono liczbę k.
Zgodnie z najbardziej obiecującymi wynikami (metoda minimalnej wariancji Warda z metryką
r-Pearsona) badania przeprowadzano używając k ϵ {4, 5, 6, 7}. Chęć sprawdzenia wyników
algorytmu dla liczby skupień 6 i 7 podyktowana była także wynikami otrzymanymi dla metody
pełnego wiązania przy użyciu metryki euklidesowej.
9
Jako pierwsze przedstawmy wyniki algorytmu dla k = 7. Dokładne przydziały do grup opisane
zostaną w ostatnim punkcie sprawozdania. Otrzymane w tym przypadku grupy jedynie
częściowo dają się wytłumaczyć wiedzą ekspercką, a dodatkowo nie można ich w łatwy sposób
dyskryminować między sobą, co pokazuje wykres na rysunku 6.
Rys. 6 - wykres średnich każdego skupienia dla k = 7
Wykres ten ukazuje, iż istnieje jedna grupa oddalona znacznie od innych, w momencie gdy 6
pozostałych nie daje się jednoznacznie rozdzielić używając wiedzy eksperckiej. Dodatkowo
warto zaznaczyć, iż oddalona grupa jest jednoelementowa - jest to punkt odstający (Lionel
Messi).
Dla k ϵ {6, 5} otrzymano wyniki bardzo podobne, jak w przypadku k = 7. Grupy w dalszym ciągu
były bliskie sobie, lecz udało się zauważyć trend, który pokazywał, iż wraz ze zmniejszaniem k,
skupienia są bardziej wyraziste jeśli chodzi o "klasę" tworzących ją zawodników.
10
Rys. 7 - Wykresy średnich dla każdego skupienia dla k ϵ {5, 6}
Jeśli chodzi o miary jakościowe, to zgodnie z przypuszczeniami wraz ze zmniejszaniem się
k, malała zmienność międzyskupieniowa i zwiększała się zmienność wewnątrzskupieniowa,
co początkowo nas zaniepokoiło, lecz biorąc pod uwagę otrzymywane wyniki postanowiliśmy
kontynuować eksperyment. Wyniki te przedstawiono w tabeli 1.
k
Średnia odległość międzyskupieniowa
Średnia odległość wewnątrzskupieniowa
4
16,93380
21,06620
5
19,07325
18,92675
6
20,30340
17,69660
7
22,56780
15,43221
Tab. 1 - średnie odległości międzyskupieniowe i wewnątrzskupieniowe dla różnych k
Idąc krok dalej, dla k = 4, udało się osiągnąć niemalże idealną klasyfikację zawodników, która
opisana zostanie w ostatnim punkcie poniższego sprawozdania. Jak łatwo zauważyć k = 4,
jest wartością wskazaną przez algorytm hierarchiczny (metoda minimalnej wariancji Warda i
metryka 1-r Pearsona) i od początku była faworytem przy doborze parametrów dla algorytmu
podziałowo-optymalizacyjnego. Na rysunku 8 przedstawiono wykres średnich w otrzymanych
grupach.
11
Rys. 8 - Wykres średnich dla każdego skupienia dla k = 4
Jak widać na powyższym, grupy są od siebie wyraźniej odseparowane. Dodatkowo utworzony
przez algorytm model tłumaczy rzeczywistość, co jest potwierdzeniem poprawności doboru
liczby skupień dla algorytmu.
Opis skupień
1
Cristiano Ronaldo, Falcao, Lionel Messi, Zlatan Ibrahimovic, Robin van Persie, Robert
Lewandowski
2
Álvaro Arbeloa, Carles Puyol, Victor Valdés, Iker Casillas, David Villa, Adriano, Xavi,
Dani Alves
3
Mesut Özil, Ángel Di María, Karim Benzema, Alexis Sanchez, Stephan El Shaarawy,
Pedro, Jordi Alba
4
José María Callejón, Christial Tello, Martin Montoya, Gonzalo Higuaín, Alex Song
12
5
Marcelo, Wayne Rooney, Cesc Fabregas, Andres Iniesta
6
Pepe, Sergio Ramos, Sergio Busquets, Xabi Alonso, Javier Mascherano
7
Sami Khedira, David de Gea, Gerard Pique, Joe Hart
Tab. 2 - skupienia odczytane z dendrogramu z rysunku 4 dla odległości 2
Na początku opiszmy wynik działania algorytmu hierarchicznego z metodą Warda i metryką 1r Pearsona. Pierwsze ze skupień zawiera wybitnych piłkarzy grających w ofensywie, przez co
możemy powiedzić, iż jego centroid przedstawia profil świetnego napastnika. Skupienie 4 to
gracze rezerwowi i kontuzjowani, natomiast klasa 6 przedstawia graczy z pola o nastawieniu
typowo defensywnym. Niestety kolejne skupienia nie posiadają już tak jednoznacznej
charakterystyki. Zawierają one graczy zarówno atakujących, bramkarzy, obrońców jak i
rezerwowych. Widać pewne tendencje - np. skupienie drugie to obrońcy i bramkarze, a trzecie i
piąte to pomocnicy i napastnicy z błędnie zaklasyfikowanymi bocznymi obrońcami. Nie widzimy
jednoznacznych zależności od wzrostu czy wieku. Jedynymi silnymi regułami opisującymi grupy
jest liczba bramek i wartość rynkowa gracza, co widać szczególnie po pierwszej grupie, w
mniejszym stopniu po kolejnych.
1
Gonzalo Higuaín, Marcelo, Xavi, Alex Song, Martin Montoya, Dani Alves, Adriano, Jordi
Alba, Carles Puyol
2
Cristiano Ronaldo, Falcao, Zlatan Ibrahimovic, Robin van Persie, Wayne Rooney,
Robert Lewandowski, Lionel Messi
3
Pepe, Sergio Ramos, Álvaro Arbeloa, Sami Khedira, Xabi Alonso, Victor Valdés Sergio
Busquets, Javier Mascherano, Gerard Pique, Iker Casillas, Joe Hart, David de Gea
4
Mesut Özil, José María Callejón, Ángel Di María, Karim Benzema, Stephan El
Shaarawy, David Villa, Pedro, Alexis Sanchez, Christial Tello, Cesc Fabregas, Andres
Iniesta
Tab. 3 - skupienia otrzymane w wyniku działania algorytmu k-średnich dla k = 4; wyróżniono
graczy najbliższych środkowi centroidu
Wynik działania algorytmu k-średnich przedstawiony w tabeli 3 dla najmniejszego z badanych
k jest najbardziej korzystny, pomimo że niektóre klasy zostały lekko wymieszane. Analizując
wspomnianą tabelę oraz rysunek 8, można zauważyć, iż pierwsza klasa prezentuje graczy
rezerwowych, kontuzjowanych w sezonie 2012/2013 oraz bocznych obrońców. Cechują ich
ogólnie niskie statystyki. Druga z odnalezionych klas to napastnicy, typowi strzelcy bramek,
gwiazdy zespołów, a co za tym idzie zawodnicy najdroższi. Skupienie trzecie to zawodnicy
odpowiedzialni za strefę obronną, także bramkarze. Charakteryzują się sporym wzrostem oraz
niską liczbą bramek i asyst. Ostatnią, czwartą klasę reprezentują pomocnicy i napastnicy nie
będący "typowymi 9", a więc wracający często do środka pola. Są oni najczęściej autorami
ostatnich podań oraz często wymieniają się, ze względu na spory dystans, który muszą
13
pokonać w każdym meczu.
Dodatkowo w ramach ciekawostki, graczy podkreślonych w tabeli 3 traktować możemy jako
średni obraz piłkarza w danej grupie. Idąc tym tropem, Pepe przedstawia model średniego, jeśli
chodzi o wartości badanych atrybutów, obrońcy.
Podsumowanie
Na podstawie rzeczywistych danych wejściowych udało się uzyskać zadziwiająco dobre wyniki
analizy skupień. Otrzymano grupy opisujące funkcje piłkarzy na boisku i w drużynie.
Eksperyment wykazał, iż wykorzystanie jedynie algorytmu AHC nie było wystarczające,
gdyż otrzymane grupy nie były interpretowalne w kontekście posiadanej przez nas wiedzy
eksperckiej. Natomiast na jego podstawie wyznaczono parametr k, dzięki któremu osiągnięto
bardzo dobre wyniki przy użyciu algorytmu k-średnich.
Pomimo pogorszania zmienności wewnątrz i między skupieniowych sensownym w kontekście
interpretacji wyników okazała się wartość k = 4. Gorsze wartości owych statystyk skutkowały
mieszaniem się niektórych informacji. Przykładowo nie ma rozróżnienia pomiędzy bramkarzem,
a obrońcą, lecz nie występują grupy, które trudno jednoznacznie opisać jakościowo.
Jak opisano w poniższym studium przypadku, grupowanie nie było determinowane przez
jeden, bądź dwa atrybuty, lecz okazało się skomplikowane i złożone (model obrońcy, a model
napastnika).
Załącznik - dane źródłowe
Legenda atrybutów:
1. Imię i nazwisko
2. Wiek
3. Wzrost
4. Wartość rynkowa
5. Mecze
6. Bramki
7. Bramki samobójcze
8. Asysty
9. Żółte kartki
10. Dwie żółte kartki
11. Czerwone kartki
12. Zmieniający (wchodzący)
13. Zmieniany (schodzący)
14. Minuty na boisku
15. Minuty na bramkę
14
1
2
3
Mesut Özil
24
183
José María
Callejón
25
Ángel Di
María
4
5
6
7
8
9
10
11
12
40000000
30
10
0
10
4
0
0
5
178
8000000
23
5
0
4
0
0
0
24
180
40000000
28
5
0
10
3
0
Cristiano
Ronaldo
27
186
100000000
13
25
0
6
7
Karim
Benzema
25
184
40000000
29
10
0
14
Gonzalo
Higuaín
25
184
38000000
16
8
0
Pepe
29
187
30000000
28
2
Sergio
Ramos
26
183
40000000
28
Marcelo
24
172
30000000
Álvaro
Arbeloa
29
183
Sami Khedira
25
Xabi Alonso
13
14
15
11
2151
215
13
5
1092
218
0
8
14
1802
360
0
0
0
3
2687
107
0
0
0
9
13
1711
171
3
1
0
0
5
7
980
123
0
1
7
0
0
1
1
2453
1227
3
0
1
7
0
0
2
1
2427
809
13
1
0
3
1
0
0
1
2
1130
1130
12000000
25
0
1
1
5
1
0
1
8
2056
0
189
25000000
22
1
1
3
3
0
0
3
5
1567
1567
31
183
30000000
28
0
0
4
10
0
0
1
3
2391
0
Falcao
26
176
50000000
18
20
0
2
5
0
0
0
4
1521
76
Zlatan
Ibrahimovic
31
195
35000000
28
26
0
12
5
0
1
0
2
2437
94
Stephan El
Shaarawy
20
178
16000000
27
17
0
4
4
0
0
3
10
1988
117
Robin van
Persie
29
186
43000000
26
18
0
8
5
0
0
3
4
2064
115
Wayne
Rooney
27
176
65000000
21
11
1
11
4
0
0
2
8
1660
151
Robert
Lewandowski
24
184
25000000
31
16
0
10
2
0
0
1
3
2674
167
Victor Valdés
30
183
18000000
25
0
0
0
0
0
0
0
1
2218
0
Lionel Messi
25
169
120000000
28
36
0
9
1
0
0
2
0
2406
67
David Villa
31
175
28000000
22
9
0
2
1
0
0
11
9
927
103
Pedro
25
169
28000000
28
7
0
12
5
0
0
4
12
2127
304
15
Alexis
Sanchez
24
169
38000000
21
1
0
4
1
0
0
7
9
1252
1252
Christial Tello
21
178
7500000
20
4
0
4
1
0
0
10
6
955
239
Cesc
Fabregas
25
179
55000000
27
8
0
12
4
0
0
6
8
1739
217
Andres
Iniesta
28
171
70000000
24
3
0
16
1
0
0
5
6
1672
557
Xavi
32
170
30000000
28
5
0
7
0
0
0
3
5
2284
457
Alex Song
25
184
25000000
18
1
0
0
2
0
0
6
1
1139
1139
Sergio
Busquets
24
189
42000000
27
1
0
1
7
0
1
2
5
2211
2211
Martin
Montoya
21
175
8000000
16
0
0
3
0
0
0
7
0
1050
0
Dani Alves
29
173
30000000
22
1
1
2
0
0
0
2
7
1599
1599
Adriano
28
172
12000000
20
6
0
1
2
0
1
3
6
1404
234
Jordi Alba
23
170
20000000
26
4
1
4
3
0
0
2
5
2143
536
Javier
Mascherano
28
174
30000000
24
0
0
1
5
1
0
2
2
1999
0
Carles Puyol
34
178
6000000
10
1
0
0
2
0
0
0
6
735
735
Gerard Pique
25
192
40000000
20
1
0
0
4
0
0
3
2
1490
1490
Iker Casillas
31
182
35000000
28
0
0
0
1
0
0
2
0
2422
0
Joe Hart
25
196
23500000
31
0
0
0
0
0
0
0
0
2790
0
David de Gea
22
192
17500000
20
0
0
0
0
0
0
0
0
1800
0
16