Zestaw 2. - Uniwersytet Ekonomiczny w Katowicach

Transkrypt

Zestaw 2. - Uniwersytet Ekonomiczny w Katowicach
Uniwersytet Ekonomiczny w Katowicach
Wydział Zarządzania, Kierunek Analityka Gospodarcza
Zestaw 2. zadań z metod klasyfikacji1
Taksonomia
Do rozwiązania zadań w tym zestawie wykorzystaj zbiór danych znajdujący się na stronach internetowych:
http://web2.ue.katowice.pl/trzesiok/j zb do zestawu2.sav
http://web2.ue.katowice.pl/trzesiok/j zb do zestawu2.csv
Zadanie 1. Wyznacz macierz odległości euklidesowych pomiędzy obiektami w zbiorze danych (województwami) i zbuduj dendryt za pomocą taksonomii wrocławskiej. Następnie utwórz klasy (grupy województw)
rozcinając dendryt na krawędziach dłuższych niż 1,93 (zadana wartość 1, 93 = d¯i + sdi ).
Zadanie 2. Wykorzystując hierarchiczną analizę skupień, zaimplementowaną w programie SPSS:
• utwórz dendrogram dla analizowanych województw, przyjmując jako metodę skupień metodę Warda
z kwadratem odległości euklidesowych,
• rozetnij dendrogram, wykorzystując optymalną wartość jednego z kryteriów:
– lokalnego maksimum bezwzględnego przyrostu odległości kofenetycznych ((hi+1 − hi ) −→ max)
– lokalnego maksimum ilorazu odległości kofenetycznych ( hhi+1
−→ max)
i
i podaj skład otrzymanych grup, czyli klas województw podobnych pod względem bezrobocia.
Zadanie 3. Za pomocą indeksu Backera-Hubera (index.G2) określ, czy lepszy jest podział województw
(pod względem bezrobocia) metodą Warda na 2, 3 czy 5 klas. Odpowiedź uzasadnij oraz zapisz skład
poszczególnych skupisk w najlepszym z rozważanych przypadków. Do rozwiązania możesz wykorzystać
fragment przygotowanego kodu w programie R.
Zadanie 4. Wykorzystaj indeks sylwetkowy do określenia optymalnego podziału województw (pod względem bezrobocia) metodą kompletnego połączenia (method="complete"), czyli zbadaj na ile skupisk podzielić zbiór danych (przyjmij liczbę klas k ∈ {2, 3, 4, 5}). Odpowiedź uzasadnij i zinterpretuj. Do rozwiązania
możesz wykorzystać fragment przygotowanego kodu w programie R.
Zadanie 5. Wykorzystując metodę k-średnich, zaimplementowaną w programie SPSS, dokonaj podziału
województw na 3 grupy, przyjmując, że algorytm może działać w maksymalnie 10 iteracjach z kryterium
zbieżność równym 0,01, przy użyciu średnich ruchomych. Ponadto
• określ w ilu (ostatecznie) iteracjach uzyskano wynik analizy taksonomicznej,
• podaj 2 zmienne, które mają największy wpływ na dokonany podział na grupy (zapisz wartość
statystyki, którą się posługujesz),
• opowiedz na pytanie, czy wszystkie zmienne istotnie wpływają na wynik analizy (zapisz wartość
statystyki, którą się posługujesz),
• zapisz skład otrzymanych skupień.
Zadanie 6. Wykorzystując indeks Calińskiego-Harabasza (index.G1) określ, czy lepszy jest podział województw (pod względem bezrobocia) metodą k-średnich na 3 klasy czy metodą k-medoidów na 5 klas.
Odpowiedź uzasadnij oraz zapisz skład poszczególnych skupisk w najlepszym z rozważanych przypadków.
Do rozwiązania możesz wykorzystać fragment przygotowanego kodu w programie R.
1
Zestaw dostępny na stronie: http://web2.ue.katowice.pl/trzesiok/j zestaw2 mk.pdf
Zadanie 7. Poszukując najlepszej struktury klas zastosowano metodę k-medoidów dla k ∈ {2, 3, 4, 5}.
Natomiast do ustalenia liczby klas, dającej najlepszy podział województw, wykorzystano indeks HuberaLevina (index.G3) i otrzymano następujące wartości:
k
indeks G3
2
0,390
3
0,448
4
0,391
5
0,494
Określ, dla jakiej liczby klas otrzymujemy najlepszy podział.
Odpowiedzi
Do zadania 1. Otrzymujemy podział na 4 klasy: 1) woj. mazowieckie, 2) woj. śląskie, 3) woj. lubuskie
i woj. opolskie, 4) pozostałe województwa
Do zadania 2. Optymalna wartość to 1,49 dla kryterium hhi+1
−→ max. Zatem rozcinamy dendrogram
i
pomiędzy 13 a 14 etapem i otrzymujemy podział na 3 grupy: 1) woj. mazowieckie i woj. śląskie, 2) woj.
lubuskie i woj. opolskie, 3) pozostałe województwa
Do zadania 3. Najlepszy podział uzyskujemy dla 3 klas (największa wartość G2 to 0, 801 dla k = 3).
Mamy wtedy następujący skład klas: 1) woj. mazowieckie i woj. śląskie, 2) woj. lubuskie i woj. opolskie,
3) pozostałe województwa
Do zadania 4. Najwyższą wartość indeksu sylwetkowego otrzymujemy dla podziału na 2 klasy (S ≈
0, 35), więc możemy przyjąć, że dla tej metody jest to najlepsze grupowanie (1 klasa: woj. mazowieckie
i śląskie, 2 klasa: pozostałe województwa). Wartość indeksu sylwetkowego w tym przypadku wskazuje,
iż odkryto słabą strukturę klas. Można próbować poprawić wartość tego kryterium testując inne metody
taksonomiczne dla tych danych.
Do zadania 5.
• Algorytm przebiegł w 6 iteracjach
• Największy wpływ na otrzymany podział mają zmienne: Bezrobocie rejestrowane (F = 16, 813)
oraz Przekonanie o niemożności znalezienia pracy (F = 13, 471)
• Nieistotny wpływ na wynik analizy ma zm. Udział zarejestrowanych bezrobotnych absolwentów
(wartość statystyki F jest nieistotna, p − value > 0, 05)
• Skład skupień: 1) woj. mazowieckie i śląskie 2) woj. lubuskie, zachodnio–pomorskie i opolskie,
3) pozostałe województwa
Do zadania 6. Lepszy podział otrzymujemy metodą k-średnich na 3 klasy ponieważ wartość G1 ≈ 8, 17
jest większa od G1 ≈ 7, 95 otrzymanej dla podziału na 5 klas metodą k-medoidów.
Do zadania 7. Najlepszy podział metodą k-medoidów uzyskujemy dla 2 klas (najmniejsza wartość indeksu
G3 to 0, 39 dla k = 2).
c 2015 Joanna Trzęsiok, e-mail: [email protected]
Copyright