Zestaw 2. - Uniwersytet Ekonomiczny w Katowicach
Transkrypt
Zestaw 2. - Uniwersytet Ekonomiczny w Katowicach
Uniwersytet Ekonomiczny w Katowicach Wydział Zarządzania, Kierunek Analityka Gospodarcza Zestaw 2. zadań z metod klasyfikacji1 Taksonomia Do rozwiązania zadań w tym zestawie wykorzystaj zbiór danych znajdujący się na stronach internetowych: http://web2.ue.katowice.pl/trzesiok/j zb do zestawu2.sav http://web2.ue.katowice.pl/trzesiok/j zb do zestawu2.csv Zadanie 1. Wyznacz macierz odległości euklidesowych pomiędzy obiektami w zbiorze danych (województwami) i zbuduj dendryt za pomocą taksonomii wrocławskiej. Następnie utwórz klasy (grupy województw) rozcinając dendryt na krawędziach dłuższych niż 1,93 (zadana wartość 1, 93 = d¯i + sdi ). Zadanie 2. Wykorzystując hierarchiczną analizę skupień, zaimplementowaną w programie SPSS: • utwórz dendrogram dla analizowanych województw, przyjmując jako metodę skupień metodę Warda z kwadratem odległości euklidesowych, • rozetnij dendrogram, wykorzystując optymalną wartość jednego z kryteriów: – lokalnego maksimum bezwzględnego przyrostu odległości kofenetycznych ((hi+1 − hi ) −→ max) – lokalnego maksimum ilorazu odległości kofenetycznych ( hhi+1 −→ max) i i podaj skład otrzymanych grup, czyli klas województw podobnych pod względem bezrobocia. Zadanie 3. Za pomocą indeksu Backera-Hubera (index.G2) określ, czy lepszy jest podział województw (pod względem bezrobocia) metodą Warda na 2, 3 czy 5 klas. Odpowiedź uzasadnij oraz zapisz skład poszczególnych skupisk w najlepszym z rozważanych przypadków. Do rozwiązania możesz wykorzystać fragment przygotowanego kodu w programie R. Zadanie 4. Wykorzystaj indeks sylwetkowy do określenia optymalnego podziału województw (pod względem bezrobocia) metodą kompletnego połączenia (method="complete"), czyli zbadaj na ile skupisk podzielić zbiór danych (przyjmij liczbę klas k ∈ {2, 3, 4, 5}). Odpowiedź uzasadnij i zinterpretuj. Do rozwiązania możesz wykorzystać fragment przygotowanego kodu w programie R. Zadanie 5. Wykorzystując metodę k-średnich, zaimplementowaną w programie SPSS, dokonaj podziału województw na 3 grupy, przyjmując, że algorytm może działać w maksymalnie 10 iteracjach z kryterium zbieżność równym 0,01, przy użyciu średnich ruchomych. Ponadto • określ w ilu (ostatecznie) iteracjach uzyskano wynik analizy taksonomicznej, • podaj 2 zmienne, które mają największy wpływ na dokonany podział na grupy (zapisz wartość statystyki, którą się posługujesz), • opowiedz na pytanie, czy wszystkie zmienne istotnie wpływają na wynik analizy (zapisz wartość statystyki, którą się posługujesz), • zapisz skład otrzymanych skupień. Zadanie 6. Wykorzystując indeks Calińskiego-Harabasza (index.G1) określ, czy lepszy jest podział województw (pod względem bezrobocia) metodą k-średnich na 3 klasy czy metodą k-medoidów na 5 klas. Odpowiedź uzasadnij oraz zapisz skład poszczególnych skupisk w najlepszym z rozważanych przypadków. Do rozwiązania możesz wykorzystać fragment przygotowanego kodu w programie R. 1 Zestaw dostępny na stronie: http://web2.ue.katowice.pl/trzesiok/j zestaw2 mk.pdf Zadanie 7. Poszukując najlepszej struktury klas zastosowano metodę k-medoidów dla k ∈ {2, 3, 4, 5}. Natomiast do ustalenia liczby klas, dającej najlepszy podział województw, wykorzystano indeks HuberaLevina (index.G3) i otrzymano następujące wartości: k indeks G3 2 0,390 3 0,448 4 0,391 5 0,494 Określ, dla jakiej liczby klas otrzymujemy najlepszy podział. Odpowiedzi Do zadania 1. Otrzymujemy podział na 4 klasy: 1) woj. mazowieckie, 2) woj. śląskie, 3) woj. lubuskie i woj. opolskie, 4) pozostałe województwa Do zadania 2. Optymalna wartość to 1,49 dla kryterium hhi+1 −→ max. Zatem rozcinamy dendrogram i pomiędzy 13 a 14 etapem i otrzymujemy podział na 3 grupy: 1) woj. mazowieckie i woj. śląskie, 2) woj. lubuskie i woj. opolskie, 3) pozostałe województwa Do zadania 3. Najlepszy podział uzyskujemy dla 3 klas (największa wartość G2 to 0, 801 dla k = 3). Mamy wtedy następujący skład klas: 1) woj. mazowieckie i woj. śląskie, 2) woj. lubuskie i woj. opolskie, 3) pozostałe województwa Do zadania 4. Najwyższą wartość indeksu sylwetkowego otrzymujemy dla podziału na 2 klasy (S ≈ 0, 35), więc możemy przyjąć, że dla tej metody jest to najlepsze grupowanie (1 klasa: woj. mazowieckie i śląskie, 2 klasa: pozostałe województwa). Wartość indeksu sylwetkowego w tym przypadku wskazuje, iż odkryto słabą strukturę klas. Można próbować poprawić wartość tego kryterium testując inne metody taksonomiczne dla tych danych. Do zadania 5. • Algorytm przebiegł w 6 iteracjach • Największy wpływ na otrzymany podział mają zmienne: Bezrobocie rejestrowane (F = 16, 813) oraz Przekonanie o niemożności znalezienia pracy (F = 13, 471) • Nieistotny wpływ na wynik analizy ma zm. Udział zarejestrowanych bezrobotnych absolwentów (wartość statystyki F jest nieistotna, p − value > 0, 05) • Skład skupień: 1) woj. mazowieckie i śląskie 2) woj. lubuskie, zachodnio–pomorskie i opolskie, 3) pozostałe województwa Do zadania 6. Lepszy podział otrzymujemy metodą k-średnich na 3 klasy ponieważ wartość G1 ≈ 8, 17 jest większa od G1 ≈ 7, 95 otrzymanej dla podziału na 5 klas metodą k-medoidów. Do zadania 7. Najlepszy podział metodą k-medoidów uzyskujemy dla 2 klas (najmniejsza wartość indeksu G3 to 0, 39 dla k = 2). c 2015 Joanna Trzęsiok, e-mail: [email protected] Copyright