case study 2 - Marek Lewandowski

Transkrypt

Analiza danych
Case study „Województwa”
PIESI 2006/2007
Michał Pyda
Marek Lewandowski
Zajęcia: środa, 9.00
1
Spis treści:
1
2
Wprowadzenie ............................................................................................................ 3
Analizowane dane....................................................................................................... 5
2.1
Dostępne dane..................................................................................................... 5
2.2
Brakujące wartości.............................................................................................. 5
2.3
Błędy znalezione w danych ................................................................................ 5
2.4
Zależności w danych........................................................................................... 5
2.5
Przygotowanie danych do analizy ...................................................................... 6
3
Grupowanie algorytmem AHC ................................................................................... 7
3.1
Metoda pojedynczego wiązania.......................................................................... 7
3.2
Metoda pełnego wiązania ................................................................................. 11
3.3
Metoda średnich połączeń................................................................................. 15
3.4
Podsumowanie grupowania algorytmem AHC ................................................ 19
4
Grupowanie algorytmem k-średnich......................................................................... 20
4.1
Opis algorytmu.................................................................................................. 20
4.2
Zastosowanie algorytmu ................................................................................... 20
4.3
Interpretacja wyników algorytmu k-średnich ................................................... 22
5
Interpretacja wyników .............................................................................................. 22
2
1 Wprowadzenie
Celem analizy jest zidentyfikowanie regionów Polski, wykazujących się podobieństwem
ze względu na poziom życia ich mieszkańców. Dostępne dane zawierają informacje o
przestrzennym zróżnicowaniu warunków życia w Polsce na początku lat 90 dwudziestego
wieku i obejmują następujące atrybuty:
-
lud – ludność w tysiącach,
prod – produkcja sprzedana w miliardach złotych,
doch – dochody budżetów terenowych w miliardach złotych,
ludPrzed – ludność w wieku przedprodukcyjnym w tysiącach,
ludProd – ludność w wieku produkcyjnym w tysiącach,
ludPoprod – ludność w wieku poprodukcyjnym w tysiącach,
przyrost – przyrost naturalny na 1000 mieszkańców,
srednieWynag – średnie wynagrodzenie w tysiącach złotych,
pracujacy – pracujący ogółem w tysiącach,
bezrobocie – stopa bezrobocia w %,
wodaOgol – sieć wodociągowa ogółem,
wodaMiasto - sieć wodociągowa w miastach,
kanalOgol – sieć kanalizacyjna ogółem,
kanalMiasto – sieć kanalizacyjna w miastach,
mieszkania – liczba mieszkań oddanych od użytku na 1000 mieszkańców,
lekarz – liczba lekarzy na 10000 mieszkańców,
lozko – liczba łóżek w szpitalach ogółem na 10000 mieszkańców,
muzyka – liczba teatrów i instytucji muzycznych,
kino – liczba kin,
uzytki – użytki rolne w % powierzchni ogółem,
naklad – nakłady na inwestycje na 1 mieszkanca w miliardach złotych,
nakladSro – Nakłady na inwestycje w ochronę środowiska na 1 mieszkanca w
miliardach złotych,
student – liczba studentów,
naucz – liczba nauczycieli akademickich,
abLO – liczba absolwentów liceów ogólnokształcących,
abSZ – liczba absolwentów średnich szkół zawodowych,
abSuma – suma absolwentów,
abWW – liczba absolwentów szkół wyższych,
emisja - emisja zanieczyszczeń w tysiącach ton.
Celem analizy jest pogrupowanie województw Polski w zbiory wykazujące się między
sobą największym podobieństwem. Badanie prowadzone będzie pod kątem oceny profilu
mieszkańców, poziomu wykształcenia oraz stopnia rozwinięcia infrastruktury, dlatego
postanowiono pominąć następujące atrybuty: lekarz, lozko, muzyka, kino, uzytki,
nakladSro, emisja.
3
Tak sformułowany problem postanowiono rozwiązać metodami grupowania: metodą
aglomeracji hierarchicznej AHC z różnymi miarami odległości między skupieniami oraz
metodą k-średnich. Metoda hierarchiczna miała wskazać liczbę skupień
wykorzystywanych algorytmie k-średnich.
Wykorzystano oprogramowanie Statistica firmy Statsoft, oraz Weka.
4
2 Analizowane dane
2.1 Dostępne dane
Udostępnione zostały historyczne dane statystyczne z 49 województw oraz ich agregat w
grupie „Polska”. Agregat ten był sumą wartości, lub odpowiednią średnią (ważoną bądź
nieważoną) odpowiednich wartości atrybutów dla poszczególnych województw.
2.2 Brakujące wartości
Brakujące dane występowały tylko w ramach jednego atrybutu, który de facto został
pominięty (muzyka): w tym przypadku zamieniono wartości „-” na „0”.
2.3 Błędy znalezione w danych
Znaleziono znaczący błąd w wartościach atrybutu srednieWynag (przeciętne
wynagrodzenie miesięczne w tysiącach złotych). Atrybut ten dla województwa
zamojskiego był ok. 10 razy większy niż średnia dla wszystkich województw. Po
konsultacjach uznano to za błąd wprowadzania danych i zamieniono wartość 8941 na
894,1.
2.4 Zależności w danych
W celu odkrycia prostych, jednowymiarowych zależności pomiędzy atrybutami
zbudowano tablicę współczynników korelacji Pearsona. Odkryto szereg bardzo silnych
zależności, które postanowiono wykorzystać do redukcji liczby atrybutów.
Tablica współczynników korelacji Pearsona dla atrybutów lud, prod, doch, ludPrzed,
ludProd, ludPoprod, pracujacy, nakład:
Lud
1,00
Prod
0,96
1,00
Doch
0,96
0,91
1,00
LudPrzed
0,99
0,95
0,93
1,00
LudProd
1,00
0,96
0,96
0,99
1,00
LudPoprod
0,97
0,91
0,97
0,94
0,97
1,00
Pracujacy
1,00
0,95
0,97
0,98
0,99
0,98
1,00
Naklad
0,97
0,95
0,97
0,96
0,98
0,95
0,97
1,00
Lud
Prod
Doch
LudPrzed
LudProd
LudPoprod
Pracujacy
Naklad
5
Bardzo silna korelacja pozwala na pominięcie atrybutów i uwzględnienie w analizie tylko
jednego z nich (w tym przypadku lud).
Tablica współczynników korelacji Pearsona dla atrybutów wodaOgol, wodaMiasto,
kanalOgol, kanalMiasto:
WodaOgol
1,00
WodaMiasto
0,92
1,00
KanalOgol
0,89
0,93
1,00
KanalMiasto
0,88
0,94
0,99
1,00
WodaOgol
WodaMiasto
KanalOgol
KanalMiasto
jednego z nich (w tym przypadku wodaOgol).
Tablica wspolcznnikow korelacji Pearsona dla atrybutów: student, naucz, abLO, abSZ,
abSuma, abWW:
Student
1,00
Naucz
0,99
1,00
AbLO
0,84
0,83
1,00
AbSZ
0,72
0,71
0,95
1,00
AbSuma
0,78
0,76
0,98
0,99
1,00
AbWW
1,00
0,99
0,83
0,72
0,77
1,00
Student
Naucz
AbLO
AbSZ
AbSuma
AbWW
jednego z nich (w tym przypadku student).
Lista atrybutów poddanych analizie wygląda więc następująco:
-
kraj (identyfikator)
lud
przyrost
srednieWynag
bezrobocie
wodaOgolnie
mieszkania
student
2.5 Przygotowanie danych do analizy
Dane zostały poddane normalizacji (za pomocą algorytmu wbudowanego w
oprogramowanie Weka). Niestety, prawdopodobnie na skutek błędu implementacyjnego,
jeden z atrybutów (student) nie został znormalizowany. Postanowiono więc poddać go
standaryzacji za pomocą algorytmu zaimplementowanego w oprogramowaniu Statistica.
6
3 Grupowanie algorytmem AHC
Grupowanie metodą aglomeracyjną przebiega w kilku krokach: początkowo, każdy
element znajduje się w osobnym skupieniu. Następnie obniżany jest próg stanowiący o
decyzji przypisania obiektów do tego samego skupienia – tym samym wiązanych ze sobą
jest coraz więcej obiektów, które są agregowane w coraz większe skupienia elementów
coraz bardziej różniących się od siebie. Ostatecznie wszystkie obiekty znajdują się w
jednym skupieniu.
Analiza wykresów sopelkowych pozwala zdecydować, w którym momencie algorytm
zaczął łączyć grupy bardzo od siebie odległe (czyli elementy do siebie niepodobne) i w
którym momencie należałoby przerwać proces grupowania, uzyskując poprawne wyniki.
Algorytm AHC pakietu Statistica pozwala na używanie 7 metod określania odległości:
-
metoda pojedynczego wiązania (najbliższego sąsiedztwa),
metoda pełnego wiązania (najdalszego sąsiedztwa),
metoda średnich połączeń,
metoda średnich połączeń ważonych,
metoda środków ciężkości,
metoda ważonych środków ciężkości,
metoda Warda.
W analizie badano przebieg aglomeracji dla pierwszych trzech metod.
3.1 Metoda pojedynczego wiązania
W tej metodzie odległość pomiędzy dwoma skupieniami określana jest jako odległość
pomiędzy dwoma najbliższymi obiektami należącymi do dwóch różnych skupień.
7
Odległość wiąz.
1,4
1,2
1,0
0,8
0,6
0,4
0,2
0,0
Diagram dla 49 przyp.
Pojedyncze wiązanie
Odległości euklidesowe
KATOWICK
WROCLAWS
POZNANSK
LODZKIE
LUBELSKI
GDANSKIE
SZCZECIN
LEGNICKI
RZESZOWS
TORUNSKI
OLSZTYNS
BYDGOSKI
BIALOSTO
OPOLSKIE
KIELECKI
CZESTOCH
ZIELONOG
BIELSKIE
TARNOBRZ
SUWALSKI
WALBRZYS
TARNOWSK
NOWOSADE
PLOCKIE
JELENIOG
KROSNIEN
PIOTRKOW
SIEDLECK
RADOMSKI
LESZCZYN
SLUPSKIE
KONINSKI
KALISKIE
LOMZYNSK
OSTROLEC
PRZEMYSK
KOSZALIN
GORZOWSK
PILSKIE
ELBLASKI
CIECHANO
ZAMOJSKI
SKIERNIE
SIERADZK
WLOCLAWS
CHELMSKI
BIALSKOP
KRAKOWSK
WARSZAWS
8
Wykres odległości wiązania względem etapów wiązania
1,4
1,2
1,0
Odległość
0,8
0,6
0,4
0,2
0,0
-0,2
0
5
10
15
20
25
30
35
40
45
Wiązania
Odległ.
Etap
9
Jakość rezultatu uzyskanego w wyniku grupowania z wykorzystaniem odległości „single
linkage” wydaje się być niska. Uzyskano bardzo wiele skupień, które (co wynika z
diagramu) są do siebie podobne. Wyniki są niejednoznaczne.
Wykres odległości wiązania względem etapów wiązania mógłby zostać zinterpretowany
w inny sposób (kolejne dwa wiązania, z uwagi na relatywnie małą odległość, mogą być
potraktowane jako łączenia podobnych do siebie skupień): jako punkt przerwania
dalszego grupowania można by potraktować odległość 0,7 – znacząco zmniejszyłoby to
liczbę skupień (do 5 – 6), tworząc skupienia bardziej oddalone od siebie (mniej podobne).
Województwem najbardziej niepodobnym do innych jest katowickie.
Uzyskane skupienia (interpretacja z mniejszą liczbą skupień):
skupienie
0
1
2
Województwa
katowickie
wałbrzyskie,
jeleniogórskie,
opolskie,
płockie,
częstochowskie,
zielonogórskie,
kieleckie,
bielskie,
tarnowskie,
nowosądeckie,
krośnieńskie,
suwalskie,
konińskie,
słupskie,
ostrołęckie,
łomżyńskie,
pilskie,
elbląskie,
koszalińskie,
gorzowskie,
przemyskie,
ciechanowskie,
tarnobrzeskie,
legnickie,
sieradzkie,
skierniewickie,
piotrkowskie,
zamojskie,
kaliskie,
włocławskie,
chełmskie,
siedleckie,
radomskie,
leszczyńskie,
bialskopodlaskie
gdańskie,
lubelskie,
łódzkie,
wrocławskie,
10
3
4
poznańskie
krakowskie,
warszawskie
szczecińskie
3.2 Metoda pełnego wiązania
W tej metodzie odległość pomiędzy dwoma skupieniami określana jest jako odległość
pomiędzy dwoma najdalszymi obiektami należącymi do dwóch różnych skupień.
11
Odległość wiąz.
5
4
3
2
1
0
Pełne wiązanie
12
SZCZECIN
RZESZOWS
TORUNSKI
OLSZTYNS
BYDGOSKI
BIALOSTO
WALBRZYS
PLOCKIE
JELENIOG
OPOLSKIE
KIELECKI
CZESTOCH
ZIELONOG
BIELSKIE
TARNOWSK
NOWOSADE
KROSNIEN
SUWALSKI
KONINSKI
SLUPSKIE
OSTROLEC
LOMZYNSK
PILSKIE
ELBLASKI
KOSZALIN
GORZOWSK
PRZEMYSK
CIECHANO
TARNOBRZ
LEGNICKI
SKIERNIE
SIERADZK
PIOTRKOW
ZAMOJSKI
KALISKIE
WLOCLAWS
CHELMSKI
SIEDLECK
RADOMSKI
LESZCZYN
BIALSKOP
KATOWICK
WROCLAWS
POZNANSK
LODZKIE
LUBELSKI
GDANSKIE
KRAKOWSK
WARSZAWS
6
5
Odległość
4
3
2
1
0
-1
0
5
10
15
20
25
30
35
40
45
Wiązania
Odległ.
Etap
13
Jakość rezultatu uzyskanego w wyniku grupowania z wykorzystaniem odległości
"complete linkage” jest bardzo wysoka. Wykres odległości wiązania względem etapów
wiązania jednoznacznie wskazuje punkt, w którym powinno nastąpić przerwanie
grupowania (odległość ok. 1,7). Dokonując „przecięcia” w tym właśnie miejscu uzyskuje
się 5 skupień (z czego 3 bardzo od siebie odległe). Widać, iż odległości łączenia są
zdecydowanie większe niż w przypadku metody „single linkage” – drzewo jest
zdecydowanie bardziej zrównoważone i nie występuje żaden przypadek bardzo od innych
odległego elementu (województwo katowickie różni się najbardziej, lecz nie tak znacząco
jak w wyniku grupowania z wykorzystaniem odległości „najbliższy sąsiad”).
Uzyskane skupienia:
skupienie
0
1
Województwa
szczecińskie,
toruńskie,
rzeszowskie,
bydgoskie,
olsztyńskie,
białostockie
wałbrzyskie,
jeleniogórskie,
opolskie,
płockie,
częstochowskie,
zielonogórskie,
kieleckie,
bielskie,
tarnowskie,
nowosądeckie,
krośnieńskie,
suwalskie,
konińskie,
słupskie,
ostrołęckie,
łomżyńskie,
pilskie,
elbląskie,
koszalińskie,
gorzowskie,
przemyskie,
ciechanowskie,
tarnobrzeskie,
legnickie,
sieradzkie,
skierniewickie,
piotrkowskie,
zamojskie,
kaliskie,
włocławskie,
chełmskie,
siedleckie,
radomskie,
leszczyńskie,
14
2
3
4
bialskopodlaskie
gdańskie,
lubelskie,
łódzkie,
wrocławskie,
poznańskie
krakowskie,
warszawskie
katowickie
3.3 Metoda średnich połączeń
W tej metodzie odległość między dwoma skupieniami oblicza się jako średnią odległość
między wszystkimi parami obiektów należących do dwóch różnych skupień.
15
Odległość wiąz.
3,0
2,5
2,0
1,5
1,0
0,5
0,0
Średnich połączeń
16
SZCZECIN
OPOLSKIE
KIELECKI
CZESTOCH
RZESZOWS
TORUNSKI
OLSZTYNS
BYDGOSKI
BIALOSTO
SUWALSKI
LEGNICKI
ZIELONOG
WALBRZYS
PLOCKIE
JELENIOG
TARNOWSK
NOWOSADE
KROSNIEN
BIELSKIE
TARNOBRZ
KONINSKI
SLUPSKIE
LOMZYNSK
PILSKIE
ELBLASKI
OSTROLEC
PRZEMYSK
KOSZALIN
GORZOWSK
CIECHANO
SKIERNIE
SIERADZK
PIOTRKOW
KALISKIE
ZAMOJSKI
WLOCLAWS
CHELMSKI
SIEDLECK
RADOMSKI
LESZCZYN
BIALSKOP
KATOWICK
WROCLAWS
POZNANSK
LODZKIE
LUBELSKI
GDANSKIE
KRAKOWSK
WARSZAWS
3,0
2,5
Odległość
2,0
1,5
1,0
0,5
0,0
-0,5
0
5
10
15
20
25
30
35
40
45
Wiązania
Odległ.
Etap
17
Rezultat grupowania z zastosowaniem odległości „unweighted pair-group average” jest,
podobnie jak przy metodzie „najdalszego sąsiada”, czytelny. Punkt odcięcia na wykresie
odległości wiązania względem etapów wiązania jest wyraźny i łatwy w interpretacji.
Wykres drzewiasty (diagram) wydaje się jednak być mniej zrównoważony. Uzyskano
cztery skupienia, bardzo od siebie oddalone.
Uzyskane skupienia:
skupienie
0
1
Województwa
wałbrzyskie,
jeleniogórskie,
opolskie,
płockie,
częstochowskie,
zielonogórskie,
kieleckie,
bielskie,
tarnowskie,
nowosądeckie,
krośnieńskie,
suwalskie,
konińskie,
słupskie,
ostrołęckie,
łomżyńskie,
pilskie,
elbląskie,
koszalińskie,
gorzowskie,
przemyskie,
ciechanowskie,
tarnobrzeskie,
legnickie,
sieradzkie,
skierniewickie,
piotrkowskie,
zamojskie,
kaliskie,
włocławskie,
chełmskie,
siedleckie,
radomskie,
leszczyńskie,
bialskopodlaskie,
szczecińskie,
toruńskie,
rzeszowskie,
bydgoskie,
olsztyńskie,
białostockie
gdańskie,
lubelskie,
łódzkie,
wrocławskie,
2
3
poznańskie
krakowskie,
warszawskie
katowickie
3.4 Podsumowanie grupowania algorytmem AHC
Przeprowadzono trzy serie badań z użyciem hierarchicznego algorytmu aglomeracyjnego
– każda z inną metodą określania odległości. Jako najlepsze uzyskane grupowanie
przyjęto wynik działania algorytmu AHC z metodą określania odległości „najdalszy
sąsiad” („complete linkage”). W badaniu tym uzyskano 5 skupień.
Metoda „najbliższego sąsiada” („single linkage”) wskazała na istnienie dużej liczby
skupień, relatywnie bardzo do siebie podobnych. Zaproponowana interpretacja,
zmniejszająca liczbę skupień, może być jednak, z uwagi na ściśle określony sposób
określania „punktu przecięcia”, traktowana jako nadinterpretacja.
Metoda „średnich połączeń” wygenerowała jedno skupienie mniej, wskazując „punkt
przecięcia” bardzo blisko punktu połączenia dwóch województw (krakowskiego i
warszawskiego). Z uwagi na możliwość popełnienia błędu podczas interpretacji
wykresów (zbyt duża skala na osi odległości) postanowiono przyjąć liczbę skupień
wskazaną przez algorytm stosujący odległość „complete linkage”.
19
4 Grupowanie algorytmem k-średnich
4.1 Opis algorytmu
Algorytm k-średnich jest metodą grupowania wymagającą podania żądanej liczby
skupień. Początkowo elementy przypisywane są do skupień w sposób losowy. Następnie,
w kolejnych iteracjach algorytmu, elementy przypisywane są do najbliższych skupień i
obliczane są nowe środki (elementy centralne) skupień. Warunkiem stopu algorytmu jest
brak przemieszczeń elementów pomiędzy skupieniami, lub wystąpienie określonej liczby
iteracji.
4.2 Zastosowanie algorytmu
W badaniu zastosowano algorytm k-średnich zaimplementowany w oprogramowaniu
Weka (SimpleKMeans) z następującymi parametrami początkowymi:
-
liczba skupień: 5
liczba iteracji: 9
Uzyskany rezultat:
Number of iterations: 9
Within cluster sum of squared errors: 49.611625390492904
skupienie
miara
kraj
lud
przyrost
srednieWynag
bezrobocie
wodaOgol
mieszkania
student
Mean/Mode:
Czestochowskie
0.1407
0.2646
0.2867
0.621
0.1343
0.2778
5543.625
Std Devs:
N/A
0.0645
0.1116
0.1063
0.1361
0.0485
0.1236
7589.5401
Mean/Mode:
Ciechanowskie
0.0685
0.6234
0.2904
0.7333
0.1212
0.6074
2414.8
Std Devs:
N/A
0.0317
0.1161
0.1726
0.1176
0.0699
0.1194
3856.8887
Mean/Mode:
Bialskopodlaskie
0.0987
0.3663
0.2551
0.478
0.1104
0.709
5224.5714
Std Devs:
N/A
0.0726
0.1315
0.1263
0.129
0.0962
0.1584
8481.5171
Mean/Mode:
Bielskie
0.1242
0.6188
0.222
0.3493
0.1228
0.358
1945.1667
Std Devs:
N/A
0.057
0.2565
0.1244
0.1335
0.0773
0.109
3059.8464
Mean/Mode:
Warszawskie
0.4478
0.1826
0.5364
0.1631
0.3771
0.2346
38154.5
Std Devs:
N/A
0.2979
0.1458
0.2431
0.1057
0.3177
0.2104
12092.9802
Cluster 0
Cluster 1
Cluster 2
Cluster 3
Cluster 4
Clustered Instances
0
1
2
8 ( 16%)
15 ( 31%)
14 ( 29%)
20
3
4
6 ( 12%)
6 ( 12%)
Przypisanie do skupień:
Skupienie
0
1
2
3
4
Województwo
białostockie,
bydgoskie,
konińskie,
piotrkowskie,
sieradzkie,
skierniewickie,
tarnobrzeskie,
toruńskie,
włocławskie,
częstochowskie,
jeleniogórskie,
kaliskie,
kieleckie,
legnickie,
łódzkie,
opolskie,
płockie,
wałbrzyskie,
zielonogórskie,
bialskopodlaskie,
ciechanowskie,
elbląskie,
gorzowskie,
koszalińskie,
łomżyńskie,
olsztyńskie,
ostrołęckie,
pilskie,
przemyskie,
słupskie,
suwalskie,
gdańskie,
katowickie,
krakowskie,
lubelskie,
poznańskie,
szczecińskie,
warszawskie,
wrocławskie,
bielskie,
chełmskie,
krośnieńskie,
leszczyńskie,
nowosądeckie,
radomskie,
rzeszowskie,
siedleckie,
tarnowskie,
zamojskie.
21
4.3 Interpretacja wyników algorytmu k-średnich
SSE (część niewyjaśniona przez zbudowany model) w ramach jednego skupienia wynosi
49%. Jak się wydaje, jest to rezultat wysoki, jednak najniższy z kilku serii pomiarów dla
różnej liczby iteracji algorytmu.
Wartości odchyleń standardowych, w porównaniu z wartościami średnimi, są znaczące
co wskazuje, że elementy skupień nie są położone bardzo blisko ich elementów
centralnych. W porównaniu z algorytmem AHC widać, że algorytm k-średnich nie ma
tendencji do budowania skupień jednoelementowych (w przypadku algorytmu
aglomeracji hierarchicznej praktycznie zawsze województwo katowickie stanowiło
osobne skupienie).
5 Interpretacja wyników
Algorytm k-średnich dokonał grupowania zgodnego z intuicją – województwa,
powszechnie uważane za podobne (pod względem zarówno stopnia rozwinięcia
przemysłu jak i szeroko rozumianej jakości życia) znajdowały się w jednym skupieniu.
Zastanawiające mogą wydawać się wyniki analizy za pomocą algorytmu AHC –
województwem najbardziej niepodobnym do innych było katowickie. Należy jednak
pamiętać o specyfice danych (a w szczególności o okresie, z którego one pochodzą) – na
początku lat 90 dwudziestego wieku przemysł wydobywczy na Śląsku korzystał z
bogactwa wypracowanego w latach socjalizmu, co można łatwo zauważyć w danych
statystycznych: bardzo duża liczba ludności, wysoki przyrost naturalny, znikome
bezrobocie i bardzo dobry stan infrastruktury. Znacząca na pewno jest również struktura
administracyjna Śląska – jest to konglomerat wielu miast, a jak powszechnie wiadomo
poziom życia w miastach jest wyższy niż w mniejszych miejscowościach. Można
podejrzewać, że gdyby przeprowadzić analogiczną analizę z wykorzystaniem danych z
obecnego stulecia, rolę lidera przejęłoby województwo mazowieckie.
Struktura zbudowanych skupień wskazuje, że kilkanaście lat temu w Polsce istniało kilka
bardzo dobrze rozwiniętych województw (katowickie, warszawskie, krakowskie,
poznańskie, wrocławskie, łódzkie, lubelskie) oraz mało od siebie różniąca się reszta
regionów (patrz: wyniki algorytmu AHC z metodą średnich połączeń), co obrazuje
przysłowiowy podział na „Polskę A” i „Polskę B”. Ciekawe więc byłoby
przeprowadzenie analizy z wykorzystaniem aktualnych danych. Niektórzy ekonomiści
twierdzą, że dzisiejsza Polska dzieli się na „Polskę A” (Warszawa), „Polskę B” (dawna
„Polska A”) i „Polskę C” (dawna „Polska B”).
22

case study 2 - Marek Lewandowski

Transkrypt

Podobne dokumenty

Lista 10 - IPI PAN

Analiza Skupień

Analiza skupień - Politechnika Poznańska

"Tajemnicze zniknięcie" 22 czerwca w naszej szkole kolejny raz na

Przeglad darmowego oprogramowania do

Energia wiązania i deficyt masy. Znając masę cząstek wchodzących

analiza skupień (klasyfikacja, grupowanie)