Prezentacja w formacie pdf

Transkrypt

Prezentacja w formacie pdf
Gradacyjna analiza
danych
Instytut Podstaw Informatyki PAN
Wiesław Szczesny
Emilia Jarochowska
Gradacyjna analiza danych
Grade Correspondence Analysis
• Pomiar koncentracji,
nadreprezentacja, GCA
• Przykład analizy
• Ku kompletnej
infrastrukturze pojęć gradacyjnej
analizy danych
W gradacyjnej analizie danych dwóm
jednowymiarowym rozkładom przyporządkowuje
się krzywą w kwadracie jednostkowym, która
reprezentuje koncentrację jednego rozkładu
względem drugiego.
1
Para rozkładów
0.8
0.6
0.4
0.2
1
0
0.8
0
2
4
6
8
0.6
0.4
Krzywa koncentracji
0.2
0
0
0.5
1
Pomiar maksymalnej
koncentracji: krzywa Cmax
i wskaźnik armax
a
ax
rm
=
2
×
e
l
po
Cmax
Nadreprezentacja
pi
0.06
0.07
0.081
0.094
0.125
0.127
0.184
0.26
qi
0.022
0.036
0.051
0.071
0.127
0.212
0.217
0.263
hi
0.37
0.51
0.63
0.76
1.02
1.67
1.18
1.01
Wskaźnik nadreprezentacji =
„wielkość obserwowana”
„wielkość wynikająca z modelu”
A
B
C
D
B
A
C
D
B4
B1
B1
B2
B2
B3
B5
B4
B3
B6
B5
B6
B
GCA
B4
B1
B2
B5
B3
B6
A
C
D
B
B4
B1
B2
B5
BB
B3
B6
A
C
D
1.56
1.45
1.35
1.26
1.17
1.09
1.02
0.95
0.88
0.82
0.76
0.71
0.66
0.6
GradeStat
Przykład analizy
Wskaźniki
ekonomiczno-gospodarcze
Dane z Grzegorek, 2006
na podstawie
http://epp.eurostat.cec.eu.int
wzr. doch. z roln.
inflacja
bezrobocie
inwest. %PKB
F przew. dł.Ŝycia
M przew. dł.Ŝycia
zatrudnienie
udz.wyb.parl
podatki %PKB
dzietnosc
emisja g. ciepl.
dost e-adm %
PKB na os/śr EU
zuŜ. energii
GCA – gradacyjna analiza
odpowiedniości + imputacja
Przykład analizy
Luksemburg
Luksemburg
Finlandia
Szwecja
Austria
Holandia
Dania
Irlandia
Francja
Belgia
Włochy
Wlk Brytania
Cypr
Niemcy
Słowenia
Malta
Grecja
Portugalia
Hiszpania
Czechy
Węgry
Estonia
Litwa
Słowacja
Polska
Łotwa
Finlandia
Szwecja
Austria
Holandia
Dania
Irlandia
Francja
Belgia
Włochy
Wlk Brytania
Cypr
Niemcy
Słowenia
Malta
Grecja
Portugalia
Hiszpania
Czechy
Węgry
Estonia
Litwa
Słowacja
Polska
Łotwa
wzr. doch. z roln.
inflacja
bezrobocie
inwest. %PKB
F przew. dł.Ŝycia
M przew. dł.Ŝycia
zatrudnienie
udz.wyb.parl
podatki %PKB
dzietnosc
emisja g. ciepl.
dost e-adm %
PKB na os/śr EU
zuŜ. energii
GCCA – gradacyjna analiza
skupień
Przykład analizy
Luksemburg
Luksemburg
Finlandia
Szwecja
Austria
Holandia
Dania
Irlandia
Francja
Belgia
Włochy
Wlk Brytania
Cypr
Niemcy
Słowenia
Malta
Grecja
Portugalia
Hiszpania
Czechy
Węgry
Estonia
Litwa
Słowacja
Polska
Łotwa
Finlandia
Szwecja
Austria
Holandia
Dania
Irlandia
Francja
Belgia
Włochy
Wlk Brytania
Cypr
Niemcy
Słowenia
Malta
Grecja
Portugalia
Hiszpania
Czechy
Węgry
Estonia
Litwa
Słowacja
Polska
Łotwa
wzr. doch. z roln.
inflacja
bezrobocie
inwest. %PKB
F przew. dł.Ŝycia
M przew. dł.Ŝycia
zatrudnienie
udz.wyb.parl
podatki %PKB
dzietnosc
emisja g. ciepl.
dost e-adm %
PKB na os/śr EU
zuŜ. energii
Mapa zróżnicowania wewnątrz
zmiennych
Przykład analizy
Luksemburg
Finlandia
Szwecja
Austria
Holandia
Dania
Irlandia
Francja
Belgia
Włochy
Wlk Brytania
Cypr
Niemcy
Słowenia
Malta
Grecja
Portugalia
Hiszpania
Czechy
Węgry
Estonia
Litwa
Słowacja
Polska
Łotwa
Luksemburg
Finlandia
Szwecja
Austria
Holandia
Dania
Irlandia
Francja
Belgia
Włochy
Wlk Brytania
Cypr
Niemcy
Słowenia
Malta
Grecja
Portugalia
Hiszpania
Czechy
Węgry
Estonia
Litwa
Słowacja
Polska
Łotwa
Przykład analizy
Znajdowanie elementów
odstających
Przykład analizy
Znajdowanie elementów
odstających
http://gradestat.ipipan.waw.pl
Książki
Grade Models and Methods
for Data Analysis
With applications for the analysis
of data populations
Kowalczyk T., Pleszczyńska E., Ruland F. (red.) 2004
Książki
Analiza danych medycznych
i demograficznych
Przy użyciu programu GradeStat
Książyk J., Matyja O., Pleszczyńska E., Wiech M. (red.) 2005
książka wydana we współpracy
Instytutu Podstaw Informatyki
z Centrum Zdrowia Dziecka
Ku kompletnej
infrastrukturze pojęć
gradacyjnej analizy danych
Dla pary zmiennych:
Krzywa
koncentracji
Krzywa maks.
koncentracji
Pomiar asymetrii,
spłaszczenia
i nierówności
Powierzchnia maks.
koncentracji
Pomiar asymetrii,
spłaszczenia
i nierówności;
HGCA
Dla tablicy m×k:
Powierzchnia
koncentracji
Krzywa
koncentracji
Krzywa maks.
koncentracji
Pomiar asymetrii,
spłaszczenia
i nierówności
Krzywa Lorenza
Wskaźnik
koncentracji
Wskaźnik maks.
koncentracji
Dla pary zmiennych
Powierzchnia
koncentracji
Wskaźnik
koncentracji
Powierzchnia
maksymalnej
koncentracji
Uzgodnienie
zwrotów zmiennych.
Pomiar asymetrii,
spłaszczenia
i nierówności;
Wskaźnik maks.
koncentracji
Dla tablicy m×k
Tablica kontyngencji lub
macierz danych wielowymiarowych
Ten schemat będzie w przyszłości rozwijany
w wielu pracach dotyczących
infrastruktury pojęciowej analizy danych
wielowymiarowych
• Powiązania z innymi metodami
wizualizacji, np. generalized association
plots (Szczesny i Wiech, 2006)
• Dekompozycja obrazów medycznych, np.
NMR (Grzegorek, 2005)
• Prace nad uzgadnianiem zwrotu
zmiennych
• European Economic Survey –
zastosowanie GCA (m.in. praca
magisterska)
Zastosowanie w monitorowaniu
ordynacji lekarskiej
współpraca z Łódzkim Oddziałem NFZ
Przykłady zastosowań
Zapraszamy na stronę
http://gradestat.ipipan.waw.pl
W przygotowaniu książka
Gradacyjna Analiza Danych
dla użytkowników na rozmaitych poziomach
zaawansowania
Dziękujemy za uwagę
Wiesław Szczesny [email protected]
Emilia Jarochowska [email protected]
Luksemburg
Finlandia
Szwecja
Austria
Holandia
Dania
Irlandia
Francja
Belgia
Włochy
Wlk Brytania
Cypr
Niemcy
Słowenia
Malta
Grecja
Portugalia
Hiszpania
Czechy
Węgry
Estonia
Litwa
Słowacja
Polska
Łotwa
wzr. doch. z roln
inflacja
bezrobocie
inwest. %PKB
F przew. dł.Ŝycia
M przew. dł.Ŝycia
zatrudnienie
udz.wyb.parl
podatki %PKB
dzietnosc
emisja g. ciepl.
dost e-adm %
PKB na os/śr EU
zuŜ. energii
Mapa nadreprezentacji w kolorze
Luksemburg
Finlandia
Szwecja
Austria
Holandia
Dania
Irlandia
Francja
Belgia
Włochy
Wlk Brytania
Cypr
Niemcy
Słowenia
Malta
Grecja
Portugalia
Hiszpania
Czechy
Węgry
Estonia
Litwa
Słowacja
Polska
Łotwa
1.55
1.45
1.37
1.29
1.21
1.14
1.07
1.01
0.95
0.89
0.84
0.79
0.74
0.69
0.65
0.6
zuŜ. energii
PKB na os/śr EU
dost e-adm %
emisja g. ciepl.
dzietnosc
podatki %PKB
udz.wyb.parl
zatrudnienie
M przew. dł.Ŝycia
F przew. dł.Ŝycia
inwest. %PKB
bezrobocie
inflacja
wzr. doch. z roln
Mapa współczynników korelacji
rangowej Spearmana
1
0.85
0.39
0.23
0.62
0.68
0.35
0.53
0.39
0.55
-0.42
-0.34
-0.36
-0.45
PKB na os/śr
0.85
1
0.44
0.46
0.77
0.64
0.44
0.55
0.6
0.59
-0.48
-0.5
-0.4
-0.56
dost e-adm %
0.39
0.44
1
0.3
0.54
0.46
-0.01
0.49
0.38
0.5
-0.18
-0.3
-0.36
-0.09
wzr. zuŜ. ga
0.23
0.46
0.3
1
0.42
0.22
0.42
0.26
0.65
0.64
-0.04
-0.26
-0.14
-0.71
dzietnosc
0.62
0.77
0.54
0.42
1
0.48
0.24
0.59
0.47
0.49
-0.49
-0.41
-0.37
-0.48
podatki %PKB
0.68
0.64
0.46
0.22
0.48
1
0.48
0.29
0.44
0.58
-0.55
-0.13
-0.58
-0.48
udz.wyb.parl
0.35
0.44
-0.01
0.42
0.24
0.48
1
0.07
0.45
0.3
-0.29
-0.34
-0.08
-0.62
zatrudnienie
0.53
0.55
0.49
0.26
0.59
0.29
0.07
1
0.23
0.26
-0.31
-0.6
-0.38
-0.16
M przew. dł.
0.39
0.6
0.38
0.65
0.47
0.44
0.45
0.23
1
0.82
-0.36
-0.21
-0.4
-0.74
F przew. dł.
0.55
0.59
0.5
0.64
0.49
0.58
0.3
0.26
0.82
1
-0.4
0.02
-0.41
-0.67
inwest. %PKB
-0.42
-0.48
-0.18
-0.04
-0.49
-0.55
-0.29
-0.31
-0.36
-0.4
1
0.08
0.71
0.32
bezrobocie
-0.34
-0.5
-0.3
-0.26
-0.41
-0.13
-0.34
-0.6
-0.21
0.02
0.08
1
0.14
0.21
inflacja
-0.36
-0.4
-0.36
-0.14
-0.37
-0.58
-0.08
-0.38
-0.4
-0.41
0.71
0.14
1
0.24
wzr. doch. z
-0.45
-0.56
-0.09
-0.71
-0.48
-0.48
-0.62
-0.16
-0.74
-0.67
0.32
0.21
0.24
1
zuŜ. energii
0.94
0.86
0.78
0.7
0.62
0.54
0.46
0.38
0.3
0.22
0.14
0.06
-0.02
-0.1
-0.18
-0.26
-0.34
-0.42
-0.5
-0.58
-0.66
-0.74
-0.82
-0.9
-0.98