Prezentacja w formacie pdf
Transkrypt
Prezentacja w formacie pdf
Gradacyjna analiza danych Instytut Podstaw Informatyki PAN Wiesław Szczesny Emilia Jarochowska Gradacyjna analiza danych Grade Correspondence Analysis • Pomiar koncentracji, nadreprezentacja, GCA • Przykład analizy • Ku kompletnej infrastrukturze pojęć gradacyjnej analizy danych W gradacyjnej analizie danych dwóm jednowymiarowym rozkładom przyporządkowuje się krzywą w kwadracie jednostkowym, która reprezentuje koncentrację jednego rozkładu względem drugiego. 1 Para rozkładów 0.8 0.6 0.4 0.2 1 0 0.8 0 2 4 6 8 0.6 0.4 Krzywa koncentracji 0.2 0 0 0.5 1 Pomiar maksymalnej koncentracji: krzywa Cmax i wskaźnik armax a ax rm = 2 × e l po Cmax Nadreprezentacja pi 0.06 0.07 0.081 0.094 0.125 0.127 0.184 0.26 qi 0.022 0.036 0.051 0.071 0.127 0.212 0.217 0.263 hi 0.37 0.51 0.63 0.76 1.02 1.67 1.18 1.01 Wskaźnik nadreprezentacji = „wielkość obserwowana” „wielkość wynikająca z modelu” A B C D B A C D B4 B1 B1 B2 B2 B3 B5 B4 B3 B6 B5 B6 B GCA B4 B1 B2 B5 B3 B6 A C D B B4 B1 B2 B5 BB B3 B6 A C D 1.56 1.45 1.35 1.26 1.17 1.09 1.02 0.95 0.88 0.82 0.76 0.71 0.66 0.6 GradeStat Przykład analizy Wskaźniki ekonomiczno-gospodarcze Dane z Grzegorek, 2006 na podstawie http://epp.eurostat.cec.eu.int wzr. doch. z roln. inflacja bezrobocie inwest. %PKB F przew. dł.Ŝycia M przew. dł.Ŝycia zatrudnienie udz.wyb.parl podatki %PKB dzietnosc emisja g. ciepl. dost e-adm % PKB na os/śr EU zuŜ. energii GCA – gradacyjna analiza odpowiedniości + imputacja Przykład analizy Luksemburg Luksemburg Finlandia Szwecja Austria Holandia Dania Irlandia Francja Belgia Włochy Wlk Brytania Cypr Niemcy Słowenia Malta Grecja Portugalia Hiszpania Czechy Węgry Estonia Litwa Słowacja Polska Łotwa Finlandia Szwecja Austria Holandia Dania Irlandia Francja Belgia Włochy Wlk Brytania Cypr Niemcy Słowenia Malta Grecja Portugalia Hiszpania Czechy Węgry Estonia Litwa Słowacja Polska Łotwa wzr. doch. z roln. inflacja bezrobocie inwest. %PKB F przew. dł.Ŝycia M przew. dł.Ŝycia zatrudnienie udz.wyb.parl podatki %PKB dzietnosc emisja g. ciepl. dost e-adm % PKB na os/śr EU zuŜ. energii GCCA – gradacyjna analiza skupień Przykład analizy Luksemburg Luksemburg Finlandia Szwecja Austria Holandia Dania Irlandia Francja Belgia Włochy Wlk Brytania Cypr Niemcy Słowenia Malta Grecja Portugalia Hiszpania Czechy Węgry Estonia Litwa Słowacja Polska Łotwa Finlandia Szwecja Austria Holandia Dania Irlandia Francja Belgia Włochy Wlk Brytania Cypr Niemcy Słowenia Malta Grecja Portugalia Hiszpania Czechy Węgry Estonia Litwa Słowacja Polska Łotwa wzr. doch. z roln. inflacja bezrobocie inwest. %PKB F przew. dł.Ŝycia M przew. dł.Ŝycia zatrudnienie udz.wyb.parl podatki %PKB dzietnosc emisja g. ciepl. dost e-adm % PKB na os/śr EU zuŜ. energii Mapa zróżnicowania wewnątrz zmiennych Przykład analizy Luksemburg Finlandia Szwecja Austria Holandia Dania Irlandia Francja Belgia Włochy Wlk Brytania Cypr Niemcy Słowenia Malta Grecja Portugalia Hiszpania Czechy Węgry Estonia Litwa Słowacja Polska Łotwa Luksemburg Finlandia Szwecja Austria Holandia Dania Irlandia Francja Belgia Włochy Wlk Brytania Cypr Niemcy Słowenia Malta Grecja Portugalia Hiszpania Czechy Węgry Estonia Litwa Słowacja Polska Łotwa Przykład analizy Znajdowanie elementów odstających Przykład analizy Znajdowanie elementów odstających http://gradestat.ipipan.waw.pl Książki Grade Models and Methods for Data Analysis With applications for the analysis of data populations Kowalczyk T., Pleszczyńska E., Ruland F. (red.) 2004 Książki Analiza danych medycznych i demograficznych Przy użyciu programu GradeStat Książyk J., Matyja O., Pleszczyńska E., Wiech M. (red.) 2005 książka wydana we współpracy Instytutu Podstaw Informatyki z Centrum Zdrowia Dziecka Ku kompletnej infrastrukturze pojęć gradacyjnej analizy danych Dla pary zmiennych: Krzywa koncentracji Krzywa maks. koncentracji Pomiar asymetrii, spłaszczenia i nierówności Powierzchnia maks. koncentracji Pomiar asymetrii, spłaszczenia i nierówności; HGCA Dla tablicy m×k: Powierzchnia koncentracji Krzywa koncentracji Krzywa maks. koncentracji Pomiar asymetrii, spłaszczenia i nierówności Krzywa Lorenza Wskaźnik koncentracji Wskaźnik maks. koncentracji Dla pary zmiennych Powierzchnia koncentracji Wskaźnik koncentracji Powierzchnia maksymalnej koncentracji Uzgodnienie zwrotów zmiennych. Pomiar asymetrii, spłaszczenia i nierówności; Wskaźnik maks. koncentracji Dla tablicy m×k Tablica kontyngencji lub macierz danych wielowymiarowych Ten schemat będzie w przyszłości rozwijany w wielu pracach dotyczących infrastruktury pojęciowej analizy danych wielowymiarowych • Powiązania z innymi metodami wizualizacji, np. generalized association plots (Szczesny i Wiech, 2006) • Dekompozycja obrazów medycznych, np. NMR (Grzegorek, 2005) • Prace nad uzgadnianiem zwrotu zmiennych • European Economic Survey – zastosowanie GCA (m.in. praca magisterska) Zastosowanie w monitorowaniu ordynacji lekarskiej współpraca z Łódzkim Oddziałem NFZ Przykłady zastosowań Zapraszamy na stronę http://gradestat.ipipan.waw.pl W przygotowaniu książka Gradacyjna Analiza Danych dla użytkowników na rozmaitych poziomach zaawansowania Dziękujemy za uwagę Wiesław Szczesny [email protected] Emilia Jarochowska [email protected] Luksemburg Finlandia Szwecja Austria Holandia Dania Irlandia Francja Belgia Włochy Wlk Brytania Cypr Niemcy Słowenia Malta Grecja Portugalia Hiszpania Czechy Węgry Estonia Litwa Słowacja Polska Łotwa wzr. doch. z roln inflacja bezrobocie inwest. %PKB F przew. dł.Ŝycia M przew. dł.Ŝycia zatrudnienie udz.wyb.parl podatki %PKB dzietnosc emisja g. ciepl. dost e-adm % PKB na os/śr EU zuŜ. energii Mapa nadreprezentacji w kolorze Luksemburg Finlandia Szwecja Austria Holandia Dania Irlandia Francja Belgia Włochy Wlk Brytania Cypr Niemcy Słowenia Malta Grecja Portugalia Hiszpania Czechy Węgry Estonia Litwa Słowacja Polska Łotwa 1.55 1.45 1.37 1.29 1.21 1.14 1.07 1.01 0.95 0.89 0.84 0.79 0.74 0.69 0.65 0.6 zuŜ. energii PKB na os/śr EU dost e-adm % emisja g. ciepl. dzietnosc podatki %PKB udz.wyb.parl zatrudnienie M przew. dł.Ŝycia F przew. dł.Ŝycia inwest. %PKB bezrobocie inflacja wzr. doch. z roln Mapa współczynników korelacji rangowej Spearmana 1 0.85 0.39 0.23 0.62 0.68 0.35 0.53 0.39 0.55 -0.42 -0.34 -0.36 -0.45 PKB na os/śr 0.85 1 0.44 0.46 0.77 0.64 0.44 0.55 0.6 0.59 -0.48 -0.5 -0.4 -0.56 dost e-adm % 0.39 0.44 1 0.3 0.54 0.46 -0.01 0.49 0.38 0.5 -0.18 -0.3 -0.36 -0.09 wzr. zuŜ. ga 0.23 0.46 0.3 1 0.42 0.22 0.42 0.26 0.65 0.64 -0.04 -0.26 -0.14 -0.71 dzietnosc 0.62 0.77 0.54 0.42 1 0.48 0.24 0.59 0.47 0.49 -0.49 -0.41 -0.37 -0.48 podatki %PKB 0.68 0.64 0.46 0.22 0.48 1 0.48 0.29 0.44 0.58 -0.55 -0.13 -0.58 -0.48 udz.wyb.parl 0.35 0.44 -0.01 0.42 0.24 0.48 1 0.07 0.45 0.3 -0.29 -0.34 -0.08 -0.62 zatrudnienie 0.53 0.55 0.49 0.26 0.59 0.29 0.07 1 0.23 0.26 -0.31 -0.6 -0.38 -0.16 M przew. dł. 0.39 0.6 0.38 0.65 0.47 0.44 0.45 0.23 1 0.82 -0.36 -0.21 -0.4 -0.74 F przew. dł. 0.55 0.59 0.5 0.64 0.49 0.58 0.3 0.26 0.82 1 -0.4 0.02 -0.41 -0.67 inwest. %PKB -0.42 -0.48 -0.18 -0.04 -0.49 -0.55 -0.29 -0.31 -0.36 -0.4 1 0.08 0.71 0.32 bezrobocie -0.34 -0.5 -0.3 -0.26 -0.41 -0.13 -0.34 -0.6 -0.21 0.02 0.08 1 0.14 0.21 inflacja -0.36 -0.4 -0.36 -0.14 -0.37 -0.58 -0.08 -0.38 -0.4 -0.41 0.71 0.14 1 0.24 wzr. doch. z -0.45 -0.56 -0.09 -0.71 -0.48 -0.48 -0.62 -0.16 -0.74 -0.67 0.32 0.21 0.24 1 zuŜ. energii 0.94 0.86 0.78 0.7 0.62 0.54 0.46 0.38 0.3 0.22 0.14 0.06 -0.02 -0.1 -0.18 -0.26 -0.34 -0.42 -0.5 -0.58 -0.66 -0.74 -0.82 -0.9 -0.98