taksonomia
Transkrypt
taksonomia
Wykład 10: Analiza wielowymiarowa – metody tworzenia rankingów Tworzenie rankingów na podstawie wartości wielu cech Celem wykładu jest przedstawienie jednej z metod statystycznej analizy wielowymiarowej, która pozwala na dokonanie syntezy informacji zawartej w kilku cechach. Podczas prowadzenia analiz międzynarodowych jak również regionalnych, pojawia się często konieczność stworzenia rankingu badanych obiektów według poziomu życia, poziomu rozwoju infrastruktury, poziomu bezpieczeństwa publicznego lub też według innych kryteriów. Wszystkie wyżej wymienione pojęcia są bezpośrednio niemierzalne – mają one charakter wielowymiarowy. Na przykład poziom życia związany jest z zarobkami, dostępnością pracy, warunkami zdrowotnymi, poziomem przestępczości (i wieloma innymi aspektami życia. Normalizacja danych statystycznych Jak dodać wartości różnych zmiennych? Najprostszym sposobem stworzenia miernika łączącego w sobie informacje zawarte w wielu cechach jest średnia arytmetyczna. Wydaje się jednak, że nie jest możliwe dodawania do siebie cech, które co prawda opisują pewne szersze zjawisko, lecz mierzone są na zupełnie różnych skalach. Zamieszczone poniżej cztery cechy bez wątpienia opisują pewne aspekty poziomu życia w Polsce, Rumunii i Bułgarii lecz tworzenie miernika poziomu życia na podstawie ich uśredniania dla każdego państwa nie wydaje się właściwe. Poziom życia w Polsce = (3024 + 9,6 + 8200 + 71)/4 Powody normalizacji wartości cech Poziomu przestępczości, stopy bezrobocia, PKB per capita oraz przeciętnego czasu trwania życia nie możemy uśredniać z dwóch powodów. Pierwszy z nich jest oczywisty – chodzi o różnice rzędu wielkości pomiarów (jedne cechy oscylują wokół 10, inne przyjmują wartości rzędu setek czy tysięcy). Drugim powodem jest dwojaki charakter relacji wartości danej cechy z opisywanym zjawiskiem. Wyższe wartości PKB oraz czasu trwania życia są korzystne z punktu widzenia poziomu życia społeczeństwa – cechy takie nazywamy STYMULANTAMI, zaś w przypadku przestępczości i poziomu bezrobocia mamy do czynienia z sytuacją odwrotną (cechy takie nazywamy DESTYMULANTAMI). Stymulanty i destymulanty Przy stosowaniu metod porządkowania istotne jest praktyczne znaczenie wartości zmiennych diagnostycznych - tworząc sumaryczny ranking obiektów inaczej trzeba traktować cechy, dla których pożądane są wartości wysokie (stymulanty) a inaczej te, dla których optymalne są wartości niskie (destymulanty). Tworząc rankingi należy więc stosować takie procedury standaryzacji, które pozwalają zamienić destymulanty na stymulanty. Trzecią klasą zmiennych (w zjawiskach ekonomicznych nieco rzadziej występujących, choć bardzo popularnych w przyrodzie) są tzw. nominanty – są to cechy, dla których najbardziej pożądane są wartości przeciętne. Zamiana destymulant na stymulanty Opracowano wiele procedur, które pozwalają zamienić stymulanty na destymulanty. Poniżej przytoczono najbardziej popularne z nich: xi * xmax xi xi * xmax xmin xi xi * 1 xi xmax xi * xi Ujednolicanie zakresu Oto najbardziej popularne procedury ujednolicania zakresu wartości cech statystycznych mających charakter stymulant: xi x xi * s Standaryzacja – zakres przekształconych wartości w większości przypadków to (-3; 3) xi xmin xi * 100% xmax xmin Unitaryzacja – zakres przekształconych wartości to [0; 100%] xi xi * xmax Przekształcenie ilorazowe – zakres wartości w większości przypadków to [xmin/xmax; 1] xi * ri Przekształcenie rangowe (ri – pozycja obiektu w danej zbiorowości) Wszystkie procedury normalizacyjne zachowują hierarchię (uporządkowanie) obiektów, niektóre relacje pomiędzy ich odległościami. Metoda unitaryzacji zerowanej Metoda unitaryzacji zerowanej polega na wykorzystaniu przekształcenia unitaryzacyjnego dla stymulant i destymulant wg wzorów: xi xmin xi * 100% xmax xmin Dla stymulant xmax xi xi * 100% xmax xmin Dla destymulant TAKSONOMIA TAKSONOMIA – nauka o zasadach porządkowania i klasyfikacji obiektów. Celem porządkowania i klasyfikacji obiektów może być: 1. Zredukowanie dużej ilości nagromadzonych informacji do kilku podstawowych kategorii. 2. Określenie jednorodnych przedmiotów analizy. 3. Zmniejszenie nakładów czasu i kosztów badania przez ograniczenie rozważań do najbardziej typowych faktów, zjawisk, obiektów. TAKSONOMIA NUMERYCZNA – procedury służące do grupowania i klasyfikacji obiektów na podstawie ich charakterystyk liczbowych. TAKSONOMIA Podstawowy podział metod taksonomicznych: Metody grupowania – służące do wyodrębniania skupień podobnych obiektów ze względu na wiele cech statystycznych. Metody klasyfikacji, porządkowania (taksonomia liniowa) – służą do tworzenia syntetycznego rankingu obiektów ze względu na wiele cech statystycznych. W obrębie taksonomii liniowej można wydzielić dwie podstawowe grupy metod - wzorcowe i bez wzorca. Na tym wykładzie przedstawione zostały wybrane metody klasyfikacji bezwzorcowej. Metody grupowania dzielą się na hierarchiczne (w skład których wchodzą metody podziałowe i aglomeracyjne) oraz nie hierarchiczne. Najbardziej popularne (między innymi z powodu ich intuicyjnej zrozumiałości) są aglomeracyjne metody hierarchiczne i nimi zajmiemy się na tym wykładzie. Przykład Przykład będzie oparty na danych dotyczących 2007 roku i dotyczących państw Unii Europejskiej (Wskaźniki UE-27). Na podstawie dostępnych czterech cech związanych z poziomem życia mieszkańców poszczególnych państw, stworzony zostanie ranking poziomu życia w państwach UE w roku 2007. Do analizy zastosowane zostaną dwie metody porządkowania liniowego – metoda rang i metoda unitaryzacji zerowanej. Metoda unitaryzacji zerowanej 1) Dokonujemy analizy merytorycznej badanego zjawiska i cech diagnostycznych i klasyfikujemy je na stymulanty i destymulanty. 2) Za pomocą opisanej wcześniej procedury unitaryzacji zerowanej dokonujemy normalizacji wartości cech, wykorzystując odpowiednie formuły arkusza danych (w programie STATISTICA lub EXCEL). 3) Uzyskane wartości uśredniamy dla każdego państwa i uzyskujemy syntetyczny miernik poziomu życia – wyniki sortujemy według tego miernika, przedstawiając w postaci tabelarycznej i graficznej. Unitaryzacja zerowana w programie EXCEL 1) W programie STATISTICA zaznaczamy zakres danych uwzględnianych w analizie i kopiujemy je za pomocą poleceń EDYCJA / KOPIUJ Z NAGŁÓWKAMI a następnie wklejamy do arkusza programu EXCEL. 2) Za pomocą formuł wyliczamy minimum i maksimum dla każdej cechy, po czym kopiujemy ich nagłówki i wyliczamy wartości poddane unitaryzacji. 3) Za pomocą formuły ŚREDNIA wyliczamy średnią wartości znormalizowanych dla każdego państwa. Za pomocą formuły POZYCJA określamy miejsca każdego państwa w rankingu. Szczegóły zaprezentowano na następnej stronie Szczegóły obliczeniowe w EXCELU =(B$31-B2)/(B$31-B$30) =(D2-D$30)/(D$31-D$30) =ŚREDNIA(G2:J2) =POZYCJA(L2;L$2:L$28;0) Wejściowe dane Unitaryzacja dla destymulant Unitaryzacja dla stymulant =MIN(B2:B28) Wyliczenia pomocnicze Średnia przekształconych wartości oraz pozycja w rankingu Metoda rang 1) Dokonujemy analizy merytorycznej badanego zjawiska i cech diagnostycznych i klasyfikujemy je na stymulanty i destymulanty. 2) Kopiujemy wartości zmiennych wchodzące w skład rankingu na końcu arkusza (polecenie ZMIENNE / KOPIUJ). 3) Dokonujemy rangowania (zamiany wartości na miejsca w rankingach cząstkowych) dla każdej zmiennej składowej za pomocą polecenia ZMIENNE / RANGUJ. Osobne kryteria należy zastosować do stymulant i destymulant. 4) Dodajemy dwie nowe zmienne nazywając je: Miernik poziomu życia (metoda rang) oraz Pozycja w rankingu. Metoda rang (c.d.) 5) Wartości miernika wyznaczamy jako średnią rang zmiennych cząstkowych. 6) Pozycję w rankingu wyznaczamy kopiując wartości miernika do zmiennej pozycja i ponownie wykorzystując polecenie ZMIENNE / RANGUJ. Szczegóły zaprezentowano na następnej stronie Szczegóły obliczeniowe metody rang =mean(v11:v14) • dla stymulant przypisujemy rangę 1 do wartości największej; • dla destymulant przypisujemy rangę do wartości najmniejszej. Wesołych Świąt Bożego Narodzenia i Szczęśliwego Nowego Roku