taksonomia

Transkrypt

taksonomia
Wykład 10:
Analiza wielowymiarowa –
metody tworzenia rankingów
Tworzenie rankingów
na podstawie wartości wielu cech
Celem wykładu jest przedstawienie jednej z metod statystycznej
analizy wielowymiarowej, która pozwala na dokonanie syntezy
informacji zawartej w kilku cechach.
Podczas prowadzenia analiz międzynarodowych jak również
regionalnych, pojawia się często konieczność stworzenia rankingu
badanych obiektów według poziomu życia, poziomu rozwoju
infrastruktury, poziomu bezpieczeństwa publicznego lub też
według innych kryteriów.
Wszystkie wyżej wymienione pojęcia są bezpośrednio
niemierzalne – mają one charakter wielowymiarowy. Na
przykład poziom życia związany jest z zarobkami, dostępnością
pracy, warunkami zdrowotnymi, poziomem przestępczości (i
wieloma innymi aspektami życia.
Normalizacja danych statystycznych
Jak dodać wartości różnych zmiennych?
Najprostszym sposobem stworzenia miernika łączącego w sobie
informacje zawarte w wielu cechach jest średnia arytmetyczna.
Wydaje się jednak, że nie jest możliwe dodawania do siebie cech,
które co prawda opisują pewne szersze zjawisko, lecz mierzone są
na zupełnie różnych skalach.
Zamieszczone poniżej cztery cechy bez wątpienia opisują pewne
aspekty poziomu życia w Polsce, Rumunii i Bułgarii lecz
tworzenie miernika poziomu życia na podstawie ich uśredniania
dla każdego państwa nie wydaje się właściwe.
Poziom życia w Polsce =
(3024 + 9,6 + 8200 + 71)/4
Powody normalizacji wartości cech
Poziomu przestępczości, stopy bezrobocia, PKB per capita oraz
przeciętnego czasu trwania życia nie możemy uśredniać z dwóch
powodów.
Pierwszy z nich jest oczywisty – chodzi o różnice rzędu wielkości
pomiarów (jedne cechy oscylują wokół 10, inne przyjmują
wartości rzędu setek czy tysięcy).
Drugim powodem jest dwojaki charakter relacji wartości danej
cechy z opisywanym zjawiskiem.
Wyższe wartości PKB oraz czasu trwania życia są korzystne z
punktu widzenia poziomu życia społeczeństwa – cechy takie
nazywamy STYMULANTAMI, zaś w przypadku przestępczości i
poziomu bezrobocia mamy do czynienia z sytuacją odwrotną
(cechy takie nazywamy DESTYMULANTAMI).
Stymulanty i destymulanty
Przy stosowaniu metod porządkowania istotne jest praktyczne
znaczenie wartości zmiennych diagnostycznych - tworząc
sumaryczny ranking obiektów inaczej trzeba traktować cechy,
dla których pożądane są wartości wysokie (stymulanty) a inaczej
te, dla których optymalne są wartości niskie (destymulanty).
Tworząc rankingi należy więc stosować takie procedury
standaryzacji, które pozwalają zamienić destymulanty na
stymulanty.
Trzecią klasą zmiennych (w zjawiskach ekonomicznych nieco
rzadziej występujących, choć bardzo popularnych w przyrodzie)
są tzw. nominanty – są to cechy, dla których najbardziej
pożądane są wartości przeciętne.
Zamiana destymulant na stymulanty
Opracowano wiele procedur, które pozwalają zamienić
stymulanty na destymulanty. Poniżej przytoczono najbardziej
popularne z nich:
xi *  xmax  xi
xi *  xmax  xmin  xi
xi * 
1
xi
xmax
xi * 
xi
Ujednolicanie zakresu
Oto najbardziej popularne procedury ujednolicania zakresu
wartości cech statystycznych mających charakter stymulant:
xi  x
xi * 
s
Standaryzacja – zakres przekształconych wartości
w większości przypadków to (-3; 3)
xi  xmin
xi * 
100%
xmax  xmin
Unitaryzacja – zakres przekształconych wartości
to [0; 100%]
xi
xi * 
xmax
Przekształcenie ilorazowe – zakres wartości
w większości przypadków to [xmin/xmax; 1]
xi *  ri
Przekształcenie rangowe
(ri – pozycja obiektu w danej zbiorowości)
Wszystkie procedury normalizacyjne zachowują hierarchię
(uporządkowanie) obiektów, niektóre relacje pomiędzy ich
odległościami.
Metoda unitaryzacji zerowanej
Metoda unitaryzacji zerowanej polega na wykorzystaniu
przekształcenia unitaryzacyjnego dla stymulant i destymulant wg
wzorów:
xi  xmin
xi * 
100%
xmax  xmin
Dla stymulant
xmax  xi
xi * 
100%
xmax  xmin
Dla destymulant
TAKSONOMIA
TAKSONOMIA – nauka o zasadach porządkowania i
klasyfikacji obiektów.
Celem porządkowania i klasyfikacji obiektów może być:
1. Zredukowanie dużej ilości nagromadzonych informacji do kilku
podstawowych kategorii.
2. Określenie jednorodnych przedmiotów analizy.
3. Zmniejszenie nakładów czasu i kosztów badania przez
ograniczenie rozważań do najbardziej typowych faktów, zjawisk,
obiektów.
TAKSONOMIA NUMERYCZNA – procedury służące do
grupowania i klasyfikacji obiektów na podstawie ich charakterystyk
liczbowych.
TAKSONOMIA
Podstawowy podział metod taksonomicznych:
Metody grupowania – służące do wyodrębniania skupień
podobnych obiektów ze względu na wiele cech statystycznych.
Metody klasyfikacji, porządkowania (taksonomia liniowa) –
służą do tworzenia syntetycznego rankingu obiektów ze względu na
wiele cech statystycznych. W obrębie taksonomii liniowej można
wydzielić dwie podstawowe grupy metod - wzorcowe i bez wzorca.
Na tym wykładzie przedstawione zostały wybrane metody
klasyfikacji bezwzorcowej.
Metody grupowania dzielą się na hierarchiczne (w skład których
wchodzą metody podziałowe i aglomeracyjne) oraz nie
hierarchiczne. Najbardziej popularne (między innymi z powodu ich
intuicyjnej zrozumiałości) są aglomeracyjne metody hierarchiczne i
nimi zajmiemy się na tym wykładzie.
Przykład
Przykład będzie oparty na danych dotyczących 2007 roku i
dotyczących państw Unii Europejskiej (Wskaźniki UE-27).
Na podstawie dostępnych czterech cech związanych z poziomem
życia mieszkańców poszczególnych państw, stworzony zostanie
ranking poziomu życia w państwach UE w roku 2007.
Do analizy zastosowane zostaną dwie metody porządkowania
liniowego – metoda rang i metoda unitaryzacji zerowanej.
Metoda unitaryzacji zerowanej
1) Dokonujemy analizy merytorycznej badanego zjawiska i cech
diagnostycznych i klasyfikujemy je na stymulanty i
destymulanty.
2) Za pomocą opisanej wcześniej procedury unitaryzacji
zerowanej dokonujemy normalizacji wartości cech,
wykorzystując odpowiednie formuły arkusza danych (w
programie STATISTICA lub EXCEL).
3) Uzyskane wartości uśredniamy dla każdego państwa i
uzyskujemy syntetyczny miernik poziomu życia – wyniki
sortujemy według tego miernika, przedstawiając w postaci
tabelarycznej i graficznej.
Unitaryzacja zerowana
w programie EXCEL
1) W programie STATISTICA zaznaczamy zakres danych
uwzględnianych w analizie i kopiujemy je za pomocą poleceń
EDYCJA / KOPIUJ Z NAGŁÓWKAMI a następnie
wklejamy do arkusza programu EXCEL.
2) Za pomocą formuł wyliczamy minimum i maksimum dla
każdej cechy, po czym kopiujemy ich nagłówki i wyliczamy
wartości poddane unitaryzacji.
3) Za pomocą formuły ŚREDNIA wyliczamy średnią wartości
znormalizowanych dla każdego państwa. Za pomocą formuły
POZYCJA określamy miejsca każdego państwa w rankingu.
Szczegóły zaprezentowano
na następnej stronie
Szczegóły obliczeniowe w EXCELU
=(B$31-B2)/(B$31-B$30)
=(D2-D$30)/(D$31-D$30)
=ŚREDNIA(G2:J2)
=POZYCJA(L2;L$2:L$28;0)
Wejściowe dane
Unitaryzacja
dla
destymulant
Unitaryzacja
dla
stymulant
=MIN(B2:B28)
Wyliczenia pomocnicze
Średnia
przekształconych
wartości
oraz pozycja
w rankingu
Metoda rang
1) Dokonujemy analizy merytorycznej badanego zjawiska i cech
diagnostycznych i klasyfikujemy je na stymulanty i
destymulanty.
2) Kopiujemy wartości zmiennych wchodzące w skład rankingu
na końcu arkusza (polecenie ZMIENNE / KOPIUJ).
3) Dokonujemy rangowania (zamiany wartości na miejsca w
rankingach cząstkowych) dla każdej zmiennej składowej za
pomocą polecenia ZMIENNE / RANGUJ. Osobne kryteria
należy zastosować do stymulant i destymulant.
4) Dodajemy dwie nowe zmienne nazywając je: Miernik
poziomu życia (metoda rang) oraz Pozycja w rankingu.
Metoda rang (c.d.)
5) Wartości miernika wyznaczamy jako średnią rang zmiennych
cząstkowych.
6) Pozycję w rankingu wyznaczamy kopiując wartości miernika
do zmiennej pozycja i ponownie wykorzystując polecenie
ZMIENNE / RANGUJ.
Szczegóły zaprezentowano
na następnej stronie
Szczegóły obliczeniowe metody rang
=mean(v11:v14)
• dla stymulant przypisujemy rangę 1 do wartości największej;
• dla destymulant przypisujemy rangę do wartości najmniejszej.
Wesołych Świąt
Bożego
Narodzenia
i
Szczęśliwego
Nowego Roku