Uogólniona miara odległości GDM w statystycznej analizie

Transkrypt

Uogólniona miara odległości GDM w statystycznej analizie
Marek Walesiak
UOGÓLNIONA MIARA ODLEGŁOŚCI GDM
W STATYSTYCZNEJ ANALIZIE
WIELOWYMIAROWEJ
Z WYKORZYSTANIEM PROGRAMU R
Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu
Wrocław 2011
Senacka Komisja Wydawnicza
Zdzisław Pisz (przewodniczący),
Andrzej BqIc, KrzysztofJajuga. Andrzej MaI)IsiaJc. Waldemar Podgórski,
Mieczysław Przybyła, Aniela Styś, Stanisław Urban
Recenzent
Andrzej Sokołowski
Redakcja wydawnicza
Dorota Pitulec
Redakcja techniczna
Barbara Łopuslewicz
Korekta
Barbara Cibis
Skład i łamanie
Beata Mazur
Projekt okładki
Beala Dębska
Na okładce wykorzystano zdjęcie z zasobów 123 Royality Free
Tytuł dofinansowano ze środków
na działalność statutową Katedry Ekonometrii i Infonnatyki
Uniwersytetu Ekonomicznego we Wrocławiu
Kopiowanie i powielanie w jakiejkolwiek fonnie
wymaga pisemnej zgody Wydawcy
CI Copyńght by Uniwersytet Ekonomiczny we Wrocławiu
Wrocław 20 I ł
ISBN 978-83-7695-131-4
Druk: Drukarnia lOTEM
SPIS TREŚCI
WSTĘP.
............................................................
l. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELO­
WYMIAROWEJ ....................... ,..........................
1.1. Zagadnienia wstępne ...........................................
1.2. Typy skal pomiarowych i ich charakterystyka. . . . . . . . . . . . . . . . . . . . . .
1.3. Transformacja nonnalizacyjna i ujednolicanie zmiennych . . . . . . . . . . .
1.4. Pomiar podobieństwa obiektów w świetle skal pomiaru i wag zmien­
nych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5. Strategie postępowania w pomiarze odJegłości dla danych porządkowych
2. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM ........... :...........
2.1. Wprowadzenie ................................................
2.2. Uogólniony współczynnik korelacji ..............................
2.3. Charakterystyka uogólnionej miary odległości .....................
2.4. Silne i słabe strony uogólnionej miary odległości. . . . . . . . . . . . . . . . . . .
2.5. Postać uogólnionej miary odległości dla zmiennych z różnych skal po­
miaru . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6. Postać uogólnionej miary odległości dla zróżnicowanych wag zmien­
nych . . . . . . . . . . . . . . . . . . . . . . . . . . . • . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7. Kwadrat odległości euklidesowej a współczynnik korelacji liniowej Pearsona i cosinus kąta między wektorami ........................
2.8. GDM a współczynnik korelacji liniowej Pearsona i cosinus kąta między wektorami. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ ......
3. ł. Wyznaczanie macierzy odległości w procesie klasyfikacji obiektów. . .
3.2. Ocena podobieństwa wyników klasyfikacji zbioru obiektów w czasie
3.3. Uogólniona miara odległości ODM jako syntetyczny miernik rozwoju w metodach porządkowania liniowego . . . . . . • . . . . . . . . . . . . . . . . . . . . .
3.4. Ocena podobieństwa wyników porządkowania liniowego zbioru obiek­
tów w czasie ..................................................
4. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM W ŚWIETLE WYBRA­
NYCH EKSPERYMENTÓW SYMULACYJNYCH ...................
4.1. Losowe generowanie danych o znanej strukturze klas w pakiecie cIu­
sterSirn ....................................................
7
11 11 13 16 22 31 36 36 36 38 44 46 47 48 50 54 54 68 73 78 82 82 6
SPIS TREŚCI
4.2. Analiza porównawcza metod klasyfikacji dla danych o znanej struktu­
rze klas ................... . . . . . . . . . . . . . . • . . . . . . . . . . . . . . . . . . . . .
4.3. Ocena wybranych procedur analizy skupień dla danych porządkowych
5. WYBRANE ZASTOSOWANIA UOGÓLNIONFJ MIARY ODLEGŁOŚCI GDM Z WYKORZYSTANIEM PROGRAMU R ..................
5.1. Porządkowanie liniowe zbioru obiektów na podstawie danych porządkowych z rynku nieruchomości ..................................
5.2. Porządkowanie liniowe zbioru obiektów na podstawie danych metrycz­
nych dotyczących warunków zamieszkiwania ludności w miastach ...
5.3. Ocena podobieństwa wyników porządkowania liniowego zbioru obiek­
tów w czasie na podstawie danych metrycznych dotyczących warun­
ków zamieszkiwania ludności w miastach, . . . . . . . . . . . . . . . . . . . . . . . . .
5.4. Analiza skupień zbioru obiektów opisanych danymi porządkowymi
z rynku nieruchomości . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5. Analiza skupień zbioru obiektów opisanych danymj metrycznymi do­
tyczącymi zanieczyszczenia powietrza ........................ " . .
LITERATURA .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
SKOROWIDZ ......................................................
SPIS RYSUNKÓW ..................................................
SPIS TABEL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87 92 98 98 102 ł 05
108 112 J 18 125 129 130 WSTĘP
Prezentowana książka stanowi podsumowanie rozważań autora zawartych w
wielu opracowaniach dotyczących miary odległości, która została w pierwotnej wersji zaproponowana dla zmiennych porządkowych [Walesiak 1993a, s. 44-45], a następnie dla danych metrycznych [Walesiak 2002a] i nominalnych [Walesiak 2003c].
Podstawowe części książki zostały opublikowane m.in. w „Argumenta Oeconomica”, „Przeglądzie Statystycznym”, „Badaniach Operacyjnych i Decyzjach”, Pracach
Naukowych Akademii Ekonomicznej we Wrocławiu (obecnie Uniwersytetu Ekonomicznego we Wrocławiu) oraz były referowane na konferencjach naukowych,
w tym na konferencji Sekcji Klasyfikacji i Analizy Danych PTS (zob. [Walesiak,
Bąk, Jajuga 2002; Walesiak 2003b; 2004b; 2011b; Walesiak, Dudek 2009a; 2010b]),
konferencji Światowej Federacji Towarzystw Klasyfikacyjnych IFCS (zob. [Walesiak, Dziechciarz, Bąk 1998; Walesiak, Dudek 2010a]) oraz Niemieckiego Towarzystwa Klasyfikacyjnego (zob. [Jajuga, Walesiak, Bąk 2003]).
Dotychczas uogólniona miara odległości zaprezentowana została w zwartej postaci w dwóch wydaniach książkowych Wydawnictwa AE we Wrocławiu (zob.
[Walesiak 2002b; 2006]). Obecna monografia zawiera istotne zmiany i uzupełnienia wynikające w znacznej mierze z oprogramowania miary GDM w pakiecie
clusterSim programu R. Całkowicie nowe są podrozdziały 1.5, 3.1 i 3.3 oraz
rozdziały czwarty i piąty.
Praca składa się z pięciu rozdziałów.
W rozdziale pierwszym przedstawiono podstawowe zagadnienia statystycznej
analizy wielowymiarowej. Wyjaśniono w nim takie podstawowe pojęcia, jak obiekt,
zmienna, macierz i kostka danych. Scharakteryzowano typy skal pomiarowych oraz
zagadnienie transformacji normalizacyjnej i ujednolicania zmiennych z punktu widzenia skal pomiarowych. Ponadto zaprezentowano szeroką klasyfikację miar podobieństwa obiektów z uwzględnieniem problematyki ważenia zmiennych oraz skal
ich pomiaru. Rozdział kończą rozważania dotyczące strategii postępowania w pomiarze odległości dla danych porządkowych.
W rozdziale drugim przedstawiono szczegółową charakterystykę uogólnionej
miary odległości GDM (Generalised Distance Measure). W konstrukcji miary odległości GDM wykorzystano ideę uogólnionego współczynnika korelacji, który obejmuje współczynnik korelacji liniowej Pearsona i współczynnik korelacji zmiennych
porządkowych tau Kendalla. W związku z tym w części pierwszej tego rozdziału
zaprezentowano uogólniony współczynnik korelacji. W dalszej części scharakteryzowano uogólnioną miarę odległości GDM dla jednakowych i zróżnicowanych wag
zmiennych. Następnie wskazano silne i słabe strony uogólnionej miary odległości.
Uogólniona miara_Walesiak_Księga1.indb 7
2012-02-19 14:55:55
8
WSTĘP
Rozważania teoretyczne zilustrowano licznymi przykładami poglądowymi. Zaprezentowano postać uogólnionej miary odległości GDM uwzględniającą zmienne mierzone na skali metrycznej, porządkowej, nominalnej oraz zmienne z różnych skal
pomiaru. Ponadto przedstawiono analizę związków między kwadratem odległości
euklidesowej a współczynnikiem korelacji liniowej Pearsona i cosinusem kąta między wektorami oraz między uogólnioną miarą odległości GDM a współczynnikiem
korelacji liniowej Pearsona i cosinusem kąta między wektorami.
W rozdziale trzecim zaprezentowano obszary zastosowań uogólnionej miary odległości w statystycznej analizie wielowymiarowej. Podstawowymi obszarami zastosowań tej miary są wyznaczanie macierzy odległości w procesie klasyfikacji
zbioru obiektów oraz zastosowanie miary GDM jako syntetycznego miernika rozwoju w metodach porządkowania liniowego. Ponadto w rozdziale tym zaprezentowano metody oceny podobieństwa wyników klasyfikacji zbioru obiektów oraz oceny podobieństwa wyników porządkowania liniowego zbioru obiektów w czasie.
Rozdział czwarty zawiera rezultaty wybranych eksperymentów symulacyjnych
pozwalających ocenić zachowanie się uogólnionej miary odległości GDM przy różnych strukturach danych. W pierwszym podrozdziale scharakteryzowano zagadnienie
losowego generowania danych o znanej strukturze klas w pakiecie clusterSim.
W drugim podrozdziale przedstawiono analizę porównawczą metod klasyfikacji dla
danych o znanej strukturze klas dla trzech typów danych. W dwóch pierwszych eksperymentach wykorzystano dane metryczne oraz porządkowe o znanej strukturze
klas obiektów wygenerowane z wykorzystaniem z funkcji cluster.Gen pakietu
clusterSim. W eksperymencie trzecim zbiory danych utworzono z wykorzystaniem funkcji pakietu mlbench (spirals, smiley, cassini) oraz zbiorów własnych
(worms, w3, skad). W podrozdziale trzecim, na podstawie porządkowych danych
symulacyjnych wygenerowanych z wykorzystaniem z funkcji cluster.Gen pakietu clusterSim, przeprowadzono ocenę przydatności wybranych procedur analizy skupień obejmujących miarę odległości GDM, dziewięć metod klasyfikacji oraz
osiem indeksów służących ustaleniu liczby klas.
W rozdziale piątym zaprezentowano wybrane zastosowania uogólnionej miary
odległości GDM1 i GDM2 w statystycznej analizie wielowymiarowej z wykorzystaniem programu R. Znaczna część skryptów wykorzystuje pakiet clusterSim. Zastosowania dotyczyły porządkowania liniowego i analizy skupień zbioru obiektów
na podstawie danych porządkowych z rynku nieruchomości oraz porządkowania liniowego na podstawie danych metrycznych dotyczących warunków zamieszkiwania
ludności w miastach i analizy skupień obiektów opisanych danymi metrycznymi
dotyczącymi zanieczyszczenia powietrza. Ponadto dokonano oceny podobieństwa
wyników porządkowania liniowego zbioru obiektów w czasie na podstawie danych
metrycznych dotyczących warunków zamieszkiwania ludności w miastach.
Pracę zamyka zestawienie wykorzystywanej literatury, spis rysunków i tabel
oraz skorowidz rzeczowy.
Uogólniona miara_Walesiak_Księga1.indb 8
2012-02-19 14:55:55
WSTĘP
9
Wersję instalacyjną programu R oraz dodatkowe pakiety (w tym pakiet clusterSim autorstwa Marka Walesiaka i Andrzeja Dudka) można pobrać ze strony:
http://www.r-project.org/. Wszystkie skrypty zawarte w książce przetestowano, używając wersji 2.14.1 programu R.
Na stronie internetowej http://keii.ue.wroc.pl znajdują się pliki zawierające wykorzystywane dane oraz skrypty realizujące zastosowania zamieszczone w książce.
Książka jest przeznaczona dla pracowników naukowych zajmujących się zastosowaniem metod statystycznej analizy wielowymiarowej w każdej dziedzinie wiedzy, w tym w badaniach ekonomicznych. Ponadto odbiorcami książki mogą być
słuchacze wyższych uczelni studiujący zagadnienia statystycznej analizy wielowymiarowej i jej zastosowań.
Uogólniona miara_Walesiak_Księga1.indb 9
2012-02-19 14:55:55
Uogólniona miara_Walesiak_Księga1.indb 10
2012-02-19 14:55:55
1
PODSTAWOWE ZAGADNIENIA
STATYSTYCZNEJ
ANALIZY WIELOWYMIAROWEJ
1.1
ZAGADNIENIA WSTĘPNE
Termin „statystyczna analiza wielowymiarowa” odnosi się do grupy metod statystycznych, za pomocą których jednoczesnej analizie poddane są pomiary na przynajmniej dwóch zmiennych opisujących każdy obiekt badania. Do podstawowych
pojęć statystycznej analizy wielowymiarowej zalicza się pojęcia: obiekt i zmienna.
Głównym zagadnieniem jest określenie elementarnej jednostki badawczej, czyli
obiektu badania.
Obiekty są rozumiane w sensie zarówno dosłownym, jak i przenośnym. Obiektem jest więc w badaniach określona rzecz, osoba, kategoria abstrakcyjna lub zdarzenie. Konkretnymi przykładami obiektów są: konsument X, produkt Y, marka samochodu S, pacjent P, gmina G, przedsiębiorstwo F, rzeka R, rynek testowy T,
hipermarket H, rynek zbytu Z, gospodarstwo domowe D, idea filozoficzna I. Zbiór
n
obiektów badania będzie oznaczany przez A = {Ai }1 = {A1 ,… , An }.
Zmienna w statystycznej analizie wielowymiarowej jest charakterystyką opisującą zbiorowość obiektów. W ujęciu formalnym zmienna Mj to odwzorowanie (por.
[Borys 1984, s. 87]):
M j : A → Q ( j = 1,… , m) ,
(1.1)
gdzie: Q – zbiór obrazów (liczb rzeczywistych, kategorii),
m – liczba zmiennych.
Metody statystycznej analizy wielowymiarowej (SAW) zwykle wymagają, aby
realizacje zmiennych były liczbami rzeczywistymi – zachodzi więc potrzeba kodowania zmiennych wyrażonych w formie kategorii. Jeśli w odwzorowaniu (1.1) zbiór
obrazów jest zbiorem kategorii, to należy go przekodować na zbiór liczb rzeczywistych. Można wykorzystać następujące sposoby kodowania zmiennych (zob. [Walesiak 2011d]):
1. Jeśli dana zmienna ma tylko dwie kategorie, można ją zamienić na tzw. zmienną sztuczną (np. zero-jedynkową). Jednemu wariantowi nadaje się wartość „1”,
a drugiemu wartość „0” lub „–1”. Na przykład dla zmiennej płeć kodowanie będzie
następujące: kobieta „1”, mężczyzna „0” lub „–1”.
Uogólniona miara_Walesiak_Księga1.indb 11
2012-02-19 14:55:55
12
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ
2. Jeśli zmienna ma więcej niż dwie kategorie, to stosujemy sposób zamiany
polegający na zastosowaniu zespołu zmiennych sztucznych (np. zero-jedynkowych).
W modelu z wyrazem wolnym obowiązuje zasada, według której liczba wprowadzonych zmiennych sztucznych musi być mniejsza o jeden od liczby poziomów
(kategorii) danej zmiennej. Załóżmy, że dla zmiennej wykształcenie występują trzy
warianty (kategorie): podstawowe, zasadnicze zawodowe, średnie. Należy w tym
przypadku wprowadzić dwie zmienne sztuczne, np. zdefiniowane następująco:
Wykształcenie M j M j +1
podstawowe
0
0
zasadnicze zawodowe
0
1
średnie
1
0
lub
M j M j+1
−1
−1
0
1
1
0
W modelu bez wyrazu wolnego wprowadza się tyle zmiennych sztucznych, ile
jest poziomów (kategorii) danej zmiennej. Na przykład dla danych kwartalnych
wprowadzamy 4 zmienne zero-jedynkowe o następującym kodowaniu:
Kwartał M 1
I
1
II
III
IV
0
0
0
M2
0
M3
0
M4
0
1
0
0
0
1
0
0
0
1
Kodowanie zero-jedynkowe zmiennych umożliwia funkcja fact2dummy pakietu StatMatch programu R.
3. Poszczególnym kategoriom można przypisać kolejne liczby naturalne. Nie ma
tutaj znaczenia, czy kategorie można uporządkować według stopnia intensywności
oddziaływania (zmienna porządkowa), czy też nie można ich uporządkować (zmienna nominalna). Na przykład dla zmiennej porządkowej organizacja pracy, obejmującej kategorie bardzo dobra, dobra, słaba, zła, można zastosować kodowanie:
zła
słaba
dobra
bardzo dobra
1
2
3
4
Znajomość w analizie statystycznej zbioru obiektów i zmiennych pozwala zapisać macierz danych, w której dowolny element oznacza się przez xij (i = 1, …, n;
j = 1, …, m). Jest to obserwacja j-tej zmiennej w i-tym obiekcie. Wielowymiarowa
obserwacja (m-wymiarowa) będzie zapisywana w formie wektora (por. [Jajuga 1993,
s. 21]):
xi = [xi1, xi2, ..., xim]T.
(1.2)
Jeśli do dwóch „wymiarów” (obiekty, zmienne) wprowadzi się „wymiar” czasu,
to otrzymuje się tzw. kostkę danych. Pojęcia tego używają w swoich pracach m.in.
Uogólniona miara_Walesiak_Księga1.indb 12
2012-02-19 14:55:56
1.2. TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA
13
Žukowska, Mučnik [1976, s. 15]; Jajuga [1987, s. 14-16; 1993, s. 21-23]; Grabiński
[1992, s. 19]. Dowolną liczbę w kostce danych oznacza się przez xijt. Jest to wartość
j-tej zmiennej w i-tym obiekcie w okresie t (i = 1, …, n; j = 1, …, m; t = 1, …, T).
W celu uproszczenia zapisu do wszystkich wzorów w pracy będzie stosowana zasada, według której indeks pasywny (stały) będzie pomijany.
W badaniach empirycznych wykorzystujących metody statystycznej analizy
wielowymiarowej nie wychodzi się poza trzeci „wymiar”. Wiąże się to nie tylko
z brakiem odpowiednich danych statystycznych, ale również z tym, że w dalszych
etapach analizy wielowymiarowej pierwotne dane podlegają syntetyzacji. Ponadto
w razie liczby wymiarów większej od trzech kłopotliwa staje się interpretacja wyników końcowych.
Trójwymiarowe ujęcie w postaci kostki danych pozwala stosować w badaniach
następujące schematy badawcze:
a) ujęcie całościowe, w którym wykorzystuje się całą kostkę danych – analizowany jest zbiór n obiektów w T okresach ze względu na m zmiennych;
b) ujęcie cząstkowe – kostka ma trzy wymiary, więc możliwe do uzyskania są
trzy różne jej przekroje:
– przekrój czas−zmienna, w którym jeden z obiektów jest analizowany w T okresach ze względu na m zmiennych,
– przekrój obiekt−czas, w którym n obiektów jest analizowanych w T okresach ze
względu na jedną zmienną,
– przekrój obiekt−zmienna, w którym n obiektów jest analizowanych ze względu
na m zmiennych w jednym okresie.
W dalszej części pracy będą wykorzystywane dwa ujęcia: całościowe oraz cząstkowe w przekroju czas−zmienna i obiekt−zmienna z koncepcji kostki danych. Ujęcie cząstkowe w przekroju obiekt−czas nie będzie rozpatrywane, ponieważ jest to
zagadnienie analizy jednowymiarowej.
1.2
TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA
W klasycznym ujęciu przez pomiar rozumie się przyporządkowanie liczb obiektom zgodnie z określonymi regułami w taki sposób, aby liczby odzwierciedlały relacje zachodzące między tymi obiektami (por. np. [Pawłowski 1969, s. 54; Choynowski 1971, s. 17]).
Podstawą teorii pomiaru jest pojęcie skali.
DEFINICJA 1 (por. [Adams, Fagot, Robinson 1965, s. 101-102; Walesiak 1990b,
s. 37]). Taką uporządkowaną czwórkę U =< A; G; H ; F > , że
a) A to niepusty zbiór obiektów, H – zbiór liczb rzeczywistych, G – klasa funkcji
odwzorowujących A w H, F – klasa funkcji odwzorowujących H w H,
b) dla wszystkich g ∈ G i f ∈ F , f g ∈ G,
Uogólniona miara_Walesiak_Księga1.indb 13
2012-02-19 14:55:56
14
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ
c) F zawiera przekształcenie H na H, a ponadto dla każdego f k , f l ∈ F złożenie
f k fl ∈ F ,
nazywa się skalą pomiaru.
W teorii pomiaru rozróżnia się cztery podstawowe skale pomiaru, wprowadzone
przez Stevensa [1946]. Definiując w odniesieniu do skali ilorazowej dopuszczalne
przekształcenie, Stevens nie określił, do którego zbioru należy x w funkcji (1.6), tzn.
czy należy do całego zbioru liczb rzeczywistych, zbioru liczb rzeczywistych dodatnich, czy rzeczywistych nieujemnych. Dopiero definicja Adamsa, Fagota i Robinsona usunęła tę usterkę.
DEFINICJA 2 (por. [Adams, Fagot, Robinson 1965, s. 103; Walesiak 1991, s. 13-14]). U = <A; G; H; F> jest skalą nominalną wtedy i tylko wtedy, gdy F jest zbiorem wszystkich funkcji f odwzorowujących H w H (H = R) takich, że
f – funkcja wzajemnie jednoznaczna.
(1.3)
DEFINICJA 3 (por. [Adams, Fagot, Robinson 1965, s. 103; Walesiak 1991, s. 14]).
U = <A; G; H; F> jest skalą porządkową wtedy i tylko wtedy, gdy F jest zbiorem
wszystkich funkcji f odwzorowujących H w H (H = R) takich, że
f – funkcja ściśle monotonicznie rosnąca.
(1.4)
DEFINICJA 4 (por. [Adams, Fagot, Robinson 1965, s. 103; Walesiak 1990b,
s. 37]). U = <A; G; H; F> jest skalą interwałową (przedziałową) wtedy i tylko wtedy,
gdy H jest zbiorem wszystkich liczb rzeczywistych R i F jest zbiorem funkcji f
takich, że dla dodatniego b
f ( x) = bx + a, f ( x) ∈ R
(1.5)
dla wszystkich x ∈ R.
DEFINICJA 5 (por. [Adams, Fagot, Robinson 1965, s. 103; Walesiak 1990b, s. 38]).
U = <A; G; H; F> jest skalą ilorazową (stosunkową) wtedy i tylko wtedy, gdy H jest
zbiorem liczb rzeczywistych dodatnich R+ i F jest zbiorem funkcji f takich, że dla
dodatniego b
f ( x) = bx, f ( x) ∈ R+
(1.6)
dla wszystkich x ∈ R+ .
Skale pomiaru są uporządkowane od najsłabszej do najmocniejszej: nominalna,
porządkowa (rangowa), przedziałowa (interwałowa), ilorazowa (stosunkowa). Skale
przedziałową i ilorazową zalicza się do skal metrycznych, natomiast nominalną
i porządkową do niemetrycznych.
Uogólniona miara_Walesiak_Księga1.indb 14
2012-02-19 14:55:56
1.2. TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA
15
Z przytoczonych definicji 2-5 wynika, że z typem skali wiąże się grupa przekształceń, ze względu na które skala zachowuje swe własności. Dopuszczalnymi
przekształceniami są więc te, które nie naruszają zasobu informacji zawartej dla
mierzonej zmiennej. Skala U2 jest mocniejsza od skali U1 wtedy i tylko wtedy, gdy
jej dopuszczalne przekształcenie jest zdegenerowanym przypadkiem dopuszczalnego przekształcenia skali U1 (por. [Walenta 1971, s. 52]).
Podstawowe własności skal pomiaru zawiera tab. 1.1.
Tabela 1.1. Podstawowe własności skal pomiaru
Typ skali
Dozwolone przekształcenia
matematyczne
Dopuszczalne
relacje
Dopuszczalne
operacje arytmetyczne
Nominalna
z = f(x), f(x) – dowolne
przekształcenie wzajemnie
jednoznaczne
równości ( x A = xB ),
różności ( x A ≠ xB )
Porządkowa
z = f(x), f(x) – dowolna ściśle
monotonicznie rosnąca funkcja
powyższe oraz większości zliczanie zdarzeń
( x A > xB ) i mniejszości
(liczba relacji
( x A < xB )
równości, różności,
większości,
mniejszości)
zliczanie zdarzeń
(liczba relacji
równości, różności)
Przedziałowa z = bx + a (b > 0), z ∈ R dla
wszystkich x zawartych w R,
wartość zerowa na tej skali jest
zwykle przyjmowana
arbitralnie lub na podstawie
konwencji*
powyższe oraz równości
różnic i przedziałów
( x A − xB = xC − xD )
powyższe oraz
dodawanie i
odejmowanie
z = bx (b > 0), z ∈ R+ dla
wszystkich x zawartych w R+,
naturalnym początkiem skali
ilorazowej jest wartość zerowa
(zero lewostronnie ogranicza
zakres skali)
powyższe oraz równości
powyższe oraz
mnożenie i dzielenie
Ilorazowa
⎛x
x ⎞
ilorazów ⎜ A = C ⎟
x
x
D ⎠
⎝ B
* Por. [Ackoff 1969, s. 240].
Źródło: opracowanie własne na podstawie prac [Stevens 1959, s. 25 i 27; Adams, Fagot, Robinson
1965; Walesiak 1995, s. 189-191; Walesiak, Bąk 2000, s. 17].
Jedna z podstawowych reguł teorii pomiaru mówi, że jedynie rezultaty pomiaru
w skali mocniejszej mogą być transformowane na liczby należące do skali słabszej
(por. np. [Steczkowski, Zeliaś 1981, s. 17; 1997, s. 19; Wiśniewski 1986; 1987; Walesiak 1990b, s. 40]). Transformacja skal polegająca na ich wzmacnianiu nie jest
możliwa, ponieważ z mniejszej ilości informacji nie można uzyskać większej jej
ilości. W literaturze (por. [Anderberg 1973, s. 53-69; Pociecha 1986]) podawane są
pewne aproksymacyjne metody przekształcania skal słabszych w silniejsze, opierające się na pewnych dodatkowych informacjach. Stosując zaś dozwolone przekształ-
Uogólniona miara_Walesiak_Księga1.indb 15
2012-02-19 14:55:56
16
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ
cenie wartości na skali, zachowujemy niezmienność typu skali przyjętej dla danej
zmiennej.
Inna z reguł teorii pomiaru mówi, że metody ilościowe, które można stosować
do wyników pomiaru w skali słabszej, stosuje się również do liczb uzyskanych
z mierzenia na poziomie mocniejszym. Wynika to z tego, że skala mocniejsza zawiera w sobie dopuszczalne relacje skali słabszej.
Typ skali, ze względu na dopuszczalne przekształcenia, determinuje stosowanie
rozmaitych technik statystyczno-ekonometrycznych. Technikami statystycznymi
dopuszczalnymi dla danego typu skali są takie techniki, które dostarczają wyników
(w sensie relacji) niezmiennych względem dopuszczalnych przekształceń (por. np.
[Walenta 1971, s. 61]). W artykule Handa [1996] dyskutowany jest problem relacji
między skalami pomiaru a dopuszczalnymi dla nich technikami statystycznymi. Pokazano w nim przykłady, które są źródłem kontrowersji w wypadku ścisłego stosowania reguł pomiaru.
Pierwsze zestawienie typowych technik statystycznych przydatnych w pomiarze
dokonywanym na skalach różnych rodzajów zaprezentował Stevens [1959, s. 27].
W pracy Walesiaka [1996, s. 23-24] przedstawiono typowe metody i techniki wykorzystywane w statystycznej analizie wielowymiarowej, których stosowanie jest uzależnione od skal pomiaru zmiennych.
1.3
TRANSFORMACJA NORMALIZACYJNA I UJEDNOLICANIE ZMIENNYCH
Jeśli w badaniu są wykorzystywane metody porządkowania liniowego zbioru
obiektów, to zachodzi potrzeba:
1) ujednolicenia charakteru zmiennych będących przedmiotem agregacji, z wykorzystaniem postulatu jednolitej preferencji zmiennych1,
2) pozbawienia wartości zmiennych mian i ujednolicenia rzędów wielkości
w celu doprowadzenia ich do porównywalności (transformacja normalizacyjna).
W sytuacji, gdy w badaniu będą wykorzystywane metody analizy skupień i skalowania wielowymiarowego, zmienne muszą być sprowadzone do porównywalności poprzez transformacje normalizacyjne. Stosuje się je w przypadku, gdy zmienne
są mierzone na skali przedziałowej i ilorazowej. W odniesieniu do słabych skal pomiaru nie zachodzi potrzeba normalizacji, na ich wartościach bowiem nie wyznacza
się ani relacji równości różnic i przedziałów, ani stosunków.
Inne metody statystycznej analizy wielowymiarowej (analiza regresji, metody
drzew klasyfikacyjnych, conjoint analysis, analiza czynnikowa2, analiza dyskryminacyjna, analiza korelacji kanonicznej, analiza wariancji i kowariancji) nie wymagają uprzedniej transformacji normalizacyjnej oraz ujednolicania zmiennych.
1
W metodach porządkowania liniowego, w których wykorzystuje się syntetyczne mierniki bazujące na wzorcu rozwoju, nie zawsze zachodzi potrzeba ujednolicania charakteru zmiennych.
2
W analizie czynnikowej wykorzystuje się standaryzację.
Uogólniona miara_Walesiak_Księga1.indb 16
2012-02-19 14:55:57
1.3. TRANSFORMACJA NORMALIZACYJNA I UJEDNOLICANIE ZMIENNYCH
17
Jeśli celem badania jest uporządkowanie liniowe zbioru obiektów, istotnego znaczenia nabiera klasyfikacja zmiennych ze względu na preferencje wśród zmiennych.
Wyróżnia się wtedy stymulanty (S), destymulanty (D) i nominanty (N). Pojęcie stymulanty i destymulanty wprowadził Hellwig [1968], a nominanty – Borys [1978].
Przeciwieństwem zmiennych preferencyjnych są zmienne neutralne (obojętne) (por.
[Borys 1984, s. 111, 121]).
Zmienna Mj jest destymulantą (zob. [Hellwig 1981, s. 48]), gdy dla każdych dwóch
jej obserwacji3 xijD , xkjD odnoszących się do obiektów Ai , Ak jest xijD > xkjD ⇒ Ai ≺ Ak
( ≺ oznacza dominację obiektu Ak nad obiektem Ai ).
Zmienna Mj jest stymulantą (zob. [Hellwig 1981, s. 48]), gdy dla każdych dwóch
jej obserwacji xijS , xkjS odnoszących się do obiektów Ai , Ak jest xijS > xkjS ⇒ Ai Ak
( oznacza dominację obiektu Ai nad obiektem Ak ).
W badaniach empirycznych dla nominant zachodzi potrzeba ustalenia obserwacji lub przedziału liczbowego (zbioru kategorii dla zmiennych porządkowych), który
uznajemy za nominalny. Spośród nominant rozważane będą w pracy tylko nominanty jednomodalne. Nominanty wielomodalne omówiono m.in. w pracy Borysa [1984,
s. 118]. Za najbardziej korzystną obserwację nominanty jednomodalnej jest uznawana wartość (kategoria dla zmiennych porządkowych) nominalna zmiennej, a za obserwację najmniej korzystną – wartość (kategoria dla zmiennych porządkowych)
minimalna lub maksymalna.
Zmienna Mj jest więc nominantą jednomodalną (zob. [Borys 1984, s. 118]), gdy
dla każdych dwóch jej obserwacji xijN , xkjN odnoszących się do obiektów Ai , Ak
– jeżeli xijN , xkjN ≤ nom j , to xijN > xkjN ⇒ Ai Ak ,
– jeżeli xijN , xkjN > nom j , to xijN > xkjN ⇒ Ai ≺ Ak ,
gdzie nomj to nominalny poziom j-tej zmiennej.
Przez ujednolicenie charakteru zmiennych rozumie się takie przekształcenie
każdej zmiennej, że dla każdych dwóch obserwacji xij, xkj j-tej zmiennej odnoszących się do obiektów Ai , Ak
( xij > xkj ) ⇒ Ai
Ak .
(1.7)
Problem ujednolicenia charakteru zmiennych nie występuje wtedy, gdy w zbiorze zmiennych są tylko stymulanty. W dalszym ciągu zakładamy, że ujednolicenie
zmiennych polega na przekształceniu wszystkich zmiennych na stymulanty. Zagadnienie ujednolicenia charakteru zmiennych sformułowano w ten sposób dlatego, że
w badaniach empirycznych stymulanty stanowią na ogół dominującą grupę zmiennych preferencyjnych. Formuły zamiany destymulant i nominant na stymulanty
przedstawiono m.in. w pracach: [Borys 1984, s. 289-308; Dziechciarz, Strahl, Walesiak 2001; Grabiński 1984, s. 34-35; Kukuła 2000, s. 58-59; Strahl 1978; Strahl,
Walesiak 1997; Walesiak 1993a, s. 38-40; 1996, s. 36-38].
3
Liczb rzeczywistych dla danych metrycznych oraz kategorii dla danych porządkowych.
Uogólniona miara_Walesiak_Księga1.indb 17
2012-02-19 14:55:57
18
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ
Typowe formuły transformacji destymulant na stymulanty dla danych metrycznych można wyrazić wzorami:
−1
a) ilorazowa: xij = b ( xijD ) (b > 0),
(1.8)
gdzie: xijD – wartość j-tej destymulanty zaobserwowana w i-tym obiekcie,
b – stała przyjmowana arbitralnie (np. b = min { xijD }, b = 1 );
i
b) różnicowa: xij = a − bxijD (b > 0),
(1.9)
gdzie: a, b – stałe przyjmowane arbitralnie (np. b = 1 , a = 0 lub a = max{xijD }).
i
Formułę (1.8) można stosować jedynie do destymulant mierzonych na skali ilorazowej (tylko dla nich bowiem zbiór możliwych wartości zawiera się w R+). Stymulanta otrzymana w wyniku przekształcenia będzie również mierzona na skali ilorazowej. Formuła (1.9) może być stosowana do destymulant mierzonych na skali
zarówno ilorazowej, jak i przedziałowej. Na ogół stymulanta otrzymana w wyniku
przekształcenia (1.9) jest mierzona na skali przedziałowej. Można jednak podać
przykład takich destymulant mierzonych na skali ilorazowej, że stymulanty otrzymane w wyniku ich przekształcenia (1.9) również są mierzone na skali ilorazowej
– np. zamiana destymulanty „wskaźnik zużycia środków trwałych w %” na stymulantę „wskaźnik niezużycia środków trwałych w %” (w formule (1.9) b = 1
i a = 100%).
W badaniach empirycznych do zamiany nominant na stymulanty dla danych metrycznych wykorzystuje się następujące formuły:
a) ilorazowa: xij =
min{nom j ; xijN }
max{nom j ; xijN }
,
(1.10)
gdzie: xijN – wartość j-tej nominanty zaobserwowana w i-tym obiekcie,
nomj – nominalny poziom j-tej zmiennej;
b) różnicowa: xij = − xijN − nom j .
(1.11)
Formułę (1.10) można stosować jedynie do nominant mierzonych na skali ilorazowej (tylko dla nich bowiem zbiór możliwych wartości zawiera się w R+). Uzyskana stymulanta będzie mierzona w skali ilorazowej. Stymulanta uzyskana w wyniku
zastosowania wzoru (1.11) jest mierzona na skali przedziałowej.
W podrozdziale 3.3 przedstawione zostaną dwie metody zamiany nominant na
destymulanty dla danych porządkowych z wykorzystaniem odległości GDM2 (metoda I z powtórzeniami, metoda II bez powtórzeń).
Jeśli w badaniu wykorzystywane będą metody klasyfikacji, skalowania wielowymiarowego lub metody porządkowania liniowego zbioru obiektów, to zachodzi
potrzeba pozbawienia wartości zmiennych mian i ujednolicenia rzędów wielkości w
celu doprowadzenia ich do porównywalności. Operacja ta nosi nazwę transformacji
normalizacyjnej.
Uogólniona miara_Walesiak_Księga1.indb 18
2012-02-19 14:55:57
19
1.3. TRANSFORMACJA NORMALIZACYJNA I UJEDNOLICANIE ZMIENNYCH
Ze względu na to, że jedynymi dopuszczalnymi przekształceniami (por. (1.5)
i (1.6)) na skali przedziałowej i ilorazowej są przekształcenia liniowe, formuły normalizacyjne można wyrazić ogólnym wzorem:
zij = bxij + a (b > 0).
(1.12)
Szczególnymi przypadkami wzoru (1.12) są formuły ujęte w tab. 1.2 (por. np.
[Abrahamowicz 1985; Borys 1984, s. 297-308; Grabiński 1992, s. 35-38; Jajuga
1981; Jajuga, Walesiak 2000; Milligan, Cooper 1988; Nowak 1990, s. 38-39; Walesiak 2002b, s. 19]).
Normalizację wartości zmiennych przeprowadza się w pakiecie clusterSim
z wykorzystaniem funkcji:
data.Normalization(x,type=″n0″)
gdzie: x
– macierz danych,
type – typ formuły normalizacyjnej z tab. 1.2.
Tabela 1.2. Formuły normalizacyjne
Typ
Nazwa formuły
Formuła
n0
Bez normalizacji
–
n1
Standaryzacja
zij = ( xij − x j ) s j
n2
Standaryzacja
Webera∗
Unitaryzacja
zij = ( xij − Me j ) 1,4826MAD j
zij = ( xij − x j ) rj
n4
Unitaryzacja
zerowana
zij = ⎡ xij − min {xij }⎤ rj
⎢⎣
⎥⎦
i
n5
Normalizacja∗∗
zij = (xij − x j ) max xij − x j
i
w przedziale [–1; 1]
z
=
x
s
Przekształcenia
ij
ij
j
ilorazowe
zij = xij rj
zij = xij max{xij }
n3
n6
n7
n8
i
zij = xij x j
n9
n10
zij = xij
n11
zij = xij
∑ x
∑
n
ij
i =1
n
i =1
xij2
Skala pomiaru zmiennych
przed normalizacją
ilorazowa i (lub)
przedziałowa
ilorazowa i (lub)
przedziałowa
ilorazowa i (lub)
przedziałowa
ilorazowa i (lub)
przedziałowa
ilorazowa i (lub)
przedziałowa
po normalizacji
–
przedziałowa
przedziałowa
przedziałowa
przedziałowa
ilorazowa i (lub)
przedziałowa
ilorazowa
ilorazowa
ilorazowa
przedziałowa
ilorazowa
ilorazowa
ilorazowa
ilorazowa
ilorazowa
ilorazowa
ilorazowa
ilorazowa
ilorazowa
∗
Zob. [Lira, Wagner, Wysocki 2002, s. 91].
Zob. [Rybaczuk 2002, s. 147].
xij(zij) – wartość (znormalizowana wartość) j-tej zmiennej dla i-tego obiektu,
xj(sj, rj) – średnia (odchylenie standardowe, rozstęp) dla j-tej zmiennej,
Mej(MADj) – mediana (medianowe odchylenie bezwzględne) dla j-tej zmiennej.
∗∗
Źródło: opracowanie własne.
Uogólniona miara_Walesiak_Księga1.indb 19
2012-02-19 14:55:58
20
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ
Ujednolicenie rzędów wielkości jest możliwe tylko w razie jednolitego określenia wartości zerowej dla wszystkich zmiennych (zob. [Walesiak 1988]). Przekształcenia ilorazowe można stosować tylko wtedy, gdy zmienne są mierzone na skali
ilorazowej (istnieje dla niej absolutny punkt zerowy). Gdy zbiór zawiera zmienne
mierzone na skali przedziałowej lub przedziałowej i ilorazowej, wówczas do normalizacji można stosować pozostałe formuły normalizacyjne, wprowadzające jednolicie określoną wartość zerową (umowną) dla wszystkich zmiennych. Standaryzacja
klasyczna (standaryzacja Webera), unitaryzacja, normalizacja w przedziale [–1; 1]
określają umowną wartość zerową na poziomie średniej wartości zmiennej (mediany), a unitaryzacja zerowana – na poziomie wartości minimalnej. Zastosowanie tych
formuł normalizacyjnych do zmiennych mierzonych na skali ilorazowej, aczkolwiek
formalnie poprawne, spowoduje stratę informacji wskutek „przejścia” wszystkich
zmiennych na skalę przedziałową. Strata informacji przejawia się m.in. ograniczeniem zastosowania różnych technik statystycznych i ekonometrycznych.
Przy wyborze formuły normalizacyjnej należy brać pod uwagę nie tylko skale
pomiaru zmiennych, ale również takie charakterystyki rozkładu zmiennych, jak:
średnia arytmetyczna, odchylenie standardowe i rozstęp wyznaczony dla znormalizowanych wartości zmiennych (por. tab. 1.3).
Tabela 1.3. Charakterystyki rozkładu wartości zmiennych po normalizacji
Formuła
Średnia arytmetyczna* Odchylenie standardowe*
Rozstęp
( xij − x j ) s j
0
1
rj s j
(x
0
1
rj 1, 4826 ⋅ MAD j
( xij − x j ) rj
0
s j rj
1
⎡ x − min {x }⎤ r
ij ⎥
j
⎢⎣ ij
i
⎦
⎡ x − min {x }⎤ r
ij ⎥
j
⎢⎣ j
i
⎦
s j rj
1
(x
0
s j max xij − x j
rj max xij − x j
xij s j
xj sj
rj s j
xij rj
x j rj
1
s j rj
ij
ij
− Me j ) 1, 4826 ⋅ MAD j
− x j ) max xij − x j
i
xij max{xij }
i
xij x j
xij
xij
∑
n
i =1
xij
∑
i =1
n
i
1
x j max{xij }
s j max{xij }
rj max{xij }
1
sj xj
rj x j
i
xj
i
sj
1n
xij2
i
∑
n
i =1
xij2
sj
∑
n
i =1
xij
∑
i =1
n
i
rj
xij2
rj
∑
n
i =1
xij
∑
i =1
n
xij2
* Dla standaryzacji Webera: mediana i medianowe odchylenie bezwzględne.
x j , s j , rj – średnia arytmetyczna, odchylenie standardowe, rozstęp dla j-tej zmiennej.
Źródło: opracowanie własne na podstawie [Jajuga, Walesiak 2000, s. 109; Lira, Wagner, Wysocki 2002,
s. 91].
Uogólniona miara_Walesiak_Księga1.indb 20
2012-02-19 14:55:58
1.3. TRANSFORMACJA NORMALIZACYJNA I UJEDNOLICANIE ZMIENNYCH
21
Analiza tab. 1.3 pozwala sformułować następujące wnioski (zob. [Jajuga, Walesiak 2000, s. 110-111; Walesiak 2002b, s. 20]):
a) formuły normalizacyjne (unitaryzacja, unitaryzacja zerowana, przekształcenie
ilorazowe z podstawą normalizacji równą rozstępowi) są cenne, ponieważ zapewniają
znormalizowanym wartościom zmiennych zróżnicowaną zmienność (mierzoną odchyleniem standardowym) i jednocześnie stały rozstęp dla wszystkich zmiennych;
b) standaryzacja klasyczna (Webera) oraz przekształcenie ilorazowe z podstawą
normalizacji równą odchyleniu standardowemu powodują ujednolicenie wartości
wszystkich zmiennych pod względem zmienności mierzonej odchyleniem standardowym (medianowym odchyleniem bezwzględnym); oznacza to wyeliminowanie
zmienności jako podstawy różnicowania obiektów; standaryzację Webera należy
stosować, gdy rozkład empiryczny badanych zmiennych jest silnie asymetryczny
(zob. [Lira, Wagner, Wysocki 2002, s. 91]);
c) przekształcenia ilorazowe z podstawą normalizacji równą maksimum oraz
pierwiastkowi z sumy kwadratów obserwacji zapewniają znormalizowanym wartościom zmiennych zróżnicowaną zmienność, średnią arytmetyczną i rozstęp;
d) przekształcenia ilorazowe z podstawą normalizacji równą sumie i średniej
arytmetycznej oraz normalizacja w przedziale [–1; 1] zapewniają znormalizowanym
wartościom zmiennych zróżnicowaną zmienność i rozstęp oraz stałą dla wszystkich
zmiennych średnią arytmetyczną; pierwsza formuła stanowi podstawę normalizacji
w badaniach strukturalnych;
e) wszystkie formuły normalizacyjne, będące przekształceniami liniowymi obserwacji na każdej zmiennej, zachowują skośność i kurtozę rozkładu zmiennych,
ponadto dla każdej pary zmiennych wszystkie formuły normalizacyjne nie zmieniają wartości współczynnika korelacji liniowej Pearsona.
Po zastosowaniu jednego ze sposobów normalizacji otrzymuje się znormalizowaną macierz danych:
z1m ⎤
⎡ z11 z12
⎢z
z22
z2 m ⎥⎥
21
⎢
[ zij ] =
,
(1.13)
⎢−
− − − ⎥
⎢
⎥
znm ⎦
⎣ zn1 zn 2
gdzie: zij – znormalizowana wartość j-tej zmiennej w i-tym obiekcie.
Zatem znormalizowana wielowymiarowa obserwacja (m-wymiarowa) będzie
zapisywana w formie wektora:
zi = [zi1, zi2, ..., zin]T.
(1.14)
Dla dotychczasowych formuł normalizacji wszystkie zmienne traktowane były
oddzielnie. W literaturze znana jest jedna formuła, zwana przekształceniem Mahalanobisa, która pozwala przeprowadzić normalizację łącznie dla wszystkich zmiennych (zob. [Jajuga 1993, s. 58; Jajuga, Walesiak 2000, s. 110]):
Uogólniona miara_Walesiak_Księga1.indb 21
2012-02-19 14:55:58
22
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ
z i = S −0,5 (xi − x ),
(1.15)
gdzie: S – macierz kowariancji zbioru obserwacji,
xi – wielowymiarowa obserwacja określona wzorem (1.2),
x – wektor średnich zbioru obserwacji.
Macierz S–0,5 wyznacza się ze wzoru (por. [Jajuga 1993, s. 58]):
S −0,5 = (GL0,5G T ) −1 ,
(1.16)
gdzie: L0,5 – macierz diagonalna o wymiarach m × m (na głównej przekątnej tej macierzy znajdują się pierwiastki kwadratowe wartości własnych macierzy S uporządkowane malejąco);
G – macierz ortogonalna o wymiarach m × m, której kolumny są unormowanymi wektorami własnymi, odpowiadającymi uporządkowanym malejąco wartościom własnym macierzy S.
1.4
POMIAR PODOBIEŃSTWA OBIEKTÓW W ŚWIETLE SKAL POMIARU
I WAG ZMIENNYCH
Wykorzystanie metod klasyfikacji, skalowania wielowymiarowego i metod porządkowania liniowego bazujących na wzorcu rozwoju wymaga sformalizowania
pojęcia „podobieństwo obiektów”. Stopień podobieństwa obiektów kwantyfikuje się
za pomocą miar odległości oraz bliskości (por. [Dąbrowski, Laus-Mączyńska 1978,
s. 49-51; Gatnar 1998, s. 27; Walesiak 1985a]).
Funkcja d : A × A → R (zbiór liczb rzeczywistych) będzie nazywana miarą odległości wtedy i tylko wtedy, gdy spełnione są warunki ( d ( Ai , Ak ) = d ik ) :
1) nieujemności: d ik ≥ 0 dla i, k = 1,…, n;
2) zwrotności: d ik = 0 ⇔ i = k ( i, k = 1,…, n );
3) symetryczności: d ik = d ki dla i, k = 1,…, n.
Jeśli ponadto spełniony jest warunek:
4) nierówności trójkąta: d ik ≤ d il + d kl dla i, k , l = 1,… , n ,
to miara odległości zwana jest metryką.
Na analogicznych zasadach zostanie określona miara bliskości. Funkcja
g : A × A → R będzie nazywana miarą bliskości wtedy i tylko wtedy, gdy spełnione
będą warunki ( g ( Ai , Ak ) = g ik ) :
1) nieujemności: 0 ≤ g ik < 1 dla i ≠ k ( i, k = 1,…, n ),
2) zwrotności: g ik = 1 ⇔ i = k ( i, k = 1,…, n ),
3) symetryczności: g ik = g ki ( i, k = 1,…, n ).
Sposoby transformacji miar bliskości na miary odległości wyrażają formuły
(por. [Zakrzewska 1987, s. 212]):
d ik = 1 − g ik ,
Uogólniona miara_Walesiak_Księga1.indb 22
(1.17)
2012-02-19 14:55:59
1.4. POMIAR PODOBIEŃSTWA OBIEKTÓW W ŚWIETLE SKAL POMIARU...
23
d ik = 1 − g ik ,
(1.18)
d ik = − log g ik .
(1.19)
Miary podobieństwa mają analogiczną interpretację (chociaż ze względu na odmienne konstrukcje przybierają na ogół różne wartości liczbowe). Dwa obiekty są
tym bardziej podobne, im mniej się różnią co do wartości zmiennych.
Stosowanie konkretnych konstrukcji miar odległości jest uzależnione od:
a) skali pomiaru zmiennych, gdy zmienne są mierzone na tej samej skali pomiaru; w literaturze wypracowano wiele propozycji miar odległości znajdujących zastosowanie do zmiennych mierzonych na skali: ilorazowej, przedziałowej i (lub) ilorazowej, porządkowej, nominalnej (w tym dla zmiennych binarnych);
b) zastosowanej formuły normalizacji wartości zmiennych;
c) spełniania przez daną formułę dodatkowych własności (np. warunku nierówności trójkąta – miara odległości zwana jest wtedy metryką); spośród miar odległości
obiektów opisanych zmiennymi mierzonymi na skali przedziałowej lub ilorazowej
najczęściej wykorzystuje się z tego powodu odległość euklidesową i jej kwadrat;
d) skal pomiaru zmiennych, gdy zbiór zmiennych zawiera zmienne mierzone na
skalach różnych rodzajów.
Problem stosowania różnych miar podobieństwa w zasadzie nie występuje wtedy, gdy wszystkie zmienne opisujące badane obiekty są mierzone na skali jednego typu. Tabela 1.4 zawiera zestawienie podstawowych miar odległości dla zmiennych mierzonych na skali ilorazowej lub przedziałowej.
Podstawową miarą odległości obiektów Ai , Ak , opisanych za pomocą zmiennych mierzonych na skali przedziałowej lub ilorazowej, jest metryka Minkowskiego. Szczególnymi jej przypadkami są odległość miejska, euklidesowa i Czebyszewa.
Cenną zaletą tych trzech miar odległości jest to, że mają interpretację geometryczną.
W badaniach wykorzystuje się dwie pierwsze miary, tzn. odległość miejską i euklidesową.
W konstrukcji miar odległości z wagami zróżnicowanymi (1) przyjęto założenie,
że ważeniu podlegają wartości zmiennych. Zatem macierz ważonych obserwacji na
zmiennych przyjmuje postać:
⎡ w1 z11
⎢w z
[ w j ⋅ zij ] = ⎢ 1 21
⎢ −
⎢
⎣ w1 zn1
w2 z12
w2 z22
−
w2 zn 2
−
wm z1m ⎤
wm z2 m ⎥⎥
.
− ⎥
⎥
wm znm ⎦
(1.20)
Dla miar odległości z wagami zróżnicowanymi (2) przyjęto założenie, że ważeniu podlegają odległości cząstkowe wyznaczone dla j-tej zmiennej (por. [Gordon
1999, s. 30]). Zastosowanie wag wj pozwala wyznaczyć średnią ważoną odległość
między obiektami Ai i Ak.
Uogólniona miara_Walesiak_Księga1.indb 23
2012-02-19 14:55:59
24
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ
Tabela 1.4. Miary odległości (zmienne mierzone na skali ilorazowej lub przedziałowej)
Nazwa miary
odległości
Odległość d ik
wagi jednakowe
Minkowskiego (p ≥ 1)
p
∑
∑
– miejska (p = 1)
– euklidesowa (p = 2)
m
p
j =1 ik , j
m
v
∑
m
j =1
m
p
∑
∑
2
j =1 ik , j
v
max vik , j
j =1
m
j =1
vik , j
∑
( zij + zkj )
j =1 ik , j
m
Clarka
kj
∑
)
1 m ⎛ zij − zkj ⎞
⎟
∑⎜
m j =1 ⎜⎝ zij + zkj ⎟⎠
∑ (
m
j =1
∑
m
j =1
w j vikp , j
w j vik , j
w2j vik2 , j
m
ij
j =1
m
j =1
w j vik2 , j
j
∑
j =1
m
∑
max w j vik , j
j
∑ v
∑ (z + z
m
wagi zróżnicowane (2)
w jp vikp , j
v
Canberra
Jeffreysa-Matusita
p
j =1 ik , j
∑
– Czebyszewa (p →∞)
Braya-Curtisa
wagi zróżnicowane (1)
zij − zkj
)
2
∑
m
j =1
m
j =1
m
j =1
wj
vik , j
( zij + zkj )
w j vik , j
w j ( zij + zkj )
2
⎛ z − zkj
1 m
w j ⎜ ij
∑
m j =1 ⎜⎝ zij + zkj
∑
m
j =1
wj
(
zij − zkj
⎞
⎟⎟
⎠
2
)
2
vik , j = zij − zkj ; wj – waga j-tej zmiennej spełniająca warunki: w j ∈ (0; m) , ∑ j =1 w j = m (liczba
m
zmiennych) lub w j ∈ (0; 1) , ∑ j =1 w j = 1 ; zij ( zkj ) – znormalizowana wartość j-tej zmiennej dla i-tego
(k-tego) obiektu;
(1) – ważeniu podlegają wartości zmiennych (wagi liniowe);
(2) – ważeniu podlegają odległości cząstkowe wyznaczone dla j-tej zmiennej.
m
Źródło: opracowanie własne na podstawie prac [Bąk 1999, s. 19-22, 62-63; Cormack 1971; Everitt i in.
2011, s. 50; Gordon 1981, s. 21-22; 1999, s. 20-21; Walesiak 2002c; Wedel, Kamakura 1998,
s. 47; Zaborski 2001, s. 44; Zeliaś i in. 2000, s. 83-85].
Miary odległości dla zmiennych mierzonych na skali ilorazowej i (lub) przedziałowej zamieszczone w tab. 1.4 wykorzystują w obliczeniach znormalizowane wartości zmiennych. Wyznaczanie odległości z wykorzystaniem pierwotnych wartości
zmiennych xij jest możliwe za pomocą odległości Mahalanobisa (por. [Jajuga 1990,
s. 22]):
0,5
(1.21)
d ik = ⎡⎣(xi − x k )T S −1 (xi − x k ) ⎤⎦
lub w zapisie skalarnym:
0,5
⎡m m
⎤
d ik = ⎢ ∑∑ s jl ( xij − xkj )( xil − xkl ) ⎥ ,
⎣ j =1 l =1
⎦
gdzie: sjl – element macierzy odwrotnej do macierzy kowariancji.
Uogólniona miara_Walesiak_Księga1.indb 24
(1.22)
2012-02-19 14:55:59
1.4. POMIAR PODOBIEŃSTWA OBIEKTÓW W ŚWIETLE SKAL POMIARU...
25
Macierz kowariancji zbioru obserwacji S wyznacza się ze wzoru:
⎡n
⎤
(1.23)
S = ⎢∑ (xi − x)(x i − x)T ⎥ (n − 1) .
⎣ i=1
⎦
Przy obliczaniu odległości Mahalanobisa brana jest pod uwagę macierz kowariancji zbioru obserwacji, następuje zatem ujednolicenie wartości zmiennych pod
względem jednostki miary i rzędu wielkości (zob. [Jajuga 1993, s. 58]).
Jeśli normalizacji zbioru obserwacji dokona się z wykorzystaniem przekształcenia Mahalanobisa (1.15), to odległość euklidesowa będzie równa odległości Mahalanobisa wyznaczonej z wykorzystaniem pierwotnych wartości zmiennych (por. [Jajuga 1993, s. 59]).
Miara odległości obiektów, którą można stosować w sytuacji, gdy w zbiorze są
zmienne mierzone na skali porządkowej, zaprezentowana zostanie w rozdziale
drugim. W literaturze z zakresu statystycznej analizy wielowymiarowej nie zaproponowano dotychczas innych miar odległości dla zmiennych porządkowych. Miara
odległości Kendalla [1966, s. 181] o postaci (1.24) nie jest typową miarą dla zmiennych porządkowych:
m
( Rij − Rkj ) 2
j =1
sR2 j
d ik = ∑
,
(1.24)
gdzie: Rij ( Rkj ) – ranga przyporządkowana kategorii j-tej zmiennej dla i-tego (k-tego)
obiektu,
s R2 j
– wariancja wyznaczona na podstawie porangowanych wartości j-tej
zmiennej.
Zastosowanie tej miary odległości wymaga uprzedniego porangowania obserwacji. Formuła ta jest w rzeczywistości kwadratem odległości euklidesowej (po
uprzedniej normalizacji zmiennych polegającej na podzieleniu wszystkich obserwacji przez ich odchylenie standardowe s R2 j ). Miara odległości Kendalla nie jest typową miarą dla zmiennych mierzonych na skali porządkowej, ponieważ przy jej stosowaniu zakłada się, że odległości między sąsiednimi wartościami na skali porządkowej
są sobie równe (na skali porządkowej odległości między dowolnymi dwiema wartościami nie są znane). Takich propozycji jak powyższa jest w literaturze4 więcej (zob.
np. [Hastie, Tibshirani, Friedman 2001, s. 456; Kaufman, Rousseeuw 1990, s. 30;
Gordon 1999, s. 19; Podani 1999]5). Przyjmuje się wtedy upraszczające założenie,
że rangi są mierzone co najmniej na skali przedziałowej (wtedy dopuszcza się wyznaczanie różnic między wartościami skali).
Szerzej na ten temat traktuje artykuł [Walesiak 2011c].
Wzór na odległość Podaniego dla danych porangowanych zaprezentowany zostanie w dalszej
części tego rozdziału przy omawianiu odległości Gowera.
4
5
Uogólniona miara_Walesiak_Księga1.indb 25
2012-02-19 14:56:00
26
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ
Miarę podobieństwa obiektów Ai , Ak wykorzystywaną wówczas, gdy są one
opisane za pomocą zmiennych nominalnych wielostanowych, zaproponowali Sokal i Michener (por. [Kaufman, Rousseeuw 1990, s. 28]):
∑
=
m
(1 − g ik( j ) )
m − mr
(1.25)
,
m
m
gdzie: mr – liczba zmiennych, dla których między obiektami Ai , Ak zachodzi relacja
równości,
m – liczba zmiennych,
gdy między obiektami dla wyników pomiaru
⎧
⎪1, na zmiennej j -tej zachodzi relacja równości,
⎪
gik( j ) = ⎨
⎪0, gdy między obiektami dla wyników pomiaru
⎪⎩
na zmiennej j -tej zachodzi relacja różności.
Miara odległości obiektów opisanych zmiennymi nominalnymi wielostanowymi, uwzględniająca zróżnicowane wagi zmiennych, przyjmuje postać:
d ik
d ik
∑
=
m
j =1
j =1
w j (1 − g ik( j ) )
∑
m
wj
j =1
=
m − ∑ j =1 w j g ik( j )
m
=
m
.
(1.26)
We wzorze (1.26) ważeniu podlega de facto relacja równości i różności. Nie jest
istotny rozkład wag dla zmiennych, dla których między obiektami Ai , Ak zachodzi
relacja równości. Niezależnie bowiem od rozkładu wag dla poszczególnych zmienm
nych ∑ j =1 w j g ik( j ) jest stała.
W literaturze dotyczącej wielowymiarowej analizy statystycznej wypracowano
bardzo dużo miar podobieństwa obiektów opisanych za pomocą tylko zmiennych
nominalnych binarnych. Etapem wstępnym konstrukcji tych miar jest tab. 1.5.
Tabela 1.5. Sposób kodowania dla zmiennych nominalnych binarnych
Zmienna Xj
obiekt Ai
obiekt Ak
+
+
–
–
+
–
+
–
aj
bj
cj
dj
1
0
0
0
0
1
0
0
0
0
1
0
0
0
0
1
Występuje: „+”; nie występuje: „–”.
Źródło: opracowanie własne.
Niech
∑
m
j =1
a j = a,
∑
m
j =1
b j = b,
∑
m
j =1
c j = c,
∑
m
j =1
d j = d , gdzie a (d) oznacza
liczbę zmiennych, dla których obiekty Ai , Ak mają zgodne wartości występowania
Uogólniona miara_Walesiak_Księga1.indb 26
2012-02-19 14:56:00
1.4. POMIAR PODOBIEŃSTWA OBIEKTÓW W ŚWIETLE SKAL POMIARU...
27
(braku występowania) odpowiedniego wariantu zmiennej – odpowiednio (+, +)
i (–, –); b (c) – liczbę zmiennych, dla których obiekty Ai , Ak mają niezgodne wartości zmiennej – odpowiednio (+, –) i (–, +).
Zestawienie wybranych miar odległości obiektów będących funkcją a, b, c i d
dla zmiennych nominalnych binarnych przedstawia tab. 1.6.
Tabela 1.6. Zestawienie wybranych miar odległości dla zmiennych nominalnych binarnych
Miara
Odległość dik
Jaccarda
1−
Sokala i Michenera
Sokala i Sneatha (1)
Rogersa i Tanimoto
Ochiai
Phi Pearsona
Russela i Rao [Gower & Legendre (2)]
a+d
a+b+c+d
1−
a
a + 2(b + c)
a+d
a + d + 2(b + c)
1−
Hamanna [Gower & Legendre (1)]
Sokala i Sneatha (2)
1−
1−
Czekanowskiego
a
a+b+c
2a
2a + b + c
1−
a + d − (b + c)
a+b+c+d
1−
a
(a + b)(a + c)
1−
ad
(a + b)(a + c)(d + b)( d + c)
1−
ad − bc
(a + b)(a + c)(d + b)( d + c)
1−
a
a+b+c+d
Źródło: opracowanie własne na podstawie pracy [Legendre, Legendre 2003, s. 254-276]
i pakietu ade4.
Podstawowe miary odległości, uzależnione od skali pomiaru zmiennych, zawarte są w pakietach clusterSim (funkcje dist.BC i dist.SM), stats (funkcja
dist) i ade4 (funkcja dist.binary).
W zagadnieniu klasyfikacji oraz skalowania wielowymiarowego w zbiorze
zmienne mogą być mierzone na różnych skalach pomiaru, z kolei zagadnienie porządkowania liniowego wymaga, aby w zbiorze były zmienne mierzone przynaj-
Uogólniona miara_Walesiak_Księga1.indb 27
2012-02-19 14:56:00
28
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ
mniej na skali porządkowej (ze względu na to, że porządkowanie obiektów staje się
możliwe, gdy dopuszczalne jest określenie na wartościach zmiennych relacji większości i mniejszości).
Problem stosowania konkretnych konstrukcji miar podobieństwa w zagadnieniu klasyfikacji i skalowania wielowymiarowego nie występuje w zasadzie wtedy,
gdy wszystkie zmienne są mierzone na skali pomiaru jednego typu. Dla zmiennych
mierzonych na skali jednego typu istnieją rozmaite konstrukcje miar podobieństwa.
Z kolei w zagadnieniu porządkowania liniowego wypracowano wiele konstrukcji
syntetycznych mierników rozwoju w sytuacji, gdy w zbiorze znajdują się zmienne
mierzone tylko na skali przedziałowej i (lub) ilorazowej. Różne konstrukcje mierników odnoszących się do tych grup zmiennych omówił m.in. Walesiak [1990b].
Przy wyborze miar odległości obiektów opisanych zmiennymi mierzonymi
na skali przedziałowej i (lub) ilorazowej należy wziąć pod uwagę zastosowaną formułę normalizacji wartości zmiennych. Klasyfikację formuł normalizacyjnych oraz
miar podobieństwa obiektów z punktu widzenia skal pomiaru zmiennych przedstawia rys. 1.1.
Rys. 1.1. Klasyfikacja formuł normalizacyjnych oraz miar odległości obiektów
z punktu widzenia skal pomiaru zmiennych
Źródło: opracowanie własne na podstawie prac [Jajuga, Walesiak 2000, s. 109; Walesiak 1995].
Uogólniona miara_Walesiak_Księga1.indb 28
2012-02-19 14:56:02
1.4. POMIAR PODOBIEŃSTWA OBIEKTÓW W ŚWIETLE SKAL POMIARU...
29
Sytuacja komplikuje się wtedy, gdy w zbiorze znajdują się zmienne mierzone
na różnych skalach. Na podstawie literatury przedmiotu (por. [Gordon 1981,
s. 25-27; Jajuga 1989; Kaufman, Rousseeuw 1990, s. 32-37; Kolonko 1979; Walesiak
1993b]) do rozwiązania tego problemu można wykorzystać następujące sposoby:
1. Przeprowadzić klasyfikację, skalowanie wielowymiarowe i porządkowanie
liniowe zbioru obiektów osobno dla każdej grupy zmiennych. Gdy tak otrzymane
rezultaty są w miarę zgodne, problem można uznać za rozwiązany. Sytuacja komplikuje się wtedy, gdy wyniki te znacznie od siebie odbiegają.
2. Wykorzystać w analizie tylko zmienne jednego ustalonego typu (dominującego w zbiorze zmiennych) z odrzuceniem zmiennych innego typu. Wyniki uzyskane
na podstawie zbioru zmiennych uzyskanego w taki sposób są na ogół bardzo zniekształcone (ponieważ musimy zrezygnować z części informacji, które niosą odrzucone zmienne).
3. Pominąć w praktyce fakt, że zmienne są mierzone na skalach różnych typów
i stosować metody właściwe dla zmiennych jednego typu. Zmienne nominalne
i porządkowe traktuje się zazwyczaj tak jak przedziałowe i ilorazowe, stosuje się
więc do nich techniki właściwe tym skalom. Sposób ten, choć atrakcyjny z aplikacyjnego punktu widzenia, jest nie do przyjęcia ze względów metodologicznych (następuje tu bowiem sztuczne wzmocnienie skali pomiaru).
4. Dokonać transformacji zmiennych tak, by sprowadzić je do skali jednego
typu. Podstawowa reguła teorii pomiaru mówi, że jedynie rezultaty pomiaru w skali
mocniejszej mogą być transformowane na liczby należące do skali słabszej. Wynika
z tego, że wszystkie obserwacje na zmiennych należy przekodować na pomiary na
skali najsłabszej. Tej operacji towarzyszy jednak utrata informacji. Proponowane są
również w tym względzie procedury wzmacniania skal pomiaru (por. [Anderberg
1973, s. 53-69; Pociecha 1986]). Są to aproksymacyjne metody przekształcania skal
słabszych w silniejsze, opierające się na pewnych dodatkowych informacjach.
Z punktu widzenia teorii pomiaru wzmacnianie skal jest jednak niemożliwe, ponieważ z mniejszej ilości informacji nie można uzyskać większej jej ilości.
5. Posłużyć się metodami (miarami podobieństwa, konstrukcjami syntetycznych
mierników rozwoju) dopuszczającymi wykorzystanie zmiennych mierzonych na
różnych skalach. W literaturze miary takie zaproponowali: Bock, Diday i in. [2000,
s. 152]; Cox i Cox [2000]; Gower [1971]; Walesiak [2003c].
Miarę odległości między obiektami opisanymi zbiorem zmiennych o różnych
skalach ich pomiaru zaproponował Gower [1971]:
∑ δ d
=
∑ δ( )
m
d ik
( j) ( j)
ik
j =1 ik
m
j
j =1 ik
.
(1.27)
Czynnik δ ik( j ) przyjmuje wartość 1, gdy pomiaru na zmiennej j możemy dokonać
dla obu obiektów i, k. W innych sytuacjach przyjmuje wartość 0.
Uogólniona miara_Walesiak_Księga1.indb 29
2012-02-19 14:56:02
30
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ
Formuła Gowera uśrednia odległości wyznaczone dla poszczególnych zmiennych.
Dla zmiennej j zmierzonej na skali nominalnej (w tym dla zmiennych binarnych)
j
d ik( ) określa wzór:
⎧ gdy między obiektami dla wyników pomiaru
⎪0 na j -tej zmiennej zachodzi relacja równości,
⎪
( j)
(1.28)
dik = ⎨
⎪1 gdy między obiektami dla wyników pomiaru
⎪⎩
na j -tej zmiennej zachodzi relacja różności.
Jeśli w zbiorze znajdują się tylko zmienne nominalne, to formuła (1.27) przyjmuje postać współczynnika Sokala i Michenera (1.25). Z kolei tylko dla zmiennych
binarnych otrzymuje się formułę Sokala i Michenera zaprezentowaną w tab. 1.5.
Dla zmiennych o numerze j zmierzonych na skali przedziałowej lub ilorazowej
j
d ik( ) jest zdefiniowane wzorem:
d ik( ) =
j
xij − xkj
rj
,
(1.29)
gdzie: rj – rozstęp wyznaczony na podstawie wartości j-tej zmiennej.
Jeśli w zbiorze występują tylko zmienne mierzone na skali przedziałowej i (lub)
ilorazowej, to formuła (1.27) jest odległością miejską (pod warunkiem, że wcześniej
przeprowadzono normalizację zmiennych z wykorzystaniem formuły n7 przekształcenia ilorazowego z podstawą normalizacji równą rozstępowi j-tej zmiennej).
Miara odległości (1.27) przyjmuje wartości z przedziału [0; 1]. Kaufman i Rousseeuw [1990, s. 35-36] zaproponowali ponadto, by na podstawie wzoru (1.29) wyliczać odległość dla zmiennych mierzonych na skali porządkowej (po uprzednim porangowaniu wariantów zmiennej porządkowej):
d ik( ) =
j
Rij − Rkj
,
(1.30)
Rj
gdzie: Rij (Rkj) – ranga przyporządkowana kategorii j-tej zmiennej dla i-tego (k-tego)
obiektu,
– rozstęp wyznaczony na podstawie porangowanych wartości j-tej zmienRj
nej.
Podobną propozycję przedstawił Podani [1999]:
d ik( ) = 1 −
j
Rij − Rkj − (Tij − 1) / 2 − (Tkj − 1) / 2
R j − (T j .max − 1) / 2 − (T j .min − 1) / 2
,
(1.31)
gdzie: Tij (Tkj)
– liczba obiektów, które mają taką samą rangę jak obiekt i(k) dla
j-tej zmiennej (łącznie z obiektem o numerze i(k)),
Tj.max(Tj.min) – liczba obiektów z maksymalną (minimalną) rangą dla j-tej zmiennej.
Uogólniona miara_Walesiak_Księga1.indb 30
2012-02-19 14:56:02
1.5. STRATEGIE POSTĘPOWANIA W POMIARZE ODLEGŁOŚCI...
31
Propozycje te są nie do przyjęcia z punktu widzenia teorii pomiaru, ponieważ dla
wyników pomiaru na skali porządkowej jedyną dopuszczalną operacją empiryczną
jest zliczanie zdarzeń (tzn. ile można określić relacji mniejszości, większości i równości na wartościach tej skali).
Miara odległości Gowera uwzględniająca zróżnicowane wagi zmiennych przyjmuje postać (zob. [Cox, Cox 2000, s. 103]):
∑ w d
=
∑ w( )
m
d ik
( j) ( j)
ik
j =1 ik
m
j
j =1 ik
(1.32)
,
( j)
gdzie: wik( j ) – wagi spełniające warunki: wik ∈[0; m],
∑
m
j =1
wik( j ) = m.
Waga wik( j ) = 0 , gdy pomiaru na j-tej zmiennej nie można dokonać dla obu obiektów i, k.
Propozycja odległości Gowera o postaci (1.27) i (1.32), choć zachęcająca z empirycznego punktu widzenia, budzi jednak wątpliwości:
– wprawdzie odległość ta jest zapisana za pomocą jednego wzoru, ale jest to faktycznie zabieg sztuczny, dla skali nominalnej, interwałowej i ilorazowej bowiem
wykorzystuje się inne wzory (odpowiednio o numerach (1.28) i (1.29)),
– propozycja ta stosuje niedopuszczalną, z punktu widzenia teorii pomiaru, formułę (1.30) lub (1.31) dla zmiennych mierzonych na skali porządkowej.
Odległość Gowera dostępna jest m.in. w funkcji gowdis pakietu FD oraz w
funkcji dissimilarity.object pakietu cluster.
Dotychczas w empirycznych zastosowaniach zagadnienia klasyfikacji i porządkowania liniowego, gdy w zbiorze zmiennych występowały zmienne mierzone co
najmniej na skali porządkowej, wykorzystywano sposób 3, w którym zmienne porządkowe traktowano jak zmienne przedziałowe lub ilorazowe. Zaproponowana w
pracach Walesiaka [1993a, s. 44-45; 1993b] miara odległości obiektów (zob. rozdział drugi) pozwala wykorzystać – zgodny z teorią pomiaru – sposób 4, w którym
obserwacje na zmiennych przedziałowych i ilorazowych zostają przekodowane na
pomiary na zmiennych porządkowych.
1.5
STRATEGIE POSTĘPOWANIA W POMIARZE ODLEGŁOŚCI
DLA DANYCH PORZĄDKOWYCH6
Pierwszy, a zarazem najmniej atrakcyjny ze względów metodologicznych sposób polega na sztucznym wzmocnieniu skali pomiaru zmiennych porządkowych.
Dla zmiennej porządkowej „Lokalizacja środowiskowa nieruchomości gruntowej,
z którą związany jest lokal mieszkalny”, zawierającej kategorie: zła, nieodpowiednia, dostateczna, dobra, bardzo dobra, można zastosować następujące metody kodowania (por. [Knapp 1990; Grabisch 2001]):
6
Podrozdział ten opracowano na podstawie artykułu [Walesiak 2011c].
Uogólniona miara_Walesiak_Księga1.indb 31
2012-02-19 14:56:02
32
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ
a) rangowanie7: 1 – zła, 2 – nieodpowiednia, 3 – dostateczna, 4 – dobra, 5 – bardzo dobra,
b) kodowanie liniowe: 1 – zła, 3 – nieodpowiednia, 5 – dostateczna, 7 – dobra,
9 – bardzo dobra,
c) kodowanie nieliniowe: 4 – zła, 7 – nieodpowiednia, 11 – dostateczna, 14 –
dobra, 20 – bardzo dobra.
Graficzną prezentację przykładowego kodowania przedstawia rys. 1.2.
7
bardzo dobra
dobra
dostateczna
nieodpowiednia
zła
bardzo dobra
dobra
dostateczna
nieodpowiednia
zła
1
3
5
kody liniowe
3
1
2
rangi
4
9
b) kodowanie liniowe
5
a) rangowanie
14
11
bardzo dobra
dobra
dostateczna
nieodpowiednia
zła
4
7
kody nieliniowe
20
c) kodowanie nieliniowe
Rys. 1.2. Metody kodowania kategorii zmiennej porządkowej
„Lokalizacja środowiskowa nieruchomości gruntowej, z którą związany jest lokal mieszkalny”
Źródło: opracowanie własne z wykorzystaniem programu R.
7
Rangowanie jest szczególnym przypadkiem kodowania liniowego.
Uogólniona miara_Walesiak_Księga1.indb 32
2012-02-19 14:56:02
1.5. STRATEGIE POSTĘPOWANIA W POMIARZE ODLEGŁOŚCI...
33
Zmienne porządkowe zostają następnie potraktowane jako zmienne metryczne.
Umożliwia to zastosowanie miar odległości właściwych dla danych metrycznych
(np. odległości euklidesowej lub miejskiej).
Sposób ten, choć atrakcyjny z aplikacyjnego punktu widzenia, ma następujące
wady:
– jest subiektywny, ponieważ sposoby kodowania kategorii wpływają na wartość
miary odległości,
– zakłada się, że odległości między sąsiednimi kategoriami na skali porządkowej
są znane (na skali porządkowej odległości między dowolnymi dwiema kategoriami nie są znane),
– jest nie do przyjęcia z punktu widzenia teorii skal pomiaru Stevensa [1946]
z uwagi na to, że następuje tutaj sztuczne wzmocnienie skali pomiaru (z mniejszej ilości informacji nie można uzyskać większej jej ilości).
W sposobie drugim przed zastosowaniem właściwych miar odległości kategorie
zmiennej porządkowej zostają porangowane. Następnie do pomiaru odległości znajdują zastosowanie miary bazujące na rangach, a wśród nich miara odległości Kendalla, Kaufmana i Rousseeuwa oraz Podaniego.
Dla porangowanych danych możliwe też jest zastosowanie miar odległości właściwych dla danych metrycznych (odległość euklidesowa, odległość miejska i in.).
Krokiem wstępnym przed ich zastosowaniem jest normalizacja o postaci (zob.
[Kaufman, Rousseeuw 1990, s. 30]):
Rijz =
Rij − 1
max{Rij } − 1
.
(1.33)
j
Jest to formuła unitaryzacji zerowanej zastosowana dla danych porangowanych.
Wartości Rijz ∈ [0;1].
Miary odległości ze sposobu drugiego nie są typowymi miarami dla zmiennych
mierzonych na skali porządkowej, ponieważ przy ich stosowaniu zakłada się, że
odległości między sąsiednimi kategoriami na skali porządkowej są sobie równe (na
skali porządkowej odległości między dowolnymi dwiema kategoriami nie są znane).
Propozycje te są nie do przyjęcia z punktu widzenia teorii pomiaru, dla wyników
pomiaru na skali porządkowej bowiem jedyną dopuszczalną operacją empiryczną
jest zliczanie zdarzeń (tzn. ile można określić relacji mniejszości, większości i równości na kategoriach tej skali).
W sposobie trzecim należy się posłużyć miarami odległości wykorzystującymi
dopuszczalne relacje na skali porządkowej, tj. równości, różności, większości i
mniejszości. Miara odległości dla obiektów opisanych zmiennymi porządkowymi
może wykorzystywać w swojej konstrukcji tylko ww. relacje. To ograniczenie powoduje, że musi być ona miarą kontekstową, która wykorzystuje informacje o relacjach, w jakich pozostają porównywane obiekty w stosunku do pozostałych obiektów z badanego zbioru obiektów. Taką miarą odległości dla danych porządkowych
Uogólniona miara_Walesiak_Księga1.indb 33
2012-02-19 14:56:03
34
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ
jest miara GDM2 zaproponowana przez Walesiaka [1993, s. 44-45] (zob. rozdział
drugi).
Na przykładzie zawierającym dane porządkowe zostanie porównane wyznaczanie odległości Podaniego i GDM2. Na tej podstawie sformułowane zostaną wnioski
płynące z zastosowania obu odległości dla danych porządkowych.
PRZYKŁAD
Respondenci zostali opisani z wykorzystaniem dwóch zmiennych porządkowych: stan zdrowia, wykształcenie.
Respondent
Stan zdrowia
Wykształcenie
1
słaby
średnie
2
bardzo dobry
wyższe
3
dobry
wyższe
4
bardzo dobry
podstawowe
Porządek kategorii dla badanych zmiennych jest następujący (w nawiasach zastosowano kodowanie kategorii poprzez rangowanie):
Stan zdrowia: bardzo słaby (1) < słaby (2) < średni (3) < dobry (4) < bardzo
dobry (5)
Wykształcenie: podstawowe (1) < średnie (2) < wyższe (3)
Dane porangowane
Dane po transformacji y = x2 – zob. tab. 1
;ord1;ord2
1;2;2
2;5;3
3;4;3
4;5;1
;ord1;ord2
1;4;4
2;25;9
3;16;9
4;25;1
Następnie, wykorzystując skrypt 1.1, obliczono odległości Podaniego i GDM2
dla danych porangowanych (dane1.csv) oraz dla danych po transformacji dozwolonej na skali porządkowej y = x2 (dane2.csv).
SKRYPT 1.1
library(FD)
library(clusterSim)
#Dane porangowane
x<-read.csv2(″dane1.csv″,header=TRUE,row.names=1)
#Dane po transformacji: y = x^2
x_t<-read.csv2(″dane2.csv″,header=TRUE,row.names=1)
print(″Odległość Podaniego″,quote=FALSE)
Uogólniona miara_Walesiak_Księga1.indb 34
2012-02-19 14:56:03
1.5. STRATEGIE POSTĘPOWANIA W POMIARZE ODLEGŁOŚCI...
35
d1<-gowdis(x,ord=″podani″)
print(d1)
print(″Odległość Podaniego - dane po transformacji″,
quote=FALSE)
d1_t<-gowdis(x_t,ord=″podani″)
print(d1_t)
print(″Odległość GDM2″,quote=FALSE)
d2<-dist.GDM(x,method=″GDM2″)
print(d2)
print(″Odległość GDM2 - dane po transformacji″,
quote=FALSE)
d2_t<-dist.GDM(x_t,method=″GDM2″)
print(d2_t)
W wyniku zastosowania skryptu 1.1 otrzymano macierze odległości dla danych
porangowanych i danych po transformacji, a następnie sformułowano wnioski płynące z zastosowania odległości Podaniego i GDM2 dla danych porządkowych:
[1] Odległość Podaniego
1
2
3
2 0.7500000
3 0.5833333 0.1666667
4 0.7500000 0.5000000 0.6666667
[1] Odległość Podaniego - dane
po transformacji
1
2
3
2 0.8125000
3 0.5982143 0.2142857
4 0.6875000 0.5000000 0.7142857
[1] Odległość GDM2
1
2
3
2 0.7041241
3 0.4087129 0.2763932
4 0.5912871 0.5000000 0.7000000
[1] Odległość GDM2 - dane
po transformacji
1
2
3
2 0.7041241
3 0.4087129 0.2763932
4 0.5912871 0.5000000 0.7000000
Wnioski
– transformacja danych zmienia odległości Poda- – transformacja danych nie zmienia odległości
niego. Ponadto nie zostają zachowane relacje
GDM2, a zatem i relacje między nimi pozostawłaściwe dla skali porządkowej (przed transforją bez zmian,
macją d12 = d14, a po transformacji d12 > d14),
– tylko odległość GDM2 zachowuje własności
skali porządkowej
– uwaga ta dotyczy innych odległości bazujących
na porangowanych obserwacjach (sposób 1: odległość euklidesowa i miejska; sposób 2: odległość Kendalla oraz Kaufmana i Rousseeuwa)
Wykazano na przykładzie, że tylko metoda trzecia, bazująca na mierze odległości GDM2, nie zmienia odległości między obiektami w wyniku transformacji danych dopuszczalnych na skali porządkowej oraz zachowuje relacje między odległościami przed transformacją i po transformacji danych.
Uogólniona miara_Walesiak_Księga1.indb 35
2012-02-19 14:56:03
2
UOGÓLNIONA MIARA
ODLEGŁOŚCI GDM
2.1
WPROWADZENIE
W literaturze statystycznej znany jest (zob. [Kendall, Buckland 1986, s. 266])
uogólniony współczynnik korelacji, który dla zmiennych mierzonych na skali porządkowej przyjmuje postać współczynnika tau Kendalla, natomiast dla zmiennych
mierzonych na skali ilorazowej i (lub) przedziałowej – współczynnika korelacji liniowej Pearsona. W pracy [Walesiak 1993a, s. 44-45] zaproponowano miarę odległości, którą można stosować dla zmiennych porządkowych. W podrozdziale 2.3
zostanie zaprezentowana uogólniona miara odległości GDM, którą można stosować
dla zmiennych mierzonych na skali przedziałowej, ilorazowej, porządkowej oraz
nominalnej (por. [Walesiak 2002a; 2003c]). W konstrukcji miary odległości GDM
wykorzystano ideę współczynnika korelacji zmiennych porządkowych tau Kendalla
oraz uogólnionego współczynnika korelacji.
2.2
UOGÓLNIONY WSPÓŁCZYNNIK KORELACJI
Uogólniony współczynnik korelacji między dwiema zmiennymi przyjmuje postać (zob. [Kendall, Buckland 1986, s. 266; Kendall 1955, s. 19]):
n
Γ jh =
i −1
∑∑ a
i = 2 k =1
b
ikj ikh
,
(2.1)
1
⎡ n i −1 2 n i −1 2 ⎤ 2
⎢ ∑∑ aikj ∑∑ bikh ⎥
⎣ i = 2 k =1 i = 2 k =1 ⎦
gdzie: i, k = 1,… , n – numery obiektów,
j , h – numery zmiennych.
Dla obserwacji na zmiennych ( x1 j ,… , xnj ), ( x1h ,… , xnh ) mierzonych na skali ilorazowej i (lub) przedziałowej, stosując we wzorze (2.1) podstawienie:
aikj = ( xij − xkj )
,
(2.2)
bikh = ( xih − xkh )
otrzymuje się współczynnik korelacji liniowej Pearsona (gdzie: xij , xk j ( xih , xkh ) –
i-ta, k-ta obserwacja na j-tej (h-tej) zmiennej). Współczynnik korelacji liniowej Pe-
Uogólniona miara_Walesiak_Księga1.indb 36
2012-02-19 14:56:03
37
2.2. UOGÓLNIONY WSPÓŁCZYNNIK KORELACJI
arsona przybiera wartości z przedziału [–1; 1]. Wartość 0 oznacza, że między zmiennymi nie występuje korelacja, natomiast wartości graniczne odpowiadają doskonałej
korelacji ujemnej lub dodatniej.
Wzór na współczynnik korelacji liniowej Pearsona można przedstawić inaczej
jako:
rjh =
n
n
n
i =1
i =1
i =1
n∑ xij xih − ∑ xij ∑ xih
⎧⎪ ⎡
⎛
⎞ ⎤⎡
⎛
⎞
2
2
⎨ ⎢ n∑ xij − ⎜ ∑ xij ⎟ ⎥ ⎢ n∑ xih − ⎜ ∑ xih ⎟
⎝ i =1 ⎠ ⎥⎦ ⎢⎣ i =1
⎝ i =1 ⎠
⎪⎩ ⎢⎣ i =1
n
2
n
n
n
2
⎤ ⎫⎪
⎥⎬
⎥⎦ ⎪⎭
1
2
.
(2.3)
DOWÓD 1 (zob. [Kendall 1955, s. 21; Walesiak 1993a, s. 83]).
n
i −1
∑∑ (x
ij
i = 2 k =1
i −1
n
i −1
n
n
i −1
n
i −1
− xkj )(xih − xkh ) = ∑∑ xij xih − ∑∑ xij xkh − ∑∑ xkj xih + ∑∑ xkj xkh =
i = 2 k =1
i = 2 k =1
i = 2 k =1
i = 2 k =1
n
n
⎛ n n
⎞
= (n – 1)∑ xij xih − ⎜ ∑∑ xij xkh − ∑ xij xih ⎟ =
i =1
i =1
⎝ k =1 i =1
⎠
n
n
n
i =1
i =1
= n∑ xij xih − ∑ xih ∑ xij ;
i =1
n
i −1
n
i −1
i −1
n
i −1
n
n
i −1
∑∑ (xij − xkj )2 = ∑∑ xij2 − ∑∑ xij xkj − ∑∑ xkj xij +∑∑ xkj2 =
i = 2 k =1
i = 2 k =1
i = 2 k =1
i = 2 k =1
i = 2 k =1
⎛
⎞
= (n – 1)∑ xij2 − ⎜ ∑∑ xij xkj − ∑ xij2 ⎟ =
i =1
i =1
⎝ i =1 k =1
⎠
n
n
n
n
2
n
n
n
n
⎛ n
⎞
= n∑ xij2 − ∑∑ xij xkj = n∑ xij2 − ⎜ ∑ xij ⎟ .
i =1
i =1 k =1
i =1
⎝ i =1 ⎠
Dla obserwacji na zmiennych ( x1 j ,… , xnj ), ( x1h ,… , xnh ) mierzonych na skali porządkowej, stosując we wzorze (2.1) podstawienie:
⎧ 1 jeżeli xij > xkj ( xih > xkh )
⎪
(2.4)
aik j ( bik h ) = ⎨ 0 jeżeli xij = xkj ( xih = xkh ) ,
⎪ −1 jeżeli x < x ( x < x )
ij
kj
ih
kh
⎩
otrzymuje się współczynnik tau Kendalla [Kendall 1955, s. 19-20].
W pracy Kendalla w podstawieniu (2.4) nie uwzględniono relacji równości. Ujęcie szersze zaczerpnięto z pracy Domańskiego [1979, s. 165]1. Wartość współczynnika tau Kendalla obliczona za pomocą wzoru (2.1) z podstawieniem (2.4) dla pierwotnych danych jest identyczna z wartością współczynnika tau Kendalla obliczanego
1
Por. również [Ajvazjan, Mchitarjan 1998, s. 433].
Uogólniona miara_Walesiak_Księga1.indb 37
2012-02-19 14:56:03
38
2. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM
według formuły dla porangowanych obserwacji2 (zob. [Kendall 1955, s. 35]). Zastosowanie postaci współczynnika tau Kendalla (2.1) z podstawieniem (2.4) daje ten
sam rezultat w przypadku zarówno obserwacji pierwotnych, jak i porangowanych.
Współczynnik korelacji tau Kendalla przybiera wartości z przedziału [–1; 1].
Wartość 1 oznacza pełną zgodność uporządkowań, natomiast wartość –1 pełną ich
przeciwstawność. Współczynnik korelacji tau Kendalla jest więc dla wyników pomiaru porządkowego szczególną postacią współczynnika korelacji liniowej Pearsona (por. [Walesiak 1991]).
2.3
CHARAKTERYSTYKA UOGÓLNIONEJ MIARY ODLEGŁOŚCI
Niektóre metody statystycznej analizy wielowymiarowej (metody klasyfikacji,
skalowanie wielowymiarowe, metody porządkowania liniowego) bazują na macierzy odległości. Funkcja d : A × A → R (A – zbiór obiektów badania, R – zbiór liczb
rzeczywistych) jest miarą odległości wtedy i tylko wtedy, gdy spełnione są warunki
nieujemności, zwrotności i symetryczności.
W pracy [Walesiak 2002a] zaproponowano uogólnioną miarę odległości GDM.
Do jej konstrukcji wykorzystano ideę uogólnionego współczynnika korelacji obejmującego współczynnik korelacji liniowej Pearsona i współczynnik korelacji tau
Kendalla (zob. [Kendall, Buckland 1986, s. 266; Kendall 1955, s. 19]):
m
m
n
j =1
j =1 l =1
l ≠i ,k
∑ aikj bkij + ∑ ∑ ailj bklj
1
dik = (1 – sik)/2 = −
2
⎡⎛
⎞⎛ m
⎞⎤
m
n
m
n
⎢⎜ m 2
2 ⎟⎜
2
2 ⎟⎥
2 ⎢⎜ ∑ aikj + ∑ ∑ ailj ⎟ ⎜ ∑ bkij + ∑ ∑ bkl j ⎟ ⎥
j =1 l =1
j =1 l =1
⎟ ⎜ j =1
⎟⎥
⎢⎜⎝ j =1
l ≠i ,k
l ≠i ,k
⎠⎝
⎠⎦
⎣
1
2
,
(2.5)
gdzie: dik – miara odległości GDM,
sik ∈ [−1;1],
i, k , l = 1,… , n – numery obiektów,
j = 1,… , m – numer zmiennej.
W uproszczonej postaci formułę odległości (2.5) można zapisać jako:
m
∑a
1
dik = (1 – sik)/2 = −
2
2
m
j =1
n
b + ∑ ∑ ailj bklj
ikj kij
j =1 l =1
l ≠i ,k
⎡
⎤
2 ⎢ ∑∑ ailj2 ⋅∑∑ bklj2 ⎥
j =1 l =1
⎣ j =1 l =1
⎦
m
n
m
n
1
2
.
(2.6)
Jest to tzw. współczynnik tau-b Kendalla.
Uogólniona miara_Walesiak_Księga1.indb 38
2012-02-19 14:56:04
39
2.3. CHARAKTERYSTYKA UOGÓLNIONEJ MIARY ODLEGŁOŚCI
Stosowanie konkretnych konstrukcji miar odległości jest uzależnione od skal
pomiaru zmiennych.
Dla zmiennych mierzonych na skali ilorazowej i (lub) przedziałowej w formule (2.6) stosowane jest podstawienie:
aipj = xij − x pj
bkrj = xkj − xrj
dla
dla
p = k,l
,
r = i, l
(2.7)
gdzie: xij ( xkj , xlj ) – i-ta (k-ta, l-ta) obserwacja na j-tej zmiennej.
Wtedy odległość (2.6) przyjmuje postać:
m
∑ (x
1
dik = (1 – sik) 2 = −
2
j =1
ij
m
n
− xkj )( xkj − xij ) + ∑ ∑ ( xij − xlj )( xkj − xlj )
j =1 l =1
l ≠i ,k
1
.
(2.8)
m
n
⎡m n
⎤2
2 ⎢ ∑∑ ( xij − xlj ) 2 ⋅ ∑∑ ( xkj − xlj ) 2 ⎥
j =1 l =1
⎣ j =1 l =1
⎦
Zastosowanie formuły (2.6) dla zmiennych mierzonych na skali ilorazowej
i (lub) przedziałowej wymaga wcześniejszej normalizacji zmiennych. Normalizacji zmiennych dokonuje się celem ich sprowadzenia do porównywalności
(zob. podrozdział 1.3). Po normalizacji dla podstawienia (2.7) oraz we wzorze
(2.8) w miejsce symbolu x wystąpi symbol z. Niezależnie jednak od tego, czy przeprowadzi się normalizację, czy też nie, wartości miary (2.8) zawierają się w przedziale [0; 1].
PRZYKŁAD 1
Obliczenie odległości d12 i d11 z wykorzystaniem formuły (2.8) dla macierzy danych zawierających 4 obiekty i 2 zmienne. Na podstawie danych z pliku dane_
przyklad_1.csv oraz skryptu 2.1 sporządzono rysunek.
SKRYPT 2.1
x<-read.csv2(″dane_przyklad_1.csv″,header=TRUE,
row.names=1)
options(OutDec=″,″)
attach(x)
plot(x,las=1,pch=0)
text(x1,x2,pos=2)
detach(x)
Uogólniona miara_Walesiak_Księga1.indb 39
2012-02-19 14:56:04
40
2. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM
4
10
⎡3 4⎤
⎢2 5⎥
⎥
⎡⎣ xij ⎤⎦ = ⎢
⎢10 2 ⎥
⎢
⎥
⎣ 4 11⎦
x2
8
6
2
1
4
3
2
2
4
6
8
10
x1
a) Obliczenie odległości d12:
Licznik wzoru (celowo wprowadzono nawiasy kwadratowe, aby było wiadomo,
do którego elementu wzoru podstawiano):
[(3 − 2)(2 − 3) + (4 − 5)(5 − 4)] +
[(3 − 10)(2 − 10) + (4 − 2)(5 − 2) + (3 − 4)(2 − 4) + (4 − 11)(5 − 11)] =
−1 − 1 + 56 + 6 + 2 + 42 = 104 .
Mianownik wzoru:
{
2 ⋅ ⎣⎡(3 − 2) 2 + (4 − 5) 2 + (3 − 10) 2 + (4 − 2) 2 + (3 − 4) 2 + (4 − 11) 2 ⎤⎦ ⋅
⎡⎣(2 − 3) 2 + (5 − 4) 2 + (2 − 10) 2 + (5 − 2) 2 + (2 − 4) 2 + (5 − 11) 2 ⎤⎦
2 ⋅ {[1 + 1 + 49 + 4 + 1 + 49][1 + 1 + 64 + 9 + 4 + 36]}
0,5
}
0,5
=
=
2 ⋅ (105 ⋅ 115) 0,5 = 219,7726098.
Podstawienie do wzoru (2.8):
d12 =
1
104
−
= 0,026784.
2 219,7726098
b) Obliczenie odległości d11:
Licznik wzoru:
[(3 − 3)(3 − 3) + (4 − 4)(4 − 4)] + [(3 − 2)(3 − 2) + (4 − 5)(4 − 5) +
(3 − 10)(3 − 10) + (4 − 2)(4 − 2) + (3 − 4)(3 − 4) + (4 − 11)(4 − 11)] =
0 + 0 + 1 + 1 + 49 + 4 + 1 + 49 = 105.
Uogólniona miara_Walesiak_Księga1.indb 40
2012-02-19 14:56:04
41
2.3. CHARAKTERYSTYKA UOGÓLNIONEJ MIARY ODLEGŁOŚCI
Mianownik wzoru:
{
2 ⎡⎣(3 − 3) 2 + (3 − 2) 2 + (4 − 5) 2 + (4 − 4) 2 + (3 − 10) 2 + (4 − 2) 2 +
(3 − 4) 2 + (4 − 11) 2 ⎦⎤ ⋅ ⎣⎡(3 − 3) 2 + (3 − 2) 2 + (4 − 5) 2 + (4 − 4) 2 +
(3 − 10) 2 + (4 − 2) 2 + (3 − 4) 2 + (4 − 11) 2 ⎤⎦
}
0,5
=
2 ⋅ {[0 + 0 + 1 + 1 + 49 + 4 + 1 + 49][0 + 0 + 1 + 1 + 49 + 4 + 1 + 49]}
0,5
=
2 ⋅ (105 ⋅ 105)0,5 = 210.
Podstawienie do wzoru (2.8):
1 105
−
= 0.
2 210
c) Macierz odległości obliczono z wykorzystaniem skryptu 2.2 (odległość
GDM1):
d11 =
SKRYPT 2.2
library(clusterSim)
x<-read.csv2(″dane_przyklad_1.csv″,header=TRUE,
row.names=1)
options(OutDec=″,″)
d<-dist.GDM(x,method=″GDM1″)
print(d)
1
2
3
2 0,02678361
3 0,45304699 0,61964042
4 0,47965108 0,36713219 0,78090032
Zasób informacji skali porządkowej jest nieporównanie mniejszy. Jedyną dopuszczalną operacją empiryczną na skali porządkowej jest zliczanie zdarzeń (tzn.
wyznaczanie liczby relacji większości, mniejszości i równości). W związku z tym w
konstrukcji miernika odległości musi być wykorzystana informacja o relacjach, w
jakich pozostają porównywane obiekty w stosunku do pozostałych obiektów ze
zbioru A. Dla zmiennych mierzonych na skali porządkowej w formule (2.6) stosuje się podstawienie [Walesiak 1993a, s. 44-45]:
⎧ 1 jeżeli
⎪⎪
aipj ( bkrj ) = ⎨ 0 jeżeli
⎪
⎪⎩ −1 jeżeli
Uogólniona miara_Walesiak_Księga1.indb 41
xij > x pj
xij = x pj
xij < x pj
kj
> xrj )
kj
= xrj ) , dla p = k , l ; r = i, l.
kj
< xrj )
(x
(x
(x
(2.9)
2012-02-19 14:56:05
42
2. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM
Wtedy w mianowniku wzoru (2.6) pierwszy czynnik oznacza liczbę relacji większości i mniejszości określoną dla obiektu i, czynnik drugi zaś liczbę relacji większości i mniejszości określoną dla obiektu k.
Współczynnik korelacji tau Kendalla stosowany jest dla zmiennych, a miara
(2.6) dla obiektów. W konstrukcji miary (2.6) wykorzystano tylko koncepcję konstrukcji uogólnionego współczynnika korelacji Kendalla. Punktem odniesienia konstrukcji miary (2.6) z podstawieniami (2.7) i (2.9) jest odpowiednio współczynnik
korelacji Pearsona (stosowany dla zmiennych mierzonych na skali ilorazowej i przedziałowej) oraz współczynnik tau Kendalla (stosowany dla zmiennych mierzonych
na skali porządkowej).
Miara o postaci (2.6) z podstawieniem (2.7) jest stosowana jako miara odległości
dla zmiennych mierzonych na skali przedziałowej i (lub) ilorazowej. Wprowadzenie
do wzoru (2.6) podstawienia (2.9) oznacza, że jest to miara odległości dla zmiennych mierzonych na skali porządkowej. Płynie stąd wniosek, że nie można miary
(2.6) stosować bezpośrednio, gdy zmienne są mierzone jednocześnie na różnych
skalach. Zastosowanie miary (2.6) z podstawieniem (2.9) rozwiązuje częściowo ten
problem, ale wtedy zostaje osłabiona skala pomiaru dla grupy zmiennych mierzonych na skali przedziałowej i (lub) ilorazowej (zostają one przekształcone w zmienne porządkowe, ponieważ w obliczeniach uwzględniane są tylko relacje większości,
mniejszości i równości).
PRZYKŁAD 2
Obliczenie odległości d12 i d11 z wykorzystaniem formuły (2.6) z podstawieniem
(2.9) dla macierzy danych z przykładu 1.
a) Obliczenie odległości d12:
Licznik wzoru (celowo wprowadzono nawiasy kwadratowe, aby było wiadomo,
do którego elementu wzoru podstawiano):
[1 ⋅ (−1) + (−1) ⋅ 1 + [(−1) ⋅ (−1) + 1 ⋅ 1 + (−1) ⋅ (−1) + (−1) ⋅ ( −1)] =
−1 − 1 + 1 + 1 + 1 + 1 = 2.
Mianownik wzoru:
{
2 ⋅ ⎡⎣12 + (−1) 2 + (−1) 2 + 12 + (−1) 2 + (−1) 2 ⎤⎦ ⋅
2
2
2
2
2
2
⎣⎡(−1) + 1 + (−1) + 1 + (−1) + (−1) ⎤⎦
2 ⋅ {[1 + 1 + 1 + 1 + 1 + 1][1 + 1 + 1 + 1 + 1 + 1]}
0,5
}
0,5
=
= 2 ⋅ (6 ⋅ 6) 0,5 = 12.
Podstawienie do wzoru (2.6) z podstawieniem (2.9):
d12 =
Uogólniona miara_Walesiak_Księga1.indb 42
1 2
− = 0,333333.
2 12
2012-02-19 14:56:05
43
2.3. CHARAKTERYSTYKA UOGÓLNIONEJ MIARY ODLEGŁOŚCI
b) Obliczenie odległości dl!:
Licznik wzoru:
[0-0+0-0]+[1·1 +(-1)·(-1)+(-1)·(-1)+ 1·1 +(-1) ·(-I)+(-I)·(-I)J =
O+ O+ l + 1+ l + 1+ l + 1 6.
Mianownik wzoru:
2.{[0 2 +0 2 + 12 +(_1)2 +(_1)2 + 12 +(_1)2 +(_1)2}
[0 2 +0 2 + 12 +(_1)2 +(_1)2 + f +(_1)2 +(-1)2JfS ==
5
2.{[0+0+1 + 1+ 1+ 1 + 1 + 1][0+0+1 +1 +1 + 1+ 1+ l]t =2-(6 _6)°,5
12.
Podstawienie do wzoru (2.6) z podstawieniem (2.9):
d II
c) Macierz
GDM2):
odległości
1
6
= 2 -12
-
O.
obliczono z wykorzystaniem skryptu 2.3
(odległość
SKRYPT 2.3
library(elusterSim) x<-read. esv2 ("dane_przyklad_l. esv", header=TRUE, row.·names=l)
options(OutDee=", "}
d<-dist. GDM (x,method="GDM2")
print (d)
1
2
3
2 0,3333333
3 0,5000000 0,8333333
4 0,5000000 0,5000000 0,6666667
Zasób infonnacji skali nominalnej zezwala na zliczanie zdarzeń, tzn. wyzna­
czanie liczby relacji równości i różności. W związku z tym w konstrukcji miernika
odległości musi być wykorzystana tego typu infonnacja. W mianowniku wzoru (2.6)
czynniki iloczynu oznaczają liczbę relacji równości i różności określoną dla obiektu
i oraz k, zatem
ttwp~ =ttwib:!i =m(n
j~1
I~l
FI
I~I
I).
Dla zmiennych mierzonych na skali nominalnej w fonnule (2.6) stosuje się pod­
stawienia (zob. [Walesiak 2003cJ):
44
2. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM
a) dla porównywanych obiektów i, k
⎧ 1 dla
aikj ⋅ bkij = ⎨
⎩−1 dla
xij = xkj ,
xij ≠ xkj ;
(2.10)
b) dla pozostałych obiektów (l = 1,..., n; l ≠ i, k )
⎧ 1 dla xij = xkj ∧ ( xij , xkj = xlj ∨ xij , xkj ≠ xlj ),
⎪
⎧( xij , xkj ≠ xlj ∨
⎪
ailj ⋅ bklj = ⎨
(2.11)
⎪
⎪−1 dla xij ≠ xkj ∧ ⎨ xij ≠ xlj ; xkj = xlj ∨
⎪ x = x ; x ≠ x ).
⎪
lj
kj
lj
⎩ ij
⎩
Jeśli w zbiorze znajdują się tylko zmienne nominalne wielostanowe, to formuła
(2.6) z podstawieniami (2.10) i (2.11) przyjmuje postać:
∑ wd
=
∑ w
m
d ik
j =1
m
j =1
j
( j)
ik
∑
=
m
j =1
j
w j d ik( j )
m
,
(2.12)
gdzie: d ik( j ) określone wzorem (1.34).
2.4
SILNE I SŁABE STRONY UOGÓLNIONEJ MIARY ODLEGŁOŚCI
–
–
Miara odległości dik o postaci (2.6) (zob. [Walesiak 1999, s. 171]):
może być stosowana w sytuacji, gdy obiekty opisane są zmiennymi mierzonymi
na skali ilorazowej, przedziałowej, porządkowej lub nominalnej,
przybiera wartości z przedziału [0; 1]. Wartość 0 oznacza, że dla porównywanych obiektów i, k między odpowiadającymi sobie obserwacjami na zmiennych
zachodzą tylko relacje równości. W przypadku podstawienia (2.9) wartość 1
oznacza, że dla porównywanych obiektów i, k między odpowiadającymi sobie
obserwacjami na zmiennych porządkowych zachodzą tylko relacje większości
(mniejszości) lub relacje większości (mniejszości) oraz relacje równości, jeżeli
relacje te są zachowane w stosunku do pozostałych obiektów (a więc obiektów o
numerach l = 1, …, n; gdzie l ≠ i, k ),
PRZYKŁAD 3
Obliczenie odległości d14 (macierz A) i d14 (macierz B) z wykorzystaniem formuły (2.6) z podstawieniem (2.9) dla macierzy danych:
⎡ 5 9 12 ⎤
⎡ 8 12 4 7 ⎤
⎢4 7 7 ⎥
⎢ 5 10 4 6 ⎥
⎥,
⎥.
A=⎢
B=⎢
⎢3 5 5 ⎥
⎢ 2 5 4 4⎥
⎢
⎥
⎢
⎥
⎣2 1 2 ⎦
⎣ −1 2 4 2 ⎦
Uogólniona miara_Walesiak_Księga1.indb 44
2012-02-19 14:56:05
45
2.4. SILNE I SŁABE STRONY UOGÓLNIONEJ MIARY ODLEGŁOŚCI
Obliczenie odległości d14 (macierz A):
Licznik wzoru (celowo wprowadzono nawiasy kwadratowe, aby było wiadomo, do
którego elementu wzoru podstawiano):
[1 ⋅ (−1) + 1 ⋅ (−1) + 1 ⋅ (−1)] +
[1 ⋅ (−1) + 1 ⋅ (−1) + 1 ⋅ (−1) + 1 ⋅ (−1) + 1 ⋅ (−1) + 1 ⋅ (−1)] = −3 − 6 = −9.
Mianownik wzoru:
{
2 ⋅ ⎡⎣12 + 12 + 12 + 12 + 12 + 12 + 12 + 12 + 12 ⎤⎦ ⋅
}
2
2
2
2
2
2
2
2
2
⎣⎡(−1) + (−1) + (−1) + (−1) + (−1) + (−1) + (−1) + (−1) + (−1) ⎦⎤
0,5
=
2 · (9 · 9)0,5 = 18.
Odległość d14 na podstawie wzoru (2.6) z podstawieniem (2.9):
1 −9
d14 = −
= 1,0.
2 18
Obliczenie odległości d14 (macierz B):
Licznik wzoru (celowo wprowadzono nawiasy kwadratowe, aby było wiadomo,
do którego elementu wzoru podstawiano):
[1 ⋅ (−1) + 1 ⋅ (−1) + 0 ⋅ 0 + 1 ⋅ (−1)] +
[1 ⋅ (−1) + 1 ⋅ (−1) + 0 ⋅ 0 + 1 ⋅ (−1) + 1 ⋅ (−1) + 1 ⋅ ( −1) + 0 ⋅ 0 + 1 ⋅ (−1)] = – 3 – 6 = –9.
Mianownik wzoru:
2 ⋅ {[12 + 12 + 02 + 12 + 12 + 12 + 02 + 12 + 12 + 12 + 02 + 12 ] ⋅
⎡⎣(−1) 2 + (−1) 2 + 02 + (−1) 2 + (−1) 2 + (−1) 2 + 02 +
}
(−1) 2 + (−1) 2 + (−1) 2 + 02 + (−1) 2 ⎤⎦
0,5
= 2 ⋅ (9 ⋅ 9 ) = 18.
0,5
Odległość d14 na podstawie wzoru (2.6) z podstawieniem (2.9):
d14 =
–
–
–
–
1 −9
−
= 1,0,
2 18
spełnia warunki: nieujemności d ik ≥ 0 , zwrotności d ii = 0, symetryczności
d ik = d ki (dla wszystkich i, k = 1,…, n ),
nie zawsze spełnia warunek nierówności trójkąta (ten wniosek potwierdziły
przeprowadzone analizy symulacyjne),
istnieje przynajmniej jedna para obiektów w zbiorze badanych obiektów A, dla
której obserwacje na zmiennych nie są identyczne (dla uniknięcia zera w mianowniku dik),
w przypadku, gdy w zbiorze obiektów są tylko dwa obiekty dik = 1,
Uogólniona miara_Walesiak_Księga1.indb 45
2012-02-19 14:56:06
46
–
2. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM
nie zmienia wartości w wyniku transformacji wartości zmiennych za pomocą
dozwolonego na danej skali przekształcenia matematycznego (na skali porządkowej: dowolna ściśle monotonicznie rosnąca funkcja; na skali przedziałowej:
funkcja liniowa; na skali ilorazowej: funkcja liniowa jednorodna3).
2.5
POSTAĆ UOGÓLNIONEJ MIARY ODLEGŁOŚCI
DLA ZMIENNYCH Z RÓŻNYCH SKAL POMIARU
Konstrukcja miary odległości dik, która umożliwia uwzględnienie w badaniach
zmiennych mierzonych na skali ilorazowej (R), interwałowej (I), porządkowej (P),
nominalnej (N), bazuje na propozycji zawartej w pracy [Bock, Diday (ed.) 2000,
s. 152] (zob. [Walesiak 2003c]):
d ik =
w1d ikN + w2 d ikO + w3 d ikI + w4 d ikR
,
w1 + w2 + w3 + w4
(2.13)
gdzie: N(O, I, R) – podzbiór zmiennych nominalnych (porządkowych, przedziałowych, ilorazowych),
R
I
d ik , d ik – miara odległości (2.6) z podstawieniem (2.7),
d ikO
– miara odległości (2.6) z podstawieniem (2.9),
N
d ik
– miara odległości (2.6) z podstawieniami (2.10) i (2.11),
w1 ( w2 , w3 , w4 ) – wagi przypisane odległościom wyznaczonym na podstawie
zmiennych nominalnych (porządkowych, przedziałowych, ilorazowych),
w1 , w2 , w3 , w4 ∈ (0, m) ; w1 + w2 + w3 + w4 = m (liczba zmiennych).
Wagi w1 , w2 , w3 , w4 mogą oznaczać liczbę zmiennych w poszczególnych podzbiorach lub merytoryczną ważność poszczególnych podzbiorów zmiennych w wyznaczeniu miary odległości dik o postaci (2.13).
Formuła o postaci (2.13) uśrednia odległości cząstkowe wyznaczone na podstawie poszczególnych podzbiorów zmiennych (nominalnych, porządkowych, interwałowych i ilorazowych). Miara odległości dik o postaci (2.13) może być stosowana
w sytuacji, gdy obiekty są opisane zmiennymi mierzonymi na skali ilorazowej, interwałowej, porządkowej i nominalnej, oraz ma właściwości określone w podrozdziale 2.4.
3
Zob. [Cegiełka, Stachowski, Szymański 2000, s. 79].
Uogólniona miara_Walesiak_Księga1.indb 46
2012-02-19 14:56:06
47
2.6. POSTAĆ UOGóLNIONEJ MIARY ODLEGŁOŚCI...
2.6
POSTAĆ UOGÓLNIONEJ MIARY ODLEGŁOŚCI DLA ZRÓŻNICOWANYCH WAG ZMIENNYCH Uogólniona postać miary odległości, w której uwzględnia
określona jest wzorem (por. [Walesiak 1999, s. 170]):
się
wagi zmiennych,
~ wajub
+ L...-L...~ ~ w.aj/'b
L...J ." lti~
J
J kr
.l
1
d :::;-li
2
gdzie: wj
-
j~1
j~1
1"1
I~i./;
wagaj-tej zmiennej spełniająca warunki; w;
(2.14)
E
2:
[O; m] i
2:;,1
W j :::
m lub
m~1 Wf = l.
W Iiteraturzb można spotkać trzy sposoby ustalania wag zmiennych. Wagi ustala
się albo metodą ekspertów (metoda a priori), albo z użyciem algorytmów obliczenio­
wych opierających się na informacjach zawartych w danych pierwotnych (surowych).
Można też wykorzystać metodę opartą na obu tych ujęciach. Szerzej o zagadnieniu
ważenia zmiennych napisano w pracach: (Bąk 1999, s. 44-47; Borys 1984, s. 318-325;
Abrahamowicz, Zając 1986; Grabiński 1984, s. 25-30; MilJigan 1989]. Problem "wa­
żenia" zmiennych nie został dotychczas zadowalająco rozwiązany. Williams stwier­
dza nawet, że ważenie zmiennych jest manipulowaniem wartościami zmiennych (por.
[Aldenderfer, Blashfield 1984, s. 2 l J). Z tego względu często w badaniach empirycz­
nych ząkłada się, że zmienne są jednakowo ważne z punktu widzenia badanego pro­
blemu (takie stanowisko przyjmują m.in. Sneath i Sokal [1973J4).
Obliczenia odległości GDM przeprowadza się z wykorzystaniem funkcji dist.
GDM pakietu clusterSim:
wj E [O; I] i
dist.GDM (x, rnethod="GDM1" f weightsType="equal" f weights=NULL)
gdzie: x - macierz danych,
method="GDM1" lub "GDM2"
GDMl - miara odległości GDM dla danych metrycznych,
GDM2 - miara odległości GDM dla danych porządkowych,
weightsType="equal" lub "differentl" lub "different2"
"equal" - wagi jednakowe,
"d~fferentl" - wagi zróżnicowane spełniające warunki: Wf E[O; l],
"
. W J.:::; I,
L...-J~I
"different2" - wagi
"m
= m,
zróżnicowane spełniające
J
L...-J=I W j
weights - wektor wag dla wag
4
Zob. [Aldenderfer, Blashfield 1984, s. 21].
warunki: w.
zróżnicowanych.
E
[O; m],
48
2. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM
2.7
KWADRAT ODLEGŁOŚCI EUKLIDESOWEJ
A WSPÓŁCZYNNIK KORELACJI LINIOWEJ PEARSONA
I COSINUS KĄTA MIĘDZY WEKTORAMI
W celu doprowadzenia zmiennych do porównywalności zachodzi potrzeba pozbawienia wartości zmiennych mian i ujednolicenia rzędów wielkości. Operacja ta
nosi nazwę transformacji normalizacyjnej. Będziemy zakładać, że normalizację
przeprowadzono z wykorzystaniem jednej z następujących formuł:
a) standaryzacja (dla j = 1, …, m)
zij =
xij − x j
sj
,
(2.15)
gdzie: zij – znormalizowana wartość j-tej zmiennej zaobserwowana w i-tym obiekcie,
0,5
n
⎡1 n
⎤
x j = ∑ xij n ; s j = ⎢ ∑ ( xij − x j ) 2 ⎥ ;
n
i =1
⎣ i =1
⎦
b) przekształcenie ilorazowe (dla j = 1, …, m)
xij
zij =
.
(2.16)
n
∑ xij2
i =1
Kwadrat odległości euklidesowej dany jest wzorem:
n
d 2jh = ∑ ( zij − zih ) 2 ,
(2.17)
i =1
gdzie: djh – odległość między j-tą i h-tą zmienną, j, h = 1, …, m.
Na podstawie pracy [Anderberg 1973, s. 113] w pracy [Jajuga, Walesiak 2004]
pokazano, że dla zmiennych standaryzowanych zgodnie z formułą (2.15) między
kwadratem odległości euklidesowej a współczynnikiem korelacji liniowej Pearsona
zachodzi związek:
n
d 2jh = ∑ ( zij − zih ) 2 = 2n(1 − rjh ).
(2.18)
i =1
DOWÓD 2
2
⎡ xij − x j xih − xh ⎤
d = ∑ ( zij − zih ) = ∑ ⎢
−
⎥ =
sh ⎦⎥
i =1
i =1 ⎣
⎢ sj
n
2
jh
n
( xij − x j ) 2
i =1
s 2j
∑
Uogólniona miara_Walesiak_Księga1.indb 48
2
n
− 2∑
i =1
n
n
xij − x j xih − xh
( x − x )2
⋅
+ ∑ ih 2 h =
sj
sh
sh
i =1
2012-02-19 14:56:06
49
2.7. KWADRAT ODLEGŁOŚCI EUKLIDESOWEJ...
n
1
n
n
∑ (x
i =1
n
− x j )2
ij
xij − x j
n
− 2∑
s 2j
n
i =1
1
n
∑ (x
xij − x j
n
n − 2n ∑
n
∑ (x
i =1
ij
i =1
2
n
1
n
∑ (x
n
∑ (x
2
ih
i =1
ih
i =1
xih − xh
⋅
− xj )
⋅
− xj )
ij
i =1
xih − xh
+n
− xh )
1
n
∑ (x
i =1
2
ih
− xh ) 2
sh2
=
+ n = 2n − 2nrjh = 2n(1 − rjh )
− xh )
2
.
W artykule [Jajuga, Walesiak 2004] pokazano ogólną formułę związku istniejącego między kwadratem metryki Minkowskiego a ogólnym współczynnikiem powiązania. Szczególnym przypadkiem tej formuły jest związek między kwadratem odległości
euklidesowej a współczynnikiem korelacji liniowej Pearsona określony w (2.18).
Jeśli we wzorze (2.17) przeprowadzona zostanie normalizacja zgodnie z formułą
(2.16), to na podstawie pracy [Anderberg 1973, s. 114] można wykazać, że między
kwadratem odległości euklidesowej a cosinusem kąta między wektorami obserwacji
j-tego i k-tego obiektu istnieje następujący związek:
n
d 2jh = ∑ ( zij − zih ) 2 = 2(1 − cosαjh).
(2.19)
i =1
DOWÓD 3
⎡
n
n ⎢
d 2jh = ∑ ( zij − zih ) 2 = ∑ ⎢
i =1
i =1 ⎢
⎢
⎣
⎡
x
n ⎢ ij
⎢
∑
i =1 ⎢
⎢
⎣
2
⎤
⎥
xij
xih ⎥
−
=
n
n
⎥
2
2
xij
xih ⎥
∑
∑
i =1
i =1
⎦
2
⎤
x − xih ∑ x ⎥
∑
1
i =1
i =1
⎥ =
n
n
n
n
⎥
2
2
2
2
x
⋅
xij ⋅ ∑ xih
∑
ij ∑ xih
⎥
∑
i =1
i =1
i =1
i =1
⎦
n
n
2
ih
1
n
n
n
∑x ⋅∑x
i =1
2
ij
i =1
⎡
n
∑ ⎢⎢ x ∑ x
2 i =1
ih
⎣
⎡
⎢
2 ⎢1 −
⎢
⎢
⎣
Uogólniona miara_Walesiak_Księga1.indb 49
2
ij
2
ij
2
ih
i =1
− 2 xij xih
n
n
⎡
⎢ xij
∑
i =1 ⎢
⎣
n
n
n
∑x
i =1
∑x ∑x
i =1
2
ih
i =1
2
ih
2
ij
− xih
2
⎤
x ⎥ =
∑
i =1
⎥⎦
n
2
ij
n
⎤
+ xih2 ∑ xij2 ⎥ =
i =1
⎦⎥
⎤
⎥
⎥ = 2(1 − ccosα ).
jh
n
⎥
2
x
⎥
∑
ij
i =1
⎦
∑x x
ij
i =1
n
∑x
i =1
2
ih
ih
2012-02-19 14:56:07
50
2. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM
2.8
GDM A WSPÓŁCZYNNIK KORELACJI LINIOWEJ PEARSONA
I COSINUS KĄTA MIĘDZY WEKTORAMI
Na podstawie wykazanych w literaturze związków istniejących między kwadratem odległości euklidesowej a współczynnikiem korelacji liniowej Pearsona i cosinusem kąta między wektorami wykazane zostaną analogiczne związki dla uogólnionej miary odległości GDM. Wzór (2.8) określa GDM dla zmiennych mierzonych na
skali przedziałowej i (lub) ilorazowej.
Dla zmiennych standaryzowanych zgodnie z formułą (2.15) można wykazać, że
między GDM a współczynnikami korelacji liniowej Pearsona istnieje związek (zob.
[Walesiak 2005b]):
−4 + m(rjh + 1) −
1
d jh = −
2
m
∑r
g =1
jg
−
m
∑r
hg
g =1
g ≠ j ,h
g ≠ j ,h
⎡
⎤
4 ⋅ ⎢(m − ∑ rjg ) ⋅ (m − ∑ rhg ) ⎥
g =1
g =1
⎣
⎦
m
m
0,5
(2.20)
.
DOWÓD 4
n
n
i =1
i =1
∑ ( zij − zih )( zih − zij ) = −∑ ( zij − zih )2 = −2n(1 − rjh ) – zob. dowód 2;
n
m
i =1
g =1
g ≠ j ,h
∑∑
n
m
i =1
g =1
g ≠ j ,h
⎛ xij − x j
n
m
i =1
g =1
g ≠ j ,h
∑ ∑ ⎜⎜
( zij − zig )( zih − zig ) =
sj
⎝
−
xig − xg ⎞ ⎛ xih − xh xig − xg
−
⎟⎜
sg ⎟⎠ ⎜⎝ sh
sg
⎞
⎟⎟ =
⎠
⎡ xij − x j xih − xh xij − x j xig − xg
⋅
−
⋅
−
sh
sj
sg
⎢⎣ s j
∑∑⎢
xig − xg xih − xh xig − xg xig − xg ⎤
⋅
+
⋅
⎥=
sg
sh
sg
sg ⎥⎦
⎡
⎢
n∑ ⎢
g =1 ⎢
g ≠ j ,h ⎢
⎣
n
∑ (x
m
ij
i =1
n
∑ (x
ij
i =1
n
∑ (x
i =1
n
∑ (x
i =1
Uogólniona miara_Walesiak_Księga1.indb 50
ig
ig
− xj )
2
n
∑ (x
ih
i =1
n
∑ (x
i =1
ih
− xh ) 2
∑ (x
−
− xh )
− xg )( xih − xh )
− xg ) 2
n
− x j )( xih − xh )
i =1
n
∑ (x
2
ij
i =1
n
+
∑ (x
i =1
n
∑ (x
i =1
ig
ig
ij
− x j )( xig − xg )
− xj )
2
n
∑ (x
i =1
ig
− xg )
−
2
⎤
⎥
⎥=
n
⎥
( xig − xg ) 2 ⎥
∑
i =1
⎦
− xg )( xig − xg )
− xg ) 2
2012-02-19 14:56:07
51
2.8. GDM A WSPÓŁCZYNNIK KORELACJI LINIOWEJ PEARSONA...
m
m
m
n ∑ ⎡⎣ rjh − rjg − rhg + 1⎤⎦ = n(m − 2)rjh − n ∑ rjg − n ∑ rhg + n(m − 2) =
g =1
g =1
g ≠ j ,h
g =1
g ≠ j ,h
g ≠ j ,h
m
m
n(m − 2)(rjh + 1) − n ∑ rjg − n ∑ rhg ;
g =1
g =1
g ≠ j ,h
g ≠ j ,h
n
m
m
⎡m
2
2⎤
(
z
z
)
(
z
z
)
2
n
(1
r
)
2
n
(1 − rjg ).
−
=
−
=
−
=
∑∑
∑
∑
ij
ig
ig
jg
⎢ ∑ ij
⎥ ∑
i =1 g =1
i =1 ⎣ g =1
g =1
⎦ g =1
n
m
Po podstawieniu do wzoru (2.8) otrzymuje się prawą stronę równania (2.20):
m
d jh =
1
−
2
m
−2n(1 − rjh ) + n(m − 2)(rjh + 1) − n ∑ rjg − n ∑ rhg
g =1
g =1
g ≠ j ,h
m
⎡m
⎤
4n ⋅ ⎢ ∑ (1 − rjg ) ⋅ ∑ (1 − rhg ) ⎥
g =1
⎣ g =1
⎦
−2(1 − rjh ) + (m − 2)(rjh + 1) −
1
−
2
m
∑r
g =1
jg
1
−
2
m
g =1
hg
=
0,5
m
∑ rjg −
∑r
g ≠ j ,h
g ≠ j ,h
g =1
m
g ≠ j ,h
m
⎡m
⎤
4 ⋅ ⎢ ∑ (1 − rjg ) ⋅ ∑ (1 − rhg ) ⎥
g =1
⎣ g =1
⎦
=
∑r
−
g ≠ j ,h
−4 + m(rjh + 1) −
g ≠ j ,h
0,5
hg
g =1
m
m
⎡
⎤
4 ⋅ ⎢(m − ∑ rjg ) ⋅ (m − ∑ rhg ) ⎥
g =1
g =1
⎣
⎦
0,5
.
Jeśli we wzorze (2.8) przeprowadzona zostanie normalizacja zgodnie z formułą
(2.16), to między GDM a cosinusem kąta między wektorami istnieje następujący
związek (zob. [Walesiak 2005b]):
−4 + m(cos α jh + 1) −
1
d jh = −
2
m
∑ cos α
g =1
g ≠ j ,h
jg
−
m
∑ cos α
g =1
g ≠ j ,h
⎡
⎤
4 ⋅ ⎢( m − ∑ cos α jg ) ⋅ (m − ∑ cos α hg ) ⎥
g =1
g =1
⎣
⎦
m
m
0,5
hg
,
(2.21)
gdzie: cosαjh – cosinus kąta między wektorami obserwacji na j-tej i h-tej zmiennej.
Uogólniona miara_Walesiak_Księga1.indb 51
2012-02-19 14:56:07
52
2. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM
DOWÓD 5
n
n
∑(z
− zih )( zih − zij ) = −∑ ( zij − zih ) 2 = −2(1 − cos α jh ) – zob. dowód 3;
ij
i =1
i =1
⎛
⎜
⎜
∑
∑ ( zij − zig )( zih − zig ) = ∑ ∑
⎜
i =1 g =1
i =1 g =1
g ≠ j ,h
g ≠ j ,h ⎜
⎝
n
m
n
⎡
n
m ⎢
∑
∑⎢
i =1 g =1 ⎢
g ≠ j ,h ⎢
⎣
⎞⎛
⎟⎜
xij
xig ⎟ ⎜
−
n
n
⎟⎜
2
x
xig2 ⎟ ⎜
∑
∑
ij
i =1
i =1
⎠⎝
m
xij
xih
⋅
n
n
∑x
∑x
2
ih
i =1
xig
⋅
n
∑x
2
ij
i =1
xij
−
n
−
∑x
2
ij
i =1
⎞
⎟
xig ⎟
xih
−
=
n
n
⎟
2
2
xih
xig ⎟
∑
∑
i =1
i =1
⎠
2
ig
i =1
⎤
xig
xig
xig ⎥⎥
xih
⋅
+
⋅
=
n
n
n
n
⎥
2
2
2
2
xig
xih
xig
xig ⎥
∑
∑
∑
∑
i =1
i =1
i =1
i =1
⎦
⎡
m ⎢
⎢
∑
g =1 ⎢
g ≠ j ,h ⎢
⎣
n
n
∑x x
ij
i =1
n
ih
n
−
∑x ∑x
2
ij
i =1
i =1
n
∑x x
ij
i =1
n
ig
n
∑x
−
i =1
n
∑x ∑x
2
ih
i =1
2
ij
i =1
m
∑ ⎡⎣cos α
g =1
jh
ig
n
xih
n
+
∑x ∑x
2
ig
i =1
2
ig
i =1
∑x
2
ih
ig
i =1
n
∑x
i =1
2
ig
⎤
⎥
⎥=
n
⎥
2
xig ⎥
∑
i =1
⎦
xig
− cos α jg − cos α hg + 1⎤⎦ =
g ≠ j ,h
(m − 2) cos α jh −
m
∑ cos α
g =1
jg
g ≠ j ,h
(m − 2)(cos α jh + 1) −
n
m
i =1 g =1
ij
m
∑ cos α
g =1
hg
+ ( m − 2) =
g ≠ j ,h
m
∑ cosα
g =1
g ≠ j ,h
∑∑ ( z
−
jg
−
m
∑ cos α
g =1
hg
;
g ≠ j ,h
n
m
⎡m
⎤ m
− zig ) 2 = ∑ ⎢ ∑ ( zij − zig ) 2 ⎥ = ∑ 2(1 − cos α jg ) = 2∑ (1 − cos α jg ).
i =1 ⎣ g =1
g =1
⎦ g =1
Uogólniona miara_Walesiak_Księga1.indb 52
2012-02-19 14:56:08
53
2.8. GDM A WSPÓŁCZYNNIK KORELACJI LINIOWEJ PEARSONA...
Po podstawieniu do wzoru (2.8) otrzymuje się prawą stronę równania (2.21):
−2(1 − cos α jh ) + (m − 2)(cos α jh + 1) −
1
d jh = −
2
m
∑ cos α
g =1
jg
−
g =1
g ≠ j ,h
g ≠ j ,h
m
⎡m
⎤
4 ⋅ ⎢ ∑ (1 − cos α jg ) ⋅ ∑ (1 − cos α hg ) ⎥
g =1
⎣ g =1
⎦
−4 + m(cos α jh + 1) −
1
−
2
m
∑ cos α
g =1
g ≠ j ,h
jg
−
0,5
g =1
g ≠ j,h
m
hg
=
m
∑ cosα
⎡
⎤
4 ⋅ ⎢(m − ∑ cos α jg ) ⋅ (m − ∑ cos α hg ) ⎥
g =1
g =1
⎣
⎦
m
m
∑ cosα
0,5
hg
.
W celu uniknięcia zera w mianowniku miar (2.20) i (2.21) należy przyjąć założenie, że istnieje przynajmniej jedna para w zbiorze zmiennych, dla których obserwacje po normalizacji zgodnie z formułami (2.15) lub (2.16) nie są identyczne.
Na podstawie wykazanych związków między uogólnioną miarą odległości GDM
a współczynnikiem korelacji liniowej Pearsona (cosinusem kąta między wektorami)
można sformułować kilka spostrzeżeń:
– znając macierz korelacji (cosinusów kąta między wektorami), można obliczyć
odległości między zmiennymi,
– odległość między zmiennymi j, h zależy od ich skorelowania (cosinusa kąta)
oraz ich korelacji (cosinusów kątów) z pozostałymi zmiennymi,
– dla zbioru zawierającego dwie zmienne djh = 1, jeśli obserwacje po normalizacji
nie są identyczne,
– rozważania dotyczyły odległości między zmiennymi. Analogiczne wzory można
wyznaczyć, gdy przedmiotem badania są obiekty (por. [Anderberg 1973, s. 113-114]), wtedy jednak normalizacja dana wzorami (2.15) i (2.16) będzie przeprowadzana według obiektów.
Uogólniona miara_Walesiak_Księga1.indb 53
2012-02-19 14:56:08
3
OBSZARY ZASTOSOWAŃ
UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM
W STATYSTYCZNEJ ANALIZIE
WIELOWYMIAROWEJ1
3.1
WYZNACZANIE MACIERZY ODLEGŁOŚCI
W PROCESIE KLASYFIKACJI OBIEKTÓW
Wykorzystanie niektórych metod statystycznej analizy wielowymiarowej (metody analizy skupień, skalowanie wielowymiarowe) wymaga obliczenia odległości
między obiektami (np. przy użyciu miary GDM) i zestawienia ich w macierz:
⎡0
⎢d
21
[dik] = ⎢
⎢ #
⎢
⎣ d n1
d12 " d1n ⎤
0 " d 2 n ⎥⎥
.
#
#
# ⎥
⎥
dn2 " 0 ⎦
Macierz odległości stanowi jeden z etapów zastosowania niektórych metod klasyfikacji. Na rys. 3.1 przedstawiono trzy pierwsze etapy dwóch procedur klasyfikacyjnych (klasyczna analiza skupień i klasyfikacja spektralna2), obejmujące ustalenie
zbioru obiektów i zmiennych (po zgromadzeniu danych konstruuje się macierz danych, a w przypadku danych metrycznych w następnym kroku znormalizowaną macierz danych), dobór zmiennych oraz wybór miary odległości.
W każdym badaniu statystycznym, w tym również w niewyczerpującym badaniu wielowymiarowym, można przyjąć jedno z dwóch podejść: stochastyczne lub
opisowe. W podejściu stochastycznym zakłada się, że zbiór obserwacji (obiektów)
stanowi próbę losową pochodzącą z populacji o nieskończonej lub skończonej liczebności.
Zob. [Walesiak 2003a].
Analiza skupień bazująca na dekompozycji spektralnej (spectral clustering) rozwija się w literaturze poświęconej wielowymiarowej analizie danych od końca XX wieku. Nazwa metody „klasyfikacja
spektralna” wywodzi się stąd, że w jednym z jej podstawowych kroków wyznacza się spektrum (widmo) macierzy Laplace’a. W matematyce zbiór wartości własnych macierzy nazywa się spektrum (widmem) macierzy (zob. np. [Kolupa 1976, s. 182]). Podstawowy algorytm klasyfikacji spektralnej dla
danych metrycznych zaproponowano w pracy [Ng, Jordan, Weiss 2002].
1
2
Uogólniona miara_Walesiak_Księga1.indb 54
2012-02-19 14:56:08
3.1. WYZNACZANIE MACIERZY ODLEGŁOŚCI...
55
Rys. 3.1. Trzy pierwsze etapy dwóch procedur klasyfikacyjnych
Źródło: opracowanie własne.
Podejście stochastyczne, w którym rozpatrywane zmienne są losowe, wolno
przyjąć przede wszystkim w przypadku badań eksperymentalnych, tzn. gdy istnieje
możliwość powtórzenia badania w takich samych warunkach. Wtedy zbiór obserwacji może być traktowany jako próba losowa.
W podejściu opisowym zmienne nie są losowe, lecz są zmiennymi w zwykłym
sensie. Badaniu nie podlegają wtedy właściwości stochastyczne zbioru obserwacji.
Podejście opisowe przyjmuje się zazwyczaj wtedy, gdy dane pochodzą ze sprawozdawczości statystycznej. Dobór próby powinno się przeprowadzić tak, aby klasy
wyodrębnione na jej podstawie odpowiadały strukturze klas populacji.
Wybór zmiennych jest jednym z najważniejszych, a zarazem najtrudniejszych
zagadnień. Od jakości zestawu zmiennych zależy bowiem wiarygodność ostatecznych wyników klasyfikacji i trafność podejmowanych na ich podstawie decyzji.
W procedurze klasyfikacji należy uwzględnić tylko te zmienne, które mają zdolność
dyskryminacji zbioru obiektów. Podejście polegające na uwzględnieniu jak największej liczby zmiennych jest nieuzasadnione. Dodanie do zbioru jednej lub kilku nieistotnych zmiennych nie pozwala na odkrycie w zbiorze obiektów właściwej struktury klas (zob. [Milligan 1994; 1996, s. 348]).
Uogólniona miara_Walesiak_Księga1.indb 55
2012-02-19 14:56:08
56
3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
Do rozwiązania zagadnienia doboru zmiennych służą zasadniczo dwa ujęcia:
dobór merytoryczny w ścisłym tego słowa znaczeniu oraz dobór merytoryczno-formalny. Oba ujęcia obejmują dwie fazy. Faza I jest taka sama w obu ujęciach, różnice
zaś występują w fazie II. Punktem wyjścia obu ujęć (faza I) jest skonstruowanie
wstępnej listy zmiennych na podstawie własnej hipotezy roboczej badacza (wynikającej z jego znajomości przedmiotu badania oraz wiedzy płynącej z szeroko pojętej
teorii ekonomii) oraz współpracy z przedstawicielami odpowiednich dyscyplin naukowych (ekspertami).
Redukcja wstępnej listy zmiennych z wykorzystaniem analizy merytorycznej
(faza II) jest działaniem w głównej mierze subiektywnym. Dokonuje się jej na podstawie własnej znajomości przedmiotu badania, wykorzystując współpracę ekspertów oraz opierając się na szeroko pojętej teorii ekonomii. Redukcja wstępnej listy
zmiennych z wykorzystaniem metod doboru zmiennych (faza II) polega na zastosowaniu formalnych algorytmów wyboru zmiennych.
W zagadnieniu doboru zmiennych dla potrzeb klasyfikacji zbioru obiektów na
względnie jednorodne klasy wyróżnia się trzy podejścia [Grabiński 1992, s. 42;
Gnanadesikan, Kettenring, Tsao 1995]:
1. Selekcja zmiennych – dobór mniejszej liczby zmiennych przez eliminację
tych, które nie mają zdolności dyskryminacji zbioru obiektów.
2. Wprowadzenie zróżnicowanych wag dla poszczególnych zmiennych wyrażających ich relatywną ważność.
3. Zastąpienie oryginalnych zmiennych nowymi „sztucznymi” zmiennymi o pożądanych właściwościach.
Zagadnienie selekcji zmiennych jest szczególnym przypadkiem ważenia zmiennych, ponieważ zmienne usunięte otrzymują wagę 0, a zmienne wybrane wagę 1.
Analizę porównawczą wybranych metod ważenia i selekcji zmiennych zawierają prace: [Milligan 1989; Gnanadesikan, Kettenring, Tsao 1995; Makarenkov, Legendre 2001]. Szerzej o problemach selekcji i ważenia zmiennych w zagadnieniu
klasyfikacji traktują prace [Walesiak 2005c; 2009b].
W pakiecie clusterSim (funkcja HINoV.Mod) dostępny jest algorytm zmodyfikowanej metody HINoV (zob. [Walesiak 2005c]), służący doborowi zmiennych
dla przypadku zmiennych metrycznych oraz niemetrycznych. Dla danych metrycznych algorytm metody HINoV jest następujący (zob. [Carmone, Kara, Maxwell
1999, s. 504]):
a. Punktem wyjścia jest macierz danych [zij] (zij – znormalizowana obserwacja
j-tej zmiennej w i-tym obiekcie). Zmienne opisujące obiekty badania mierzone są na
skali przedziałowej lub ilorazowej.
b. Dla każdej j-tej zmiennej przeprowadza się metodą k-średnich klasyfikację
zbioru obiektów A na ustaloną arbitralnie liczbę klas u.
c. Oblicza się skorygowaną miarę Randa Rjh (j,h = 1, …, m) dla wszystkich kombinacji par podziałów (j ≠ h). Ze względu na to, że miara Rjh jest symetryczna, należy policzyć m(m − 1) 2 wartości.
Uogólniona miara_Walesiak_Księga1.indb 56
2012-02-19 14:56:08
3.1. WYZNACZANIE MACIERZY ODLEGŁOŚCI...
57
d. Zestawia się policzone skorygowane miary Randa Rjh (j,h = 1, …, m) w macierz o wymiarach m × m. Następnie dla każdego wiersza (lub kolumny) oblicza się
m
sumę wartości R j • = ∑ R jh :
h =1
⎡ M1 ⎤
⎢M ⎥
⎢ 2⎥
⎢ # ⎥
⎢
⎥
⎢M j ⎥
⎢ # ⎥
⎢
⎥
⎢⎣ M m ⎥⎦
⎡
⎢R
⎢ 21
⎢ #
⎢
⎢ R j1
⎢ #
⎢
⎢⎣ Rm1
R12
#
Rj2
#
Rm 2
… R1h
… R2 h
#
#
… R jh
#
#
… Rmh
… R1m ⎤ ⎡ R1• ⎤
… R2 m ⎥⎥ ⎢⎢ R2• ⎥⎥
#
# ⎥ ⎢ # ⎥
⎥ ⎢ ⎥
… R jm ⎥ ⎢ R j • ⎥
#
# ⎥ ⎢ # ⎥
⎥ ⎢ ⎥
…
⎥⎦ ⎢⎣ Rm• ⎥⎦
e. Porządkuje się malejąco wartości R1• , R2• ,… , Rm• oraz konstruuje wykres osypiska i na jego podstawie wybiera podzbiór m* zmiennych. W wyniku zastosowania
tego algorytmu eliminuje się m – m* zmiennych zakłócających istniejącą strukturę
klas w zbiorowości obiektów.
f. Przeprowadza się metodą k-średnich klasyfikację zbioru obiektów A na ustaloną w kroku drugim liczbę klas na podstawie wybranych m* zmiennych.
Możliwe jest wykorzystanie procedury HINoV z innymi metodami klasyfikacji
(zob. [Carmone, Kara, Maxwell 1999, s. 508]). Analizy symulacyjne dla wygenerowanych danych o zadanej strukturze klas uwzględniających zmienne zakłócające
pokazały, że w 97% przypadków otrzymano lepsze rezultaty, stosując do selekcji
zmiennych procedurę HINoV, niż uwzględniając wszystkie badane zmienne.
Zmodyfikowaną wersję metody HINoV, dotyczącą możliwości jej zastosowania
dla przypadku zmiennych niemetrycznych (nominalnych i porządkowych), zaproponowano w pracy [Walesiak 2005c]. Zmodyfikowany algorytm HINoV różni się od
wersji podstawowej w krokach a, b oraz f (liczba obiektów powinna być znacznie
większa niż liczba kategorii zmiennych):
a. Punktem wyjścia jest macierz danych [xij] (xij – obserwacja j-tej zmiennej w
i-tym obiekcie). Zmienne opisujące obiekty badania mierzone są na skali nominalnej
lub porządkowej.
b. Dla każdej j-tej zmiennej otrzymuje się naturalną klasyfikację, w której liczba
klas równa się liczbie kategorii (np. pięć kategorii dla skali Likerta, siedem kategorii
dla skali semantycznej).
Kroki c, d oraz e – bez zmian.
f. Przeprowadza się klasyfikację zbioru obiektów A, z wykorzystaniem znanych
metod klasyfikacji bazujących na miarach odległości właściwych dla skal niemetrycznych (GDM2 dla danych porządkowych, miara Sokala i Michenera dla danych
nominalnych), na podstawie wybranych m* zmiennych. Do wyboru liczby klas wykorzystuje się mierniki oceny jakości klasyfikacji.
Uogólniona miara_Walesiak_Księga1.indb 57
2012-02-19 14:56:08
58
3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
W pracy [Walesiak, Dudek 2008] zbadano, na podstawie wygenerowanych
struktur danych porządkowych, przydatność metody HINoV w wykrywaniu zmiennych zakłócających strukturę klas.
Klasyczna analiza skupień3 obejmuje kolejno następujące etapy (por. [Milligan
1996, s. 342-343; Walesiak 2005a; 2009b]):
4. Wybór metody klasyfikacji spośród metod bazujących na macierzy odległości.
Można tutaj wyróżnić m.in. takie metody (dostępne w pakietach stats i cluster), jak:
4.1. Metoda k-medoidów (pam), w której każda klasa jest reprezentowana przez
jeden z jej obiektów będący gwiazdą klasy (medoid, star). Metoda k-medoidów wykorzystuje algorytmy optymalizacyjne mające charakter iteracyjny, bazuje więc na
założeniu, że znany jest wstępny podział zbioru n obiektów na u klas. Jej zadaniem
jest „poprawienie”, z punktu widzenia zdefiniowanej funkcji−kryterium, wstępnego
podziału zbioru obiektów. Poszukuje się takiego podziału zbioru n obiektów na u
u
⎡
⎛ nr
⎞⎤
klas, dla którego wartość miary C (n, u ) = ∑ ⎢ min ⎜ ∑ d ri , rk ⎟ ⎥ osiąga minimum
k =1,..., nr
r =1 ⎣
⎝ i =1
⎠⎦
(gdzie: dri,sk – odległość między i-tym obiektem r-tej klasy i k-tym obiektem s-tej
klasy; u – liczba klas; i, k – numery obiektów; nr(ns) – liczba obiektów w klasie r(s)).
Algorytm metody k-medoidów składa się z następujących etapów:
a) wybierz arbitralnie lub za pomocą specjalnych procedur k obiektów stanowiących początkowych reprezentantów klas (initial k-medoids),
b) przydziel każdy pozostały obiekt ze zbioru A do klasy zawierającej najbliższego reprezentanta klasy (medoid),
c) wprowadź w miejsce dotychczasowego reprezentanta klasy (medoid) inny
obiekt, niebędący dotychczas reprezentantem klasy, pod warunkiem, że uzyskana
klasyfikacja się poprawi,
d) powtarza się kroki b) i c) do chwili, gdy nie nastąpią przesunięcia obiektów
między klasami.
Szczegółowy algorytm metody k-medoidów znajduje się w pracy [Kaufman,
Rousseeuw 1990, s. 102-104].
4.2. Siedem metod klasyfikacji hierarchicznej: pojedynczego połączenia, kompletnego połączenia, średniej klasowej, ważonej średniej klasowej, Warda, środka
ciężkości, medianowa. Jeśli dla metody Warda, centroidalnej i medianowej odległości między obiektami zostały wyznaczone za pomocą kwadratu odległości euklidesowej, to odległości międzyklasowe (3.1) mają interpretację geometryczną. W sytuacji, gdy dla tych metod (por. [Anderberg 1973, s. 141]) macierz odległości jest
liczona na podstawie innych miar odległości, odległość międzyklasowa (3.1) nie ma
interpretacji geometrycznej.
Szczegółową charakterystykę etapów analizy skupień zawarto m.in. w pracach [Walesiak 2004a;
2004c; 2009b].
3
Uogólniona miara_Walesiak_Księga1.indb 58
2012-02-19 14:56:09
59
3.1. WYZNACZANIE MACIERZY ODLEGŁOŚCI...
Hierarchiczna klasyfikacja aglomeracyjna rozpoczyna się od sytuacji, w której
każdy obiekt badania Ai (i = 1,… n) tworzy początkowo jedną klasę Pi. Algorytm
centralnej procedury aglomeracyjnej jest następujący (por. np. [Anderberg 1973,
s. 133; Gordon 1987]):
a. W macierzy odległości szuka się pary klas najbardziej podobnych (najmniej
odległych od siebie). Załóżmy, że będą to klasy Pi oraz Pk.
b. Redukuje się liczbę klas o jeden, łącząc klasy Pi, Pk w nową.
c. Przekształca się odległości (stosownie do metody) pomiędzy połączonymi
klasami Pi, Pk oraz pozostałymi klasami. Odległość pomiędzy połączonymi klasami
Pi ∪ Pk i inną klasą Pl jest zdefiniowana następująco (por. [Everitt, Landau, Leese
2001, s. 61]):
d ( Pi ∪ Pk , Pl ) = α i d ( Pi , Pl ) + α k d ( Pk , Pl ) + β d ( Pi , Pk ) + γ d ( Pi , Pl ) − d ( Pk , Pl ) . (3.1)
W formule (3.1) θ = (αi, αk, β, γ) oznacza zbiór parametrów, których wartości
zależą od konkretnego wariantu metody aglomeracyjnej. W tab. 3.1 zawarto wartości parametrów charakteryzujących hierarchiczne metody aglomeracyjne.
d. Powtarza się kroki a–c, aż wszystkie obiekty znajdą się w jednej klasie.
Tabela 3.1. Wartości parametrów dla hierarchicznych metod aglomeracyjnych
Lp.
1
Nazwa metody
Oznaczenie
w pakiecie R
αi
β
γ
Pojedynczego połączenia (single-link)
0,5
0
–0,5
single
0,5
0
0,5
complete
ni
ni + nk
0
0
average
0,5
0
0
mcquitty
0
ward
2
Kompletnego połączenia (complete-link)
3
Średniej klasowej (group average-link)
4
Ważonej średniej klasowej
(weighted average-link)
5
Warda (incremental sum of squares)
ni + nl
n+
− nl
n+
6
Środka ciężkości (centroid)
ni
ni + nk
− ni nk
(ni + nk )
0
centroid
0,5
–0,25
0
median
7
Medianowa (median)
2
n+ = ni + nk + nl , nl – liczba obiektów w klasie Pl.
Źródło: opracowanie własne na podstawie prac [Gordon 1996, s. 73; 1999, s. 79; Walesiak 1993a, s. 53].
4.3. Hierarchiczna metoda deglomeracyjna Macnaughtona-Smitha i in. [1964].
Algorytm tej metody, która w pakiecie R nosi nazwę diana, jest następujący (zob.
[Kaufman, Rousseeuw 1990, rozdz. 6]):
Uogólniona miara_Walesiak_Księga1.indb 59
2012-02-19 14:56:09
60
3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
a. Dla każdej istniejącej klasy wyznaczyć parę obiektów najbardziej odległych
(w pierwszej iteracji jest tylko jedna klasa). Do podziału wybieramy tę klasę, dla
której odległość jest największa.
b. Dla każdego obiektu wybranej klasy Ps obliczamy średnią odległość od pozostałych obiektów tej klasy.
c. Obiekt, dla którego uzyskano maksymalną średnią odległość, tworzy zalążek
nowej klasy A. Pozostałe obiekty tworzą tymczasową klasę B.
d. Dla każdego obiektu w tymczasowej klasie B obliczamy średnią odległość od
pozostałych obiektów w klasie B i od obiektów w klasie A (odpowiednio d Bi i d Ai ).
e. Z tymczasowej klasy B trafia do tymczasowej klasy A obiekt, dla którego
otrzymuje się max d Bi − d Ai > 0 .
i
f. Dla pozostałych obiektów z tymczasowej klasy B powtarzamy kroki d oraz e.
Proces podziału klasy wybranej w kroku 1 kończy się, gdy max d Bi − d Ai ≤ 0 .
i
g. Kroki a−f powtarzane są n – 1 razy, aż otrzyma się liczbę klas równą liczbie
obiektów badania, tzn. każdy obiekt tworzy jedną klasę.
5. Ustalenie liczby klas. Do ustalenia liczby klas służą m.in. indeksy z pakietu
clusterSim: Daviesa-Bouldina – index.DB, Calińskiego i Harabasza – index.G1, Bakera i Huberta – index.G2, Huberta i Levine – index.G3, gap –
index.Gap, Hartigana – index.H, Krzanowskiego i Lai – index.KL, Silhouette – index.S. Formuły prezentowanych indeksów zawiera tab. 3.2.
Indeksy Calińskiego i Harabasza, Krzanowskiego i Lai, Daviesa-Bouldina, Hartigana i gap w swojej konstrukcji wykorzystują środek ciężkości klasy o współrzędnych będących średnimi arytmetycznymi z wartości zmiennych opisujących obiekty
danej klasy. Dla danych porządkowych nie jest dopuszczalne obliczanie średnich
arytmetycznych. W związku z tym przy obliczaniu tych indeksów zamiast środka
ciężkości klasy stosuje się współrzędne obiektu usytuowanego centralnie w klasie
(zwanego „centrotype” lub „medoid”), tj. obiektu, dla którego suma odległości od
pozostałych obiektów w klasie jest najmniejsza.
6. Ocena wyników klasyfikacji (zob. [Walesiak 2008]). Do oceny wyników klasyfikacji można wykorzystać funkcję replication.Mod pakietu clusterSim.
Replikacja dotyczy przeprowadzenia procesu klasyfikacji zbioru obiektów na podstawie dwóch prób wylosowanych z danego zbioru danych, a następnie oceny zgodności otrzymanych rezultatów. Poziom zgodności wyników dwóch podziałów (np.
skorygowany indeks Randa) odzwierciedla poziom stabilności przeprowadzonej
klasyfikacji zbioru obiektów.
Procedura replikacji składa się z następujących etapów [Breckenridge 2000,
s. 262-263; Milligan 1996, s. 368-369; Gordon 1999, s. 184; Walesiak 2008]:
a. Podzielić losowo zbiór danych (zbiór n obiektów opisanych m zmiennymi) na
dwa podzbiory A (podstawowy) i B (replikacyjny) opisane tym samym zbiorem
zmiennych.
b. Zastosować wybraną metodę klasyfikacji (np. metodę k-średnich, k-medoidów,
hierarchiczne metody aglomeracyjne) do podziału zbioru A na ustaloną liczbę klas u.
Uogólniona miara_Walesiak_Księga1.indb 60
2012-02-19 14:56:09
61
3.1. WYZNACZANIE MACIERZY ODLEGŁOŚCI...
Tabela 3.2. Indeksy oceny jakości klasyfikacji służące wyborowi liczby klas
Lp.
1
2
3
4
5
Nazwa indeksu
Calińskiego
i Harabasza
Bu / (u − 1) ,
G1(u ) ∈ R+
Wu / (n − u )
uˆ = arg max{G1(u )}
s ( + ) − s ( −)
, G 2(u ) ∈ [−1, 1]
s ( + ) + s ( −)
uˆ = arg max{G 2(u )}
D(u ) − r ⋅ Dmin
, G 3(u ) ∈ (0, 1)
r ⋅ Dmax − r ⋅ Dmin
uˆ = arg min{G 3(u )}
1 n
b(i ) − a (i )
, S (u ) ∈ [−1, 1]
∑
n i=1 max {a (i ); b(i )}
uˆ = arg max{S (u )}
G1(u ) =
Bakera i Huberta
G 2(u ) =
Huberta i Levine
G 3(u ) =
Silhouette
Kryterium wyboru
liczby klas
Formuła
S (u ) =
Krzanowskiego i Lai
KL(u ) =
u
u
u
u
DIFFu
, KL(u ) ∈ R+
DIFFu +1
uˆ = arg max{KL(u )}
u
DIFFu = (u − 1) Wu −1 − u Wu
2/ m
6
Daviesa-Bouldina
7
Hartigana
8
Gap
DB (u ) =
2/ m
⎛ S + Ss ⎞
1 u
max ⎜ r
⎟
∑
s
u r =1 r ≠ s ⎝ d rs ⎠
uˆ = arg min{DB (u )}
u
⎛W
⎞
H (u ) = ⎜ u − 1⎟ (n − u − 1) , H (u ) ∈ R+
⎝ Wu +1 ⎠
Gap (u ) =
najmniejsze u,
dla którego H (u ) ≤ 10
1 B
∑ logWub − logWu , Gap(u ) ∈ R
B b=1
najmniejsze u,
dla którego diff (u ) ≥ 0
Bu – macierz kowariancji międzyklasowej, Wu – macierz kowariancji wewnątrzklasowej, tr – ślad
macierzy, Bu (Wu ) = tr (Bu ) (trWu ) , r , s = 1, ..., u – numer klasy, u – liczba klas, i, k = 1,…, n – numer
obiektu, n – liczba obiektów, m – liczba zmiennych, s (+ ) – liczba par odległości zgodnych, s (−) –
liczba par odległości niezgodnych, D(u ) – suma wszystkich odległości wewnątrzklasowych, r – liczba
odległości wewnątrzklasowych, Dmin (Dmax) – najmniejsza (największa) odległość wewnątrzklasowa,
a (i ) =
∑
k∈{ Pr \i }
d ik (nr − 1) – średnia odległość obiektu i od pozostałych obiektów należących do klasy Pr ;
b(i ) = min{d iPs } , d iPs = ∑ d ik ns – średnia odległość obiektu i od obiektów należących do klasy Ps,
s≠r
k∈Ps
B – liczba generowanych zbiorów obserwacji, su = sd u 1 + 1 / B , sd u – odchylenie standardowe
z wartości { log Wub }; diff (u ) = Gap (u ) − Gap(u + 1) + su +1 ; d rs =
m
p
∑z
j =1
rj
− zsj
p
– odległość między
środkami ciężkości (medoidami) klas r i s (p = 1 – odległość miejska, p = 2 – odległość Euklidesa);
m
q
1
S r = q ∑∑ xijr − zrj – miara rozproszenia obiektów w klasie: q=1 – średnia odległość obiektów
nr i∈Pr j =1
w r-tej klasie od środka ciężkości (medoidy) klasy; q=2 – odchylenie standardowe odległości obiektów
w r-tej klasie od środka ciężkości (medoidy) klasy.
Źródło: [Walesiak 2009b, s. 418].
Uogólniona miara_Walesiak_Księga1.indb 61
2012-02-19 14:56:10
62
3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
Wcześniej należy podjąć decyzję dotyczącą wyboru formuły normalizacji wartości
zmiennych, miary odległości oraz liczby skupień. Wyznaczyć dla danych metrycznych środki ciężkości (centroids) dla poszczególnych klas lub obiekty reprezentatywne dla klas (usytuowane centralnie zwane „centrotypes” lub „medoids”) dla danych metrycznych lub niemetrycznych. Obiektem usytuowanym centralnie w klasie
(medoid) jest ten, dla którego suma odległości od pozostałych obiektów danej klasy
jest najmniejsza.
c. Tę samą procedurę klasyfikacyjną zastosować do podziału zbioru B na u
klas.
d. Obliczyć odległości obiektów ze zbioru B od środków ciężkości klas lub od
obiektów usytuowanych centralnie w klasach wyznaczonych na podstawie podzbioru A. Przydzielić obiekty z podzbioru B do klas zawierających najbliższy środek
ciężkości (najbliższy medoid). Prowadzi to do podziału podzbioru B na nie więcej
niż u klas. Otrzymujemy podział zbioru B na klasy na podstawie charakterystyk
(środki ciężkości lub medoidy) zbioru A.
e. Powtórzyć kroki a−d S razy (S – liczba symulacji).
f. Obliczyć, np. za pomocą skorygowanej miary Randa (zob. [Hubert, Arabie
1985]), średnią zgodność wyników dwóch podziałów podzbioru B. Poziom zgodności wyników dwóch podziałów podzbioru B odzwierciedla poziom stabilności przeprowadzonej klasyfikacji zbioru obiektów.
7. Opis (interpretacja) i profilowanie klas.
Opis (interpretacja) otrzymanych wyników polega na wskazaniu cech charakterystycznych poszczególnych klas oraz wyjaśnieniu, jakimi czynnikami różnią się
wyodrębnione klasy. Podstawą opisu (interpretacji) wyodrębnionych klas są zmienne, które brały udział w procesie klasyfikacji zbioru obiektów.
Do wyznaczenia charakterystyk poszczególnych klas można wykorzystać z pakietu clusterSim funkcję cluster.Description(x,cl,sdType=″sample″). Funkcja ta oblicza osobno dla każdej klasy i zmiennej z ustalonego podziału
zbioru obiektów na klasy cl następujące statystyki opisowe: średnia arytmetyczna (1),
odchylenie standardowe (2), mediana (3), medianowe odchylenie bezwzględne (4),
dominanta (5) (dla zmiennych nominalnych i porządkowych, jeśli występuje
więcej wartości o maksymalnej częstości występowania, zwracana jest wartość
„N.A.”). W odchyleniu standardowym w mianowniku występuje n – 1 dla próby
(sdType=″sample″) i n dla populacji (sdType=″population″).
Jeśli klasyfikacja jest przeprowadzana na podstawie zmiennych mierzonych na
skali porządkowej, to możliwe jest wyznaczenie opisowej (werbalnej) charakterystyki poszczególnych klas dla każdej zmiennej. Można wyznaczyć frakcje i odsetki
występowania w danej klasie poszczególnych kategorii zmiennych. Można też wyznaczyć środki ciężkości poszczególnych klas (mediany obliczone z obserwacji każdej zmiennej porządkowej na podstawie obiektów tworzących daną klasę) oraz medianowe odchylenie bezwzględne zmiennych w poszczególnych klasach.
Uogólniona miara_Walesiak_Księga1.indb 62
2012-02-19 14:56:10
3.1. WYZNACZANIE MACIERZY ODLEGŁOŚCI...
63
Celem profilowania klas jest zaprezentowanie cech charakterystycznych poszczególnych klas pozwalających na wskazanie różnic między nimi. Profilowanie
klas przeprowadza się na podstawie zmiennych, które nie brały udziału w procesie
klasyfikacji zbioru obiektów. Zatem nie w każdym zagadnieniu klasyfikacji przeprowadza się profilowanie klas.
Procedura klasyfikacji spektralnej (por. [Walesiak, Dudek 2009b; 2010b])
obejmuje kolejno następujące kroki (klasyfikacja spektralna dla danych metrycznych zaproponowana została przez autorów Ng, Jordan i Weiss [2002]):
4. Obliczenie symetrycznej macierzy podobieństw A = [Aik]n×n (affinity matrix)
między obiektami, dla której Aii = 0 oraz
Aik = exp(−σ ⋅ dik ) dla i ≠ k,
(3.2)
gdzie: σ – parametr skali,
dik – odległość GDM1 dla danych metrycznych lub GDM2 dla danych porządkowych.
W kroku tym można zastosować do obliczenia elementów macierzy podobieństw
Aik (i ≠ k) estymatory jądrowe (zob. [Karatzoglou 2006, s. 13-14] – funkcja specc
pakietu kernlab; [Poland, Zeugmann 2006]): jądro gaussowskie, jądro wielomianowe, jądro liniowe, jądro w postaci tangensa hiperbolicznego, jądro Bessela, jądro
Laplace’a, jądro ANOVA, jądro łańcuchowe (dla danych tekstowych).
W oryginalnym algorytmie klasyfikacji spektralnej dla danych metrycznych w
pracy [Ng, Jordan, Weiss 2002] zastosowano jądro gaussowskie:
⎛ d2
Aik = exp ⎜ − ik 2
⎝ 2σ
gdzie: d ik =
∑
m
j =1
⎞
⎟ dla i ≠ k,
⎠
(3.3)
( zij − zkj ) 2 ,
zij (zkj) – znormalizowana wartość j-tej zmiennej dla i-tego (k-tego) obiektu.
5. Konstrukcja znormalizowanej macierzy Laplace’a L = D−1/ 2 AD−1/ 2 (D – diagonalna macierz wag, w której na głównej przekątnej znajdują się sumy każdego
wiersza z macierzy A = [Aik], a poza główną przekątną są zera). W rzeczywistości
znormalizowana macierz Laplace’a przyjmuje postać: I – L. Własności tej macierzy
przedstawiono m.in. w pracy [von Luxburg 2006, s. 5]. W algorytmie dla uproszczenia analizy pomija się macierz jednostkową I.
6. Obliczenie wartości własnych i odpowiadających im wektorów własnych
(o długości równej jeden) dla macierzy L. Uporządkowanie wektorów własnych
według malejących wartości własnych. Pierwsze u wektorów własnych (u – liczba
klas) tworzy macierz E = [eij ] o wymiarach n × u.
Podobnie jak w przypadku klasycznym analizy skupień, zachodzi potrzeba ustalenia optymalnej liczby klas. Odpowiedni algorytm zaproponował Girolami [2002].
Uogólniona miara_Walesiak_Księga1.indb 63
2012-02-19 14:56:10
3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGWŚCI GDM ...
64
Macierz podobieństw (affinity matrix) A = [A ik ] (dla a = I) poddawana jest de­
kompozycji A:= UAUT, gdzie U jest macierzą wektorów własnych macierzy A skła­
dającą się z wektorów u p u 2 , .. • ,u n , a Ajest macierzą diagonalną zawierającą war­
tości własne Al' A2 , ... , An'
Obliczany jest wektor K = (kl'k2 , ... ,kn ), gdzie ki ;ql~
(1~
wektor
o wymiarach l x n zawierający wartości l/n). Wektor Kjest porządkowany maleją­
co, a liczba jego dominujących elementów (wyznaczona np. poprzez kryterium osy­
piska) wyznacza optymalną liczbę skupień u, na którą algorytm klasyfikacji spek­
tralnej powinien podzielić zbiór badanych obiektów.
uJ
7. Przeprowadza
elJt.
się nonnali7JłCję macierzy E zgodnie ze wzorem Y. =
e,'
(i = 1, ... , n numer obiektu,):= 1, .,', u numer zmiennej, u liczba klas). Dzięki
tej normalizacji długość każdego wektora wierszowego macierzy Y =[y ij] jest rów­
na jeden.
8. Macierz Y stanowi punkt wyjścia zastosowania klasycznych metod analizy
skupień (proponuje się tutaj wykorzystanie metody k-średnich).
Na rys. 3.2 pokazano wybrane kroki postępowania w klasyfikacji spektralnej
i odpowiadające im skale pomiaru.
Jeśli dane pierwotne X = [xij] mierzone są na skali porządkowej, to w wyniku
zastosowania w funkcji (3.2) odległości GDM2 podobieństwa w macierzy A = [Aik ]
1. Dane pierwotne X = [xij]nxm
(i numer obiektu,} - numer zmiennej)
Pomiar na skali metrycznej
lub porządkowej
~
.
4. Zastosowanie w funkcji (3.2) odległości ODMl (dane metryczne) lub ODM2 (dane porządkowe) do obliczenia macierzy podobieństw
A = [Aik]nxn
Pomiar na skali
przedziałowej
~
6. - obliczenie wartości własnych i odpowiadających im wektorów własnych dla macierzy Laplace'a L - uporządkowanie wektorów własnych według malejących wartości własnych - pierwsze u wektorów własnych (u liczba klas)
tworzy macierz E [eij ]nxm
7. Normalizacja macierzy E długość każdego wektora wierszowego macierzy jest równa jeden 8. Otrzymana po kroku 7 macierz Y jest przekształconą macierzą danych, która stanowi podstawę zastosowania metod analizy skupień Rys. 3.2. Wybrane kroki
postępowania
Źródło: opracowanie własne.
Pomiar na skali
przedziałowej
w klasyfikacji spektralnej i odpowiadające im skale pomiaru
3.1. WYZNACZANIE MACIERZY ODLEGŁOŚCI...
65
mierzone są na skali przedziałowej. Ostatecznie otrzymuje się metryczną macierz
danych Y o wymiarach n × u. Pozwala ona na zastosowanie dowolnych metod analizy skupień (w tym metod bazujących bezpośrednio na macierzy danych, np. metody k-średnich).
Parametr σ ma fundamentalne znaczenie w klasyfikacji spektralnej. W literaturze
zaproponowano wiele heurystycznych sposobów wyznaczania wartości tego parametru (zob. np. [Zelnik-Manor, Perona 2004; Fischer, Poland 2004; Poland, Zeugmann 2006]). W metodach heurystycznych wyznacza się wartość σ na podstawie
pewnych statystyk opisowych macierzy odległości [d ik ] . Lepszy sposób wyznaczania parametru σ zaproponował Karatzoglou [2006]. Poszukuje się takiej wartości
parametru σ, która minimalizuje wewnątrzklasową sumę kwadratów odległości przy
zadanej liczbie klas u. Jest to heurystyczna metoda poszukiwania minimum lokalnego. Zbliżony koncepcyjnie algorytm znajdowania optymalnego parametru σ zaproponowano w pracy [Walesiak, Dudek 2009b]:
Krok 0. Wybierana jest próba bootstrapowa X′ składającą się z n′ obiektów
opisanych wszystkimi m zmiennymi (wartość n′ jest najczęściej dobierana tak, aby
1
′ 3
2 n ≤ n ≤ 4 n ). Początkowy przedział przeszukiwania optymalnej wartości parametru σ ustalany jest jako S0 = [0; D] (gdzie D oznacza sumę odległości dik w macierzy
odległości lub dodatnią liczbę podaną przez badacza).
Krok 1. Przedział Sk (gdzie k oznacza numer iteracji; na początku S k = S0 ) dzielony jest na przedziały jednakowej długości: prk = [ prk ; prk ] , r = 1,… , R (R – liczba
przedziałów w każdej iteracji, np. R = 10).
pk + pk
Krok 2. Dla każdego przedziału prk obliczamy jego środek: σ rk = r 2 r . Dla
wszystkich wartości σ rk przeprowadzana jest klasyfikacja spektralna zbioru X′ na
ustaloną liczbę klas u.
Krok 3. Wybierane jest takie σ rk , dla którego suma odległości wewnątrzklasowych jest minimalna.
Krok 4. Z przedziałem zawierającym wybraną wartość σ rk w kroku 3 przechodzi się do kroku 1 i kontynuuje procedurę do osiągnięcia zadanej liczby iteracji
(domyślnie: 3).
Graficzną prezentację wybranych kroków klasyfikacji spektralnej dla danych
metrycznych przedstawiających strukturę dwóch klas zobrazowano na rys. 3.3. Do
wygenerowania zbioru danych metrycznych wykorzystano funkcję mlbench.
spirals pakietu mlbench (zob. rys. 3.3a). Do klasyfikacji zbioru obiektów zastosowano metodę klasyfikacji spektralnej, wyznaczając w kroku 4 macierz podobieństw zgodnie ze wzorem (3.2) z odległością GDM1. Rysunki 3.3b i 3.3c prezentują odpowiednio obiekty z macierzy E o wymiarach 200 × 2 (krok 6) oraz obiekty
ze znormalizowanej macierzy Y = [ yij ] o wymiarach 200 × 2 (krok 7).
Graficzną prezentację wybranych kroków klasyfikacji spektralnej dla danych
porządkowych przedstawiających strukturę trzech klas zobrazowano na rys. 3.4. Do
Uogólniona miara_Walesiak_Księga1.indb 65
2012-02-19 14:56:11
66
3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
a) graficzna prezentacja zbioru danych
b) zbiór danych w przestrzeni dwóch wektorów
własnych macierzy Laplace’a
c) zbiór danych w przestrzeni dwóch wektorów własnych macierzy Laplace’a po normalizacji
Rys. 3.3. Wybrane etapy klasyfikacji spektralnej dla przykładowego zbioru danych metrycznych
wygenerowanego z wykorzystaniem funkcji mlbench.spirals pakietu mlbench
Źródło: opracowanie własne.
wygenerowania zbioru danych porządkowych wykorzystano funkcję cluster.
Gen pakietu clusterSim (zob. rys. 3.4a). Do klasyfikacji zbioru obiektów zastosowano metodę klasyfikacji spektralnej, wyznaczając w kroku 4 macierz podobieństw zgodnie ze wzorem (3.2) z odległością GDM2. Rysunki 3.4b i 3.4c prezentują odpowiednio obiekty z macierzy E o wymiarach 150 × 3 (krok 6) oraz obiekty
ze znormalizowanej macierz Y = [ yij ] o wymiarach 150 × 3 (krok 7).
Uogólniona miara_Walesiak_Księga1.indb 66
2012-02-19 14:56:12
3.1. WYZNACZANIE MACIERZY ODLEGŁOŚCI...
a) graficzna prezentacja zbioru danych
67
b) zbiór danych w przestrzeni trzech wektorów
własnych macierzy Laplace’a
c) zbiór danych w przestrzeni trzech wektorów własnych macierzy Laplace’a po normalizacji
Rys. 3.4. Wybrane etapy klasyfikacji spektralnej dla przykładowego zbioru danych porządkowych
wygenerowanego z wykorzystaniem funkcji clusterGen pakietu clusterSim
Źródło: opracowanie własne.
Uogólniona miara_Walesiak_Księga1.indb 67
2012-02-19 14:56:12
68
3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
3.2
OCENA PODOBIEŃSTWA WYNIKÓW KLASYFIKACJI
ZBIORU OBIEKTÓW W CZASIE
Problem porównywania wyników dwóch różnych podziałów4 danego zbioru
obiektów zyskał szerokie zainteresowanie w literaturze z zakresu statystycznej analizy wielowymiarowej. Jest on ważny nie tylko z metodologicznego punktu widzenia, ale również z punktu widzenia zastosowań metod klasyfikacji. Na przykład segmenty rynku wyznaczone za pomocą metod klasyfikacji nie są trwałe w czasie (nie
ma jednej segmentacji optymalnej danych rynków; por. [Prymon 1991, s. 43]), zachodzi więc potrzeba sukcesywnego dokonywania segmentacji rynku z użyciem
metod klasyfikacji. Mierniki podobieństwa wyników klasyfikacji zbioru obiektów w
czasie pozwalają w tym przypadku ocenić stopień zmian w wynikach segmentacji.
Ponadto można określić wrażliwość wyników segmentacji na zestaw jej kryteriów.
Mierniki te są stosowane również przy ocenie zmian pozycji produktu w stosunku do produktów konkurencyjnych. W ten sposób firma może sprawdzić, jak zmienia się w czasie usytuowanie na rynku jej produktu w stosunku do produktów konkurencyjnych.
Wykorzystując mierniki podobieństwa klasyfikacji zbioru obiektów w czasie,
możemy ocenić stopień zmian w relatywnie jednorodnych rynkach wykorzystywanych do testowania produktów.
Godne odnotowania propozycje mierników służących do porównywania wyników dwóch różnych podziałów podali: Fowlkes i Mallows [1983]; Goodman i Kruskal [1979]; Hubert i Arabie [1985]; Lerman [1988]; Rand [1971]; Wallace [1983].
W literaturze polskiej propozycje takie przedstawili: Nowak [1985], Sokołowski
[1976] i Szmigiel [1976]. Powstały też prace przeglądowe, w których omówiono
różne propozycje (por. prace Goodmana i Kruskala [1979]; Grabińskiego [1980];
Walesiaka [1985b; 1990a]).
W tej części opracowania zostaną omówione mierniki służące do oceny podobieństwa wyników klasyfikacji zbioru obiektów w czasie. Należy jednak pamiętać,
że mierniki te można z powodzeniem wykorzystać również w innych przypadkach
(np. przy porównywaniu dwóch podziałów otrzymanych w klasyfikacji zbioru obiektów ze względu na dwa różne kryteria klasyfikacji lub to samo kryterium, ale opisane z użyciem innego lub nie w pełni zgodnego zestawu zmiennych).
Dany jest niepusty zbiór obiektów badania A o elementach Ai (i = 1, …, n) oraz
dwie klasyfikacje (dwa podziały) tego zbioru na u i v klas5, otrzymane na podstawie
jednolitej procedury klasyfikacyjnej w odniesieniu do porównywanych okresów t i
q. Podziały P(q) i P(t) są bezpośrednio porównywalne, ponieważ w odniesieniu do obu
porównywanych okresów q i t jednolicie określono:
4
Na przykład dwóch podziałów otrzymanych przy klasyfikacji zbioru obiektów ze względu na
dwa różne kryteria klasyfikacji lub dwóch podziałów zbioru obiektów w dwóch różnych okresach ze
względu na to samo kryterium klasyfikacji.
5
Spełniające warunki zupełności, rozłączności i niepustości.
Uogólniona miara_Walesiak_Księga1.indb 68
2012-02-19 14:56:12
69
3.2. OCENA PODOBIEŃSTWA WYNIKÓW KLASYFIKACJI...
–
–
–
–
zestaw zmiennych opisujących badane obiekty,
formułę normalizacji zmiennych (dla danych metrycznych),
miarę podobieństwa obiektów,
metodę służącą do klasyfikacji zbioru obiektów.
W celu oceny podobieństwa wyników dwóch podziałów zbioru obiektów w czasie konstruuje się tablicę kontyngencji i na tej podstawie otrzymuje się ich klasyfikację krzyżową (por. tab. 3.3). Każdy podział danego zbioru obiektów z okresu t i q
może być traktowany jako określenie pewnej zmiennej mierzonej na skali nominalnej (por. [Kolonko 1980, s. 41]).
W niniejszej pracy ocena podobieństwa wyników klasyfikacji zbioru obiektów
w czasie będzie rozpatrywana w sensie oceny podobieństwa składu wyodrębnionych
klas w obu podziałach. Im bardziej zatem składy klas w obu podziałach, tj. P(q) i P(t),
są do siebie podobne, tym większe jest podobieństwo obu podziałów.
Tabela 3.3. Tablica kontyngencji (klasyfikacja krzyżowa wyników dwóch podziałów)
Podziały
Podział P(q)
Klasy
Podział P(t)
Sumy
P1( t )
P2( t )
...
Pv( t )
P1( q )
n11
n12
...
n1v
n1•
(q)
2
P
n21
n22
...
n2v
n2•
#
Pu( q )
#
nu1
#
nu 2
#
...
#
nuv
#
nu•
n•1
n•2
...
n• v
n•• = n
Sumy
P , P – klasyfikacja (podział zbioru obiektów A w okresie t (q); t < q ),
ns r – liczba obiektów, które jednocześnie należą do klas Pr( t ) i Ps( q ) ,
r = 1,…, v ; s = 1,…, u , v(u ) – liczba klas w podziale P(t)(P(q)),
n• r – liczba obiektów w klasie Pr( t ) (kolumna r),
ns• – liczba obiektów w klasie Ps( q ) (wiersz s).
(t)
(q)
Źródło: opracowanie własne.
Takie sformułowanie problemu powoduje, że z analizy zostają usunięte miary
badające podobieństwo rozkładów warunkowych obu podziałów (tzn. jednego
względem drugiego i odwrotnie). Zagadnienie to zostało szczegółowo omówione w
pracy [Walesiak 1990a]. Do grupy miar badających podobieństwo rozkładów warunkowych obu podziałów można zaliczyć współczynniki: średniej kwadratowej
wielodzielczości ∅ 2 , Pearsona P2, Czuprowa T 2 i Cramera C (por. [Cramer 1958;
Everitt 1979; Goodman, Kruskal 1979, s. 9-10; Grabiński 1980; Ostasiewicz i in.
1998, s. 55-60], Hellwiga H 2 [1975, s. 143], Ostasiewicza D [1975], Goodmana
i Kruskala λ [1979, s. 13]; Szmigla [1976]).
Prawidłowo skonstruowana miara oceny podobieństwa podziałów P(q) i P(t) pod
względem składu wyodrębnionych klas powinna spełniać następujące warunki (por.
[Walesiak 1993a, s. 69-70]):
Uogólniona miara_Walesiak_Księga1.indb 69
2012-02-19 14:56:13
70
3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
1. Winna być łatwa w interpretacji, co prowadzi do postulatu, aby jej wartości
były nieujemne i zawarte w zamkniętym przedziale liczbowym.
2. Największą wartość miara przybiera tylko w odniesieniu do największego
podobieństwa dwóch klasyfikacji, tzn. wtedy i tylko wtedy, gdy są one identyczne.
Sytuacja taka pojawia się w przypadku kwadratowej tablicy kontyngencji, w której
każdej klasie pierwszego podziału odpowiada tylko jedna klasa w podziale drugim.
3. Najmniejszą wartość miara przybiera tylko w odniesieniu do najmniejszego
podobieństwa dwóch klasyfikacji, tzn. wtedy i tylko wtedy, gdy jeden podział zawiera tyle klas, ile jest obiektów, a drugi – jedną klasę zawierającą wszystkie obiekty.
4. Krańcowe granice przedziału zmienności miary zgodności f (P(t); P(q)) – określone w 3 i 4 – powinny być stałe dla danej liczebności zbioru obiektów n (f – postać
analityczna miary podobieństwa).
5. Warunek symetrii:
f (P(t); P(q)) = f (P(q); P(t)).
6. Wartość miary jest niezmienna względem jakiegokolwiek uporządkowania
wierszy lub kolumn w tablicy kontyngencji.
U podstaw konstrukcji miar oceny podobieństwa wyników klasyfikacji zbioru
obiektów w czasie ze względu na skład klas (spełniających warunki 1-6) leżą dwie
koncepcje.
Historycznie rzecz ujmując, pierwsza z koncepcji została zaproponowana przez
Randa [1971]. W tej koncepcji porównuje się zaklasyfikowanie wszystkich par
obiektów w podziałach P(t), P(q) i wyróżnia się cztery typy par obiektów:
typ (I): obiekty tworzące parę znajdują się w tych samych klasach w podziałach
P(t) i P(q);
typ (II): obiekty tworzące parę znajdują się w różnych klasach w podziałach P(t)
(q)
iP ;
typ (III): obiekty tworzące parę znajdują się w różnych klasach w P(q) i w tej samej klasie w P (t ) ;
typ (IV): obiekty tworzące parę znajdują się w tej samej klasie w P(q) i w różnych
klasach w P(t).
Typy (I) i (II) są interpretowane jako pary zgodne w obu klasyfikacjach P(t) i P(q),
natomiast typy (III) i (IV) – jako pary niezgodne. W tab. 3.2 przedstawiono formuły
pozwalające ustalić liczby par obiektów do każdego typu, będące funkcjami n , ns • ,
n• r i nsr .
Widać więc, że podobieństwo dwóch podziałów P(t) i P(q) wzrasta w miarę wzrostu wartości Z.
Na tej podstawie Rand [1971] skonstruował miarę pozwalającą oceniać podobieństwo wyników dwóch podziałów zbioru obiektów w czasie:
⎛n⎞
⎛n⎞
R = Z ⎜ ⎟ = 1− N ⎜ ⎟,
⎝ 2⎠
⎝ 2⎠
gdzie: Z i N są określone wzorami w tab. 3.4.
Uogólniona miara_Walesiak_Księga1.indb 70
(3.4)
2012-02-19 14:56:13
3.2. OCENA PODOBIEŃSTWA WYNIKÓW KLASYFIKACJI...
71
Tabela 3.4. Formuły służące do określania liczby par obiektów
zakwalifikowanych do jednego z czterech typów
Typ
Formuła
u
v
∑∑ n (n
(I)
s =1 r =1
sr
sr
− 1)
(II)
v
1⎡ 2 u v 2 ⎛ u 2
2 ⎞⎤
⎢ n + ∑∑ nsr − ⎜ ∑ ns• + ∑ n• r ⎟⎥
2⎣
s =1 r =1
r =1
⎝ s=1
⎠⎦
(III)
u
v
1⎛ v 2
2 ⎞
⎜ ∑ n• r − ∑∑ nsr ⎟
2 ⎝ r =1
s =1 r =1
⎠
(IV)
u
v
1⎛ u 2
2 ⎞
⎜ ∑ ns• − ∑∑ nsr ⎟
2 ⎝ s=1
s =1 r =1
⎠
v
⎛n⎞ u v 2 1 ⎛ u 2
2 ⎞
⎟ + ∑∑ nsr − ⎜ ∑ ns• + ∑ n• r ⎟
2 ⎝ s=1
r =1
⎠
⎝ 2 ⎠ s=1 r =1
(I ) + (II ) = Z = ⎜
(III ) + (IV ) = N =
v
u
v
1⎛ u 2
2 ⎞
2
⎜ ∑ ns• + ∑ n• r ⎟ − ∑∑ nsr
2 ⎝ s=1
r =1
⎠ s=1 r =1
Źródło: [Hubert, Arabie 1985, s. 196].
Niech Z oznacza ogólną liczbę par zgodnych, a N ogólną liczbę par niezgodnych.
Stąd otrzymujemy:
⎛n⎞
Z + N = ⎜ ⎟,
⎝ 2⎠
(3.5)
⎛n⎞ 1
gdzie: ⎜ ⎟ = n (n − 1) – liczba wszystkich par obiektów określona w zbiorze obiek⎝ 2⎠ 2
tów A.
Przedział zmienności tej miary zaczyna się od 0, kiedy to dwa podziały P(t) i P(q)
są zupełnie niepodobne (jeden podział zawiera tyle klas, ile jest obiektów, a drugi
jedną klasę zawierającą wszystkie obiekty), a kończy na 1, kiedy podziały są identyczne6. Miarę Randa (3.1) interpretuje się jako odsetek par obiektów zgodnych w obu
klasyfikacjach P(t) i P(q) w ogólnej liczbie par obiektów określonych na zbiorze A.
Wadą miary Randa jest to, że wykazuje tendencję do wzrostu wartości w przypadku zwiększania liczby klas (por. [Everitt, Landau, Leese 2001, s. 182]). Hubert i
Arabie [1985, s. 198] zaproponowali skorygowany indeks Randa:
RHA =
R − E ( R)
,
Rmax − E ( R )
(3.6)
gdzie: Rmax – maksymalna wartość miary Randa (Rmax = 1),
Niezależnie analogiczną miarę zaproponował w polskiej literaturze statystycznej Sokołowski
[1976; 1992, s. 82].
6
Uogólniona miara_Walesiak_Księga1.indb 71
2012-02-19 14:56:14
72
3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
E(R) – wartość oczekiwana miary Randa określona wzorem:
2
⎛n ⎞ ⎛n ⎞ ⎛n⎞ ⎡ ⎛n ⎞
⎛ n ⎞⎤ ⎛ n ⎞
E ( R ) = 1 + 2∑ ⎜ • r ⎟ ∑ ⎜ s • ⎟ ⎜ ⎟ − ⎢ ∑ ⎜ • r ⎟ + ∑ ⎜ s • ⎟ ⎥ ⎜ ⎟ .
r ⎝ 2 ⎠ s ⎝ 2 ⎠
⎝ 2 ⎠ ⎣ r ⎝ 2 ⎠ s ⎝ 2 ⎠⎦ ⎝ 2 ⎠
Skorygowana miara Randa przyjmuje postać [Hubert, Arabie 1985, s. 198]:
⎛ nrs ⎞
RHA
⎛ n• r ⎞ ⎛ ns • ⎞ ⎛ n ⎞
⎟∑ ⎜ ⎟ ⎜ ⎟
r ,s ⎝
⎠ r ⎝ 2 ⎠ s ⎝ 2 ⎠ ⎝ 2⎠
=
.
⎛ ns • ⎞ ⎤
⎛ n• r ⎞ ⎛ ns • ⎞ ⎛ n ⎞
1 ⎡ ⎛ n• r ⎞
⎢ ∑ ⎜ ⎟ + ∑ ⎜ ⎟ ⎥ − ∑ ⎜ ⎟∑ ⎜ ⎟ ⎜ ⎟
2 ⎣ r ⎝ 2 ⎠ s ⎝ 2 ⎠⎦ r ⎝ 2 ⎠ s ⎝ 2 ⎠ ⎝ 2 ⎠
∑⎜ 2 ⎟ − ∑⎜
(3.7)
Skorygowana miara Randa RHA przyjmuje wartości z przedziału [–∞; 1]. Miara
RHA = 0, gdy indeks Randa równy jest jego wartości oczekiwanej. Wartość oczekiwana skorygowanej miary Randa wynosi zero. Miara RHA nie spełnia więc części postulatów.
Drugą koncepcję oceny podobieństwa wyników klasyfikacji zbioru obiektów w
czasie ze względu na skład klas zaproponował w polskiej literaturze statystycznej
Nowak [1985]. W tej koncepcji, odmiennie niż w poprzedniej, bada się podobieństwo klas wyodrębnionych w podziałach P(t) i P(q).
Do oceny podobieństwa klas Nowak wykorzystał miarę podobieństwa zbiorów
Czerwińskiej i Gemborzewskiego [1975] o postaci:
k sr =
nsr
,
max{ns • ; n• r }
(3.8)
gdzie: ns • , n• r i nsr – wyjaśnione w tab. 3.1.
Wyniki obu podziałów P(t) i P(q) są tym bardziej zbliżone do siebie, im bardziej
klasy jednego podziału są podobne do klas drugiego podziału. W celu ustalenia podobieństwa podziałów P(t) i P(q), dotyczących każdej klasy otrzymanej w wyniku
podziału pierwszego, wyznacza się najbardziej podobną klasę uzyskaną w wyniku
drugiego podziału. Również w odniesieniu do każdej klasy podziału P(t) wyznacza
się najbardziej podobną klasę w podziale P(q).
Miarę podobieństwa dwóch podziałów P(t) i P(q) Nowak [1985] konstruuje następująco:
v
1 ⎛ u
⎞
(3.9)
S=
max {k sr }+ ∑ max {k sr }⎟ ,
∑
⎜
r
s
v + u ⎝ s =1
r =1
⎠
gdzie: ksr – określone wzorem (3.8),
v (u) – liczba klas w podziale P(t) (P(q)).
Miara podobieństwa podziałów S przybiera wartości z przedziału [1/n; 1], wyklucza więc możliwość otrzymania wartości 0. Postulat, by miara (3.6) przybierała
wartość 0, byłby uzasadniony, gdyby żadna z klas otrzymanych w wyniku jednego
podziału nie miała elementów wspólnych z żadną z klas otrzymanych w wyniku
Uogólniona miara_Walesiak_Księga1.indb 72
2012-02-19 14:56:14
3.3. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM...
73
podziału drugiego. Sytuacja taka jest niemożliwa, gdyż każdy element dowolnej klasy otrzymanej w wyniku jednego podziału jest zawarty w pewnej klasie otrzymanej
w wyniku podziału drugiego.
Miarę S interpretuje się jako średnie podobieństwo najbardziej podobnych klas
podziału P(q) do klas podziału P(t) i odwrotnie.
Ocenę podobieństwa wyników dwóch klasyfikacji zbioru obiektów przeprowadza się m.in. z wykorzystaniem funkcji comparing.Partitions pakietu clusterSim:
comparing.Partitions(cl1,cl2,type=″nowak″)
gdzie: cl1 (cl2) – wektor zawierający numery skupień, do których zaklasyfikowano obiekty w pierwszym podziale (w drugim podziale),
type – typ indeksu,
″nowak″ – indeks Nowaka, ″rand″ – indeks Randa, ″crand″ – skorygowany indeks Randa.
3.3
UOGÓLNIONA MIARA ODLEGŁOŚCI GDM JAKO SYNTETYCZNY
MIERNIK ROZWOJU W METODACH PORZĄDKOWANIA LINIOWEGO
Zadaniem metod porządkowania liniowego zbioru obiektów jest uszeregowanie,
czyli ustalenie kolejności obiektów lub ich zbiorów według określonego kryterium.
Metody te mogą być zatem stosowane wtedy, gdy przyjmie się pewne nadrzędne
kryterium, ze względu na które będzie można uporządkować obiekty od „najlepszego” do „najgorszego”. Narzędziem metod porządkowania liniowego jest syntetyczny miernik rozwoju (SMR), będący pewną funkcją agregującą informacje cząstkowe
zawarte w poszczególnych zmiennych i wyznaczoną dla każdego obiektu ze zbioru
obiektów A.
Przeprowadzenie porządkowania liniowego zbioru obiektów wymaga spełnienia
następujących założeń (por. [Abrahamowicz 1985; Walesiak 1993a, s. 73]):
a) dany jest co najmniej dwuelementowy i skończony zbiór obiektów
n
A = {Ai }1 = {A1 ,… , An };
b) istnieje pewne nadrzędne syntetyczne kryterium porządkowania elementów
zbioru A, które nie podlega pomiarowi bezpośredniemu (np. poziom rozwoju badanego produktu na tle produktów konkurencyjnych, poziom uprzemysłowienia województw, poziom rozwoju infrastruktury technicznej w miastach);
c) dany jest skończony zbiór zmiennych merytorycznie związany z syntetycznym kryterium porządkowania; zmienne mają charakter preferencyjny, tzn. wyróżnia się wśród nich stymulanty, destymulanty i nominanty;
d) zmienne służące do opisu obiektów są mierzone przynajmniej na skali porządkowej (ze względu na to, że porządkowanie obiektów staje się możliwe, gdy
Uogólniona miara_Walesiak_Księga1.indb 73
2012-02-19 14:56:14
74
3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
dopuszczalne jest określenie na wartościach zmiennych przynajmniej relacji większości i mniejszości). Jeśli zmienne opisujące obiekty mierzone są na skali przedziałowej i (lub) ilorazowej, to należy sprowadzić je do porównywalności poprzez normalizację;
e) relacją porządkującą elementy zbioru A jest relacja większości lub mniejszości, dotycząca liczbowych wartości syntetycznego miernika rozwoju.
W odniesieniu do zagadnienia porządkowania liniowego wypracowano wiele
konstrukcji SMR. Formuły agregacji wartości zmiennych można ogólnie podzielić
na bezwzorcowe i wzorcowe (por. np. [Grabiński 1984, s. 38]). W formułach bezwzorcowych następuje uśrednienie znormalizowanych wartości zmiennych z udziałem przyjętych wag. Formuły wzorcowe są różnego rodzaju odległościami poszczególnych obiektów od obiektu wzorcowego, którym w badaniach empirycznych jest
na ogół tzw. dolny bądź górny biegun rozwoju (por. np. [Borys 1984, s. 281-282;
Hellwig 1968]). W wyniku agregacji wartości zmiennych powstaje zmienna syntetyczna. Omówienie różnych konstrukcji SMR przedstawiono m.in. w pracach [Bąk
1999, s. 60-64; Walesiak 1990b; 1996, s. 127-129].
A. Procedura porządkowania liniowego zbioru obiektów
z wykorzystaniem odległości GDM1 dla danych metrycznych
– funkcja pattern.GDM1 pakietu clusterSim
Procedura porządkowania liniowego zbioru obiektów z wykorzystaniem odległości GDM1 dla danych metrycznych obejmuje następujące kroki:
1. Punktem wyjścia jest macierz danych [xij], gdzie xij oznacza wartość j-tej
zmiennej metrycznej w i-tym obiekcie.
2. Badacz wyróżnia, biorąc pod uwagę syntetyczne kryterium porządkowania
elementów zbioru obiektów, zmienne stymulanty (″s″), destymulanty (″d″) i nominanty (″n″) oraz podaje wartości nominalne dla nominant, np.
performanceVariable=c(″s″,″s″,″n″,″d″,″d″,″n″)
nomOptValues=c(NA,NA,5.2,NA,NA,3.5)
3. Badacz określa, czy zmienne:
a) mierzone są tylko na skali ilorazowej – ratio (scaleType=″r″),
b) mierzone są tylko na skali przedziałowej – interval (scaleType=″i″),
c) są mieszane – ratio and interval: część jest mierzona na skali ilorazowej, a część
na skali przedziałowej (scaleType=c(″i″,″r″,″i″,″i″,″r″,″r″)).
4. Nominanty zostają przekształcone na stymulanty z wykorzystaniem takich
formuł, jak:
a) ilorazowa – quotient (dla zmiennych ze skali ilorazowej: nominalTransfMethod=″q″): formuła (1.10),
b) różnicowa – difference (dla zmiennych mierzonych na skali ilorazowej
lub przedziałowej: nominalTransfMethod=″d″): formuła (1.11).
Uogólniona miara_Walesiak_Księga1.indb 74
2012-02-19 14:56:14
75
3.3. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM...
Formuła
transformacji
Skala pomiaru nominant
a) tylko ilorazowa
Skala pomiaru zmiennych
po transformacji
quotient
ilorazowa
difference przedziałowa
difference przedziałowa
b) tylko przedziałowa
c) mieszane:
quotient
– dla zmiennych mierzonych na skali ilorazowej
ilorazowa
– dla zmiennych mierzonych na skali przedziałowej difference przedziałowa
– obie grupy zmiennych (ilorazowe i interwałowe) difference przedziałowa
5. Normalizacja wartości zmiennych. Otrzymujemy znormalizowaną macierz
danych [zij], gdzie zij oznacza znormalizowaną wartość j-tej zmiennej w i-tym obiekcie.
Dozwolone formuły normalizacyjne dla danych metrycznych
ilorazowa
ilorazowa
przedziałowa
lub mieszane (ilorazowa/
przedziałowa)
Formuła normalizacji
n6 – n11
n1 – n5
n1 – n5
Skala pomiaru zmiennych po normalizacji
ilorazowa
Skala pomiaru zmiennych pierwotnych
przedziałowa przedziałowa
6. Obiektem−wzorcem w badaniach empirycznych jest górny bądź dolny biegun
rozwoju.
6.1. Górny biegun rozwoju – współrzędne wzorca (patternType=″upper″)
stanowią najkorzystniejsze wartości zmiennych stymulant i destymulant:
a. patternCoordinates=″dataBounds″ – współrzędne obiektu−wzorca
dla stymulanty i destymulanty to odpowiednio wartość maksymalna i minimalna w
zbiorze danych,
b. patternCoordinates=″manual″ – współrzędne obiektu−wzorca badacz podaje sam w pliku patternManual.
6.2. Dolny biegun rozwoju – współrzędne wzorca (patternType=″lower″)
stanowią najmniej korzystne wartości zmiennych stymulant i destymulant:
a. patternCoordinates=″dataBounds″ – współrzędne obiektu−wzorca
dla stymulanty i destymulanty to odpowiednio wartość minimalna i maksymalna w
zbiorze danych,
b. patternCoordinates=″manual″ – współrzędne obiektu−wzorca badacz podaje sam w pliku patternManual.
7. W przypadku zastosowania miary odległości GDM1 z wagami zróżnicowanymi (weightsType=″different1″ lub weightsType=″different2″)
należy podać wektor wag (weights) wj spełniających warunki: w j ∈ [0;1],
∑
m
j =1
w j = 1 lub w j ∈ [0; m],
Uogólniona miara_Walesiak_Księga1.indb 75
∑
m
j =1
wj = m .
2012-02-19 14:56:14
76
3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
8. Wyznacza się odległości poszczególnych obiektów od obiektu−wzorca za pomocą uogólnionej miary odległości GDM1 dla danych metrycznych:
m
∑w a
d iw =
1
−
2
j
j =1
m
n
b + ∑ ∑ w j ailj bwlj
iwj wij
j =1 l =1
l ≠i ,k
⎡
2 ⎤
2 ⎢ ∑∑ w j ailj2 ⋅ ∑∑ w j bwlj
⎥
j =1 l =1
⎣ j =1 l =1
⎦
m
n
m
n
1
2
,
(3.10)
gdzie: diw – miara odległości GDM1 obiektu i-tego od obiektu−wzorca w,
p = w, l ; r = i, l ; i, l = 1,… , n – numer obiektu,
w – numer obiektu−wzorca, j = 1, …, m – numer zmiennej,
wj – waga j-tej zmiennej,
aipj = xij − x pj
bwrj = xwj − xrj
dla
dla
p = w, l ,
r = i, l ,
(3.11)
xij ( xlj ) – i-ta (l-ta) obserwacja na j-tej zmiennej.
9. Porządkujemy elementy zbioru obiektów A według rosnących wartości odległości GDM1 (górny biegun rozwoju) lub według malejących wartości odległości
GDM1 (dolny biegun rozwoju).
10. Prezentacja graficzna wyników porządkowania liniowego zbioru obiektów A.
B. Procedura porządkowania liniowego zbioru obiektów
z wykorzystaniem odległości GDM2 dla danych porządkowych
– funkcja pattern.GDM2 pakietu clusterSim
Procedura porządkowania liniowego zbioru obiektów z wykorzystaniem odległości GDM2 dla danych porządkowych obejmuje następujące kroki:
1. Punktem wyjścia jest macierz danych [xij], gdzie xij oznacza obserwację j-tej
zmiennej porządkowej w i-tym obiekcie.
2. Badacz wyróżnia, biorąc pod uwagę syntetyczne kryterium porządkowania
elementów zbioru obiektów, zmienne stymulanty, destymulanty i nominanty. Dla
kategorii poszczególnych typów zmiennych porządkowych badacz określa porządek, np.:
– dla stymulanty „poziom wykształcenia” obejmującej kategorie podstawowe,
średnie i wyższe porządek jest następujący (w nawiasach podano kody): podstawowe (1) < średnie (2) < wyższe (3),
– dla destymulanty „położenie nieruchomości gruntowej, z którą związany jest
lokal mieszkalny, w strefie miasta” obejmującej kategorie centralna, śródmiejska, pośrednia i peryferyjna porządek jest następujący: centralna (1) > śródmiejska (2) > pośrednia (3) > peryferyjna (4),
Uogólniona miara_Walesiak_Księga1.indb 76
2012-02-19 14:56:14
3.3. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM...
77
–
dla nominanty „położenie lokalu mieszkalnego w budynku 4-piętrowym bez
windy” porządek jest następujący: parter (1) < I piętro (2) > II piętro (3) > III
piętro (4) > IV piętro (5) – kategoria nominalna: I piętro.
performanceVariable=c(″s″,″s″,″s″,″d″,″d″,″n″)
nomOptValues=c(NA,NA,NA,NA,NA,3)
3. Obiektem−wzorcem w badaniach empirycznych jest górny bądź dolny biegun
rozwoju.
3.1. Górny biegun rozwoju obejmuje najkorzystniejsze kategorie zmiennych stymulant, destymulant i nominant. Współrzędne obiektu−wzorca wyznacza się następująco:
a. patternCoordinates=″dataBounds″ – biorąc pod uwagę kryteria
merytoryczne, badacz określa współrzędne dla każdej nominanty, a dla stymulant
i destymulant są to kategorie odpowiednio maksymalna i minimalna spośród obserwowanych w zbiorze danych,
b. patternCoordinates=″manual″ – dla stymulant, destymulant i nominant badacz określa współrzędne, biorąc pod uwagę kryteria merytoryczne.
3.2. Dolny biegun rozwoju – współrzędne wzorca stanowią najmniej korzystne
kategorie zmiennych.
W kroku wstępnym zamienia się nominanty na destymulanty z wykorzystaniem
metod:
– metoda I z powtórzeniami (d-database). Osobno dla każdej nominanty oblicza się odległości GDM2 każdej obserwowanej kategorii od kategorii najkorzystniejszej (nominalnej). Następnie poszczególne kategorie zmiennej są zastępowane przez odpowiednie odległości,
– metoda II bez powtórzeń (s-symmetrical). Dla każdej nominanty ustala się
typy kategorii (np. (1, 2, 3, 4, 5) lub (12, 17, 34, 45, 49)) występujące w zbiorze
obserwacji oraz kategorię najkorzystniejszą (np. 3 lub 34). Oblicza się odległości GDM2 ustalonych i niepowtarzających się kategorii od kategorii najkorzystniejszej (3 lub 34). Wszystkie kategorie w zbiorze danych są zastępowane przez
odpowiednie odległości.
Współrzędne obiektu−wzorca wyznacza się następująco:
a. patternCoordinates=″dataBounds″ – dla stymulanty i destymulanty jest to kategoria odpowiednio minimalna i maksymalna spośród obserwowanych
w zbiorze danych, dla nominanty zaś współrzędną wzorca rozwoju jest największa
z odległości GDM2 (po przekształceniu nominanty na destymulantę),
b. patternCoordinates=″manual″ – dla stymulanty i destymulanty badacz określa współrzędne, biorąc pod uwagę kryteria merytoryczne, dla nominanty
zaś współrzędną wzorca rozwoju jest największa z odległości GDM2 (po przekształceniu nominanty na destymulantę).
4. W przypadku zastosowania miary odległości GDM2 z wagami zróżnicowanym
mi należy podać wagi wj spełniające warunki: w j ∈ [0;1], ∑ j =1 w j = 1 lub w j ∈ [0; m],
m
∑ j =1 w j = m.
Uogólniona miara_Walesiak_Księga1.indb 77
2012-02-19 14:56:15
78
3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
5. Wyznacza się odległości poszczególnych obiektów od obiektu−wzorca za pomocą uogólnionej miary odległości GDM2 dla danych porządkowych o postaci:
m
∑w a
d iw =
1
−
2
j
j =1
m
n
b + ∑ ∑ w j ailj bwlj
iwj wij
j =1 l =1
l ≠i ,k
⎡
2 ⎤
2 ⎢ ∑∑ w j ailj2 ⋅ ∑∑ w j bwlj
⎥
j =1 l =1
⎣ j =1 l =1
⎦
m
n
m
n
1
2
,
(3.12)
gdzie: diw – miara odległości GDM2 obiektu i-tego od obiektu−wzorca w,
p = w, l ; r = i, l ; i, l = 1,… , n – numer obiektu,
w – numer obiektu−wzorca, j = 1, …, m – numer zmiennej,
wj – waga j-tej zmiennej,
⎧ 1 dla
⎪
aipj (bwrj ) = ⎨ 0 dla
⎪−1 dla
⎩
xij > x pj (xwj > xrj ),
xij = x pj (xwj = xrj ),
xij < x pj (xwj < xrj ).
(3.13)
6. Porządkujemy elementy zbioru obiektów A według rosnących wartości odległości GDM2 (górny biegun rozwoju) oraz według malejących wartości odległości
GDM2 (dolny biegun rozwoju).
7. Prezentacja graficzna wyników porządkowania liniowego zbioru obiektów A.
3.4
OCENA PODOBIEŃSTWA WYNIKÓW PORZĄDKOWANIA
LINIOWEGO ZBIORU OBIEKTÓW W CZASIE
Problem porównywania wyników dwóch różnych uporządkowań danego zbioru
obiektów jest ważny nie tylko z metodologicznego punktu widzenia, ale również
z punktu widzenia zastosowań metod porządkowania liniowego.
Mierniki podobieństwa dwóch uporządkowań zbioru obiektów w czasie znajdują zastosowanie w ocenie zmian pozycji produktu w stosunku do produktów konkurencyjnych. W ten sposób firma może sprawdzić, jak zmienia się w czasie usytuowanie na rynku jej produktu w stosunku do produktów konkurencyjnych. Badania tego
typu mogą być prowadzone również w odniesieniu do innych obiektów (np. przedsiębiorstw, krajów), pozwalają one bowiem na określenie oddalenia międzyokresowego badanego obiektu (obiektów) na tle obiektów konkurencyjnych lub przemieszczenia w hierarchii obiektów w miarę upływu czasu.
Ocena podobieństwa dwóch różnych uporządkowań obiektów może być przeprowadzana w ujęciu statycznym. W procesie postępowania konsumenta przy zakupie dóbr i usług istotną fazą jest ocena wariantów produktów przez konsumenta.
Otrzymujemy wtedy dla każdego konsumenta różne uporządkowania badanych
Uogólniona miara_Walesiak_Księga1.indb 78
2012-02-19 14:56:15
3.4. OCENA PODOBIEŃSTWA WYNIKÓW PORZĄDKOWANIA...
79
produktów. Oceniając podobieństwo uporządkowań produktów, możemy określić,
w jakim stopniu konsumenci różnią się między sobą.
Ocenę podobieństwa wyników porządkowania liniowego zbioru obiektów w czasie przeprowadza się na podstawie wartości zmiennych syntetycznych. Walesiak
[1993c] zaproponował dwa mierniki podobieństwa zbioru obiektów w czasie, których stosowanie zależy od skali pomiaru wartości zmiennych syntetycznych. Konstrukcja pierwszego z nich (wykorzystująca ideę miernika rzędu dokładności prognoz
typu ex post H. Theila) zakłada, że wartości zmiennych syntetycznych są mierzone na
skali ilorazowej lub przedziałowej. Za jego pomocą mierzy się zmiany w czasie w
wartościach porównywanych zmiennych syntetycznych, a więc mierzy się oddalenie
międzyokresowe obiektów. Cenną zaletą tego miernika jest to, że można go rozłożyć
na sumę kilku składników, mających jasną interpretację, jeśli idzie o rząd i charakter
odchyleń w wartościach porównywanych zmiennych syntetycznych.
Wykorzystanie drugiego z nich, będącego współczynnikiem korelacji tau Kendalla, zakłada, że wartości zmiennych syntetycznych są mierzone na skali porządkowej. Współczynnik ten pozwala mierzyć stopień podobieństwa dwóch uporządkowań obiektów, wskazując na stopień przemieszczenia w hierarchii obiektów
w miarę upływu czasu.
Dany jest niepusty zbiór obiektów badania A o elementach Ai (i = 1, …, n). Niech
pit i piq (t, q = 1, …, T), wyznaczone za pomocą syntetycznego miernika rozwoju
(SMR), oznaczają wartości zmiennych syntetycznych odpowiednio Mt i Mq ustalone
dla i-tego obiektu w porównywanych okresach t i q.
Wartości zmiennych syntetycznych Mt i Mq są ze sobą bezpośrednio porównywalne, wyznaczono je bowiem za pomocą tej samej konstrukcji SMR i na podstawie
tego samego zespołu zmiennych.
Całe postępowanie porządkowania liniowego zbioru obiektów, na podstawie
którego wyznacza się wartości zmiennych syntetycznych Mt i Mq, jest jednolite
w odniesieniu do obu porównywanych okresów. Postępowanie to obejmuje:
a) dla bezwzorcowych formuł ujednolicenie charakteru zmiennych będących
przedmiotem agregacji poprzez formuły zamiany destymulant i nominant na stymulanty (dla formuł wzorcowych na ogół zachodzi potrzeba zamiany nominant na stymulanty),
b) wprowadzenie niemianowania wartości zmiennych i ujednolicenie rzędów
ich wielkości poprzez normalizację (normalizacja dotyczy zmiennych ze wspólnej
macierzy danych z okresów t i q),
c) ustalenie jednego wspólnego wzorca (dla formuł wzorcowych) na podstawie
macierzy obejmującej dane z okresów t i q,
d) konstrukcję SMR, obejmującą ustalenie postaci analitycznej SMR, systemu
wag oraz formy wprowadzenia tego systemu do SMR.
Najpierw zostanie przedstawiona konstrukcja miernika podobieństwa zbioru
obiektów w czasie, oparta na wartościach zmiennych syntetycznych Mt i Mq, mierzonych na skali przedziałowej lub ilorazowej. Zakłada się, że miernik będzie mierzył
nie tylko rząd odchyleń od wartości porównywanych zmiennych syntetycznych Mt
i Mq, ale również rząd odchyleń będący rezultatem [Walesiak 1993c]:
Uogólniona miara_Walesiak_Księga1.indb 79
2012-02-19 14:56:15
80
3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
1) różnicy między średnimi wartościami zmiennych syntetycznych Mt i Mq,
2) różnicy w dyspersji wartości zmiennych syntetycznych Mt i Mq,
3) niezgodności kierunku zmian wartości zmiennych syntetycznych Mt i Mq.
Miernik mający te wszystkie cechy przybiera następującą postać:
2
1 n
pit − piq ) .
(3.14)
(
∑
n i =1
Miernik (3.14) przyjmuje wartość 0 wtedy, gdy nie ma żadnych różnic w wartościach zmiennych syntetycznych Mt i Mq. Pierwiastek kwadratowy z wyrażenia
(3.12) informuje, jaki jest przeciętny rząd odchyleń wartości porównywanych zmiennych syntetycznych z okresów t i q.
Wielkość wyrażoną wzorem (3.14) można rozłożyć na sumę trzech składników:
W 2 (M t , M q )= Wtq2 =
Wt 2q = W12 + W22 + W32 ,
(3.15)
pozwalających określić bliżej „rząd” i „charakter” różnic w wartościach zmiennych
syntetycznych Mt i Mq.
Mierniki cząstkowe W12 , W22 i W32 (niosące informacje, o których mowa w
punktach 1, 2 i 3) określają wzory:
W12 = (p• t − p• q ) ,
(3.16)
W22 = (St − S q ) ,
(3.17)
W32 = 2 St S q (1 − r ),
(3.18)
2
2
gdzie: p• t , St (p• q , S q ) − odpowiednio średnia arytmetyczna i odchylenie standardowe wartości t-tej (q-tej) zmiennej syntetycznej;
r – współczynnik korelacji liniowej Pearsona między p •t = ( p1t ,… , pnt )
i p •. q = (p1q ,… , pnq ).
Rozbicie wzoru (3.14) na trzy składniki zostało zaczerpnięte ze wzoru Theila na
miernik rzędu dokładności prognozy typu ex post (por. [Pawłowski 1973, s. 119;
Zeliaś 1984, s. 184]).
Jeśli wartości zmiennej syntetycznej są mierzone na skali porządkowej lub świadomie zdecydujemy się na utratę informacji i otrzymane wartości pit i piq zmiennych
syntetycznych Mt i Mq potraktujemy tak, jakby były mierzone na skali porządkowej,
to stosując współczynnik tau Kendalla o postaci (2.1) z podstawieniem (2.4), możemy ocenić podobieństwo uporządkowań zbioru obiektów w miarę upływu czasu
(por. [Walesiak 1991; 1993c]).
Można zadać pytanie, dlaczego w pracy preferuje się współczynnik tau Kendalla, a nie powszechnie znany i stosowany współczynnik korelacji rang Spearmana.
Współczynnik korelacji rang Spearmana jest w szczególny sposób transformowa-
Uogólniona miara_Walesiak_Księga1.indb 80
2012-02-19 14:56:15
3.4. OCENA PODOBIEŃSTWA WYNIKÓW PORZĄDKOWANIA...
81
nym współczynnikiem korelacji liniowej Pearsona, w którym wykorzystuje się specyfikę kolejnych n liczb naturalnych (por. np. [Steczkowski, Zeliaś 1981, s. 160-162;
1997, s. 186-189]).
PRZYKŁAD
Dane są uporządkowania pięciu produktów w kolejnych trzech okresach
t = 1, 2, 3 :
t=1
1
2
3
4
5
t=2
3
4
2
1
5
t=3
4
5
1
3
2
Zgodność uporządkowań produktów z okresów t = 1 i t = 2 oraz t = 2 i t = 3
oceniono za pomocą współczynnika korelacji rang Spearmana oraz tau Kendalla
i otrzymano wyniki:
rS (1, 2) = 0 ,1 i rS (2,3) = 0, 2,
K12 = 0 i K 23 = 0, 2.
Między tymi współczynnikami zachodzi relacja
rS (1, 2) < rS (2,3),
K12 < K 23 .
Do wyników pomiaru zastosowano dopuszczalne przekształcenie (2.2) na skali
porządkowej (f(y) = y2), zachowujące ustalony porządek wyników pomiarów. Uzyskane wyniki nie mają wcześniej stwierdzonej własności tylko w odniesieniu do
współczynnika korelacji rang Spearmana, ponieważ
rS′ (1, 2) = −21,9 > rS′ (2,3) = −32, 2,
K12 = 0 < K 23 = 0, 2.
Współczynnika korelacji Spearmana nie można stosować do oceny podobieństwa uporządkowań zbioru obiektów w miarę upływu czasu (nie zapewnia on bowiem wyników niezmiennych względem dopuszczalnych przekształceń na skali
porządkowej).
Współczynnik ten nie jest typową miarą korelacji rang, stosując go bowiem,
zakłada się, że odległości pomiędzy sąsiednimi rangami są sobie równe (na skali
porządkowej odległości między dowolnymi dwiema rangami nie są znane). Założenie to oznacza, że można go wykorzystywać, gdy mamy do czynienia nie z pomiarem porządkowym, ale z pomiarem co najmniej przedziałowym.
Uogólniona miara_Walesiak_Księga1.indb 81
2012-02-19 14:56:16
4
UOGÓLNIONA MIARA ODLEGŁOŚCI GDM
W ŚWIETLE WYBRANYCH
EKSPERYMENTÓW SYMULACYJNYCH
4.1
LOSOWE GENEROWANIE DANYCH O ZNANEJ STRUKTURZE KLAS
W PAKIECIE clusterSim1
Sprawdzenie przydatności wielu metod analizy danych wymaga ich przetestowania na losowo wygenerowanych danych o znanej strukturze klas. W literaturze
przedmiotu znane są propozycje generowania danych:
a) o znanej strukturze klas, w których położenie i jednorodność skupień zadaje
się za pomocą wektorów wartości przeciętnych (środki ciężkości skupień) i macierzy kowariancji (rozproszenie obiektów) – zob. np. prace: [Atlas, Overall 1994; Milligan 1985],
b) zawierających skupienia o zadanym stopniu separowalności – zob. prace:
[Qiu, Joe 2006; Steinley, Henson 2005].
W dalszej części zaprezentowana zostanie funkcja cluster.Gen pakietu
clusterSim (zob. [Walesiak, Dudek 2011]), służąca do losowego generowania
zbiorów danych o znanej strukturze klas. Ma ona następujące zalety:
– pozwala na generowanie danych metrycznych (ilorazowych i przedziałowych),
porządkowych oraz symbolicznych przedziałowych dla danej liczby wymiarów
(zmiennych), np. pięciu skupień w przestrzeni trójwymiarowej,
– położenie i jednorodność skupień zadaje się za pomocą wektorów wartości przeciętnych (środki ciężkości skupień) i macierzy kowariancji (rozproszenie obiektów),
– istnieje możliwość wygenerowania klas o różnej gęstości i kształcie,
– istnieje możliwość uwzględnienia zmiennych zakłócających strukturę klas (noisy variables) oraz obserwacji odstających (outliers).
Składnię funkcji cluster.Gen z pakietu clusterSim prezentuje tab. 4.1.
Zdecydowana większość funkcji programu R zwraca złożone obiekty lub listy
zawierające wiele informacji wygenerowanych przez wykonywany algorytm. Funkcja cluster.Gen zwraca następujące informacje:
1
Podrozdział ten opracowano na podstawie artykułu [Walesiak 2009a].
Uogólniona miara_Walesiak_Księga1.indb 82
2012-02-19 14:56:16
4.1. LOSOWE GENEROWANIE DANYCH O ZNANEJ STRUKTURZE KLAS...
clusters
data
83
numer skupienia dla każdego obiektu. Dla modelu pierwszego (model=1),
w którym nie ma struktury klas, funkcja clusters zwraca numery obiektów
wygenerowane dane: dla danych metrycznych i porządkowych – macierz
(w wierszach obiekty, a w kolumnach zmienne); dla danych symbolicznych
przedziałowych trójwymiarowa struktura: pierwszy wymiar oznacza numer obiektu,
drugi wymiar – numer zmiennej, a trzeci – dolny i górny kraniec przedziału
Tabela 4.1. Charakterystyka składni funkcji cluster.Gen z pakietu clusterSim
cluster.Gen(numObjects=50,means=NULL,cov=NULL,fixedCov=TRUE,
model=1,dataType=″m″,numCategories=NULL,numNoisyVar=0,
numOutliers=0,rangeOutliers=c(1,10),inputType=″csv2″,
inputHeader=TRUE,inputRowNames=TRUE,outputCsv=″″,
outputCsv2=″″,outputColNames=TRUE,outputRowNames=TRUE)
numObjects
liczba obiektów w każdym skupieniu – dodatnia liczba całkowita lub wektor o tym
samym rozmiarze jak nrow(means), np. numObjects=c(50,20)
means
macierz wartości oczekiwanych (np. means=matrix(c(0,8,0,8),2,2)).
Jeżeli means=NULL, to macierz należy wczytać z pliku means_<modelNumber>.
csv file
cov
macierz kowariancji taka sama dla wszystkich skupień, np.
cov=matrix(c(1,0,0,1),2,2). Jeżeli cov=NULL, to macierz
kowariancji należy wczytać z pliku cov_<modelNumber>.csv file
model
numery modeli:
model=1 – brak struktury klas
model=2 – wartości przeciętne oraz kowariancje odczytane z argumentów
means i cov
model=3,4,...,20 – przykładowe modele z zadanymi wektorami wartości
przeciętnych i macierzami kowariancji
model=21,22,... – jeżeli fixedCov=TRUE, to wektory wartości
przeciętnych means należy wczytać z pliku means_<modelNumber>.csv,
a macierz kowariancji z pliku cov_<modelNumber>.csv. Jeżeli
fixedCov=FALSE, to means należy wczytać z pliku
means_<modelNumber>.csv, a macierze kowariancji dla poszczególnych
skupień z plików cov_<modelNumber>_<clusterNumber>.csv
fixedCov
fixedCov=TRUE – macierze kowariancji dla wszystkich skupień są jednakowe
fixedCov=FALSE – macierze kowariancji dla skupień są zróżnicowane
dataType
″m″ – dane metryczne (ilorazowe, przedziałowe), ″o″ – dane porządkowe, ″s″
– dane symboliczne przedziałowe
numCateliczba kategorii (tylko dla danych porządkowych). Dodatnia liczba całkowita lub
gories
wektor o rozmiarze: ncol(means) plus liczba zmiennych zakłócających
numNoisyVar liczba zmiennych zakłócających strukturę klas (gdy model=1 numNoisyVar
oznacza liczbę zmiennych)
numOutliers liczba obiektów odstających. Dodatnia liczba całkowita oznacza liczbę obiektów
odstających, a wartość z przedziału <0,1> odsetek z całego zbioru obiektów
rangerozstęp dla obiektów odstających dla każdego wymiaru (zmiennej) z osobna
Outliers
(domyślnie [1, 10])
...
pozostałe argumenty dotyczą sposobu wczytywania i zapisywania
Źródło: opracowanie własne na podstawie dokumentacji pakietu clusterSim.
Uogólniona miara_Walesiak_Księga1.indb 83
2012-02-19 14:56:16
84
4. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM...
Dane metryczne (dataType=″m″) generowane są z wielowymiarowego rozkładu normalnego, w którym położenie i jednorodność skupień zadaje się za pomocą
wektorów wartości przeciętnych (środki ciężkości skupień) i macierzy kowariancji
(rozproszenie obiektów) – zob. [Grabiński, Wydymus, Zeliaś 1989, s. 141-146]. Tylko dla modelu 1, w którym nie ma w zbiorze danych struktury klas, obserwacje generowane są z rozkładu jednostajnego dla jednostkowej hiperkostki o liczbie wymiarów (zmiennych) podanych w numNoisyVar.
Funkcja cluster.Gen zawiera 14 wbudowanych przykładowych modeli
(oznaczonych w pakiecie numerami 3-16), z zadanymi wektorami wartości przeciętnych i macierzami kowariancji, różniących się (zob. tab. 4.2):
– liczbą skupień i liczbą zmiennych (wymiarów) (known number of true clusters
and true dimensions),
– gęstością skupień (cluster density), tj. liczebnością obiektów w klasach,
– kształtem skupień (shape of clusters). Tak więc modele 3-5 zawierają skupienia
wydłużone, modele 6 i 7 – skupienia wydłużone i słabo separowalne, modele
8-11 skupienia o kształcie normalnym. Modele 13-16 zawierają zróżnicowane
macierze kowariancji dla poszczególnych skupień, co oznacza różne kształty dla
poszczególnych skupień. Model 12 jest nietypowy, z jego wykorzystaniem generuje się bowiem dane zawierające cztery klasy dla jednej zmiennej.
Tabela 4.2. Charakterystyka modeli w funkcji cluster.Gen pakietu clusterSim
Model v cl
Środki ciężkości klas
Macierz kowariancji ∑
ks
1
3
2 3
2 2
4
(0; 0), (1; 5)
5
σjj = 1 (1 ≤ j ≤ 2), σ12 = –0,9
6
1
4
2 3
(0; 0), (1,5; 7) (3; 14)
σjj = 1 (1 ≤ j ≤ 2), σ12 = –0,9
1
1
5
3 3
(1,5; 6, – 3), (3; 12; –6)
(4,5; 18; –9)
σjj = 1 (1 ≤ j ≤ 3),
σ12 = σ13 = –0,9, σ23 = 0,9
6
2 5
(5; 5), (–3; 3), (3; –3),
(0; 0), (–5; –5)
σjj = 1, σjl = 0,9 (1 ≤ j ≤ 2)
7
3 5 (5; 5; 5), (–3; 3; –3), (3; –3;
3), (0; 0, 0), (–5; –5, –5)
8
2 5
(0, 0), (0, 10), (5, 5),
(10, 0), (10, 10)
σjj = 1, σjl = 0 (1 ≤ j ≤ 2)
9
3 5
(0, 0, 0), (10, 10, 10),
(–10, –10, –10),
(10, –10, 10), (–10, 10, 10)
σjj = 3 (1 ≤ j ≤ 3),
σjl = 2 (1 ≤ j ≠ l ≤ 3)
10
2 4
(–4; 5), (5; 14), (14; 5),
(5; –4)
σjj = 1, σjl = 0 (1 ≤ j ≤ 2)
11
3 4
(–4, 5, –4), (5, 14, 5),
(14, 5, 14), (5, –4, 5)
σjj = 1 (1 ≤ j ≤ 3),
σjl = 0 (1 ≤ j ≠ l ≤ 3)
12
1 4
–2, 4, 10, 16
σ 2j = 0,5 (1 ≤ j ≤ 4)
Uogólniona miara_Walesiak_Księga1.indb 84
σjj = 1 (1 ≤ j ≤ 3),
σjl = 0,9 (1 ≤ j ≠ l ≤ 3)
2
2
3
3
3
3
2012-02-19 14:56:16
4.1. LOSOWE GENEROWANIE DANYCH O ZNANEJ STRUKTURZE KLAS...
1
13
2 3
4
2 3 (0; 0), (1,5; 7), (3; 14)
5
0⎤
⎡ 1 −0,9 ⎤
⎡1,5
, ∑2 = ⎢
∑1 = ⎢
⎥
⎥,
1⎦
⎣ −0,9
⎣ 0 1,5⎦
⎡ 1 0,5⎤
∑3 = ⎢
1⎥⎦
⎣0,5
14
15
3 4 (–4, 5, –4), (5, 14, 5), (14, 5,
14), (5, –4, 5)
3 5 (5, 5, 5), (–3, 3, –3), (3, –3,
3), (0, 0, 0), (–5, –5, –5)
⎡1 0 0 ⎤
⎡ 1 −0,9 −0,9 ⎤
∑1 = ⎢⎢0 1 0 ⎥⎥ , ∑ 2 = ⎢⎢ −0,9
1 0,9 ⎥⎥ ,
⎢⎣0 0 1 ⎥⎦
⎢⎣ −0,9 0,9
1⎥⎦
⎡ 1 0,9 0,9 ⎤
⎡ 3 2 2⎤
∑3 = ⎢⎢0,9
1 0,9 ⎥⎥ , ∑ 4 = ⎢⎢ 2 3 2 ⎥⎥
1⎦⎥
⎣⎢ 0,.9 0,9
⎣⎢ 2 2 3⎦⎥
85
6
4
4
⎡ 1 −0,9 −0,9 ⎤
⎡0,5 0 0 ⎤
⎢
⎥
1 0,9 ⎥ , ∑ 2 = ⎢ 0 1 0 ⎥ ,
∑1 = ⎢ −0,9
⎢
⎥
⎢⎣ −0,9 0,9
⎢⎣ 0 0 2 ⎥⎦
1⎥⎦
⎡ 1 0,9 0,9 ⎤
⎡ 1 0,6 0,6 ⎤
∑3 = ⎢⎢0,9
1 0,9 ⎥⎥ , ∑ 4 = ⎢⎢0,6
1 0,6 ⎥⎥ ,
⎢⎣0,9 0,9
⎢⎣0,6 0,6
1⎥⎦
1⎥⎦
4
⎡ 1 0 0⎤
∑5 = ⎢⎢0 1 0 ⎥⎥
⎢⎣0 0 1⎥⎦
16
2 2 (0, 0), (1, 5)
⎡ 1 −0,9 ⎤
⎡ 1 0,5⎤
∑1 = ⎢
⎥ ∑ 2 = ⎢0,5
−
0,9
1
1⎥⎦
⎣
⎦,
⎣
4
v – liczba zmiennych, cl – liczba klas, ks – kształt skupień (1 – skupienia wydłużone, 2 – skupienia
wydłużone i słabo separowalne, 3 – skupienia normalne, 4 – skupienia zróżnicowane dla klas).
Źródło: opracowanie własne.
Przy konstrukcji zaprezentowanych modeli wzorowano się na licznych opracowaniach (zob. np. modele służące do testowania struktury klas zawarte w pracach:
[Dudoit, Fridlyand 2002; Soffritti 2003; Tibshirani, Walther, Hastie 2001; Tibshirani, Walther 2005]). Należy podkreślić, że w pakiecie clusterSim można wprowadzać własne modele (zob. modele z tab. 4.1 oznaczone numerami 21, 22, ...).
Generowanie obserwacji porządkowych (dataType=″o″) przebiega w sposób następujący. Wygenerowane obserwacje dla modeli mają charakter ciągły (dane
metryczne). W celu otrzymania danych porządkowych należy przeprowadzić dla
każdej zmiennej proces dyskretyzacji. Liczba kategorii (kj) zmiennej porządkowej Xj
określa szerokość przedziału klasowego ⎡ max{xij ) − min{xij }⎤ / k j . Niezależnie dla
i
⎣ i
⎦
każdej zmiennej kolejne przedziały klasowe otrzymują kategorie 1, …, kj i aktualna
wartość zmiennej xij jest zastępowana przez te kategorie. Dla poszczególnych zmien-
Uogólniona miara_Walesiak_Księga1.indb 85
2012-02-19 14:56:17
86
4. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM...
nych liczba kategorii może być inna (np. k1 = 7, k2 = 4, k3 = 5), zatem składnia argumentu jest następująca: numCategories=c(7,4,5). W przypadku wprowadzenia np. dwóch zmiennych zakłócających (numNoisyVar=2) dodatkowo dla
tych zmiennych w składni argumentu numCategories należy podać liczby kategorii (np. numCategories=c(7,4,5,6,4)).
Przykład dyskretyzacji wartości j-tej zmiennej zilustrowano na rys. 4.1.
5
7
6
5
3
4
2
Kategorie
Wartości zmiennej
4
3
1
2
1
0
0
10
20
30
40
50
Numer obiektu
Rys. 4.1. Przykład dyskretyzacji wartości j-tej zmiennej
Źródło: opracowanie własne.
Dane symboliczne przedziałowe otrzymuje się w wyniku dwukrotnego generowania obserwacji dla danego modelu. Otrzymuje się dwa zbiory obserwacji A i B,
{
A
B
}
dla których wartość minimalna (maksymalna) z wartości xij , xij jest traktowana
jako początek (koniec) przedziału klasowego.
Obserwacje na zmiennych zakłócających są generowane niezależnie z rozkładu
jednostajnego. Przedział zmienności zmiennych zakłócających jest podobny do zmiennych wyznaczających strukturę klas (por. [Milligan 1985; Qiu, Joe 2006, s. 322]).
Obiekty odosobnione (outliers) są generowane tylko dla danych metrycznych
oraz symbolicznych przedziałowych niezależnie dla każdej zmiennej i całego zbioru
Uogólniona miara_Walesiak_Księga1.indb 86
2012-02-19 14:56:17
87
4.2. ANALIZA PORÓWNAWCZA METOD KLASYFIKACJI...
obserwacji z rozkładu jednostajnego. Następnie wygenerowane wartości są losowo
dodawane do wartości maksymalnejj-tej zmiennej lub odejmowane od wartości mi­
nimalnej j-tej zmiennej.
4.2
ANALIZA PORÓWNAWCZA METOD KLASYFIKACJI DLA DANYCH O ZNANEJ STRUKTURZE KLAS 2 Analizę porównawczą metod klasyfikacji dla danych o znanej strukturze klas
przeprowadzono dla trzech typów danych.
W dwóch pierwszych eksperymentach wykorzystano dane metryczne oraz po­
rządkowe o znanej strukturze klas obiektów wygenerowane z wykorzystaniem
z funkcji cI uster. Gen pakietu clusterSirn. Charakterystykę czterech modeli
wykorzystanych w analizie symulacyjnej prezentuje tab. 4.3.
Tabela 4.3. Charakterystyka modeli w analizie symulacyjnej
Model
v
nk*
cd
lo
Środki ciężkości klas
l
3
7
3[
40
(1,5; 6, ­ 3), (3; 12; -6)
(4,5; 18; --9)
2
2
5,7
2 6,8
3
2 • 5
4
5
4
3
Macierz kowariancji I
(lg
30,60,
35
O'Jj
(--4; 5), (5; 14),
(14; 5), (5;--4)
l,
LI =[-0,;
4
-0,9]
° l,~l LJ
=[1,5
3
°
O'j!
(O; 4), (4; 8), (8; 12)
2
2
= l, (lj! 0,9
O'if
L
i
I
= l (I <!:.j ~ 3),
= -0,9, 0'23 = 0,9
0'12 '" (l13
40,20, (5; 5), (-3; 3), (3; -3),
(O; O), (-5; -5)
25,25,20
35
ks
l '
=[0,;
0,5l
l.;
* tylko dla danych porządkowych; v -liczba zmiennych, nk -liczba kategońi (jedna liczba oznacza stałą liczbę kategorii); cl- liczba klas; lo -liczba obiektów w klasach (jedna liczba oznacza klasy równoliczne); ks kształt skupień (I - sku­
pienia wydłużone, 2 - skupienia wydłużone i słabo separowalne, 3 skupienia nonnalne, 4 - skupienia zróżnicowane dla klas). Źródło: opracowanie własne.
W trzecim eksperymencie zbiory danych (zob. rys. 4.2) utworzono z wykorzy­
staniem funkcji pakietu rnlbench (mlbench. spiral s, mlbench. srniley,
mlbench. cassini) oraz zbiorów własnych (worms, w3, skad).
2 Podrozdział
ten opracowano na podstawie artykułu [Walesiak, Dudek 201 Ob].
Uogólniona miara_Walesiak_Księga1.indb 88
Źródło: opracowanie własne z wykorzystaniem programu R.
Rys. 4.2. Przykładowe zbiory danych utworzone z wykorzystaniem funkcji pakietu mlbench (spirals, smiley, cassini)
oraz zbiorów własnych (worms, w3, skad)
88
4. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM...
2012-02-19 14:56:18
4.2. ANALIZA PORÓWNAWCZA METOD KLASYFIKACJI...
89
Dla modeli w każdym eksperymencie wygenerowano 20 zbiorów danych, przeprowadzono procedurę klasyfikacyjną i porównano otrzymane rezultaty klasyfikacji
ze znaną strukturą klas za pomocą skorygowanego indeksu Randa (zob. formuły 3.4
i 3.5).
Dla danych metrycznych (eksperyment 1 i 3) uwzględniono następujące metody
klasyfikacji: 1. specc1 – klasyfikacja spektralna z jądrem gaussowskim i σ z pakietu
kernlab; 2. specc2 – klasyfikacja spektralna z jądrem gaussowskim i σ z artykułu
[Walesiak, Dudek 2009b]; 3. speccGDM1 – klasyfikacja spektralna z odległością
GDM1 i σ z artykułu [Walesiak, Dudek 2009b]; 4. kmeans – metoda k-średnich;
5. pam – metoda k-medoidów; 6. complete – metoda kompletnego połączenia;
7. average – metoda średniej klasowej; 8. ward – metoda Warda; 9. centroid – metoda środka ciężkości; 10. diana – hierarchiczna metoda deglomeracyjna.
Dla metod o numerach 5-10 zastosowano odległość GDM1 oraz kwadrat odległości euklidesowej. Dla danych porządkowych (eksperyment 2) uwzględniono
w analizie metody klasyfikacji o numerach 5-10 z odległością GDM2 oraz klasyfikację spektralną z odległością GDM2 i σ z artykułu [Walesiak, Dudek 2009b]
(speccGDM2).
W tab. 4.4 zaprezentowano uporządkowanie analizowanych metod klasyfikacji
według średnich wartości skorygowanego indeksu Randa policzonego z 20 symulacji dla danych metrycznych wygenerowanych w pakiecie clusterSim.
W przypadku zbiorów danych metrycznych bez zmiennych zakłócających metody klasyfikacji spektralnej, z pewnymi wyjątkami, dają gorsze rezultaty od klasycznych metod analizy skupień. Uwzględnienie zmiennych zakłócających (występujących zwykle w rzeczywistych problemach klasyfikacyjnych) pokazuje wyraźną
przewagę metod klasyfikacji spektralnej w odkrywaniu rzeczywistej struktury klas.
Proponowana metoda speccGDM1 daje zbliżone (choć nieco gorsze) rezultaty do
metody klasyfikacji spektralnej z jądrem gaussowskim.
Uwzględnienie dla klasycznych metod analizy skupień odległości GDM1 oraz
kwadratu odległości euklidesowej daje zbliżone rezultaty, jeśli chodzi o stopień odkrywania rzeczywistej struktury klas.
Tabela 4.5 prezentuje uporządkowanie analizowanych metod klasyfikacji według średnich wartości skorygowanego indeksu Randa policzonego z 20 symulacji
dla danych porządkowych wygenerowanych w pakiecie clusterSim.
W przypadku zbiorów danych porządkowych bez zmiennych zakłócających najlepsza jest metoda Warda. Metoda klasyfikacji spektralnej speccGDM2 daje gorsze
rezultaty od klasycznych metod analizy skupień. Należy jednak pamiętać, że zbiory
tego typu bardzo rzadko występują w rzeczywistych problemach klasyfikacyjnych.
Uwzględnienie zmiennych zakłócających pokazuje wyraźną przewagę metody klasyfikacji spektralnej speccGDM2.
Tabela 4.6 prezentuje uporządkowanie analizowanych metod klasyfikacji według średnich wartości skorygowanego indeksu Randa policzonego z 20 symulacji
dla danych metrycznych z pakietu mlbench i danych własnych.
Uogólniona miara_Walesiak_Księga1.indb 89
2012-02-19 14:56:18
2
1
Uogólniona miara_Walesiak_Księga1.indb 90
5
5
6
6
0,661
0,561
0,568
0,558
0,558
0,550
0,551
speccGDM1
averagea
averageb
b
a
b
a
8
7
0,463
0,512
a
b
9
0,415
0,399
completea
b
0,950
0,858
0,784
0,950
0,930
0,950
0,950
0,950
0,950
0,950
0,950
0,950
0,950
0,906
0,817
0,928
3
1
1
8
10
1
5
1
1
1
1
1
1
1
1
7/8
9
6/7
0,707
0,747
0,760
0,644
0,646
0,782
0,820
0,836
0,828
0,830
0,830
0,832
0,831
0,711
0,686
0,706
4
2
7
6
5
10
10
4
4
1
3
3
2
2
1
7/6
9
8
0,800
0,800
0,633
0,796
0,798
0,800
0,800
0,800
0,800
0,800
0,800
0,800
0,800
0,717
0,735
0,751
5
3
Kształt skupień
2
2
10
6
6
5
5
4
4
1
1
3
3
9
8
7
0,952
0,862
0,978
0,901
0,575
0,968
0,971
0,972
0,973
0,942
0,942
0,979
0,967
0,866
0,942
0,924
6
4
5
9
1/2
9
10
4
3
3
2
6
5
1
4
8/10
6/7
7/8
0,852
0,817
0,789
0,823
0,737
0,875
0,885
0,889
0,888
0,881
0,881
0,890
0,887
0,800
0,795
0,827
7
0
5
6
9/10
7
10
4
3
2
1
3
4
1
2
7/8
8/9
5/6
0,245
0,277
0,371
0,418
0,391
0,269
0,426
0,443
0,443
0,472
0,472
0,465
0,439
0,716
0,723
0,735
8
1
10
10
9/8
Źródło: obliczenia własne z wykorzystaniem programu R.
7
8
9
7
6
5
4
4
5
6
3
2
1
0,101
0,150
0,195
0,296
0,260
0,012
0,267
0,319
0,320
0,322
0,322
0,350
0,356
0,467
0,524
0,487
9
2
Liczba zmiennych zakłócających
a – z odległością GDM1; b – z kwadratem odległości euklidesowej.
6/7 – pozycja metody, gdy dla klasycznych metod analizy skupień stosujemy odległość GDM1 / kwadrat odległości euklidesowej.
complete
10
0,452
kmeans
diana
diana
9/8
10
0,385
b
centroid
7
0,526
4
3
centroida
ward
ward
pam
pam
4
0,681
specc1
2
0,683
specc2
1
Średnia
(k7+k8+k9)/3
Metoda
Tabela 4.4. Uporządkowanie analizowanych metod klasyfikacji według średnich wartości skorygowanego indeksu Randa
dla danych metrycznych wygenerowanych w pakiecie clusterSim
9
10
9/8
7
8
10
7
6
6
5
5
4
4
3
1
2
90
4. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM...
2012-02-19 14:56:19
91
4.2. ANALIZA PORÓWNAWCZA METOD KLASYFIKACJI...
Tabela 4.5. Uporządkowanie analizowanych metod klasyfikacji według średnich wartości
skorygowanego indeksu Randa dla danych porządkowych wygenerowanych w pakiecie clusterSim
Metoda
Średnia
(k7+k8+
k9)/3
Liczba zmiennych
zakłócających
Kształt skupień
1
2
3
4
0
1
2
1
2
3
4
5
6
7
8
9
speccGDM2 0,644 1 0,901 7 0,754 7 0,793 7 0,612 6 0,765 7 0,659 1 0,510 1
average
0,599 2 1,000 1 0,974 1 1,000 1 0,947 2 0,980 2 0,477 3 0,339 2
pam
0,591 3 1,000 1 0,969 3 1,000 1 0,933 4 0,975 4 0,480 2 0,318 3
ward
0,591 4 1,000 1 0,967 4 1,000 1 0,963 1 0,982 1 0,473 4 0,317 4
centroid
0,562 5 1,000 1 0,973 2 1,000 1 0,946 3 0,980 2 0,431 5 0,274 5
diana
0,496 6 0,956 5 0,770 6 0,998 6 0,565 7 0,822 6 0,418 6 0,249 6
complete
0,461 7 0,924 6 0,893 5 1,000 1 0,909 5 0,931 5 0,296 7 0,155 7
Źródło: obliczenia własne z wykorzystaniem programu R.
Tabela 4.6. Uporządkowanie analizowanych metod klasyfikacji według średnich wartości
skorygowanego indeksu Randa dla danych metrycznych z pakietu mlbench i danych własnych
Metoda
Średnia
Zbiory danych
spirals
worms
w3
smiley
cassini
skad
specc1
0,796
1 0,830
3 0,795
2
0,840
1 0,837 2/3 0,759 6/5 0,715
3
specc2
0,792
2 0,866
2 0,847
1
0,720
2 0,797 3/5 0,754 7/6 0,767
1
speccGDM1 0,715
3 0,957
1 0,537
3
0,406
3 0,870 1/2 0,796 5/3 0,722
2
a
ward
0,397
6 0,042
6 0,411
8
0,003
7 0,646
5 0,935
2 0,348
9
wardb
0,467
4 0,028
8 0,361
10
0,006
4 0,950
1 0,844
2 0,611
5
pama
0,424
4 0,011
10 0,448
6 –0,005
8 0,794
4 0,919
3 0,374
8
pamb
0,424
5 0,011
10 0,448
7 –0,005
8 0,794
6 0,919
1 0,374
10
averagea
0,411
5 0,026
9 0,393
0,003
6 0,605
8 0,981
1 0,455
7
averageb
0,393
6 0,029
7 0,432
8 –0,003
7 0,637
7 0,783
4 0,482
8
centroida
0,396
7 0,044
5 0,423
7
0,005
5 0,611
7 0,827
4 0,466
6
centroid
0,389
7 0,016
9 0,466
5 –0,002
6 0,825
4 0,556
9 0,473
9
dianaa
0,305 10 0,037
7 0,452
5 –0,006
9 0,486
10 0,522
10 0,341
10
dianab
0,386
8 0,040
4 0,467
4 –0,009
9 0,627
8 0,539
10 0,651
4
kmeans
0,369
9 0,031 8/6 0,455 4/6 –0,009 10 0,623 6/9 0,595 9/7 0,519 4/6
completea
0,370
8 0,045
4 0,400
9
0,010
4 0,568
9 0,720
8 0,475
5
complete
0,353 10 0,037
5 0,424
9
0,002
5 0,587
10 0,564
8 0,505
7
b
b
10
a – z odległością GDM1; b – z kwadratem odległości euklidesowej.
8/6 – pozycja metody, gdy dla klasycznych metod analizy skupień stosujemy odległość GDM1/
kwadrat odległości euklidesowej.
Źródło: obliczenia własne z wykorzystaniem programu R.
Uogólniona miara_Walesiak_Księga1.indb 91
2012-02-19 14:56:19
92
4. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM...
Dla nietypowych zbiorów danych metody klasyfikacji spektralnej zdecydowanie
lepiej od klasycznych metod analizy skupień odkrywają prawidłową strukturę klas.
Proponowana metoda speccGDM1 daje rezultaty podobne jak metoda klasyfikacji
spektralnej z jądrem gaussowskim.
4.3
OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ
DLA DANYCH PORZĄDKOWYCH3
Celem tego podrozdziału jest przeprowadzenie oceny przydatności wybranych
procedur analizy skupień dla danych porządkowych. Testowanie przydatności wybranych procedur zostanie przeprowadzone na podstawie porządkowych danych symulacyjnych o znanej strukturze klas obiektów wygenerowanych z wykorzystaniem
z funkcji cluster.Gen pakietu clusterSim.
Typowa procedura analizy skupień dla danych porządkowych obejmuje (zob.
np. [Milligan 1996, s. 342-343; Walesiak 2005a]):
1) wybór obiektów i zmiennych,
2) wybór miary odległości,
3) wybór metody klasyfikacji,
4) ustalenie liczby klas,
5) ocenę wyników klasyfikacji,
6) opis i profilowanie klas.
Testowanie przydatności wybranych procedur przeprowadzono na podstawie
porządkowych danych symulacyjnych o znanej strukturze klas obiektów.
Dane symulacyjne, o znanej strukturze klas obiektów, składają się z 9 modeli
różniących się liczbą zmiennych, liczbą, gęstością i kształtem skupień oraz liczbą
zmiennych zakłócających (zob. tab. 4.7).
Następnie dla danych z poszczególnych modeli zastosowano 72 procedury analizy skupień obejmujące:
a) 9 metod klasyfikacji, w tym 7 metod klasyfikacji hierarchicznej: pojedynczego połączenia (single), kompletnego połączenia (complete), średniej klasowej (average), ważonej średniej klasowej (mcquitty), Warda (ward), środka ciężkości (centroid), medianową (median) oraz metody diana i pam;
b) miarę odległości GDM dla danych porządkowych (w pakiecie clusterSim
jest to odległość GDM2);
c) 8 indeksów jakości klasyfikacji służących ustaleniu liczby klas (Daviesa-Bouldina – DB, Calińskiego i Harabasza – G1, Bakera i Huberta – G2, Huberta i Levine – G3, gap – Gap, Hartigana – H, Krzanowskiego i Lai – KL, Silhouette – S). Indeksy Calińskiego i Harabasza, Krzanowskiego i Lai, Daviesa-Bouldina, Hartigana
i gap w swojej konstrukcji wykorzystują środek ciężkości klasy o współrzędnych
3
Podrozdział ten opracowano na podstawie prac [Walesiak, Dudek 2009a; 2010a].
Uogólniona miara_Walesiak_Księga1.indb 92
2012-02-19 14:56:19
93
4.3. OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ...
Tabela 4.7. Charakterystyka modeli w analizie symulacyjnej
Model v
1
2
lk
4, 6
cl
lo
3 60, 30, 30
3
45
Środki ciężkości klas
ks
(0; 0), (1,5; 7), (3; 14)
Macierz kowariancji ∑
σjj = 1, σjl = –0,9
(1,5; 6, – 3), (3; 12; –6)
(4,5; 18; –9)
σjj = 1 (1 ≤ j ≤ 3),
σ12 = σ13 = –0,9, σ23 = 0,9
1
(5; 5), (–3; 3), (3; –3),
(0; 0), (–5; –5)
σjj = 1, σjl = 0,9
(5; 5; 5), (–3; 3; –3), (3; –3; 3),
(0; 0; 0), (–5; –5; –5)
σjj = 1 (1 ≤ j ≤ 3),
σjl = 0,9 (1 ≤ j ≠ l ≤ 3)
(0; 0), (0; 10), (5; 5),
(10; 0), (10; 10)
σjj = 1, σjl = 0
σjj = 1, σjl = 0
2
3
7
3
2
5, 7
4
3 5, 7, 5 5
5
2
5
6
2
3, 5
4
35
(–4; 5), (5; 14), (14; 5), (5; –4)
7
3
6
4
25, 25,
40, 30
(–4; 5; –4), (5; 14; 5),
(14; 5; 14), (5; –4; 5)
8
3
7
5 35, 25, 25, (5; 5; 5), (–3; 3; –3), (3; –3; 3),
20, 20
(0; 0; 0), (–5; –5; –5)
b
9
2
7
3
c
5 50, 20, 25,
25, 20
25
5 20, 45, 15,
25, 35
40
(0; 4), (4; 8), (8; 12)
a
1
2
2
3
3
4
4
4
v – liczba zmiennych, lk – liczba kategorii (jedna liczba oznacza stałą liczbę kategorii); cl – liczba klas;
lo – liczba obiektów w klasach (jedna liczba oznacza klasy równoliczne); ks – kształt skupień
(1 – skupienia wydłużone, 2 – skupienia wydłużone i słabo separowalne, 3 – skupienia normalne,
4 – skupienia zróżnicowane dla klas);
⎡1 0 0 ⎤
⎡ 1 0,9 0,9 ⎤
⎡ 3 2 2⎤
⎡ 1 −0,9 −0,9 ⎤
a: ∑1 = ⎢⎢0 1 0 ⎥⎥ , ∑ 2 = ⎢⎢ −0,9
1 0,9 ⎥⎥ , ∑3 = ⎢⎢0,9
1 0,9 ⎥⎥ , ∑ 4 = ⎢⎢ 2 3 2 ⎥⎥ ;
⎢⎣ −0,9 0,9
1⎦⎥
1⎦⎥
⎣⎢0 0 1 ⎥⎦
⎣⎢0,9 0,9
⎣⎢ 2 2 3⎦⎥
⎡0,5 0 0 ⎤
⎡ 1 0,9 0,9 ⎤
⎡ 1 0,6 0,6 ⎤
⎡ 1 −0,9 −0,9 ⎤
b: ∑1 = ⎢⎢ −0,9
1 0,9 ⎥⎥, ∑ 2 = ⎢⎢ 0 1 0 ⎥⎥ , ∑3 = ⎢⎢0,9
1 0,9 ⎥⎥ , ∑ 4 = ⎢⎢0,6
1 0,6 ⎥⎥ ,
1⎥⎦
1⎦⎥
1⎦⎥
⎣⎢0,6 0,6
⎣⎢ 0 0 2 ⎦⎥
⎣⎢0,9 0,9
⎣⎢ −0,9 0,9
⎡ 1 0 0⎤
∑5 = ⎢⎢0 1 0 ⎥⎥ ;
⎢⎣0 0 1⎥⎦
0⎤
⎡ 1 −0,9 ⎤
⎡1,5
⎡ 1 0,5⎤
, ∑2 = ⎢
, ∑3 = ⎢
.
c: ∑1 = ⎢
⎥
⎥
1⎦
1⎥⎦
⎣ −0,9
⎣ 0 1,5⎦
⎣0,5
Źródło: opracowanie własne z wykorzystaniem pakietu clusterSim.
będących średnimi arytmetycznymi z wartości zmiennych opisujących obiekty danej klasy. Dla danych porządkowych nie jest dopuszczalne obliczanie średnich arytmetycznych. W związku z tym przy obliczaniu tych indeksów zamiast środka ciężkości klasy zastosowano współrzędne obiektu usytuowanego centralnie w klasie (tj.
obiektu, dla którego suma odległości od pozostałych obiektów w klasie jest najmniejsza).
Uogólniona miara_Walesiak_Księga1.indb 93
2012-02-19 14:56:20
94
4. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM...
Dla każdego modelu przeprowadzono 50 symulacji. Nie rozpatrywano wszystkich możliwych podziałów zbioru obiektów. W badaniu uwzględniono podziały
zbioru obiektów od dwóch do dziesięciu klas.
Ocenę przydatności wybranych procedur analizy skupień dla danych porządkowych przeprowadzono za pomocą skorygowanego indeksu Randa (zob. formuły 3.4
i 3.5), porównując znaną strukturę klas z wynikami uzyskanymi za pomocą odpowiednich procedur analizy skupień.
Tabela 4.8 prezentuje uporządkowanie 9 analizowanych metod klasyfikacji według średnich wartości skorygowanego indeksu Randa policzonego z 50 symulacji
dla 9 modeli i 8 indeksów oceny jakości klasyfikacji.
Tabela 4.8. Uporządkowanie analizowanych metod klasyfikacji według średnich wartości
skorygowanego indeksu Randa
Liczba zmiennych zakłócających
Metoda
0
2
Średnia
4
average
0,765
1
0,502
1
0,062
1
0,443
1
mcquitty
0,733
4
0,456
3
0,057
3
0,415
2
centroid
0,746
2
0,440
4
0,055
4
0,413
3
ward
0,707
7
0,473
2
0,059
2
0,413
4
diana
0,738
3
0,430
5
0,053
5
0,407
5
complete
0,724
5
0,415
7
0,051
7
0,397
6
pam
0,694
8
0,416
6
0,052
6
0,387
7
median
0,708
6
0,371
8
0,046
8
0,375
8
single
0,652
9
0,322
9
0,040
9
0,338
9
Źródło: obliczenia własne.
Na podstawie wyników zawartych w tab. 4.8 można sformułować następujące
wnioski:
– zdecydowanie najlepszą metodą klasyfikacji danych porządkowych (dla 0, 2 i 4
zmiennych zakłócających) jest metoda średniej klasowej (average), najgorszą
zaś metoda pojedynczego połączenia (single),
– metoda Warda (ward) w relacji do innych metod jest dość skuteczna w przypadku uwzględnienia zmiennych zakłócających.
W tab. 4.9 przedstawiono uporządkowanie 8 analizowanych indeksów oceny
jakości klasyfikacji według średnich wartości skorygowanego indeksu Randa policzonego z 50 symulacji dla 9 modeli i 9 metod klasyfikacji.
Na podstawie wyników zawartych w tab. 4.9 można sformułować następujące
wnioski:
– najlepsze indeksy w klasyfikacji danych porządkowych to indeksy Krzanowskiego i Lai (KL) oraz Calińskiego i Harabasza (G1),
Uogólniona miara_Walesiak_Księga1.indb 94
2012-02-19 14:56:20
95
4.3. OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ...
–
o ile indeksy gap (Gap) i Daviesa-Bouldina (DB) bez zmiennych zakłócających
dość dobrze odkrywały strukturę klas, o tyle ze zmiennymi zakłócającymi ich
skuteczność wyraźnie spadła.
Tabela 4.9. Uporządkowanie analizowanych indeksów oceny jakości klasyfikacji
według średnich wartości skorygowanego indeksu Randa
Liczba zmiennych zakłócających
Indeks
0
2
Średnia
4
KL
0,804
1
0,473
1
0,052
1
0,443
1
G1
0,721
3
0,463
2
0,051
2
0,412
2
Gap
0,771
2
0,384
7
0,042
7
0,399
3
S
0,691
6
0,451
4
0,050
3
0,397
4
G3
0,667
8
0,453
3
0,050
3
0,390
5
G2
0,686
7
0,417
5
0,046
6
0,383
6
H
0,695
5
0,398
6
0,044
5
0,379
7
DB
0,713
4
0,361
8
0,040
8
0,371
8
Źródło: obliczenia własne.
Tabela 4.10 prezentuje uporządkowanie procedur analizy skupień (miara GDM
dla danych porządkowych, 9 metod klasyfikacji, 8 indeksów jakości klasyfikacji)
według średnich wartości skorygowanego indeksu Randa policzonego z 50 symulacji dla 9 modeli.
Na podstawie wyników zawartych w tab. 4.10 można sformułować następujące
wnioski:
– najskuteczniejsza, w sensie przeprowadzonego eksperymentu symulacyjnego,
jest procedura analizy skupień obejmująca metodę średniej klasowej (average)
oraz indeks oceny jakości klasyfikacji Krzanowskiego i Lai (KL). Metoda ta
z indeksami odpowiednio gap (Gap), Hartigana (H) oraz Calińskiego i Harabasza (G1) zajęła wysokie pozycje, tj. czwartą, piątą i szóstą,
– drugą i trzecią pozycję zajęła metoda Warda (ward) z indeksami odpowiednio
Krzanowskiego i Lai (KL) oraz gap (Gap),
– najmniej skuteczna w klasyfikacji danych porządkowych jest metoda pojedynczego połączenia (single) z indeksami Hartigana (H), gap (Gap) i Daviesa-Bouldina (DB).
Na otrzymane rezultaty w pewnym stopniu ma wpływ wybór modeli i sposób
generowania danych o znanej strukturze klas. W analizie uwzględniono losowe generowanie zbiorów danych z wielowymiarowego rozkładu normalnego, w którym
położenie i jednorodność skupień zadaje się za pomocą wektorów wartości przeciętnych (środki ciężkości skupień) i macierzy kowariancji (rozproszenie obiektów).
Uogólniona miara_Walesiak_Księga1.indb 95
2012-02-19 14:56:20
96
4. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM...
Tabela 4.10. Uporządkowanie analizowanych procedur analizy skupień
według średnich wartości skorygowanego indeksu Randa
Lp.
Metoda
Indeks
Liczba zmiennych
zakłócających
0
2
Średnia Lp.
Metoda
Indeks
4
Liczba zmiennych
zakłócających
0
S
2
Średnia
4
1
average
KL
0,854 0,554 0,429
0,612
37 pam
0,641 0,455 0,335
0,477
2
ward
KL
0,843 0,537 0,396
0,592
38 complete Gap
0,762 0,385 0,283
0,477
3
ward
Gap
0,854 0,505 0,362
0,574
39 centroid
KL
0,830 0,505 0,076
0,470
4
average
Gap
0,883 0,496 0,342
0,574
40 mcquitty
G2
0,688 0,405 0,312
0,468
5
average
H
0,764 0,536 0,417
0,572
41 complete DB
0,718 0,383 0,296
0,465
6
average
G1
0,767 0,537 0,383
0,562
42 median
G2
0,714 0,461 0,219
0,465
7
mcquitty
KL
0,802 0,493 0,371
0,555
43 median
KL
0,782 0,421 0,183
0,462
8
pam
KL
0,837 0,469 0,340
0,549
44 pam
DB
0,692 0,387 0,300
0,460
9
average
S
0,715 0,517 0,391
0,541
45 pam
H
0,631 0,402 0,344
0,459
10
diana
KL
0,805 0,456 0,360
0,540
46 diana
G2
0,719 0,373 0,285
0,459
11
mcquitty
H
0,739 0,481 0,363
0,528
47 centroid
G1
0,757 0,491 0,116
0,454
12
ward
G1
0,687 0,518 0,378
0,528
48 pam
G3
0,624 0,420 0,315
0,453
13
diana
H
0,743 0,447 0,391
0,527
49 pam
G1
0,637 0,424 0,296
0,452
14
average
DB
0,771 0,457 0,352
0,527
50 median
G1
0,725 0,430 0,202
0,452
15
diana
G1
0,759 0,447 0,374
0,527
51 median
G3
0,676 0,439 0,224
0,447
16
mcquitty
G1
0,738 0,487 0,343
0,522
52 centroid
G2
0,690 0,532 0,114
0,445
17
average
G3
0,684 0,493 0,389
0,522
53 ward
G2
0,646 0,386 0,294
0,442
18
diana
S
0,735 0,462 0,357
0,518
54 complete G2
0,692 0,366 0,268
0,442
19
complete KL
0,785 0,438 0,325
0,516
55 centroid
G3
0,675 0,523 0,121
0,439
20
mcquitty
S
0,696 0,492 0,355
0,514
56 pam
G2
0,654 0,362 0,270
0,429
21
pam
Gap
0,834 0,406 0,297
0,513
57 centroid
S
0,710 0,473 0,007
0,397
22
ward
S
0,653 0,503 0,375
0,510
58 median
S
0,697 0,410 0,082
0,396
23
diana
G3
0,715 0,443 0,370
0,509
59 single
G2
0,684 0,437 0,052
0,391
24
mcquitty
Gap
0,788 0,426 0,311
0,508
60 centroid
Gap
0,819 0,351 0,002
0,391
25
ward
DB
0,729 0,428 0,343
0,500
61 single
G1
0,697 0,394 0,061
0,384
26
diana
Gap
0,709 0,419 0,360
0,496
62 single
G3
0,631 0,431 0,068
0,376
27
ward
H
0,619 0,458 0,409
0,495
63 single
KL
0,697 0,382 0,043
0,374
28
mcquitty
G3
0,685 0,445 0,344
0,491
64 centroid
H
0,754 0,345 0,002
0,367
29
complete G1
0,726 0,440 0,307
0,491
65 median
H
0,702 0,288 0,053
0,348
30
mcquitty
0,730 0,416 0,320
0,489
66 centroid
DB
0,732 0,296 0,005
0,344
31
complete S
0,703 0,451 0,311
0,488
67 median
Gap
0,693 0,275 0,064
0,344
32
complete H
0,716 0,424 0,316
0,485
68 single
S
0,673 0,301 0,008
0,327
33
average
G2
0,685 0,429 0,341
0,485
69 median
DB
0,679 0,246 0,054
0,326
34
diana
DB
0,718 0,397 0,332
0,483
70 single
DB
0,647 0,239 0,009
0,298
35
ward
G3
0,628 0,450 0,357
0,478
71 single
Gap
0,601 0,190 0,008
0,266
36
complete G3
0,687 0,433 0,312
0,477
72 single
H
0,583 0,202 0,006
0,264
DB
Źródło: obliczenia własne.
Uogólniona miara_Walesiak_Księga1.indb 96
2012-02-19 14:56:21
4.3. OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ...
97
Takie podejście jest typowe w wielu analizach symulacyjnych prezentowanych m.in.
w pracach: [Tibshirani, Walther, Hastie 2001; Dudoit, Fridlyand 2002; Soffritti 2003;
Tibshirani, Walther 2005].
Podstawowym problemem związanym z generowaniem danych o znanej strukturze klas jest to, że istnieje nieskończenie wiele kształtów skupień dla dowolnej
liczby wymiarów (zob. [Carmone, Kara, Maxwell 1999, s. 508]). Celowe byłoby
uwzględnienie innych rozkładów oraz tzw. funkcji połączenia (copula) do generowania zbiorów danych o niestandardowych kształtach skupień. Nie jest to zadanie
łatwe, szczególnie w przypadku danych porządkowych.
Uogólniona miara_Walesiak_Księga1.indb 97
2012-02-19 14:56:21
5
WYBRANE ZASTOSOWANIA
UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM
Z WYKORZYSTANIEM PROGRAMU R
5.1
PORZĄDKOWANIE LINIOWE ZBIORU OBIEKTÓW
NA PODSTAWIE DANYCH PORZĄDKOWYCH
Z RYNKU NIERUCHOMOŚCI1
W tab. 5.1 zaprezentowano dane dotyczące 27 nieruchomości lokalowych na
jeleniogórskim rynku nieruchomości opisanych 6 zmiennymi. Nieruchomość 1 jest
wyceniana, natomiast nieruchomości od 2 do 27 to nieruchomości porównywalne,
dla których znane są ceny transakcyjne. W pakiecie clusterSim dane zapisano
w pliku data_patternGDM2.
Mieszkalne nieruchomości lokalowe zostały opisane następującymi zmiennymi:
x1. Lokalizacja środowiskowa nieruchomości gruntowej, z którą związany jest
lokal mieszkalny (1 – zła, 2 – nieodpowiednia, 3 – dostateczna, 4 – dobra, 5 – bardzo
dobra).
x2. Standard użytkowy lokalu mieszkalnego (1 – zły, 2 – niski, 3 – średni, 4 –
wysoki).
x3. Warunki bytowe występujące na nieruchomości gruntowej, z którą związany
jest lokal mieszkalny (1 – złe, 2 – przeciętne, 3 – dobre).
x4. Położenie nieruchomości gruntowej, z którą związany jest lokal mieszkalny,
w strefie miasta (1 – centralna, 2 – śródmiejska, 3 – pośrednia, 4 – peryferyjna).
x5. Typ wspólnoty mieszkaniowej (1 – mała, 2 – duża).
x6. Powierzchnia gruntu, z którą związany jest lokal mieszkalny (1 – poniżej
obrysu budynku, 2 – obrys budynku, 3 – obrys budynku z otoczeniem akceptowalnym, np. na parking, plac zabaw, 4 – obrys budynku z otoczeniem zbyt dużym) –
kategoria nominalna: 3.
Zmienne x1, x2 i x3 są stymulantami, zmienne x4 i x5 – destymulantami, a zmienna x6 jest nominantą o kategorii nominalnej (najkorzystniejszej) wynoszącej 3.
Przeprowadzając porządkowanie liniowe 27 nieruchomości lokalowych na jeleniogórskim rynku nieruchomości, w składni poleceń dla skryptu 5.1 przyjęto następującą metodykę postępowania:
– zastosowano funkcję pattern.GDM2 pakietu clusterSim (zob. [Walesiak,
Dudek 2011]),
1
Opracowano na podstawie artykułu [Walesiak 2011a].
Uogólniona miara_Walesiak_Księga1.indb 98
2012-02-19 14:56:21
99
5.1. PORZĄDKOWANIE LINIOWE ZBIORU OBIEKTÓW...
–
–
–
do zamiany nominanty x6 na destymulantę zastosowano metodę II bez powtórzeń (″s-symmetrical″),
za wzorzec rozwoju przyjęto dolny biegun rozwoju o następujących współrzędnych (1, 1, 1, 4, 2, ″max″),
zastosowano wagi jednakowe.
Tabela 5.1. Macierz danych (27 nieruchomości opisanych 6 zmiennymi)
Numer nieruchomości
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
Liczba możliwych kategorii
x1
5
3
5
2
5
4
3
4
5
4
5
4
4
4
5
3
4
4
3
3
4
5
5
4
3
3
2
5
x2
3
3
4
3
4
3
4
4
3
2
4
3
4
4
4
3
2
1
3
2
3
3
4
2
2
3
3
4
x3
1
3
3
1
2
2
3
3
2
1
3
1
3
3
2
2
1
2
2
1
2
2
3
2
1
1
1
3
x4
3
3
4
3
4
3
3
4
4
3
4
4
3
3
3
3
3
4
3
3
3
4
4
3
2
1
1
4
x5
1
2
1
2
1
1
2
1
1
1
1
1
1
2
2
1
2
1
2
1
1
1
1
1
2
2
2
2
x6
3
2
2
3
2
3
2
1
2
3
4
2
1
3
4
1
3
2
4
3
1
2
2
2
3
3
3
4
Źródło: opracowano na podstawie pracy [Pawlukowicz 2006, s. 238].
SKRYPT 5.1
library(clusterSim)
data(data_patternGDM2)
options (OutDec=″,″)
res<-pattern.GDM2(data_patternGDM2,
performanceVariable=c(″s″,″s″,″s″,″d″,″d″,″n″),
Uogólniona miara_Walesiak_Księga1.indb 99
2012-02-19 14:56:21
100
5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
nomOptValues=c(NA,NA,NA,NA,NA,3),
weightsType=″equal″,weights=NULL,
patternType=″lower″,patternCoordinates=″manual″,
patternManual=c(1,1,1,4,2,″max″),
nominalTransfMethod=″symmetrical″)
print(„Dane po transformacji nominanty x6 na
destymulantę″,quote=FALSE)
print(res$data)
print(„Uporządkowanie nieruchomości od najlepszej do
najgorszej według wartości miary GDM2″,quote=FALSE)
print(res$sortedDistances)
gdm_p<-res$distances
plot(cbind(gdm_p,gdm_p),xlim=c(max(gdm_p),min(gdm_p)),
ylim=c(min(gdm_p),max(gdm_p)),xaxt=″n″,
xlab=″Uporządkowanie nieruchomości od najlepszej do
najgorszej″,ylab=″Odległości GDM2 od obiektu
wzorca″,las=1,lwd=1.6)
axis(1,at=gdm_p,labels=names(gdm_p),cex.axis=0.5,las=2)
W efekcie zastosowania procedury ze skryptu 5.1 otrzymano następujące wyniki
oraz rys. 5.1:
[1] Dane po
x1
1
5
2
3
3
5
4
2
5
5
6
4
7
3
8
4
9
5
10
4
11
5
12
4
13
4
14
4
15
5
16
3
17
4
18
4
19
3
20
3
21
4
22
5
23
5
24
4
25
3
transformacji nominanty x6 na destymulantę
x2 x3 x4 x5
x6
3 1 3 1 0,0000000
3 3 3 2 0,3333333
4 3 4 1 0,3333333
3 1 3 2 0,0000000
4 2 4 1 0,3333333
3 2 3 1 0,0000000
4 3 3 2 0,3333333
4 3 4 1 0,6666667
3 2 4 1 0,3333333
2 1 3 1 0,0000000
4 3 4 1 0,3333333
3 1 4 1 0,3333333
4 3 3 1 0,6666667
4 3 3 2 0,0000000
4 2 3 2 0,3333333
3 2 3 1 0,6666667
2 1 3 2 0,0000000
1 2 4 1 0,3333333
3 2 3 2 0,3333333
2 1 3 1 0,0000000
3 2 3 1 0,6666667
3 2 4 1 0,3333333
4 3 4 1 0,3333333
2 2 3 1 0,3333333
2 1 2 2 0,0000000
Uogólniona miara_Walesiak_Księga1.indb 100
2012-02-19 14:56:21
101
5.1. PORZĄDKOWANIE LINIOWE ZBIORU OBIEKTÓW...
26
3 3 1 1 2 0,0000000
27
2 3 1 1 2 0,0000000
pattern 1 1 1 4 2 0,6666667
[1] Uporządkowanie nieruchomości od najlepszej do najgorszej
według wartości miary GDM2
14
3
11
23
1
13
0,6117002 0,5997664 0,5997664 0,5997664 0,5539164 0,5302174
6
5
0,5227029 0,5219020
15
8
7
9
22
26
0,5130766 0,4620506 0,4398538 0,4288488 0,4288488 0,4100774
10
27
0,3992506 0,3759365
21
2
24
25
20
17
0,3584182 0,3474391 0,3443568 0,3339597 0,3273294 0,3255114
12
4
0,2978136 0,2881964
16
19
18
0,2864148 0,2666805 0,2562767
Odległości GDM2 od obiektu wzorca
0,60
0,55
0,50
0,45
0,40
0,35
0,30
18
19
4
16
12
25
20
17
2
24
21
27
10
26
7
22
9
8
15
13
6
5
1
11
23
3
14
0,25
Uporządkowanie nieruchomości od najlepszej do najgorszej
Rys. 5.1. Graficzna prezentacja uporządkowania nieruchomości
od najlepszej do najgorszej według wartości miary GDM2
Źródło: opracowanie własne z wykorzystaniem programu R.
Uogólniona miara_Walesiak_Księga1.indb 101
2012-02-19 14:56:21
102
5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
Najlepsze warunki spośród 27 mieszkalnych nieruchomości lokalowych ma nieruchomość o numerze 14, najgorsze zaś nieruchomość o numerze 18. Z punktu widzenia podejścia porównawczego określania wartości rynkowej nieruchomości (zob.
[Pawlukowicz 2010]) wynika, że wartość rynkowa wycenianej nieruchomości nr 1
powinna być wyższa niż cena transakcyjna nieruchomości nr 13 i niższa niż cena
transakcyjna nieruchomości nr 3, 11 i 23 (nieruchomości te mają taką samą atrakcyjność inwestycyjną).
5.2
PORZĄDKOWANIE LINIOWE ZBIORU OBIEKTÓW
NA PODSTAWIE DANYCH METRYCZNYCH
DOTYCZĄCYCH WARUNKÓW ZAMIESZKIWANIA LUDNOŚCI
W MIASTACH
Przeprowadzono porządkowanie liniowe województw Polski ze względu na poziom warunków zamieszkiwania ludności w miastach w roku 2008. W analizie
uwzględniono następujące zmienne:
X1 – odsetek ogółu mieszkań wyposażonych w wodociąg,
X2 – odsetek ogółu mieszkań wyposażonych w ustęp,
X3 – odsetek ogółu mieszkań wyposażonych w łazienkę,
X4 – odsetek ogółu mieszkań wyposażonych w gaz z sieci,
X5 – odsetek ogółu mieszkań wyposażonych w centralne ogrzewanie,
X6 – przeciętna liczba izb w mieszkaniu,
X7 – przeciętna liczba osób na 1 mieszkanie,
X8 – przeciętna liczba osób na 1 izbę,
X9 – przeciętna powierzchnia użytkowa 1 mieszkania w m2,
X10 – przeciętna powierzchnia użytkowa w m2 na 1 osobę.
Tabela 5.2 zawiera dane statystyczne dotyczące 17 obiektów (16 województw
Polski oraz Polska) ze względu na poziom warunków zamieszkiwania ludności w
miastach w roku 2008.
Zastosowano funkcję pattern.GDM1 (dane metryczne z pliku Warunki_
mieszkaniowe_2008.csv) pakietu clusterSim do porządkowania liniowego województw Polski ze względu na poziom warunków zamieszkiwania ludności
w miastach w roku 2007. W składni poleceń dla skryptu 5.2 przyjęto następującą
metodykę postępowania:
– dla każdej zmiennej określono charakter preferencji: stymulanty (zmienne od X1
do X6, X9, X10); destymulanty (X7, X8). Zatem:
performanceVariable=c(″s″,″s″,″s″,″s″,″s″,″s″,″d″,″d″,
″s″,″s″)
– dla każdej zmiennej ustalono skalę jej pomiaru (skala ilorazowa i przedziałowa). Wszystkie zmienne mierzone są na skali ilorazowej, a zatem
scaleType=″r″
Uogólniona miara_Walesiak_Księga1.indb 102
2012-02-19 14:56:22
103
5.2. PORZĄDKOWANIE LINIOWE ZBIORU OBIEKTÓW...
Tabela 5.2. Dane statystyczne dotyczące 17 obiektów (16 województw oraz Polska)
ze względu na poziom warunków zamieszkiwania ludności w miastach w roku 2008
Województwo
Polska
Dolnośląskie
Kujawsko-pomorskie
Lubelskie
Lubuskie
Łódzkie
Małopolskie
Mazowieckie
Opolskie
Podkarpackie
Podlaskie
Pomorskie
Śląskie
Świętokrzyskie
Warmińsko-mazurskie
Wielkopolskie
Zachodniopomorskie
Zmienne
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
98,5
99,1
99,0
97,4
99,1
96,2
98,3
97,9
99,3
97,8
97,9
99,7
99,1
96,6
99,8
99,3
99,7
94,5
91,9
94,8
94,1
94,3
89,6
96,3
95,8
95,3
95,2
95,0
97,7
93,3
92,7
97,7
95,7
95,7
92,2
89,1
90,4
92,6
91,5
86,2
95,1
93,9
93,3
94,6
94,2
94,5
91,5
91,5
94,9
93,2
93,3
73,6
84,9
72,8
69,2
75,6
61,3
78,6
76,7
77,1
88,1
45,5
74,9
71,0
69,7
72,1
69,7
80,3
84,7
80,3
82,7
88,9
82,0
80,0
85,2
90,3
83,9
87,4
90,1
86,3
79,6
89,0
88,4
83,3
87,4
3,50
3,41
3,49
3,69
3,60
3,32
3,46
3,35
3,61
3,78
3,81
3,53
3,45
3,49
3,60
3,73
3,56
2,63
2,60
2,71
2,78
2,73
2,44
2,66
2,40
2,77
3,01
2,76
2,65
2,62
2,70
2,79
2,79
2,68
0,75
0,76
0,78
0,75
0,76
0,73
0,77
0,72
0,77
0,80
0,73
0,75
0,76
0,77
0,77
0,75
0,75
62,2
60,9
58,9
63,9
63,1
57,9
62,6
61,6
64,7
67,3
64,5
62,5
61,7
61,0
60,2
68,8
62,0
23,6
23,4
21,7
23,0
23,1
23,8
23,6
25,6
23,4
22,3
23,3
23,6
23,5
22,6
21,6
24,7
23,1
Źródło: Rocznik Statystyczny Województw 2009.
–
–
–
–
przeprowadzono normalizację wartości zmiennych z zastosowaniem odpowiedniej metody normalizacji wartości zmiennych. W tym przypadku dopuszczalne
są wszystkie formuły normalizacyjne. Zastosowano tutaj standaryzację:
normalization=″n1″
przyjęto, że wzorcem będzie górny biegun rozwoju: patternType=
″upper″
przyjęto następujące współrzędne obiektu−wzorca zaproponowane przez przeprowadzającego badanie (patternCoordinates=″manual″):
patternManual=c(100,100,100,100,100,″max″,″min″,
″min″,″max″,″max″)
w analizie zastosowano wagi jednakowe (weightsType=″equal″)
SKRYPT 5.2
library(clusterSim)
x<-read.csv2(″Warunki_mieszkaniowe_2008.csv″,
header=TRUE,row.names=1)
options(OutDec=″,″)
Uogólniona miara_Walesiak_Księga1.indb 103
2012-02-19 14:56:22
104
5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
res<-pattern.GDM1(x,performanceVariable=c(″s″,″s″,″s″,
″s″,″s″,″s″,″d″,″d″,″s″,″s″),
scaleType=″r″,nomOptValues=NULL,
weightsType=″equal″,normalization=″n1″,
patternType=″upper″,patternCoordinates=″manual″,
patternManual=c(100,100,100,100,100,″max″,
″min″,″min″,″max″,″max″),nominalTransfMethod=NULL)
print(″Uporządkowanie województw od najlepszego do
najgorszego według wartości miary GDM1″,
quote=FALSE)
Odległości GDM1 od obiektu wzorca
0,7
0,6
0,5
0,4
àódzkie
Kujawsko-pomorskie
ĝwiĊtokrzyskie
ĝląskie
DolnoĞląskie
Lubuskie
Podkarpackie
Podlaskie
Polska
Lubelskie
WarmiĔsko-mazurskie
Opolskie
Maáopolskie
Zachodniopomorskie
Wielkopolskie
Pomorskie
Mazowieckie
0,3
Rys. 5.2. Graficzna prezentacja uporządkowania województw Polski
ze względu na poziom warunków zamieszkiwania ludności w miastach w roku 2008
od najlepszego do najgorszego według wartości miary GDM1
Źródło: opracowanie własne z wykorzystaniem programu R.
Uogólniona miara_Walesiak_Księga1.indb 104
2012-02-19 14:56:22
5.3. OCENA PODOBIEŃSTWA WYNIKÓW PORZĄDKOWANIA LINIOWEGO...
105
print(res$sortedDistances)
# Prezentacja graficzna wyników porządkowania liniowego
gdm_p<-res$distances
plot(cbind(gdm_p,gdm_p),xlim=c(min(gdm_p),max(gdm_p)),
ylim=c(min(gdm_p),max(gdm_p)),xaxt=″n″,xlab=″″,
ylab=″Odległości GDM1 od obiektu wzorca″,
lwd=1.6,las=1)
axis(1,at=gdm_p,labels=names(gdm_p),las=2,cex.axis=0.5)
Wskutek zastosowania procedury ze skryptu 5.2 otrzymano następujące wyniki:
[1] Uporządkowanie województw od najlepszego do najgorszego według
wartości miary GDM1
Pomorskie
Mazowieckie
Wielkopolskie Zachodniopomorskie
0,2354391
0,2375905
0,2769451
0,2769486
Małopolskie
Opolskie
Podlaskie
Polska
0,3334169
0,3575402
0,3871173
0,3950736
Lubelskie Warmińsko-mazurskie
Podkarpackie
Lubuskie
0,4001906
0,4047235
0,4213756
0,4595499
Śląskie
Dolnośląskie Świętokrzyskie Kujawsko-pomorskie
0,5444182
0,5616129
0,5760167
0,6346291
Łódzkie
0,6919274
Najlepsze warunki zamieszkiwania w miastach w roku 2008 były w województwie pomorskim, najgorsze zaś w województwie łódzkim.
5.3
OCENA PODOBIEŃSTWA WYNIKÓW PORZĄDKOWANIA LINIOWEGO
ZBIORU OBIEKTÓW W CZASIE NA PODSTAWIE DANYCH
METRYCZNYCH DOTYCZĄCYCH WARUNKÓW ZAMIESZKIWANIA
LUDNOŚCI W MIASTACH
Dokonano oceny podobieństwa wyników porządkowania liniowego zbioru
obiektów w czasie na podstawie danych metrycznych dotyczących warunków zamieszkiwania ludności w miastach w roku 1999 i 2008 na podstawie zmiennych
ujętych w podrozdziale 5.2.
Tabela 5.3 zawiera dane statystyczne dotyczące 17 obiektów (16 województw
Polski oraz Polska) ze względu na poziom warunków zamieszkiwania ludności w
miastach w roku 1999, a tab. 5.2 z podrozdziału 5.2 analogiczne dane dla roku 2008.
Porządkowanie liniowe zbioru obiektów, na podstawie którego wyznacza się
wartości zmiennych syntetycznych Mt i Mq, jest jednolite w odniesieniu do obu po-
Uogólniona miara_Walesiak_Księga1.indb 105
2012-02-19 14:56:22
106
5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
równywanych okresów (dla lat 1999 i 2008). W składni poleceń dla skryptu 5.3
przyjęto następującą metodykę postępowania:
a) ustalono jeden wspólny wzorzec rozwoju (górny biegun rozwoju) na podstawie macierzy obejmującej dane z lat 1999 i 2008 o następujących współrzędnych:
(100,100,100,100,100,″max″,″min″,″min″,″max″,″max″)
b) do normalizacji wartości zmiennych (normalizacja dotyczy zmiennych ze
wspólnej macierzy danych z lat 1999 i 2008 obejmujących dodatkowo obiekt−wzorzec) zastosowano standaryzację,
c) obliczono odległości od wzorca rozwoju z wykorzystaniem uogólnionej miary odległości GDM1.
Tabela 5.3. Dane statystyczne dotyczące 17 obiektów (16 województw oraz Polska)
ze względu na poziom warunków zamieszkiwania ludności w miastach w roku 1999
Województwo
Polska
Dolnośląskie
Kujawsko-pomorskie
Lubelskie
Lubuskie
Łódzkie
Małopolskie
Mazowieckie
Opolskie
Podkarpackie
Podlaskie
Pomorskie
Śląskie
Świętokrzyskie
Warmińsko-mazurskie
Wielkopolskie
Zachodniopomorskie
Zmienne
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
97,6
98,5
97,6
95,5
99,9
94,1
97,6
96,3
98,6
97,2
96,7
99,2
98,4
94,1
99,8
98,5
100,0
89,4
84,7
88,4
90,2
89,3
83,0
92,9
92,8
91,9
92,1
75,6
94,4
88,8
89,3
94,4
90,3
91,6
87,9
82,5
85,0
88,5
86,9
80,0
92,0
90,3
90,1
91,5
94,2
90,3
87,4
89,1
91,6
88,1
89,1
76,4
89,8
72,5
68,6
79,0
64,4
84,3
80,8
82,4
85,7
48,8
81,6
71,5
70,0
77,3
74,2
81,3
80,3
73,0
78,1
84,8
75,4
76,1
81,2
89,3
78,8
84,6
86,2
83,1
74,4
85,9
84,0
78,2
81,5
3,37
3,33
3,39
3,50
3,51
3,13
3,32
3,22
3,50
3,52
3,67
3,45
3,31
3,31
3,54
3,58
3,51
2,95
2,97
2,99
3,08
3,08
2,64
2,99
2,75
3,02
3,30
3,02
3,08
2,86
3,02
3,19
3,11
3,11
0,88
0,89
0,88
0,88
0,88
0,84
0,90
0,85
0,86
0,94
0,82
0,89
0,86
0,91
0,90
0,87
0,88
56,0
56,2
54,4
56,8
57,5
51,1
56,6
53,3
60,2
59,2
57,6
56,1
56,7
54,5
55,7
61,1
56,8
19,0
18,9
18,2
18,5
18,6
19,4
18,9
19,4
19,9
18,0
19,1
18,2
19,8
18,1
17,5
19,7
18,3
Źródło: Rocznik Statystyczny Województw 2000.
SKRYPT 5.3
library(clusterSim)
x1<-read.csv2(″Warunki_mieszkaniowe_1999.csv″,
header=TRUE,row.names=1)
x2<-read.csv2(″Warunki_mieszkaniowe_2008.csv″,
header=TRUE,row.names=1)
x<-rbind(x1,x2)
options(OutDec=″,″)
Uogólniona miara_Walesiak_Księga1.indb 106
2012-02-19 14:56:22
5.3. OCENA PODOBIEŃSTWA WYNIKÓW PORZĄDKOWANIA LINIOWEGO...
107
res<-pattern.GDM1(x,performanceVariable=
c(″s″,″s″,″s″,″s″,″s″,″s″,″d″,″d″,″s″,″s″),
scaleType=″r″,nomOptValues=NULL,
weightsType=″equal″,normalization=″n1″,
patternType=″upper″,patternCoordinates=″manual″,
patternManual=c(100,100,100,100,100,″max″,″min″,
″min″,″max″,″max″),nominalTransfMethod=NULL)
res_GDM<-as.matrix(res$distances)
res1<-res_GDM[1:nrow(x1),]
res2<-res_GDM[(nrow(x1)+1):nrow(x),]
print(″Obliczenia cząstkowe dla miernika Theila″,
quote=FALSE)
print(″Średnie z wartości zmiennej syntetycznej dla
okresu t oraz q″,quote=FALSE)
print(mean(res1))
print(mean(res2))
print(″Odchylenia standardowe z wartości zmiennej
syntetycznej dla okresu t oraz q″,quote=FALSE)
sd1<-sqrt((1/nrow(x1))*sum((res1-mean(res1))^2))
sd2<-sqrt((1/nrow(x1))*sum((res2-mean(res2))^2))
print(sd1)
print(sd2)
print(″Współczynnik korelacji Pearsona między wartości
zmiennej syntetycznej dla okresu t oraz q″,
quote=FALSE)
print(cor(res1,res2))
print(″Wartość miernika W Theila″,quote=FALSE)
Theil_W<-print(sqrt((1/nrow(x1))*(sum((res2-res1)^2))))
print(″Wartość miernika W kwadrat Theila″,quote=FALSE)
Theil_W_kwadrat<-print((1/nrow(x1))*
(sum((res2-res1)^2)))
print(″Wartość miernika cząstkowego W1 kwadrat Theila″,
quote=FALSE)
Theil_W1_kwadrat<-print((mean(res2)-mean(res1))^2)
print(″Wartość miernika cząstkowego W2 kwadrat Theila″,
quote=FALSE)
Theil_W2_kwadrat<-print((sd2-sd1)^2)
print(″Wartość miernika cząstkowego W3 kwadrat Theila″,
quote=FALSE)
Theil_W3_kwadrat<-print(2*sd2*sd1*(1-cor(res1,res2)))
Wskutek zastosowania procedury ze skryptu 5.3 otrzymano następujące wyniki
(t oznacza rok 1999, a q rok 2008):
Uogólniona miara_Walesiak_Księga1.indb 107
2012-02-19 14:56:22
108
5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
[1] Obliczenia cząstkowe dla miernika Theila
[1] Średnie z wartości zmiennej syntetycznej dla okresu t
oraz q
[1] 0,547752
[1] 0,1974821
[1] Odchylenia standardowe z wartości zmiennej syntetycznej dla okresu t oraz q
[1] 0,08965986
[1] 0,09247885
[1] Współczynnik korelacji Pearsona między wartości zmiennej syntetycznej dla okresu t oraz q
[1] 0,8925485
[1] Wartość miernika W Theila
[1] 0,3528156
[1] Wartość miernika W kwadrat Theila
[1] 0,1244788
[1] Wartość miernika cząstkowego W1 kwadrat Theila
[1] 0,122689
[1] Wartość miernika cząstkowego W2 kwadrat Theila
[1] 7,946705e-06
[1] Wartość miernika cząstkowego W3 kwadrat Theila
[1] 0,001781898
Przeciętny rząd odchyleń wartości porównywanych zmiennych syntetycznych
z lat 1999 i 2008 (miernik W Theila) wyniósł 0,3528. Było to wynikiem głównie
spadku średniej odległości od górnego bieguna rozwoju (miernik cząstkowy
W12 = 0,1245 ), a więc polepszenia przeciętnej sytuacji mieszkaniowej w miastach.
Zanotowano wysoką zgodność kierunku zmian wartości zmiennych syntetycznych
z porównywanych okresów (miernik cząstkowy W32 = 0,0018 dla r = 0,8925 ). Nastąpił niewielki wzrost w zróżnicowaniu wartości zmiennej syntetycznej świadczący
o zwiększeniu (choć nieznacznym) dysproporcji między województwami pod względem poziomu rozwoju warunków mieszkaniowych w miastach ( W22 = 0,0000079
dla St = 0,08966 i S q = 0,09248 ).
5.4
ANALIZA SKUPIEŃ ZBIORU OBIEKTÓW
OPISANYCH DANYMI PORZĄDKOWYMI Z RYNKU NIERUCHOMOŚCI2
W tab. 5.1 zaprezentowano dane dotyczące 27 nieruchomości lokalowych na
jeleniogórskim rynku nieruchomości opisanych 6 zmiennymi. Nieruchomość 1 jest
wyceniana, natomiast nieruchomości od 2 do 27 to nieruchomości porównywalne,
2
Opracowano na podstawie artykułu [Walesiak 2011b].
Uogólniona miara_Walesiak_Księga1.indb 108
2012-02-19 14:56:23
5.4. ANALIZA SKUPIEŃ ZBIORU OBIEKTÓW...
109
dla których znane są ceny transakcyjne (dane zapisano w pliku data_patternGDM2).
Na podstawie danych z tab. 5.1 przeprowadzono klasyfikację spektralną
27 nieruchomości lokalowych na jeleniogórskim rynku nieruchomości, opisanych
6 zmiennymi z wykorzystaniem odległości GDM2. W pierwszej fazie należy ustalić,
na ile klas podzielić badany zbiór obiektów. W tym celu zastosowano metodę Girolamiego ujętą w postaci skryptu 5.4.
SKRYPT 5.43
library(clusterSim)
library(panel)
options(OutDec=″,″)
d<-data(data_patternGDM2)
d<-data_patternGDM2
dist<-dist.GDM(d,method=″GDM2″)
gdm<-as.matrix(dist)
e<-eddcmp(exp(-gdm))
k<-sort(apply(e$evalues*e$evectors^2,2,sum)/
(nrow(d)^2),decreasing=TRUE)
barplot(k[1:15],xlab=expression(k[i]),names.arg=1:15)
0,000
0,005
0,010
0,015
Rysunek 5.3 wskazuje dwa lub cztery dominujące elementy tego wektora K
w metodzie Girolamiego. W przeprowadzonym badaniu zdecydowano się podzielić
zbiór obiektów na cztery klasy.
1
2
3 4
5
6
7
8
9 10 11 12 13 14 15
Rys. 5.3. Uporządkowane składowe wektora K w metodzie Girolamiego służącej do ustalenia
optymalnej liczby klas
Źródło: opracowanie własne z wykorzystaniem programu R.
3
Współautorem skryptu jest dr Andrzej Dudek.
Uogólniona miara_Walesiak_Księga1.indb 109
2012-02-19 14:56:23
110
5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
Następnie z wykorzystaniem skryptu 5.5 (funkcja speccl pakietu clusterSim) przeprowadzono klasyfikację spektralną 27 nieruchomości lokalowych na jeleniogórskim rynku nieruchomości, opisanych 6 zmiennymi.
SKRYPT 5.5
library(kernlab)
library(mlbench)
library(clusterSim)
library(panel)
data(data_patternGDM2)
x<-data_patternGDM2
options(OutDec=″,″)
res<-speccl(x,nc=4,distance=″GDM2″,sigma=″automatic″,
mod.sample=0.75,R=10,iterations=3)
print(“Liczba obiektów w klasach″,quote=F)
print(res$size)
print(″Optymalna sigma″,quote=F)
print(res$sigma)
clas1<-res$cluster
xx<-1:nrow(x)
dim(clas1)<-c(length(clas1),1)
cl_wyn1<-as.data.frame(clas1)
row.names(cl_wyn1)<-xx
colnames(cl_wyn1)<-″klasa″
print(″Prezentacja klasyfikacji wynikowej –
uporządkowana″,quote=F)
ord<-order(cl_wyn1[,″klasa″],decreasing=F)
cl_wyn2<-as.data.frame(cl_wyn1[ord,])
row.names(cl_wyn2)<-xx[ord]
colnames(cl_wyn2)<-″klasa″
print(cl_wyn2)
desc<-cluster.Description(x,clas1,″population″)
print(″Dominanty″,quote=F)
print(desc[,,5])
W efekcie zastosowania procedury ze skryptu 5.5 otrzymano następujące wyniki
klasyfikacji 27 nieruchomości (dla ułatwienia interpretacji wyników klasyfikacji
spektralnej dla zmiennych z poszczególnych klas obliczono dominanty):
[1] Liczba obiektów w klasach
[1] 9 4 5 9
Uogólniona miara_Walesiak_Księga1.indb 110
2012-02-19 14:56:23
5.4. ANALIZA SKUPIEŃ ZBIORU OBIEKTÓW...
111
[1] Optymalna sigma
[1] 106,1651
[1] Prezentacja klasyfikacji wynikowej - uporządkowana
klasa
1
1
4
1
10
1
17
1
19
1
20
1
25
1
26
1
27
1
2
2
7
2
14
2
15
2
6
3
16
3
18
3
21
3
24
3
3
4
5
4
8
4
9
4
11
4
12
4
13
4
22
4
23
4
[1] Dominanty
[,1] [,2] [,3] [,4] [,5] [,6]
[1,]
3
3
1
3
2
3
[2,]
3
4
3
3
2
2
[3,]
4
3
2
3
1
NA
[4,]
5
4
3
4
1
2
Nieruchomość wyceniana znalazła się w pierwszej klasie, zatem do jej wyceny
należy wykorzystać dane z pozostałych nieruchomości w tej klasie (są to nieruchomości o numerach: 4, 10, 17, 19, 20, 25, 26, 27).
Uogólniona miara_Walesiak_Księga1.indb 111
2012-02-19 14:56:23
112
5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
5.5
ANALIZA SKUPIEŃ ZBIORU OBIEKTÓW OPISANYCH
DANYMI METRYCZNYMI
DOTYCZĄCYMI ZANIECZYSZCZENIA POWIETRZA
W analizie zanieczyszczenia powietrza 17 obiektów (16 województw plus Polska) uwzględniono następujące zmienne:
x1 – gęstość sieci drogowej (drogi publiczne o twardej nawierzchni) w km na
100 km2 powierzchni,
x2 – samochody osobowe zarejestrowane na 1000 ludności,
x3 – emisja zanieczyszczeń pyłowych w tonach na 1 km2 powierzchni,
x4 – emisja dwutlenku siarki w tonach na 1 km2 powierzchni,
x5 – emisja tlenku azotu w tonach na 1 km2 powierzchni,
x6 – emisja tlenku węgla w tonach na 1 km2 powierzchni.
W tab. 5.3 zaprezentowano dane dotyczące zanieczyszczenia powietrza 17 obiektów (16 województw plus Polska).
Na podstawie danych z tab. 5.4 przeprowadzono klasyfikację 17 obiektów (16
województw plus Polska) ze względu na zanieczyszczenie powietrza w roku 2007.
Tabela 5.4. Dane dotyczące zanieczyszczenia powietrza 17 obiektów (16 województw plus Polska)
w roku 2007
Województwo
x1
x2
x3
x4
x5
x6
Polska
82,8
382,7
0,303
2,649
1,153
1,199
Dolnośląskie
91,5
381,2
0,336
3,053
1,048
0,556
Kujawsko-pomorskie
80,1
355,2
0,295
1,575
0,829
0,940
Lubelskie
73,7
347,2
0,187
0,748
0,418
0,306
Lubuskie
59,2
402,4
0,114
0,236
0,157
2,166
Łódzkie
93,4
373,2
0,428
6,241
2,766
0,878
Małopolskie
147,7
376,2
0,481
3,715
1,680
3,043
Mazowieckie
85,9
440,4
0,278
3,347
1,384
0,672
Opolskie
89,2
414,2
0,414
1,445
2,656
2,423
Podkarpackie
79,9
343,1
0,151
0,661
0,353
0,230
Podlaskie
55,7
340,2
0,084
0,213
0,168
0,228
Pomorskie
64,1
385,8
0,191
1,294
0,497
0,322
Śląskie
164,5
374,0
1,768
12,332
6,113
10,735
Świętokrzyskie
105,7
353,6
0,333
2,434
1,605
2,878
50,9
332,6
0,058
0,190
0,095
0,108
Warmińsko-mazurskie
Wielkopolskie
86,5
437,9
0,235
5,515
0,986
0,382
Zachodniopomorskie
57,3
337,2
0,249
1,079
0,751
0,218
Źródło: Rocznik Statystyczny Województw 2008.
Uogólniona miara_Walesiak_Księga1.indb 112
2012-02-19 14:56:23
5.5. ANALIZA SKUPIEŃ ZBIORU OBIEKTÓW...
113
Przeprowadzając analizę skupień, w składni poleceń dla skryptu 5.6 przyjęto
następującą metodykę postępowania:
– zastosowano standaryzację (type=″n1″) do normalizacji wartości zmiennych.
Wszystkie zmienne mierzone są tutaj na skali ilorazowej,
– do wyznaczenia macierzy odległości zastosowano miarę odległości GDM1 dla
danych metrycznych (funkcja dist.GDM, dla której method=″GDM1″),
– zastosowano metodę klasyfikacji pam w powiązaniu z indeksem oceny jakości
klasyfikacji indeks gap (index.Gap) do podziału zbioru obiektów na klasy
względnie jednorodne.
SKRYPT 5.6
library(clusterSim)
set.seed(123) #Ustawienie generatora liczb losowych
#Wczytanie zbioru danych
xx<-read.csv2(″Dane_zp_2007.csv″,header=TRUE)
x<-as.matrix(xx[,2:ncol(xx)])
options(OutDec=″,″)
#Wybór formuły normalizacji wartości zmiennych
z<-data.Normalization(x,type=″n1″)
#Wybór miary odległości
z<-as.data.frame(z)
d<-dist.GDM(z,method=″GDM1″)
print(″Ustalenie liczby klas z wykorzystaniem indeksu
gap″,quote=FALSE)
min_liczba_klas<-2
max_liczba_klas<-10
min<-0
clopt<-NULL
wyn<-NULL
wyniki<-array(0,c(max_liczba_klas-min_liczba_klas+1,2))
wyniki[,1]<-min_liczba_klas:max_liczba_klas
znaleziono<-FALSE
for(liczba_klas in min_liczba_klas:max_liczba_klas){
cl1<-pam(d,liczba_klas,diss=TRUE)
cl2<-pam(d,liczba_klas+1,diss=TRUE)
clall<-cbind(cl1$clustering,cl2$clustering)
Gap<-index.Gap(z,clall,reference.distribution=″pc″,
B=10,method=″pam″)
wyniki[liczba_klas-min_liczba_klas+1,2]<diffu<-Gap$diffu
if((wyniki[liczba_klas-min_liczba_klas+1,2]>=0)&&
Uogólniona miara_Walesiak_Księga1.indb 113
2012-02-19 14:56:23
114
5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
(!znaleziono)){
lk<-liczba_klas
min<-diffu
clopt<-cl1$cluster
wyn<-cl1$clusinfo
znaleziono<-TRUE
}
}
if(znaleziono){
print(paste(″Minimalna liczba klas dla
diffu>=0 wynosi″,lk,″dla diffu=″,
round(min, 4)),quote=FALSE)
}else{
print(″Nie znalazłem klasyfikacji, dla której
diffu>=0″,quote=FALSE)
}
#Zapisanie do pliku diffu.csv wartości indeksu gap
write.table(wyniki,file=″diffu.csv″,sep=″;″,dec=″,″,
row.names=TRUE,col.names=FALSE)
print(″Prezentacja klasyfikacji wynikowej″,quote=FALSE)
cl_wyn1<-data.frame(xx[, 1],clopt)
colnames(cl_wyn1)<-c(″województwa″,″klasa″)
print(cl_wyn1)
print(″Prezentacja klasyfikacji wynikowej –
uporządkowana″,quote=FALSE)
cl_wyn2<-cl_wyn1[order(cl_wyn1[,″klasa″],decreasing=FAL
SE),]
cl_wyn2<-data.frame(cl_wyn2)
print(cl_wyn2)
#Zapisanie do pliku clusinfo.csv dodatkowych informacji
o wyodrębnionych klasach
write.table(wyn,file=″clusinfo.csv″,sep=″;″,dec=″,″,
row.names=TRUE,col.names=TRUE)
plot(wyniki,type=″p″,pch=0,
xlab=″Liczba klas″,ylab=″diffu″,xaxt=″n″)
abline(h=0,untf=FALSE)
axis(1,c(min_liczba_klas:max_liczba_klas))
desc<-cluster.Description(x,clopt,″population″)
print(″Średnie arytmetyczne″,quote=FALSE)
print(desc[,,1])
print(″Odchylenia standardowe″,quote=FALSE)
print(desc[,,2])
Uogólniona miara_Walesiak_Księga1.indb 114
2012-02-19 14:56:23
115
5.5. ANALIZA SKUPIEŃ ZBIORU OBIEKTÓW...
Wskutek zastosowania skryptu 5.6 otrzymano następujące wyniki klasyfikacji:
– ustalono liczbę klas z wykorzystaniem indeksu gap (zob. rys. 5.4):
[1] Minimalna liczba klas dla diffu>=0 wynosi 3 dla diffu= 0,0965
0,2
diffu
0,0
–0,2
–0,4
–0,6
2
3
4
5
6
7
8
9
10
Liczba klas
Rys. 5.4. Graficzna prezentacja wartości indeksu gap
Źródło: opracowanie własne z wykorzystaniem programu R.
– zapisano przyporządkowanie województw do wyodrębnionych klas:
[1] Prezentacja klasyfikacji wynikowej
województwa klasa
1
Polska
1
2
Dolnośląskie
1
3
Kujawsko-pomorskie
2
4
Lubelskie
2
5
Lubuskie
1
6
Łódzkie
1
7
Małopolskie
1
8
Mazowieckie
1
9
Opolskie
1
10
Podkarpackie
2
11
Podlaskie
2
Uogólniona miara_Walesiak_Księga1.indb 115
2012-02-19 14:56:23
116
12
13
14
15
16
17
5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
Pomorskie
Śląskie
Świętokrzyskie
Warmińsko-mazurskie
Wielkopolskie
Zachodniopomorskie
1
3
1
2
1
2
[1] Prezentacja klasyfikacji wynikowej - uporządkowana
województwa klasa
1
Polska
1
2
Dolnośląskie
1
5
Lubuskie
1
6
Łódzkie
1
7
Małopolskie
1
8
Mazowieckie
1
9
Opolskie
1
12
Pomorskie
1
14
Świętokrzyskie
1
16
Wielkopolskie
1
3
Kujawsko-pomorskie
2
4
Lubelskie
2
10
Podkarpackie
2
11
Podlaskie
2
15 Warmińsko-mazurskie
2
17
Zachodniopomorskie
2
13
Śląskie
3
–
wyznaczono i zinterpretowano charakterystyki dla poszczególnych klas (obliczono średnie arytmetyczne oraz odchylenia standardowe):
[1] Średnie arytmetyczne
[,1]
[,2]
[,3]
[,4]
[,5]
[,6]
[1,] 90,60000 394,7600 0,3113000 2,9929000 1,3932000 1,4519000
[2,] 66,26667 342,5833 0,1706667 0,7443333 0,4356667 0,3383333
[3,] 164,50000 374,0000 1,7680000 12,3320000 6,1130000 10,7350000
Podkreślenia oznaczają wartości minimalne, a pogrubienia wartości maksymalne dla poszczególnych zmiennych w klasach.
[1] Odchylenia standardowe
[,1]
[,2]
[,3]
[,4]
[,5]
[,6]
[1,] 22,99343 27,006303 0,10697855 1,7571272 0,7924946 1,0121213
[2,] 11,97688 7,246704 0,08411632 0,4827987 0,2735542 0,2752246
[3,] 0,00000 0,000000 0,00000000 0,0000000 0,0000000 0,0000000
Uogólniona miara_Walesiak_Księga1.indb 116
2012-02-19 14:56:23
5.5. ANALIZA SKUPIEŃ ZBIORU OBIEKTÓW...
117
W klasie jednoelementowej o numerze trzy znalazło się województwo śląskie o
najwyższym poziomie zanieczyszczenia powietrza. Klasa druga obejmuje 6 województw o najniższym poziomie zanieczyszczenia powietrza (są to województwa
stanowiące tzw. zielone płuca Polski). Pozostałe 9 województw (plus obiekt Polska)
trafiło do klasy pierwszej. Województwa te charakteryzują się średnimi poziomami
zanieczyszczenia powietrza.
Wykorzystując analizę replikacji (skrypt 5.7), oceniono poziom stabilności przeprowadzonej klasyfikacji zbioru obiektów.
SKRYPT 5.7
lk<-3 # Liczba klas ustalona w skrypcie 5.6
nor<-″n1″ # Formuła normalizacyjna zastosowana w
skrypcie 5.6
odl<-″d5″ # Miara odległości zastosowana w skrypcie 5.6
library(clusterSim)
set.seed(123) # Ustawienie generatora liczb losowych
x<-read.csv2(″Dane_zp_2007.csv″, header=TRUE,
row.names=1)
x<-as.matrix(x)
options(OutDec=″,″)
w<-replication.Mod(x,v=″m″,u=lk,
centrotypes=″centroids″, normalization=nor,
distance=odl,method=″pam″,S=20,fixedAsample=NULL)
print(w$cRand)
W wyniku zastosowania skryptu 5.7 otrzymano następujący rezultat:
[1] 0,571164
Poziom wartości skorygowanej miary Randa odzwierciedla stabilność przeprowadzonej klasyfikacji zbioru obiektów. Otrzymana wartość skorygowanej miary
Randa świadczy o relatywnie stabilnym podziale 17 obiektów (Polska plus 16 województw) na trzy klasy.
Uogólniona miara_Walesiak_Księga1.indb 117
2012-02-19 14:56:23
LITERATURA
Abrahamowicz M. (1985), Konstrukcja syntetycznych mierników rozwoju w świetle twierdzenia Arrowa, Prace Naukowe AE we Wrocławiu nr 311, AE, Wrocław, 5-25.
Abrahamowicz M., Zając K. (1986), Metoda ważenia zmiennych w taksonomii numerycznej i procedurach porządkowania liniowego, Prace Naukowe AE we Wrocławiu nr 328, AE, Wrocław, 5-17.
Ackoff R.L. (1969), Decyzje optymalne w badaniach stosowanych, PWN, Warszawa.
Adams E.W., Fagot R.F., Robinson R.E. (1965), A theory of appropriate statistics, „Psychometrika”,
(30), 99-127.
Ajvazjan S.A., Mchitarjan W.S. (1998), Prikladnaja statistika i osnowy ekonometriki, Juniti, Moskva.
Aldenderfer M.S., Blashfield R.K. (1984), Cluster analysis, Sage, Beverly Hills.
Anderberg M.R. (1973), Cluster analysis for applications, Academic Press, New York, San Francisco,
London.
Atlas R.S., Overall J.E. (1994), Comparative evaluation of two superior stopping rules for hierarchical
cluster analysis, „Psychometrika”, 59, 581-591.
Bąk A. (1999), Modelowanie symulacyjne wybranych algorytmów wielowymiarowej analizy porównawczej w języku C++, AE, Wrocław.
Bock H.H., Diday E. (ed.) (2000), Analysis of symbolic data, Springer-Verlag, Berlin, Heidelberg.
Borys T. (1978), Metody normowania cech statystycznych w badaniach porównawczych. „Przegląd
Statystyczny”, z. 2, 227-239.
Borys T. (1984), Kategoria jakości w statystycznej analizie porównawczej, Prace Naukowe AE
we Wrocławiu nr 284, Seria: Monografie i Opracowania nr 23, AE, Wrocław.
Breckenridge J.N. (2000), Validating cluster analysis: consistent replication and symmetry, „Multivariate Behavioral Research”, 35 (2), 261-285.
Carmone F.J., Kara A., Maxwell S. (1999), HINoV: a new method to improve market segment definition
by identifying noisy variables, „Journal of Marketing Research”, November, vol. 36, 501-509.
Cegiełka K., Stachowski E., Szymański K. (red.) (2000), Matematyka. Encyklopedia dla wszystkich,
WNT, Warszawa.
Choynowski M. (1971), Pomiar w psychologii, [w:] J. Kozielecki (red.), Problemy psychologii matematycznej, PWN, Warszawa, 15-41.
Cormack R.M. (1971), A review of classification (with discussion), „Journal of the Royal Statistical
Society”, A, part 3, 321-367.
Cox T.F., Cox M.A.A. (2000), A general weighted two-way dissimilarity coefficient, „Journal of Classification”, vol. 17, 101-121.
Cramer H. (1958), Metody matematyczne w statystyce, PWN, Warszawa.
Czerwińska D., Gemborzewski H. (1975), O współczynniku Renkonena podobieństwa zbiorów, „Listy
Biometryczne”, nr 49-50, 19-24.
Dąbrowski M., Laus-Mączyńska K. (1978), Metody wyszukiwania i klasyfikacji informacji, WNT, Warszawa.
Domański C. (1979), Statystyczne testy nieparametryczne, PWE, Warszawa.
Dudoit S., Fridlyand J. (2002), A prediction-based resampling method for estimating the number
of clusters in a dataset, „Genome Biology”, 3(7).
Dziechciarz J., Strahl D., Walesiak M. (2001), Data set normalisation for banks performance assessment, Prace Naukowe AE we Wrocławiu nr 915, AE, Wrocław, 21-32.
Everitt B.S. (1979), The analysis of contingency tables, Chapman and Hall, London.
Everitt B.S., Landau S., Leese M. (2001), Cluster analysis, Edward Arnold, London.
Uogólniona miara_Walesiak_Księga1.indb 118
2012-02-19 14:56:24
LITERATURA
119
Everitt B.S., Landau S., Leese M., Stahl D. (2011), Cluster analysis, Wiley, Chichester.
Fischer I., Poland J. (2004), New methods for spectral clustering, Technical Report No. IDSIA-12-04,
Dalle Molle Institute for Artificial Intelligence, Manno-Lugano, Switzerland.
Fowlkes E.B., Mallows C.L. (1983), A method for comparing two hierarchical clusterings, „Journal
of the American Statistical Association”, no. 383, 553-569.
Gatnar E. (1998), Symboliczne metody klasyfikacji danych, PWN, Warszawa.
Girolami M. (2002), Mercer kernel-based clustering in feature space, IEEE Transactions on Neural
Networks, vol. 13, no. 3, 780-784.
Gnanadesikan R., Kettenring J.R., Tsao S.L. (1995), Weighting and selection of variables for cluster
analysis, „Journal of Classification”, vol. 12, 113-136.
Goodman L.A., Kruskal W.H. (1979), Measures of association for cross classifications, Springer-Verlag, New York, Heidelberg.
Gordon A.D. (1981), Classification, Chapman and Hall, London.
Gordon A.D. (1987), A review of hierarchical classification, „Journal of the Royal Statistical Society”,
A, 119-137.
Gordon A.D. (1996), Hierarchical classification, [w:] P. Arabie, L.J. Hubert, G. de Soete (eds.), Clustering and classification, World Scientific, Singapore, 65-121.
Gordon A.D. (1999), Classification, 2nd Edition, Chapman and Hall/CRC, London.
Gower J.C. (1971), A general coefficient of similarity and some of its properties, „Biometrics”, vol. 27,
no. 4, 857-871.
Grabiński T. (1980), Metody analizy zbieżności wyników dyskryminacji zbiorów, Zeszyty Naukowe AE
w Krakowie nr 127, AE, Kraków, 5-36.
Grabiński T. (1984), Wielowymiarowa analiza porównawcza w badaniach dynamiki zjawisk ekonomicznych, Zeszyty Naukowe AE w Krakowie, Seria specjalna: Monografie nr 61, AE, Kraków.
Grabiński T. (1992), Metody taksonometrii, AE, Kraków.
Grabiński T., Wydymus S., Zeliaś A. (1989), Metody taksonomii numerycznej w modelowaniu zjawisk
społeczno-gospodarczych, PWN, Warszawa.
Grabisch M. (2001), On preference representation on an ordinal scale, [w:] S. Benferhat, P. Besnard
(eds.), Symbolic and quantitative approaches to reasoning with uncertainty, Springer-Verlag, Berlin, Heidelberg, New York, 18-28.
Hand D.J. (1996), Statistics and the theory of measurement, „Journal of the Royal Statistical Society”,
A, (3), 445-492.
Hastie T., Tibshirani R., Friedman J. (2001), The elements of statistical learning. Data mining, inference, and prediction, Springer-Verlag, New York, Berlin, Heidelberg.
Hellwig Z. (1968), Zastosowanie metody taksonomicznej do typologicznego podziału krajów ze względu na poziom ich rozwoju i strukturę wykwalifikowanych kadr, „Przegląd Statystyczny”, z. 4,
307-327.
Hellwig Z. (1975), Elementy rachunku prawdopodobieństwa i statystyki matematycznej, PWN, Warszawa.
Hellwig Z. (1981), Wielowymiarowa analiza porównawcza i jej zastosowanie w badaniach wielocechowych obiektów gospodarczych, [w:] W. Welfe (red.), Metody i modele ekonomiczno-matematyczne
w doskonaleniu zarządzania gospodarką socjalistyczną, PWE, Warszawa, 46-68.
Hubert L., Arabie P. (1985), Comparing partitions, „Journal of Classification”, no. 1, 193-218.
Jajuga K. (1981), Metody analizy wielowymiarowej w ilościowych badaniach przestrzennych, Praca
doktorska, AE, Wrocław
Jajuga K. (1987), Statystyka ekonomicznych zjawisk złożonych – wykrywanie i analiza niejednorodnych
rozkładów wielowymiarowych, Prace Naukowe AE we Wrocławiu nr 371, Seria: Monografie i Opracowania nr 39, AE, Wrocław.
Jajuga K. (1989), Podstawowe metody analizy wielowymiarowej w przypadku występowania zmiennych mierzonych na różnych skalach, Praca wykonana w ramach CPBP 10.09, AE, Wrocław.
Uogólniona miara_Walesiak_Księga1.indb 119
2012-02-19 14:56:24
120
LITERATURA
Jajuga K. (1990), Statystyczna teoria rozpoznawania obrazów, PWN, Warszawa.
Jajuga K. (1993), Statystyczna analiza wielowymiarowa, PWN, Warszawa.
Jajuga K., Walesiak M. (2000), Standardisation of data set under different measurement scales, [w:]
R. Decker, W. Gaul (eds.), Classification and information processing at the turn of the millennium,
Springer-Verlag, Berlin, Heidelberg, 105-112.
Jajuga K., Walesiak M. (2004), Remarks on the dependence measures and the distance measures, Prace
Naukowe AE we Wrocławiu nr 1022, AE, Wrocław, 348-354.
Jajuga K., Walesiak M., Bąk A. (2003), On the general distance measure, [w:] M. Schwaiger, O. Opitz
(eds.), Exploratory data analysis in empirical research, Springer-Verlag, Berlin, Heidelberg,
104-109.
Karatzoglou A. (2006), Kernel methods. Software, algorithms and applications, Rozprawa doktorska,
Uniwersytet Techniczny w Wiedniu.
Kaufman L., Rousseeuw P.J. (1990), Finding groups in data: an introduction to cluster analysis, Wiley,
New York.
Kendall M.G. (1955), Rank correlation methods, Griffin, London.
Kendall M.G. (1966), Discrimination and classification, [w:] P.R. Krishnaiah (ed.), Multivariate analysis I, Academic Press, New York, London, 165-185.
Kendall M.G., Buckland W.R. (1986), Słownik terminów statystycznych, PWE, Warszawa.
Knapp T.R. (1990), Treating ordinal scales as interval scales: an attempt to resolve the controversy,
„Nursing Research”, vol. 39, no. 2, 121-123.
Kolonko J. (1979), O wykorzystaniu w badaniach taksonomicznych danych pierwotnych mierzonych
na skalach różnego typu, Materiały konferencyjne nt. Metody taksonomiczne i ich zastosowanie
w badaniach ekonomicznych, Szklarska Poręba, 25 października 1979 r. (materiał powielony).
Kolonko J. (1980), Analiza dyskryminacyjna i jej zastosowania w ekonomii, PWN, Warszawa.
Kolupa M. (1976), Elementarny wykład algebry liniowej dla ekonomistów, PWN, Warszawa.
Kukuła K. (2000), Metoda unitaryzacji zerowanej, PWN, Warszawa.
Legendre P., Legendre L. (2003), Numerical ecology, Elsevier, Amsterdam.
Lerman J.C. (1988), Comparing partitions (mathematical and statistical aspects), [w:] H.H. Bock (ed.),
Classification and related methods of data analysis, North-Holland, Amsterdam, 121-131.
Lira J., Wagner W., Wysocki F. (2002), Mediana w zagadnieniach porządkowania liniowego obiektów
wielocechowych, [w:] J. Paradysz (red.), Statystyka regionalna w służbie samorządu lokalnego
i biznesu, Internetowa Oficyna Wydawnicza, Centrum Statystyki Regionalnej, AE, Poznań, 87-99.
Macnaughton-Smith P., Williams W.T., Dale M.B., Mockett L.G. (1964), Dissimilarity analysis: a new
technique of hierarchical sub-division, „Nature”, 202, 1034-1035.
Makarenkov V., Legendre P. (2001), Optimal variable weighting for ultrametric and additive trees and
K-means partitioning methods and software, „Journal of Classification”, vol. 18, 245-271.
Milligan G.W. (1985), An algorithm for generating artificial test clusters, „Psychometrika”, no. 1,
123-127.
Milligan G.W. (1989), A validation study of a variable weighting algorithm for cluster analysis, „Journal of Classification”, no. 1, 53-71.
Milligan G.W. (1994), Issues in applied classification: selection of variables to cluster, Classification
Society of North America Newsletter, November, Issue 37.
Milligan G.W. (1996), Clustering validation: results and implications for applied analyses, [w:]
P. Arabie, L.J. Hubert, G. de Soete (eds.), Clustering and classification, World Scientific, Singapore, 341-375.
Milligan G.W., Cooper M.C. (1988), A study of standarization of variables in cluster analysis, „Journal
of Classification”, no. 2, 181-204.
Uogólniona miara_Walesiak_Księga1.indb 120
2012-02-19 14:56:24
LITERATURA
121
Ng A., Jordan M., Weiss Y. (2002), On spectral clustering: analysis and an algorithm, W: T. Dietterich,
S. Becker, Z. Ghahramani (eds.), Advances in Neural Information Processing Systems 14, MIT
Press, 849-856.
Nowak E. (1985), Wskaźnik podobieństwa wyników podziałów, „Przegląd Statystyczny”, z. 1, 41-48.
Nowak E. (1990), Metody taksonomiczne w klasyfikacji obiektów społeczno-gospodarczych, PWE,
Warszawa.
Ostasiewicz W. (1975), Możliwość uogólnienia miar zależności stochastycznej, „Przegląd Statystyczny”, z. 2, 229-240.
Ostasiewicz W. (red.) (1998), Statystyczne metody analizy danych, AE, Wrocław.
Pawlukowicz R. (2006), Klasyfikacja w wyborze nieruchomości podobnych dla potrzeb wyceny rynkowej nieruchomości, Ekonometria 16, Prace Naukowe AE we Wrocławiu nr 1100, AE, Wrocław,
232-240.
Pawlukowicz R. (2010), Wykorzystanie metodyki porządkowania liniowego do określania wartości
rynkowej nieruchomości, Taksonomia 17, Prace Naukowe UE we Wrocławiu nr 107, UE, Wrocław, 377-385.
Pawłowski T. (1969), Metodologiczne zagadnienia humanistyki, PWN, Warszawa.
Pawłowski Z. (1973), Prognozy ekonometryczne, PWN, Warszawa.
Perona P., Freeman W.T. (1998), A factorization approach to grouping, Lecture Notes In Computer
Science; vol. 1406, Proceedings of the 5th European Conference on Computer Vision, vol. I,
655-670.
Pociecha J. (1986), Statystyczne metody segmentacji rynku, Zeszyty Naukowe AE w Krakowie, Seria
specjalna: Monografie nr 71, AE, Kraków.
Podani J. (1999), Extending Gowers general coefficient of similarity to ordinal characters, „Taxon”,
48, 331-340.
Poland J., Zeugmann T. (2006), Clustering the Google distance with eigenvectors and semidefinite
programming, Knowledge Media Technologies, First International Core-to-Core Workshop, Dagstuhl, July 23-27, 2006, Germany (Klaus P. Jantke & Gunther Kreuzberger, Eds., Diskussionsbeiträge, Institut für Medien und Kommunikationswisschaft, Technische Universität Ilmenau, No.
21, pp. 61-69, July 2006).
Prymon M. (1991), Marketing w kierowaniu firmą, AG Master, Wrocław.
Qiu W., Joe H. (2006), Generation of random clusters with specified degree of separation, „Journal of
Classification”, vol. 23, 315-334.
R Development Core Team (2011), R: A language and environment for statistical computing, R Foundation for Statistical Computing, Vienna, URL http://www.R-project.org.
Rand W.M. (1971), Objective criteria for the evaluation of clustering methods, „Journal of the American Statistical Association”, no. 336, 846-850.
Rybaczuk M. (2002), Graficzna prezentacja struktury danych wielowymiarowych, Prace Naukowe AE
we Wrocławiu nr 942, AE, Wrocław, 146-153.
Sneath P.H.A., Sokal R.R. (1973), Numerical taxonomy, W.H. Freeman and Co., San Francisco.
Soffritti G. (2003), Identifying multiple cluster structures in a data matrix, „Communications in Statistics. Simulation and Computation”, vol. 32, no. 4, 1151–1177.
Sokołowski A. (1976), Metoda porównywania wyników podziału zbioru skończonego, XII Konferencja
Naukowa Statystyków, Ekonometryków i Matematyków Akademii Ekonomicznych Polski Południowej, Karpacz, 2-4.04.1976 r. (materiał powielony).
Sokołowski A. (1992), Empiryczne testy istotności w taksonomii, Zeszyty Naukowe AE w Krakowie,
Seria specjalna: Monografie nr 108, AE, Kraków.
Steczkowski J., Zeliaś A. (1997), Metody statystyczne w badaniach cech jakościowych, AE, Kraków.
Steczkowski J., Zeliaś A. (1981), Statystyczne metody analizy cech jakościowych, PWE, Warszawa.
Steinley D., Henson R. (2005), OCLUS: an analytic method for generating clusters with known overlap, „Journal of Classification”, vol. 22, 221-250.
Uogólniona miara_Walesiak_Księga1.indb 121
2012-02-19 14:56:24
122
LITERATURA
Stevens S.S. (1946), On the theory of scales of measurement, „Science”, vol. 103, no. 2684, 677-680.
Stevens S.S. (1959), Measurement, psychophysics and utility, [w:] C.W. Churchman, P. Ratoosh (eds.),
Measurement; definitions and theories, Wiley, New York, 18-61.
Strahl D. (1978), Propozycja konstrukcji miary syntetycznej, „Przegląd Statystyczny”, z. 2, 205-215.
Strahl D., Walesiak M. (1997), Normalizacja zmiennych w skali przedziałowej i ilorazowej w referencyjnym systemie granicznym, „Przegląd Statystyczny”, z. 1, 69-77.
Szmigiel C. (1976), Wskaźnik zgodności kryteriów podziału, „Przegląd Statystyczny”, z. 4, 491-498.
Tibshirani R., Walther G. (2005), Cluster validation by predicting strength, „Journal of Computational
and Graphical Statistics”, vol. 14, no. 3, 511-528.
Tibshirani R., Walther G., Hastie T. (2001), Estimating the number of clusters in a data set via the gap
statistic, „Journal of the Royal Statistical Society”, B, vol. 63, part 2, 411-423.
von Luxburg U. (2006), A tutorial on spectral clustering, Max Planck Institute for Biological Cybernetics, Technical Report TR-149.
Walenta K. (1971), Podstawowe pojęcia teorii pomiaru, [w:] J. Kozielecki (red.), Problemy psychologii
matematycznej, PWN, Warszawa, 43-63.
Walesiak M. (1985a), Metody klasyfikacji w badaniach strukturalnych, Rozprawa doktorska, AE, Wrocław.
Walesiak M. (1985b), Sposoby rejestracji zmian w czasie w wynikach klasyfikacji, Prace Naukowe AE
we Wrocławiu nr 311, AE, Wrocław, 191-203.
Walesiak M. (1988), Skale pomiaru cech (w ujęciu zwężonym) a zagadnienie wyboru postaci analitycznej syntetycznych mierników rozwoju, Prace Naukowe AE we Wrocławiu nr 447, AE, Wrocław,
63-71.
Walesiak M. (1990a), Porównawcza analiza miar zgodności wyników klasyfikacji w świetle postulowanych własności, [w:] J. Pociecha (red.), Taksonomia – teoria i jej zastosowania, AE, Kraków,
13-19.
Walesiak M. (1990b), Syntetyczne badania porównawcze w świetle teorii pomiaru, „Przegląd Statystyczny”, z. 1-2, 37-46.
Walesiak M. (1991), O stosowalności miar korelacji w analizie wyników pomiaru porządkowego, Prace
Naukowe AE we Wrocławiu nr 600, AE, Wrocław, 13-19.
Walesiak M. (1993a), Statystyczna analiza wielowymiarowa w badaniach marketingowych, Prace Naukowe AE we Wrocławiu nr 654, Seria: Monografie i Opracowania nr 101, AE, Wrocław.
Walesiak M. (1993b), Strategie postępowania w badaniach statystycznych w przypadku zbioru zmiennych mierzonych na skalach różnego typu, „Badania Operacyjne i Decyzje”, nr 1, 71-77.
Walesiak M. (1993c), Zagadnienie oceny podobieństwa zbioru obiektów w czasie w syntetycznych badaniach porównawczych, „Przegląd Statystyczny”, z. 1, 95-102.
Walesiak M. (1995), The analysis of factors influencing the choice of the methods in the statistical
analysis of marketing data, „Statistics in Transition”, June, vol. 2, no. 2, 185-194.
Walesiak M. (1996), Metody analizy danych marketingowych, PWN, Warszawa.
Walesiak M. (1999), Distance measure for ordinal data, „Argumenta Oeconomica”, no 2 (8), 167-173.
Walesiak M. (2002a), Propozycja uogólnionej miary odległości w statystycznej analizie wielowymiarowej, [w:] J. Paradysz (red.), Statystyka regionalna w służbie samorządu lokalnego i biznesu, Internetowa Oficyna Wydawnicza, Centrum Statystyki Regionalnej, AE, Poznań, 115-121.
Walesiak M. (2002b), Uogólniona miara odległości w statystycznej analizie wielowymiarowej, AE,
Wrocław.
Walesiak M. (2002c), Pomiar podobieństwa obiektów w świetle skal pomiaru i wag zmiennych, Prace
Naukowe AE we Wrocławiu nr 950, AE, Wrocław, 11-25.
Walesiak M. (2003a), Obszary zastosowań uogólnionej miary odległości GDM w statystycznej analizie
wielowymiarowej, Prace Naukowe AE we Wrocławiu nr 981, AE, Wrocław, 37-49.
Walesiak M. (2003b), Uogólniona miara odległości GDM jako syntetyczny miernik rozwoju w metodach porządkowania liniowego, Taksonomia 10, Prace Naukowe AE we Wrocławiu nr 988, AE,
Wrocław, 134-144.
Uogólniona miara_Walesiak_Księga1.indb 122
2012-02-19 14:56:24
LITERATURA
123
Walesiak M. (2003c), Miara odległości obiektów opisanych zmiennymi mierzonymi na różnych skalach
pomiaru, Prace Naukowe AE we Wrocławiu nr 1006, AE, Wrocław, 261-267.
Walesiak M. (2004a), Problemy decyzyjne w procesie klasyfikacji zbioru obiektów, Prace Naukowe AE
we Wrocławiu nr 1010, AE, Wrocław, 52-71.
Walesiak M. (2004b), Uogólniona miara odległości dla obiektów opisanych zmiennymi z różnych skal
pomiaru – oprogramowanie komputerowe, Taksonomia 11, Prace Naukowe AE we Wrocławiu
nr 1022, AE, Wrocław, 250-256.
Walesiak M. (2004c), Metody klasyfikacji, [w:] E. Gatnar, M. Walesiak (red.), Metody statystycznej
analizy wielowymiarowej w badaniach marketingowych, AE, Wrocław, 316-350.
Walesiak M. (2005a), Rekomendacje w zakresie strategii postępowania w procesie klasyfikacji zbioru
obiektów, [w:] A. Zeliaś (red.), Przestrzenno-czasowe modelowanie i prognozowanie zjawisk gospodarczych, AE, Kraków, 185-203.
Walesiak M. (2005b), Uogólniona miara odległości GDM a współczynnik korelacji liniowej Pearsona
i cosinus kąta między wektorami, Prace Naukowe AE we Wrocławiu nr 1096, AE, Wrocław, 18-26.
Walesiak M. (2005c), Problemy selekcji i ważenia zmiennych w zagadnieniu klasyfikacji, Taksonomia
12, Prace Naukowe AE we Wrocławiu nr 1076, AE, Wrocław, 106-118.
Walesiak M. (2006), Uogólniona miara odległości w statystycznej analizie wielowymiarowej, Wydanie
drugie rozszerzone, AE, Wrocław.
Walesiak M. (2008), Ocena stabilności wyników klasyfikacji z wykorzystaniem analizy replikacji, [w:]
Pociecha J. (red.), Modelowanie i prognozowanie zjawisk społeczno-gospodarczych, UE, Kraków,
67-72.
Walesiak M. (2009a), Losowe generowanie danych o znanej strukturze klas w pakiecie clusterSim, [w:]
Pociecha J. (red.), Współczesne problemy modelowania i prognozowania zjawisk społeczno-gospodarczych, Studia i Prace nr 2 Uniwersytetu Ekonomicznego w Krakowie, UE, Kraków,
391-399.
Walesiak M. (2009b), Analiza skupień, [w:] M. Walesiak, E. Gatnar (red.), Statystyczna analiza danych
z wykorzystaniem programu R, PWN, Warszawa, 407-433.
Walesiak M. (2011a), Porządkowanie liniowe z wykorzystaniem uogólnionej miary odległości GDM2
dla danych porządkowych i programu R, Prace Naukowe UE we Wrocławiu nr 163, UE, Wrocław,
9-18.
Walesiak M. (2011b), Odległość GDM2 w analizie skupień dla danych porządkowych z wykorzystaniem programu R, Taksonomia 18, Prace Naukowe UE we Wrocławiu nr 176, UE, Wrocław,
40-52.
Walesiak M. (2011c), Pomiar odległości obiektów opisanych zmiennymi mierzonymi na skali porządkowej – strategie postępowania, Taksonomia 19, Prace Naukowe UE we Wrocławiu, UE, Wrocław
(w druku).
Walesiak M. (2011d), Macierz danych i tablica danych, [w:] E. Gatnar, M. Walesiak (red.), Analiza
danych jakościowych i symbolicznych z wykorzystaniem programu R, Wydawnictwo C.H. Beck,
Warszawa.
Walesiak M., Bąk A. (2000), Conjoint analysis w badaniach marketingowych, AE, Wrocław.
Walesiak M., Bąk A., Jajuga K. (2002), Uogólniona miara odległości – badania symulacyjne, Taksonomia 9, Prace Naukowe AE we Wrocławiu nr 942, AE, Wrocław, 116-127.
Walesiak M., Dudek A. (2008), Identification of noisy variables for nonmetric and symbolic data in
cluster analysis, [w:] C. Preisach, H. Burkhardt, L. Schmidt-Thieme, R. Decker (eds.), Data
analysis, machine learning and applications, Springer-Verlag, Berlin, Heidelberg, 85-92.
Walesiak M., Dudek A. (2009a), Ocena wybranych procedur analizy skupień dla danych porządkowych, Taksonomia 16, Prace Naukowe UE we Wrocławiu nr 47, UE, Wrocław, 41-49.
Walesiak M., Dudek A. (2009b), Odległość GDM dla danych porządkowych a klasyfikacja spektralna,
Prace Naukowe UE we Wrocławiu nr 84, UE, Wrocław, 9-19.
Uogólniona miara_Walesiak_Księga1.indb 123
2012-02-19 14:56:24
124
LITERATURA
Walesiak M., Dudek A. (2010a), Finding groups in ordinal data – an examination of some clustering
procedures, [w:] H. Locarek-Junge, C. Weihs (eds.), Classification as a tool for research, Heidelberg-Berlin, 185-192.
Walesiak M., Dudek A. (2010b), Klasyfikacja spektralna z wykorzystaniem odległości GDM, Taksonomia 17, Prace Naukowe UE we Wrocławiu nr 107, 161-171.
Walesiak M., Dudek A. (2011), clusterSim package, URL http://www.R-project.org.
Walesiak M., Dziechciarz J., Bąk A. (1998), Ordinal variables in the segmentation of advertisement
receivers, [w:] A. Rizzi, N. Vichi, H.H. Bock, Advances in data science and classification, Proceedings 6th Conference International Federation of Classification Societies in Rome, Springer,
Heidelberg, 655-662.
Wallace D.L. (1983), Comment, „Journal of the American Statistical Association”, vol. 78, no. 383,
569-576.
Wedel M., Kamakura W.A. (1998), Market segmentation. Conceptual and methodological foundations,
Kluwer Academic Publishers, Boston-Dordrecht-London.
Wiśniewski J.W. (1986), Korelacja i regresja w badaniach zjawisk jakościowych na tle teorii pomiaru,
„Przegląd Statystyczny”, z. 3, 239-248.
Wiśniewski J.W. (1987), Teoria pomiaru a teoria błędów w badaniach statystycznych, „Wiadomości
Statystyczne”, nr 11, 18-20.
Zaborski A. (2001), Skalowanie wielowymiarowe w badaniach marketingowych, AE, Wrocław.
Zakrzewska (1987), O miarach podobieństwa obiektów i cech przydatnych w psychologicznych zastosowaniach analizy skupień, [w:] J. Brzeziński (red.), Wielozmienne modele statystyczne w badaniach psychologicznych, rozdz. 7, PWN, Warszawa, Poznań.
Zeliaś A. (1984), Teoria prognozy, PWE, Warszawa.
Zeliaś A. (red.) (2000), Taksonomiczna analiza przestrzennego zróżnicowania poziomu życia w Polsce
w ujęciu dynamicznym, AE, Kraków.
Zelnik-Manor L., Perona P. (2004), Self-tuning spectral clustering, [w:] Proceedings of the 18th Annual Conference on Neural Information Processing Systems (NIPS’04), http://books.nips.cc/
nips17.html.
Žukowska V.M., Mučnik J.G. (1976), Faktornyj analiz v socialno-ekonomičeskich issledovanijach,
Statistika, Moskva.
Uogólniona miara_Walesiak_Księga1.indb 124
2012-02-19 14:56:24
SPIS RYSUNKÓW
1.1. Klasyfikacja formuł normalizacyjnych oraz miar odległości obiektów z punktu
widzenia skal pomiaru zmiennych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Metody kodowania kategorii zmiennej porządkowej „Lokalizacja środowiskowa
nieruchomości gruntowej, z którą związany jest lokal mieszkalny” . . . . . . . . . . . .
3.1. Trzy pierwsze etapy dwóch procedur klasyfikacyjnych . . . . . . . . . . . . . . . . . . . . . . .
3.2. Wybrane kroki postępowania w klasyfikacji spektralnej i odpowiadające im skale pomiaru . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3. Wybrane etapy klasyfikacji spektralnej dla przykładowego zbioru danych metrycznych wygenerowanego z wykorzystaniem funkcji mlbench.spirals
pakietu mlbench . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4. Wybrane etapy klasyfikacji spektralnej dla przykładowego zbioru danych porządkowych wygenerowanego z wykorzystaniem funkcji clusterGen pakietu
clusterSim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1. Przykład dyskretyzacji wartości j-tej zmiennej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2. Przykładowe zbiory danych utworzone z wykorzystaniem funkcji pakietu
mlbench (spirals, smiley, cassini) oraz zbiorów własnych (worms, w3, skad) . . .
5.1. Graficzna prezentacja uporządkowania nieruchomości od najlepszej do najgorszej według wartości miary GDM2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2. Graficzna prezentacja uporządkowania województw Polski ze względu na poziom warunków zamieszkiwania ludności w miastach w roku 2008 od najlepszego do najgorszego według wartości miary GDM1 . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3. Uporządkowane składowe wektora K w metodzie Girolamiego służącej do ustalenia optymalnej liczby klas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4. Graficzna prezentacja wartości indeksu gap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Uogólniona miara_Walesiak_Księga1.indb 125
28
32
55
64
66
67
86
88
101
104
109
115
2012-02-19 14:56:24
SPIS TABEL
1.1. Podstawowe własności skal pomiaru . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Formuły normalizacyjne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Charakterystyki rozkładu wartości zmiennych po normalizacji . . . . . . . . . . . . . .
1.4. Miary odległości (zmienne mierzone na skali ilorazowej lub przedziałowej) . . .
1.5. Sposób kodowania dla zmiennych nominalnych binarnych . . . . . . . . . . . . . . . . . .
1.6. Zestawienie wybranych miar odległości dla zmiennych nominalnych binarnych
3.1. Wartości parametrów dla hierarchicznych metod aglomeracyjnych . . . . . . . . . . .
3.2. Indeksy oceny jakości klasyfikacji służące wyborowi liczby klas . . . . . . . . . . . .
3.3. Tablica kontyngencji (klasyfikacja krzyżowa wyników dwóch podziałów) . . . .
3.4. Formuły służące do określania liczby par obiektów zakwalifikowanych do jednego z czterech typów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1. Charakterystyka składni funkcji cluster.Gen z pakietu clusterSim . . . .
4.2. Charakterystyka modeli w funkcji cluster.Gen pakietu clusterSim . . .
4.3. Charakterystyka modeli w analizie symulacyjnej . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4. Uporządkowanie analizowanych metod klasyfikacji według średnich wartości
skorygowanego indeksu Randa dla danych metrycznych wygenerowanych
w pakiecie clusterSim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5. Uporządkowanie analizowanych metod klasyfikacji według średnich wartości
skorygowanego indeksu Randa dla danych porządkowych wygenerowanych
w pakiecie clusterSim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.6. Uporządkowanie analizowanych metod klasyfikacji według średnich wartości
skorygowanego indeksu Randa dla danych metrycznych z pakietu mlbench
i danych własnych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.7. Charakterystyka modeli w analizie symulacyjnej . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.8. Uporządkowanie analizowanych metod klasyfikacji według średnich wartości
skorygowanego indeksu Randa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.9. Uporządkowanie analizowanych indeksów oceny jakości klasyfikacji według
średnich wartości skorygowanego indeksu Randa . . . . . . . . . . . . . . . . . . . . . . . . . .
4.10. Uporządkowanie analizowanych procedur analizy skupień według średnich
wartości skorygowanego indeksu Randa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1. Macierz danych (27 nieruchomości opisanych 6 zmiennymi) . . . . . . . . . . . . . . . .
5.2. Dane statystyczne dotyczące 17 obiektów (16 województw oraz Polska) ze względu na poziom warunków zamieszkiwania ludności w miastach w roku 2008 . . .
5.3. Dane statystyczne dotyczące 17 obiektów (16 województw oraz Polska) ze względu na poziom warunków zamieszkiwania ludności w miastach w roku 1999 . . .
5.4. Dane dotyczące zanieczyszczenia powietrza 17 obiektów (16 województw plus
Polska) w roku 2007 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Uogólniona miara_Walesiak_Księga1.indb 126
15
19
20
24
26
27
59
61
69
71
83
84
87
90
91
91
93
94
95
96
99
103
106
112
2012-02-19 14:56:24
SKOROWIDZ
A
ade4
dist.binary 27
analiza
conjoint 16
czynnikowa 16
dyskryminacyjna 16
korelacji kanonicznej 16
regresji 16
skupień 8, 16, 54, 58, 63-65, 89, 91, 92, 94-96, 113
statystyczna wielowymiarowa 11
wariancji i kowariancji 16
analiza skupień
etapy 54-63
klasyczna 54, 58
analiza symulacyjna
modele 87, 93
C
cluster
diana 59
dissimilarity.object 31
pam 58, 113
clusterSim
cluster.Description 62
cluster.Gen 8, 66, 82-84, 87, 92
comparing.Partitions 73
data_patternGDM2 98, 109
dist.BC 27
dist.GDM 47, 113
data.Normalization 19
dist.SM 27
HINoV.Mod 56
index.DB 60
index.G1 60
index.G2 60
index.G3 60
index.Gap 60, 113
index.H 60
index.KL 60
index.S 60
Uogólniona miara_Walesiak_Księga1.indb 127
pattern.GDM1 74, 102
pattern.GDM2 76, 98
replication.Mod 60
specc 63
speccl 110
D
dane
metryczne 7, 8, 17, 18, 33, 47, 54, 56, 62,
63, 65, 66, 69, 74-76, 82-87, 89-91,
102, 105, 113
pierwotne 13, 37, 47, 64
porządkowe 7, 8, 18, 33-35, 47, 57, 58, 60,
63, 65-67, 76, 78, 82, 83, 85, 87, 89,
91-95, 97
drzewa klasyfikacyjne 16
E
estymator jądrowy 63
F
FD
gowdis 31
formuły agregacji
bezwzorcowe 74, 79
wzorcowe 74, 79
formuły normalizacji
charakterystyki rozkładu zmiennych 20
ogólny wzór 19
przekształcenia ilorazowe 19
przekształcenie Mahalanobisa 21-22
standaryzacja klasyczna 19
standaryzacja Webera 19
unitaryzacja 19
unitaryzacja zerowana 19
wnioski 21
w przedziale [–1; 1] 19
G
generowanie danych
metrycznych 82, 84
odosobnionych 86, 87
2012-02-19 14:56:25
128
SKOROWIDZ
porządkowych 85, 86
symbolicznych przedziałowych 86
zakłócających 86
GDM
GDM1 8, 41, 47, 63, 65, 74-76, 89-92, 104,
106, 113
GDM2 8, 18, 34, 35, 43, 47, 57, 63, 64, 66,
76-78, 89, 92, 101, 109
I
indeksy jakości klasyfikacji
Bakera i Huberta 60, 61, 92
Calińskiego i Harabasza 60, 61, 92, 94, 95
Daviesa-Bouldina 60, 61, 92, 95
gap 60, 61, 92, 95, 113, 115
Hartigana 60, 61, 95
Huberta i Levine 60, 61, 92
Krzanowskiego i Lai 60, 61, 92, 94, 95
Silhouette 60, 61, 92
J
jednolita preferencja 16
K
klasa
opis 62
profilowanie 62
klasyfikacja
krzyżowa 69
spektralna 54, 63-67, 89, 92, 109, 110
kodowanie
liniowe 32
nieliniowe 32
rangowanie 32
kostka danych 13
przekrój czas−zmienna 13
przekrój obiekt−czas 13
przekrój obiekt−zmienna 13
ujęcie całościowe 13
ujęcie cząstkowe 13
M
macierz danych 12
znormalizowana 21
macierz kowariancji zbioru obserwacji 22
macierz odległości 54
macierz ważonych obserwacji na zmiennych 23
Uogólniona miara_Walesiak_Księga1.indb 128
metoda Girolamiego 63-64
metody klasyfikacji
deglomeracyjna 59, 89
hierarchicznej 58, 92
k-medoidów 58, 60, 89
kompletnego połączenia 58, 59, 89, 92
k-średnich 56, 57, 60, 64, 65, 89
medianowa 58, 59, 92
pojedynczego połączenia 58, 59, 92, 94
środka ciężkości 58-60, 92
średniej klasowej 58, 59, 89, 92, 94, 95
ważonej średniej klasowej 58, 59, 92
Warda 58, 59, 89, 92, 94, 95
metody porządkowania liniowego 8, 16, 18, 22,
38, 73, 78
miara
bliskości 22
odległości 22
miernik Theila 79, 80, 108
mierniki podobieństwa klasyfikacji
Nowaka 68, 72, 73
Randa 68, 70, 71, 73
skorygowany Randa 56, 57, 60, 62, 71-73,
89-91, 94-96, 117
własności 70
mlbench
mlbench.spirals 65, 66, 87, 88
mlbench.smiley 87, 88
mlbench.cassini 87, 88
N
normalizacja zmiennych
cel 18
ilorazowych 19
przedziałowych 19
O
obiekt 11
obiekt−wzorzec
dolny biegun rozwoju 74-78, 99
górny biegun rozwoju 74-78, 103, 106
współrzędne 75, 77
odległość
Braya-Curtisa 24
Canberra 24
Clarka 24
Coxa i Coxa 31
Czebyszewa 24
2012-02-19 14:56:25
SKOROWIDZ
Czekanowskiego 27
euklidesowa 24
Gowera 29
Hamanna 27
Jaccarda 27
Jeffreysa-Matusita 24
Kendalla 25
kwadrat odległości euklidesowej 8, 23, 25,
48-50, 89-91
Mahalanobisa 24
miejska 24
Minkowskiego 24
Ochiai 27
Phi Pearsona 27
Podaniego 30
Rogersa i Tanimoto 27
Russela i Rao 27
Sokala i Michenera 26, 27
Sokala i Sneatha (1) 27
Sokala i Sneatha (2) 27
P
pakiety
ade4 27
cluster 31, 58
clusterSim 7-9, 19, 27, 47, 56, 60, 62,
66, 67, 73, 74, 76, 82-85, 87, 89-93, 98,
102, 110
FD 31
kernlab 63, 89
mlbench 8, 65, 66, 87-89, 91
StatMatch 12
stats 27, 58
parametr skali 63
pomiar 13
reguły 15-16
porządkowanie liniowe
istota 73
założenia 73-74
z odległością GDM1 74-76
z odległością GDM2 76-78
S
skala
ilorazowa 14, 15
interwałowa 14, 15
nominalna 14, 15
nominalna binarna 26, 27
Uogólniona miara_Walesiak_Księga1.indb 129
129
nominalna wielostanowa 26
metryczna 14
niemetryczna 14
porządkowa 14, 15
własności 15
wzmacnianie 15, 29
skale pomiaru zmiennych 13-15
skalowanie wielowymiarowe 16, 18, 22, 27-29,
38, 54
stats
average 59
centroid 59
complete 59
dist 26
median 59
mcquitty 59
single 59
ward 59
syntetyczny miernik rozwoju 73
T
tablica kontyngencji 69
transformacja
destymulant 18
ilorazowa 18, 74
nominant 18
różnicowa 18, 74
U
ujednolicanie charakteru zmiennych 17
uogólniona miara odległości GDM
a cosinus kąta między wektorami 51-53
a współczynnik korelacji Pearsona 50-51
definicja 38-44
dla wag zróżnicowanych 47
dla zmiennych z różnych skal pomiaru 46
graficzna prezentacja 76, 78, 101, 104
jako SMR 73-78
słabe i silne strony 44-46
W
wagi zmiennych
definicja 47
dobór wag 47
jednakowe 24, 47
zróżnicowane 24, 47
ważenie
odległości cząstkowych 23, 24
2012-02-19 14:56:25
130
wartości zmiennych 23, 24
wielowymiarowa obserwacja 12
znormalizowana 21
współczynnik korelacji
liniowej Pearsona 37
rang Spearmana 80, 81
tau Kendalla 37, 38, 79-81
uogólniony 36
Z
zbiór zmiennych
o tej samej skali pomiaru 23
z różnych skal pomiaru 23
Uogólniona miara_Walesiak_Księga1.indb 130
SKOROWIDZ
zmienna
definicja 11
dyskretyzacja 85, 86
zmienne
destymulanty 17
neutralne 17
nominanty 17
nominanty jednomodalne 17
nominanty wielomodalne 17
preferencyjne 17
stymulanty 17
syntetyczne 74, 79, 80, 105, 108
2012-02-19 14:56:25
ERRATA
Walesiak M. (2011), Uogólniona miara odległości GDM w statystycznej analizie wielowymiarowej z wykorzystaniem programu R,
Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu, Wrocław, 130 stron.
Strona
Wiersz
od góry
Wiersz
od dołu
15
Tabela 1.1
23
z  bx  a (b  0) , z  R dla
z  bx  a (b  0) , z  R dla
15
Tabela 1.1
17
z  bx (b  0) , z  R dla
z  bx (b  0) , z  R dla
19
Tabela 1.2
Standaryzacja Webera
Standaryzacja pozycyjna
20
8
standaryzacja Webera
standaryzacja pozycyjna
standaryzacji Webera
standaryzacji pozycyjnej
20
4
Powinno być
Jest
21
7
standaryzacja klasyczna (Webera)
standaryzacja klasyczna (pozycyjna)
21
11
standaryzację Webera
standaryzację pozycyjną
21
Wzór (1.14)
5
z i  zi1 , zi 2 ,, zin 
z i  zi1 , zi 2 ,, zim 
64
Rys. 3.2
8
E  [eij ]nm
E  [eij ]nu
9
standaryzacja Webera 19
standaryzacja pozycyjna 19
125
T
T

Podobne dokumenty