Uogólniona miara odległości dla obiektów opisanych zmiennymi z

Transkrypt

Uogólniona miara odległości dla obiektów opisanych zmiennymi z
PRACE
Nr l 022
NAUKOWE
AKADEMII
EKONOMICZNEJ
WROCŁAWIU
WE
2004
TAKSONOMIA li
Klasyfikacja i analiza danych- teoria i zastosowania
Marek Walesiak
Akademia Ekonomiczna we Wrocławiu
UOGÓLNIONA MIARA ODLEGLOŚCI
DLA OBIEKTÓW OPISANYCH ZMIENNYMI Z RÓŻNYCH
SKAL POMIARU- OPROGRAMOW ANIE KOMPUTEROWE
l. Wstęp
W pracy Walesiaka 12002a] zaproponowano uogólnioną miarę odległości GDM
(Tite Generalised Disrance Measure), w konstrukcji której wykorzystano ideę
uogólnionego współczynnika korelacji obejmującego współczynnik korelacji liniowej Pearsona i współczynnik korelacji tau Kendalla (zob. [Kendall, Buckland
1986, s. 266: Kendall 1955, s. 19]):
l
".
Ił
11
"'
2 L:2:w1 a~ ·L:L:w,b~
J l /-1
l
l l
'
(l)
2
l
gdzie: diJ; (s,k) -miara odległości (podobieństwa) nilędzy obieklamiĄ,Ą (sit E [-1; l]).
wl - wagaj-tej zmiennej spełniająca warunki 1: w,. E (0; m), ~"'
w . = 1n,
~jw l 1
i,k,l = J.. .. ,n -numer obiektu, j = l, ... ,m -numer zmiennej.
miary (l) oraz rezultaty eksperymentów symulacyjnych pozwalających ocenić zachowanie się uogólnionej miary odległości GDM
przy różnych strukturach danych zawierają prace: [Walesiak 2002b; Walesiak.
Bąk, Jajuga 2002: Jajuga, Walesiak, Bąk 20031.
Szczegółową charakterystykę
1
250
Motliwe jest stosowanie wag spełniających warunki: w1 e (O; l). "
• .• w1 = l .
L-,,,
Stosowanie konkretnych konstrukcji miar odległości (l) jest uzależnione od
skal pomiaru zmiennych. Dla zmiennych mierzonych na skali ilorazowej i (lub)
interwałowej w fonnule (1) stosowane Jest podstawienie:
aw = xv - .x.PJ dla p= k. l
bl;rj = x*' -xti
dla
r =i, l •
(2)
gdzie: xil (x9 ,x11 ) -i-ta (k-ta, l-ta) obserwacja naj-tej zmiennej
Zasób infonnacji skali porządkowej jest nieporównanie mmejszy. Jedyną dopuszczalną operacją empiryczną na skali porządkowej jest zliczanie zdarzeń (tzn.
wyznaczanie liczby relacji większości, mniejszości i równości). W związku z tym
w konstrukcji miernika odległości musi być wykorzystana infonnacja o relacjach,
w jakich pozostają porównywane obiekty w stosunku do pozostałych obiektów ze
zbioru A. Dla zmiennych mierzonych na skali porządkowej w fonnule (l) stosuje
s1ę podstawienie [Walesiak 1993, s. 44-45]:
a~(b1ti)=
l
i
dla
xi/
> xl'l (x.~;~ > x1 )
O dla xil=xP1 (x41 =x,1 },dlap=k,/; r=i.l.
- l
d) a
Xq
(3)
< XPi (X"q < Xlj)
Wtedy w mianownik'"ll wzoru (l) p1erwszy czynnik oznacza hczbę relacji więk­
i mniejszości określoną dla obiektu i, czynnik drugi zaś hczbę relacji więk­
szości i mniejszości określoną dla ob1ektu k.
Zasób infonnacji skali nominalneJ zezwala na zliczanie zdarzeń. tzn. wyznaczanie liczby relacji równości i różności. W związku z tym w konstrukcJi miernika
odległości mus1 być wykorzystana tego typu infonnacja. W mianowniku wzoru (l)
czynniki iloczynu oznaczają liczbę relacji równości i różności określoną dla obiekszości
m
tu i oraz k, zatem
n
"'
n
l: L w a! =L: L: w1 b~ = m(n
i
1
l l
l
l) .
i-1 l ·l
Dla zmiennych mierzonych na skal i nominalnej w fonnule (l) stosuje się podstawienia (zob. fWalesiak 2003]):
a) dla porównywanych obiektów i, k
a
·b
•IQ
b) dla
pozostałych
-
l
tv - [ - l
dla
dla
x" =xą
XiJ -.e XAI '
(4)
obiektów (l= I, ... ,n;l = i,k)
l
dla
(5)
251
Jeśl i w zbiorze znajdują się tylko zmienne nominalne wielostanowe, formuła (l)
z podstawienirum (4) i (5) przyjmuje postać:
~.,
LJ j-J
w.d 111
L:7
gdzie:
J
Ił
~"'
= LJ j
1 wJ
l
w d 111
j
fł
(6)
m
dJj 1 określone wzorem:
O
gdy m iędzy obiektami dla wyników pomiaru
na zmiennejj-tej zachodzi relacja równości
d C/ l- -
(7)
Ił
gdy między obiektami dla wyników pomiaru
na zmiennej j-tej zachodzi relacja różności
2. Miara odległości GDM dla obiektów opisanych zmiennymi
z różnych skał pomiaru
Konstrukcja miary odległości dił., która umożliwia uwzględmenie w badaniach
zmiennych mierzonych na skalach ilorazowej (R). przedziałowej (!), porządkowej
(0) oraz nominalnej (N), bazuje na propozycji zawanej w pracy [Bock, Diday i in.
2000, s. 152]:
d11
w1diJ.v
+ w2 d~ + K)d~ + w.A~
"'J + w2 + w3 + w~
(8)
gdzie: N (0, l, R) - podzbiór zmiennych nominalnych (porządkowych. przedziało­
wych, ilorazowych), d:. d~ - miara odległości (l) z podstawieniem (2),
d,~ -miara odległości (l) z podstawieniem (3), d: - miara odległości (l) z
podstawieniami (4) i (5).
w1(w2 , wJt w4 ) -wagi przypisane odległościom wyznaczonym na podstawie
zmiennych nominalnych (porządkowych, przedziałowych, ilorazowych),
w1• w2 , w1 , w4 E (O, m); w, + w2 + w3 + w4 = m (liczba zmiennych).
Wagi w" w2 • w3 , w4
mogą oznaczać l iczbę
zmiennych w poszczególnych pod-
zbiorach lub merytoryczną ważność poszczególnych podzb1orów zmiennych w
wyznaczeniu miary odległości d,t: o postaci (8).
Formuła o postaci (8) uśrednia odległości cząstkowe wyznaczone na podstawie
poszczególnych podzbiorów zmiennych (nominalnych, porządkowych. interwało­
wych i ilorazowych). Miara odległości diic o postaci (8):
- może być stosowana w sytuacji. gdy obiekty opisane są zmiennymi mierzonymi na skali ilorazowej. interwałowej, porządkoweJ oraz nominalnej,
252
.. ·-··· ---·- -
.
-przybiera wanośc1 z przedziału [0; lJ. Waność O oznacza. że dla porównywanych obiektów i, k między odpowiadającymi sobie obserwacJami na zmiennych
zachodzą tylko relacje równoścL
-spełnia warunki: nieujemności, zwrotności. symetryczności (dla wszystkich
i,k = l, ... ,n).
- IstnieJe przynajmniej jedna para obiektów w zbiorze badanych obiektów A,
dla której obserwacje na zmiennych nie są identyczne (dla uniknięcia zera w mianowniku d,~, d,~. d:),
-nie zmienia wartości w wyniku transformacji wartości zmiennych za pomocą
dozwolonego na danej skali przekształcenia matematycznego (na skali nominalnej:
funkcja wzajemnie jednoznaczna: na skali porządkowej: dowolna ści śle monotonicznie rosnąca funkcja; na skali interwałowej: funkcja liniowa; na skali ilorazoweJ: funkcJa liniowa jednorodna).
3. Charakterystyka programu komputerowego
dla uogólnionej miary odległości GDM
Program komputerowy GDM2 dla uogólnionej miary odległości. napisany w ję­
zyku C++, pracuje w systemie operacyjnym Windows 95/98/ME/2000/XP. Dostępna jest polska oraz angielska wersja językowa programu GDM. W wersji 2.0
program GDM umoż.liwia realizację następujących zadań obliczeniowych;
-obliczenie macierzy odległości między obiektami opisanymi zmiennymi tylko
z jednej skali pomiaru lub z różnych skal pomiaru (rezultatem jest symetryczna
macierz odległości),
-obliczenie macierzy odległości między obiektami ze specjalnymi polami wymaganymi w programie SPSS oraz obliczenie macierzy odległości między obiektami w formacie programu S-PLUS (program GDM umożliwia więc współpracę, w
trybie off-line, z pakietem statystycznym SPSS i S-PLUS),
- liniowe uporządkowan ie obiektów (rezultatem jest wektor odległości obiektów od wzorca).
- uwzględnienie skal pomiaru zmiennych (nominalna, porządkowa, przedziałowa, ilorazowa),
-normalizację zmiennych dla skali prLedziałowej oraz ilorazowej.
-definiowanie wag zmiennych (jednakowych i zróżnicowanych).
- definiowanie współrzędnych wzorca (z uwzględnieniem zmiennych o charakterze stymulant, destymułant i nominant) w przypadku liniowego porządkowania
obiektów.
: Koncepcja programu GDM została opracowana przel M . Walesiaka i A. Bąka. Autorem podstawowego kodu programu w języku c- jest A. Bąk.
253
Program korzysta z danych zapisanych w plikach (tabelach) baz danych standardu
(dBase, FoxPro) łub DB (Paradox). Dane do obliczeń mogą być czytane z plików
lub DB, natomiast wszystkie wyniki obliczeń oraz nowo tworzone tabele danych są
zapisywane w fonnacie DBF 5. W celu przeniesienia wyników obliczeń z programu
GDM do innych programów (np. Microsoft® Word 97/ 2000/2002; Microsoft® Exceł
97/2000/2002) należy zastosować następujące postępowanie:
l) plild zapisane w programie GDM naJeży otworzyć w programie Microsoft®
Access 2000/2002,
2) w programie Microsoft® Access 2000/2002 z listy poleceń Plik należy wybrać Pobierz dane zewnętrzne. a następnie Importuj,
3) zaimportowany plik z programu GDM można w programie Microsoft® Access 2000/2002 wyeksportować (Piik l Eksportuj ... ) w jednym z oferowanych
formatów, a następnie odczytać w odpowiednim programie. Istnieje też możliwość
przeniesienia (skopiowania) zawartości pliku z programu Microsoft® Access
2000/2002 do innego programu za pomocą Schowka Windows.
Po uruchomieniu programu GDM wyświetJane jest okno główne, w k1órym dostępne są listy poleceń: Plik, Edycja, Odległości, Okno i Pomoc. W celu rozpoczę­
cia pracy z programem należy otworzyć plik zawierający dane lub utworzyć nową
tabelę, do której dane zostaną wprowadzone. Gdy obiekty opisane są zmiennymi
mierzonymi na różnych skałach pomiaru, naJeży z listy poleceń Odległości wybrać
moduł obliczeniowy Między obiektami l Zmienne z różnych skal (zob. rys. l).
DBF
DBF
Rys. l . Olcno dialogowe Odległości między obiektami- zmienne z różnych skal
254
W oknie tym dostępne są następujące zestawy opcji słu1.ące do skonfigurowania
sposobu obliczania macierzy odległości według wzoru (8):
• Skale pomiaru zmiennych. Zestaw ten umożliwia zaklasyftkowanie
zmiennych do odpowiednich skal pomiaru;
• Wagi zmiennych. Zestaw ten umożliwia wybór sposobu ważenia zmiennych. Istnieje możliwość zdefiniowania wag jednakowych i zrótnicowanych dla
poszczególnych zmiennych;
• Normalizacja zmiennych. Zestaw ten umożliwia przeprowadzenie normalizacji wartości zmiennych w celu sprowadzenia ich do porównywalności. Transformację normalizacyjną stosuje się wówczas. gdy zmienne mierzone są na skali
przedziałowej i ilorazowej. W odniesieniu do skali nominalnej i porządkowej nie
zachodzi potrzeba normalizacji. na ich wartościach bowiem nie wyznacza się ani
relacji równości różnic i przedziałów. ani stosunków;
• Wagi odległości. Zestaw ten umożliwia wybór sposobu ważenia odległości
wyznaczonych na podstawie poszczególnych podzbiorów zmiennych z różnych
skal pomiaru (zob. wyjaśnienia do wzoru (8));
• Macierz odległości zapisz w pliku - pole wyboru umożliwiające zapisanie
w pliku macierz} odległości wyznaczonej za pomocą miary GDM o postaci (8).
4. Uwagi
koń cowe
W artykule scharakteryzowano uogólnioną miarę odległości GDM (The Generalised Disrance Measure), która umożliwia uwzględnienie w badaniach zmiennych
mierzonych na skalach ilorazowej, przedziaJowej, porządkowej 1 nominalnej. Następnie zaprezentowano wersję miary GDM umotliwiającą pomiar podobieństwa
obiektów opisanych zmiennymi mierzonymi na różnych skalach pomiaru. Dodatkowo w prezentowanym opracowaniu scharakteryzowano możliwości programu
komputerowego GDM w wersji 2.0 oraz zaprezentowano opis tej części programu
komputerowego, który pozwala obliczać macierz odległości między obiektami opisanymi zmiennymi z rótnych skal pomiaru według wzoru (8). Program dostępny
jest na stronie: http: l /www. a.e. jgora.. pllkei i/ forml. htrnl.
Literatura
Bock H.H .. Diday E. (Eds.), Analysis of Symbolic DaJa, Springer-Verlag, Berlin,
Heidelberg 2000.
Jajuga, K .• Walesiak, M., Bąk. A., On rhe Generał Disrance Measure, [In:]
M. Schwaiger, O. Opitz (Eds.), Exploratory Data Analysis in Empirical Research, Springer-Verlag, Berlin, Heidelberg 2003. s. 104-109.
255
Kendall M.G., Rank Correlation Methods, Gńffin, London 1955.
Kenelali M.G .. Buckland W.R., Słownik terminów statystycZJ~ych, PWE, Warszawa
1986.
Walesiak M .• StatystycVta anali~a wielowymiarowa w badaniach marketingowych.
Prace Naukowe Akademit Ekonomicznej nr 654, Sena: Monografie i Opracowania nr 101, AE, Wrocław 1993.
Walesiak M .• Propozycja uogólnionej miary odległości w statystycznej analizie wielowymiarowej, (w:] Statystyka regionalna w służbie samorządu Lokalnego i biznesu, red. J. Paradysz, Internetowa Oficyna Wydawnicza, CenLrum Statystyki Regionalnej, Akademia Ekonomiczna, Poznań 2002(a), s. 115-121.
Walesiak M., Uogólniona miara odległości w statystycznej analizie wielowymiarowej. Akademia Ekonomiczna, Wrocław 2002(b).
Walesiak M.. Miara odległości obiektów opisanych vniemtymi mierzonymi na róż­
nych skalach pomiaru, XXXIX Konferencja Ekonometryków, Statystyków i
Matematyków Akademii Ekonomicznych Wrocławia, Krakowa i Katowic. Lą­
dek Zdrój, 2-5 marca 2003. Akademia Ekonomiczna, Wrocław 2003.
Walesiak M., Bąk A., ODMfor Windows. Version 2.0, 2003.
Walesiak M., Bąk A., Jajuga K., Uogólniona miara odległosci - badania symulaC)~ne. Prace Naukowe Akademii Ekonomicznej nr 942, AE, Wrocław 2002.
s. 116-127.
A GENERAL DISSIMILARITY MEASURE OF OBJECTS BASED
ON DIFFERENT MEASUREMENT SCALES OF VARIABLES
- THE CHARACTERISTICS OF COMPUTER PROGRAM
Summary
In lhe paper of Walesiak [2002] the proposal of the generalised distance measure GDM is given. This measure can be used for data measured on ratio, interval,
and ordinal scale. In the paper of Walesiak [2003] the widen version of GDM, contains possibilily of application of data measured on nominal scale, and lhe construction of generał dissimilarity measure of objecLS based on different measurement scales of variables, is discussed. In article new extensions of GDM for Windows compuler program are discussed.