Uogólniona miara odległości dla obiektów opisanych zmiennymi z
Transkrypt
Uogólniona miara odległości dla obiektów opisanych zmiennymi z
PRACE Nr l 022 NAUKOWE AKADEMII EKONOMICZNEJ WROCŁAWIU WE 2004 TAKSONOMIA li Klasyfikacja i analiza danych- teoria i zastosowania Marek Walesiak Akademia Ekonomiczna we Wrocławiu UOGÓLNIONA MIARA ODLEGLOŚCI DLA OBIEKTÓW OPISANYCH ZMIENNYMI Z RÓŻNYCH SKAL POMIARU- OPROGRAMOW ANIE KOMPUTEROWE l. Wstęp W pracy Walesiaka 12002a] zaproponowano uogólnioną miarę odległości GDM (Tite Generalised Disrance Measure), w konstrukcji której wykorzystano ideę uogólnionego współczynnika korelacji obejmującego współczynnik korelacji liniowej Pearsona i współczynnik korelacji tau Kendalla (zob. [Kendall, Buckland 1986, s. 266: Kendall 1955, s. 19]): l ". Ił 11 "' 2 L:2:w1 a~ ·L:L:w,b~ J l /-1 l l l ' (l) 2 l gdzie: diJ; (s,k) -miara odległości (podobieństwa) nilędzy obieklamiĄ,Ą (sit E [-1; l]). wl - wagaj-tej zmiennej spełniająca warunki 1: w,. E (0; m), ~"' w . = 1n, ~jw l 1 i,k,l = J.. .. ,n -numer obiektu, j = l, ... ,m -numer zmiennej. miary (l) oraz rezultaty eksperymentów symulacyjnych pozwalających ocenić zachowanie się uogólnionej miary odległości GDM przy różnych strukturach danych zawierają prace: [Walesiak 2002b; Walesiak. Bąk, Jajuga 2002: Jajuga, Walesiak, Bąk 20031. Szczegółową charakterystykę 1 250 Motliwe jest stosowanie wag spełniających warunki: w1 e (O; l). " • .• w1 = l . L-,,, Stosowanie konkretnych konstrukcji miar odległości (l) jest uzależnione od skal pomiaru zmiennych. Dla zmiennych mierzonych na skali ilorazowej i (lub) interwałowej w fonnule (1) stosowane Jest podstawienie: aw = xv - .x.PJ dla p= k. l bl;rj = x*' -xti dla r =i, l • (2) gdzie: xil (x9 ,x11 ) -i-ta (k-ta, l-ta) obserwacja naj-tej zmiennej Zasób infonnacji skali porządkowej jest nieporównanie mmejszy. Jedyną dopuszczalną operacją empiryczną na skali porządkowej jest zliczanie zdarzeń (tzn. wyznaczanie liczby relacji większości, mniejszości i równości). W związku z tym w konstrukcji miernika odległości musi być wykorzystana infonnacja o relacjach, w jakich pozostają porównywane obiekty w stosunku do pozostałych obiektów ze zbioru A. Dla zmiennych mierzonych na skali porządkowej w fonnule (l) stosuje s1ę podstawienie [Walesiak 1993, s. 44-45]: a~(b1ti)= l i dla xi/ > xl'l (x.~;~ > x1 ) O dla xil=xP1 (x41 =x,1 },dlap=k,/; r=i.l. - l d) a Xq (3) < XPi (X"q < Xlj) Wtedy w mianownik'"ll wzoru (l) p1erwszy czynnik oznacza hczbę relacji więk i mniejszości określoną dla obiektu i, czynnik drugi zaś hczbę relacji więk szości i mniejszości określoną dla ob1ektu k. Zasób infonnacji skali nominalneJ zezwala na zliczanie zdarzeń. tzn. wyznaczanie liczby relacji równości i różności. W związku z tym w konstrukcJi miernika odległości mus1 być wykorzystana tego typu infonnacja. W mianowniku wzoru (l) czynniki iloczynu oznaczają liczbę relacji równości i różności określoną dla obiekszości m tu i oraz k, zatem n "' n l: L w a! =L: L: w1 b~ = m(n i 1 l l l l) . i-1 l ·l Dla zmiennych mierzonych na skal i nominalnej w fonnule (l) stosuje się podstawienia (zob. fWalesiak 2003]): a) dla porównywanych obiektów i, k a ·b •IQ b) dla pozostałych - l tv - [ - l dla dla x" =xą XiJ -.e XAI ' (4) obiektów (l= I, ... ,n;l = i,k) l dla (5) 251 Jeśl i w zbiorze znajdują się tylko zmienne nominalne wielostanowe, formuła (l) z podstawienirum (4) i (5) przyjmuje postać: ~., LJ j-J w.d 111 L:7 gdzie: J Ił ~"' = LJ j 1 wJ l w d 111 j fł (6) m dJj 1 określone wzorem: O gdy m iędzy obiektami dla wyników pomiaru na zmiennejj-tej zachodzi relacja równości d C/ l- - (7) Ił gdy między obiektami dla wyników pomiaru na zmiennej j-tej zachodzi relacja różności 2. Miara odległości GDM dla obiektów opisanych zmiennymi z różnych skał pomiaru Konstrukcja miary odległości dił., która umożliwia uwzględmenie w badaniach zmiennych mierzonych na skalach ilorazowej (R). przedziałowej (!), porządkowej (0) oraz nominalnej (N), bazuje na propozycji zawanej w pracy [Bock, Diday i in. 2000, s. 152]: d11 w1diJ.v + w2 d~ + K)d~ + w.A~ "'J + w2 + w3 + w~ (8) gdzie: N (0, l, R) - podzbiór zmiennych nominalnych (porządkowych. przedziało wych, ilorazowych), d:. d~ - miara odległości (l) z podstawieniem (2), d,~ -miara odległości (l) z podstawieniem (3), d: - miara odległości (l) z podstawieniami (4) i (5). w1(w2 , wJt w4 ) -wagi przypisane odległościom wyznaczonym na podstawie zmiennych nominalnych (porządkowych, przedziałowych, ilorazowych), w1• w2 , w1 , w4 E (O, m); w, + w2 + w3 + w4 = m (liczba zmiennych). Wagi w" w2 • w3 , w4 mogą oznaczać l iczbę zmiennych w poszczególnych pod- zbiorach lub merytoryczną ważność poszczególnych podzb1orów zmiennych w wyznaczeniu miary odległości d,t: o postaci (8). Formuła o postaci (8) uśrednia odległości cząstkowe wyznaczone na podstawie poszczególnych podzbiorów zmiennych (nominalnych, porządkowych. interwało wych i ilorazowych). Miara odległości diic o postaci (8): - może być stosowana w sytuacji. gdy obiekty opisane są zmiennymi mierzonymi na skali ilorazowej. interwałowej, porządkoweJ oraz nominalnej, 252 .. ·-··· ---·- - . -przybiera wanośc1 z przedziału [0; lJ. Waność O oznacza. że dla porównywanych obiektów i, k między odpowiadającymi sobie obserwacJami na zmiennych zachodzą tylko relacje równoścL -spełnia warunki: nieujemności, zwrotności. symetryczności (dla wszystkich i,k = l, ... ,n). - IstnieJe przynajmniej jedna para obiektów w zbiorze badanych obiektów A, dla której obserwacje na zmiennych nie są identyczne (dla uniknięcia zera w mianowniku d,~, d,~. d:), -nie zmienia wartości w wyniku transformacji wartości zmiennych za pomocą dozwolonego na danej skali przekształcenia matematycznego (na skali nominalnej: funkcja wzajemnie jednoznaczna: na skali porządkowej: dowolna ści śle monotonicznie rosnąca funkcja; na skali interwałowej: funkcja liniowa; na skali ilorazoweJ: funkcJa liniowa jednorodna). 3. Charakterystyka programu komputerowego dla uogólnionej miary odległości GDM Program komputerowy GDM2 dla uogólnionej miary odległości. napisany w ję zyku C++, pracuje w systemie operacyjnym Windows 95/98/ME/2000/XP. Dostępna jest polska oraz angielska wersja językowa programu GDM. W wersji 2.0 program GDM umoż.liwia realizację następujących zadań obliczeniowych; -obliczenie macierzy odległości między obiektami opisanymi zmiennymi tylko z jednej skali pomiaru lub z różnych skal pomiaru (rezultatem jest symetryczna macierz odległości), -obliczenie macierzy odległości między obiektami ze specjalnymi polami wymaganymi w programie SPSS oraz obliczenie macierzy odległości między obiektami w formacie programu S-PLUS (program GDM umożliwia więc współpracę, w trybie off-line, z pakietem statystycznym SPSS i S-PLUS), - liniowe uporządkowan ie obiektów (rezultatem jest wektor odległości obiektów od wzorca). - uwzględnienie skal pomiaru zmiennych (nominalna, porządkowa, przedziałowa, ilorazowa), -normalizację zmiennych dla skali prLedziałowej oraz ilorazowej. -definiowanie wag zmiennych (jednakowych i zróżnicowanych). - definiowanie współrzędnych wzorca (z uwzględnieniem zmiennych o charakterze stymulant, destymułant i nominant) w przypadku liniowego porządkowania obiektów. : Koncepcja programu GDM została opracowana przel M . Walesiaka i A. Bąka. Autorem podstawowego kodu programu w języku c- jest A. Bąk. 253 Program korzysta z danych zapisanych w plikach (tabelach) baz danych standardu (dBase, FoxPro) łub DB (Paradox). Dane do obliczeń mogą być czytane z plików lub DB, natomiast wszystkie wyniki obliczeń oraz nowo tworzone tabele danych są zapisywane w fonnacie DBF 5. W celu przeniesienia wyników obliczeń z programu GDM do innych programów (np. Microsoft® Word 97/ 2000/2002; Microsoft® Exceł 97/2000/2002) należy zastosować następujące postępowanie: l) plild zapisane w programie GDM naJeży otworzyć w programie Microsoft® Access 2000/2002, 2) w programie Microsoft® Access 2000/2002 z listy poleceń Plik należy wybrać Pobierz dane zewnętrzne. a następnie Importuj, 3) zaimportowany plik z programu GDM można w programie Microsoft® Access 2000/2002 wyeksportować (Piik l Eksportuj ... ) w jednym z oferowanych formatów, a następnie odczytać w odpowiednim programie. Istnieje też możliwość przeniesienia (skopiowania) zawartości pliku z programu Microsoft® Access 2000/2002 do innego programu za pomocą Schowka Windows. Po uruchomieniu programu GDM wyświetJane jest okno główne, w k1órym dostępne są listy poleceń: Plik, Edycja, Odległości, Okno i Pomoc. W celu rozpoczę cia pracy z programem należy otworzyć plik zawierający dane lub utworzyć nową tabelę, do której dane zostaną wprowadzone. Gdy obiekty opisane są zmiennymi mierzonymi na różnych skałach pomiaru, naJeży z listy poleceń Odległości wybrać moduł obliczeniowy Między obiektami l Zmienne z różnych skal (zob. rys. l). DBF DBF Rys. l . Olcno dialogowe Odległości między obiektami- zmienne z różnych skal 254 W oknie tym dostępne są następujące zestawy opcji słu1.ące do skonfigurowania sposobu obliczania macierzy odległości według wzoru (8): • Skale pomiaru zmiennych. Zestaw ten umożliwia zaklasyftkowanie zmiennych do odpowiednich skal pomiaru; • Wagi zmiennych. Zestaw ten umożliwia wybór sposobu ważenia zmiennych. Istnieje możliwość zdefiniowania wag jednakowych i zrótnicowanych dla poszczególnych zmiennych; • Normalizacja zmiennych. Zestaw ten umożliwia przeprowadzenie normalizacji wartości zmiennych w celu sprowadzenia ich do porównywalności. Transformację normalizacyjną stosuje się wówczas. gdy zmienne mierzone są na skali przedziałowej i ilorazowej. W odniesieniu do skali nominalnej i porządkowej nie zachodzi potrzeba normalizacji. na ich wartościach bowiem nie wyznacza się ani relacji równości różnic i przedziałów. ani stosunków; • Wagi odległości. Zestaw ten umożliwia wybór sposobu ważenia odległości wyznaczonych na podstawie poszczególnych podzbiorów zmiennych z różnych skal pomiaru (zob. wyjaśnienia do wzoru (8)); • Macierz odległości zapisz w pliku - pole wyboru umożliwiające zapisanie w pliku macierz} odległości wyznaczonej za pomocą miary GDM o postaci (8). 4. Uwagi koń cowe W artykule scharakteryzowano uogólnioną miarę odległości GDM (The Generalised Disrance Measure), która umożliwia uwzględnienie w badaniach zmiennych mierzonych na skalach ilorazowej, przedziaJowej, porządkowej 1 nominalnej. Następnie zaprezentowano wersję miary GDM umotliwiającą pomiar podobieństwa obiektów opisanych zmiennymi mierzonymi na różnych skalach pomiaru. Dodatkowo w prezentowanym opracowaniu scharakteryzowano możliwości programu komputerowego GDM w wersji 2.0 oraz zaprezentowano opis tej części programu komputerowego, który pozwala obliczać macierz odległości między obiektami opisanymi zmiennymi z rótnych skal pomiaru według wzoru (8). Program dostępny jest na stronie: http: l /www. a.e. jgora.. pllkei i/ forml. htrnl. Literatura Bock H.H .. Diday E. (Eds.), Analysis of Symbolic DaJa, Springer-Verlag, Berlin, Heidelberg 2000. Jajuga, K .• Walesiak, M., Bąk. A., On rhe Generał Disrance Measure, [In:] M. Schwaiger, O. Opitz (Eds.), Exploratory Data Analysis in Empirical Research, Springer-Verlag, Berlin, Heidelberg 2003. s. 104-109. 255 Kendall M.G., Rank Correlation Methods, Gńffin, London 1955. Kenelali M.G .. Buckland W.R., Słownik terminów statystycZJ~ych, PWE, Warszawa 1986. Walesiak M .• StatystycVta anali~a wielowymiarowa w badaniach marketingowych. Prace Naukowe Akademit Ekonomicznej nr 654, Sena: Monografie i Opracowania nr 101, AE, Wrocław 1993. Walesiak M .• Propozycja uogólnionej miary odległości w statystycznej analizie wielowymiarowej, (w:] Statystyka regionalna w służbie samorządu Lokalnego i biznesu, red. J. Paradysz, Internetowa Oficyna Wydawnicza, CenLrum Statystyki Regionalnej, Akademia Ekonomiczna, Poznań 2002(a), s. 115-121. Walesiak M., Uogólniona miara odległości w statystycznej analizie wielowymiarowej. Akademia Ekonomiczna, Wrocław 2002(b). Walesiak M.. Miara odległości obiektów opisanych vniemtymi mierzonymi na róż nych skalach pomiaru, XXXIX Konferencja Ekonometryków, Statystyków i Matematyków Akademii Ekonomicznych Wrocławia, Krakowa i Katowic. Lą dek Zdrój, 2-5 marca 2003. Akademia Ekonomiczna, Wrocław 2003. Walesiak M., Bąk A., ODMfor Windows. Version 2.0, 2003. Walesiak M., Bąk A., Jajuga K., Uogólniona miara odległosci - badania symulaC)~ne. Prace Naukowe Akademii Ekonomicznej nr 942, AE, Wrocław 2002. s. 116-127. A GENERAL DISSIMILARITY MEASURE OF OBJECTS BASED ON DIFFERENT MEASUREMENT SCALES OF VARIABLES - THE CHARACTERISTICS OF COMPUTER PROGRAM Summary In lhe paper of Walesiak [2002] the proposal of the generalised distance measure GDM is given. This measure can be used for data measured on ratio, interval, and ordinal scale. In the paper of Walesiak [2003] the widen version of GDM, contains possibilily of application of data measured on nominal scale, and lhe construction of generał dissimilarity measure of objecLS based on different measurement scales of variables, is discussed. In article new extensions of GDM for Windows compuler program are discussed.