L - Katedra Ekonometrii i Informatyki
Transkrypt
L - Katedra Ekonometrii i Informatyki
ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO NR 318 PRACE KATEDRY EKONOMETRII l STATYSTYKI NR 10 2001 MAREK WALESIAK Akademia Ekonomiczna we Wyd ział W ro cł awiu Gospodarki Regio nalnej i Turys tyki w Je leniej Górze Katedra Ekonometrii i I nformatyhl DANE PORZĄD K OWE W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ' l. WPROW ADZENIE Metody klasyfikacji , skalowania wielowymiarowego oraz porządkowania liniowego należą do często wykorzystywanych wśród wielowymiarowych statystycznych metod analizy danych. Wykorzystanie tych metod wymaga sformalizowania pojęcia "podobieństwo obiektów" . Stopiel'l podobieństwa obiek- tów kwantyfikuje się za pomocą miar podobiel'lstwa, wśród których wyróżnia się miary odległości oraz bliskości . Stosowanie konkretnych konstrukcji miar podobiel'lstwa jest uzależnione od skal pomiaru zmiennych . W teorii pomiaru rozróżnia się 4 podstawowe skale pomiaru, wprowadzone przez Stevensa [1959] , uporządkowane od najsłabszej do najmocniejszej: nominalna, porządkowa (rangowalna), przedziałowa (interwałowa) , ilorazowa (stosunkowa). Z typem skali chowuje swe wiąże się własności . grupa przekształcet1 , Dopuszczalnymi ze względu na które skala za- przekształceniami są więc te, które nie naruszają zasobu informacji zawartej dla mierzonej zmiennej. Skala U2 jest mocniejsza od skali U 1 wtedy i tylko wtedy, gdy jej dopuszczalne przekształce- P racę wykonano w ramach projektu badawczego Nr l f f02B OIł 16 finansowanego przez Komi tet B ad a ń Naukowych w latac h 1999-2000. 94 Marek Walesiak nie jest zdegenerowanym przypadkiem dopuszczalnego przekształcenia skal i U1 (por. Walenta [1971], s. 52). Na wartościach poszczególnych skal, ze względu na dopuszczalne przekształcenie. można wyznaczać szości, równości różnic nymi wartościami relacje równości, różności. większości, mniej- i przedziałów, równości stosunków między poszczegól- skali. Podstawowe własności skal pomiaru zawiera tabela l. Typ skali Nominalna Porządkowa Tabela l .. s k' a l pomtaru p o dstawowe w asnosct Dozwolone przekształDopuszczalne operacje Dopuszczalne relacje cenia matematyczne arytmetyczne zliczanie zdarzeń (liczz=f(x), f(x) -dorówności ( x A :::; x B ), ba relacji równości, wolne przekształcenie różności ( x A "# x B), różności) wzajemnie jednoznaczne zliczanie zdarzeń (liczpowyższe oraz więkz:::; f(x). f(x) -doba relacji równości, szości ( x A > x B ) i wolna ściśle monotonicznie rosnąca funkcja mniejszości ( x A < x B) różności, większości , mniejszości) Przedziałowa Ilorazowa powyższe oraz dodapowyższe oraz równoz:::; bx +a (b> 0). wanie i odejmowanie ści różnic i przedziałów z E R dla wszystkich x (xA -xa = xc -xo) zawartych w R . Wartość zerowa na tej skali jest zwykłe przyjmowana arbitra!nie łub na podstawie konwencji (por. Ackoff [ 1969), s. 240). powyższe oraz równopowyższe oraz mnożez= bx (b> 0)' ści ilorazów nie i dzielenie z E R + dla wszystkich XA Xc x zawartych w R + . (-=-) xo xB Naturalnym początkiem skali ilorazowej jest wartość zerowa (zero lewostronnie ogranicza zakres skali) . Źródło: opracowano na podstawie prac: Stevens [l 959], s. 25 i Robinson (1965); Walesiak [1995), s. 189-191. 27; Adams, Fagot Dane porządkowe w sratystyc=nej anali=ie wielowymiarowej 95 Typ skali, ze względu na dopuszczalne przekształcenia, determinuje stosowalność rozmaitych technik statystyczno-ekonometrycznych. Technikami statystycznymi dopuszczalnymi dla danego typu skali dostarczają nych są takie techniki, które wyników (w sensie relacji) niezmiennych względem dopuszczal- przekształce!l (por. np . Walenta [1971], s. 61). W artykule Handa [1996] dyskutowany jest problem relacji między skalami pomiaru a dopuszczalnymi dla nich technikami statystycznymi. Pokazano w nim przykłady, które są źró dłem kontrowersji w przypadku Problem stosowania ścisłego różnych wtedy, gdy wszystkie zmienne miar stosowania reguł podobieństwa opisujące pomiaru. w zasadzie nie badane obiekty są występuje mierzone na skali jednego typu. W literaturze wypracowano wiele propozycji miar podobiellstwa znajdujących zastosowanie do zmiennych mierzonych na skali ilorazowej, przedziałowej i (lub) ilorazowej, nominalnej (w tym dla zmiennych binarnych). Bardzo dobry przegląd różnych typów miar podobieństwa przedstawiono m.in. w pracach: Cormack [1971]; Anderberg [1973]; Everitt [1974]; Kaufman i Rousseeuw [1990]; Cox i Cox [1994], s. 10-11; Wedel i Kamakura [1998], s. 47. Podstawową miarą podobier1stwa obiektów, opisanych za nych mierzonych na skali przedziałowej i (lub) ilorazowej jest dotyczącej kowsklego (Anderberg [I 973]). W literaturze analizy statystycznej wypracowano bardzo dużo pomocą zmienodległość Min- wielowymiarowej miar podobiellstwa obiektów opisanych wyłącznie za pomocą zmiennych nominalnych binarnych (dwustanowych). Najbardziej znany jest współczynnik Sokala i Michenera (por. Kau- fman i Rousseeuw [ 1990] , s. 24). Miarę podobiellstwa obiektów wykorzystywaną w sytuacji, gdy są one opisane za pomocą zmiennych nominalnych wielostanowych, zaproponowali Sokal i Michener (por. Kaufman i Rousseeuw [1990], s. 28). Propozycję miary podobier1stwa obiektów, którą można stosować w sytu- acji, gdy zmienne mierzone są tylko na skali porządkowej przedstawiono w pracy Walesiaka [ 1993]. W konstrukcji miary zmiennymi porządkowymi wykorzystano odległości obiektów opisanych ideę współczynnika korelacji zmien- nych porządkowych ! Kendalla (por. Kendall [ 1955], s. 19). Dany jest niepusty zbiór obiektów A opisanych za pomocą m zmiennych porządkowych. Ze wzglę du na to, że na skali porządkowej dopuszczalną operacją empirycznąjest tylko zliczanie zdarzer1 (tzn. wyznaczanie liczby relacji większości, mniejszości i równości), odległości proponuje się (por. Walesiak [1993], s. 44-45) konstrukcję miary o postaci: Marek Walesiak 96 m m Laiki bk ij j= l +L n Lailjbkli j =l 1=1 l;<i ,k (l) gdzie: 1, aipj (bkrj )= O, -1, 1 p= k, l; r =i, l; i, k, l =l , ... , n- numer obiektu , j =l , ... , m- numer zmiennej porządkowej, X; i (xk j, x 1i ) -i-ta (k-ta, l-ta) obserwacjanaj-tej zmiennej porządkowej, m La~ki j=l m m n +L La~i -liczba relacji większości i mniejszości określona dla obiektu i, j =l 1=1 l;<i ,k m n L b ~ii +L L b~u -liczba relacji większości i mniejszości określona dla obiektu k. j =l j = l 1=1 l>' i .k PRZYKŁAD l. ZASTOSOWANIE MIAR Y ODLEGŁOŚCI O POST AC! (l) DO OBUCZENIA ODLEGŁOŚCI OBIEKTÓW OD OBIEKTU WZORCA Tabela 2 Dane Wyposażeni e Jakość l California Access 6200 62 76 3 35 6 2 California Access 7000 100 119 6 35 8 3 Clevo Mitsu P-96-3R 90 87 5 38 7 4 Clevo Mitsu P-98R 80 168 5 40 lO 5 Compaq Armada 1590DT 66 92 5 42 7 6 Dell Latitude CP 166ST 103 107 6 47 8 7 Digital HiNote VP 735 122 130 5 48 7 8 Digital HiNote Ultra 2000 87 112 5 51 8 5 32 7 Notebook 9 Eurocom 8500 Wydaj- Ergo no- Dokumenmi a tacja IlOŚĆ Nr 124 154 ( l~ Dane porządkowe w statystycznej analizie wielowymiarowej 97 lO Fujitsu LifeBook 675xCDT 116 146 5 58 5 Ił 98 147 5 42 5 12 Fujitsu LifeBook 985xCDT 125 177 6 38 7 13 Ger!Com Overdose Empire 111 110 5 33 7 14 Hyundai HN-5000 93 133 2 39 7 15 IDM ThinkPad TP380ED 87 94 4 52 9 16 Pablo 1800 114 153 7 35 7 17 Toshiba Satellite Pro 102 122 7 40 10 18 Toshiba Tecra 750DVD 111 142 5 43 10 19 Tulip Motion Line db 5/166 77 104 5 42 5 20 Twinhead Aristo FT-9000 63 69 5 34 8 91 93 5 38 8 22 Twinhead Aristo FT -9300T 125 147 5 39 7 23 HS LeBook Advance 166 64 86 4 40 7 78 131 5 40 7 125 177 7 58 lO l l l l l Fujitsu LifeBook 765xTCDT 8500T 480CDT DSC 166 21 Twinhead Aristo FT-9000 TFT 200 DSC 24 HS LeBook Advance 200 TFf Wzorzec (najkorzystniejsze wartości) Wagi Źródło: CHIP 1998 nr 4. Tabela 3 Odl egłOSCt ł ' . b a d anyc h o b"te k tow ' od o b"te k tu wzorca Notebook Odległość (l) Pozycja Notebook Odległość (l) Pozycja l 18 0,258383 13 11 0,485130 2 12 0,274336 14 15 0,500000 3 17 0,279340 15 24 0,567301 4 6 0,304632 16 21 0,579721 5 7 0,347272 17 13 0,607502 6 16 0,350934 18 14 0,619053 7 4 0,355505 19 5 0,654434 98 Marek ll'alesiak 8 10 0.362639 20 19 0.67751-l 9 22 0.375041 21 3 0.695617 10 8 0,415738 22 20 0,746548 11 2 0.429903 23 23 0.789940 12 9 0,449091 24 l 0.906303 2. ZMODYFIKOWANA MIARA ODLEGLOŚCI d,k Miara odległości o postaci (l) wszystkie badane zmienne traktuje jednakowo. Obecnie wprowadzona zostanie miara odległości będąca uogólnieniem miary (l) dla sytuacji w której zmienne otrzymują zróżnicowane wagi. Załóż my, że wagi w j U= l, ... , m) spełniają następujące postulaty: m wJ E (0; m) , Lw j =m. (2) ;=l W literaturze można spotkać trzy sposoby ustalania wag zmiennych. Wagi ustala się albo metodą ekspertów (metoda a priori), albo z użyciem algorytmów obliczeniowych opierających się na informacjach zawartych w danych pierwotnych (surowych). Można też wykorzystać metodę opartą na obu tych ujęciach . Szerzej o zagadnieniu ważenia zmiennych napisano w pracach: Borysa [1984]; Abrahamowicza i Zająca [ 1986]; Milligana [ 1989]; Grabi1'1skiego [ 1992]. Problem "ważenia" zmiennych nie został dotychczas zadowalająco rozwiązany. Williams stwierdza nawet, że ważenie zmiennych jest manipułowaniem wartościami zmiennych (por. Aldenderfer i Blashfield [1984], s. 21). Z tego względu często w badaniach empirycznych zakłada się, że zmienne sąjednakowo ważne z punktu widzenia badanego problemu (takie stanowisko przyjmują m.in. Sneath i S oka! [ 1973]). W sytuacji, gdy uwzględnia się zróżnicowane wagi zmiennych proponowana formuła odległości przyjmuje postać (3). (3) gdzie: Dane por:ądko11·e '" starystyc:nei ana/i;ie H'tl'lull:nniaroH·e; 99 wJ - wagaj-tej zmiennej porządko,,e.i spełniająca \\arunek (2). W przypadku. gdy wszystkie zmienne otrzymują wagi jednakO\\C. formula (3) przyjmuje postać miary odległości o postaci (l) . PRZYKŁAD 2. ZASTOSOWANIE MIARY ODLEGLOŚCI O POSTACI (3) DO OBLICZENIA ODLEGLOŚCI OBIEKTÓW OD OBIEKTU WZORCA Tabela 4 w· ag1 przyparządk·owane z1111ennym przez e k·spertow czasop1sma CHIP Zmienna Wagi Wydajność Wyposażenie Jakość Ergonomia Dokumenlacja 1.S4 1.15 0,385 l.S4 0.385 Żródło : CHIP 1998, nr 4. Pozycja Tabela 5 Od! e,głOSCI ł .. ba danyc h o b'1e k·tow . o d o b'1e k·tu wzorca Notebook Odległość (3) Pozycja Notebook Odległość (3) l 10 0.349586 13 16 0.515041 2 18 0,372148 14 9 0,522398 3 7 0.395476 15 2 0,522562 4 12 0,399222 16 14 0,522562 s 6 0,432806 17 s 0,522730 6 22 0,438462 18 21 o.snno 7 II 0,446563 19 19 0,522730 8 4 0,454197 20 13 0,530083 9 8 0,462396 21 3 0,606073 lO 17 0,477099 22 23 0,667944 li 24 0,500000 23 20 0,813573 12 15 0,500000 24 l 0,8623S7 3. SILNE l SŁABE STRONY MIARY ODLEGŁOŚCI Miara - odległości może być d;l d, 4 : stosowana w sytuacji, gdy obiekty opisane rzonymi na skali porządkowej, są zmiennymi mie- 100 Marek Walesiak wykorzystuje w konstrukcji ideę współczynnika korelacji zmiennych porządkowych 'l Kendalla (por. Kendall [ 1955], s. 19), przybiera wartości z przedziału [O; l]. Wartość O oznacza, że dla po· równywanych obiektów i, k między odpowiadającymi sobie obserwa. cjami na zmiennych porządkowych zachodzą tylko relacje równości . kolei wartość l oznacza, że gdy dla porównywanych obiektów i, k mię· dzy odpowiadającymi sobie obserwacjami na zmiennych porządkowych zachodzą tylko relacje większości (mniejszości) lub relacje większości . (mniejszości) oraz relacje równości jeżeli relacje te są zachowane w stosunku do pozostałych obiektów (a więc obiektów o numerach l = l , .. .,n; gdzie I 7' i, k); spełnia warunki: nieujemności dik ~O, zwrotności dii =O, symetrycz- z ności d ik = d ki (dla wszystkich i, k = l, ... , n), nie zawsze spełnia warunek nierówności trójkąta (potwierdziły ten wniosek przeprowadzone analizy symulacyjne), nie zmienia wartości w wyniku transformacji wartości zmiennych porządkowych za pomocą dowolnej ściśle monotonicznie rosnącej funkcji . 4. WNIOSKI KOŃCOWE W literaturze nie ma zbyt wielu prac wykorzystujących w badaniach empirycznych zmienne mierzone na skali porządkowej . Wynika to z faktu, że do ich analizy niezbędne są specjalne narzędzia analityczne. Proponowane miary odległości o postaci (l) i (3) pozwalają na stosowanie zmiennych porządkowych . W artykule zaproponowano uogólnienie miary odległości (l). W przypadku, gdy wszystkie zmienne otrzymują wagi jednakowe formuła (3) przyjmuje postać miary odległości o postaci (l). Dodatkowym rezultatem opracowania jest program komputerowy (zob. suplement) ułatwiający stosowanie miary odległości o postaci (3). SUPLEMENT Program pozwalający obliczać odległość za pomocą formuły (3) jest dostępny w Katedrze Ekonometrii i Informatyki Wydziału Gospodarki Regionalnej i Turystyki Akademii Ekonomicznej we Wrocławiu. Umożliwia on obliczanie odległości między obiektami (rezultatem jest symetryczna macierz odległo ści) oraz obliczanie odległości). Macierz odległości odległości obiektów od wzorca (rezultatem jest wektor można wykorzystać w hierarchicznych aglome- Dane porządkowe w statystycznej analizie wielowymiarowej 101 racyjnych metodach klasyfikacji do podziału zbioru obiektów na klasy, np. w programie SPSS for Windows. W programie komputerowym wykorzystywane są pliki formatu DBF, które służą zarówno do dostarczania danych do obliczeń , jak i do przechowywania otrzymanych wyników. Literatura l. Abrahamowicz M., Zając K .: Metoda ważenia zmiennych w taksonomii numerycznej i procedurach porządkowania liniowego, Prace Naukowe Akademii Ekonomicznej we Wrocławiu nr 328, 1986. 2. Ackoff R.L. : Decyzje optymalne w badaniach stosowanych, PWN, Warszawa 1969. 3. Adaros E.W., Fagot R.F., Robinson R.E. : A Theory oj Appropriate Statistics, "Psychometrika", 1965, Vol. 30. 4. Aldenderfer M.S., Blashfield R.K.: Cłuster Analysis, Sage, Beverly Hills, 1984. S. Anderberg M . R.: Cłuster Analysis for Applications, Academic Press, New York, San Francisco, London. 1973. 6. Borys T.: Kategoria jakości w statystycznej analizie porównawczej, Wrocław : AE 1984, Prace Naukowe AE we Wrocławiu nr 284, Seria: Monografie i opracowania nr 23 . 7. Cormack R. M .: A Revżew oj Classification (with Discussion), "Journal of the Royal Statistical Society", Ser. A, (3 ), 1971. 8. Cox T.F., Cox M .A.A.: Multidimensional Scaling, Chapmao and Hall, London 1994. 9. Everitt B. S.: Cłuster Analysis, Heinemann, London 1974. 10. Grabiński T. : Metody !aksonometrii, Kraków, Wydawnictwo Akademii Ekonomicznej, 1992. II. Hand D.J.: Statistics and the Theory oj Measurement, "Journal of the Royal Statistical Society", Ser. A, (3), 1996. 12. Kaufman L., Rousseeuw P. J.: Finding Groups in Data: an lntroduction to Cłuste r Analysis, Wiley, New York 1990. 13. Kendall M.G.: Rank Correlation Methods, Griffin, London 1955. 14. Milligan G.W. : A Validation Srudy oj a Variable Weighting Algorithm for Cluster Analysis, "Journal of Classification", No.! , 1989. 102 Marek Walesiak 15. Sneath P.H.A., Sokal R.R. : Numerical Taxonomy, W.H. Freeman and Co ., San Francisco 1973 . 16. Stevens S.S. : Measurement, Psychophysics and Utility , C.W. CHURCHMAN, P. RATOOSH (eds.), Measurement; Definitions and Theories, Wiley, New York 1959. 17. Walenta K.: Podstawowe pojęcia teorii pomiaru. W: J. Kozielecki. Problemy psychologii matematycznej, PWN, Warszawa 1971. 18. Walesiak M.: Statystyczna analiza wielowymiarowa w badaniach marketingowych, Prace Naukowe Akademii Ekonomicznej we Wrocławiu nr 654, Wrocław, Seria: Monografie i Opracowania nr 101, 1993. 19. Walesiak M.: The Analysis of Factors Influencing t he Choice of the M ethods in the Statistical Analysis of Marketing Data, "Statistics in Transition", June, Vol. 2, No. 2, 1995. 20. Walesiak M.: Metody analizy danych marketingowych, PWN, Warszawa 1996. 21. Walesiak M., Dziechciarz J ., Bąk A.: Ordinal Variabies in the Segmentarion of Advertisement Receivers, In: Rizzj, A., Vichi, N., Bock, H.H., Advances in Data Science and Classification, Proc. 6th Conf. International Federatżon of Classification Societies in Rome, Springer, Heidelberg, 1998. 22. Wedel M., Kamakura W.A.: Market Segmentation. Conceptual and Methodological Foundations, Kluwer, Boston, Dordrecht, London 1998. Dane porządkowe w statystycznej analizie wielowymiarowej 103 ORDERING DATA IN MULTIVARIATE STATISTICAL ANALYSIS Summary The use of variabies measured on ordinal scaleis relatively rare in the literature. Specific analytical tools are needed for such information. Walesiak [1993], p. 44-45, gives the propasał of a new measure of objects similarity, which can be applied in the situation when variabies describing objects are measured on the ordinal scal e (see also Walesiak, Dziechciarz and Bąk [ 1998], p. 656-657). The distance measure takes care of variabies with equal weights . We shall describe a slight generalisation of this measure, also covering different weights of variables. Translated by Marek Walesiak