L - Katedra Ekonometrii i Informatyki

Transkrypt

L - Katedra Ekonometrii i Informatyki
ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO
NR 318 PRACE KATEDRY EKONOMETRII l STATYSTYKI NR 10 2001
MAREK WALESIAK
Akademia Ekonomiczna we
Wyd ział
W ro cł awiu
Gospodarki Regio nalnej i Turys tyki w Je leniej Górze
Katedra Ekonometrii i I nformatyhl
DANE
PORZĄD K OWE
W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ'
l. WPROW ADZENIE
Metody klasyfikacji , skalowania wielowymiarowego oraz porządkowania
liniowego należą do często wykorzystywanych wśród wielowymiarowych statystycznych metod analizy danych. Wykorzystanie tych metod wymaga sformalizowania
pojęcia "podobieństwo
obiektów" . Stopiel'l
podobieństwa
obiek-
tów kwantyfikuje się za pomocą miar podobiel'lstwa, wśród których wyróżnia
się miary odległości oraz bliskości . Stosowanie konkretnych konstrukcji miar
podobiel'lstwa jest
uzależnione
od skal pomiaru zmiennych .
W teorii pomiaru rozróżnia się 4 podstawowe skale pomiaru, wprowadzone przez Stevensa [1959] , uporządkowane od najsłabszej do najmocniejszej:
nominalna, porządkowa (rangowalna), przedziałowa (interwałowa) , ilorazowa
(stosunkowa).
Z typem skali
chowuje swe
wiąże się
własności .
grupa
przekształcet1 ,
Dopuszczalnymi
ze
względu
na które skala za-
przekształceniami są więc
te, które
nie naruszają zasobu informacji zawartej dla mierzonej zmiennej. Skala U2 jest
mocniejsza od skali U 1 wtedy i tylko wtedy, gdy jej dopuszczalne przekształce-
P racę wykonano w ramach projektu badawczego Nr l f f02B OIł 16 finansowanego przez Komi tet B ad a ń Naukowych w latac h 1999-2000.
94
Marek Walesiak
nie jest zdegenerowanym przypadkiem dopuszczalnego przekształcenia skal i U1
(por. Walenta [1971], s. 52).
Na wartościach poszczególnych skal, ze względu na dopuszczalne przekształcenie. można wyznaczać
szości, równości różnic
nymi
wartościami
relacje równości, różności. większości, mniej-
i przedziałów, równości stosunków między poszczegól-
skali.
Podstawowe własności skal pomiaru zawiera tabela l.
Typ skali
Nominalna
Porządkowa
Tabela l
.. s k' a l pomtaru
p o dstawowe w asnosct
Dozwolone przekształDopuszczalne operacje
Dopuszczalne relacje
cenia matematyczne
arytmetyczne
zliczanie zdarzeń (liczz=f(x), f(x) -dorówności ( x A :::; x B ),
ba relacji równości,
wolne przekształcenie różności ( x A "# x B),
różności)
wzajemnie jednoznaczne
zliczanie zdarzeń (liczpowyższe oraz więkz:::; f(x). f(x) -doba relacji równości,
szości
(
x
A
>
x
B
)
i
wolna ściśle monotonicznie rosnąca funkcja mniejszości ( x A < x B) różności, większości ,
mniejszości)
Przedziałowa
Ilorazowa
powyższe oraz dodapowyższe oraz równoz:::; bx +a (b> 0).
wanie
i odejmowanie
ści
różnic
i
przedziałów
z E R dla wszystkich x
(xA
-xa
=
xc
-xo)
zawartych w R .
Wartość zerowa na tej
skali jest zwykłe
przyjmowana arbitra!nie łub na podstawie
konwencji (por. Ackoff
[ 1969), s. 240).
powyższe oraz równopowyższe oraz mnożez= bx (b> 0)'
ści ilorazów
nie i dzielenie
z E R + dla wszystkich
XA
Xc
x zawartych w R + .
(-=-)
xo
xB
Naturalnym początkiem
skali ilorazowej jest
wartość zerowa (zero
lewostronnie ogranicza
zakres skali) .
Źródło: opracowano na podstawie prac: Stevens [l 959], s. 25
i Robinson (1965); Walesiak [1995), s. 189-191.
27; Adams, Fagot
Dane porządkowe w sratystyc=nej anali=ie wielowymiarowej
95
Typ skali, ze względu na dopuszczalne przekształcenia, determinuje stosowalność
rozmaitych technik statystyczno-ekonometrycznych. Technikami
statystycznymi dopuszczalnymi dla danego typu skali
dostarczają
nych
są
takie techniki, które
wyników (w sensie relacji) niezmiennych względem dopuszczal-
przekształce!l
(por. np . Walenta [1971], s. 61). W artykule Handa [1996]
dyskutowany jest problem relacji między skalami pomiaru a dopuszczalnymi
dla nich technikami statystycznymi. Pokazano w nim przykłady, które są źró­
dłem
kontrowersji w przypadku
Problem stosowania
ścisłego
różnych
wtedy, gdy wszystkie zmienne
miar
stosowania
reguł
podobieństwa
opisujące
pomiaru.
w zasadzie nie
badane obiekty
są
występuje
mierzone na skali
jednego typu. W literaturze wypracowano wiele propozycji miar podobiellstwa
znajdujących
zastosowanie do zmiennych mierzonych na skali ilorazowej,
przedziałowej
i (lub) ilorazowej, nominalnej (w tym dla zmiennych binarnych).
Bardzo dobry przegląd różnych typów miar podobieństwa przedstawiono m.in.
w pracach: Cormack [1971]; Anderberg [1973]; Everitt [1974]; Kaufman i Rousseeuw [1990]; Cox i Cox [1994], s. 10-11; Wedel i Kamakura [1998], s. 47.
Podstawową miarą
podobier1stwa obiektów, opisanych za
nych mierzonych na skali przedziałowej i (lub) ilorazowej jest
dotyczącej
kowsklego (Anderberg [I 973]). W literaturze
analizy statystycznej wypracowano bardzo
dużo
pomocą
zmienodległość Min-
wielowymiarowej
miar podobiellstwa obiektów
opisanych wyłącznie za pomocą zmiennych nominalnych binarnych (dwustanowych). Najbardziej znany jest
współczynnik
Sokala i Michenera (por. Kau-
fman i Rousseeuw [ 1990] , s. 24). Miarę podobiellstwa obiektów wykorzystywaną w sytuacji, gdy są one opisane za pomocą zmiennych nominalnych wielostanowych, zaproponowali Sokal i Michener (por. Kaufman i Rousseeuw
[1990], s. 28).
Propozycję
miary podobier1stwa obiektów,
którą można stosować
w sytu-
acji, gdy zmienne mierzone są tylko na skali porządkowej przedstawiono w
pracy Walesiaka [ 1993]. W konstrukcji miary
zmiennymi
porządkowymi
wykorzystano
odległości
obiektów opisanych
ideę współczynnika
korelacji zmien-
nych porządkowych ! Kendalla (por. Kendall [ 1955], s. 19). Dany jest niepusty
zbiór obiektów A opisanych za pomocą m zmiennych porządkowych. Ze wzglę­
du na to, że na skali porządkowej dopuszczalną operacją empirycznąjest tylko
zliczanie zdarzer1 (tzn. wyznaczanie liczby relacji większości, mniejszości i
równości),
odległości
proponuje się (por. Walesiak [1993], s. 44-45) konstrukcję miary
o postaci:
Marek Walesiak
96
m
m
Laiki bk ij
j= l
+L
n
Lailjbkli
j =l 1=1
l;<i ,k
(l)
gdzie:
1,
aipj (bkrj
)=
O,
-1,
1
p= k, l; r =i, l; i, k, l =l , ... , n- numer obiektu ,
j =l , ... , m- numer zmiennej porządkowej,
X; i (xk j, x 1i ) -i-ta (k-ta, l-ta) obserwacjanaj-tej zmiennej porządkowej,
m
La~ki
j=l
m
m
n
+L La~i -liczba relacji większości i mniejszości określona dla obiektu i,
j =l 1=1
l;<i ,k
m
n
L b ~ii +L L b~u -liczba relacji większości i mniejszości określona dla obiektu k.
j =l
j = l 1=1
l>' i .k
PRZYKŁAD l. ZASTOSOWANIE MIAR Y ODLEGŁOŚCI O POST AC! (l)
DO OBUCZENIA ODLEGŁOŚCI OBIEKTÓW OD OBIEKTU WZORCA
Tabela 2
Dane
Wyposażeni e
Jakość
l California Access 6200
62
76
3
35
6
2 California Access 7000
100
119
6
35
8
3 Clevo Mitsu P-96-3R
90
87
5
38
7
4 Clevo Mitsu P-98R
80
168
5
40
lO
5 Compaq Armada 1590DT
66
92
5
42
7
6 Dell Latitude CP 166ST
103
107
6
47
8
7 Digital HiNote VP 735
122
130
5
48
7
8 Digital HiNote Ultra 2000
87
112
5
51
8
5
32
7
Notebook
9 Eurocom 8500
Wydaj-
Ergo no- Dokumenmi a
tacja
IlOŚĆ
Nr
124
154
(
l~
Dane porządkowe w statystycznej analizie wielowymiarowej
97
lO Fujitsu LifeBook 675xCDT
116
146
5
58
5
Ił
98
147
5
42
5
12 Fujitsu LifeBook 985xCDT
125
177
6
38
7
13 Ger!Com Overdose Empire
111
110
5
33
7
14 Hyundai HN-5000
93
133
2
39
7
15 IDM ThinkPad TP380ED
87
94
4
52
9
16 Pablo 1800
114
153
7
35
7
17 Toshiba Satellite Pro
102
122
7
40
10
18 Toshiba Tecra 750DVD
111
142
5
43
10
19 Tulip Motion Line db 5/166
77
104
5
42
5
20 Twinhead Aristo FT-9000
63
69
5
34
8
91
93
5
38
8
22 Twinhead Aristo FT -9300T
125
147
5
39
7
23 HS LeBook Advance 166
64
86
4
40
7
78
131
5
40
7
125
177
7
58
lO
l
l
l
l
l
Fujitsu LifeBook 765xTCDT
8500T
480CDT
DSC 166
21 Twinhead Aristo FT-9000
TFT 200
DSC
24 HS LeBook Advance 200
TFf
Wzorzec (najkorzystniejsze
wartości)
Wagi
Źródło: CHIP 1998 nr 4.
Tabela 3
Odl egłOSCt
ł ' . b a d anyc h o b"te k tow
' od o b"te k tu wzorca
Notebook Odległość (l)
Pozycja Notebook Odległość (l) Pozycja
l
18
0,258383
13
11
0,485130
2
12
0,274336
14
15
0,500000
3
17
0,279340
15
24
0,567301
4
6
0,304632
16
21
0,579721
5
7
0,347272
17
13
0,607502
6
16
0,350934
18
14
0,619053
7
4
0,355505
19
5
0,654434
98
Marek ll'alesiak
8
10
0.362639
20
19
0.67751-l
9
22
0.375041
21
3
0.695617
10
8
0,415738
22
20
0,746548
11
2
0.429903
23
23
0.789940
12
9
0,449091
24
l
0.906303
2. ZMODYFIKOWANA MIARA ODLEGLOŚCI d,k
Miara odległości o postaci (l) wszystkie badane zmienne traktuje jednakowo. Obecnie wprowadzona zostanie miara odległości będąca uogólnieniem
miary (l) dla sytuacji w której zmienne otrzymują zróżnicowane wagi. Załóż­
my, że wagi w j U= l, ... , m) spełniają następujące postulaty:
m
wJ
E
(0; m) ,
Lw
j
=m.
(2)
;=l
W literaturze można spotkać trzy sposoby ustalania wag zmiennych. Wagi
ustala się albo metodą ekspertów (metoda a priori), albo z użyciem algorytmów
obliczeniowych opierających się na informacjach zawartych w danych pierwotnych (surowych). Można też wykorzystać metodę opartą na obu tych ujęciach .
Szerzej o zagadnieniu ważenia zmiennych napisano w pracach: Borysa [1984];
Abrahamowicza i Zająca [ 1986]; Milligana [ 1989]; Grabi1'1skiego [ 1992]. Problem "ważenia" zmiennych nie został dotychczas zadowalająco rozwiązany.
Williams stwierdza nawet, że ważenie zmiennych jest manipułowaniem wartościami zmiennych (por. Aldenderfer i Blashfield [1984], s. 21). Z tego względu
często w badaniach empirycznych zakłada się, że zmienne sąjednakowo ważne
z punktu widzenia badanego problemu (takie stanowisko przyjmują m.in. Sneath i S oka! [ 1973]).
W sytuacji, gdy uwzględnia się zróżnicowane wagi zmiennych proponowana formuła odległości przyjmuje postać (3).
(3)
gdzie:
Dane por:ądko11·e '" starystyc:nei ana/i;ie H'tl'lull:nniaroH·e;
99
wJ - wagaj-tej zmiennej porządko,,e.i spełniająca \\arunek (2).
W przypadku. gdy wszystkie zmienne otrzymują wagi jednakO\\C. formula
(3) przyjmuje postać miary odległości o postaci (l) .
PRZYKŁAD 2. ZASTOSOWANIE MIARY ODLEGLOŚCI O POSTACI (3)
DO OBLICZENIA ODLEGLOŚCI OBIEKTÓW OD OBIEKTU WZORCA
Tabela 4
w·
ag1 przyparządk·owane z1111ennym przez e k·spertow czasop1sma CHIP
Zmienna
Wagi
Wydajność
Wyposażenie
Jakość
Ergonomia
Dokumenlacja
1.S4
1.15
0,385
l.S4
0.385
Żródło : CHIP 1998, nr 4.
Pozycja
Tabela 5
Od! e,głOSCI
ł .. ba danyc h o b'1e k·tow
. o d o b'1e k·tu wzorca
Notebook Odległość (3)
Pozycja
Notebook
Odległość (3)
l
10
0.349586
13
16
0.515041
2
18
0,372148
14
9
0,522398
3
7
0.395476
15
2
0,522562
4
12
0,399222
16
14
0,522562
s
6
0,432806
17
s
0,522730
6
22
0,438462
18
21
o.snno
7
II
0,446563
19
19
0,522730
8
4
0,454197
20
13
0,530083
9
8
0,462396
21
3
0,606073
lO
17
0,477099
22
23
0,667944
li
24
0,500000
23
20
0,813573
12
15
0,500000
24
l
0,8623S7
3. SILNE l SŁABE STRONY MIARY ODLEGŁOŚCI
Miara
-
odległości
może być
d;l
d, 4 :
stosowana w sytuacji, gdy obiekty opisane
rzonymi na skali porządkowej,
są
zmiennymi mie-
100
Marek Walesiak
wykorzystuje w konstrukcji ideę współczynnika korelacji zmiennych
porządkowych 'l Kendalla (por. Kendall [ 1955], s. 19),
przybiera wartości z przedziału [O; l]. Wartość O oznacza, że dla po·
równywanych obiektów i, k między odpowiadającymi sobie obserwa.
cjami na zmiennych porządkowych zachodzą tylko relacje równości .
kolei wartość l oznacza, że gdy dla porównywanych obiektów i, k mię·
dzy odpowiadającymi sobie obserwacjami na zmiennych porządkowych
zachodzą tylko relacje większości (mniejszości) lub relacje większości .
(mniejszości) oraz relacje równości jeżeli relacje te są zachowane w stosunku do pozostałych obiektów (a więc obiektów o numerach l = l , .. .,n;
gdzie I 7' i, k);
spełnia warunki: nieujemności dik ~O, zwrotności dii =O, symetrycz-
z
ności
d ik
= d ki
(dla wszystkich i, k = l, ... , n),
nie zawsze spełnia warunek nierówności trójkąta (potwierdziły ten
wniosek przeprowadzone analizy symulacyjne),
nie zmienia wartości w wyniku transformacji wartości zmiennych porządkowych za pomocą dowolnej ściśle monotonicznie rosnącej funkcji .
4. WNIOSKI KOŃCOWE
W literaturze nie ma zbyt wielu prac wykorzystujących w badaniach empirycznych zmienne mierzone na skali porządkowej . Wynika to z faktu, że do ich
analizy niezbędne są specjalne narzędzia analityczne. Proponowane miary odległości o postaci (l) i (3) pozwalają na stosowanie zmiennych porządkowych .
W artykule zaproponowano uogólnienie miary odległości (l). W przypadku, gdy wszystkie zmienne otrzymują wagi jednakowe formuła (3) przyjmuje
postać miary odległości o postaci (l).
Dodatkowym rezultatem opracowania jest program komputerowy (zob.
suplement) ułatwiający stosowanie miary odległości o postaci (3).
SUPLEMENT
Program pozwalający obliczać odległość za pomocą formuły (3) jest dostępny w Katedrze Ekonometrii i Informatyki Wydziału Gospodarki Regionalnej i Turystyki Akademii Ekonomicznej we Wrocławiu. Umożliwia on obliczanie odległości między obiektami (rezultatem jest symetryczna macierz odległo­
ści)
oraz obliczanie
odległości). Macierz
odległości
odległości
obiektów od wzorca (rezultatem jest wektor
można wykorzystać w hierarchicznych aglome-
Dane porządkowe w statystycznej analizie wielowymiarowej
101
racyjnych metodach klasyfikacji do podziału zbioru obiektów na klasy, np. w
programie SPSS for Windows. W programie komputerowym wykorzystywane
są pliki
formatu DBF, które
służą
zarówno do dostarczania danych do
obliczeń ,
jak i do przechowywania otrzymanych wyników.
Literatura
l. Abrahamowicz M.,
Zając
K .: Metoda
ważenia
zmiennych w taksonomii
numerycznej i procedurach porządkowania liniowego, Prace Naukowe
Akademii Ekonomicznej we Wrocławiu nr 328, 1986.
2. Ackoff R.L. : Decyzje optymalne w badaniach stosowanych, PWN, Warszawa 1969.
3. Adaros E.W., Fagot R.F., Robinson R.E. : A Theory oj Appropriate Statistics, "Psychometrika", 1965, Vol. 30.
4. Aldenderfer M.S., Blashfield R.K.: Cłuster Analysis, Sage, Beverly Hills,
1984.
S. Anderberg M . R.: Cłuster Analysis for Applications, Academic Press, New
York, San Francisco, London. 1973.
6. Borys T.: Kategoria jakości w statystycznej analizie porównawczej, Wrocław : AE 1984, Prace Naukowe AE we Wrocławiu nr 284, Seria: Monografie i opracowania nr 23 .
7. Cormack R. M .: A Revżew oj Classification (with Discussion), "Journal of
the Royal Statistical Society", Ser. A, (3 ), 1971.
8. Cox T.F., Cox M .A.A.: Multidimensional Scaling, Chapmao and Hall,
London 1994.
9. Everitt B. S.: Cłuster Analysis, Heinemann, London 1974.
10. Grabiński T. : Metody !aksonometrii, Kraków, Wydawnictwo Akademii
Ekonomicznej, 1992.
II. Hand D.J.: Statistics and the Theory oj Measurement, "Journal of the Royal
Statistical Society", Ser. A, (3), 1996.
12. Kaufman L., Rousseeuw P. J.: Finding Groups in Data: an lntroduction to
Cłuste r Analysis, Wiley, New York 1990.
13. Kendall M.G.: Rank Correlation Methods, Griffin, London 1955.
14. Milligan G.W. : A Validation Srudy oj a Variable Weighting Algorithm for
Cluster Analysis, "Journal of Classification", No.! , 1989.
102
Marek Walesiak
15. Sneath P.H.A., Sokal R.R. : Numerical Taxonomy, W.H. Freeman and Co .,
San Francisco 1973 .
16. Stevens S.S. : Measurement, Psychophysics and Utility , C.W. CHURCHMAN, P. RATOOSH (eds.), Measurement; Definitions and Theories,
Wiley, New York 1959.
17. Walenta K.: Podstawowe pojęcia teorii pomiaru. W: J. Kozielecki. Problemy psychologii matematycznej, PWN, Warszawa 1971.
18. Walesiak M.: Statystyczna analiza wielowymiarowa w badaniach marketingowych, Prace Naukowe Akademii Ekonomicznej we Wrocławiu nr 654,
Wrocław, Seria: Monografie i Opracowania nr 101, 1993.
19. Walesiak M.: The Analysis of Factors Influencing t he Choice of the M ethods in the Statistical Analysis of Marketing Data, "Statistics in Transition",
June, Vol. 2, No. 2, 1995.
20. Walesiak M.: Metody analizy danych marketingowych, PWN, Warszawa
1996.
21. Walesiak M., Dziechciarz J ., Bąk A.: Ordinal Variabies in the Segmentarion of Advertisement Receivers, In: Rizzj, A., Vichi, N., Bock, H.H., Advances in Data Science and Classification, Proc. 6th Conf. International
Federatżon of Classification Societies in Rome, Springer, Heidelberg, 1998.
22. Wedel M., Kamakura W.A.: Market Segmentation. Conceptual and Methodological Foundations, Kluwer, Boston, Dordrecht, London 1998.
Dane porządkowe w statystycznej analizie wielowymiarowej
103
ORDERING DATA IN MULTIVARIATE STATISTICAL ANALYSIS
Summary
The use of variabies measured on ordinal scaleis relatively rare in the literature. Specific analytical tools are needed for such information. Walesiak
[1993], p. 44-45, gives the propasał of a new measure of objects similarity,
which can be applied in the situation when variabies describing objects are
measured on the ordinal scal e (see also Walesiak, Dziechciarz and
Bąk
[ 1998],
p. 656-657). The distance measure takes care of variabies with equal weights .
We shall describe a slight generalisation of this measure, also covering different weights of variables.
Translated by Marek Walesiak