Analiza porównawcza tabel kontyngencji i metody CHAID

Transkrypt

Analiza porównawcza tabel kontyngencji i metody CHAID
Zesz yty
Naukowe nr
659
2005
Akademii Ekonomicznej w Krakowie
Mariusz ¸apczyƒski
Katedra Analizy Rynku i Badaƒ Marketingowych
Analiza porównawcza tabel
kontyngencji i metody CHAID
1. Wprowadzenie
Celem pracy jest porównanie tabel kontyngencji z metodà drzewkowà
CHAID. Obie techniki znajdujà zastosowanie w analizie danych jakoÊciowych
i od dawna sà z powodzeniem wykorzystywane w badaniach marketingowych.
Pierwsza pozwala zestawiaç i interpretowaç kilka zmiennych jednoczeÊnie. Pozwala równie˝ sprawdziç, czy mi´dzy zmiennymi istnieje zale˝noÊç oraz zmierzyç si∏´ tej zale˝noÊci. Ma niestety t´ wad´, ˝e im wi´cej zmiennych, tym
mniejsza przejrzystoÊç tabeli oraz mniejsza szansa na u˝ycie statystyki chi-kwadrat. Druga metoda – CHAID – umo˝liwia budow´ modeli dyskryminacyjnych i równie˝ wykorzystuje statystyk´ chi-kwadrat. Pozwala szybko analizowaç du˝à liczb´ zmiennych kategorialnych (zestawiajàc je w tabele kontyngencji), ale jej ograniczeniem jest wymagana du˝a liczebnoÊç próby.
2. Analiza danych z wykorzystaniem tabel kontyngencji
Analiza danych za pomocà tabel kontyngencji nale˝y do najcz´Êciej spotykanych sposobów analizy i redukcji danych. W tabelach takich zestawia si´ co
najmniej dwie zmienne (mowa wtedy o tabelach dwudzielczych), przy czym
warianty jednej zmiennej umieszcza si´ w wierszach, a warianty drugiej zmiennej w kolumnach tabeli (tab. 1). W polach tabeli umieszczono liczebnoÊci odpowiadajàce jednoczeÊnie danym wariantom obu zmiennych.
Zestawiajàc zmienne w tabele kontyngencji, powinno si´ mieç na uwadze
kilka zasad1:
1 A. Sagan, Badania marketingowe – podstawowe kierunki, Wydawnictwo AE w Krakowie,
Kraków 1998, s. 53.
Mariusz ¸apczyƒski
150
– zmienne zale˝ne umieszcza si´ zazwyczaj w wierszach tabeli, a zmienne
niezale˝ne w kolumnach tabeli,
– warianty zmiennych zale˝nych (w wierszach) powinno si´ uszeregowaç
od najwa˝niejszego do najmniej wa˝nego wzgl´dnie od wartoÊci najwy˝szej do
najni˝szej,
– warianty zmiennych niezale˝nych (w kolumnach) powinno si´ uszeregowaç od najmniej wa˝nego do najbardziej wa˝nego wzgl´dnie od wartoÊci najni˝szej do najwy˝szej.
Tabela 1. Przyk∏ad tabeli kontyngencji
Zmienna X
Zmienna Y
Y–a
Y–b
Y–c
Y–d
Suma
X-a
X-b
X-c
10
20
45
10
20
15
10
20
15
10
20
15
40
80
90
Suma
75
45
45
45
210
èród∏o: opracowanie w∏asne.
Najprostsza analiza danych zawartych w tabeli kontyngencji wià˝e si´ z obliczeniem procentów w trzech kierunkach. Chodzi o wyliczenie proporcji liczebnoÊci w poszczególnych polach tabeli wzgl´dem sumy z wiersza (1. kierunek), wzgl´dem sumy z kolumny (2. kierunek) lub wzgl´dem sumy z ca∏oÊci
(3. kierunek). W pierwszym przypadku suma z wiersza stanowi 100%, a interpretacja dotyczy ka˝dego wiersza z osobna – sprawdza si´ rozk∏ad zmiennej
niezale˝nej w ka˝dym wariancie zmiennej zale˝nej. W drugim przypadku to
suma z ka˝dej kolumny wynosi 100%, a badacz sprawdza rozk∏ad zmiennej zale˝nej w ka˝dym wariancie zmiennej niezale˝nej. W trzecim przypadku suma
proporcji z wszystkich pól tabeli stanowi 100%, a badacz wyciàga wnioski dotyczàce ca∏ej populacji w oparciu o zmienne zestawione w danej tabeli.
Kolejnym etapem analizy danych z wykorzystaniem tabel kontyngencji jest
sprawdzenie, czy mi´dzy badanymi zmiennymi wyst´puje istotna statystycznie
zale˝noÊç. Zwykle u˝ywa si´ do tego testu niezale˝noÊci chi-kwadrat. Hipoteza zerowa zak∏ada, ˝e nie ma zale˝noÊci mi´dzy zmiennymi, natomiast hipoteza alternatywna, ˝e zale˝noÊç taka wyst´puje. W pierwszym kroku procedury
wylicza si´ wartoÊci oczekiwane, mno˝àc sumy z kolumn i wierszy, a nast´pnie dzielàc wynik przez sum´ wszystkich obserwacji. Pos∏ugujàc si´ przyk∏adem z tabeli 1, mo˝na obliczyç takà wartoÊç. WartoÊç empiryczna na przeci´ciu si´ kolumny Y–b z X–c wynosi 15. Oznacza to, ˝e 15 przypadków (ze
wszystkich 210) spe∏nia jednoczeÊnie wariant b zmiennej Y i wariant c zmiennej X. WartoÊç oczekiwana dla tego pola tabeli wynosi:
Analiza porównawcza tabel kontyngencji i metody CHAID
151
(suma z kolumny Y-b x suma z wiersza X-c) / suma wszystkich obserwacji =
= (45 × 90) / 210 = 4050 / 210 = 19,29
Obliczenie wartoÊci oczekiwanych ma na celu zbadanie, jak rozk∏ada∏yby
si´ liczebnoÊci w polach tabeli, gdyby mi´dzy zmiennymi nie by∏o ˝adnej zale˝noÊci. Nast´pnie porównuje si´ wartoÊci oczekiwane z wartoÊciami empirycznymi (zaobserwowanymi) przez podstawienie do wzoru:
r
k
χ2 = ∑ ∑
i=1 j=1
^
(nij – nij )2
^
nij
gdzie:
nij – wartoÊci oczekiwane w i-tym wierszu i j-tej kolumnie,
^
nij – wartoÊci empiryczne w i-tym wierszu i j-tej kolumnie.
Ustala si´ poziom istotnoÊci (zazwyczaj α = 0,05) i odczytuje z tablic statystycznych wartoÊç krytycznà χα2 dla przyj´tego α i liczby stopni swobody równej v = (w – 1)(k – 1), gdzie w oznacza liczb´ wierszy, a k liczb´ kolumn. Ostatnim krokiem w tym etapie analizy jest porównanie wyliczonego χ2 z wartoÊcià
odczytanà z tablic χα2. JeÊli χ2 > χα2, to odrzucamy hipotez´ zerowà, co oznacza,
˝e istnieje statystycznie istotna zale˝noÊç mi´dzy zmiennymi. W przypadku
przeciwnym przyjmujemy hipotez´ zerowà, a tym samym stwierdzamy brak zale˝noÊci mi´dzy zmiennymi.
Nast´pnym etapem analizy (po stwierdzeniu zale˝noÊci mi´dzy zmiennymi)
jest obliczenie si∏y zwiàzku mi´dzy zmiennymi. Test niezale˝noÊci chi-kwadrat
pozwala∏ jedynie stwierdziç, czy taka zale˝noÊç wyst´puje. Istnieje wiele
wspó∏czynników s∏u˝àcych do pomiaru si∏y zale˝noÊci, np. wspó∏czynnik ϕ
Yule’a, wspó∏czynnik T Czuprowa czy wspó∏czynnik kontyngencji C Pearsona. Pewnà niedogodnoÊcià w ich stosowaniu jest brak sta∏ej górnej granicy.
Stwarza to trudnoÊç przy interpretacji, gdy˝ za ka˝dym razem trzeba oszacowaç t´ wartoÊç (zale˝nà od liczby kolumn i wierszy tabeli kontyngencji). Dlatego te˝ bardzo dobrym wyjÊciem jest wykorzystanie wspó∏czynnika V Cramera, który dla dowolnych tabel przyjmuje wartoÊci z przedzia∏u 〈0, 1〉, gdzie
1 oznacza bardzo silny zwiàzek mi´dzy zmiennymi.
3. Charakterystyka metody CHAID
(Chi-squared Automatic Interaction Detection)
CHAID jest metodà analizy danych opartà na metodzie detekcji interakcji
AID. Pozwala dzieliç zbiór przypadków na wyczerpujàce i wzajemnie roz∏àczne podzbiory najlepiej opisujàce zmiennà zale˝nà. Zmienna zale˝na, podobnie
jak zmienne niezale˝ne, jest niemetryczna. Kiedy w analizie wyst´puje ma∏a
Mariusz ¸apczyƒski
152
liczba predyktorów lub badacz przygotowa∏ map´ koncepcji, autor algorytmu
zaleca zastosowanie analizy logliniowej2. W literaturze dotyczàcej AID predyktory porzàdkowe nazywane sà predyktorami monotonicznymi (monotonic
predictors), a predyktory nominalne wolnymi (free predictors). W metodzie
CHAID wprowadzono dodatkowo tzw. predyktory p∏ynne (floating predictors). Predyktor p∏ynny to taki predyktor, który znajduje si´ na nominalnym
lub porzàdkowym poziomie pomiaru, jednak od pozosta∏ych dwóch typów predyktorów odró˝nia go obecnoÊç tzw. p∏ynnej kategorii (floating category).
W przypadku zmiennej nominalnej jest to kategoria odstajàca od pozosta∏ych
i mo˝e oznaczaç brak danych. W przypadku zmiennej porzàdkowej jest to kategoria oznaczajàca nieznanà pozycj´ na skali i równie˝ kwalifikuje si´ jà jako
brak danych. Innymi cechami charakterystycznymi CHAID sà: sposób podzia∏u w´z∏ów (oparty na teÊcie niezale˝noÊci chi-kwadrat) oraz mo˝liwoÊç budowy drzew niebinarnych (o dowolnej liczbie ga∏´zi).
Podobnie jak AID, CHAID jest procedurà krokowà. Na ka˝dym etapie podzia∏u drzewa sprawdza si´ istotnoÊç wszystkich predyktorów – porównuje si´
je i wybiera najlepszy z nich. Zbiór obserwacji dzieli si´ na podzbiory w oparciu o ten wybrany predyktor. Ka˝dy z podzbiorów jest nast´pnie analizowany
niezale˝nie w taki sam sposób jak wyjÊciowy zbiór obserwacji. Poziom pomiaru predyktora decyduje o dopuszczalnym ∏àczeniu kategorii. W przypadku predyktorów monotonicznych wolno ∏àczyç tylko kategorie sàsiadujàce ze sobà,
zaÊ w przypadku predyktorów wolnych dopuszczalna jest ka˝da kombinacja
kategorii.
Na ka˝dym etapie podzia∏u drzewa tworzy si´ tabel´ kontyngencji, w której
zestawia si´ zmiennà zale˝nà i predyktor. JeÊli zmienna zale˝na ma d ≥ 2 kategorii, a predyktor c ≥ 2 kategorii, to dà˝y si´ do redukcji tabeli kontyngencji
o wymiarach d × c do bardziej istotnej o wymiarach d × j, przez ∏àczenie w dozwolony sposób kategorii predyktora3.
JeÊli do analizy w∏àczono n predyktorów, to otrzymuje si´ n takich
zredukowanych tabel. Ka˝dorazowo stosuje si´ test niezale˝noÊci chi-kwadrat
i oblicza poziom istotnoÊci p. Nast´pnie szacuje si´ skorygowanà wartoÊç p
(adjusted p value), która jest iloczynem poziomu p i mno˝nika Bonferroniego
(Bonferroni multiplier). IstotnoÊç predyktora to iloczyn poziomu p i mno˝nika
Bonferroniego. Mno˝nik ten oblicza si´ inaczej dla ka˝dego typu predyktora4.
I tak, dla predyktora monotonicznego wzór oparty jest na wspó∏czynniku
dwumianowym (binomial coefficient):
Bmonotoniczny =
( cr –– 11 )
2 G.V. Kass, An Explanatory Technique for Investigating Large Quantities of Categorical
Data, „Applied Statistics” 1980, nr 29(2), s. 119.
3 IstotnoÊç z punktu widzenia testu niezale˝noÊci chi-kwadrat.
4 G.V. Kass, op. cit., s. 122.
Analiza porównawcza tabel kontyngencji i metody CHAID
153
gdzie:
c – liczba kategorii predyktora,
r – liczba po∏àczonych kategorii.
W przypadku predyktora wolnego mno˝nik Bonferroniego liczony jest wed∏ug wzoru:
r–1
Bwolny = ∑ (–1)i
i=1
(r – i)c
i!(r – i)!
zaÊ w przypadku predyktora p∏ynnego:
Bplynny =
( cr –– 22 ) + r ( cr –– q2 ) = r – 1 c+–r(c1 – r) B
monotoniczny
Ostatni krok algorytmu polega na podziale w´z∏a macierzystego w oparciu
o predyktor z po∏àczonymi kategoriami. Wybiera si´ t´ zmiennà niezale˝nà, dla
której skorygowana wartoÊç p jest najni˝sza i mniejsza od przyj´tego 0,05.
Przyk∏ad tabeli kontyngencji z „najlepszym” predyktorem przedstawiono na
rys. 2, a sposób jej zamiany na drzewo na rys. 3.
Tabela 2. Przyk∏ad tabeli kontyngencji zestawiajàcej zmiennà zale˝nà z najlepszym,
na danym etapie podzia∏u, predyktorem
Y1/Z
1
2
3
4
Suma z wierszy
1
2i3i4
23
12
5
3
19
16
4
18
51
49
Suma z kolumn
35
8
35
22
100
Chi-kwadrat = 13,08861; liczba stopni swobody = 3 (p = 0,004448843)
èród∏o: opracowanie w∏asne.
W tabeli 2 widaç, ˝e pierwotna liczba kategorii (4) zosta∏a zredukowana do
dwóch przez po∏àczenie kategorii 2, 3 i 4. Binarny podzia∏ na rys. 1 zawiera zatem 2 ga∏´zie – do jednej trafi∏a kategoria „1”, a do drugiej kategoria „2 i 3 i 4”.
Metoda CHAID ma kilka wad5, jednak za najwi´kszà uznaje si´ niezb´dnà
liczebnoÊç próby. Wed∏ug ró˝nych autorów próba powinna liczyç6:
5 M. ¸apczyƒski, Detekcja interakcji w drzewach klasyfikacyjnych – próba syntezy, Prace Naukowe nr 1010 AE we Wroc∏awiu, „Ekonometria 13”, Wydawnictwo AE we Wroc∏awiu, Wroc∏aw 2004.
6 S. Baron, D. Philips, Attitude Survey Data Reduction Using CHAID: An Example in Shopping Centre Market Research [w:] Quantitative Methods in Marketing, J.G. Hooley, M.K. Hussey (eds), International Thomson Business Press, 1994, s. 197.
Mariusz ¸apczyƒski
154
– od 200 do 300 obserwacji,
– minimum 1000 obserwacji,
– 33 razy wi´cej przypadków ni˝ predyktorów,
– 200 razy wi´cej przypadków ni˝ predyktorów.
Y
1 = 35
2=8
3 = 35
4 = 22
∑ = 100
1
X1
2i3i4
1 = 23
2=5
3 = 19
4=4
1 = 12
2=3
3 = 16
4 = 18
∑ = 51
∑ = 49
Rys. 1. Przyk∏ad binarnego podzia∏u wg metody CHAID
èród∏o: opracowanie w∏asne.
Najcz´Êciej podawanà minimalnà liczebnoÊcià próby jest jednak 1000, co
w niniejszej pracy zostanie spe∏nione.
4. Opis badaƒ
Badania przeprowadzono jesienià 2002 r. Problem badawczy dotyczy∏ wyboru samochodu za 30 tys. z∏. Respondentów poproszono o wybór jednego auta z listy zawierajàcej wybrane marki i modele samochodów nowych i u˝ywanych (tab. 3). Lista zawiera∏a równie˝ informacje nt. wersji nadwozia, mocy
silnika i ceny. JeÊli chodzi o ceny nowych samochodów, to uzyskano je z witryn internetowych krakowskich dealerów samochodów osobowych w dniu 14
paêdziernika 2002 r. (nie uwzgl´dniono czasowych promocyjnych upustów cenowych). JeÊli chodzi o ceny i parametry samochodów u˝ywanych, to podano
je za raportem firmy Eurotax Sp. z o.o. z koƒca wrzeÊnia 2002 r.
Analiza porównawcza tabel kontyngencji i metody CHAID
155
Tabela 3. Wybrane marki i modele samochodów przedstawione respondentom
Nowe samochody do 30 tys. z∏
Fiat Uno 1.0 Fire
5-drzwiowy, moc 45 KM (25 700 z∏)
Fiat Punto 1.2 S
3-drzwiowy, moc 60 KM (29 900 z∏)
Fiat Seicento 1.1 SX
3-drzwiowy, moc 54 KM (29 900 z∏)
Daewoo Matiz Life
5-drzwiowy, moc 51 KM (28 950 z∏)
Polonez Atu Plus 1.6 GSI
moc 84 KM (26 550 z∏)
U˝ywane samochody do 30 tys. z∏
Audi A3 1.6 Attraction (1998 r.)
3-drzwiowy, moc 110 KM (29 378 z∏)
BMW 316i (1997 r.)
4-drzwiowy, moc 102 KM (29 552 z∏)
Citroen Xsara Break 1.6i SX Kombi (1999 r.)
5-drzwiowy, moc 88 KM (29 159 z∏)
Ford Focus 1.8 16V Ghia (1998 r.)
5-drzwiowy, moc 115 KM (29 780 z∏)
Mercedes Benz C 200 Classic (1994 r.)
4-drzwiowy, moc 149 KM (28 240 z∏)
Peugeot 406 2.0 ST (1998 r.)
4-drzwiowy, moc 135 KM (28 822 z∏)
Toyota Yaris 1.0 Pak 1 (2001 r.)
3-drzwiowy, moc 68 KM (28 281 z∏)
Volvo S 40 2.0 (1996 r.)
4-drzwiowy, moc 136 KM (27 462 z∏)
Volkswagen Golf IV 1.4 Basis (1999 r.)
3-drzwiowy, moc 75 KM (29 236 z∏)
èród∏o: opracowanie w∏asne.
Zmiennymi zale˝nymi by∏y cechy demograficzne respondentów; ich preferencje dotyczàce czytelnictwa czasopism, s∏uchania stacji radiowych czy oglàdania telewizji oraz zestaw predyktorów porzàdkowych – lista stwierdzeƒ charakteryzujàcych zakup samochodu nowego i u˝ywanego. Stwierdzenia
dotyczy∏y stereotypów dotyczàcych zakupu auta i brzmia∏y nast´pujàco:
1. Zwykle samochody sà bezawaryjne do 3 lat, póêniej wydatki na naprawy
rosnà.
2. Lepiej kupiç samochód u˝ywany, ale niemiecki, ni˝ nowy, ale koreaƒski
lub polski.
3. Kupujàc nowy samochód, nie trzeba martwiç si´ o awaryjnoÊç.
4. Nowy samochód traci wiele na wartoÊci ju˝ w chwili wyjazdu z salonu.
5. Auta u˝ywane powypadkowe majà ukryte wady obni˝ajàce ich sprawnoÊç.
6. Przy zakupie u˝ywanego samochodu istnieje mo˝liwoÊç negocjowania
ceny.
7. W przypadku samochodów u˝ywanych istnieje ryzyko kupna auta kradzionego.
8. Lepiej wybraç auto u˝ywane, ale bogato wyposa˝one, ni˝ nowe w wersji
standardowej.
Podobnie jak w skali Likerta, respondenci byli proszeni o ustosunkowanie
si´ do tych stwierdzeƒ – mogli si´ z nimi zgodziç lub nie.
Instrumentem pomiarowym by∏ kwestionariusz ankiety, zaÊ respondentami
studenci Akademii Ekonomicznej w Krakowie, ró˝nych trybów studiów. Próba
156
Mariusz ¸apczyƒski
liczàca 325 przypadków dobrana zosta∏a w sposób celowy7. Na potrzeby niniejszego artyku∏u skopiowano 4-krotnie liczb´ przypadków, po to aby spe∏niç wymóg dotyczàcy minimalnej liczebnoÊci próby. Zabieg ten jest tutaj dopuszczalny, poniewa˝ celem artyku∏u jest porównanie dwóch metod analizy danych,
a nie wnioskowanie o populacji. Obliczeƒ na próbie liczàcej 1300 przypadków
dokonano w programie STATISTICA, w modu∏ach: statystyki podstawowe
i drzewa klasyfikacyjne.
Szczegó∏y dotyczàce tabelarycznej analizy danych znajdujà si´ w tabeli 4.
Zamieszczono w niej informacje o poziomie istotnoÊci p dla testu niezale˝noÊci chi-kwadrat oraz wartoÊci wspó∏czynnika V Cramera. Predyktory w∏àczone
do analizy mia∏y pierwotnà – nie zmienionà liczb´ kategorii. W kilku przypadkach nie mo˝na by∏o zastosowaç statystyki chi-kwadrat, ze wzgl´du na niespe∏nienie wymogów dotyczàcych liczebnoÊci wartoÊci oczekiwanych.
SpoÊród 32 predyktorów 12 mia∏o wartoÊci oczekiwane wykluczajàce mo˝liwoÊç zastosowania testu niezale˝noÊci chi-kwadrat. Dotyczy∏o to oczywiÊcie
predyktorów z oryginalnà liczbà kategorii. W praktyce, jeÊli tabela nie jest
czteropolowa, mo˝na po∏àczyç kategorie predyktora, co powoduje wzrost liczebnoÊci empirycznych, a tym samym oczekiwanych. Jest to jednak zaj´cie
bardzo czasoch∏onne, zw∏aszcza gdy predyktory sà nominalne (mo˝liwa jest
wtedy dowolna kombinacja kategorii).
Drugà cz´Êç analizy wykonano w innym module pakietu STATISTICA –
drzewa klasyfikacyjne. Wybrano chi-kwadrat jako regu∏´ podzia∏u, minimalnà
liczebnoÊç w´z∏a (30) jako kryterium stopu, szacowane prawdopodobieƒstwo
a priori i 3-krotnà walidacj´ krzy˝owà. Wynikiem analizy jest drzewo przedstawione na rys. 2.
Model z rys. 2 jest na tyle rozbudowany, ˝e powinien zostaç zamieniony na
zestaw regu∏. Jednak, jak wczeÊniej wspomniano, celem niniejszej pracy nie
jest wnioskowanie o populacji, ale porównanie dwóch alternatywnych sposobów analizy danych. Dlatego w∏aÊnie warto przyjrzeç si´ kolejnemu rysunkowi (rys. 3), na którym znajduje si´ ranking wa˝noÊci predyktorów. Ranking ten
informuje o tym, który predyktor najlepiej opisuje zmiennà zale˝nà. Na osi X
umieszczono wszystkie 32 predyktory, zaÊ na osi Y zakres liczb od 0 do 100.
Im wy˝sza wartoÊç (im wy˝szy s∏upek), tym wi´ksze znaczenie danego predyktora w dyskryminacji zmiennej zale˝nej. Najwa˝niejszym predyktorem zosta∏o stwierdzenie 2. z pytania 5.: „lepiej kupiç samochód u˝ywany, ale niemiecki, ni˝ nowy, ale koreaƒski lub polski”, na drugiej pozycji znalaz∏a si´
s∏uchalnoÊç stacji radiowych, na trzecim – oglàdalnoÊç stacji TV, na czwartym
miejsce zamieszkania itd. Ranking dotyczàcy pierwszych 10 predyktorów zamieszczono w tabeli 5. Sà tam dwie listy: pierwszà posortowano malejàco
wed∏ug wartoÊci wspó∏czynnika V Cramera (wynik analizy tabelarycznej),
7 M. ¸apczyƒski, Badanie preferencji na rynku motoryzacyjnym z u˝yciem drzew klasyfikacyjnych CHAID [w:] Metody iloÊciowe i jakoÊciowe w badaniach rynkowych i marketingowych,
Badania statutowe nr 30/KARiBM/2/2002/S pod kier. S. Mynarskiego, Kraków 2002, s. 82–111.
Analiza porównawcza tabel kontyngencji i metody CHAID
157
Tabela 4. IstotnoÊç i si∏a zwiàzków mi´dzy zmiennymi (α = 0,05)
Poziom p dla testu
niezale˝noÊci
chi-kwadrat
WartoÊç
wspó∏czynnika
V Cramera
posiadanie prawa jazdy
p = 0,00000
0,142149
posiadanie samochodu
p = 0,00000
0,14267
posiadanie samochodu przez rodziców
p = 0,00360
0,08072
Predyktor
pytanie 5. – stwierdzenie 1.
jedna z liczebnoÊci oczekiwanych by∏a równa 0
pytanie 5. – stwierdzenie 2.
p = 0,00000
0,350563
pytanie 5. – stwierdzenie 3.
p = 0,00002
0,144406
pytanie 5. – stwierdzenie 4.
p = 0,00007
0,137173
pytanie 5. – stwierdzenie 5.
p = 0,67561
x
pytanie 5. – stwierdzenie 6.
p = 0,01762
0,088896
pytanie 5. – stwierdzenie 7.
p = 0,00008
0,129001
pytanie 5. – stwierdzenie 8.
p = 0,00000
0,270252
czytanie czasopism spo∏eczno-politycznych
p = 0,00003
0,115092
czytanie czasopism motoryzacyjnych
p = 0,00001
0,121157
czytanie czasopism popularnonaukowych
p = 0,22503
x
czytanie czasopism komputerowych
p = 0,09252
x
czytanie czasopism muzycznych
p = 0,59052
x
czytanie czasopism kobiecych
p = 0,00001
0,123895
czytanie czasopism sportowych
czytanie czasopism dla m´˝czyzn
wi´cej ni˝ 20% komórek mia∏o wartoÊci
oczekiwane mniejsze od 5
czytanie czasopism o biznesie
p = 0,00973
0,071516
czytanie czasopism podró˝niczych
czytanie czasopism filmowych
czytanie czasopism o hobby
czytanie czasopism dla m∏odzie˝y
wi´cej ni˝ 20% komórek mia∏o wartoÊci
oczekiwane mniejsze od 5
czytanie czasopism o zdrowiu
czytanie czasopism dla rodziców
s∏uchalnoÊç stacji radiowych
oglàdalnoÊç stacji telewizyjnych
niektóre wartoÊci oczekiwane by∏y mniejsze od 1
p∏eç
p = 0,00000
0,173816
miejsce zamieszkania (ze wzgl´du na liczb´
ludnoÊci)
p = 0,00000
0,166138
województwo
tryb studiów
èród∏o: opracowanie w∏asne.
niektóre wartoÊci oczekiwane by∏y mniejsze od 1
p = 0,00000
0,207554
2
56
5
24
25
12
25 1
4
56
L4 = 2PLEC
4
TV = 3PLEC
22 1
29 2
52
G_SPOL = 1PLEC
60
72
èród∏o: opracowanie w∏asne.
4
24
2
30
4
2
TV = 5PLEC
120
L3 = 3PLEC, 1PLEC
200
L8 = 2PLEC, 1PLEC
Rys. 2. Model dyskryminacyjny – wynik analizy drzewkowej
RADIO = 1PLEC
33 2
32 1
24
106
MIEJSC = 4PLEC,
3PLEC, 2PLEC
TV = 4PLEC, 2PLEC
1PLEC
RADIO = 4PLEC
3PLEC, 1PLEC
32
50
L1 = 2PLEC, 1 PLEC
WOJEW = 3PLEC, 1PLEC
24
10
44
152
352
572
220
9 2
38
12
4
34
1
2
112
19
2
2
32
TV = 1PLEC
106
8
644
3
20
12
L5 = 4PLEC, 3PLEC
40 2
41 1
L4 = 3PLEC
44
G_BIZN = 1PLEC
RADIO = 3PLEC
116
WOJEW = 4PLEC,
3PLEC, 2PLEC, 1PLEC
128
8 1
4
216
RADIO = 4PLEC
L2 = 3PLEC,
2PLEC, 1PLEC
32
1
64
158
Mariusz ¸apczyƒski
èród∏o: opracowanie w∏asne.
0
20
40
60
80
100
Rys. 3. Ranking wa˝noÊci predyktorów
Ranking
Prawo
Auto
Rodzic
L1
L2
L3
L4
L5
L6
L7
L8
G_spol
G_motor
Zmienne niezale˝ne
G_nauk
G_komp
G_muzy
G_kobie
G_sport
G_formen
G_bizn
G_pod
G_film
G_hobby
G_young
G_zdrow
G_rodzic
Radio
TV
Plec
Miejsc
Wojew
Tryb
Analiza porównawcza tabel kontyngencji i metody CHAID
159
Mariusz ¸apczyƒski
160
a drugà posortowano malejàco wg liczby punktów z rankingu wa˝noÊci predyktorów (wynik analizy drzewkowej).
Widaç, ˝e obie listy nie sà zbie˝ne, ale nale˝y tu zaznaczyç, ˝e w analizie
z wykorzystaniem tabel kontyngencji nie redukowano liczby kategorii predyktora.
Tabela 5. Zestawienie 10 najwa˝niejszych predyktorów po analizie tabelarycznej
i drzewkowej
Liczba punktów
w rankingu
wa˝noÊci
predyktorów
Predyktor
WartoÊç
wspó∏czynnika
V Cramera
pytanie 5. – stwierdzenie 2.
0,350563
pytanie 5. – stwierdzenie 2.
100
pytanie 5. – stwierdzenie 8.
0,270252
s∏uchalnoÊç stacji radiowych
98
tryb studiów
0,207554
oglàdalnoÊç stacji telewizyjnych
83
p∏eç
0,173816
miejsce zamieszkania
(ze wzgl´du na liczb´ ludnoÊci)
71
Predyktor
miejsce zamieszkania (ze
wzgl´du na liczb´ ludnoÊci)
0,166138
pytanie 5. – stwierdzenie 8.
69
pytanie 5. – stwierdzenie 3.
0,144406
tryb studiów
68
pytanie 5. – stwierdzenie 4.
60
posiadanie samochodu
0,14267
posiadanie prawa jazdy
0,142149
województwo
55
pytanie 5. – stwierdzenie 4.
0,137173
pytanie 5. – stwierdzenie 3.
48
pytanie 5. – stwierdzenie 7.
0,129001
pytanie 5. – stwierdzenie 1.
47
èród∏o: opracowanie w∏asne.
Drugim powodem, dla którego rankingi nie sà zbie˝ne, jest sposób obliczenia chi-kwadrat. W przypadku analizy tabelarycznej sprawdza si´ bezpoÊredni
wp∏yw zmiennej niezale˝nej na zale˝nà i dokonuje si´ tego na wszystkich obserwacjach. W metodzie CHAID test niezale˝noÊci chi-kwadrat odnosi si´ do
danego w´z∏a, a nie do ca∏ego zbioru obserwacji. Oznacza to, ˝e po ka˝dym
etapie podzia∏u zbioru zmniejsza si´ liczebnoÊç analizowanych w´z∏ów (zbiór
jest rekurencyjnie dzielony na mniejsze podzbiory) i mimo ˝e nadal sprawdza
si´ istotnoÊç zwiàzków mi´dzy zmiennà zale˝nà a zmiennymi niezale˝nymi, to
dokonuje si´ tego na innych, ni˝ wyjÊciowa, tabelach kontyngencji. W rankingu wa˝noÊci predyktorów uwzgl´dnia si´ ponadto liczb´ podzia∏ów drzewa dokonanych przez dany predyktor. I tak, na 20 podzia∏ów drzewa (rys. 2):
– 4 by∏y dokonane w oparciu o predyktor „s∏uchalnoÊç stacji radiowych”,
– 4 o predyktor „oglàdalnoÊç stacji telewizyjnych”,
– 2 o predyktor „województwo”,
Analiza porównawcza tabel kontyngencji i metody CHAID
161
– 2 o predyktor „pytanie 5. – stwierdzenie 2.”,
– i po 1 w oparciu o inne zmienne niezale˝ne.
Innym elementem wyró˝niajàcym te dwa podejÊcia analityczne jest profilowanie kategorii zmiennej zale˝nej. W analizie z wykorzystaniem tabel kontyngencji nie mo˝na by∏o zestawiç wielu zmiennych jednoczeÊnie. Przyk∏ad zestawienia zmiennej zale˝nej z trzema predyktorami przedstawiono w tabeli 6.
Widaç, ˝e tabela ta jest ma∏o przejrzysta i z trudem mieÊci si´ na stronie. Gdyby chcieç wykorzystaç wszystkie 32 predyktory, to okaza∏oby si´, ˝e rozmiary
tabeli przekraczajà powszechnie dost´pne formaty papieru, a interpretacyjna
wartoÊç takiego zestawienia jest znikoma.
Tabela 6. Zmienna zale˝na i 3 predyktory
Zestawienie dla wszystkich pozycji
Ogó∏ i procenty obliczane wzgl´dem liczby respondentów
Identyczne wielokrotne odpowiedzi by∏y ignorowane
G1 = posiadanie prawa jazdy (1 = tak, 2 = nie)
G2 = p∏eç (1 = kobieta, 2 = m´˝czyzna)
G3 = miejsce zamieszkania (1 = powy˝ej 200 tys. mieszkaƒców
2 = 100-200 tys. mieszkaƒców, 3 = 50–100 tys. mieszkaƒców
4 = do 50 tys. mieszkaƒców, 5 = wieÊ)
G_1:1
G_1:1
G_1:1
G_1:1
G_1:1
Razem
G_1:1
G_1:1
G_1:1
G_1:1
G_1:1
Razem
G_2:2
G_2:2
G_2:2
G_2:2
G_2:2
Razem
G_2:2
G_2:2
G_2:2
G_2:2
G_2:2
Razem
G_1:1
G_1:1
G_1:1
G_1:1
G_1:1
G_1:1
G_2:2
G_3:3
G_4:4
G_5:5
G_2:2
G_2:2
G_2:2
G_2:2
G_2:2
G_1:1
G_2:2
G_3:3
G_4:4
G_5:5
G_1:1
G_1:1
G_1:1
G_1:1
G_1:1
G_1:1
G_2:2
G_3:3
G_4:4
G_5:5
G_2:2
G_2:2
G_2:2
G_2:2
G_2:2
G_1:1
G_2:2
G_3:3
G_4:4
G_5:5
èród∏o: opracowanie w∏asne.
nowy
u˝ywany
razem
44
8
8
28
36
124
8
4
0
4
8
24
48
0
4
0
12
64
4
0
0
0
4
8
164
44
76
160
72
516
176
28
52
48
68
372
60
8
28
44
28
168
8
0
4
0
8
20
208
52
84
188
108
640
184
32
52
52
76
396
108
8
32
44
40
232
12
0
4
0
12
28
162
Mariusz ¸apczyƒski
Inne podejÊcie zastosowano w CHAID. Tam graficzny model mo˝e zostaç
zamieniony na zestaw regu∏ o postaci „je˝eli … to …”. W pakiecie STATISTICA trzeba dokonywaç tego r´cznie, nie ma funkcji automatycznej zamiany
drzewa na regu∏y. Opcja taka jest natomiast w programie CART, SIPINA czy
SPSS Answer Tree. Liczba regu∏ jest równa liczbie w´z∏ów koƒcowych, czyli
tutaj 21 (9 opisuje osoby preferujàce samochód nowy, a 12 u˝ywany). Przyk∏adowe regu∏y wyglàdajà nast´pujàco:
– regu∏a 1 – je˝eli zgadza si´ ze stwierdzeniem, ˝e lepiej kupiç u˝ywany samochód niemiecki ni˝ nowy polski, to preferuje auto u˝ywane (94% osób, które zgodzi∏y si´ z tym twierdzeniem, wybra∏oby auto u˝ywane);
– regu∏a 2 – je˝eli nie zgadza si´ ze stwierdzeniem, ˝e lepszy samochód
u˝ywany niemiecki od nowego polskiego, ale twierdzi, ˝e lepiej kupiç auto
u˝ywane z bogatym wyposa˝eniem ni˝ nowe w wersji standardowej, to równie˝ preferuje auto u˝ywane (89% osób spe∏niajàcych te 2 warunki preferuje
samochód u˝ywany).
Metoda CHAID umo˝liwia zatem zastàpienie tabeli kontyngencji o du˝ych
rozmiarach zestawem regu∏ – zdaƒ warunkowych.
5. Zakoƒczenie
Podsumowujàc niniejszy artyku∏, nale˝y zwróciç uwag´ na kilka wa˝nych
kwestii:
1. CHAID jest szybszy ni˝ tabele kontyngencji, sam ∏àczy kategorie predyktorów i wybiera najlepszy na danym etapie podzia∏u.
2. CHAID nie mierzy dok∏adnie si∏y zwiàzku mi´dzy zmiennymi, nie mo˝na porównywaç rankingu wa˝noÊci predyktorów z wartoÊciami wspó∏czynnika V Cramera, gdy˝ CHAID wykorzystuje test niezale˝noÊci chi-kwadrat ka˝dorazowo na innej tabeli kontyngencji (na innym w´êle) – sukcesywnie na
coraz mniej licznej, poza tym, o pozycji w rankingu decyduje równie˝ to, jak
cz´sto dana zmienna niezale˝na uczestniczy∏a w podziale drzewa.
3. CHAID jest bardziej przejrzysty, pozwala dokonaç profilu kategorii
zmiennej zale˝nej za pomocà zestawu regu∏ o postaci „je˝eli … to …”, a nie
jak w przypadku analizy tabelarycznej za pomocà nieczytelnej tabeli o bardzo
du˝ych rozmiarach.
4. CHAID wymaga licznych prób – zawierajàcych co najmniej 1000 przypadków.
5. CHAID jako jedno z narz´dzi data mining nie zmusza do tworzenia mapy koncepcji, badacz mo˝e u˝yç tej metody do eksploracji danych, nie zastanawiajàc si´ wczeÊniej nad hipotetycznymi powiàzaniami miedzy zmiennymi.
Analiza porównawcza tabel kontyngencji i metody CHAID
163
Literatura
Baron S., Philips D., Attitude Survey Data Reduction Using CHAID: An Example in Shopping Centre Market Research [w:] Quantitative Methods in Marketing, J.G. Hooley,
M.K. Hussey (eds), International Thomson Business Press, 1994.
Kass G.V., An Explanatory Technique for Investigating Large Quantities of Categorical
Data, „Applied Statistics” 1980, nr 29 (2).
¸apczyƒski M., Badanie preferencji na rynku motoryzacyjnym z u˝yciem drzew klasyfikacyjnych CHAID [w:] Metody iloÊciowe i jakoÊciowe w badaniach rynkowych i marketingowych, Badania statutowe nr 30/KARiBM/2/2002/S pod kier. S. Mynarskiego, Kraków 2002.
¸apczyƒski M., Detekcja interakcji w drzewach klasyfikacyjnych – próba syntezy, Prace
Naukowe nr 1010 AE we Wroc∏awiu, „Ekonometria 13”, Wydawnictwo AE we Wroc∏awiu, Wroc∏aw 2004.
Mynarski S., Praktyczne metody analizy danych rynkowych i marketingowych, Kantor Wydawniczy Zakamycze, Zakamycze 2000.
Perreault W.D., Barksdale H.C., A Model-Free Approach for Analysis of Complex Contingency Data in Survey Research, „Journal of Marketing Research” 1980, vol. XVII (November).
Sagan A., Badania marketingowe – podstawowe kierunki, Wydawnictwo AE w Krakowie,
Kraków 1998.
Comparative Analysis of Contingency Tables and the CHAID Method
The purpose of this article is to compare two methods of data analysis: the contingency
tables and the CHAID method. In the case of tabular data analysis, proportions may be
calculated from the sum of values from rows, columns and the whole. It is also possible to
check whether a relationship among variables exists by using the chi-square test of
independence and to measure intensity of that dependence using, e.g., the Cramer V
coefficient. The CHAID method, on the other hand, is one of the Data Mining tools that
serves to capture relationships between a categorical dependent variable and a set of
predictors. Its strength is the speed of analysis and transparency of constructed models. The
author tests both methods on a set of 32 predictors and 1300 observations.

Podobne dokumenty