Metody dokładnego wnioskowania nieparametrycznego w

Transkrypt

Metody dokładnego wnioskowania nieparametrycznego w
PRACE POGL¥DOWE
Jerzy A. MOCZKO
Metody dok³adnego wnioskowania
nieparametrycznego w przypadku nietypowych
rozk³adów danych eksperymentalnych
Methods of exact nonparametric inference
for non-typical distributions of experimental data
Katedra i Zak³ad Informatyki i Statystyki,
Uniwersytet Medyczny
im. Karola Marcinkowskiego w Poznaniu
Kierownik: Prof. zw. dr hab. Jerzy A. Moczko
Dodatkowe s³owa kluczowe:
wnioskowanie permutacyjne
wspomaganie procesów decyzyjnych
metody nieparametryczne
Additional key words:
permutational inference
decision support
nonparametric methods
W badaniach medycznych mamy
czêsto do czynienia ze specyficznymi
uk³adami danych takich, jak dane o
ma³ej liczebnoœci, niezrównowa¿one,
rzadko rozsiane lub z du¿¹ liczb¹ pomiarów wi¹zanych. Szczególne w³aœciwoœci tych danych wp³ywaj¹ na wyniki obliczeñ wartoœci prawdopodobieñstwa wykorzystywanego w procesie
podejmowania decyzji. W pracy przedstawiono cztery przyk³ady uk³adów
danych, dla których stosowanie wyznaczenie asymptotycznego prawdopodobieñstwa prowadzi do podjêcia b³êdnych decyzji.
In medical research we frequently
find data sets with specific structure
such as small data sets, unbalanced,
sparse or heavily tied. The peculiar
properties of those sets influence the
p-value which quantity is used in decision making process. Four examples
of experimental data, for which estimation of asymptotic p-value leads to erroneous decision, are presented.
Podstawowe za³o¿enia teorii
testowania hipotez
W testowaniu hipotez statystycznych, przy
podejmowaniu decyzji, która z dwóch analizowanych hipotez jest bardziej prawdopodobna, pos³ugujemy siê obliczon¹ z testu wartoœci¹ prawdopodobieñstwa (p-value). Wartoœci prawdopodobieñstwa p poni¿ej za³o¿onego przez eksperymentatora poziomu progowego a przemawiaj¹ za odrzuceniem hipotezy zerowej, zaœ wartoœci powy¿ej a nie daj¹
wystarczaj¹cego dowodu do odrzucenia hipotezy zerowej (rycina 1). Przypadek p = a stanowi sytuacjê w¹tpliw¹, niedaj¹c¹ ostatecznego rozstrzygniêcia. Symbolicznie zapisujemy ten fakt w postaci
Wartoœæ poziomu odciêcia a ustalana
jest przez eksperymentatora przed rozpoczêciem zbierania danych i przed wszelkimi obliczeniami zwi¹zanymi z procedur¹
podjêcia na ich podstawie decyzji na temat
przyjêcia czy te¿ odrzucenia postawionej
hipotezy zerowej. Ustalenie wartoœci a po
dokonaniu obliczeñ mo¿na w zasadzie
uznaæ za manipulacjê danymi. Poziom istotnoœci statystycznej a jest równy prawdopodobieñstwu pope³nienia b³êdu pierwszego
rodzaju a wiêc prawdopodobieñstwu odrzucenia hipotezy zerowej, gdy w rzeczywistoœci by³a ona prawdziwa
H0 = TRUE
gdy
p>a
H0 = FALSE
gdy
p<a
Sytuacja nierozstrzygniêta jednoznacznie gdy p = a
Adres do korespondencji:
Prof. dr hab. Jerzy A. Moczko
Katedra i Zak³ad Informatyki i Statystyki
Uniwersytet Medyczny
im. Karola Marcinkowskiego
ul. D¹browskiego 79
60-529 Poznañ
Tel./fax: (+61) 841 11 16
e-mail: [email protected]
874
a = Pr ( rej H0 | H0 = TRUE )
Najczêœciej stosowany przez eksperymentatorów poziom a = 0.05 oznacza zatem ich zgodê na uzyskanie co najwy¿ej piêcioprocentowej frakcji wniosków fa³szywie
dodatnich (tabela I).
Jak zatem widaæ, w procedurze testowania hipotez krytyczn¹ rolê odgrywa pra-
Tabela I
Definicje b³êdów pierwszego i drugiego rodzaju.
First and second type error definitions.
Rzeczy w istoϾ
H0: true ( norm a)
Wy nik testu
H0: false (niepraw id³ow oœæ)
Przegl¹d Lekarski 2007 / 64 / 10
H0: true (norm a)
H0: false (niepraw id³ow oœæ)
Praw dziw ie negaty w ny (TN)
Fa³szy w ie negaty w ny (FN)
b³¹d ii rodzaju (b )
Fa³szy w ie pozy ty w ny (FP)
b³¹d i rodzaju (a )
Praw dziw ie pozy ty w ny (TP)
J.A. Moczko
Rycina 1
Obszary akceptacji i odrzucenia w procesie podejmowania decyzji.
Acceptance and rejection areas in decision making process.
Tabela II
Tablica przedstawiaj¹ca dane oraz wyniki analizy zale¿noœci liniowej miêdzy dwoma zmiennymi pomierzonymi
w skali interwa³owej (Parametr 1 oraz Parametr 2) wykonanej pakietem statystycznym STATXACT 7 (wersja
7.0.0) (© CYTEL, Inc.).
Exemplary data and results of linear dependence analysis of two variable measured in interval scale (Parametr 1 and
Parametr 2) performed with statistical package STATXACT 7 (ver. 7.0.0) (© CYTEL, Inc.).
!Cytel Studio (7.0.0)
(Oct 21, 2005)
>>> list ( variables =(Parametr1,Parametr2));
!
Datafile: E:\Data_STATISTICS\Cytel Studio 7\small.cyd
Przypadek
1
2
3
4
5
6
7
Parametr1
117
111
98
80
113
40
87
Parametr2
65
86
46
44
88
37
39
!Measures of Association:Pearson's Correlation Test
>>> associate ( test_type = pearson, row = parametr1, col = parametr2,
method = exact, time_limit = none );
Datafile: E:\Data_STATISTICS\Cytel Studio 7\small1.8a.cyd
PEARSON'S CORRELATION TEST
Correlation Coefficient estimates based on 7 observations.
Coefficient
----------Pearson's R
Estimate
-------0.7422
ASE1
---0.0580
95.00% Confidence Interval
-------------------------(
0.6285,
0.8559)
Asymptotic p-values (for testing no association t-distribution with 5 df):
One-sided: Pr { Statistic .GE. Observed
} =
0.0280
Two-sided: 2 * One-sided
=
0.0561
Exact p-values:
One-sided: Pr { Statistic .GE. Observed }
Pr { Statistic .EQ. Observed }
Two-sided: Pr { |Statistic| .GE. |Observed| }
=
=
=
0.0077
0.0002
0.0403
Elapsed Time is 0:0:0.25
wid³owe wyznaczenie wartoœci prawdopodobieñstwa p. W zdecydowanej wiêkszoœci
dostêpnych na rynku pakietów statystycznych wyznaczana jest asymptotyczna wartoœæ tego prawdopodobieñstwa. Ka¿dy ze
Przegl¹d Lekarski 2007 / 64 / 10
stosowanych testów statystycznych wymaga spe³nienia wiêkszej lub mniejszej liczby
warunków, które zapewniaj¹ wiarygodnoœæ
wyznaczonego przez test prawdopodobieñstwa p. WeŸmy dla przyk³adu podstawowe
za³o¿enia wymagane przez jednoczynnikow¹ analizê wariancji stosowan¹ w modelu
eksperymentalnym zmiennych niepowi¹zanych. Po pierwsze analizowana zmienna
zale¿na musi byæ mierzalna i wyra¿ona w
skali pomiarowej co najmniej interwa³owej.
Po drugie, próby musz¹ byæ pobrane w sposób losowy, niezale¿nie od siebie z ka¿dej
badanej populacji. Po trzecie, ka¿da z populacji musi byæ zgodna z rozk³adem normalnym N ( µi, si ), i=1, ..k, gdzie k oznacza
liczbê badanych populacji, µi, si - odpowiednio wartoœæ œredni¹ i odchylenie standardowe w i-tej populacji. Warunek czwarty to
homoscedastycznoœæ populacji (rozk³ady
maj¹ nieistotnie ró¿ni¹ce siê od siebie wariancje). Pogwa³cenie chocia¿by jednego
za³o¿enia doprowadza najczêœciej do nieprawid³owego wyznaczenia wartoœci prawdopodobieñstwa p a co z tym siê ³¹czy podjêcia nieprawid³owej decyzji. Dlatego tak
wa¿nym etapem analizy danych jest sprawdzenie spe³nienia za³o¿eñ wymaganych
przez stosowany test statystyczny. W wielu
przypadkach udaje siê wymusiæ spe³nienie
okreœlonego warunku na przyk³ad przez zastosowanie okreœlonej transformacji danych.
Najczêœciej jednak badacze przechodz¹ do
stosowania odpowiednich testów nieparametrycznych (w naszym przypadku np. testu
Kruskala-Wallisa lub testu medianowego).
Techniki te sta³y siê niezwykle popularne z
chwil¹ wzrostu mocy obliczeniowej komputerów w szczególnoœci, dlatego, i¿ wymagaj¹ one jedynie minimalnych za³o¿eñ na temat sposobu generacji danych. Wymagania
te to za³o¿enie o niezale¿noœci próbkowania
oraz randomizowanego przydzia³u do badanej grupy eksperymentalnej. Dla danych ci¹g³ych odpada, zatem niezbêdne przy stosowaniu testów parametrycznych za³o¿enie dotycz¹ce kszta³tu rozk³adu.
Rzadko jednak¿e pamiêta siê o dodatkowym za³o¿eniu – wystarczaj¹cej liczebnoœci zbioru danych dla uzyskania zbie¿noœci statystyki testowej do rozk³adu normalnego (dla danych ci¹g³ych) lub rozk³adu chikwadrat (dla danych kategorialnych) [1].
Wartoœci prawdopodobieñstwa p s¹, bowiem obliczane na podstawie wyznaczenia
obszarów krytycznych dla wspomnianych
rozk³adów (asymptotyczna wartoœæ prawdopodobieñstwa p), nie zaœ na podstawie rzeczywistego rozk³adu statystyki testowej
(prawdziwa wartoœæ prawdopodobieñstwa
p). W przypadku wystarczaj¹co du¿ych i
dobrze zrównowa¿onych zbiorów danych
ró¿nice miêdzy wartoœci¹ asymptotyczn¹ a
rzeczywist¹ s¹ zazwyczaj zaniedbywane.
Istniej¹ jednak¿e specyficzne uk³ady danych, dla których ró¿nice te bêd¹ mia³y istotne znaczenie a co siê z tym wi¹¿e, bêd¹
wp³ywaæ na ostateczn¹ decyzjê. W kolejnych rozdzia³ach pracy przedstawiono przyk³ady specyficznych uk³adów danych, dla
których wyznaczenie asymptotycznej wartoœci prawdopodobieñstwa p prowadzi do
podjêcia niew³aœciwej decyzji. Wszystkie
obliczenia przeprowadzono przy u¿yciu pakietu statystycznego STATXACT 7 wersja
7.0.0 (© CYTEL, Inc.) .
Przypadek ma³ej liczebnoœci danych
Pierwszy przyk³ad ilustruje sytuacjê, w
której liczba pomiarów jest ma³a. Dane
875
Tabela III
Tablica przedstawiaj¹ca dane (Pomiar 1) z licznymi wartoœciami wi¹zanymi oraz wyniki analizy istotnoœci
ró¿nicy rozk³adów ciœnienia skurczowego miêdzy dwoma grupami (Grupa) pacjentów przy u¿yciu testu
Manna - Whitney'a wykonanej pakietem statystycznym STATXACT 7 (wersja 7.0.0) (© CYTEL, Inc.).
Example of heavily-tied data (Pomiar 1) and results of significance analysis of difference of systolic blood pressure
distributions between two groups of patients (Grupa) performed with statistical package STATXACT 7 (ver. 7.0.0) (©
CYTEL, Inc.).
!Cytel Studio (7.0.0)
(Oct 21, 2005)
>>> list ( variables =(Grupa,Pomiar1,Pomiar2));
!
Datafile: E:\Data_STATISTICS\Cytel Studio 7\tied-untied.cyd
Przypadek
1
2
3
4
5
6
7
8
9
10
11
12
13
Grupa
1
1
1
1
1
1
2
2
2
2
2
2
2
Pomiar1
128
142
138
124
142
139
114
128
128
124
124
128
128
Pomiar2
128
142
138
124
142
139
114
128.1
127.9
124
124
127.8
128.2
!Two Independent Samples:Wilcoxon-Mann-Whitney Test
>>> wilcoxon ( test_type = independent, row = grupa, col = pomiar1, method
= exact, time_limit = none );
Datafile: E:\Data_STATISTICS\Cytel Studio 7\tied1.9untied1.10a.cyd
WILCOXON-MANN-WHITNEY TEST
[ Sum of scores from population <
1 > ]
Summary of Exact distribution of WILCOXON-MANN-WHITNEY statistic:
Min
Max
Mean
Std-dev
Observed Standardized
24.00
60.00
42.00
6.755
56.00
2.072
Mann-Whitney Statistic =
35.00
Asymptotic Inference:
One-sided p-value: Pr {
Test Statistic .GE. Observed }
Two-sided p-value: 2 * One-sided
Exact Inference:
One-sided p-value: Pr {
Test Statistic
Pr {
Test Statistic
Two-sided p-value: Pr { | Test Statistic
.GE. | Observed
Two-sided p-value: 2*One-Sided
.GE. Observed }
.EQ. Observed }
- Mean |
- Mean |
=
=
0.0191
0.0382
=
=
0.0262
0.0146
=
=
0.0554
0.0524
Elapsed time is 0:0:0.19
Tabela IV
Tablica przedstawiaj¹ca wyniki analizy istotnoœci ró¿nicy rozk³adów ciœnienia skurczowego dla danych z
pojedynczymi wartoœciami wi¹zanymi ( kolumna Pomiar 2 w Tabeli 3) miêdzy dwoma grupami pacjentów
(Grupa) przy u¿yciu testu Manna - Whitney'a wykonanej pakietem statystycznym STATXACT 7 (wersja 7.0.0)
(© CYTEL, Inc.).
Results of significance analysis in difference of systolic blood pressure distributions between two groups of patients
(Grupa) based on data with single tied values (column Pomiar 2 in Table 3) performed with statistical package
STATXACT 7 (ver. 7.0.0) (© CYTEL, Inc.).
!Two Independent Samples:Wilcoxon-Mann-Whitney Test
>>> wilcoxon ( test_type = independent, row = grupa, col = pomiar2, method
= exact, time_limit = none );
Datafile: E:\Data_STATISTICS\Cytel Studio 7\tied1.9untied1.10a.cyd
WILCOXON-MANN-WHITNEY TEST
[ Sum of scores from population <
1 > ]
Summary of Exact distribution of WILCOXON-MANN-WHITNEY statistic:
Min
Max
Mean
Std-dev
Observed Standardized
21.00
63.00
42.00
6.952
56.00
2.014
Mann-Whitney Statistic =
35.00
Asymptotic Inference:
One-sided p-value: Pr {
Test Statistic .GE. Observed }
Two-sided p-value: 2 * One-sided
Exact Inference:
One-sided p-value: Pr {
Test Statistic
Pr {
Test Statistic
Two-sided p-value: Pr { | Test Statistic
.GE. | Observed
Two-sided p-value: 2*One-Sided
.GE. Observed }
.EQ. Observed }
- Mean |
- Mean |
=
=
0.0220
0.0440
=
=
0.0239
0.0064
=
=
0.0484
0.0478
Elapsed time is 0:0:0.20
876
Przegl¹d Lekarski 2007 / 64 / 10
przedstawione w tabeli II dotycz¹ ma³ego
eksperymentu laboratoryjnego, w którym
chcemy zbadaæ liniow¹ zale¿noœæ miêdzy
dwoma pomierzonymi wielkoœciami.
W tym celu stosujemy test korelacji liniowej Pearsona i otrzymujemy wartoϾ
wspó³czynnika Rp = 0,7422. Analiza istotnoœci zwi¹zku liniowego klasyczn¹ metod¹
asymptotyczn¹ (badanie rozk³adu statystyki t) daje w wyniku nieistotn¹ statystycznie
(na poziomie istotnoœci a = 0,05) wartoœæ
prawdopodobieñstwa p=0,0561, co wskazuje na brak zale¿noœci liniowej. W przypadku wyznaczenia wartoœci prawdopodobieñstwa metod¹ dok³adn¹ otrzymujemy
p=0,0403, co prowadzi do przeciwnego
wniosku o wystêpowaniu istotnej statystycznie zale¿noœci liniowej. ród³em wystêpuj¹cej rozbie¿noœci w uzyskanych wynikach
jest ma³a liczebnoœæ próby, która w przypadku asymptotycznego oszacowania prawdopodobieñstwa poprzez u¿ycie rozk³adu tStudenta w sposób znacz¹cy zniekszta³ca
wynik rzeczywisty. Jak zatem widzimy, wielkoœæ próby mo¿e w istotny sposób wp³ywaæ
na wynik podjêtej decyzji.
Przypadek danych z du¿¹ liczb¹
pomiarów wi¹zanych
Kolejny problem wi¹¿e siê z wystêpowaniem pomiarów o powtarzaj¹cych siê
wielkoœciach. Pomiary takie okreœla siê mianem pomiarów wi¹zanych (ang. tied measurements). Pojedyncze pomiary wi¹zane
maj¹ umiarkowany wp³yw na uzyskany wynik, jednak¿e pojawienie siê licznych pomiarów wi¹zanych silnie zniekszta³ca wartoœæ
prawdopodobieñstwa obliczanego metod¹
asymptotyczn¹. Efekt ten zilustrujemy przyk³adem porównania wyników rozk³adu ciœnienia skurczowego u pacjentów leczonych
dwoma ró¿nymi lekami. Do porównania
wykorzystano niezwykle czêsto stosowany
w badaniach medycznych test Manna-Whitneya. Dane w kolumnie Pomiar 1 w tabeli
III zawieraj¹ piêciokrotnie pojawiaj¹c¹ siê
wartoœæ 128 oraz trzykrotnie wystêpuj¹c¹
wartoϾ 124.
Asymptotyczny wynik testu Manna Whitneya wskazuje na istotn¹ statystycznie ró¿nicê (na przyjêtym poziomie istotnoœci
a = 0,05) w rozk³adzie ciœnienia skurczowego wystêpuj¹cego u pacjentów w analizowanych grupach (p=0,0382). Tymczasem
wyznaczenie prawdopodobieñstwa metod¹
dok³adn¹ daje w wyniku 0,0554, co prowadzi do wniosku, i¿ ró¿nica rozk³adów na za³o¿onym poziomie istotnoœci jest nieistotna.
Je¿eli weŸmiemy te same dane, lecz wyeliminujemy z nich najczêœciej pojawiaj¹cy siê
pomiar 128 (zastêpuj¹c go przez wartoœci
zbli¿one do 128 ale liczbowo ró¿ne, np.
127.9, 128.1) (kolumna Pomiar 2 w tabeli
III), wyniki uzyskane zarówno metod¹
asymptotyczn¹, jak i dok³adn¹ (w tabeli IV
odpowiednio 0,0440 oraz 0,0484) doprowadz¹ nas do jednakowej decyzji – rozk³ady
ciœnieñ ró¿ni¹ siê istotnie miêdzy badanymi
grupami.
Widaæ, zatem ¿e pojawienie siê licznych
pomiarów wi¹zanych w sposób istotny wp³ywa na dok³adn¹ wartoœæ prawdopodobieñstwa a co siê z tym ³¹czy, na sposób podjêcia ostatecznej decyzji.
J.A. Moczko
Tabela V
Tablica kontyngencji przedstawiaj¹ca dane rzadkie oraz wyniki analizy istotnoœci ró¿nicy efektu leczenia
pacjentów trzema lekami przy u¿yciu testu Kruskala-Wallisa wykonanej pakietem statystycznym STATXACT
7 (wersja 7.0.0) (© CYTEL, Inc.).
Contingency table presenting sparse data and results of significance analysis of difference in treatment outcome
using Kruskal-Wallis test performed with statistical package STATXACT 7 (ver. 7.0.0) (© CYTEL, Inc.).
!Cytel Studio (7.0.0)
(Oct 21, 2005)
>>> DA
!
Datafile: E:\Data_STATISTICS\Cytel Studio 7\sparse.cyd
! Table
1 of
1
!--------------------------------------------------------------------!
|
| BRAK
| CZʌCIOWA
| WYLECZENIE |
SUMA
|
|
| POPRAWY
|
POPRAWA
|
|
|
|------------|-------------|-------------|-------------|-------------|
|
LEK1
|
2 |
0 |
0 |
2 |
|
OCZEK.
|
(1.06) |
(0.47) |
(0.47) |
|
|
LEK2
|
1 |
1 |
0 |
2 |
|
OCZEK.
|
(1.06) |
(0.47) |
(0.47) |
|
|
LEK3
|
3 |
0 |
0 |
3 |
|
OCZEK.
|
(1.59) |
(0.71) |
(0.71) |
|
| LEK1+LEK2 |
2 |
2 |
0 |
4 |
|
OCZEK.
|
(2.12) |
(0.94) |
(0.94) |
|
|LEK1+LEK2+LEK3|
1 |
1 |
4 |
6 |
|
OCZEK.
|
(3.18) |
(1.41) |
(1.41) |
|
|------------|-------------|-------------|-------------|-------------|
|
SUMA
|
9 |
4 |
4 |
17 |
!------------------------------------------------------!-------------!Cytel Studio (7.0.0)
(Oct 21, 2005)
>>> USE (E:\Data_STATISTICS\Cytel Studio 7\sparse22.1.cyd);
Note: Table data file opened
!Singly Ordered R x C Table:Kruskal-Wallis Test
>>> kruskal_wallis ( method = exact, time_limit = none );
Datafile: E:\Data_STATISTICS\Cytel Studio 7\sparse22.1.cyd
KRUSKAL-WALLIS TEST [That the 5 rows are identically distributed]
Statistic based on the observed data :
The Observed Statistic =
8.682
Asymptotic p-value: (based on Chi-square distribution with 4 df )
Pr { Statistic .GE.
8.682 } =
0.0695
Exact p-value and point probability :
Pr { Statistic .GE.
8.682 } =
Pr { Statistic .EQ.
8.682 } =
0.0390
0.0015
Elapsed time is 0:0:0.28
Przypadek danych rzadko rozsianych
Czêsto pojawia siê sytuacja, w której w
wyniku eksperymentu otrzymujemy w tablicy kontyngencji liczne komórki o ma³ej lub
wrêcz zerowej liczebnoœci. Zdarza siê to
miêdzy innymi wtedy, gdy dokonujemy pomiaru na ma³ej próbie a mierzone zmienne
dzielimy na wiele kategorii. Przyk³ad takich
danych ilustruje tabela V.
Problem, który usi³ujemy rozwi¹zaæ polega na porównaniu oceny skutecznoœci
trzech leków u¿ytych osobno oraz w terapii
skojarzonej. Skutecznoœæ leczenia wyra¿amy w skali porz¹dkowej tworz¹c trzy kategorie: brak poprawy, czêœciowa poprawa,
wyleczenie. Usi³ujemy zatem podzieliæ próbê z³o¿on¹ z 17 pacjentów na 15 kategorii.
Z oczywistych wzglêdów obsadzenie ka¿dej z komórek bêdzie bardzo niskie, co powoduje b³êdne oszacowanie asymptotycznej wartoœci prawdopodobieñstwa. Nale¿y
jednak¿e pamiêtaæ, ¿e niskie obsadzenie
wielu komórek tablicy kontyngencji mo¿e-
Przegl¹d Lekarski 2007 / 64 / 10
my uzyskaæ tak¿e przy du¿ych liczebnoœciach próby; ta sytuacja omówiona zostanie osobno w kolejnym podrozdziale jako
uk³ad danych niezrównowa¿onych. Z uwagi na fakt, ¿e zmienna opisuj¹ca skutecznoœæ leczenia jest pomierzona w skali porz¹dkowej, natomiast sposób leczenia w
skali nominalnej odpowiednim dla tej analizy bêdzie u¿ycie testu Kruskala-Wallisa. Na
podstawie uzyskanych klasyczn¹ metod¹
wyników asymptotycznych dochodzimy do
wniosku, i¿ na poziomie istotnoœci a = 0,05
nie mamy podstaw do odrzucenia hipotezy
zerowej (p=0,0695).
Niestety podjêta przez nas decyzja bêdzie b³êdna. Dok³adne oszacowanie wartoœci prawdopodobieñstwa metodami permutacyjnymi daje w wyniku p= 0,0390, co wskazuje na fakt, i¿ bardziej prawdopodobna jest
hipoteza alternatywna. W³aœciwy jest zatem
wniosek, ¿e skojarzone leczenie trzema
badanymi lekami równoczeœnie daje istotnie lepsze rezultaty.
Przypadek danych
niezrównowa¿onych
Ostatni przyk³ad ilustruje sytuacjê, w której mamy do czynienia z prób¹ o bardzo
du¿ej liczebnoœci, lecz niestety rozk³ad danych jest niezrównowa¿ony. Tego typu dane
napotkamy w tabeli VI.
Wielkoœæ próby (grubo ponad 21000
przypadków) sugerowa³aby, i¿ u¿ycie w tym
przypadku metod asymptotycznych jest w
pe³ni uzasadnione. Jednak¿e porównanie
wyników asymptotycznych i dok³adnych
przeczy temu spostrze¿eniu. Problem, który chcemy rozwi¹zaæ polega na zbadaniu
zwi¹zku miêdzy podan¹ dawka okreœlonego leku a zaobserwowan¹ jego toksycznoœci¹. Dane przedstawione w postaci tablicy
kontyngencji 4*4 mo¿na by próbowaæ analizowaæ klasycznym testem chi-kwadrat Pearsona lub testem Fishera-Freemana-Haltona. Jednak¿e w wielu komórkach ma³e
wartoœci oczekiwane nie spe³niaj¹ warunku
Cochrana [2]. Ponadto u¿ycie tych testów
zwi¹zane jest z siln¹ utrat¹ informacji, poniewa¿ dawka mierzona jest w skali interwa³owej, zaœ efekt toksycznoœci w skali porz¹dkowej. Optymalnym testem do rozwi¹zania postawionego problemu jest, zatem
test Jonckheere-Terpstry. Uzyskane wyniki
asymptotyczne (p=0,0342) prowadz¹ do
odrzucenia hipotezy zerowej i stwierdzenia
silnej zale¿noœci toksycznoœci leku od podanej dawki. Jednak¿e w rzeczywistoœci
zale¿noœæ taka nie jest udowodniona, bo
wartoœæ dok³adna prawdopodobieñstwa
wynosi p=0,0673. ród³em obserwowanej
rozbie¿noœci jest wysoki stopieñ niezrównowa¿eni danych w komórkach tabeli kontyngencji.
Wnioski
Jak widaæ z przytoczonych powy¿ej
przyk³adów mo¿e siê zdarzyæ sytuacja, w
której otrzymane przy u¿yciu standardowych
pakietów statystycznych wyniki doprowadz¹
nas do podjêcia nieprawid³owej decyzji. Najczêœciej Ÿród³em takiego b³êdu jest pogwa³cenie jednego lub kilku za³o¿eñ le¿¹cych u
podstaw poprawnoœci dzia³ania okreœlonego testu statystycznego. Mo¿e siê jednak
okazaæ, ¿e nawet przy wyborze odpowiedniego testu statystycznego i przy spe³nieniu
wszystkich wymaganych za³o¿eñ dojdziemy
do b³êdnego wniosku. Zwi¹zane jest to z
faktem istnienia specyficznych rozk³adów
danych silnie wp³ywaj¹cych na ocenê wartoœci wyznaczanego prawdopodobieñstwa.
Próba apriorycznego ustalenia (tj. bez wyznaczenia rzeczywistego rozk³adu statystyki
testowej), czy okreœlony zestaw danych ma
niepo¿¹dane cechy powoduj¹ce istotne
zniekszta³cenie wartoœci prawdopodobieñstwa p jest rzecz¹ niezwykle z³o¿on¹ [3]. Dla
niektórych testów opracowano regu³y pozwalaj¹ce w pewnym stopniu unikn¹æ ryzyka nieprawid³owego oszacowania tej wielkoœci [4]. Dla przyk³adu powszechnie znana jest wysoce konserwatywna regu³a, opracowana przez Cochrana [2] dla wyznaczenia wartoœci statystyki Pearsona – minimalna wartoœæ komórki w tablicy wartoœci oczekiwanych musi wynosiæ, co najmniej 5. Za³o¿enie dzia³a dobrze dla tablic kontyngencji 2*2 (brak jego spe³nienia jest podstaw¹
877
Tabela VI
Tablica kontyngencji przedstawiaj¹ca dane o du¿ej liczebnoœci, jednak¿e o uk³adzie niezrównowa¿onym,
analizuj¹ca zale¿noœæ miêdzy wielkoœci¹ dawki leku a stopniem efektu toksycznego przy u¿yciu testu
Jonckheere -Terpstra wykonanej pakietem statystycznym STATXACT 7 (wersja 7.0.0) (© CYTEL, Inc.).
Example of large but unbalanced data and results of significance analysis of difference in systolic blood pressure
distributions between two groups of patients (Grupa) using Jonckheere -Terpstra test (performed with statistical package
STATXACT 7 (ver. 7.0.0) (© CYTEL, Inc.).
!Cytel Studio (7.0.0)
(Oct 21, 2005)
>>> DA
!
Datafile: <new>
! Table
1 of
1
!-----------------------------------------------------------------------!
| DAWKA
|
BRAK
|
S£ABA
|
UMIARK
|
SILNA
|SUMA
|
|----------|-----------|-----------|------------|-------------|---------|
|
20mg
|
10017 |
1 |
0 |
0 | 10018
|
| oczekiw. | (10011.09)|
(4.61)|
(1.38) |
(0.92) |
|
|
50mg
|
1796 |
3 |
1 |
0
| 1800
|
| oczekiw. | (1798.76)|
(0.83)|
0.25) |
(0.17) |
|
|
75mg
|
4915 |
4 |
1 |
1 | 4921
|
| oczekiw. | (4917.61)|
(2.26)|
(0.68) |
(0.45) |
|
| 100mg
|
5003 |
2 |
1 |
1 | 5007
|
| oczekiw. | (5003.55)|
(2.30)|
(0.69) |
(0.46) |
|
|----------|-----------|-----------|------------|-------------|---------|
| SUMA
|
21731 |
10 |
3 |
2 | 21746
|
!-----------------------------------------------------------------------!
!Doubly Ordered R x C Table:Jonckheere Terpstra Test
>>> jt ( method = exact, time_limit = none );
Datafile: E:\Data_STATISTICS\Cytel Studio 7\unbalanced.cyd
JONCKHEERE-TERPSTRA TEST [That the 4 rows are identically distributed]
Statistic based on the observed 4 by 4 table(x) with 21746 observations:
Mean
8.000e+007
Std-dev
2.277e+004
Observed(JT(x))
8.005e+007
Asymptotic p-value:
One-sided: Pr { JT*(X) .GE.
Two-sided: 2 * One-sided
Exact p-values:
One-sided: Pr { JT*(X) .GE.
Pr { JT*(X) .EQ.
Two-sided: Pr { |JT*(X)| .GE.
2.118 }
Standardized(JT*(x))
2.118
=
=
2.118 }
2.118 }
2.118 }
0.0171
0.0342
=
=
=
0.0369
0.0293
0.0673
Elapsed Time is 0:0:0.30
878
Przegl¹d Lekarski 2007 / 64 / 10
do u¿ycia dok³adnego testu Fishera), jednak¿e dla tablic o wiêkszej wymiarowoœci
staje siê warunkiem zbyt konserwatywnym.
Dlatego te¿ Cochran zmieni³ nieco poprzedni¹ regu³ê przyjmuj¹c ostatecznie, ¿e dla
tablic kontyngencji wiêkszych ni¿ 2*2 dozwolona jest minimalna wartoœæ oczekiwana równa jeden pod warunkiem, i¿ nie wiêcej ni¿ dwadzieœcia procent komórek tej
tabeli ma wartoœci oczekiwane poni¿ej 5.
Podobne regu³y opracowano jeszcze dla kilku innych testów. Do dzisiaj brakuje jednak
jednoznacznego kryterium badaj¹cego poprawnoœæ okreœlonej struktury danych dla
dowolnego testu. Dlatego te¿ jedynym wyjœciem jest stosowanie obliczeñ dok³adnych
wartoœci prawdopodobieñstwa, które jednak¿e mog¹ wymagaæ wielkiej mocy obliczeniowej komputera i s¹ z regu³y czasoch³onne. Zdarza siê, ¿e proste z pozoru
uk³ady danych wymagaj¹ wielogodzinnej
analizy permutacyjnej nawet przy zastosowaniu szybkich, wielordzeniowych procesorów. W tym przypadku obliczenia dok³adne
mo¿na zast¹piæ technik¹ obliczeñ Monte
Carlo z za³o¿on¹ przez eksperymentatora
precyzj¹ (mo¿na j¹ dowolnie zmieniaæ ustalaj¹c ró¿ne wielkoœci uk³adów odniesienia).
Metody Monte Carlo gwarantuj¹ uzyskanie
nieobci¹¿onego estymatora prawdopodobieñstwa wraz z przedzia³em ufnoœci na
okreœlonym poziomie istotnoœci dla problemu o dowolnej z³o¿onoœci danych eksperymentalnych.
Piœmiennictwo
1. Hollander M., Wolfe D.A.: Nonparametric statistical methods – 2nd Ed., John Wiley & Sons, New York,
1999.
2. Cochran W.G.: Some methods for strengthening the
common c2 Tests. Biometrics 1954, 10, 417.
3. Bishop Y.M.M., Fienberg S.E., Holland P.W.: Discrete multivariate analysis: Theory and practice. The
MIT Press, Cambridge, Massachusetts, 1975.
4. Agresti A.: Categorical data analysis. John Wiley &
Sons, New York, 2002.
J.A. Moczko