Metody dokładnego wnioskowania nieparametrycznego w
Transkrypt
Metody dokładnego wnioskowania nieparametrycznego w
PRACE POGL¥DOWE Jerzy A. MOCZKO Metody dok³adnego wnioskowania nieparametrycznego w przypadku nietypowych rozk³adów danych eksperymentalnych Methods of exact nonparametric inference for non-typical distributions of experimental data Katedra i Zak³ad Informatyki i Statystyki, Uniwersytet Medyczny im. Karola Marcinkowskiego w Poznaniu Kierownik: Prof. zw. dr hab. Jerzy A. Moczko Dodatkowe s³owa kluczowe: wnioskowanie permutacyjne wspomaganie procesów decyzyjnych metody nieparametryczne Additional key words: permutational inference decision support nonparametric methods W badaniach medycznych mamy czêsto do czynienia ze specyficznymi uk³adami danych takich, jak dane o ma³ej liczebnoci, niezrównowa¿one, rzadko rozsiane lub z du¿¹ liczb¹ pomiarów wi¹zanych. Szczególne w³aciwoci tych danych wp³ywaj¹ na wyniki obliczeñ wartoci prawdopodobieñstwa wykorzystywanego w procesie podejmowania decyzji. W pracy przedstawiono cztery przyk³ady uk³adów danych, dla których stosowanie wyznaczenie asymptotycznego prawdopodobieñstwa prowadzi do podjêcia b³êdnych decyzji. In medical research we frequently find data sets with specific structure such as small data sets, unbalanced, sparse or heavily tied. The peculiar properties of those sets influence the p-value which quantity is used in decision making process. Four examples of experimental data, for which estimation of asymptotic p-value leads to erroneous decision, are presented. Podstawowe za³o¿enia teorii testowania hipotez W testowaniu hipotez statystycznych, przy podejmowaniu decyzji, która z dwóch analizowanych hipotez jest bardziej prawdopodobna, pos³ugujemy siê obliczon¹ z testu wartoci¹ prawdopodobieñstwa (p-value). Wartoci prawdopodobieñstwa p poni¿ej za³o¿onego przez eksperymentatora poziomu progowego a przemawiaj¹ za odrzuceniem hipotezy zerowej, za wartoci powy¿ej a nie daj¹ wystarczaj¹cego dowodu do odrzucenia hipotezy zerowej (rycina 1). Przypadek p = a stanowi sytuacjê w¹tpliw¹, niedaj¹c¹ ostatecznego rozstrzygniêcia. Symbolicznie zapisujemy ten fakt w postaci Wartoæ poziomu odciêcia a ustalana jest przez eksperymentatora przed rozpoczêciem zbierania danych i przed wszelkimi obliczeniami zwi¹zanymi z procedur¹ podjêcia na ich podstawie decyzji na temat przyjêcia czy te¿ odrzucenia postawionej hipotezy zerowej. Ustalenie wartoci a po dokonaniu obliczeñ mo¿na w zasadzie uznaæ za manipulacjê danymi. Poziom istotnoci statystycznej a jest równy prawdopodobieñstwu pope³nienia b³êdu pierwszego rodzaju a wiêc prawdopodobieñstwu odrzucenia hipotezy zerowej, gdy w rzeczywistoci by³a ona prawdziwa H0 = TRUE gdy p>a H0 = FALSE gdy p<a Sytuacja nierozstrzygniêta jednoznacznie gdy p = a Adres do korespondencji: Prof. dr hab. Jerzy A. Moczko Katedra i Zak³ad Informatyki i Statystyki Uniwersytet Medyczny im. Karola Marcinkowskiego ul. D¹browskiego 79 60-529 Poznañ Tel./fax: (+61) 841 11 16 e-mail: [email protected] 874 a = Pr ( rej H0 | H0 = TRUE ) Najczêciej stosowany przez eksperymentatorów poziom a = 0.05 oznacza zatem ich zgodê na uzyskanie co najwy¿ej piêcioprocentowej frakcji wniosków fa³szywie dodatnich (tabela I). Jak zatem widaæ, w procedurze testowania hipotez krytyczn¹ rolê odgrywa pra- Tabela I Definicje b³êdów pierwszego i drugiego rodzaju. First and second type error definitions. Rzeczy w istoæ H0: true ( norm a) Wy nik testu H0: false (niepraw id³ow oæ) Przegl¹d Lekarski 2007 / 64 / 10 H0: true (norm a) H0: false (niepraw id³ow oæ) Praw dziw ie negaty w ny (TN) Fa³szy w ie negaty w ny (FN) b³¹d ii rodzaju (b ) Fa³szy w ie pozy ty w ny (FP) b³¹d i rodzaju (a ) Praw dziw ie pozy ty w ny (TP) J.A. Moczko Rycina 1 Obszary akceptacji i odrzucenia w procesie podejmowania decyzji. Acceptance and rejection areas in decision making process. Tabela II Tablica przedstawiaj¹ca dane oraz wyniki analizy zale¿noci liniowej miêdzy dwoma zmiennymi pomierzonymi w skali interwa³owej (Parametr 1 oraz Parametr 2) wykonanej pakietem statystycznym STATXACT 7 (wersja 7.0.0) (© CYTEL, Inc.). Exemplary data and results of linear dependence analysis of two variable measured in interval scale (Parametr 1 and Parametr 2) performed with statistical package STATXACT 7 (ver. 7.0.0) (© CYTEL, Inc.). !Cytel Studio (7.0.0) (Oct 21, 2005) >>> list ( variables =(Parametr1,Parametr2)); ! Datafile: E:\Data_STATISTICS\Cytel Studio 7\small.cyd Przypadek 1 2 3 4 5 6 7 Parametr1 117 111 98 80 113 40 87 Parametr2 65 86 46 44 88 37 39 !Measures of Association:Pearson's Correlation Test >>> associate ( test_type = pearson, row = parametr1, col = parametr2, method = exact, time_limit = none ); Datafile: E:\Data_STATISTICS\Cytel Studio 7\small1.8a.cyd PEARSON'S CORRELATION TEST Correlation Coefficient estimates based on 7 observations. Coefficient ----------Pearson's R Estimate -------0.7422 ASE1 ---0.0580 95.00% Confidence Interval -------------------------( 0.6285, 0.8559) Asymptotic p-values (for testing no association t-distribution with 5 df): One-sided: Pr { Statistic .GE. Observed } = 0.0280 Two-sided: 2 * One-sided = 0.0561 Exact p-values: One-sided: Pr { Statistic .GE. Observed } Pr { Statistic .EQ. Observed } Two-sided: Pr { |Statistic| .GE. |Observed| } = = = 0.0077 0.0002 0.0403 Elapsed Time is 0:0:0.25 wid³owe wyznaczenie wartoci prawdopodobieñstwa p. W zdecydowanej wiêkszoci dostêpnych na rynku pakietów statystycznych wyznaczana jest asymptotyczna wartoæ tego prawdopodobieñstwa. Ka¿dy ze Przegl¹d Lekarski 2007 / 64 / 10 stosowanych testów statystycznych wymaga spe³nienia wiêkszej lub mniejszej liczby warunków, które zapewniaj¹ wiarygodnoæ wyznaczonego przez test prawdopodobieñstwa p. Wemy dla przyk³adu podstawowe za³o¿enia wymagane przez jednoczynnikow¹ analizê wariancji stosowan¹ w modelu eksperymentalnym zmiennych niepowi¹zanych. Po pierwsze analizowana zmienna zale¿na musi byæ mierzalna i wyra¿ona w skali pomiarowej co najmniej interwa³owej. Po drugie, próby musz¹ byæ pobrane w sposób losowy, niezale¿nie od siebie z ka¿dej badanej populacji. Po trzecie, ka¿da z populacji musi byæ zgodna z rozk³adem normalnym N ( µi, si ), i=1, ..k, gdzie k oznacza liczbê badanych populacji, µi, si - odpowiednio wartoæ redni¹ i odchylenie standardowe w i-tej populacji. Warunek czwarty to homoscedastycznoæ populacji (rozk³ady maj¹ nieistotnie ró¿ni¹ce siê od siebie wariancje). Pogwa³cenie chocia¿by jednego za³o¿enia doprowadza najczêciej do nieprawid³owego wyznaczenia wartoci prawdopodobieñstwa p a co z tym siê ³¹czy podjêcia nieprawid³owej decyzji. Dlatego tak wa¿nym etapem analizy danych jest sprawdzenie spe³nienia za³o¿eñ wymaganych przez stosowany test statystyczny. W wielu przypadkach udaje siê wymusiæ spe³nienie okrelonego warunku na przyk³ad przez zastosowanie okrelonej transformacji danych. Najczêciej jednak badacze przechodz¹ do stosowania odpowiednich testów nieparametrycznych (w naszym przypadku np. testu Kruskala-Wallisa lub testu medianowego). Techniki te sta³y siê niezwykle popularne z chwil¹ wzrostu mocy obliczeniowej komputerów w szczególnoci, dlatego, i¿ wymagaj¹ one jedynie minimalnych za³o¿eñ na temat sposobu generacji danych. Wymagania te to za³o¿enie o niezale¿noci próbkowania oraz randomizowanego przydzia³u do badanej grupy eksperymentalnej. Dla danych ci¹g³ych odpada, zatem niezbêdne przy stosowaniu testów parametrycznych za³o¿enie dotycz¹ce kszta³tu rozk³adu. Rzadko jednak¿e pamiêta siê o dodatkowym za³o¿eniu wystarczaj¹cej liczebnoci zbioru danych dla uzyskania zbie¿noci statystyki testowej do rozk³adu normalnego (dla danych ci¹g³ych) lub rozk³adu chikwadrat (dla danych kategorialnych) [1]. Wartoci prawdopodobieñstwa p s¹, bowiem obliczane na podstawie wyznaczenia obszarów krytycznych dla wspomnianych rozk³adów (asymptotyczna wartoæ prawdopodobieñstwa p), nie za na podstawie rzeczywistego rozk³adu statystyki testowej (prawdziwa wartoæ prawdopodobieñstwa p). W przypadku wystarczaj¹co du¿ych i dobrze zrównowa¿onych zbiorów danych ró¿nice miêdzy wartoci¹ asymptotyczn¹ a rzeczywist¹ s¹ zazwyczaj zaniedbywane. Istniej¹ jednak¿e specyficzne uk³ady danych, dla których ró¿nice te bêd¹ mia³y istotne znaczenie a co siê z tym wi¹¿e, bêd¹ wp³ywaæ na ostateczn¹ decyzjê. W kolejnych rozdzia³ach pracy przedstawiono przyk³ady specyficznych uk³adów danych, dla których wyznaczenie asymptotycznej wartoci prawdopodobieñstwa p prowadzi do podjêcia niew³aciwej decyzji. Wszystkie obliczenia przeprowadzono przy u¿yciu pakietu statystycznego STATXACT 7 wersja 7.0.0 (© CYTEL, Inc.) . Przypadek ma³ej liczebnoci danych Pierwszy przyk³ad ilustruje sytuacjê, w której liczba pomiarów jest ma³a. Dane 875 Tabela III Tablica przedstawiaj¹ca dane (Pomiar 1) z licznymi wartociami wi¹zanymi oraz wyniki analizy istotnoci ró¿nicy rozk³adów cinienia skurczowego miêdzy dwoma grupami (Grupa) pacjentów przy u¿yciu testu Manna - Whitney'a wykonanej pakietem statystycznym STATXACT 7 (wersja 7.0.0) (© CYTEL, Inc.). Example of heavily-tied data (Pomiar 1) and results of significance analysis of difference of systolic blood pressure distributions between two groups of patients (Grupa) performed with statistical package STATXACT 7 (ver. 7.0.0) (© CYTEL, Inc.). !Cytel Studio (7.0.0) (Oct 21, 2005) >>> list ( variables =(Grupa,Pomiar1,Pomiar2)); ! Datafile: E:\Data_STATISTICS\Cytel Studio 7\tied-untied.cyd Przypadek 1 2 3 4 5 6 7 8 9 10 11 12 13 Grupa 1 1 1 1 1 1 2 2 2 2 2 2 2 Pomiar1 128 142 138 124 142 139 114 128 128 124 124 128 128 Pomiar2 128 142 138 124 142 139 114 128.1 127.9 124 124 127.8 128.2 !Two Independent Samples:Wilcoxon-Mann-Whitney Test >>> wilcoxon ( test_type = independent, row = grupa, col = pomiar1, method = exact, time_limit = none ); Datafile: E:\Data_STATISTICS\Cytel Studio 7\tied1.9untied1.10a.cyd WILCOXON-MANN-WHITNEY TEST [ Sum of scores from population < 1 > ] Summary of Exact distribution of WILCOXON-MANN-WHITNEY statistic: Min Max Mean Std-dev Observed Standardized 24.00 60.00 42.00 6.755 56.00 2.072 Mann-Whitney Statistic = 35.00 Asymptotic Inference: One-sided p-value: Pr { Test Statistic .GE. Observed } Two-sided p-value: 2 * One-sided Exact Inference: One-sided p-value: Pr { Test Statistic Pr { Test Statistic Two-sided p-value: Pr { | Test Statistic .GE. | Observed Two-sided p-value: 2*One-Sided .GE. Observed } .EQ. Observed } - Mean | - Mean | = = 0.0191 0.0382 = = 0.0262 0.0146 = = 0.0554 0.0524 Elapsed time is 0:0:0.19 Tabela IV Tablica przedstawiaj¹ca wyniki analizy istotnoci ró¿nicy rozk³adów cinienia skurczowego dla danych z pojedynczymi wartociami wi¹zanymi ( kolumna Pomiar 2 w Tabeli 3) miêdzy dwoma grupami pacjentów (Grupa) przy u¿yciu testu Manna - Whitney'a wykonanej pakietem statystycznym STATXACT 7 (wersja 7.0.0) (© CYTEL, Inc.). Results of significance analysis in difference of systolic blood pressure distributions between two groups of patients (Grupa) based on data with single tied values (column Pomiar 2 in Table 3) performed with statistical package STATXACT 7 (ver. 7.0.0) (© CYTEL, Inc.). !Two Independent Samples:Wilcoxon-Mann-Whitney Test >>> wilcoxon ( test_type = independent, row = grupa, col = pomiar2, method = exact, time_limit = none ); Datafile: E:\Data_STATISTICS\Cytel Studio 7\tied1.9untied1.10a.cyd WILCOXON-MANN-WHITNEY TEST [ Sum of scores from population < 1 > ] Summary of Exact distribution of WILCOXON-MANN-WHITNEY statistic: Min Max Mean Std-dev Observed Standardized 21.00 63.00 42.00 6.952 56.00 2.014 Mann-Whitney Statistic = 35.00 Asymptotic Inference: One-sided p-value: Pr { Test Statistic .GE. Observed } Two-sided p-value: 2 * One-sided Exact Inference: One-sided p-value: Pr { Test Statistic Pr { Test Statistic Two-sided p-value: Pr { | Test Statistic .GE. | Observed Two-sided p-value: 2*One-Sided .GE. Observed } .EQ. Observed } - Mean | - Mean | = = 0.0220 0.0440 = = 0.0239 0.0064 = = 0.0484 0.0478 Elapsed time is 0:0:0.20 876 Przegl¹d Lekarski 2007 / 64 / 10 przedstawione w tabeli II dotycz¹ ma³ego eksperymentu laboratoryjnego, w którym chcemy zbadaæ liniow¹ zale¿noæ miêdzy dwoma pomierzonymi wielkociami. W tym celu stosujemy test korelacji liniowej Pearsona i otrzymujemy wartoæ wspó³czynnika Rp = 0,7422. Analiza istotnoci zwi¹zku liniowego klasyczn¹ metod¹ asymptotyczn¹ (badanie rozk³adu statystyki t) daje w wyniku nieistotn¹ statystycznie (na poziomie istotnoci a = 0,05) wartoæ prawdopodobieñstwa p=0,0561, co wskazuje na brak zale¿noci liniowej. W przypadku wyznaczenia wartoci prawdopodobieñstwa metod¹ dok³adn¹ otrzymujemy p=0,0403, co prowadzi do przeciwnego wniosku o wystêpowaniu istotnej statystycznie zale¿noci liniowej. ród³em wystêpuj¹cej rozbie¿noci w uzyskanych wynikach jest ma³a liczebnoæ próby, która w przypadku asymptotycznego oszacowania prawdopodobieñstwa poprzez u¿ycie rozk³adu tStudenta w sposób znacz¹cy zniekszta³ca wynik rzeczywisty. Jak zatem widzimy, wielkoæ próby mo¿e w istotny sposób wp³ywaæ na wynik podjêtej decyzji. Przypadek danych z du¿¹ liczb¹ pomiarów wi¹zanych Kolejny problem wi¹¿e siê z wystêpowaniem pomiarów o powtarzaj¹cych siê wielkociach. Pomiary takie okrela siê mianem pomiarów wi¹zanych (ang. tied measurements). Pojedyncze pomiary wi¹zane maj¹ umiarkowany wp³yw na uzyskany wynik, jednak¿e pojawienie siê licznych pomiarów wi¹zanych silnie zniekszta³ca wartoæ prawdopodobieñstwa obliczanego metod¹ asymptotyczn¹. Efekt ten zilustrujemy przyk³adem porównania wyników rozk³adu cinienia skurczowego u pacjentów leczonych dwoma ró¿nymi lekami. Do porównania wykorzystano niezwykle czêsto stosowany w badaniach medycznych test Manna-Whitneya. Dane w kolumnie Pomiar 1 w tabeli III zawieraj¹ piêciokrotnie pojawiaj¹c¹ siê wartoæ 128 oraz trzykrotnie wystêpuj¹c¹ wartoæ 124. Asymptotyczny wynik testu Manna Whitneya wskazuje na istotn¹ statystycznie ró¿nicê (na przyjêtym poziomie istotnoci a = 0,05) w rozk³adzie cinienia skurczowego wystêpuj¹cego u pacjentów w analizowanych grupach (p=0,0382). Tymczasem wyznaczenie prawdopodobieñstwa metod¹ dok³adn¹ daje w wyniku 0,0554, co prowadzi do wniosku, i¿ ró¿nica rozk³adów na za³o¿onym poziomie istotnoci jest nieistotna. Je¿eli wemiemy te same dane, lecz wyeliminujemy z nich najczêciej pojawiaj¹cy siê pomiar 128 (zastêpuj¹c go przez wartoci zbli¿one do 128 ale liczbowo ró¿ne, np. 127.9, 128.1) (kolumna Pomiar 2 w tabeli III), wyniki uzyskane zarówno metod¹ asymptotyczn¹, jak i dok³adn¹ (w tabeli IV odpowiednio 0,0440 oraz 0,0484) doprowadz¹ nas do jednakowej decyzji rozk³ady cinieñ ró¿ni¹ siê istotnie miêdzy badanymi grupami. Widaæ, zatem ¿e pojawienie siê licznych pomiarów wi¹zanych w sposób istotny wp³ywa na dok³adn¹ wartoæ prawdopodobieñstwa a co siê z tym ³¹czy, na sposób podjêcia ostatecznej decyzji. J.A. Moczko Tabela V Tablica kontyngencji przedstawiaj¹ca dane rzadkie oraz wyniki analizy istotnoci ró¿nicy efektu leczenia pacjentów trzema lekami przy u¿yciu testu Kruskala-Wallisa wykonanej pakietem statystycznym STATXACT 7 (wersja 7.0.0) (© CYTEL, Inc.). Contingency table presenting sparse data and results of significance analysis of difference in treatment outcome using Kruskal-Wallis test performed with statistical package STATXACT 7 (ver. 7.0.0) (© CYTEL, Inc.). !Cytel Studio (7.0.0) (Oct 21, 2005) >>> DA ! Datafile: E:\Data_STATISTICS\Cytel Studio 7\sparse.cyd ! Table 1 of 1 !--------------------------------------------------------------------! | | BRAK | CZÊCIOWA | WYLECZENIE | SUMA | | | POPRAWY | POPRAWA | | | |------------|-------------|-------------|-------------|-------------| | LEK1 | 2 | 0 | 0 | 2 | | OCZEK. | (1.06) | (0.47) | (0.47) | | | LEK2 | 1 | 1 | 0 | 2 | | OCZEK. | (1.06) | (0.47) | (0.47) | | | LEK3 | 3 | 0 | 0 | 3 | | OCZEK. | (1.59) | (0.71) | (0.71) | | | LEK1+LEK2 | 2 | 2 | 0 | 4 | | OCZEK. | (2.12) | (0.94) | (0.94) | | |LEK1+LEK2+LEK3| 1 | 1 | 4 | 6 | | OCZEK. | (3.18) | (1.41) | (1.41) | | |------------|-------------|-------------|-------------|-------------| | SUMA | 9 | 4 | 4 | 17 | !------------------------------------------------------!-------------!Cytel Studio (7.0.0) (Oct 21, 2005) >>> USE (E:\Data_STATISTICS\Cytel Studio 7\sparse22.1.cyd); Note: Table data file opened !Singly Ordered R x C Table:Kruskal-Wallis Test >>> kruskal_wallis ( method = exact, time_limit = none ); Datafile: E:\Data_STATISTICS\Cytel Studio 7\sparse22.1.cyd KRUSKAL-WALLIS TEST [That the 5 rows are identically distributed] Statistic based on the observed data : The Observed Statistic = 8.682 Asymptotic p-value: (based on Chi-square distribution with 4 df ) Pr { Statistic .GE. 8.682 } = 0.0695 Exact p-value and point probability : Pr { Statistic .GE. 8.682 } = Pr { Statistic .EQ. 8.682 } = 0.0390 0.0015 Elapsed time is 0:0:0.28 Przypadek danych rzadko rozsianych Czêsto pojawia siê sytuacja, w której w wyniku eksperymentu otrzymujemy w tablicy kontyngencji liczne komórki o ma³ej lub wrêcz zerowej liczebnoci. Zdarza siê to miêdzy innymi wtedy, gdy dokonujemy pomiaru na ma³ej próbie a mierzone zmienne dzielimy na wiele kategorii. Przyk³ad takich danych ilustruje tabela V. Problem, który usi³ujemy rozwi¹zaæ polega na porównaniu oceny skutecznoci trzech leków u¿ytych osobno oraz w terapii skojarzonej. Skutecznoæ leczenia wyra¿amy w skali porz¹dkowej tworz¹c trzy kategorie: brak poprawy, czêciowa poprawa, wyleczenie. Usi³ujemy zatem podzieliæ próbê z³o¿on¹ z 17 pacjentów na 15 kategorii. Z oczywistych wzglêdów obsadzenie ka¿dej z komórek bêdzie bardzo niskie, co powoduje b³êdne oszacowanie asymptotycznej wartoci prawdopodobieñstwa. Nale¿y jednak¿e pamiêtaæ, ¿e niskie obsadzenie wielu komórek tablicy kontyngencji mo¿e- Przegl¹d Lekarski 2007 / 64 / 10 my uzyskaæ tak¿e przy du¿ych liczebnociach próby; ta sytuacja omówiona zostanie osobno w kolejnym podrozdziale jako uk³ad danych niezrównowa¿onych. Z uwagi na fakt, ¿e zmienna opisuj¹ca skutecznoæ leczenia jest pomierzona w skali porz¹dkowej, natomiast sposób leczenia w skali nominalnej odpowiednim dla tej analizy bêdzie u¿ycie testu Kruskala-Wallisa. Na podstawie uzyskanych klasyczn¹ metod¹ wyników asymptotycznych dochodzimy do wniosku, i¿ na poziomie istotnoci a = 0,05 nie mamy podstaw do odrzucenia hipotezy zerowej (p=0,0695). Niestety podjêta przez nas decyzja bêdzie b³êdna. Dok³adne oszacowanie wartoci prawdopodobieñstwa metodami permutacyjnymi daje w wyniku p= 0,0390, co wskazuje na fakt, i¿ bardziej prawdopodobna jest hipoteza alternatywna. W³aciwy jest zatem wniosek, ¿e skojarzone leczenie trzema badanymi lekami równoczenie daje istotnie lepsze rezultaty. Przypadek danych niezrównowa¿onych Ostatni przyk³ad ilustruje sytuacjê, w której mamy do czynienia z prób¹ o bardzo du¿ej liczebnoci, lecz niestety rozk³ad danych jest niezrównowa¿ony. Tego typu dane napotkamy w tabeli VI. Wielkoæ próby (grubo ponad 21000 przypadków) sugerowa³aby, i¿ u¿ycie w tym przypadku metod asymptotycznych jest w pe³ni uzasadnione. Jednak¿e porównanie wyników asymptotycznych i dok³adnych przeczy temu spostrze¿eniu. Problem, który chcemy rozwi¹zaæ polega na zbadaniu zwi¹zku miêdzy podan¹ dawka okrelonego leku a zaobserwowan¹ jego toksycznoci¹. Dane przedstawione w postaci tablicy kontyngencji 4*4 mo¿na by próbowaæ analizowaæ klasycznym testem chi-kwadrat Pearsona lub testem Fishera-Freemana-Haltona. Jednak¿e w wielu komórkach ma³e wartoci oczekiwane nie spe³niaj¹ warunku Cochrana [2]. Ponadto u¿ycie tych testów zwi¹zane jest z siln¹ utrat¹ informacji, poniewa¿ dawka mierzona jest w skali interwa³owej, za efekt toksycznoci w skali porz¹dkowej. Optymalnym testem do rozwi¹zania postawionego problemu jest, zatem test Jonckheere-Terpstry. Uzyskane wyniki asymptotyczne (p=0,0342) prowadz¹ do odrzucenia hipotezy zerowej i stwierdzenia silnej zale¿noci toksycznoci leku od podanej dawki. Jednak¿e w rzeczywistoci zale¿noæ taka nie jest udowodniona, bo wartoæ dok³adna prawdopodobieñstwa wynosi p=0,0673. ród³em obserwowanej rozbie¿noci jest wysoki stopieñ niezrównowa¿eni danych w komórkach tabeli kontyngencji. Wnioski Jak widaæ z przytoczonych powy¿ej przyk³adów mo¿e siê zdarzyæ sytuacja, w której otrzymane przy u¿yciu standardowych pakietów statystycznych wyniki doprowadz¹ nas do podjêcia nieprawid³owej decyzji. Najczêciej ród³em takiego b³êdu jest pogwa³cenie jednego lub kilku za³o¿eñ le¿¹cych u podstaw poprawnoci dzia³ania okrelonego testu statystycznego. Mo¿e siê jednak okazaæ, ¿e nawet przy wyborze odpowiedniego testu statystycznego i przy spe³nieniu wszystkich wymaganych za³o¿eñ dojdziemy do b³êdnego wniosku. Zwi¹zane jest to z faktem istnienia specyficznych rozk³adów danych silnie wp³ywaj¹cych na ocenê wartoci wyznaczanego prawdopodobieñstwa. Próba apriorycznego ustalenia (tj. bez wyznaczenia rzeczywistego rozk³adu statystyki testowej), czy okrelony zestaw danych ma niepo¿¹dane cechy powoduj¹ce istotne zniekszta³cenie wartoci prawdopodobieñstwa p jest rzecz¹ niezwykle z³o¿on¹ [3]. Dla niektórych testów opracowano regu³y pozwalaj¹ce w pewnym stopniu unikn¹æ ryzyka nieprawid³owego oszacowania tej wielkoci [4]. Dla przyk³adu powszechnie znana jest wysoce konserwatywna regu³a, opracowana przez Cochrana [2] dla wyznaczenia wartoci statystyki Pearsona minimalna wartoæ komórki w tablicy wartoci oczekiwanych musi wynosiæ, co najmniej 5. Za³o¿enie dzia³a dobrze dla tablic kontyngencji 2*2 (brak jego spe³nienia jest podstaw¹ 877 Tabela VI Tablica kontyngencji przedstawiaj¹ca dane o du¿ej liczebnoci, jednak¿e o uk³adzie niezrównowa¿onym, analizuj¹ca zale¿noæ miêdzy wielkoci¹ dawki leku a stopniem efektu toksycznego przy u¿yciu testu Jonckheere -Terpstra wykonanej pakietem statystycznym STATXACT 7 (wersja 7.0.0) (© CYTEL, Inc.). Example of large but unbalanced data and results of significance analysis of difference in systolic blood pressure distributions between two groups of patients (Grupa) using Jonckheere -Terpstra test (performed with statistical package STATXACT 7 (ver. 7.0.0) (© CYTEL, Inc.). !Cytel Studio (7.0.0) (Oct 21, 2005) >>> DA ! Datafile: <new> ! Table 1 of 1 !-----------------------------------------------------------------------! | DAWKA | BRAK | S£ABA | UMIARK | SILNA |SUMA | |----------|-----------|-----------|------------|-------------|---------| | 20mg | 10017 | 1 | 0 | 0 | 10018 | | oczekiw. | (10011.09)| (4.61)| (1.38) | (0.92) | | | 50mg | 1796 | 3 | 1 | 0 | 1800 | | oczekiw. | (1798.76)| (0.83)| 0.25) | (0.17) | | | 75mg | 4915 | 4 | 1 | 1 | 4921 | | oczekiw. | (4917.61)| (2.26)| (0.68) | (0.45) | | | 100mg | 5003 | 2 | 1 | 1 | 5007 | | oczekiw. | (5003.55)| (2.30)| (0.69) | (0.46) | | |----------|-----------|-----------|------------|-------------|---------| | SUMA | 21731 | 10 | 3 | 2 | 21746 | !-----------------------------------------------------------------------! !Doubly Ordered R x C Table:Jonckheere Terpstra Test >>> jt ( method = exact, time_limit = none ); Datafile: E:\Data_STATISTICS\Cytel Studio 7\unbalanced.cyd JONCKHEERE-TERPSTRA TEST [That the 4 rows are identically distributed] Statistic based on the observed 4 by 4 table(x) with 21746 observations: Mean 8.000e+007 Std-dev 2.277e+004 Observed(JT(x)) 8.005e+007 Asymptotic p-value: One-sided: Pr { JT*(X) .GE. Two-sided: 2 * One-sided Exact p-values: One-sided: Pr { JT*(X) .GE. Pr { JT*(X) .EQ. Two-sided: Pr { |JT*(X)| .GE. 2.118 } Standardized(JT*(x)) 2.118 = = 2.118 } 2.118 } 2.118 } 0.0171 0.0342 = = = 0.0369 0.0293 0.0673 Elapsed Time is 0:0:0.30 878 Przegl¹d Lekarski 2007 / 64 / 10 do u¿ycia dok³adnego testu Fishera), jednak¿e dla tablic o wiêkszej wymiarowoci staje siê warunkiem zbyt konserwatywnym. Dlatego te¿ Cochran zmieni³ nieco poprzedni¹ regu³ê przyjmuj¹c ostatecznie, ¿e dla tablic kontyngencji wiêkszych ni¿ 2*2 dozwolona jest minimalna wartoæ oczekiwana równa jeden pod warunkiem, i¿ nie wiêcej ni¿ dwadziecia procent komórek tej tabeli ma wartoci oczekiwane poni¿ej 5. Podobne regu³y opracowano jeszcze dla kilku innych testów. Do dzisiaj brakuje jednak jednoznacznego kryterium badaj¹cego poprawnoæ okrelonej struktury danych dla dowolnego testu. Dlatego te¿ jedynym wyjciem jest stosowanie obliczeñ dok³adnych wartoci prawdopodobieñstwa, które jednak¿e mog¹ wymagaæ wielkiej mocy obliczeniowej komputera i s¹ z regu³y czasoch³onne. Zdarza siê, ¿e proste z pozoru uk³ady danych wymagaj¹ wielogodzinnej analizy permutacyjnej nawet przy zastosowaniu szybkich, wielordzeniowych procesorów. W tym przypadku obliczenia dok³adne mo¿na zast¹piæ technik¹ obliczeñ Monte Carlo z za³o¿on¹ przez eksperymentatora precyzj¹ (mo¿na j¹ dowolnie zmieniaæ ustalaj¹c ró¿ne wielkoci uk³adów odniesienia). Metody Monte Carlo gwarantuj¹ uzyskanie nieobci¹¿onego estymatora prawdopodobieñstwa wraz z przedzia³em ufnoci na okrelonym poziomie istotnoci dla problemu o dowolnej z³o¿onoci danych eksperymentalnych. Pimiennictwo 1. Hollander M., Wolfe D.A.: Nonparametric statistical methods 2nd Ed., John Wiley & Sons, New York, 1999. 2. Cochran W.G.: Some methods for strengthening the common c2 Tests. Biometrics 1954, 10, 417. 3. Bishop Y.M.M., Fienberg S.E., Holland P.W.: Discrete multivariate analysis: Theory and practice. The MIT Press, Cambridge, Massachusetts, 1975. 4. Agresti A.: Categorical data analysis. John Wiley & Sons, New York, 2002. J.A. Moczko