Cwiczenie: Wybrane testy nieparametryczne: Wilcoxona, Kruskall-
Transkrypt
Cwiczenie: Wybrane testy nieparametryczne: Wilcoxona, Kruskall-
Autor: Dariusz Piwczyński 2006-06-12 1 Ćwiczenie: Wybrane testy nieparametryczne: U Manna-Whitney, Kruskal-Wallis 1. Przekopiuj skoroszyt Excela o nazwie nieparam.xls do własnego folderu. 2. Otwórz skoroszyt a następnie zapisz go jako typ „tekst rozdzielany znakami tabulacji” (txt) pod nazwą scieki. Skoroszyt ten zawiera dane dotyczące wybranych wskaźników jakości ścieków trafiających do oczyszczalni oraz produktu powstającego po oczyszczeniu. Dane te pochodzą z różnych miesięcy, te zaś zostały podzielone na pory roku: zima, wiosna, lato. 3. Otwórz SAS, zadeklaruj bibliotekę npar. 4. Importuj do SAS wyżej wymieniony plik, zapisz go w bibliotece npar pod nazwą scieki. 5. Sprawdź czy wymienione zmienne, tj. ZawOg0...pH1 posiadają rozkład normalny. 6. Traktując eksperyment jako doświadczenie dwugrupowe (wyłącz z porównania porę roku „lato”) porównaj wskaźniki ścieków otrzymane zimą i wiosną. Jeśli zmienne posiadają rozkład zgodny z normalnym, wykonaj test t-Studenta. W przypadku braku zgodności rozkładu, wykonaj test Wilcoxona (w SAS odpowiednik testu U MannaWhitney). 7. Wykonaj statystyczną analizę biorąc już pod uwagę wszystkie pory roku. W razie potrzeby wykonaj analizę wariancji lub test Kruskala-Wallisa (nieparametryczny odpowiednik analizy wariancji). Poniżej znajduje się przykładowe rozwiązanie dotyczące ChZT0. /*Obliczamy podstawowe miary położenia i zmienności*/ ods rtf; ods rtf body='d:\npar\miary.rtf'; proc tabulate data=npar.npar; class pora; var ChZT0; table (n mean median Q1 Q3 STD),(ChZT0)* pora; run; ods rtf close; ChZT0 pora lato N wiosna zima 16 13 8 Mean 73.89 110.56 62.30 Median 69.70 94.80 61.05 Q1 50.80 72.70 47.05 Q3 93.20 116.50 67.20 Std 28.78 72.27 19.40 Badamy rozkład normalny Sprawdzamy czy zmienna posiada rozkład zgodny z normalnym, czyli weryfikujemy H0. H0: Zmienna ChZT posiada rozkład zgodny z normalnym H1: Zmienna ChZT nie posiada rozkładu zgodnego z normalnym Materiały pomocnicze do przedmiotu „Metody statystyczne w naukach biologicznych” Autor: Dariusz Piwczyński 2006-06-12 2 ODS EXCLUDE CIBASIC BASICMEASURES TESTSFORLOCATION EXTREMEOBS MODES MOMENTS QUANTILES; /*ten zapis jest niekonieczny, redukuje on jednak ilość drukowanych statystyk*/ proc univariate data=npar.scieki normal; var ChZT0; histogram/normal /*opcjonalne*/; run; The UNIVARIATE Procedure Variable: ChZT0 Moments N Mean Std Deviation Skewness Uncorrected SS Coeff Variation 37 84.2702703 50.6379078 3.65602344 355065.82 60.0898841 Sum Weights Sum Observations Variance Kurtosis Corrected SS Std Error Mean 37 3118 2564.1977 17.673983 92311.1173 8.32482076 Testy normalności Test --Statystyka-- -----p Value------ Shapiro-Wilk Kolmogorov-Smirnov Cramer-von Mises Anderson-Darling W D W-Sq A-Sq Pr Pr Pr Pr 0.651028 0.181491 0.416672 2.738474 < > > > W D W-Sq A-Sq <0.0001 <0.0100 <0.0050 <0.0050 Obliczone prawdopodobieństwo wynikające z przeprowadzonego testu Shapiro-Wilk (p<0,0001) upoważnia nas odrzucenie H0. Stwierdzamy zatem, że zmienna ChZT0 nie posiada rozkładu zgodnego z normalnym. Upewnia nas o tym również poniższy wykres typu histogram. Test sum rang Wilcoxona Porównujemy poziom ocenianych wskaźników ścieków między zimą i wiosną. Weryfikujemy zatem hipotezę zerową zakładającą, iż rozkład ChZT stwierdzony zimą i wiosną jest taki sam: H0: F(x) = G(x); H1: F(x) ≠ G(x) F(x), G(x) – dystrybuanta ChZT zimą i wiosną Materiały pomocnicze do przedmiotu „Metody statystyczne w naukach biologicznych” Autor: Dariusz Piwczyński 2006-06-12 3 proc npar1way data=npar.npar WILCOXON; var ChZT0; class pora; where pora NE "lato"; run; The NPAR1WAY Procedure Wilcoxon Scores (Rank Sums) dla zmiennej ChZT0 klasyfikowanej wg zmiennej pora Suma Oczekiwane Odch. std. Średnia pora N ocen poniżej H0 poniżej H0 ocena zima 8 48.0 88.0 13.803726 6.000000 wiosna 13 183.0 143.0 13.803726 14.076923 Dla więzów użyto ocen przeciętnych. Wilcoxon Two-Sample Test Statystyka 48.0000 Normal Approximation Z One-Sided Pr < Z Two-Sided Pr > |Z| -2.8615 0.0021 0.0042 t Approximation One-Sided Pr < Z Two-Sided Pr > |Z| 0.0048 0.0096 Z includes a continuity correction of 0.5. Kruskal-Wallis Test Chi-kwadrat Stopień swobody Pr > Chi-kwadrat 8.3971 1 0.0038 Otrzymane prawdopodobieństwo pozwala odrzucić H0, stwierdzamy zatem, że poziom ChZT0 jest inny zimą i wiosną. Materiały pomocnicze do przedmiotu „Metody statystyczne w naukach biologicznych” Autor: Dariusz Piwczyński 2006-06-12 4 Test Kruskal-Wallis Tym razem bierzemy pod uwagę wszystkie pory roku. Sprawdzamy czy pora roku wpływa statystycznie na uzyskane pomiary. Weryfikujemy hipotezę zerową zakładającą, iż rozkład ChZT w k populacjach jest taki sam: H0: F1(x) = F2(x) =... = Fk(x) H1: F1(x) ≠ F2(x) ≠...≠ Fk(x) F1(x), F2(x), Fk(x)– dystrybuanty rozpatrywanych populacji. proc npar1way data=npar.npar WILCOXON ; var ChZT0; class pora; run; The NPAR1WAY Procedure Wilcoxon Scores (Rank Sums) dla zmiennej ChZT0 klasyfikowanej wg zmiennej pora Suma Oczekiwane Odch. std. Średnia pora N ocen poniżej H0 poniżej H0 ocena zima 8 99.0 152.0 27.101522 12.375000 wiosna 13 333.0 247.0 31.428741 25.615385 lato 16 271.0 304.0 32.615146 16.937500 Dla więzów użyto ocen przeciętnych. Kruskal-Wallis Test Chi-kwadrat Stopień swobody Pr > Chi-kwadrat 8.4354 2 0.0147 Wartość testu Kruskal-Wallis wynosi 8,4354. Obliczone prawdopodobieństwo (p<0,0147) pozwala odrzucić H0. Wyniki analizy pozwalają stwierdzić, że pora roku wpływa statystycznie istotnie na poziom badanego wskaźnika. Jeżeli mamy do czynienia z małymi populacjami konieczne jest zastosowanie dokładnego testu WILCOXONA. proc npar1way data=npar.npar WILCOXON ; var ChZT0; class pora; EXACT /MAXTIME=100; run; Materiały pomocnicze do przedmiotu „Metody statystyczne w naukach biologicznych”