Cwiczenie: Wybrane testy nieparametryczne: Wilcoxona, Kruskall-

Transkrypt

Cwiczenie: Wybrane testy nieparametryczne: Wilcoxona, Kruskall-
Autor: Dariusz Piwczyński
2006-06-12
1
Ćwiczenie: Wybrane testy nieparametryczne: U Manna-Whitney, Kruskal-Wallis
1. Przekopiuj skoroszyt Excela o nazwie nieparam.xls do własnego folderu.
2. Otwórz skoroszyt a następnie zapisz go jako typ „tekst rozdzielany znakami tabulacji”
(txt) pod nazwą scieki.
Skoroszyt ten zawiera dane dotyczące wybranych wskaźników jakości ścieków
trafiających do oczyszczalni oraz produktu powstającego po oczyszczeniu. Dane te
pochodzą z różnych miesięcy, te zaś zostały podzielone na pory roku: zima, wiosna,
lato.
3. Otwórz SAS, zadeklaruj bibliotekę npar.
4. Importuj do SAS wyżej wymieniony plik, zapisz go w bibliotece npar pod nazwą
scieki.
5. Sprawdź czy wymienione zmienne, tj. ZawOg0...pH1 posiadają rozkład normalny.
6. Traktując eksperyment jako doświadczenie dwugrupowe (wyłącz z porównania porę
roku „lato”) porównaj wskaźniki ścieków otrzymane zimą i wiosną. Jeśli zmienne
posiadają rozkład zgodny z normalnym, wykonaj test t-Studenta. W przypadku braku
zgodności rozkładu, wykonaj test Wilcoxona (w SAS odpowiednik testu U MannaWhitney).
7. Wykonaj statystyczną analizę biorąc już pod uwagę wszystkie pory roku. W razie
potrzeby wykonaj analizę wariancji lub test Kruskala-Wallisa (nieparametryczny
odpowiednik analizy wariancji).
Poniżej znajduje się przykładowe rozwiązanie dotyczące ChZT0.
/*Obliczamy podstawowe miary położenia i zmienności*/
ods rtf;
ods rtf body='d:\npar\miary.rtf';
proc tabulate data=npar.npar;
class pora;
var ChZT0;
table (n mean median Q1 Q3 STD),(ChZT0)* pora;
run;
ods rtf close;
ChZT0
pora
lato
N
wiosna
zima
16
13
8
Mean
73.89
110.56
62.30
Median
69.70
94.80
61.05
Q1
50.80
72.70
47.05
Q3
93.20
116.50
67.20
Std
28.78
72.27
19.40
Badamy rozkład normalny
Sprawdzamy czy zmienna posiada rozkład zgodny z normalnym, czyli weryfikujemy H0.
H0: Zmienna ChZT posiada rozkład zgodny z normalnym
H1: Zmienna ChZT nie posiada rozkładu zgodnego z normalnym
Materiały pomocnicze do przedmiotu „Metody statystyczne w naukach biologicznych”
Autor: Dariusz Piwczyński
2006-06-12
2
ODS EXCLUDE CIBASIC BASICMEASURES TESTSFORLOCATION EXTREMEOBS MODES MOMENTS
QUANTILES;
/*ten zapis jest niekonieczny, redukuje on jednak ilość drukowanych
statystyk*/
proc univariate data=npar.scieki normal;
var ChZT0;
histogram/normal /*opcjonalne*/;
run;
The UNIVARIATE Procedure
Variable: ChZT0
Moments
N
Mean
Std Deviation
Skewness
Uncorrected SS
Coeff Variation
37
84.2702703
50.6379078
3.65602344
355065.82
60.0898841
Sum Weights
Sum Observations
Variance
Kurtosis
Corrected SS
Std Error Mean
37
3118
2564.1977
17.673983
92311.1173
8.32482076
Testy normalności
Test
--Statystyka--
-----p Value------
Shapiro-Wilk
Kolmogorov-Smirnov
Cramer-von Mises
Anderson-Darling
W
D
W-Sq
A-Sq
Pr
Pr
Pr
Pr
0.651028
0.181491
0.416672
2.738474
<
>
>
>
W
D
W-Sq
A-Sq
<0.0001
<0.0100
<0.0050
<0.0050
Obliczone prawdopodobieństwo wynikające z przeprowadzonego testu Shapiro-Wilk
(p<0,0001) upoważnia nas odrzucenie H0. Stwierdzamy zatem, że zmienna ChZT0 nie
posiada rozkładu zgodnego z normalnym. Upewnia nas o tym również poniższy wykres typu
histogram.
Test sum rang Wilcoxona
Porównujemy poziom ocenianych wskaźników ścieków między zimą i wiosną. Weryfikujemy
zatem hipotezę zerową zakładającą, iż rozkład ChZT stwierdzony zimą i wiosną jest taki
sam:
H0: F(x) = G(x); H1: F(x) ≠ G(x)
F(x), G(x) – dystrybuanta ChZT zimą i wiosną
Materiały pomocnicze do przedmiotu „Metody statystyczne w naukach biologicznych”
Autor: Dariusz Piwczyński
2006-06-12
3
proc npar1way data=npar.npar WILCOXON;
var ChZT0;
class pora;
where pora NE "lato";
run;
The NPAR1WAY Procedure
Wilcoxon Scores (Rank Sums) dla zmiennej ChZT0
klasyfikowanej wg zmiennej pora
Suma
Oczekiwane
Odch. std.
Średnia
pora
N
ocen
poniżej H0
poniżej H0
ocena
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
zima
8
48.0
88.0
13.803726
6.000000
wiosna
13
183.0
143.0
13.803726
14.076923
Dla więzów użyto ocen przeciętnych.
Wilcoxon Two-Sample Test
Statystyka
48.0000
Normal Approximation
Z
One-Sided Pr < Z
Two-Sided Pr > |Z|
-2.8615
0.0021
0.0042
t Approximation
One-Sided Pr < Z
Two-Sided Pr > |Z|
0.0048
0.0096
Z includes a continuity correction of 0.5.
Kruskal-Wallis Test
Chi-kwadrat
Stopień swobody
Pr > Chi-kwadrat
8.3971
1
0.0038
Otrzymane prawdopodobieństwo pozwala odrzucić H0, stwierdzamy zatem, że poziom
ChZT0 jest inny zimą i wiosną.
Materiały pomocnicze do przedmiotu „Metody statystyczne w naukach biologicznych”
Autor: Dariusz Piwczyński
2006-06-12
4
Test Kruskal-Wallis
Tym razem bierzemy pod uwagę wszystkie pory roku.
Sprawdzamy czy pora roku wpływa statystycznie na uzyskane pomiary. Weryfikujemy
hipotezę zerową zakładającą, iż rozkład ChZT w k populacjach jest taki sam:
H0: F1(x) = F2(x) =... = Fk(x)
H1: F1(x) ≠ F2(x) ≠...≠ Fk(x)
F1(x), F2(x), Fk(x)– dystrybuanty rozpatrywanych populacji.
proc npar1way data=npar.npar WILCOXON ;
var ChZT0;
class pora;
run;
The NPAR1WAY Procedure
Wilcoxon Scores (Rank Sums) dla zmiennej ChZT0
klasyfikowanej wg zmiennej pora
Suma
Oczekiwane
Odch. std.
Średnia
pora
N
ocen
poniżej H0
poniżej H0
ocena
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
zima
8
99.0
152.0
27.101522
12.375000
wiosna
13
333.0
247.0
31.428741
25.615385
lato
16
271.0
304.0
32.615146
16.937500
Dla więzów użyto ocen przeciętnych.
Kruskal-Wallis Test
Chi-kwadrat
Stopień swobody
Pr > Chi-kwadrat
8.4354
2
0.0147
Wartość testu Kruskal-Wallis wynosi 8,4354. Obliczone prawdopodobieństwo (p<0,0147)
pozwala odrzucić H0. Wyniki analizy pozwalają stwierdzić, że pora roku wpływa statystycznie
istotnie na poziom badanego wskaźnika.
Jeżeli mamy do czynienia z małymi populacjami konieczne jest zastosowanie dokładnego
testu WILCOXONA.
proc npar1way data=npar.npar WILCOXON ;
var ChZT0;
class pora;
EXACT /MAXTIME=100;
run;
Materiały pomocnicze do przedmiotu „Metody statystyczne w naukach biologicznych”

Podobne dokumenty