Metody nieparametryczne

Transkrypt

Metody nieparametryczne
Doświadczalnictwo leśne
Wydział Leśny SGGW
Studia II stopnia
Metody nieparametryczne
• Do tej pory omawialiśmy metody
odpowiednie do opracowywania danych
ilościowych, mierzalnych
• W kaŜdym przypadku zakładaliśmy m.in.
normalność rozkładów zmiennej
• Nie zawsze jednak rzeczywistość jest taka
łaskawa
Metody nieparametryczne
• Co zrobić, jeŜeli:
– mamy do czynienia z danymi niemierzalnymi,
jakościowymi?
– analizowany zbiór danych jest niejednorodny
i cecha nie ma rozkładu normalnego?
– próba jest mała i nie moŜna zweryfikować
załoŜenia o rozkładzie?
• Zastosować metody (testy)
nieparametryczne
Skale pomiarowe
• Zmienne jakościowe
– Nominalna (nazwa, relacja róŜności)
– Porządkowa (rangowa; relacja porządku)
• Zmienne ilościowe
– Przedziałowa (interwałowa; stała jednostka,
umowne zero, nie dzielić)
– Ilorazowa (stosunkowa; zero absolutne,
wartości moŜna dzielić)
Metody nieparametryczne
• Stosować wtedy, gdy nie moŜemy
posłuŜyć się metodą parametryczną /
testem parametrycznym
• Co prawda gdy załoŜenia testów
parametrycznych (zwłaszcza o
normalności rozkładu) nie są spełnione,
będą one dalej działać, ale w wielu
wypadkach wyniki nie będą wiarygodne
Testy nieparametryczne
• Niedotrzymanie załoŜenia o normalności
cechy = zmniejszenie błędu I rodzaju
(alfa), ale...
• .. wówczas siła (moc) testów
nieparametrycznych jest mniejsza, niŜ
parametrycznych
• moc testu = zdolność do unikania błędu II
rodzaju
Testy nieparametryczne
• Testy nieparametryczne nie wymagają
załoŜenia o normalności rozkładu cech(y)
(ang. ditribution free tests)
• Mimo mniejszej mocy (ogółem) dają
lepsze wyniki (większą moc) gdy rozkład
cechy jest silnie asymetryczny
Testy nieparametryczne
• Testy te nazywają się nieparametrycznymi
gdyŜ w zasadzie nie badają hipotez
dotyczących parametrów (mimo, Ŝe na
pierwszy rzut oka tak się nam wydaje)
Testy nieparametryczne
• Zalety
– moŜna stosować do róŜnych populacji
– łatwiejsze do zastosowania
• Wady
– mniejsza moc
– bardziej chaotyczne
– trudniejsze do zastosowania do bardziej
skomplikowanych hipotez / modeli
Testy nieparametryczne
• Najłatwiej będzie prześledzić podstawowe
testy nieparametryczne przez ich
porównanie do metod parametrycznych w
róŜnych sytuacjach
Pojedyncza próba
Pojedyncza próba
• Test serii Walda-Wolfowitza
• Stosowany do badania losowości zjawisk
• Test bierze pod uwagę zarówno róŜnice
od średniej, jak i rozkład próby
Pojedyncza próba
• Np. testujemy termin kiełkowania nasion
dwóch podgatunków modrzewia (E i P)
• Notujemy czas kiełkowania kaŜdego
nasienia
• W efekcie uzyskać moŜemy następujące
przykładowe rozkłady terminu kiełkowania
Pojedyncza próba
E
PEPEPEPEPEPEPEPEPEP
E
EEEEEEEEEPPPPPPPPPP
E
EEEEEPEEPEEPPPPPPPP
E
EPPEPEPPEEEPPEPEEPP
E
EEEEPPPPPPPPPPEEEEE
Próby niezaleŜne
Próby niezaleŜne
• Zastosowanie mediany
Miary połoŜenia
Miary połoŜenia
MiąŜszości [m3]: 0.45, 0.39, 0.35,
0.51, 0.41, 0.38, 0.42, 0.4, 0.3, 0.6
Średnia miąŜszość [m3]: 0.421
• MiąŜszości [m3]: 0.45, 0.39, 0.35, 0.51,
0.41, 0.38, 0.42, 0.4, 0.3, 7.1
• Średnia miąŜszość [m3]: 1.07
• Mediana [m3]: 0.3, 0.35, 0.38, 0.39, 0.4,
0.41, 0.42, 0.45, 0.51, 7.1
Próby niezaleŜne
• Zastosowanie mediany
• Test median
– Ho: mediany w badanych populacjach są
takie same
– H1: mediany w badanych populacjach są
róŜne
Próby niezaleŜne
• Np. badamy dwie metody ścinki pod
kątem uszkodzeń drzew
Próby niezaleŜne
• Np. badamy dwie metody ścinki pod
kątem uszkodzeń drzew
Próby niezaleŜne
• Np. badamy dwie metody ścinki pod
kątem uszkodzeń drzew
• Czy metoda A jest lepsza?
Próby niezaleŜne
• Np. badamy dwie metody ścinki pod
kątem uszkodzeń drzew
• Czy metoda A jest lepsza?
• Liczymy ogólną medianę (Me=16)
Próby niezaleŜne
• Metoda A: 5 wartości < mediany, czyli
PA=5/12
• Metoda B: 5 wartości < mediany, czyli
PB=5/9
• Ho: nie ma róŜnicy między PA i PB (PAPB=0)
• Obliczamy
Próby niezaleŜne
• Test sumy rang Manna-Whitneya
• Stosowany zamiast testu t w sytuacji, gdy
rozkłady cechy nie są normalne
Próby niezaleŜne
• Test sumy rang Manna-Whitneya
• Stosowany zamiast testu t w sytuacji, gdy
rozkłady cechy nie są normalne
• Łączymy próby ze sobą, sortujemy i
przydzielamy rangi (gdy wartości takie
same – uŜywamy rang wiązanych)
Próby niezaleŜne
• Obliczamy sumę rang dla kaŜdej z prób
przed połączeniem
• JeŜeli populacje mają takie same rozkłady
badanej cechy, sumy rang powinny być
takie same (lub przynajmniej do siebie
zbliŜone)
Próby niezaleŜne
• Np. analizujemy termin kiełkowania nasion
dwóch podgatunków modrzewia (E i P)
Próby niezaleŜne
• Np. analizujemy termin kiełkowania nasion
dwóch podgatunków modrzewia (E i P)
Próby niezaleŜne
• Np. analizujemy termin kiełkowania nasion
dwóch podgatunków modrzewia (E i P)
• Czy jest róŜnica w terminach kiełkowania
tych podgatunków?
Próby niezaleŜne
• Analizujemy rangi dla E i P
– E: 2, 7, 8, 9, 11 (suma = 37)
– P: 1, 3, 4, 5, 6, 10 (suma = 29)
Próby niezaleŜne
• Analizujemy rangi dla E i P
– E: 2, 7, 8, 9, 11 (suma = 37)
– P: 1, 3, 4, 5, 6, 10 (suma = 29)
• Testujemy hipotezy
– Ho: nie ma róŜnicy w terminie kiełkowania
nasion E i P
– H1: jest róŜnica w terminie kiełkowania nasion
EiP
Próby zaleŜne
Próby zaleŜne
• Podobnie, jak w przypadku testów
parametrycznych, test dotyczy nie
wartości cechy w populacjach, ale
róŜnicy cech dla par spostrzeŜeń
• Ho: mediana róŜnic między wartościami
sparowanymi = 0
• Statystyka testowa: liczba róŜnic +
• JeŜeli Ho jest prawdziwa, liczba róŜnic na
+ i – powinna być równa
Próby zaleŜne
• Test znaków dla prób zaleŜnych
• Np. Badamy liczbę nasion w strąkach
robinii. Interesuje nas, czy liczba zdrowych
nasion w strąkach z górnej części korony
jest inna, niŜ w dolnej części korony.
Badaniu podlegają straki pobrane z 10
drzew
Próby zaleŜne
• Na podstawie tych danych obliczamy
statystykę testu (z) i porównujemy ją z
wartością krytyczną dla rozkładu
normalnego
Próby zaleŜne
• Test Wilcoxona
• Testowi równieŜ podlega mediana róŜnic
między parami obserwacji
• Ale do testu wykorzystuje się rangi
okreslone na podstawie wartości
absolutnych róŜnic między parami
obserwacji
Próby zaleŜne
•
•
•
•
Suma R+ = 47
Suma R- = 8
Statystyka testu = min(R+, R-) = 8
Porównanie z wartością krytyczną i
decyzja (tu 8 < 10)
Próby zaleŜne
• Test Wilcoxona jest podobny do testu
znaków dla prób zaleŜnych
• MoŜna je stosować w tych samych
sytuacjach
• Test Wilcoxona uwzględnia więcej
informacji (znak i wielkość róŜnic), dlatego
jest lepszy
Rozkłady
Rozkłady
• W tej grupie testów omówimy
– test chi-kwadrat
– test Kołmogorowa
– test Kołmogorowa-Smirnova
– test Shapiro-Wilka
Rozkłady – 1 próba
• Testowana jest zgodność rozkładu
empirycznego z rozkładem teoretycznym
– test chi-kwadrat
– test Kołmogorowa
– test Shapiro-Wilka
Rozkłady – 1 próba
• Test chi-kwadrat testuje róŜnice między
częstościami klas w rozkładzie
teoretycznym i empirycznym
• Czuły na liczbę i liczebność klas
• Przeznaczony do testowania hipotez
dotyczących rozkładów zmiennych
skokowych (dla zmiennych ciągłych
statystyka daje tylko przybliŜenie)
Rozkłady – 1 próba
• Test Kołmogorowa testuje róŜnice między
skumulowanymi liczebnościami klas
(dystrybuantami) rozkładu teoretycznego i
empirycznego
• Przeznaczony do testowania hipotez
dotyczących rozkładów zmiennych ciągłych
• Modyfikacja: normalizacja statystyki
wielkością próby
Rozkłady – 1 próba
• Test Shapiro-Wilka testuje hipotezę, Ŝe
rozkład empirycznyc jest zgodny z
rozkładem normalnym
Rozkłady – 2 próby
• Test Kołmogorowa-Smirnova testuje
hipotezę, Ŝe dwie próby zostały pobrane z
tej samej populacji lub z populacji o takich
samych rozkładach
• Wykorzystuje (standaryzowaną) róŜnicę
między skumulowanymi liczebnościami
(dystrybuantami) rozkładów
ANOVA
ANOVA?
• Ze względu na załoŜenia nie zawsze
moŜemy wykonać analizę wariancji
• Nieparametryczny odpowiednik ANOVA test Kruskala-Wallisa
• Zamiast średnich testowane są mediany
• Rozwinięcie testu Wilcoxona dla prób
niezaleŜnych (wykorzystuje rangi)
Test Kruskala-Wallisa
• KaŜdej obserwacji przypisuje się rangę
(dla całości doświadczenia)
• Warianty doświadczenia / poziomy
czynnika
• Oblicza się statystykę testową
Test Kruskala-Wallisa
• Np. Czy branŜa, w której absolwent wyŜszej
uczelni znajduje pierwszą pracę, decyduje
o wielkości wynagrodzenia?
Test Kruskala-Wallisa
• Ho: początkowe wynagrodzenia w
poszczególnych branŜach są takie same
Test Kruskala-Wallisa
• Hobl = 4,13
• Krytyczna wartość chi2 = 7,81
• Brak podstaw do odrzucenia Ho o
równości wynagrodzeń
Siła związku
Siła związku
• Współczynnik korelacji rang Spearmana
(1904)
• Wykorzystuje rangi do badania siły
związku między cechami
• MoŜna równieŜ wykorzystać do
testowania hipotezy, Ŝe nie ma związku
między badanymi populacjami
Dziekuje za uwagę!