Metody nieparametryczne
Transkrypt
Metody nieparametryczne
Doświadczalnictwo leśne Wydział Leśny SGGW Studia II stopnia Metody nieparametryczne • Do tej pory omawialiśmy metody odpowiednie do opracowywania danych ilościowych, mierzalnych • W kaŜdym przypadku zakładaliśmy m.in. normalność rozkładów zmiennej • Nie zawsze jednak rzeczywistość jest taka łaskawa Metody nieparametryczne • Co zrobić, jeŜeli: – mamy do czynienia z danymi niemierzalnymi, jakościowymi? – analizowany zbiór danych jest niejednorodny i cecha nie ma rozkładu normalnego? – próba jest mała i nie moŜna zweryfikować załoŜenia o rozkładzie? • Zastosować metody (testy) nieparametryczne Skale pomiarowe • Zmienne jakościowe – Nominalna (nazwa, relacja róŜności) – Porządkowa (rangowa; relacja porządku) • Zmienne ilościowe – Przedziałowa (interwałowa; stała jednostka, umowne zero, nie dzielić) – Ilorazowa (stosunkowa; zero absolutne, wartości moŜna dzielić) Metody nieparametryczne • Stosować wtedy, gdy nie moŜemy posłuŜyć się metodą parametryczną / testem parametrycznym • Co prawda gdy załoŜenia testów parametrycznych (zwłaszcza o normalności rozkładu) nie są spełnione, będą one dalej działać, ale w wielu wypadkach wyniki nie będą wiarygodne Testy nieparametryczne • Niedotrzymanie załoŜenia o normalności cechy = zmniejszenie błędu I rodzaju (alfa), ale... • .. wówczas siła (moc) testów nieparametrycznych jest mniejsza, niŜ parametrycznych • moc testu = zdolność do unikania błędu II rodzaju Testy nieparametryczne • Testy nieparametryczne nie wymagają załoŜenia o normalności rozkładu cech(y) (ang. ditribution free tests) • Mimo mniejszej mocy (ogółem) dają lepsze wyniki (większą moc) gdy rozkład cechy jest silnie asymetryczny Testy nieparametryczne • Testy te nazywają się nieparametrycznymi gdyŜ w zasadzie nie badają hipotez dotyczących parametrów (mimo, Ŝe na pierwszy rzut oka tak się nam wydaje) Testy nieparametryczne • Zalety – moŜna stosować do róŜnych populacji – łatwiejsze do zastosowania • Wady – mniejsza moc – bardziej chaotyczne – trudniejsze do zastosowania do bardziej skomplikowanych hipotez / modeli Testy nieparametryczne • Najłatwiej będzie prześledzić podstawowe testy nieparametryczne przez ich porównanie do metod parametrycznych w róŜnych sytuacjach Pojedyncza próba Pojedyncza próba • Test serii Walda-Wolfowitza • Stosowany do badania losowości zjawisk • Test bierze pod uwagę zarówno róŜnice od średniej, jak i rozkład próby Pojedyncza próba • Np. testujemy termin kiełkowania nasion dwóch podgatunków modrzewia (E i P) • Notujemy czas kiełkowania kaŜdego nasienia • W efekcie uzyskać moŜemy następujące przykładowe rozkłady terminu kiełkowania Pojedyncza próba E PEPEPEPEPEPEPEPEPEP E EEEEEEEEEPPPPPPPPPP E EEEEEPEEPEEPPPPPPPP E EPPEPEPPEEEPPEPEEPP E EEEEPPPPPPPPPPEEEEE Próby niezaleŜne Próby niezaleŜne • Zastosowanie mediany Miary połoŜenia Miary połoŜenia MiąŜszości [m3]: 0.45, 0.39, 0.35, 0.51, 0.41, 0.38, 0.42, 0.4, 0.3, 0.6 Średnia miąŜszość [m3]: 0.421 • MiąŜszości [m3]: 0.45, 0.39, 0.35, 0.51, 0.41, 0.38, 0.42, 0.4, 0.3, 7.1 • Średnia miąŜszość [m3]: 1.07 • Mediana [m3]: 0.3, 0.35, 0.38, 0.39, 0.4, 0.41, 0.42, 0.45, 0.51, 7.1 Próby niezaleŜne • Zastosowanie mediany • Test median – Ho: mediany w badanych populacjach są takie same – H1: mediany w badanych populacjach są róŜne Próby niezaleŜne • Np. badamy dwie metody ścinki pod kątem uszkodzeń drzew Próby niezaleŜne • Np. badamy dwie metody ścinki pod kątem uszkodzeń drzew Próby niezaleŜne • Np. badamy dwie metody ścinki pod kątem uszkodzeń drzew • Czy metoda A jest lepsza? Próby niezaleŜne • Np. badamy dwie metody ścinki pod kątem uszkodzeń drzew • Czy metoda A jest lepsza? • Liczymy ogólną medianę (Me=16) Próby niezaleŜne • Metoda A: 5 wartości < mediany, czyli PA=5/12 • Metoda B: 5 wartości < mediany, czyli PB=5/9 • Ho: nie ma róŜnicy między PA i PB (PAPB=0) • Obliczamy Próby niezaleŜne • Test sumy rang Manna-Whitneya • Stosowany zamiast testu t w sytuacji, gdy rozkłady cechy nie są normalne Próby niezaleŜne • Test sumy rang Manna-Whitneya • Stosowany zamiast testu t w sytuacji, gdy rozkłady cechy nie są normalne • Łączymy próby ze sobą, sortujemy i przydzielamy rangi (gdy wartości takie same – uŜywamy rang wiązanych) Próby niezaleŜne • Obliczamy sumę rang dla kaŜdej z prób przed połączeniem • JeŜeli populacje mają takie same rozkłady badanej cechy, sumy rang powinny być takie same (lub przynajmniej do siebie zbliŜone) Próby niezaleŜne • Np. analizujemy termin kiełkowania nasion dwóch podgatunków modrzewia (E i P) Próby niezaleŜne • Np. analizujemy termin kiełkowania nasion dwóch podgatunków modrzewia (E i P) Próby niezaleŜne • Np. analizujemy termin kiełkowania nasion dwóch podgatunków modrzewia (E i P) • Czy jest róŜnica w terminach kiełkowania tych podgatunków? Próby niezaleŜne • Analizujemy rangi dla E i P – E: 2, 7, 8, 9, 11 (suma = 37) – P: 1, 3, 4, 5, 6, 10 (suma = 29) Próby niezaleŜne • Analizujemy rangi dla E i P – E: 2, 7, 8, 9, 11 (suma = 37) – P: 1, 3, 4, 5, 6, 10 (suma = 29) • Testujemy hipotezy – Ho: nie ma róŜnicy w terminie kiełkowania nasion E i P – H1: jest róŜnica w terminie kiełkowania nasion EiP Próby zaleŜne Próby zaleŜne • Podobnie, jak w przypadku testów parametrycznych, test dotyczy nie wartości cechy w populacjach, ale róŜnicy cech dla par spostrzeŜeń • Ho: mediana róŜnic między wartościami sparowanymi = 0 • Statystyka testowa: liczba róŜnic + • JeŜeli Ho jest prawdziwa, liczba róŜnic na + i – powinna być równa Próby zaleŜne • Test znaków dla prób zaleŜnych • Np. Badamy liczbę nasion w strąkach robinii. Interesuje nas, czy liczba zdrowych nasion w strąkach z górnej części korony jest inna, niŜ w dolnej części korony. Badaniu podlegają straki pobrane z 10 drzew Próby zaleŜne • Na podstawie tych danych obliczamy statystykę testu (z) i porównujemy ją z wartością krytyczną dla rozkładu normalnego Próby zaleŜne • Test Wilcoxona • Testowi równieŜ podlega mediana róŜnic między parami obserwacji • Ale do testu wykorzystuje się rangi okreslone na podstawie wartości absolutnych róŜnic między parami obserwacji Próby zaleŜne • • • • Suma R+ = 47 Suma R- = 8 Statystyka testu = min(R+, R-) = 8 Porównanie z wartością krytyczną i decyzja (tu 8 < 10) Próby zaleŜne • Test Wilcoxona jest podobny do testu znaków dla prób zaleŜnych • MoŜna je stosować w tych samych sytuacjach • Test Wilcoxona uwzględnia więcej informacji (znak i wielkość róŜnic), dlatego jest lepszy Rozkłady Rozkłady • W tej grupie testów omówimy – test chi-kwadrat – test Kołmogorowa – test Kołmogorowa-Smirnova – test Shapiro-Wilka Rozkłady – 1 próba • Testowana jest zgodność rozkładu empirycznego z rozkładem teoretycznym – test chi-kwadrat – test Kołmogorowa – test Shapiro-Wilka Rozkłady – 1 próba • Test chi-kwadrat testuje róŜnice między częstościami klas w rozkładzie teoretycznym i empirycznym • Czuły na liczbę i liczebność klas • Przeznaczony do testowania hipotez dotyczących rozkładów zmiennych skokowych (dla zmiennych ciągłych statystyka daje tylko przybliŜenie) Rozkłady – 1 próba • Test Kołmogorowa testuje róŜnice między skumulowanymi liczebnościami klas (dystrybuantami) rozkładu teoretycznego i empirycznego • Przeznaczony do testowania hipotez dotyczących rozkładów zmiennych ciągłych • Modyfikacja: normalizacja statystyki wielkością próby Rozkłady – 1 próba • Test Shapiro-Wilka testuje hipotezę, Ŝe rozkład empirycznyc jest zgodny z rozkładem normalnym Rozkłady – 2 próby • Test Kołmogorowa-Smirnova testuje hipotezę, Ŝe dwie próby zostały pobrane z tej samej populacji lub z populacji o takich samych rozkładach • Wykorzystuje (standaryzowaną) róŜnicę między skumulowanymi liczebnościami (dystrybuantami) rozkładów ANOVA ANOVA? • Ze względu na załoŜenia nie zawsze moŜemy wykonać analizę wariancji • Nieparametryczny odpowiednik ANOVA test Kruskala-Wallisa • Zamiast średnich testowane są mediany • Rozwinięcie testu Wilcoxona dla prób niezaleŜnych (wykorzystuje rangi) Test Kruskala-Wallisa • KaŜdej obserwacji przypisuje się rangę (dla całości doświadczenia) • Warianty doświadczenia / poziomy czynnika • Oblicza się statystykę testową Test Kruskala-Wallisa • Np. Czy branŜa, w której absolwent wyŜszej uczelni znajduje pierwszą pracę, decyduje o wielkości wynagrodzenia? Test Kruskala-Wallisa • Ho: początkowe wynagrodzenia w poszczególnych branŜach są takie same Test Kruskala-Wallisa • Hobl = 4,13 • Krytyczna wartość chi2 = 7,81 • Brak podstaw do odrzucenia Ho o równości wynagrodzeń Siła związku Siła związku • Współczynnik korelacji rang Spearmana (1904) • Wykorzystuje rangi do badania siły związku między cechami • MoŜna równieŜ wykorzystać do testowania hipotezy, Ŝe nie ma związku między badanymi populacjami Dziekuje za uwagę!