Statystyka matematyczna dla leśników
Transkrypt
Statystyka matematyczna dla leśników
Statystyka matematyczna dla leśników Wydział Leśny Kierunek „leśnictwo” Studia Stacjonarne I Stopnia Rok akademicki 2011/2012 Wykład 5 Testy statystyczne • Ogólne zasady testowania hipotez statystycznych, rodzaje hipotez, rodzaje testów • Parametryczne testy istotności • Testy zgodności Testowanie hipotez statystycznych • Teoria weryfikacji hipotez statystycznych jest waŜnym działem wnioskowania statystycznego • Podejmujemy tu określone decyzje statystyczne z określonym prawdopodobieństwem, to znaczy (podobnie, jak w estymacji statystycznej) w warunkach niepewności Próbkowanie POPULACJA PRÓBA Testowanie Parametr Statystyka Hipotezy statystyczne • Badając róŜne populacje i zjawiska stawiamy najczęściej tzw. hipotezy, czyli formułujemy przypuszczenia (załoŜenia) dotyczące parametrów populacji lub rozkładów cechy Hipotezy statystyczne • hipotezy parametryczne (Hp), które dotyczą nieznanego poziomu parametrów populacji • hipotezy nieparametryczne (Hnp), dotyczące nieznanej postaci funkcji rozkładu zmiennych w populacji Hipotezy parametryczne • Z reguły zapisane są w postaci krótkiego równania, np. µ = 44 µ1 = µ2 σ1 = σ2 Hipotezy nieparametryczne • Zwykle zapisane w postaci zdania, np. – „rozkład zmiennej x w populacji jest zgodny z rozkładem normalnym” – „próby zostały pobrane z populacji o takich samych rozkładach” – ... Hipotezy statystyczne • Hipoteza zerowa – hipoteza podlegająca testowaniu • Hipoteza alternatywna – hipoteza „rezerwowa” na wypadek, gdyby hipoteza zerowa okazała się fałszywa – PowyŜsze hipotezy mogą być zarówno parametryczne, jak i nieparametryczne Hipotezy statystyczne • hipotezy zerowe (H0), podlegające weryfikacji – ich treścią jest załoŜenie o braku róŜnic między parametrami (zerowe róŜnice) lub braku róŜnic między ogólnymi postaciami funkcji rozkładów. • hipotezy alternatywne (H1), konkurencyjne do zerowych – przyjmowane w wypadku negatywnej weryfikacji H0 Hipotezy statystyczne H0: µ = 44 H0: µ1 = µ2 H0: rozkład zmiennej x w populacji jest zgodny z rozkładem normalnym Hipotezy statystyczne H1: µ ≠ 44 H1: µ1 ≠ µ2 H1: rozkład zmiennej x w populacji nie jest zgodny z rozkładem normalnym W przypadku Hnp, H1 moŜe mieć tylko jedną postać (porównywane funkcje rozkładu są róŜne). W przypadku Hp, H1 moŜe być: - dwustronna (porównywane parametry są róŜne) - prawostronna (badany parametr jest większy od porównawczego) - lewostronna (badany parametr jest mniejszy od porównawczego) H Hnp Hp H0 H0 H1 dwu- prawo- lewo- H1 Testy statystyczne • Do weryfikacji hipotez słuŜą specjalne narzędzia badawcze zwane testami statystycznymi • Są to statystyki o określonym rozkładzie teoretycznym z próby (przypomnij sobie wykład o estymacji) Próbkowanie POPULACJA PRÓBA Testowanie Parametr Statystyka Test statystyczny Błędy w testach • Hipoteza moŜe być prawdziwa lub fałszywa • Wynik testu moŜe kazać hipotezę zaakceptować lub odrzucić • W związku z tym… Błędy w testach Jak uniknąć błędów? • Konstrukcja testu: stosować testy, które podejmują tylko decyzję o odrzuceniu hipotezy lub stwierdzają brak podstaw do jej odrzucenia; w teście takim nie przyjmujemy hipotez • Mały poziom istotności • (Test istotności) Stosując testy istotności unikamy błędu II rodzaju. MoŜemy popełnić błąd I rodzaju, ale prawdopodobieństwo popełnienia tego błędu będzie bardzo małe równe załoŜonemu poziomowi istotności (zwykle 0,05 lub 0,01). Hipotezy parametryczne najczęściej dotyczą średnich, dlatego rozwaŜania teoretyczne przeprowadzimy na przykładzie testu „z” (statystyki o rozkładzie normalnym). Na podstawie wyników próby obliczamy statystykę „ z” i w rozkładzie tej statystyki (normalnym) wyznaczamy taki obszar wartości Q aby prawdopodobieństwo znalezienia się w tym obszarze było bardzo małe równe załoŜonemu poziomowi istotności. P(z ⊂ Q ) = α W zaleŜności od postaci hipotezy alternatywnej obszar krytyczny testu przy załoŜonym poziomie istotności moŜe być: dwu-stronny, prawo-stronny lub lewo-stronny. fz fz 1-α 1-α α/2 Q -zα/2 α α/2 0 zα/2 Q z 0 zα Q z fz JeŜeli obliczona dla danego doświadczenia wartość testu znajdzie się w obszarze krytycznym Q to podejmujemy decyzję o odrzuceniu α H0 i przyjęciu H1. JeŜeli nie to -zα stwierdzamy, Ŝe brak podstaw do Q odrzucenia H0. Dlaczego tak? 1-α 0 z Obszar krytyczny testu wyznaczyliśmy dla bardzo małego prawdopodobieństwa (poziomu istotności α). JeŜeli załoŜymy, Ŝe H0 jest prawdziwa, to prawdopodobieństwo otrzymania z n-elementowej próby wartości z w zakresie obszaru krytycznego Q będzie równe α, czyli bardzo małe. Zdarzenie takie nie powinno wystąpić w jednym eksperymencie. JeŜeli zatem takie zdarzenie wystąpi, to będzie oznaczało, Ŝe miało ono większe prawdopodobieństwo, niŜ to, które przyjęliśmy zakładając prawdziwość H0. Logiczne jest zatem potraktowanie H0 jako fałszywej, jej odrzucenie i przyjęcie H1. Prawdopodobieństwo pomyłki, czyli odrzucenia prawdziwej H0 (błąd pierwszego rodzaju) jest równe α (praktycznie bliskie zeru). Gdy empiryczna wartość z wystąpi poza obszarem krytycznym Q, to prawdopodobieństwo takiego zdarzenia, przy załoŜeniu prawdziwości H0, będzie równe 1- α (praktycznie bliskie 1). Nie mamy podstaw do odrzucenia H0 . Parametryczne testy istotności: - dla średniej - stosowane w eksperymentach, w których hipoteza zerowa określa hipotetyczną wartość średniej µh, z którą porównujemy średnią z n-elementowej próby ( x ) . H 0 : µ = µh H1 : µ ≠ µ h lub µ > µ h lub µ < µ h JeŜeli rozkład zmiennej w populacji jest normalny znamy wariancję (σ2), H0 testujemy za pomocą testu z, obszar krytyczny wyznaczamy z rozkładu normalnego dla załoŜonego poziomu istotności α, a wartość empiryczną testu obliczamy ze wzoru: zemp = JeŜeli x − µh σ n zemp ≥ zα / 2 lub zα to H0 odrzucamy W przypadku stosowania duŜych prób rozkład zmiennej w populacji nie musi być normalny i nie musimy znać wariancji dla populacji, przyjmujemy, ze s = σ. JeŜeli nie znamy wariancji dla populacji i dysponujemy wynikami małej próby, to tylko w przypadku, kiedy rozkład w populacji jest normalny, moŜemy do weryfikacji H0 zastosować test t, a obszar krytyczny wyznaczyć z rozkładu Studenta dla załoŜonego poziomu istotności α i liczby stopni swobody k = n - 1. Wartość empiryczną testu obliczamy: JeŜeli temp x − µh temp = n s ≥ tα / 2 lub tα przy k = n − 1 to H0 odrzucamy - dla róŜnicy między dwiema średnimi - stosowany w doświadczeniach, w których porównujemy średnie dwóch populacji na podstawie n-elementowych prób pobranych z tych populacji. H 0 : µ1 = µ 2 H1 : µ1 ≠ µ 2 lub µ1 > µ 2 lub µ1 < µ 2 W przypadku duŜych prób - test z : zemp = x1 − x2 2 1 2 2 s s + n1 n2 W przypadku małych prób - test t ale tylko jeŜeli spełnione są dwa warunki: 1) próby pochodzą z populacji o rozkładzie normalnym, 2) wariancje w tych populacjach nie róŜnią się istotnie. temp = x1 − x2 1 1 s12 (n1 − 1) + s22 (n2 − 1) + n1 + n2 − 2 n1 n2 przy: k = n1 + n2 - 2 JeŜeli n1 = n2 = n to wzór na błąd standardowy róŜnicy znacznie się upraszcza temp = x1 − x2 2 1 s +s n 2 2 - dla wariancji: f(F) H 0 : σ 12 = σ 22 2 1 H1 : σ ≠ σ 2 2 Q Femp > 1 dla Femp dla Femp JeŜeli 2 1 2 2 s = s 2 2 2 1 s = s Fα to Fα przy k1 = n1 − 1, k 2 = n2 − 1 to Femp > Fα Fα przy k1 = n2 − 1, k 2 = n1 − 1 to H0 odrzucamy F Test zgodności χ2 W przypadku testów nieparametrycznych weryfikuje się hipotezę dotyczącą rozkładu badanej cechy w populacji nie precyzując parametrów tego rozkładu. Statystyka stosowana tu ma rozkład asymptotyczny χ2. Test ten pozwala na weryfikację hipotezy, Ŝe populacja ma określoną postać funkcji dystrybuanty. Wymaga duŜej próby. H 0 : E (Gx − Fx ) = 0 H1 : E (Gx − Fx ) ≠ 0 (rozklady zgodne) (rozklady rozniace sie istotnie ) Na podstawie wyników próby tworzymy szereg rozdzielczy (rozkład empiryczny) i po wyznaczeniu parametrów, odpowiedni rozkład teoretyczny (jeŜeli normalny, to zgodnymi parametrami będą - średnia arytmetyczna i odchylenie standardowe). Musi być teŜ spełniony warunek aby częstość porównywanych klas nie była mniejsza od 10. Zwykle łączymy skrajne klasy. Empiryczną wartość testu obliczamy wg. wzoru: u χ 2 emp =∑ (n − n ) 1 ' 2 i i ni' χ2α wyznaczamy z tablic rozkładu χ2 na podstawie załoŜonego poziomu istotności α i liczby stopni swobody k = u - f - 1 gdzie: u - liczba składników sumy, f - liczba zgodnych parametrów obydwu rozkładów. JeŜeli: χ2emp > χ2α to H0 odrzucamy, przyjmujemy H1 fχ2 χ2α Q χ2 Przykładowe pytania egzaminacyjne z tej części materiału 1. Rodzaje hipotez statystycznych. 2. Co to jest hipoteza zerowa a co hipoteza alternatywna? 3. Rodzaje błędów popełnianych podczas testowania hipotez. 4. Co to są testy istotności? 5. Jakiego błędu unikamy stosując testy istotności? 6. Jakie jest prawdopodobieństwo popełnienia błędu pierwszego rodzaju przy stosowaniu testów istotności? 7. Jakie testy mogą być stosowane przy porównywaniu dwóch średnich? 8. Do czego słuŜy test zgodności χ2? 9. … Dziękuję za uwagę!