Statystyka matematyczna dla leśników

Transkrypt

Statystyka matematyczna dla leśników
Statystyka matematyczna
dla leśników
Wydział Leśny
Kierunek „leśnictwo”
Studia Stacjonarne I Stopnia
Rok akademicki 2011/2012
Wykład 5
Testy statystyczne
• Ogólne zasady testowania hipotez
statystycznych, rodzaje hipotez, rodzaje
testów
• Parametryczne testy istotności
• Testy zgodności
Testowanie hipotez statystycznych
• Teoria weryfikacji hipotez statystycznych
jest waŜnym działem wnioskowania
statystycznego
• Podejmujemy tu określone decyzje
statystyczne z określonym
prawdopodobieństwem, to znaczy
(podobnie, jak w estymacji statystycznej) w warunkach niepewności
Próbkowanie
POPULACJA
PRÓBA
Testowanie
Parametr
Statystyka
Hipotezy statystyczne
• Badając róŜne populacje i zjawiska
stawiamy najczęściej tzw. hipotezy, czyli
formułujemy przypuszczenia
(załoŜenia) dotyczące parametrów
populacji lub rozkładów cechy
Hipotezy statystyczne
• hipotezy parametryczne (Hp), które
dotyczą nieznanego poziomu parametrów
populacji
• hipotezy nieparametryczne (Hnp),
dotyczące nieznanej postaci funkcji
rozkładu zmiennych w populacji
Hipotezy parametryczne
• Z reguły zapisane są w postaci krótkiego
równania, np.
µ = 44
µ1 = µ2
σ1 = σ2
Hipotezy nieparametryczne
• Zwykle zapisane w postaci zdania, np.
– „rozkład zmiennej x w populacji jest zgodny z
rozkładem normalnym”
– „próby zostały pobrane z populacji o takich
samych rozkładach”
– ...
Hipotezy statystyczne
• Hipoteza zerowa – hipoteza podlegająca
testowaniu
• Hipoteza alternatywna – hipoteza
„rezerwowa” na wypadek, gdyby hipoteza
zerowa okazała się fałszywa
– PowyŜsze hipotezy mogą być zarówno
parametryczne, jak i nieparametryczne
Hipotezy statystyczne
• hipotezy zerowe (H0), podlegające
weryfikacji
– ich treścią jest załoŜenie o braku róŜnic
między parametrami (zerowe róŜnice) lub
braku róŜnic między ogólnymi postaciami
funkcji rozkładów.
• hipotezy alternatywne (H1), konkurencyjne
do zerowych
– przyjmowane w wypadku negatywnej
weryfikacji H0
Hipotezy statystyczne
H0: µ = 44
H0: µ1 = µ2
H0: rozkład zmiennej x w populacji jest zgodny z
rozkładem normalnym
Hipotezy statystyczne
H1: µ ≠ 44
H1: µ1 ≠ µ2
H1: rozkład zmiennej x w populacji nie jest zgodny
z rozkładem normalnym
W przypadku Hnp, H1 moŜe mieć tylko jedną postać
(porównywane funkcje rozkładu są róŜne).
W przypadku Hp, H1 moŜe być:
- dwustronna (porównywane parametry są róŜne)
- prawostronna (badany parametr jest większy od
porównawczego)
- lewostronna (badany parametr jest mniejszy od porównawczego)
H
Hnp
Hp
H0
H0
H1
dwu-
prawo-
lewo-
H1
Testy statystyczne
• Do weryfikacji hipotez słuŜą specjalne
narzędzia badawcze zwane testami
statystycznymi
• Są to statystyki o określonym rozkładzie
teoretycznym z próby (przypomnij sobie
wykład o estymacji)
Próbkowanie
POPULACJA
PRÓBA
Testowanie
Parametr
Statystyka
Test statystyczny
Błędy w testach
• Hipoteza moŜe być prawdziwa lub
fałszywa
• Wynik testu moŜe kazać hipotezę
zaakceptować lub odrzucić
• W związku z tym…
Błędy w testach
Jak uniknąć błędów?
• Konstrukcja testu: stosować testy, które
podejmują tylko decyzję o odrzuceniu
hipotezy lub stwierdzają brak podstaw do
jej odrzucenia; w teście takim nie
przyjmujemy hipotez
• Mały poziom istotności
• (Test istotności)
Stosując testy istotności unikamy błędu II rodzaju. MoŜemy
popełnić błąd I rodzaju, ale prawdopodobieństwo popełnienia tego
błędu będzie bardzo małe równe załoŜonemu poziomowi istotności
(zwykle 0,05 lub 0,01).
Hipotezy parametryczne najczęściej dotyczą średnich, dlatego
rozwaŜania teoretyczne przeprowadzimy na przykładzie testu „z”
(statystyki o rozkładzie normalnym).
Na podstawie wyników próby obliczamy statystykę „ z” i w
rozkładzie tej statystyki (normalnym) wyznaczamy taki obszar
wartości Q aby prawdopodobieństwo znalezienia się w tym obszarze
było bardzo małe równe załoŜonemu poziomowi istotności.
P(z ⊂ Q ) = α
W zaleŜności od postaci hipotezy alternatywnej obszar krytyczny
testu przy załoŜonym poziomie istotności moŜe być: dwu-stronny,
prawo-stronny lub lewo-stronny.
fz
fz
1-α
1-α
α/2
Q -zα/2
α
α/2
0
zα/2 Q z
0
zα
Q z
fz
JeŜeli obliczona dla danego
doświadczenia wartość testu znajdzie
się w obszarze krytycznym Q to
podejmujemy decyzję o odrzuceniu
α
H0 i przyjęciu H1. JeŜeli nie to
-zα
stwierdzamy, Ŝe brak podstaw do
Q
odrzucenia H0.
Dlaczego tak?
1-α
0
z
Obszar krytyczny testu wyznaczyliśmy dla bardzo małego
prawdopodobieństwa (poziomu istotności α).
JeŜeli załoŜymy, Ŝe H0 jest prawdziwa, to
prawdopodobieństwo otrzymania z n-elementowej próby wartości z
w zakresie obszaru krytycznego Q będzie równe α, czyli bardzo
małe. Zdarzenie takie nie powinno wystąpić w jednym
eksperymencie. JeŜeli zatem takie zdarzenie wystąpi, to będzie
oznaczało, Ŝe miało ono większe prawdopodobieństwo, niŜ to, które
przyjęliśmy zakładając prawdziwość H0. Logiczne jest zatem
potraktowanie H0 jako fałszywej, jej odrzucenie i przyjęcie H1.
Prawdopodobieństwo pomyłki, czyli odrzucenia prawdziwej H0 (błąd
pierwszego rodzaju) jest równe α (praktycznie bliskie zeru).
Gdy empiryczna wartość z wystąpi poza obszarem krytycznym Q, to
prawdopodobieństwo takiego zdarzenia, przy załoŜeniu
prawdziwości H0, będzie równe 1- α (praktycznie bliskie 1). Nie
mamy podstaw do odrzucenia H0 .
Parametryczne testy istotności:
- dla średniej - stosowane w eksperymentach, w których
hipoteza zerowa określa hipotetyczną wartość średniej µh, z którą
porównujemy średnią z n-elementowej próby ( x ) .
H 0 : µ = µh
H1 : µ ≠ µ h lub µ > µ h lub µ < µ h
JeŜeli rozkład zmiennej w populacji jest normalny znamy wariancję
(σ2), H0 testujemy za pomocą testu z, obszar krytyczny wyznaczamy z
rozkładu normalnego dla załoŜonego poziomu istotności α, a wartość
empiryczną testu obliczamy ze wzoru:
zemp =
JeŜeli
x − µh
σ
n
zemp ≥ zα / 2 lub zα
to H0 odrzucamy
W przypadku stosowania duŜych prób rozkład zmiennej w
populacji nie musi być normalny i nie musimy znać wariancji dla
populacji, przyjmujemy, ze s = σ.
JeŜeli nie znamy wariancji dla populacji i dysponujemy
wynikami małej próby, to tylko w przypadku, kiedy rozkład w
populacji jest normalny, moŜemy do weryfikacji H0 zastosować test
t, a obszar krytyczny wyznaczyć z rozkładu Studenta dla
załoŜonego poziomu istotności α i liczby stopni swobody k = n - 1.
Wartość empiryczną testu obliczamy:
JeŜeli
temp
x − µh
temp =
n
s
≥ tα / 2 lub tα przy k = n − 1
to H0 odrzucamy
- dla róŜnicy między dwiema średnimi - stosowany w
doświadczeniach, w których porównujemy średnie dwóch populacji
na podstawie n-elementowych prób pobranych z tych populacji.
H 0 : µ1 = µ 2
H1 : µ1 ≠ µ 2 lub µ1 > µ 2 lub µ1 < µ 2
W przypadku duŜych prób - test z :
zemp =
x1 − x2
2
1
2
2
s
s
+
n1 n2
W przypadku małych prób - test t ale tylko jeŜeli spełnione są dwa
warunki: 1) próby pochodzą z populacji o rozkładzie normalnym,
2) wariancje w tych populacjach nie róŜnią się istotnie.
temp =
x1 − x2
 1 1  s12 (n1 − 1) + s22 (n2 − 1)
 + 
n1 + n2 − 2
 n1 n2 
przy:
k = n1 + n2 - 2
JeŜeli n1 = n2 = n to wzór na błąd standardowy róŜnicy znacznie
się upraszcza
temp =
x1 − x2
2
1
s +s
n
2
2
- dla wariancji:
f(F)
H 0 : σ 12 = σ 22
2
1
H1 : σ ≠ σ
2
2
Q
Femp > 1
dla Femp
dla Femp
JeŜeli
2
1
2
2
s
=
s
2
2
2
1
s
=
s
Fα
to Fα przy k1 = n1 − 1, k 2 = n2 − 1
to
Femp > Fα
Fα przy k1 = n2 − 1, k 2 = n1 − 1
to
H0
odrzucamy
F
Test zgodności χ2
W przypadku testów nieparametrycznych weryfikuje się
hipotezę dotyczącą rozkładu badanej cechy w populacji nie
precyzując parametrów tego rozkładu. Statystyka stosowana tu ma
rozkład asymptotyczny χ2.
Test ten pozwala na weryfikację hipotezy, Ŝe populacja ma
określoną postać funkcji dystrybuanty. Wymaga duŜej próby.
H 0 : E (Gx − Fx ) = 0
H1 : E (Gx − Fx ) ≠ 0
(rozklady zgodne)
(rozklady rozniace sie istotnie )
Na podstawie wyników próby tworzymy szereg rozdzielczy
(rozkład empiryczny) i po wyznaczeniu parametrów, odpowiedni
rozkład teoretyczny (jeŜeli normalny, to zgodnymi parametrami
będą - średnia arytmetyczna i odchylenie standardowe). Musi być
teŜ spełniony warunek aby częstość porównywanych klas nie była
mniejsza od 10. Zwykle łączymy skrajne klasy. Empiryczną
wartość testu obliczamy wg. wzoru:
u
χ
2
emp
=∑
(n − n )
1
' 2
i
i
ni'
χ2α wyznaczamy z tablic rozkładu χ2 na podstawie załoŜonego
poziomu istotności α i liczby stopni swobody k = u - f - 1
gdzie: u - liczba składników sumy,
f - liczba zgodnych parametrów obydwu rozkładów.
JeŜeli: χ2emp > χ2α to H0 odrzucamy, przyjmujemy H1
fχ2
χ2α
Q
χ2
Przykładowe pytania egzaminacyjne z tej części materiału
1. Rodzaje hipotez statystycznych.
2. Co to jest hipoteza zerowa a co hipoteza alternatywna?
3. Rodzaje błędów popełnianych podczas testowania hipotez.
4. Co to są testy istotności?
5. Jakiego błędu unikamy stosując testy istotności?
6. Jakie jest prawdopodobieństwo popełnienia błędu pierwszego rodzaju
przy stosowaniu testów istotności?
7. Jakie testy mogą być stosowane przy porównywaniu dwóch średnich?
8. Do czego słuŜy test zgodności χ2?
9. …
Dziękuję za uwagę!

Podobne dokumenty