TESTOWANIE HIPOTEZ STATYSTYCZNYCH HIPOTEZA - E-SGH

Transkrypt

TESTOWANIE HIPOTEZ STATYSTYCZNYCH HIPOTEZA - E-SGH
TESTOWANIE HIPOTEZ STATYSTYCZNYCH
HIPOTEZA STATYSTYCZNA – przypuszczenie co do rozkładu populacji
generalnej (jego postaci funkcyjnej lub wartości parametrów). Prawdziwość
tego przypuszczenia jest oceniana na podstawie wyników próby losowej.
Posługujemy się przy tym testem statystycznym, który ma na celu
rozstrzygnięcie, jakie wyniki próby pozwalają uznać sprawdzaną hipotezę za
prawdziwą, a jakie za fałszywą.
Wyróżnia się hipotezy parametryczne (dotyczą wartości parametrów rozkładu)
oraz nieparametryczne.
Etapy testowania statystycznego:
1) sformułowanie hipotez:
- zerowej H0
- alternatywnej H1 – zaprzeczenie H0, przyjmuje się ją za prawdziwą
w sytuacji odrzucenia H0
2) obliczenie statystyki testującej
3) wyznaczenie obszaru krytycznego testu (obszaru odrzucenia hipotezy);
jeśli statystyka testująca należy do obszaru krytycznego, odrzucamy H0 na
korzyść H1, w przeciwnym wypadku przyjmujemy H0
Przy decyzji po przyjęciu / odrzuceniu H0 popełniamy 2 rodzaje błędów:
- błąd I rodzaju (odrzucenie prawdziwej H0)
- błąd II rodzaju (przyjęcie fałszywej H0).
Testy statystyczne konstruuje się w taki sposób, aby zminimalizować
prawdopodobieństwo błędu II rodzaju (β) przy ustalonym z góry poziomie
prawdopodobieństwa popełnienia błędu I rodzaju (α). Tak zbudowane testy
nazywa się najmocniejszymi (odpowiada im największa moc).
Moc testu jest to prawdopodobieństwo odrzucenia fałszywej H0 i przyjęcie
prawdziwej H1: M=1- β.
PARAMETRYCZNE TESTY ISTOTNOŚCI
A. Testy istotności dla średniej
H0: m=m0
H1: m≠m0 lub m>m0 lub m<m0
I.
X ~ N ( m, σ ) ,
σ - znane
Jeśli H0 prawdziwa, to statystyka:
u=
x − m0
σ
n ma rozkład normalny N(0,1)
Obszar krytyczny:
- P( U ≥ uα ) = α (gdy H1: m≠m0),
- P (U ≥ u2α ) = α (gdy H1: m>m0),
- P(U ≤ −u2α ) = α (gdy H1: m<m0),
II.
X ~ N ( m, σ ) , σ -nieznane, ν > 30
Jeśli H0 prawdziwa, to statystyka:
u=
x − m0
S
n ma rozkład normalny N(0,1)
Obszar krytyczny:
- P( U ≥ uα ) = α (gdy H1: m≠m0),
- P (U ≥ u2α ) = α (gdy H1: m>m0),
- P(U ≤ −u2α ) = α (gdy H1: m<m0),
X ~ N (m, σ ) , σ -nieznane, ν <= 30
III.
Jeśli H0 prawdziwa, to statystyka:
x − m0
n ma rozkład t-Studenta z n-1 stopniami swobody
S
t=
Obszar krytyczny:
-
P( t ≥ tα ,n −1 ) = α (gdy H1: m≠m0),
P (t ≥ t2α ,n −1 ) = α (gdy H1: m>m0),
-
P (t ≤ −t2α ,n −1 ) = α (gdy H1: m<m0).
-
IV.
Populacja ma rozkład dowolny z nieznanymi parametrami ale n>=100
Wówczas x → N (m0 , S / n ) . Jeśli H0 prawdziwa, to statystyka:
u=
x − m0
S
n ma rozkład normalny N(0,1)
Obszar krytyczny:
- P( U ≥ uα ) = α (gdy H1: m≠m0),
- P (U ≥ u2α ) = α (gdy H1: m>m0),
- P(U ≤ −u2α ) = α (gdy H1: m<m0),
B. Testy istotności dla dwóch średnich
H0: m1=m2
H1: m1≠m2 lub m1>m2 lub m1<m2
I.
niezależne populacje, X 1 ~ N (m1 , σ 1 ), X 2 ~ N ( m2 , σ 2 ), σ 1 , σ 2 - znane
Jeśli H0 prawdziwa, to statystyka:
u=
x1 − x2
σ 12
n1
+
σ 22 ma rozkład normalny N(0,1)
n2
Obszar krytyczny:
- P( U ≥ uα ) = α (gdy H1: m1=m2),
- P (U ≥ u2α ) = α (gdy H1: m1>m2),
- P(U ≤ −u2α ) = α (gdy H1: m1<m2),
II.
niezależne populacje, X 1 ~ N (m1 , σ 1 ), X 2 ~ N (m2 , σ 2 ), σ1 , σ 2 - nieznane,
σ 1 = σ 2 , ν=n1+n2-2>30
Jeśli H0 prawdziwa, to statystyka:
u=
x1 − x2
S12 S22 ma rozkład normalny N(0,1)
+
n1 n2
Obszar krytyczny:
- P( U ≥ uα ) = α (gdy H1: m1=m2),
- P (U ≥ u2α ) = α (gdy H1: m1>m2),
- P(U ≤ −u2α ) = α (gdy H1: m1<m2),
III.
niezależne populacje, X 1 ~ N (m1 , σ 1 ), X 2 ~ N (m2 , σ 2 ), σ 1 , σ 2 - nieznane,
σ 1 = σ 2 , ν=n1+n2-2<=30
Jeśli H0 prawdziwa, to statystyka:
t=
x1 − x2
S12 (n1 − 1) + S22 (n2 − 1)
, gdzie S =


1
1
n1 + n2 − 2
S p2  + 
 n1 n2 
2
p
ma rozkład t-Studenta z n1+n2-2 stopniami swobody.
Obszar krytyczny:
- P( t ≥ tα ,n1 + n2 − 2 ) = α (gdy H1: m1≠m2),
- P (t ≥ t2α , n1 + n2 − 2 ) = α (gdy H1: m1>m2),
- P (t ≤ −t2α , n1 + n2 − 2 ) = α (gdy H1: m1<m2).
IV.
niezależne populacje, rozkład X1 i X2 nieznany, ale n1 i n2 >=100
Jeśli H0 prawdziwa, to statystyka:
u=
x1 − x2
S12 S22
+
n1 n2
ma rozkład normalny N(0,1)
Obszar krytyczny:
- P( U ≥ uα ) = α (gdy H1: m1=m2),
- P (U ≥ u2α ) = α (gdy H1: m1>m2),
- P(U ≤ −u2α ) = α (gdy H1: m1<m2),
V.
populacje zależne, gdy obserwacje do prób dobierane są parami
Ri = ( X 1i − X 2i ) ~ N (mR , σ R )
H 0 : mR = m0
H1 : mR ≠ m0 lub H1 : mR > m0 lub H1 : mR < m0
Jeśli H0 prawdziwa, to statystyka:
n
R − mR
t=
n , gdzie S R = 1 ∑ ( Ri − R ) 2 ma rozkład t-Studenta z n-1
SR
n − 1 i =1
stopniami swobody.
Obszar krytyczny:
- P( t ≥ tα ,n1 + n2 − 2 ) = α (gdy H1: mR≠m0),
- P (t ≥ t2α ,n1 + n2 − 2 ) = α (gdy H1: mR>m0),
- P (t ≤ −t2α , n1 + n2 − 2 ) = α (gdy H1: mR<m0).
C. Test istotności dla wariancji
X ~ N (m, σ ) , σ -znane
H 0 : σ 2 = σ 02
H1 : σ 2 ≠ σ 02 lub σ 2 > σ 02
Jeśli prawdziwa jest H0 to statystyka
χ2 =
( n − 1) ⋅ S 2
σ 02
ma rozkład Chi-kwadrat z υ = n − 1 stopniami swobody.
Obszar odrzuceń:
jeśli H1 : σ 2 ≠ σ 02
P ( χ 2 ≥ χ α2 / 2 , n −1 ) = α / 2 - prawostronna część obszaru krytycznego
P ( χ 2 ≥ χ 12− α / 2 , n −1 ) = α / 2 - lewostronna część obszaru krytycznego
jeśli H1 : σ 2 > σ 02
P ( χ 2 ≥ χ α2 , n −1 ) = α
D. Test istotności dla dwóch wariancji
niezależne populacje, X 1 ~ N (m1 , σ 1 ), X 2 ~ N (m2 , σ 2 ), σ 1 , σ 2 -nieznane
H 0 : σ 12 = σ 22
2
2
H1 : σ 12 ≠ σ 22 lub σ 1 > σ 2
Jeśli prawdziwa jest H0
F =
S 12 ( x )
S 22 ( x )
to statystyka F ma rozkład F-Snedecora z υ 1 = n1 − 1 i υ 2 = n 2 − 1 stopniami
swobody.
Obszar odrzuceń:
jeśli H1 : σ 12 ≠ σ 22
α
P ( F ≥ Fα / 2 ) =
2
P ( F ≥ F1− α / 2 ) =
α
2
- prawostronna część obszaru krytycznego
- lewostronna część obszaru krytycznego
jeśli H1 : σ 12 > σ 22
P ( F ≥ Fα ) = α
Ponieważ tablice statystyczne pozwalają odczytać tylko wartość
Fα / 2 określającą prawostronną część obszaru krytycznego, za populację z
numerem 1 należy uznać populację o większej wariancji w próbie (wówczas
sprawdzamy czy wartość statystyki F wpada do prawostronnej części obszaru
krytycznego).
E.
Testy istotności dla frakcji
H0: p=p0
H1: p≠p0 lub p>p0 lub p<p0
Jeśli H0 prawdziwa, to statystyka:
u=
pˆ − p0
ma rozkład normalny N(0,1).
p0 (1 − p0 )
n
Obszar krytyczny:
- P( U ≥ uα ) = α (gdy H1: p≠p0),
- P(U ≥ u2α ) = α (gdy H1: p>p0),
- P(U ≤ −u2α ) = α (gdy H1: p<p0),
F. Test istotności dla dwóch frakcji
H0: p1=p2
H1: p1≠p2 lub p1>p2 lub p1<p2
Jeśli H0 prawdziwa, to statystyka:
u=
pˆ1 − pˆ 2
1 1
p (1 − p )  + 
 n1 n2 
, gdzie p =
Obszar krytyczny:
- P ( U ≥ uα ) = α (gdy H1: p1≠p2),
- P(U ≥ u2α ) = α (gdy H1: p1>p2),
- P(U ≤ −u2α ) = α (gdy H1: p1<p2).
x1 + x2
ma rozkład normalny N(0,1)
n1 + n2
NIEPARAMETRYCZNE TESTY ISTOTNOŚCI
Test nieparametryczny, weryfikuje czy zmienna losowa ma określony rozkład,
np. rozkład normalny z parametrami m i σ.
Test zgodności Chi-kwadrat
H0: F(x)=F0(x)
H1: F(x)≠F0(x)
(ni − nˆi ) 2
χ =∑
nˆi
i =1
2
n
ni - liczebności empiryczne
nˆi – liczebności teoretyczne, oczekiwane (jeśli zmienna ma weryfikowany
rozkład)
nˆi = n ⋅ pi , musi być spełniony warunek nˆi > 5, w przeciwnym wypadku należy
połączyć dwie sąsiadujące ze sobą klasy
Statystyka χ 2 ma rozkład Chi-kwadrat z υ = r − k − 1 stopniami swobody, gdzie r –
liczba klas wartości zmiennej, k- liczba parametrów rozkładu szacowanych na
podstawie próby (jeśli nie szacujemy parametrów na podstawie próby, ale
zakładamy je, to k=0).
Obszar krytyczny P( χ 2 >= χ 2 α,S)=α

Podobne dokumenty