TESTOWANIE HIPOTEZ STATYSTYCZNYCH HIPOTEZA - E-SGH
Transkrypt
TESTOWANIE HIPOTEZ STATYSTYCZNYCH HIPOTEZA - E-SGH
TESTOWANIE HIPOTEZ STATYSTYCZNYCH HIPOTEZA STATYSTYCZNA – przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Prawdziwość tego przypuszczenia jest oceniana na podstawie wyników próby losowej. Posługujemy się przy tym testem statystycznym, który ma na celu rozstrzygnięcie, jakie wyniki próby pozwalają uznać sprawdzaną hipotezę za prawdziwą, a jakie za fałszywą. Wyróżnia się hipotezy parametryczne (dotyczą wartości parametrów rozkładu) oraz nieparametryczne. Etapy testowania statystycznego: 1) sformułowanie hipotez: - zerowej H0 - alternatywnej H1 – zaprzeczenie H0, przyjmuje się ją za prawdziwą w sytuacji odrzucenia H0 2) obliczenie statystyki testującej 3) wyznaczenie obszaru krytycznego testu (obszaru odrzucenia hipotezy); jeśli statystyka testująca należy do obszaru krytycznego, odrzucamy H0 na korzyść H1, w przeciwnym wypadku przyjmujemy H0 Przy decyzji po przyjęciu / odrzuceniu H0 popełniamy 2 rodzaje błędów: - błąd I rodzaju (odrzucenie prawdziwej H0) - błąd II rodzaju (przyjęcie fałszywej H0). Testy statystyczne konstruuje się w taki sposób, aby zminimalizować prawdopodobieństwo błędu II rodzaju (β) przy ustalonym z góry poziomie prawdopodobieństwa popełnienia błędu I rodzaju (α). Tak zbudowane testy nazywa się najmocniejszymi (odpowiada im największa moc). Moc testu jest to prawdopodobieństwo odrzucenia fałszywej H0 i przyjęcie prawdziwej H1: M=1- β. PARAMETRYCZNE TESTY ISTOTNOŚCI A. Testy istotności dla średniej H0: m=m0 H1: m≠m0 lub m>m0 lub m<m0 I. X ~ N ( m, σ ) , σ - znane Jeśli H0 prawdziwa, to statystyka: u= x − m0 σ n ma rozkład normalny N(0,1) Obszar krytyczny: - P( U ≥ uα ) = α (gdy H1: m≠m0), - P (U ≥ u2α ) = α (gdy H1: m>m0), - P(U ≤ −u2α ) = α (gdy H1: m<m0), II. X ~ N ( m, σ ) , σ -nieznane, ν > 30 Jeśli H0 prawdziwa, to statystyka: u= x − m0 S n ma rozkład normalny N(0,1) Obszar krytyczny: - P( U ≥ uα ) = α (gdy H1: m≠m0), - P (U ≥ u2α ) = α (gdy H1: m>m0), - P(U ≤ −u2α ) = α (gdy H1: m<m0), X ~ N (m, σ ) , σ -nieznane, ν <= 30 III. Jeśli H0 prawdziwa, to statystyka: x − m0 n ma rozkład t-Studenta z n-1 stopniami swobody S t= Obszar krytyczny: - P( t ≥ tα ,n −1 ) = α (gdy H1: m≠m0), P (t ≥ t2α ,n −1 ) = α (gdy H1: m>m0), - P (t ≤ −t2α ,n −1 ) = α (gdy H1: m<m0). - IV. Populacja ma rozkład dowolny z nieznanymi parametrami ale n>=100 Wówczas x → N (m0 , S / n ) . Jeśli H0 prawdziwa, to statystyka: u= x − m0 S n ma rozkład normalny N(0,1) Obszar krytyczny: - P( U ≥ uα ) = α (gdy H1: m≠m0), - P (U ≥ u2α ) = α (gdy H1: m>m0), - P(U ≤ −u2α ) = α (gdy H1: m<m0), B. Testy istotności dla dwóch średnich H0: m1=m2 H1: m1≠m2 lub m1>m2 lub m1<m2 I. niezależne populacje, X 1 ~ N (m1 , σ 1 ), X 2 ~ N ( m2 , σ 2 ), σ 1 , σ 2 - znane Jeśli H0 prawdziwa, to statystyka: u= x1 − x2 σ 12 n1 + σ 22 ma rozkład normalny N(0,1) n2 Obszar krytyczny: - P( U ≥ uα ) = α (gdy H1: m1=m2), - P (U ≥ u2α ) = α (gdy H1: m1>m2), - P(U ≤ −u2α ) = α (gdy H1: m1<m2), II. niezależne populacje, X 1 ~ N (m1 , σ 1 ), X 2 ~ N (m2 , σ 2 ), σ1 , σ 2 - nieznane, σ 1 = σ 2 , ν=n1+n2-2>30 Jeśli H0 prawdziwa, to statystyka: u= x1 − x2 S12 S22 ma rozkład normalny N(0,1) + n1 n2 Obszar krytyczny: - P( U ≥ uα ) = α (gdy H1: m1=m2), - P (U ≥ u2α ) = α (gdy H1: m1>m2), - P(U ≤ −u2α ) = α (gdy H1: m1<m2), III. niezależne populacje, X 1 ~ N (m1 , σ 1 ), X 2 ~ N (m2 , σ 2 ), σ 1 , σ 2 - nieznane, σ 1 = σ 2 , ν=n1+n2-2<=30 Jeśli H0 prawdziwa, to statystyka: t= x1 − x2 S12 (n1 − 1) + S22 (n2 − 1) , gdzie S = 1 1 n1 + n2 − 2 S p2 + n1 n2 2 p ma rozkład t-Studenta z n1+n2-2 stopniami swobody. Obszar krytyczny: - P( t ≥ tα ,n1 + n2 − 2 ) = α (gdy H1: m1≠m2), - P (t ≥ t2α , n1 + n2 − 2 ) = α (gdy H1: m1>m2), - P (t ≤ −t2α , n1 + n2 − 2 ) = α (gdy H1: m1<m2). IV. niezależne populacje, rozkład X1 i X2 nieznany, ale n1 i n2 >=100 Jeśli H0 prawdziwa, to statystyka: u= x1 − x2 S12 S22 + n1 n2 ma rozkład normalny N(0,1) Obszar krytyczny: - P( U ≥ uα ) = α (gdy H1: m1=m2), - P (U ≥ u2α ) = α (gdy H1: m1>m2), - P(U ≤ −u2α ) = α (gdy H1: m1<m2), V. populacje zależne, gdy obserwacje do prób dobierane są parami Ri = ( X 1i − X 2i ) ~ N (mR , σ R ) H 0 : mR = m0 H1 : mR ≠ m0 lub H1 : mR > m0 lub H1 : mR < m0 Jeśli H0 prawdziwa, to statystyka: n R − mR t= n , gdzie S R = 1 ∑ ( Ri − R ) 2 ma rozkład t-Studenta z n-1 SR n − 1 i =1 stopniami swobody. Obszar krytyczny: - P( t ≥ tα ,n1 + n2 − 2 ) = α (gdy H1: mR≠m0), - P (t ≥ t2α ,n1 + n2 − 2 ) = α (gdy H1: mR>m0), - P (t ≤ −t2α , n1 + n2 − 2 ) = α (gdy H1: mR<m0). C. Test istotności dla wariancji X ~ N (m, σ ) , σ -znane H 0 : σ 2 = σ 02 H1 : σ 2 ≠ σ 02 lub σ 2 > σ 02 Jeśli prawdziwa jest H0 to statystyka χ2 = ( n − 1) ⋅ S 2 σ 02 ma rozkład Chi-kwadrat z υ = n − 1 stopniami swobody. Obszar odrzuceń: jeśli H1 : σ 2 ≠ σ 02 P ( χ 2 ≥ χ α2 / 2 , n −1 ) = α / 2 - prawostronna część obszaru krytycznego P ( χ 2 ≥ χ 12− α / 2 , n −1 ) = α / 2 - lewostronna część obszaru krytycznego jeśli H1 : σ 2 > σ 02 P ( χ 2 ≥ χ α2 , n −1 ) = α D. Test istotności dla dwóch wariancji niezależne populacje, X 1 ~ N (m1 , σ 1 ), X 2 ~ N (m2 , σ 2 ), σ 1 , σ 2 -nieznane H 0 : σ 12 = σ 22 2 2 H1 : σ 12 ≠ σ 22 lub σ 1 > σ 2 Jeśli prawdziwa jest H0 F = S 12 ( x ) S 22 ( x ) to statystyka F ma rozkład F-Snedecora z υ 1 = n1 − 1 i υ 2 = n 2 − 1 stopniami swobody. Obszar odrzuceń: jeśli H1 : σ 12 ≠ σ 22 α P ( F ≥ Fα / 2 ) = 2 P ( F ≥ F1− α / 2 ) = α 2 - prawostronna część obszaru krytycznego - lewostronna część obszaru krytycznego jeśli H1 : σ 12 > σ 22 P ( F ≥ Fα ) = α Ponieważ tablice statystyczne pozwalają odczytać tylko wartość Fα / 2 określającą prawostronną część obszaru krytycznego, za populację z numerem 1 należy uznać populację o większej wariancji w próbie (wówczas sprawdzamy czy wartość statystyki F wpada do prawostronnej części obszaru krytycznego). E. Testy istotności dla frakcji H0: p=p0 H1: p≠p0 lub p>p0 lub p<p0 Jeśli H0 prawdziwa, to statystyka: u= pˆ − p0 ma rozkład normalny N(0,1). p0 (1 − p0 ) n Obszar krytyczny: - P( U ≥ uα ) = α (gdy H1: p≠p0), - P(U ≥ u2α ) = α (gdy H1: p>p0), - P(U ≤ −u2α ) = α (gdy H1: p<p0), F. Test istotności dla dwóch frakcji H0: p1=p2 H1: p1≠p2 lub p1>p2 lub p1<p2 Jeśli H0 prawdziwa, to statystyka: u= pˆ1 − pˆ 2 1 1 p (1 − p ) + n1 n2 , gdzie p = Obszar krytyczny: - P ( U ≥ uα ) = α (gdy H1: p1≠p2), - P(U ≥ u2α ) = α (gdy H1: p1>p2), - P(U ≤ −u2α ) = α (gdy H1: p1<p2). x1 + x2 ma rozkład normalny N(0,1) n1 + n2 NIEPARAMETRYCZNE TESTY ISTOTNOŚCI Test nieparametryczny, weryfikuje czy zmienna losowa ma określony rozkład, np. rozkład normalny z parametrami m i σ. Test zgodności Chi-kwadrat H0: F(x)=F0(x) H1: F(x)≠F0(x) (ni − nˆi ) 2 χ =∑ nˆi i =1 2 n ni - liczebności empiryczne nˆi – liczebności teoretyczne, oczekiwane (jeśli zmienna ma weryfikowany rozkład) nˆi = n ⋅ pi , musi być spełniony warunek nˆi > 5, w przeciwnym wypadku należy połączyć dwie sąsiadujące ze sobą klasy Statystyka χ 2 ma rozkład Chi-kwadrat z υ = r − k − 1 stopniami swobody, gdzie r – liczba klas wartości zmiennej, k- liczba parametrów rozkładu szacowanych na podstawie próby (jeśli nie szacujemy parametrów na podstawie próby, ale zakładamy je, to k=0). Obszar krytyczny P( χ 2 >= χ 2 α,S)=α