STATYSTYKA
Transkrypt
STATYSTYKA
STATYSTYKA Rafał Kucharski Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2 Karl Popper . . . no matter how many instances of white swans we may have observed, this does not justify the conclusion that all swans are white. Good tests kill flawed theories; we remain alive to guess again. Hipoteza statystyczna I Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące I I postaci rozkładu cechy w populacji generalnej (hipotezy nieparametryczne) lub wartości jego parametrów (hipotezy parametryczne). I Postępowanie służące rozstrzygnięciu czy hipotezę należy odrzucić czy też nie, nazywamy weryfikacją lub testowaniem hipotezy. I Weryfikowaną hipotezę nazywamy zerową (H0 ). I Oprócz niej formułujemy także drugą hipotezę: alternatywną (H1 ), której prawdziwość przyjmujemy w przypadku odrzucenia hipotezy zerowej. I Hipoteza mówiąca, że parametr przyjmuje pewną dokładną (punktową) wartość, nazywa się hipotezą prostą (np. θ = 3). I Hipotezę określająca zbiór wartości parametru nazywamy hipotezą złożoną (np. θ < 0). Test statystyczny I I Test statystyczny to reguła (procedura) postępowania służąca do podjęcia decyzji o przyjęciu lub odrzuceniu sprawdzanej hipotezy, na podstawie wyników z próby. Formalnie procedura testowa to mierzalna funkcja ϕ : X → {0, 1}, I I gdzie ϕ(X ) = 1 oznacza decyzję o odrzuceniu H0 (i przyjęcie H1 ), a wartość ϕ(X ) = 0 oznacza przyjęcie H0 (i odrzucenie H1 ). I Testy parametryczne służą do weryfikacji hipotez parametrycznych. I Testy nieparametryczne służą do weryfikacji hipotez nieparametrycznych. Błędy I i II rodzaju I Hipoteza zerowa może być prawdziwa lub fałszywa. I My możemy podjąć dwie decyzje: odrzucić H0 albo nie odrzucać H0 . I Hipoteza statystyczna jest weryfikowana w oparciu o dane z próby, więc istnieje prawdopodobieństwo popełnienia błędu. I Możliwe są cztery sytuacje: Wynik testu Rzeczywistość H0 jest prawdziwa H0 jest fałszywa Odrzucamy H0 Błąd I rodzaju decyzja poprawna Brak podstaw do odrzucenia H0 decyzja poprawna Błąd II rodzaju Obserwacja: I Cecha X ma rozkład normalny N(m, 1) o nieznanej wartości przeciętnej m. I Wysuwamy przypuszczenie, że H0 : m = 0 (hipoteza zerowa). I Załóżmy teraz, że z wylosowanej próby prostej zwierającej 10 elementów uzyskano wartość x̄ = 0.977. I Wiemy, że jeśli X ∼ N(0, 1), to X̄10 ∼ N(0, 1/10), zatem √ √ P(|X̄10 | 0.977) = P( 10|X̄10 | 0.977 10) = √ = 2(1 − Φ(0.977 10)) ≈ 0.002. I Jeśli H0 jest prawdziwa, to zdarzenie {|X̄10 | 0.977} jest I I mało prawdopodobne, jednakże możliwe. Poziom istotności, testy istotności I Musimy podjąć decyzję (czy też ustalić regułę decyzyjną), jak małe prawdopodobieństwo nastąpienia obserwowanego zdarzenia (przy zachodzeniu H0 ) skłania nas do odrzucenia H0 . I Takie krytyczne prawdopodobieństwo α ∈ (0, 1), że odrzucamy H0 , jeżeli (przy zachodzeniu H0 ) prawdopodobieństwo nastąpienia zaobserwowanego zdarzenia jest nie większe niż α, nazywamy poziomem istotności. P(ϕ(X ) = 1|H0 ) = P(odrzucamy H0 |H0 ) ¬ α. I Testy, przy których interesuje nas jedynie prawdziwość lub fałszywość H0 , i nie interesuje na błąd II rodzaju, nazywamy testami istotności. I Testy istotności pozwalają na odrzucenie H0 , lub stwierdzenie, że zaobserwowane wartości nie dają podstaw do odrzucenia H0 . Poziom istotności, rozmiar i moc testu I Rozmiarem testu nazywamy liczbę P(błędu I rodzaju) = P(odrzucenie H0 |H0 jest prawdziwa). I Test na poziomie istotności α ma rozmiar ¬ α. I Mocą testu nazywamy liczbę 1 − β, gdzie β = P(błędu II rodzaju) = = P(nieodrzucenie H0 |H1 jest prawdziwa), czyli moc testu = P(odrzucenie H0 |H1 jest prawdziwa). Obszar krytyczny I Test istotności składa się: I I ze statystyki testowej (T ) zwanej także sprawdzianem hipotezy, oraz obszaru krytycznego (K ), który wyznaczamy tak, aby α = P(T ∈ K |H0 ). I I I I Jeśli zachodzi T ∈ K , to H0 odrzucamy, na korzyść H1 . Jeśli T 6∈ K , to nie ma podstaw do odrzucenia H0 . Hipoteza zerowa w testach parametrycznych ma zwykle postać: H0 : θ = θ0 , gdzie θ0 jest ustaloną liczbą rzeczywistą. Hipotezę alternatywną w testach istotności możemy sformułować na trzy sposoby; każdemu z nich odpowiada inny typ obszaru krytycznego: I H1 : θ 6= θ0 , I H1 : θ > θ 0 , H1 : θ < θ 0 , I obszar krytyczny dwustronny: K = (−∞, a) ∪ (b, ∞), obszar krytyczny prawostronny: K = (b, ∞), obszar krytyczny lewostronny: K = (−∞, a) (gdzie a, b należy wyznaczyć z warunku (∗)). (∗) Schemat weryfikacji hipotez I Sformułowanie hipotezy zerowej i alternatywnej, I Wybór statystyki testowej, I Określenie poziomu istotności α, I Wyznaczenie obszaru krytycznego testu, I Obliczenie oceny statystyki testowej na podstawie próby, I Podjęcie decyzji. Test dla wartości oczekiwanej w populacji normalnej o znanej wariancji, H1 : µ 6= m0 I I I I I Zakładamy, że X ∼ N(µ, σ 2 ), gdzie σ 2 jest znane. Chcemy zweryfikować hipotezę H0 : µ = m0 wobec H1 : µ 6= m0 . X̄ − m0 √ Statystyką testową jest Z = n. σ Ustalamy poziom istotności α ∈ (0, 1). Z uwagi na postać H1 obszar krytyczny jest dwustronny: K = (−∞, −zα ) ∪ (zα , ∞), I gdzie wartość krytyczną zα dobieramy tak, aby P(|Z | zα |H0 ) = α. Pod założeniem H0 mamy Z ∼ N(0, 1), zatem α α = P(Z zα |H0 ) = 1 − Φ(zα ) ⇐⇒ zα = Φ−1 1 − . 2 2 I Hipotezę H0 odrzucamy, jeśli obliczona z próby wartość statystyki testowej z ∈ K , czyli |z| zα . Przykład I Czas pracy pewnego rodzaju baterii ma rozkład N(µ, 702 ). Na poziomie istotności α = 0.05 zweryfikować hipotezę, że przeciętny czas pracy tego typu baterii jest równy 500 godz., jeżeli dla 16 losowo wybranych baterii otrzymano x̄ = 530 godz. I H0 : µ = 500 I α = 0.05 ⇒ zα = I K = (−∞, −1.96) ∪ (1.96, ∞), I x̄ = 530, σ = 70, n = 16, x̄ − m0 √ 530 − 500 √ z= n= 16 = 1.714286 6∈ K . σ 70 Nie ma podstaw do odrzucenia hipotezy H0 . I I I ∨ H1 : −1 Φ (1 µ 6= 500, − 0.05/2) = 1.96, Wniosek: Przeciętny czas pracy tego typu baterii nie jest istotnie różny od 500 godzin (na poziomie istotności 0.05). p-value I I I I I Gdybyśmy w powyższym przykładzie przyjęli α = 0.1, to wówczas zα = Φ(0.95) = 1.645, Wtedy z = 1.714286 ∈ K = (−∞, −1.645) ∪ (1.645, ∞), więc H0 należałoby odrzucić. Najmniejszy poziom istotności α dla którego odrzucamy H0 (lub największy dla którego nie odrzucamy H0 ) nazywamy p-wartością testu (p-value). p-value dostarcza dodatkową informację o „dowodach” za lub przeciw H0 , ułatwiając podejmowanie decyzji o jej przyjęciu lub odrzuceniu. W naszym przykładzie: 1.714286 = Φ−1 (1−p/2) ⇐⇒ p = 2(1−Φ(1.714286)) = 0.08647621. I Zauważmy, że w tym przykładzie p = P |Z | |z|H0 , gdzie z jest wartością statystyki Z zaobserwowaną w próbie. Test dla wartości oczekiwanej w populacji normalnej o znanej wariancji, H1 : µ > m0 I I I I I Zakładamy, że X ∼ N(µ, σ 2 ), gdzie σ 2 jest znane. Chcemy zweryfikować hipotezę H0 : µ = m0 wobec H1 : µ > m0 . X̄ − m0 √ Statystyką testową jest Z = n. σ Ustalamy poziom istotności α ∈ (0, 1). Z uwagi na postać H1 obszar krytyczny jest prawostronny: K = (z2α , ∞), I gdzie z2α dobieramy tak, aby P(Z z2α |H0 ) = α. Pod założeniem H0 mamy Z ∼ N(0, 1), zatem α = P(Z z2α |H0 ) = 1 − Φ(zα ) ⇐⇒ z2α = Φ−1 (1 − α) . I Hipotezę H0 odrzucamy, jeśli obliczona z próby wartość statystyki testowej z ∈ K , czyli z > z2α . Przykład I Czas pracy pewnego rodzaju baterii ma rozkład N(µ, 702 ). Odpowiedz na pytanie, czy przeciętny czas pracy tego typu baterii wynosi ponad 500 godz., jeżeli dla 16 losowo wybranych baterii otrzymano x̄ = 530 godz. Przyjmij poziom istotności α = 0.05. I H0 : µ = 500 I α = 0.05 ⇒ zα = I K = (−∞, −1.645) ∪ (1.645, ∞), I x̄ = 530, σ = 70, n = 16, x̄ − m0 √ 530 − 500 √ z= n= 16 = 1.714286 ∈ K . σ 70 Odrzucamy H0 : Przeciętny czas pracy tego typu baterii jest istotnie większy niż 500 godzin (na poziomie istotności 0.05). I I I ∨ H1 : −1 Φ (1 µ > 500, − 0.05) = 1.645, p = P Z > |1.714286|H0 = 1 − Φ(1.714286) = 0.04323811. Test dla wartości oczekiwanej w populacji normalnej o znanej wariancji, H1 : µ < m0 I I I I I Zakładamy, że X ∼ N(µ, σ 2 ), gdzie σ 2 jest znane. Chcemy zweryfikować hipotezę H0 : µ = m0 wobec H1 : µ < m0 . X̄ − m0 √ Statystyką testową jest Z = n. σ Ustalamy poziom istotności α ∈ (0, 1). Z uwagi na postać H1 obszar krytyczny jest lewostronny: K = (−∞, −z2α ), I gdzie z2α dobieramy tak, aby P(Z ¬ −z2α |H0 ) = α. Pod założeniem H0 mamy Z ∼ N(0, 1), zatem α = P(Z ¬ −z2α |H0 ) = 1 − Φ(z2α ) ⇐⇒ z2α = Φ−1 (1 − α) . I Hipotezę H0 odrzucamy, jeśli obliczona z próby wartość statystyki testowej z ∈ K , czyli z < −z2α . Test dla wartości oczekiwanej w populacji normalnej o nieznanej wariancji, H1 : µ 6= m0 I I I I I Zakładamy, że X ∼ N(µ, σ 2 ), gdzie σ 2 jest nieznane. Chcemy zweryfikować hipotezę H0 : µ = m0 wobec H1 : µ 6= m0 . X̄ − m0 √ Statystyką testową jest T = n − 1. S Ustalamy poziom istotności α ∈ (0, 1). Z uwagi na postać H1 obszar krytyczny jest dwustronny: K = (−∞, −tα ) ∪ (tα , ∞), I gdzie wartość krytyczną tα dobieramy tak, aby P(|T | tα |H0 ) = α. Pod założeniem H0 mamy T ∼ tn−1 , zatem −1 (1 − α/2) , α = P(|T | tα |H0 ) ⇐⇒ tα = Ft,n−1 I gdzie Ft,n−1 oznacza dystrybuantę rozkładu t-Studenta o n − 1 stopniach swobody. Hipotezę H0 odrzucamy, jeśli obliczona z próby wartość statystyki testowej t ∈ K , czyli |t| > tα . Przykład I Na podstawie 10–elementowej próby obliczono średnią czasu toczenia detalu na tokarce równą 27 minut i odchylenie standardowe 5 minut. Na poziomie istotności α = 0.02 zweryfikować hipotezę, że przeciętny czas toczenia na tej tokarce wynosi 30 minut, przy założeniu, że czas toczenia detalu ma rozkład normalny. I H0 : µ = 30 I −1 α = 0.02, n = 10 ⇒ tα = Ft,9 (1 − 0.05/2) = 2.821, I K = (−∞, −2.821) ∪ (2.821, ∞), x̄ − m0 √ 27 − 30 √ x̄ = 27, S = 5, t = n−1= 10 − 1 = −1.8 6∈ K . S 5 Nie ma podstaw do odrzucenia H0 : Przeciętny czas toczenia detalu na tokarce nie różni się istotnie od 30 minut. I I I ∨ H1 : µ 6= 30, p = P |T | > | − 1.8|H0 = 2(1 − Ft,9 (1.8)) = 0.1053907. Test dla wartości oczekiwanej w populacji normalnej o nieznanej wariancji, H1 : µ > m0 I I I I I Zakładamy, że X ∼ N(µ, σ 2 ), gdzie σ 2 jest nieznane. Chcemy zweryfikować hipotezę H0 : µ = m0 wobec H1 : µ > m0 . X̄ − m0 √ Statystyką testową jest T = n − 1. S Ustalamy poziom istotności α ∈ (0, 1). Z uwagi na postać H1 obszar krytyczny jest prawostronny: K = (t2α , ∞), I gdzie t2α dobieramy tak, aby P(T t2α |H0 ) = α. Pod założeniem H0 mamy T ∼ tn−1 , zatem α = P(T t2α |H0 ) ⇐⇒ P(|T | t2α ) = 2α ⇐⇒ −1 ⇐⇒ t2α = Ft,n−1 (1 − α) , I gdzie Ft,n−1 oznacza dystrybuantę rozkładu t-Studenta o n − 1 stopniach swobody. Hipotezę H0 odrzucamy, jeśli obliczona z próby wartość statystyki testowej t ∈ K , czyli t > t2α . Test dla wartości oczekiwanej w populacji normalnej o nieznanej wariancji, H1 : µ < m0 I I I I I Zakładamy, że X ∼ N(µ, σ 2 ), gdzie σ 2 jest nieznane. Chcemy zweryfikować hipotezę H0 : µ = m0 wobec H1 : µ < m0 . X̄ − m0 √ Statystyką testową jest T = n − 1. S Ustalamy poziom istotności α ∈ (0, 1). Z uwagi na postać H1 obszar krytyczny jest lewostronny: K = (−∞, −t2α ), I gdzie t2α dobieramy tak, aby P(T ¬ −t2α |H0 ) = α. Pod założeniem H0 mamy T ∼ tn−1 , zatem α = P(T ¬ −t2α |H0 ) ⇐⇒ P(|T | t2α ) = 2α ⇐⇒ −1 ⇐⇒ t2α = Ft,n−1 (1 − α) , I gdzie Ft,n−1 oznacza dystrybuantę rozkładu t-Studenta o n − 1 stopniach swobody. Hipotezę H0 odrzucamy, jeśli obliczona z próby wartość statystyki testowej t ∈ K , czyli t < −t2α . Test dla wartości oczekiwanej w dowolnej populacji o nieznanej wariancji, dla dużej próby I Dysponujemy liczną próbą (n > 120). I X ma dowolny rozkład o skończonej wariancji σ 2 , gdzie σ 2 jest nieznane. I Chcemy zweryfikować hipotezę H0 : µ = m0 , gdzie µ = E(X ). X̄ − m0 √ Jako statystyki testowej używamy Z = n, która przy S prawdziwości H0 ma asymptotyczny rozkład N(0, 1). I I Dalej postępujemy jak w przypadku testu w populacji o znanej wariancji. Test równości wartości oczekiwanych w dwóch populacjach normalnych o znanych wariancjach I I I I I Badamy dwie populacje generalne: X1 ∼ N(µ1 , σ12 ), X2 ∼ N(µ2 , σ22 ). Parametry µ1 , µ2 są nieznane, σ12 , σ22 są znane. Chcemy zweryfikować hipotezę H0 : µ1 = µ2 wobec H1 : µ1 6= µ2 . Próby wylosowane z populacji mają liczebności n1 i n2 . Ponieważ X̄1 − X̄2 ∼ N µ1 − µ2 , σ12 n1 + σ22 n2 , więc sprawdzianem jest statystyka X̄1 − X̄2 Z=r , σ12 σ22 n1 + n2 I która przy prawdziwości H0 ma rozkład N(0, 1). Przy poziomie istotności α ∈ (0, 1), obszar krytyczny ma postać K = (−∞, −zα ) ∪ (zα , ∞), I gdzie wartość krytyczną zα dobieramy tak, aby P(|Z | zα |H0 ) = α. H0 odrzucamy, jeśli obliczona z próby wartość z ∈ K , czyli |z| zα . Test równości wartości oczekiwanych w dwóch populacjach normalnych o nieznanych wariancjach I I I I I Badamy dwie populacje generalne: X1 ∼ N(µ1 , σ12 ), X2 ∼ N(µ2 , σ22 ). Parametry µ1 , µ2 , a także σ12 , σ22 są nieznane, jednakże σ12 = σ22 . Chcemy zweryfikować hipotezę H0 : µ1 = µ2 wobec H1 : µ1 6= µ2 . Próby wylosowane z populacji mają liczebności n1 i n2 . Przy prawdziwości H0 ma statystyka t=q I X̄1 − X̄2 n1 S12 + n2 S22 r n1 n2 (n1 + n2 − 2), n1 + n2 ma rozkład t-Studenta o (n1 + n2 − 2) stopniach swobody. Przy poziomie istotności α ∈ (0, 1), obszar krytyczny ma postać K = (−∞, −tα ) ∪ (tα , ∞), I gdzie wartość krytyczną tα dobieramy tak, aby P(|t| tα |H0 ) = α. H0 odrzucamy, jeśli obliczona z próby wartość t ∈ K , czyli |t| tα . Przykład (Jóźwiak, Podgórski, przykład 10.4) I I I Przypuszcza się, że młodsze osoby łatwiej decydują się na zakup nowych, nieznanych produktów. Zapytano o wiek 20 wybranych przypadkowo nabywców nowego produktu i 22 nabywców znanego już wyrobu pewnej firmy. Otrzymano dane: I I I I nowy produkt: średnia 27.7 lat, odchylenie standardowe 5.5 lat, stary produkt: średnia 32.1 lat, odchylenie standardowe 6.3 lat. Weryfikujemy hipotezę H0 : µ1 = µ2 wobec H1 : µ1 < µ2 , α = 0.05. Zakładamy, że wiek kupujących jest normalny o takim samym zróżnicowaniu. 27.7 − 32.1 t=√ 20 · 5.52 + 22 · 6.32 I I s 20 · 22 (20 + 22 − 2) = −2.343. 20 + 22 dla 20 + 22 − 2 = 40 stopni swobody, oraz 2α = 0.1 odczytujemy t0.1,40 = 1.684, obszar krytyczny K = (−∞, −1.684). Ponieważ t ∈ K , więc H0 odrzucamy na korzyść hipotezy alternatywnej: wyniki próby potwierdzają przypuszczenie. Test dla wariancji w populacji normalnej I Zakładamy, że cecha X ma rozkład normalny N(µ, σ 2 ), o nieznanych parametrach. I Weryfikujemy hipotezę, że wariancja ma ustaloną wartość σ02 : H0 : σ 2 = σ02 , wobec H1 : σ 2 > σ02 . nS 2 1 P = 2 ni=1 (Xi − X̄ )2 , która przy 2 σ0 σ0 prawdziwości H0 ma rozkład χ2 o n − 1 stopniach swobody. I Statystyką testową jest χ2 = I Na poziomie istotności α ∈ (0, 1), z uwagi na postać H1 obszar krytyczny ma postać: K = (χ2α , ∞), gdzie wartość krytyczną χ2α dobieramy tak, by P(χ2 χ2α |H0 ) = α. I Hipotezę H0 odrzucamy, jeśli obliczona z próby wartość statystyki testowej χ2 ∈ K , czyli χ2 χ2α . Test dla wariancji w populacji normalnej I Tygodniowe wydatki na żywność per capita mają rozkład N(µ, σ 2 ). Dla 10 losowo wybranych rodzin otrzymano x̄ = 48 i s = 10.8. I Czy na poziomie istotności α = 0.05 można uważać, że odchylenie standardowe wydatków wynosi 9? I Weryfikujemy H0 : σ 2 = 92 wobec H0 : σ 2 > 92 . I Mamy n = 10, σ02 = 92 , s 2 = 10.82 , więc χ2 = nS 2 10 · 10.82 = = 14.4, 92 σ02 oraz χ20.05,9 = 16.919. I Ponieważ χ2 = 14.4 < 16.919 = χ20.05,9 , więc nie ma podstaw do odrzucenia H0 . Test dla wariancji w populacji normalnej, n > 30 I Zakładamy, że cecha X ma rozkład normalny N(µ, σ 2 ), o nieznanych parametrach. I Dysponujemy dużą próbą: n > 30. I Weryfikujemy hipotezę, że wariancja ma ustaloną wartość σ02 : H0 : σ 2 = σ02 , I I H1 : σ 2 > σ02 . wobec nS 2 , σ02 która przy prawdziwości H0 ma asymptotyczny rozkład N(0, 1). Statystyką testową jest Z = p 2χ2 − √ 2n − 3, gdzie χ2 = Na poziomie istotności α ∈ (0, 1), z uwagi na postać H1 , obszar krytyczny ma postać: K = (zα , ∞), gdzie wartość krytyczną zα dobieramy tak, by P(Z zα |H0 ) = α. I Hipotezę H0 odrzucamy, jeśli obliczona z próby wartość statystyki testowej z ∈ K , czyli z zα . Test równości wariancji w dwóch populacjach normalnych I I I I I Badamy dwie populacje generalne: X1 ∼ N(µ1 , σ12 ), X2 ∼ N(µ2 , σ22 ). Wszystkie parametry są nieznane. Chcemy zweryfikować hipotezę H0 : σ12 = σ22 wobec H1 : σ12 6= σ22 . Próby wylosowane z populacji mają liczebności n1 i n2 . Statystyką testową jest F = I Ŝ12 n1 S12 /(n1 − 1) , = n2 S22 /(n2 − 1) Ŝ22 która przy prawdziwości H0 ma rozkład F -Snedecora o (n1 − 1) oraz (n2 − 1) stopniach swobody. Obszar krytyczny ma postać: K = (−∞, F1−α/2 ) ∪ (Fα/2 , ∞), gdzie P(F Fα/2 ) = α/2, P(F ¬ F1−α/2 ) = α/2. Test równości wariancji w dwóch populacjach normalnych, c.d. I Dla H1 : σ12 6= σ22 zwykle postępujemy następująco: I I I umieszczamy w liczniku większą wariancję, niezależnie czy jest obliczona z pierwszej czy drugiej próby, tak by obliczona z próby wartość F > 1, wyznaczamy liczbę Fα/2 taką, że P(F Fα/2 ) = α/2, odrzucamy H0 , jeżeli F Fα/2 . I Jeśli H1 : σ12 > σ22 , to obszar krytyczny jest prawostronny i wyznaczany z relacji P(F Fα ) = α. I Jeśli H1 : σ12 < σ22 , to najlepiej przenumerować populacje uzyskując poprzedni przypadek. Przykład I I Sprawdzimy czy założenie o takim samym zróżnicowaniu wieku nabywców było słuszne. Weryfikujemy hipotezę: H0 : σ12 = σ22 , I wobec H1 : σ12 6= σ22 . Ponieważ odchylenie standardowe wieku nabywców znanego wyrobu jest większe, więc tą populację będziemy traktować jako pierwszą. W tych oznaczeniach: n1 = 22, n2 = 20, s1 = 6.3, s2 = 5.5. I Statystyka testowa: F = I I 22 · 6.32 /21 = 1.306. 20 · 5.52 /19 Dla α = 0.05, n1 = 22, n2 = 19 odczytujemy F0.025,21,19 = 2.493. Ponieważ F < F0.025,21,19 , więc nie ma podstaw do odrzucenia hipotezy o równości wariancji. Test dla wskaźnika struktury I I I I Zakładamy, że X ma rozkład zero-jedynkowy z parametrem p. Dysponujemy dużą próbą n > 100. Weryfikujemy hipotezę H0 : p = p0 wobec H1 : p 6= p0 . Statystyka testowa m − p0 Z = qn p0 (1−p0 ) n I I ma przy prawdziwości H0 asymptotyczny rozkład N(0, 1). m jest liczbą wyróżnionych elementów w próbie posiadających daną cechę. Na poziomie istotności α ∈ (0, 1) obszar krytyczny ma postać K = (−∞, −zα ) ∪ (zα , ∞), I gdzie zα dobieramy tak, aby P(|Z | zα |H0 ) = α. Hipotezę H0 odrzucamy, jeśli obliczona z próby wartość statystyki testowej z ∈ K , czyli |z| > zα . Test równości wskaźników struktury I Badamy dwie populacje X1 i X2 o rozkładach zero-jedynkowych z parametrami p1 i p2 . I Dysponujemy dużymi próbami n1 , n2 > 100. I Weryfikujemy hipotezę H0 : p1 = p2 wobec H1 : p1 6= p2 . I Niech m1 i m2 oznacza liczbę wyróżnionych elementów w próbach. m1 m2 m1 + m2 n1 n2 Liczymy: w1 = , w2 = , p̄ = , n̄ = . n1 n2 n1 + n2 n1 + n2 Statystyka testowa w1 − w2 Z=q I I p̄(1−p̄) n̄ ma przy prawdziwości H0 asymptotyczny rozkład N(0, 1). I Obszar krytyczny wyznaczamy i decyzję podejmujemy tak jak przy teście dla pojedynczego wskaźnika struktury. Test zgodności χ2 I Weryfikujemy hipotezę, że badana populacja ma rozkład określony dystrybuantą F0 : H0 : F = F 0 I I I Wyniki dużej próby porządkujemy w r klas o liczebnościach ni . Niech pi oznaczają teoretyczne prawdopodobieństwo przyjęcia wartości z i-tej klasy (przy założeniu H0 ), i = 1, . . . , r . Statystyka testowa χ2 = r X (ni − npi )2 i=1 I I H1 : F 6= F0 . wobec npi ma przy prawdziwości H0 asymptotyczny rozkład χ2 o (r − k − 1) stopniach swobody, gdzie k jest liczbą parametrów rozkładu oszacowanych na podstawie rozkładu empirycznego metodą największej wiarygodności. Wartość krytyczną χα wyznaczamy z relacji: P(χ2 χ2α ) = α. Hipotezę zerową odrzucamy, jeśli χ2 χ2α . Przykład I I Rejestrując liczbę zgłoszeń w 300 losowo wybranych, pięciosekundowych odcinkach pracy pewnej centrali telefonicznej otrzymano dane: Liczba zgłoszeń 0 1 2 3 4 5 Liczba odcinków 40 110 80 40 20 10 Na poziomie istotności α = 0.05 zweryfikować hipotezę, że rozkład liczby zgłoszeń napływających do tej centrali jest rozkładem Poissona: λk −λ e , k = 0, 1, 2, . . . . P(X = k) = k! Przykład, c.d. I Estymatorem NW parametru λ jest średnia arytmetyczna: λ̂ = 1.733. I Dla xi = 0, 1, 2, 3, 4, obliczamy pi z powyższego wzoru. Dla ostatniej klasy pi liczymy jako dopełnienie do 1. xi 0 1 2 3 4 5 i więcej ni 40 110 80 40 20 10 pi 0.177 0.306 0.265 0.153 0.066 0.032 npi 53.0 91.9 79.6 46.0 19.9 9.5 (ni −npi )2 npi I Otrzymujemy χ2 = 7.57. I Ponieważ r = 6, k = 1, więc χ20.05,4 = 9.487729. I Nie ma podstaw do odrzucenia H0 . 3.19 3.57 0.00 0.78 0.00 0.02 Test niezależności χ2 I Rozważamy dwie cechy X i Y . I Weryfikujemy hipotezę, że: H0 : zmienne X i Y są niezależne, wobec H1 : zmienne X i Y nie są niezależne. I Przypomnienie: do oceny zależności służy wielkość Z= r X s X (nij − n̂ij )2 i=1 j=1 n̂ij , ni· · n·j . n Statystyka Z przy prawdziwości H0 ma asymptotyczny rozkład χ2 o (r − 1)(s − 1) stopniach swobody, i nie powinna przyjmować zbyt dużych wartości. gdzie nij są liczebnościami z tablicy korelacyjnej, zaś n̂ij = I I Obszar krytyczny wyznaczamy z relacji: P(Z χ2α ) = α, a hipotezę zerową odrzucamy, jeśli Z χ2α . I Uwaga: stosujemy, gdy n̂ij 5 dla wszystkich i, j. Przykład I Dane dotyczące jakości wyrobu A produkowanego w ciągu I i II zmiany są następujące: Zmiana Jakość I II Dobra 52 18 Zła 8 22 Zweryfikuj hipotezę, że jakość wyrobu nie zależy od zmiany, na której jest produkowany. Przyjmij poziom istotności α = 0.05. I Mamy n̂ij Dobra Zła n·j I 42 18 60 II 28 12 40 ni· 70 30 100 (nij −n̂ij )2 n̂ij Dobra Zła I 100/42 100/18 II 100/28 100/12 skąd Z = 19.84, (r − 1)(s − 1) = 1, χ20.05,1 = 3.84. I Hipotezę o niezależności odrzucamy. (p = 8.414615 · 10−6 )