powiedzmy
Transkrypt
powiedzmy
ZAGADNIENIE ESTYMACJI. ESTYMACJA PUNKTOWA I PRZEDZIAŁOWA Mamy populację generalną i interesujemy się pewną cechą X jednostek statystycznych, a dokładniej pewną charakterystyką liczbową θ tej cechy (np. średnią wartością tej cechy). Przeprowadzamy doświadczenia, w wyniku których mamy próbę losową (x1, . . . , xn). Na podstawie obserwacji chcemy odpowiedzieć na pewne pytania na temat nieznanego θ ∈ Θ. Celem estymacji θ jest odpowiedź na pytanie: Ile mniej więcej wynosi wartość parametru θ ? Formalizacja probabilistyczno-statystyczna tego zagadnienia: {xi} - niezależne zmienne losowe o tym samym rozkładzie (=rozkładzie cechy X), którego wartość oczekiwana θ (=średnia wartość cechy X) nie jest znana; mamy oszacować θ. Są dwa podstawowe sposoby estymacji (szacowania) θ: 1. estymacja punktowa (wynik estymacji brzmi: θ wynosi mniej więcej, powiedzmy, θ0); 2. estymacja przedziałowa (wynik estymacji brzmi: θ 1 leży w przedziale, powiedzmy, [θ−, θ+] z określoną dozą pewności, czyli z prawdopodobieństwem 1−α zadanym z góry). Przykład 1. Mamy oszacować średnią procentową zawartość tłuszczu w mleku pochodzącym od pewnego producenta. Zbadaliśmy 10 kartonów z mlekiem i uzyskaliśmy następujące wyniki: 3,26; 3,12; 3,24; 3,16; 3,08; 3,14; 3,23; 3,11; 3,09; 3,24. Definicja. Statystyką nazywamy każdą funkcję T (x1, . . . , xn) od próby (jest to zmienną losową). Postać statystyki nie może zależeć od nieznanego parametru. n Przykłady statystyk: x̄ = x1+···+x , n n przykłady nie statystyk: x1+···+x , θ ∑ n 1 2 n ∑ i=1 (xi − x̄) , n 1 2 (x − θ) . i i=1 n Definicja. Estymatorem punktowym parametru θ nazywamy dowolną statystykę T (x1, . . . , xn), która naszym zdaniem dobrze przybliża wartość θ. 2 Rozważmy statystykę x̄ jako estymator nieznanej średniej wartości θ cechy X. Mamy: x1 + · · · + xn Ex1 + · · · + Exn E x̄ = E = = θ, n n x1 + · · · + xn 1 Varx̄ = Var = 2 (Varx1 + · · · + Varxn) n n nVarx1 σ 2 = = , n2 n gdzie przez σ 2 oznaczyliśmy wariancję cechy X. Zaleta uśredniania - redukcja zmienności. Definicja. Estymator T (x1, . . . , xn) parametru θ nazywamy nieobciążonym, jeśli ET (x1, . . . , xn) = θ ∀θ (średnio estymator szacuje parametr θ bez błędu). Estymator x̄ jest estymatorem nieobciążonym dla θ. Definicja. Estymator T (x1, . . . , xn) parametru θ nazywamy zgodnym, jeśli dla n → ∞ T (x1, . . . , xn) → θ ∀θ w pewnym sensie probabilistycznym, tzn. im większy jest rozmiar próby, tym lepiej estymator szacuje parametr. 3 Estymator x̄ jest zgodnym estymatorem dla θ (na mocy Prawa Wielkich Liczb). Tak, w Przykładzie 1 szacujemy nieznany parametr θ (średnia procentowa zawartość tłuszczu w mleku) jako x1 + · · · + x10 x̄ = = 3,166(6). 10 Przykład 2. Zmierzono objętości V pięciu losowo wybranych kulek z partii kulek lożyskowych, otrzymując wyniki (w cm3): 1,24; 1,38; 1,25; 1,17; 1,27. Znaleźć ocenę wartości przeciętnej średnicy d kulki pochodzącej z tej partii. Jako ocenę wartości przeciętnej średnicy d kulki wybierzemy średnią z próbki x̄ (jak wiemy, jest to estymator nieobciążony i zgodny dla parametru d). Ponieważ obπd3 jętość kulki i średnica są związane równością V = 6 , √ otrzymujemy d = 3 6Vπ . Z tego wzoru, podstawiając wyniki obserwacji objętości, uzyskujemy odpowiednie wyniki dla średnicy: x1 ≈ 1,33 cm, x2 ≈ 1,38 cm, x3 ≈ 1,34 cm, x4 ≈ 1,31 cm, x5 ≈ 1,34 cm. Stąd x̄ ≈ 1,34 cm. Przykład 3. Zmierzono pola S sześciu losowo wybranych kwadratowych działek z pewnej okolicy, otrzymując wyniki (w m2): 2809; 2916; 2704; 2809; 2601; 2704. 4 Oszacować średnią długość boku a działki z tej okolicy. Przykład 4. Przeprowadzono badanie zużycia benzyny w losowo wybranej grupie 6 samochodów tej samej marki i tego samego rocznika. Po przejechaniu 200 km drogi uzyskano następujące obserwacji zużycia benzyny (w l): 11,2; 10,8; 10,9; 12,0; 11,8; 11,5. Oszacować średnie zużycie benzyny θ (w litrach na 100 km jazdy). Niech jednostki statystyczne albo posiadają pewną własność (kodujemy to jako 1), albo nie (kod - 0). Jak oszacować nieznana proporcję p jednostek w populacji posiadających tą własność? (x1, . . . , xn) - próba z rozkładu zero-jedynkowego o nieznanym prawdopodobieństwie p, P (X = 1) = p, P (X = 0) = 1 − p, EX = p. Zatem zagadnienie szacowania parametru p sprowadza się do szacowania nieznanej wartości oczekiwanej. Więc, proporcja jednostek w próbie posiadających tą n , jest dobrym estymatorem własność, czyli pb = x1+···+x n dla p. Przykład 5. Jedna z agencji badających opinię publiczną w czerwcu 2000 roku przeprowadziła badanie 500 dorosłych obywateli polskich na temat poparcia (bądź nie) wejścia Polski do UE. Okazało się, że 285 5 osób opowiedziało się pozytywnie na ten temat. Oszacować proporcję p dorosłych obywateli Polski popierających wejście Polski do UE. Szacujemy p za pomocą proporcji dorosłych obywateli w próbie popierających wejście do UE, czyli jako pb = 285 500 = 0,57. Przykład 6. Zgodnie z przeprowadzonym badaniem na próbie w 300 dorosłych osób w Polsce, 117 osób miały kłopoty ze snem. Oszacować proporcję p dorosłych obywateli Polski mających kłopoty ze snem. Niech α ∈ (0, 1) będzie ustaloną liczbą (standardowo α = 0.05); liczbę 1 − α nazywamy poziomem ufności. Definicja. Estymatorem przedziałowym (przedziałem ufności) parametru θ na poziomie ufności 1 − α nazywamy przedział [θ−, θ+], końce którego są statystykami (czyli θ− = θ−(x1, . . . , xn), θ+ = θ+(x1, . . . , xn)), taki, że dla dowolnego θ zachodzi P (θ ∈ [θ−, θ+]) > 1 − α. Tak naprawdę, zawsze staramy się skonstruować przedział ufności, dla którego powyższe prawdopodobieństwo jest równe 1 − α, ponieważ im mniejsze jest prawdopodobieństwo, tym, na ogół, krótszy jest przedział [θ−, θ+], a krótszy przedział, przy takim samym pozio6 mie ufności, oznacza bardziej precyzyjne oszacowanie. Konstrukcja przedziałów ufności dla przypadków: 1. cecha ma rozkład normalny, wariancja σ 2 jest znana; 2. cecha ma rozkład normalny, wariancja σ 2 nie jest znana; 3. cecha ma rozkład dowolny, ale n jest duże. 1. {xi} - niezależne zmienne losowe o rozkładzie √ x̄−θ σ2 2 N (θ, σ ) =⇒ x̄ ma rozkład N (θ, n ) =⇒ n σ ma rozkład N (0, 1). Weźmy taką liczbę z1−α/2, że ) ( √ x̄ − θ 6 z1−α/2 = 1 − α. P −z1−α/2 6 n σ Estymator przedziałowy dla θ ma zatem postać: [ ] σ σ [θ−, θ+] = x̄ − z1−α/2 √ , x̄ + z1−α/2 √ . n n Długość tego przedziału ufności wynosi 2z1−α/2 √σn i nie jest losowa. Od czego zależy długość przedziału? Jeśli σ jest ustalone, to jedynie od poziomu 1 − α i rozmiaru próbki n. Aby zwiększyć precyzję estymatora poprzez zmniejszenie długości przedziału ufności, musimy albo zmniejszyć 1−α, co nie jest rozsądne, albo zwiększyć n. 7 √ ∑n 2 2. Zamiast σ bierzemy s = j=1 (xj − x̄) , zamiast rozkładu N (0, 1) – rozkład Studenta o (n − 1) stopniach swobody. Estymator przedziałowy dla θ ma postać: [ ] s s [θ−, θ+] = x̄ − t1−α/2,n−1 √ , x̄ + t1−α/2,n−1 √ . n n 1 n−1 Tutaj t1−α/2,n−1 jest taką liczbą, że ( ) √ x̄ − θ P −t1−α/2,n−1 6 n 6 t1−α/2,n−1 = 1 − α. s Długość tego przedziału ufności wynosi 2t1−α/2,n−1 √sn i jest losowa. Średnia długość tego przedziału zależy wyłącznie od 1 − α i n w taki sam sposób, jak w poprzednim punkcie. 3. (estymator przybliżony) W porównaniu z poprzednim przypadkiem, zamiast rozkładu Studenta ponownie bierzemy rozkład N (0, 1). Przybliżony estymator przedziałowy dla θ ma zatem postać: [ ] s s √ √ [θ−, θ+] = x̄ − z1−α/2 , x̄ + z1−α/2 . n n 8 W Przykładzie 1 przy założeniu, że cecha ma rozkład normalny i np. σ = 0,05 stosujemy przedział ufności z punktu 1. Przy 1 − α = 0,95 otrzymujemy z tablic z0,975 = 1,960 i [ ] 0,05 0,05 [θ−, θ+] = 3,1667 − 1,960 √ ; 3,1667 + 1,960 √ = 10 10 = [3,1357; 3,1977]. Jeśli nie ma wiedzy o σ, to stosujemy przedział ufności z punktu 2. Przy 1 − α = 0,95 otrzymujemy z tablic t0,975,9 = 2,2622 i ] [ √ √ 0,0048 0,0048 ; 3,1667+2,2622 √ [θ−, θ+] = 3,1667−2,2622 √ 10 10 = [3,1171; 3,2163]. W Przykładzie 2 przy założeniu, że cecha ma rozkład normalny i np. σ = 0,025 stosujemy przedział ufności z punktu 1. Przy 1 − α = 0,95 otrzymujemy z tablic z0,975 = 1,960 i [ ] 0,025 0,025 [d−, d+] = 1,340 − 1,960 √ ; 1,340 + 1,960 √ = 5 5 = [1,318; 1,362]. Jeśli nie ma wiedzy o σ, to stosujemy przedział ufności z punktu 2. Przy 1 − α = 0,95 otrzymujemy z tablic t0,975,4 = 2,776 i 9 0,027 0,027 [d−, d+] = [1,340−2,776 √ ; 1,340+2,776 √ ] = 5 5 = [1,307; 1,373]. Niech jednostki statystyczne albo posiadają pewną własność (1), albo nie (0). Cel: oszacowanie nieznanej proporcji p jednostek posiadających tą własność. (x1, . . . , xn) - próba z rozkładu zero-jedynkowego o nieznanym prawdopodobieństwie p, P (X = 1) = p, P (X = 0) = 1−p, EX = p, VarX = p(1−p) n p(1−p), Varb p = Var x1+···+x = n n . Estymator przedziałowy dla nieznanej proporcji p ma postać: [ ] √ √ pb(1 − pb) pb(1 − pb) [p−, p+] = pb − z1−α/2 , pb + z1−α/2 . n n Dla dobrego przybliżenia, oprócz wymaganego warunku, że n jest duże (powiedzmy n > 100), często wymagane jest, by nb p > 5 oraz n(1 − pb) > 5. Dla danych z Przykładu 5 otrzymujemy następujący przedział ufności dla p przy 1 − α = 0,95: √ √ 0,57 · 0,43 0,57 · 0,43 [p−, p+] = [0,57−1,96 , 0,57+1,96 ] 500 500 = [0,53; 0,61]. Zadanie. Wypisać estymatory przedziałowe w Przykładach 3,4,6. Przyjąć 1 − α = 0,95. Założyć normalność rozkładu cechy w Przykładach 3,4. 10