próbka x
Transkrypt
próbka x
Metody probabilistyczne i statystyka Wykład Estymacja Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki Szczecińskiej 7 Metody probabilistyczne i statystyka Wykład 7 20. Estymacja punktowa Estymacja punktowa – metoda szacowania pewnego nieznanego parametru rozkładu zmiennej losowej X (cechy populacji), np. EX, D2X, na podstawie wyników próby losowej dla zmiennej X (tj. na podstawie wartości pewnej konkretnej próbki) Estymator parametru θ rozkładu zmiennej X to dowolna statystyka Tn = Tn (X1,…, Xn), której wartości przyjmujemy za ocenę wielkości parametru θ (20.1) Uwagi a) b) Jeśli (x1,…, xn) jest dowolną próbką dla cechy X i tn = Tn(x1,…, xn), to θ ≈ tn Dla dowolnego parametru θ można określić wiele estymatorów (np. dla θ = EX można rozważać średnią arytmetyczną, geometryczną, harmoniczną, medianę z próbki), ale zależy nam, aby estymator spełniał pewne własności gwarantujące jego jakość Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 6 Estymatory zgodne Estymator Tn to estymator zgodny parametru θ, jeśli (20.2) ∀ ε>0 lim P (| Tn − θ |≥ ε ) = 0 n→∞ ⇔ ∀ ε>0 lim P (| Tn − θ |< ε ) = 1 n→∞ (20.3) Uwagi a) b) c) Zbieżność z warunków (20.2) jest zbieżnością według prawdopodobieństwa lub zbieżnością stochastyczną Dla estymatora zgodnego ze wzrostem liczebności próbki wzrasta dokładność oszacowania parametru θ Dla danego parametru θ można utworzyć wiele estymatorów zgodnych Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 6 Estymatory obciążone i nieobciążone Estymator Tn to estymator nieobciążony parametru θ, jeśli E (Tn ) = θ dla każdego n ∈ » (20.4) (20.5) Uwaga Estymator nieobciążony szacuje parametr θ bez błędu systematycznego Jeżeli E(Tn) istnieje, ale E(Tn) ≠ θ, to Tn nazywamy estymatorem obciążonym parametru θ, zaś różnicę E(Tn) – θ nazywamy obciążeniem estymatora Estymator Tn to estymator asymptotycznie nieobciążony parametru θ, jeśli lim E (Tn ) − θ = 0 (20.6) n→∞ Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 6 Estymatory efektywne Kolejnym kryterium, umożliwiającym ocenę estymatorów jest wariancja, która powinna być jak najmniejsza (20.7) Twierdzenie Jeśli estymator Tn parametru θ jest (asymptotycznie) nieobciążony oraz lim D 2 (Tn ) = 0, to Tn jest estymatorem zgodnym n →∞ Tn i Tn* – dwa estymatory nieobciążone parametru θ, mające skończone wariancje D2(Tn) i D2(Tn* ) Estymator Tn jest estymatorem efektywniejszym niż estymator Tn* , jeśli (20.8) D 2 (Tn ) < D 2 (Tn* ) Estymator najefektywniejszy (efektywny) – estymator nieobciążony Tn danego parametru θ, który ma najmniejszą wariancję spośród wszystkich nieobciążonych estymatorów parametru θ Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 6 Nierówność Rao-Cramera Dla prawie wszystkich rozkładów zmiennych losowych (za wyjątkiem rozkładu jednostajnego) wariancja dowolnego nieobciążonego estymatora Tn parametru θ spełnia tzw. nierówność Rao-Cramera: 1 (20.9) D 2 (Tn ) ≥ 2 n ⋅ E [ ∂θ∂ ln f ( X , θ) ] gdzie f jest gęstością zmiennej losowej X typu ciągłego lub rozkładem prawdopodobieństwa zmiennej losowej X typu skokowego 2 n ⋅ E [ ∂θ∂ ln f ( X , θ) ] – informacja Fishera, zawarta w próbce (20.10) Wniosek Jeśli dla pewnego estymatora nieobciążonego Tn parametru θ w warunku (20.9) zachodzi równość, to estymator ten jest najefektywniejszy Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 7 21. Estymacja podstawowych parametrów rozkładu (21.1) Twierdzenie Jeśli istnieje wartość oczekiwana m = EX zmiennej losowej X (cechy w populacji), to średnia z próby X = 1n ( X 1 + X 2 + ... + X n ) jest zgodnym i nieobciążonym estymatorem wartości oczekiwanej m = EX (21.2) Twierdzenie Jeśli zmienna losowa X ma rozkład normalny N(m,σ) o znanej wartości σ, to średnia z próby X jest najefektywniejszym estymatorem wartości oczekiwanej m = EX (21.3) Uwaga Jeśli chcemy oszacować wartość oczekiwaną m cechy X w pewnej populacji o nieznanym rozkładzie, to na podstawie n-elementowej próbki (x1,…, xn) obliczamy średnią arytmetyczną x = 1n ( x1 + x2 + ... + xn ) i przyjmujemy m≈x Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 7 Estymacja wariancji (21.4) Twierdzenie Jeśli istnieje skończona wariancja σ2 = D2X zmiennej losowej X, to statystyka 2 n 2 1 S = n ∑ i =1 ( X i − X ) gdzie X = 1n ( X 1 + X 2 + ... + X n ) , jest zgodnym i asymptotycznie nieobciążonym estymatorem wariancji σ2 (21.5) Twierdzenie Estymator 2 n 2 2 n 1 ˆ S = n−1 S = n−1 ∑ i=1 ( X i − X ) jest estymatorem zgodnym i nieobciążonym wariancji σ2 Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 7 Estymacja wariancji (21.6) Twierdzenie Jeżeli wartość oczekiwana m = EX zmiennej losowej X jest znana, to statystyka n 2 2 1 S * = n ∑ i =1 ( X i − m ) jest estymatorem zgodnym i nieobciążonym wariancji σ2 (21.7) Twierdzenie Jeśli zmienna losowa X ma rozkład normalny N(m,σ) i m jest znane, to S *2 jest estymatorem najefektywniejszym wariancji σ2 Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 7 Estymacja wskaźnika struktury X ma charakter niemierzalny – podstawowym parametrem populacji jest frakcja p elementów wyróżnionych przez tą cechę w populacji, zwana wskaźnikiem struktury badanej cechy populacji (częstość względna) Jeśli populacja jest n-elementowa, zaś m jej elementów posiada badaną cechę, to m p= n Jeśli w próbce n-elementowej z populacji, m elementów posiada badaną cechę, to m p≈ n Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 7 Estymacja wskaźnika struktury Aby utworzyć model matematyczny rozkładu cechę jakościową zamienia się na ilościową dla dowolnego elementu populacji ω: gdy ω posiada wyróżnioną cechę 1 X (ω) = 0 gdy ω nie posiada wyróżnionej cechy Tak zdefiniowana zmienna losowa ma rozkład 0-1 z parametrem p, tj. P (X = 1) = p, P ( X = 0) = q = 1−p Jeśli (x1,…, xn) jest próbką dla zmiennej losowej X, odpowiadającą próbce elementów (ω 1,…, ω n), w której m elementów ma wyróżnioną cechę, to w ciągu tym jest m jedynek, a zatem x1+…+ xn = m W rezultacie p ≈ 1n ( x1 + ... + x n ) Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 7 Estymacja wskaźnika struktury (21.8) Twierdzenie Średnia arytmetyczna z próby M 1 = ( X 1 + ... + X n ) n n jest zgodnym, nieobciążonym i najefektywniejszym estymatorem parametru p rozkładu 0-1 zmiennej losowej X, tj. P (X = 1) = p, P ( X = 0) = q = 1−p Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 7 Zestawienie estymatorów Tablica 21.1. Podstawowe estymatory Parametr Estymator Własności estymatora Wartość oczekiwana m = EX Wariancja σ2 = D2X X= 1 n ( X 1 + ... + X n ) mediana z próby S *2 = 1 n ∑ i=1 ( X i − m ) 2 S2 = 1 n ∑ (X 2 n Sˆ 2 = Wskaźnik struktury p Współczynnik zmienności n i =1 n n −1 i −X) S2 Klasy rozkładów zgodny, nieobciążony dla N(m,σ) – estymator najefektywniejszy zgodny, asymptotycznie nieobciążony dowolny zgodny, nieobciążony dla N(m,σ) – estymator najefektywniejszy zgodny, asymptotycznie nieobciążony dowolny zgodny, nieobciążony dowolny M 1 = ( X 1 + ... + X n ) zgodny, nieobciążony najefektywniejszy n n S V= zgodny X 0-1 dowolny Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 7 Dziękuję za uwagę Opracowała Joanna Banaś