Teoria estymacji.
Transkrypt
Teoria estymacji.
Metody statystyczne w naukach biologicznych 1 2006-03-12 Wykład: Teoria estymacji. Estymacja to postępowanie statystyczne zmierzające do oszacowania parametrów populacji generalnej (µ,σ) na podstawie statystyk uzyskanych z populacji próbnej. Estymator (Tn)- statystyka z próby służąca do oszacowania parametru (θ). Może nim być średnia arytmetyczna, odchylenie standardowe, mediana, współczynniki zmienności. Estymator, podobnie jak sama zmienna losowa, posiada własny rozkład. Nie zawsze jednak wymienione wcześniej statystyki będą uznawane za najlepsze estymatory. Powinny spełniać one określone własności. Ocenę estymatora można przeprowadzić na podstawie jego błędu (d). Załóżmy, że różnica między wartością estymatora oraz parametru jest równa d, tj,:Tn-θ=d. W związku z powyższym miarą błędu estymatora będzie wartość oczekiwana kwadratu różnicy pomiędzy estymatorem a szacowanym parametrem, czyli ∆=E(Tn-θ)2. W sytuacji, gdy wartość oczekiwana estymatora równa jest wartości parametru populacji generalnej (θ), to ∆ możemy potraktować jako wariancję estymatora, tzn. ∆ =D2(Tn), tym samym D(Tn) należy traktować jako błąd standardowy estymatora. Cechy dobrego estymatora to: Nieobciążoność. Estymator nazywamy nieobciążonym, gdy jego wartość oczekiwana jest równa parametrowi populacji generalnej, czyli E(Tn)= θ. 2. Efektywność. Estymator efektywny, to taki, którego wariancja jest najmniejsza. 3. Zgodność. Estymator nazywamy zgodnym, jeżeli wraz ze wzrostem liczebności próby jego wartość zbliża się do szacowanego parametru. 1. Metody estymacji parametrycznej (szacowane są wartości parametrów rozkładu cechy): Estymacja punktowa – polega na uznaniu estymatora z próby losowej, jako wartości parametru. Powyższemu stwierdzeniu towarzyszy dodatkowo podanie błędu oszacowania. Średni błąd średniej arytmetycznej: Sx = Sx n Jeżeli względny błąd estymatora D(Tn) nie przekracza 7,5%, to można uznać, iż wynik estymacji jest wysoce precyzyjny. Jeśli przyjmuje wartości z przedziału 7,5%-15%, to dopuszczalny, a powyżej- nie jest do przyjęcia. Estymacja przedziałowa – polega na wyznaczeniu przedziału liczbowego, który z określonym prawdopodobieństwem zawiera szacowany parametr. Końce przedziału zależą od wartości estymatora. Przedział ufności - losowy przedział, który z określonym prawdopodobieństwem określa wartość parametru. To inaczej przedział liczbowy, w którym znajduje się prawdziwa, lecz nieznana wartość parametru θ. Przedział (g1,g2) jest przedziałem ufności parametru θ, określonym na poziomie ufności 1-α, jeżeli prawdopodobieństwo, że θ leży w tym przedziale jest równe 1-α. Poziom ufności -1-α jest prawdopodobieństwem, że θ leży w przedziale (g1,g2). Przedział (g1,g2), którym g1 i g2 przyjmują skończone wartości nazywa się dwustronnym przedziałem ufności. Autor: Dariusz Piwczyński Metody statystyczne w naukach biologicznych 2 2006-03-12 Jeżeli α =0,05, to 1-α =0,95 oznacza to, że średnio na każde 100 przedziałów ustalonych na 100 prób losowych, w 95 przypadkach prawdziwa wartość parametru θ znajduje się wewnątrz przedziału, natomiast w 5 przypadkach znajduje się poza przedziałem. Im niższy przyjmiemy poziom ufności, tym mniejsze będzie prawdopodobieństwo błędnego określenia przedziału, jednak jednocześnie wydłużony będzie przedział ufności. Rozkład t-Studenta (pseudonim angielskiego statystyka William Gosset 1876-1937) Stosowany głównie do testowania małych próbek. Rozkład ten zależy od ν (liczba stopni swobody), nie zależy natomiast od odchylenia standardowego. Próba duża n≥100 (Łomnicki); n≥50 [n≥30] (Żuk) Liczba stopni swobody (degrees of freedom) (N-1). Jeżeli znana jest średnia z N pomiarów, to pomiar ostatni zdeterminowany jest przez wartość średniej. Jest to nieco inny sposób opisania wielkości próby. Liczba stopni swobody służy do otrzymania nieobciążonego estymatora. Należy go zatem (wariancję, odchylenie standardowe) podzielić nie przez N, lecz przez N-1. Krzywa gęstości rozkładu t-Studenta zbliżona kształtem do krzywej rozkładu normalnego N(0,1). Jest to krzywa symetryczna (z osią symetrii t=0) i tylko bardziej spłaszczona. Dla dużej liczby stopni swobody (N>120) rozkład t jest praktycznie nierozróżnialny od standaryzowanego rozkładu normalnego. Autor: Dariusz Piwczyński Metody statystyczne w naukach biologicznych 3 2006-03-12 Załóżmy, że jeżeli z populacji o jakimkolwiek rozkładzie ze średnią µ i odchyleniem standardowym σ pobieramy próby o dużej liczebności N, to rozkład średnich z tych prób będzie rozkładem normalnym o średniej µ i odchyleniu σ/√N. Z powyższą sytuacją raczej się zbyt często nie spotykamy, ponieważ nie znamy zwykle odchylenia standardowego populacji, średniej dla całej populacji, próby są małe. Jeżeli z populacji o rozkładzie normalnym pobieramy próby N - elementowe, to dla każdej próby możemy obliczyć statystykę t. x − µ (x − µ) × n t= = Sx S Błąd standardowy (SE; Sx) opisuje on odchylenie średnich z prób N - elementowych od średniej dla całej populacji, a nie odchylenie poszczególnych pomiarów od średniej. Jest to teoretycznie wyliczone odchylenie standardowe średnich z pomiarów dla wielu prób. Sx – statystyka obliczona na podstawie prób. σx – jeśli jest parametrem Obszar krytyczny – zbiór tych wartości funkcji testowej, dla których hipotezę H0 odrzucamy. Wyróżniamy obszary krytyczne jednostronne i dwustronne. Obszar krytyczny złożony z dwu rozłącznych podzbiorów przestrzeni próby, wyznaczany jest najczęściej symetrycznie w rozkładzie statystyki. Test dwustronny używa się z reguły, gdy hipoteza alternatywna jest w postaci nierówności. Wartości krytyczne są to takie wartości tα, że prawdopodobieństwo, iż zmienna losowa t przyjmie wartość większą od tα lub mniejszą od -tα, wynosi α. Wartości krytyczne – punkty oddzielające obszar krytyczny od obszaru (zbioru) tych wartości, dla których nie ma podstaw do odrzucenia hipotezy H0. Prawdopodobieństwo, iż zmienna losowa przyjmie wartość z przedziału (-tα,-tα) jest równe 1-α. Przedział ufności dla średniej arytmetycznej: Stosowany wtedy, gdy mamy do czynienia z rozkładem normalnym, ale nie znamy σ i próbie małej, tj. poniżej 30 elementów. Sx Sx x − (tα ∗ ) < Θ < x + (tα * ) n −1 n −1 t - odczytujemy z tabeli testu t-Studenta dla liczby stopni swobody równej n-1 i odpowiedniego poziomu ufności. Autor: Dariusz Piwczyński Metody statystyczne w naukach biologicznych 4 2006-03-12 Przedział ufności dla średniej arytmetycznej: Stosowany wtedy, gdy mamy do czynienia z rozkładem normalnym, znane σ. x − (uα ∗ σ σ ) < Θ < x + (uα * ) n n uα - dystrybuanta rozkładu normalnego Przedział ufności dla średniej arytmetycznej: Stosowany wtedy, gdy mamy do czynienia z rozkładem normalnym lub innym, σ jest nieznane, próba duża > 30. Sx Sx x − (uα ∗ ) < Θ < x + (uα * ) n n uα - dystrybuanta rozkładu normalnego SAS Title 'Obliczamy przedział ufności 95%'; proc means clm alpha=0.05 data=stat.krowy; var mlkg; run; Analysis Variable : mlkg Dolna 95% Górna 95% Gr. ufn. dla ¶redniej Gr. ufn. dla ¶redniej 4509.8 5267.44 Oszacowany przedział ufności przy poziomie istotności α=0.05, pozwala stwierdzić, iż średnia wydajność mleka (parametr) w populacji generalnej zawiera się w przedziale liczbowym [4509.08;5267.44]. Autor: Dariusz Piwczyński