Pobieranie próby. Rozkład χ2 Graficzne przedstawianie próby
Transkrypt
Pobieranie próby. Rozkład χ2 Graficzne przedstawianie próby
Pobieranie próby. Rozkład χ2 Graficzne przedstawianie próby Histogram Estymatory – przykład ■ Próby z rozkładów cząstkowych ■ Próby ze skończonej populacji ■ Próby z rozkładu normalnego ■ Rozkład χ2 Postać i własności Znaczenie i zastosowania Związek z estymatorem wariancji ■ Pobieranie próby z odliczaniem. Próbki ■ KADD – Pobieranie próby. Rozkład chi2 1 Graficzne przedstawianie próby Rozważamy próbę: x1, x2, ..., xn, która zależy od jednej zmiennej x. Możemy ją przedstawić jako wykres 1D – punkty na osi x – będzie to wtedy jednowymiarowy wykres punktowy. ■ Zwykle stosujemy wykres 2D – tzw. histogram: Dzielimy przedział zmienności x (lub jego część) na r przedziałów o jednakowej szerokości Δx: ■ 1, 2, ,r Środki przedziałów znajdują się w punktach: x 1, x 2, , x r Na osi y odkładamy liczbę elementów próby przypadającą na dany przedział: n1, n2, , nr Otrzymujemy wykres częstości KADD – Pobieranie próby. Rozkład chi2 2 Histogram – rysunek błędy = n k wykres schodkowy KADD – Pobieranie próby. Rozkład chi2 3 Histogram – szerokość przedziału xmin = -2.0 Δx = 0.1 r = 100 xmin = -2.0 Δx = 0.2 r = 50 xmin = -2.0 Δx = 0.4 r = 25 Im więcej przedziałów tym informacja o próbie dokładniejsza ■ Większa ilość przedziałów powoduje jednak większe wahania statystyczne od punktu do punktu ■ Pole pod krzywą schodkową jest proporcjonalne do wielkości próby (przeskalowująć przez 1/n otrzymujemy częstość). 4 ■ KADD – Pobieranie próby. Rozkład chi2 Estymatory – przykład Badamy “nieznany” rozkład prawdopodobieństwa poprzez estymatory ■ Symulujemy taką sytuację poprzez generację 1000 prób z rozkładu Gaussa o wartości średniej 0 i wariancji 1. Każda próba ma liczność r. ■ Badamy zachowanie estymatorów charakterystyk rozkładu i estymatorów ich błedów w funkcji liczności r. ■ 1 1 2 X = S X =S X = SX X = X 1 X 2 X n n n S 1 2 2 S = S = S = X − X ∑ i n−1 2n−1 1 2 2 2 2 2 2 S2 = X − X X − X X − X { 1 } S =S 2 n n−1 n−1 KADD – Pobieranie próby. Rozkład chi2 5 Estymatory – histogramy r = 20 r = 50 r = 100 r = 200 KADD – Pobieranie próby. Rozkład chi2 6 Próby z rozkładów cząstkowych ■ Dzielimy populację G na podpopulacje Gi, które są opisane gęstościami prawdopodobieństwa fi(x). x F i x=∫−∞ f i x dx=P X x∣x∈G i ■ Dla całej populacji mamy: t t F x=P X x∣x∈G =∑i=1 P X x∣X ∈G i P X ∈G i =∑i=1 P X ∈G i F i x ■ a dla gęstości prawdopodobieństwa: t f x=∑i=1 P X ∈G i f i x ■ W skrócie oznaczamy P(xGi)=pi. Obliczamy wartość średnią: ∞ t ∞ t x =E { X }=∫−∞ xf x dx=∑i=1 pi ∫−∞ xf i x dx=∑i=1 pi x i czyli wartość średnia z populacji to średnia ważona wartości średnich podpopulacji pomnożonych przez ich prawdopodobieństwa KADD – Pobieranie próby. Rozkład chi2 7 Wariancja rozkładów cząstkowych ■ Wariancja dla próby z rozkładów cząstkowych t 2 X =E { x− x 2 }=∑i=1 p i E {[ x− x i x i − x ]2 } =∑i=1 p i { x i − x t 2 i 2 } jest średnią ważoną wariancji z podpopulacji i wariancji wartości średniej podpopulacji względem wartości średniej z całej populacji. ■ Z każdej populacji wybieramy próbkę o liczności ni, w sumie n elementów. Średnia wynosi wtedy: t n t 1 1 p= ∑ ∑ X ij = ∑ ni X i X n i=1 j=1 n i=1 i ■ Wartość oczekiwana i wariancja to: t 1 p }= ∑ ni x i E {X n i=1 t t t ni 2 1 1 1 2 2 2 2 2 X p = 2 ∑i=1 ni E { X i − x i }= 2 ∑i=1 ni X i = ∑i=1 i n n n n KADD – Pobieranie próby. Rozkład chi2 8 Estymatory dla rozkładów cząstkowych ■ Estymatory dla prób z rozkładów cząstkowych nie mogą zależeć od dowolnego podziału cząstek n. Warunek ten jest spełniony tylko dla pi = ni/n: t i X =∑i=1 pi X t t 2 X =∑i=1 pi2 2 X i =∑i=1 ■ 2 pi 2 i ni Można zadać pytanie, jaka jest optymalna wielkość próbek ni, która pozwala na minimalizację wariancji. Rozwiązaniem jest: ni =n pi i / ∑ pi i czyli liczność próbki z podpopulacji i musi być proporcjonalna do jej prawdopodobieństwa mnożonego przez jej odchylenie standardowe KADD – Pobieranie próby. Rozkład chi2 9 Próba ze skończonej populacji Mamy populację o N elementach y1, y2, ..., yn. Pobieramy z niej próbę n elementów X1, X2, ..., Xn. ■ Prawdopodobieństwo pobrania każdego elementu y jest jednakowe,N stąd 2 N N ■ ■ 1 E { y }= y = y = N 1 y= N −1 ∑ j=1 y j 2 {∑ j=1 1 y − N 2 j Szczególnie ważna jest suma kwadratów: ∑ j=1 yj } N 2 y − y ∑ j=1 j ■ Wartości yi nie są ograniczone, ale mamy warunek: N ∑ j=1 y j − y =0 ■ Mówimy, że liczba stopni swobody wynosi tu N-1. Suma kwadratów przez liczbę stopni swobody to odchylenie średnie kwadratowe. Często używamy pierwiastka z odchylenia kwadratowego (RMS). 10 KADD – Pobieranie próby. Rozkład chi2 Pobieranie próby z rozkładu normalnego ■ Badamy populację opisaną rozkładem Gaussa o wartości średniej a i wariancji σ2. Z tej populacji wybieramy próbę o liczności n. Napiszmy funkcję charakterystyczną wartości średniej: n { } 2 t t 2 2 X t =exp itaexp − t / 2 ⇒ X t = exp i aexp − n 2 n ■ Rozpatrując zmienną −a= X − x X 2 t 2 X −a t =exp − 2n mamy: 2 ponownie otrzymujemy funkcję charakterystyczną rozkładu normalnego, ale ze zmienioną wariancją: = 2 X / n 2 X KADD – Pobieranie próby. Rozkład chi2 11 Rozkład χ2 Rozpatrujemy rozkład normalny (a=0, σ=1): X t =exp −t 2 / 2 n ■ Pobieramy z niego próbę n elementów i tworzymy z nich sumę kwadratów: ■ X 2 = X 12 X 22 X 2n ■ Można udowodnić, że wielkość X2 ma dystrybuantę: 1 2 −1 −1/ 2 u F = u e du ∫ 0 2 2 ■ gdzie λ=1/2 n, a n to liczba stopni swobody. Wprowadzamy oznaczenie: 1 k= 2 i otrzymujemy gęstość prawdopodobieństwa 2 2 −1 −1/ 2 2 f =k⋅ e KADD – Pobieranie próby. Rozkład chi2 12 Rozkład χ2 – parametry ■ Funkcja charakterystyczna rozkładu χ2 to: t =1−2 it − 2 ■ Korzystając z własności f. charakterystycznej otrzymujemy natychmiast, że suma dwóch różnych rozkładów χ2 o n1 i n2 stopniach swobody daje rozkład χ2 o n=n1+n2 stopniach swobody. Różniczkując f. charakterystyczną mamy: E { X 2 }=−i ' 0=2 ≡n 2 E { X 2 2 }=−i ' ' 0=4 2 4 2 ■ 2 X =E { X }− E { X } =4 ≡2 n 2 2 2 2 2 czyli wartość średnia rozkładu χ2 wynosi n, a wariancja – 2n. KADD – Pobieranie próby. Rozkład chi2 13 Rozkład χ2 – wykres ■ Wykresy rozkładu χ2 oraz jego dystrybuanty dla n od 1 do 20. KADD – Pobieranie próby. Rozkład chi2 14 Rozkład χ2 – zastosowanie ■ Rozkład χ2 stosuje się jako miarę ufności uzyskanego wyniku. Im mniejsza wartość χ2 tym pozornie słuszniejszy wynik. Jako miary zaufania do wyniku używa się wielkości: W 2 =1 −F 2 nazywanej poziomem ufności. ■ W rzeczywistych przypadkach mamy do czynienia z pełnym rozkładem Gaussa o dowolnym a i σ. Wprowadzamy wtedy odpowiednie przeskalowanie X2= X 1 −a2 X 2−a2 X n−a2 2 a w ogólnym przypadku gdy zmienne są zależne: T X = X −a B X −a 2 KADD – Pobieranie próby. Rozkład chi2 15 Rozkład χ2 a estymator wariancji ■ Nieobciążony i zgodny estymator wariancji z populacji to: S2 = ■ 1 2 X 2 − X 2 X n− X 2 } X 1−X { n−1 Można udowodnić, że zmienna losowa: n−1 2 S 2 ma rozkład χ2 z f=n-1 stopniami swobody. Wynika to stąd, że wyrażenia X i − X 2 nie są liniowo niezależne, gdyż zawierają czynnik X , który zależy od wszystkich wartości X i . Każde dodatkowe równanie pomiędzy wyrażeniami X i− X 2 redukuje liczbę stopni swobody o 1. KADD – Pobieranie próby. Rozkład chi2 16 Próba z odliczaniem. Próbki ■ Często doświadczenie polega na dokonaniu wielu, n obserwacji, z których tylko k ma interesujące właściwości. Resztę, n-k zdarzeń odrzucamy. Wybieramy więc k z n elementów. Stosuje się tu r. dwumianowy z parametrami p i q. Poszukujemy parametru p. Jego estymatorem jest k S p= n a jego wariancja wynosi: p1− p S p= n 2 ■ Łącząc wzory otrzymujemy estymator wariancji 1k k S S p= 1− nn n 2 KADD – Pobieranie próby. Rozkład chi2 17 Błąd statystyczny ■ Błąd Δk możemy zdefiniować jako: k = S 2 S np wtedy otrzymamy: k = k 1− ■ k n Zależy on jedynie od liczby wybranych elementów i liczności próby. Nazywamy go błędem statystycznym. Szczególnie ważny jest przypadek, gdy k«n. Następuje wtedy przejście w granicy do rozkładu Poissona, parameter λ=np i mamy: S =S np=k = k czyli w przybliżeniu błąd statystyczny liczby zliczeń k jest równy √k KADD – Pobieranie próby. Rozkład chi2 18 Błąd statystyczny – interpretacja ■ Rozważmy błąd statystyczny bardziej szczegółowo. Dla dużych k można rozkład Poissona przybliżyć przez rozkład Gaussa o a=λ i σ2=λ czyli k. Można wtedy zdefiniować pojęcie granic przedziału ufności przy zadanym poziomie ufności β=1-α: P − ≤≤ =1 − ⇒ P xk∣= =1 −/ 2 ∧P xk∣=− =1 −/ 2 ■ Rozwiązując odpowiednie równania mamy: k −− 1 −/ 2 =0 ■ k − / 2 =0 W dalszych rozważaniach stosujemy kilka funkcji: Ω - funkcję odwrotną do dystrybuanty rozkładu normalnego Ψ0, oraz funkcję Ω' - odwrotną do funkcji P'(x)=P(|X|<x) KADD – Pobieranie próby. Rozkład chi2 19 Błąd statystyczny – wynik ■ Rozwiązując poprzednie równania otrzymujemy ostateczny wynik: − =k − ' 1−a ■ =k ' 1−a Zgodnie z wcześniejszymi założeniami σ2=λ czyli najlepszy estymator σ2 to k. Tak więc możemy przepisać wzory: − =k − k ' 1− =k k ' 1− ■ Korzystając z poznanych wcześniej wartości funkcji Ω' zauważamy, że Ω'(α)=1, gdy 1-α=68,3%. Tak więc rzeczywiście widzimy, że prawdziwa wartość k znajduje się w przedziale (k-√k, k+√k) z prawdopodobieństwem odpowiadającym przedziałowi (a-σ, a+σ) rozkładu Gaussa 0 KADD – Pobieranie próby. Rozkład chi2 2 Górna granica ufności ■ Rozważmy przypadek, gdy nie jest spełniony warunek o dużym k. Wtedy nie można przybliżyć r. Poissona przez r. Gaussan i badamy rozkład: − f n ;= e n! ■ Dla przedziału ufności β=1-α otrzymujemy: 1 −/ 2 =F k ;− / 2 =F k 1 ; gdzie F jest dystrybuantą r. Poissona. Ten układ równań rozwiązujemy numerycznie. ■ Dla bardzo małych próbek szukamy górnej granicy ufności λ(up). Dostajemy ją rozwiązując równanie: k P nk∣=up ==1− ■ lub =∑n=0 f n ;up =F k 1 ;up W skrajnym przypadku dla k=0, α=F(1;λ(up)) KADD – Pobieranie próby. Rozkład chi2 21