Dokładne i graniczne rozkłady statystyk z próby
Transkrypt
Dokładne i graniczne rozkłady statystyk z próby
Dokładne i graniczne rozkłady statystyk z próby Przypomnijmy Wielkość Populacja Próba N n Średnia Wariancja Odchylenie standardowe 4.2 Rozkład statystyki • Mówimy, że rozkład statystyki • (1) jest dokładny, jeżeli znamy rozkład danej statystyki dla każdego naturalnego n. • Jeżeli rozkład statystyki Z, jest dany przy n--> ∞, to mówimy, ze statystyka ta ma rozkład graniczny (asymptotyczny). Idea rozkładu statystycznego Sto razy rzuciliśmy kostką i otrzymaliśmy wyniki: 5 2 2 6 3 2 ... 5 5 2 4 6. (rozkład – zapis wartości cechy i odpowiadającej jej częstości) Wartość (liczba oczek) 1 Liczność (liczba wystąpień) 16 Częstość 0.16 2 19 0.19 3 9 0.09 4 17 0.17 5 25 0.25 6 14 0.14 Częstość: 1 oczko: (liczba wystąpień/n)= Gdy x1, ..., xn są zaobserwowanymi wartościami cechy ilościowej, przez y1 < y2 < ... < yk oznaczymy różne, uporządkowane wartości spośród nich. Ponadto, niech ni będzie liczbą powtórzeń wartości yi w próbie, i=1, ..., k. Wówczas rozkładem cechy w próbie x1, ..., xn nazywamy ciąg (y1, n1), ..., (yk, nk). Często w definicji rozkładu zamiast wartości ni podaje się częstość występowania wartości yi, to jest ni/n. Rozkład normalny gęstość praw-a dystrybuanta Φ(x)= Własności Jeśli X ~ N(μ, σ) i a i b są liczbami rzeczywistymi, to: aX + b ~ N(aμ + b, aσ). Jeśli X1 ~ N(μ1, σ1) i X2 ~ N(μ2, σ2), i X1 i X2 są niezależne, to X1 + X2 ~ N(μ1 + μ2, (σ12 + σ22)½). Jeśli X1, ..., Xn są niezależnymi zmiennymi losowymi o standardowym rozkładzie normalnym, to X12 + ... + Xn2 ma rozkład chi-kwadrat z n stopniami swobody. 5 Rozkład normalny • Rozkład normalny jest opisany przez dwa parametry średnią i odchylenie standardowe. Zwiększanie odchylenia „spłaszcza” krzywą. Standaryzacja Za pomocą poniższej funkcji możemy standaryzować każdą zmienną o rozkładzie normalnym 0 8.7 Rozkład chi-kwadrat Niech X1, X2,... , Xk. będzie ciągiem niezależnych zmiennych losowych o jednakowym rozkładzie normalnym N(0, 1). Rozważmy statystykę: Rozkład statystyki χ2 nazywamy rozkładem chikwadrat, a liczbę niezależnych składników (k) wchodzących w skład χ2 określamy terminem liczba stopni swobody Funkcja gęstości rozkładu chi-kwadrat • Funkcja gęstości zmiennej losowej χ2 przyjmuje postać: • k gdzie Г 2 oznacza funkcję gamma: Gęstość zmiennej χ2 dla kilku wartości k Rozkład chi-kwadrat • Wartość oczekiwana zmiennej o rozkładzie χ2 • Wariancja zmiennej o rozkładzie χ2 Twierdzenie 1. Jeżeli liczba stopni swobody zmiennej losowej o rozkładzie chi-kwadrat dąży do nieskończoności, to ciąg dystrybuant tych zmiennych losowych jest podobny dla dużych k do dystrybuanty rozkładu normalnego: Innymi słowy: χ −k 2 2k → N (0,1) Twierdzenie 2. • Jeżeli zmienna losowa U2 ma rozkład χ2 o k stopniach swobody, to przy k ∞ ciąg dystrybuant zmiennej • jest szybko zbieżny (podobny dla dużych k) do dystrybuanty rozkładu normalnego Twierdzenie 3. Jeżeli zmienna losowa U12 ma rozkład χ2 o k1 stopniach swobody i zmienna U22 ma rozkład χ2 o k2 stopniach swobody, to zmienna: U2 =U12 +U22 ma rozkład χ2 o (k1 + k2 )stopniach swobody. Łapiemy oddech Przez długi czas pojawiały się problemy przy szacowaniu i weryfikacji parametrów w przypadku małych prób (n<30), a jedyną zalecaną metodą było zwiększenie liczebności próby... Propozycje rozwiązania tego problemu przedstawił W. Gosset w 1908 roku, pisząc pod pseudonimem Student. Pracując dla Guinnessa chciał on przewidywać jakość całej linii produkcyjnej piwa na podstawie próby dla wybranych kilku beczek. Podał funkcję zależną od wyników pomiarów Xi i niezależną od odchylenia standardowego z populacji. W 1916 r. R.A. Fisher znalazł funkcję gęstości oraz dystrybuantę dla omawianego rozkładu i nazwał go rozkładem Studenta. Dystrybuanta Gęstość prawdobodobieństwa Statystyka t-Studenta • Niech Z będzie zmienną losową o rozkładzie normalnym N(0,1), U2 zmienną losową o rozkładzie χ2 (k), przy czym zmienne Z i U2 są niezależne. Wówczas zmienną losową: nazywamy statystyką t-Studenta Rozkład t-Studenta • Zmienna losowa t ma rozkład Studenta, jeżeli jej funkcja gęstości określona jest wzorem: • dla Statystyka t-Studenta • Wartość oczekiwana zmiennej t • Wariancja zmiennej t Twierdzenie 4. • Jeżeli k ∞, to ciąg dystrybuant zmiennej losowej o rozkładzie Studenta jest zbieżny do dystrybuanty rozkładu normalnego N(0, 1). Statystyka F -Snedecora • Niech U12 i U22 będą niezależnymi zmiennymi losowymi o rozkładzie χ2 odpowiednio o k1 i k2 stopniach swobody. Zmienną losową nazywamy statystyką F -Snedecora. Rozkład F-Snedecora • Funkcja gęstości zmiennej losowej F przyjmuje następującą postać: • która wyznacza rozkład F-Snedecora Statystyka F -Snedecora • Wartość oczekiwana zmiennej t • Wariancja zmiennej t WYBRANE TWIERDZENIA DOTYCZĄCE ROZKŁADÓW DOKŁADNYCH I ASYMPTOTYCZNYCH PODSTAWOWYCH STATYSTYK Z PRÓBY Twierdzenie 5. • Jeżeli X1, X2,... , Xn jest ciągiem niezależnych zmiennych losowych, z których każda ma ten sam rozkład N(μ, σ), to zmienna losowa • ma również rozkład normalny: Twierdzenie 6. • Jeżeli X1, X2,... , Xn1 jest ciągiem niezależnych zmiennych losowych, z których każda ma rozkład N(μ1, σ1), oraz • Jeżeli Y1, Y2,... , Yn2 jest ciągiem niezależnych zmiennych losowych, z których każda ma rozkład N(μ2, σ2), • przy czym zmienne (X1, X2,... , Xn1) i (Y1, Y2,... , Yn2) są od siebie niezależne, to zmienna losowa: • gdzie • ma również rozkład normalny: Twierdzenie 7. Jeżeli X1, X2,... , Xn jest ciągiem niezależnych zmiennych losowych, z których każda ma ten sam rozkład N(μ, σ), to • 1) i są niezależne • 2) statystyka , gdzie ma rozkład χ2 o n stopniach swobody, • 3) statystyka ma rozkład χ2 o n-1 stopniach swobody Twierdzenie 8. Jeżeli: 1) oznaczają odpowiednio średnią arytmetyczną i wariancję z próby złożonej z n1 niezależnych obserwacji wylosowanych z populacji normalnej 2) oznaczają odpowiednio średnią arytmetyczną i wariancję z próby liczącej n2, niezależnych obserwacji wylosowanych z populacji normalnej obie próby są od siebie stochastycznie niezależne, to zmienna: ma rozkład Studenta o (n1 +n2- 2) stopniach swobody • Zdefiniujmy nową zmienną losową następująco: Twierdzenie 9. • Jeżeli: 1) są wariancjami z dwóch niezależnych prób pobranych z populacji normalnych o tych samych odchyleniach standardowych σ; 2) n1 i n2 oznaczają odpowiednio liczbę elementów pierwszej i drugiej próby, to zmienna losowa 3) ma rozkład F -Snedecora o (n1 -1, n2- 1) stopniach swobody Twierdzenie 10. CENTRALNE TWERDZENIE GRANICZNE • Jeżeli próba losowa (prosta) składa się z n niezależnych obserwacji na zmiennej losowej X o dowolnym rozkładzie mającym skończoną wartość oczekiwaną μ i odchylenie standardowe σ, to średnia arytmetyczna z próby ma przy n--> ∞ rozkład asymptotycznie normalny Twierdzenie 11. • Jeżeli X1, X2,... , Xn nie jest ciągiem zmiennych losowych o rozkładzie normalnym, lecz co najwyżej zbliżonym do normalnego, to Twierdzenie 12. Jeżeli: • 1) m oznacza liczbę elementów z cechą wyróżnioną A, zaobserwowanych w nelementowej próbie losowej prostej; • 2) prawdopodobieństwo wylosowania z populacji elementu z cechą wyróżnioną A jest równe p, (gdzie 0<p<1), cd. To przy n--> ∞ wskaźnik struktury m/n elementów z cechą A w próbie ma w przybliżeniu rozkład normalny Przykłady • W populacji Bajdocji odbędzie się druga tura wyborów prezydenckich. • Kandydat Roland Gusk ma poparcie p*100% obywateli • Jego kontrkandydat Jaromi Gąska cieszy się uznaniem (1-p)*100% obywateli • Wartość p przed wyborami jest nieznana! • Roland wynajął statystyka aby oszacował wartość p Pytanie 1 • Jaką dużą próbę n wybrać aby (wskaźnik struktury m/n) odsetek popierających Rolanda respondentów (w próbie prostej) dobrze odzwierciedlał prawdziwą wartość p? • Przyjmijmy, że σ(m/n) ≤0,01 (średnio mylimy się o co najwyżej 1 pkt. %) • W takim razie = σ • Czyli n ≥ 10000*p(1-p) p(1 − p ) ≤ 0,01 n • Ale 0 < p (1 − p ) < 1 4 • Jeśli nie wiesz dlaczego, zapraszam ponownie na zajęcia z matematyki • Zatem wystarczy wziąć 10000 n≥ = 2500 4 Pytanie 2 • Rolanda stać tylko na badanie na grupie 1000 respondentów • Jakie jest prawdopodobieństwo, że statystyka (m/n) da wynik z błędem większym niż 0,03? m −p n P m −= p ≥ 0,03 P ≥ n p(1 − p ) Średnia Śr ma rozkład N(0,1) n m/n ma rozkł. dany w twierdz. ( PŚr ) 0,03 ≤ p (1 − p ) n m −p n 2 * (1,897) ≈ 0,058 = ≥ 1,897 =Φ p(1 − p ) n Z tablic N(0,1) Przykład • Przyjmuje sie, e w zbiorowosci generalnej wage dyn mona opisac rozkładem normalnym o parametrach 8kg i 2kg. Skup zakupi partie dyn dostarczona przez pewnego rolnika, jesli dla losowo wybranych 16 dyn z tej partii, srednia ich waga bedzie sie rónic nie wiecej ni o 0,15 kg od sredniej wagi dla rozkładu. Jakie jest prawdopodobienstwo odrzucenia dostarczonej partii dyn przez rolnika? • N(8,2), n=16 • Statystyki z proby: • (1) (7,85-8)/2 * pierwiastek (16) (2) (8,15-8)/2 * pierwiastek (16) • Prawdopowobienstwo: 0,235822 Przykład • W pewnej fabryce sprawdzano skuteczność klejenia plastiku klejem Ala i Ola poprzez określenie czasu potrzebnego do rozerwania sklejonych produktów poprzez ich rozciągania i liczne doświadczenia pozwoliły ustalić, że rozkład wytrzymałości (w godz.) sklejonych produktów klejem Ala i Ola jest zbliżony odpowiednio do rozkładu normalnego N(2,9; 0,48) godz. oraz N(3,0; 0,5) godz. • Jakie jest prawdopodobieństwo, że w grupie 144 elementów sklejonych klejem Ala średni czas potrzebny do ich rozerwania będzie o co najmniej kwadrans wyższy jak w grupie 121 produktów sklejonych klejem Ola. • (1) N(2,9 ; 0,48), n=144 • (2) N(3,0 ; 0,50), n=121 • Y=X1 – X2, P(Y>=0,25) • Statystyka z próby: • (0,25 – (2,9 – 3,0)) / pierwiastek ( (0,48^2 / 144) + (0,5^2 / 121) )