Dokładne i graniczne rozkłady statystyk z próby

Transkrypt

Dokładne i graniczne rozkłady statystyk z próby
Dokładne i graniczne rozkłady statystyk z
próby
Przypomnijmy
Wielkość
Populacja
Próba
N
n
Średnia
Wariancja
Odchylenie
standardowe
4.2
Rozkład statystyki
• Mówimy, że rozkład statystyki
• (1)
jest dokładny, jeżeli znamy rozkład danej
statystyki dla każdego naturalnego n.
• Jeżeli rozkład statystyki Z, jest dany przy
n--> ∞, to mówimy, ze statystyka
ta ma rozkład graniczny (asymptotyczny).
Idea rozkładu statystycznego
Sto razy rzuciliśmy kostką i otrzymaliśmy wyniki:
5 2 2 6 3 2 ... 5 5 2 4 6.
(rozkład – zapis wartości cechy i odpowiadającej jej częstości)
Wartość (liczba oczek)
1
Liczność (liczba wystąpień) 16
Częstość
0.16
2
19
0.19
3
9
0.09
4
17
0.17
5
25
0.25
6
14
0.14
Częstość: 1 oczko: (liczba wystąpień/n)=
Gdy x1, ..., xn są zaobserwowanymi wartościami cechy ilościowej, przez y1 < y2 < ... < yk
oznaczymy różne, uporządkowane wartości spośród nich. Ponadto, niech ni będzie liczbą
powtórzeń wartości yi w próbie, i=1, ..., k. Wówczas rozkładem cechy w próbie x1, ..., xn
nazywamy ciąg (y1, n1), ..., (yk, nk). Często w definicji rozkładu zamiast wartości ni podaje się
częstość występowania wartości yi, to jest ni/n.
Rozkład normalny
gęstość praw-a
dystrybuanta Φ(x)=
Własności
Jeśli X ~ N(μ, σ) i a i b są liczbami rzeczywistymi, to:
aX + b ~ N(aμ + b, aσ).
Jeśli X1 ~ N(μ1, σ1) i X2 ~ N(μ2, σ2), i X1 i X2 są niezależne,
to X1 + X2 ~ N(μ1 + μ2, (σ12 + σ22)½).
Jeśli X1, ..., Xn są niezależnymi zmiennymi losowymi o
standardowym rozkładzie normalnym,
to X12 + ... + Xn2 ma rozkład chi-kwadrat z n stopniami swobody.
5
Rozkład normalny
• Rozkład normalny jest opisany przez dwa
parametry średnią i odchylenie standardowe.
Zwiększanie odchylenia „spłaszcza” krzywą.
Standaryzacja
Za pomocą poniższej funkcji możemy standaryzować
każdą zmienną o rozkładzie normalnym
0
8.7
Rozkład chi-kwadrat
Niech X1, X2,... , Xk. będzie ciągiem niezależnych
zmiennych losowych o jednakowym rozkładzie
normalnym N(0, 1). Rozważmy statystykę:
Rozkład statystyki χ2 nazywamy rozkładem chikwadrat, a liczbę niezależnych składników (k)
wchodzących w skład χ2 określamy terminem liczba
stopni swobody
Funkcja gęstości rozkładu chi-kwadrat
• Funkcja gęstości zmiennej losowej χ2
przyjmuje postać:
•
k
gdzie Г  
2
oznacza funkcję gamma:
Gęstość zmiennej χ2 dla kilku wartości k
Rozkład chi-kwadrat
• Wartość oczekiwana zmiennej o rozkładzie χ2
• Wariancja zmiennej o rozkładzie χ2
Twierdzenie 1.
Jeżeli liczba stopni swobody zmiennej losowej o
rozkładzie chi-kwadrat dąży do nieskończoności,
to ciąg dystrybuant tych zmiennych losowych
jest podobny dla dużych k do dystrybuanty
rozkładu normalnego:
Innymi słowy:
χ −k
2
2k
→ N (0,1)
Twierdzenie 2.
• Jeżeli zmienna losowa U2 ma rozkład χ2 o k
stopniach swobody, to przy k ∞ ciąg
dystrybuant zmiennej
• jest szybko zbieżny (podobny dla dużych k) do
dystrybuanty rozkładu normalnego
Twierdzenie 3.
Jeżeli zmienna losowa
U12 ma rozkład χ2 o k1 stopniach swobody i
zmienna
U22 ma rozkład χ2 o k2 stopniach swobody,
to zmienna:
U2 =U12 +U22
ma rozkład χ2 o (k1 + k2 )stopniach swobody.
Łapiemy oddech 
Przez długi czas pojawiały się problemy przy szacowaniu i
weryfikacji parametrów w przypadku małych prób (n<30), a
jedyną zalecaną metodą było zwiększenie liczebności próby...
Propozycje rozwiązania tego problemu przedstawił W.
Gosset w 1908 roku, pisząc pod pseudonimem Student.
Pracując dla Guinnessa chciał on przewidywać jakość całej
linii produkcyjnej piwa na podstawie próby dla wybranych kilku
beczek.
Podał funkcję zależną od wyników pomiarów Xi i niezależną od
odchylenia standardowego z populacji.
W 1916 r. R.A. Fisher znalazł funkcję gęstości
oraz dystrybuantę dla omawianego rozkładu i
nazwał go rozkładem Studenta.
Dystrybuanta
Gęstość prawdobodobieństwa
Statystyka t-Studenta
• Niech Z będzie zmienną losową o rozkładzie
normalnym N(0,1),
U2 zmienną losową o rozkładzie χ2 (k), przy
czym zmienne Z i U2 są niezależne.
Wówczas zmienną losową:
nazywamy statystyką t-Studenta
Rozkład t-Studenta
• Zmienna losowa t ma rozkład Studenta, jeżeli
jej funkcja gęstości określona jest wzorem:
• dla
Statystyka t-Studenta
• Wartość oczekiwana zmiennej t
• Wariancja zmiennej t
Twierdzenie 4.
• Jeżeli k ∞, to ciąg dystrybuant zmiennej
losowej o rozkładzie Studenta jest zbieżny do
dystrybuanty rozkładu normalnego N(0, 1).
Statystyka F -Snedecora
• Niech U12 i U22 będą niezależnymi zmiennymi
losowymi o rozkładzie χ2 odpowiednio o k1 i k2
stopniach swobody.
Zmienną losową
nazywamy statystyką F -Snedecora.
Rozkład F-Snedecora
• Funkcja gęstości zmiennej losowej F przyjmuje
następującą postać:
• która wyznacza rozkład F-Snedecora
Statystyka F -Snedecora
• Wartość oczekiwana zmiennej t
• Wariancja zmiennej t
WYBRANE TWIERDZENIA DOTYCZĄCE
ROZKŁADÓW DOKŁADNYCH I
ASYMPTOTYCZNYCH PODSTAWOWYCH
STATYSTYK Z PRÓBY
Twierdzenie 5.
• Jeżeli X1, X2,... , Xn jest ciągiem niezależnych
zmiennych losowych, z których każda ma ten
sam rozkład N(μ, σ), to zmienna losowa
• ma również rozkład normalny:
Twierdzenie 6.
• Jeżeli X1, X2,... , Xn1 jest ciągiem niezależnych zmiennych
losowych, z których każda ma rozkład N(μ1, σ1), oraz
• Jeżeli Y1, Y2,... , Yn2 jest ciągiem niezależnych zmiennych
losowych, z których każda ma rozkład N(μ2, σ2),
• przy czym zmienne (X1, X2,... , Xn1) i (Y1, Y2,... , Yn2) są od
siebie niezależne, to zmienna losowa:
• gdzie
• ma również rozkład normalny:
Twierdzenie 7.
Jeżeli X1, X2,... , Xn jest ciągiem niezależnych
zmiennych losowych, z których każda ma ten
sam rozkład N(μ, σ), to
• 1)
i
są niezależne
• 2) statystyka
, gdzie
ma rozkład χ2 o n stopniach swobody,
• 3) statystyka
ma rozkład χ2 o n-1
stopniach swobody
Twierdzenie 8.
Jeżeli:
1)
oznaczają odpowiednio średnią arytmetyczną i
wariancję z próby złożonej z n1 niezależnych obserwacji
wylosowanych z populacji normalnej
2)
oznaczają odpowiednio średnią arytmetyczną i
wariancję z próby liczącej n2, niezależnych obserwacji
wylosowanych z populacji normalnej
obie
próby są od siebie stochastycznie niezależne, to zmienna:
ma rozkład Studenta o (n1 +n2- 2) stopniach swobody
• Zdefiniujmy nową zmienną losową
następująco:
Twierdzenie 9.
• Jeżeli:
1)
są wariancjami z dwóch niezależnych
prób pobranych z populacji normalnych o
tych samych odchyleniach standardowych σ;
2) n1 i n2 oznaczają odpowiednio liczbę
elementów pierwszej i drugiej próby, to
zmienna losowa
3) ma rozkład F -Snedecora o (n1 -1, n2- 1)
stopniach swobody
Twierdzenie 10.
CENTRALNE TWERDZENIE GRANICZNE
• Jeżeli próba losowa (prosta) składa się z n
niezależnych obserwacji na zmiennej losowej
X o dowolnym rozkładzie mającym skończoną
wartość oczekiwaną μ i odchylenie
standardowe σ, to średnia arytmetyczna z
próby ma przy n--> ∞ rozkład asymptotycznie
normalny
Twierdzenie 11.
• Jeżeli X1, X2,... , Xn nie jest ciągiem zmiennych
losowych o rozkładzie normalnym, lecz co
najwyżej zbliżonym do normalnego, to
Twierdzenie 12.
Jeżeli:
• 1) m oznacza liczbę elementów z cechą
wyróżnioną A, zaobserwowanych w nelementowej próbie losowej prostej;
• 2) prawdopodobieństwo wylosowania z
populacji elementu z cechą wyróżnioną A jest
równe p, (gdzie 0<p<1),
cd.
To przy n--> ∞ wskaźnik struktury m/n
elementów z cechą A w próbie ma w
przybliżeniu rozkład normalny
Przykłady
• W populacji Bajdocji odbędzie się druga tura
wyborów prezydenckich.
• Kandydat Roland Gusk ma poparcie p*100%
obywateli
• Jego kontrkandydat Jaromi Gąska cieszy się
uznaniem (1-p)*100% obywateli
• Wartość p przed wyborami jest nieznana!
• Roland wynajął statystyka aby oszacował
wartość p
Pytanie 1
• Jaką dużą próbę n wybrać aby (wskaźnik
struktury m/n) odsetek popierających Rolanda
respondentów (w próbie prostej) dobrze
odzwierciedlał prawdziwą wartość p?
• Przyjmijmy, że σ(m/n) ≤0,01 (średnio mylimy się o co
najwyżej 1 pkt. %)
• W takim razie
=
σ
• Czyli n ≥ 10000*p(1-p)
p(1 − p )
≤ 0,01
n
• Ale 0 < p (1 − p ) < 1
4
• Jeśli nie wiesz dlaczego, zapraszam ponownie
na zajęcia z matematyki 
• Zatem wystarczy wziąć
10000
n≥
=
2500
4
Pytanie 2
• Rolanda stać tylko na badanie na grupie 1000
respondentów
• Jakie jest prawdopodobieństwo, że statystyka
(m/n) da wynik z błędem większym niż 0,03?

 m −p
n
P m −=
p ≥ 0,03 P 
≥
n
 p(1 − p )

Średnia Śr ma rozkład N(0,1)
n

m/n ma rozkł. dany w twierdz.
(



PŚr



)

0,03 
≤
p (1 − p ) 

n


m −p

n
2 * (1,897) ≈ 0,058
=
≥ 1,897  =Φ
p(1 − p )


n
 Z tablic N(0,1)
Przykład
• Przyjmuje sie, e w zbiorowosci generalnej wage dyn mona
opisac rozkładem normalnym o parametrach 8kg i 2kg.
Skup zakupi partie dyn dostarczona przez pewnego rolnika,
jesli dla losowo wybranych 16 dyn z tej partii, srednia ich
waga bedzie sie rónic nie wiecej ni o 0,15 kg od sredniej
wagi dla rozkładu. Jakie jest prawdopodobienstwo
odrzucenia dostarczonej partii dyn przez rolnika?
• N(8,2), n=16
• Statystyki z proby:
• (1) (7,85-8)/2 * pierwiastek (16) (2) (8,15-8)/2 * pierwiastek
(16)
• Prawdopowobienstwo: 0,235822
Przykład
• W pewnej fabryce sprawdzano skuteczność klejenia plastiku klejem
Ala i Ola poprzez określenie czasu potrzebnego do rozerwania
sklejonych produktów poprzez ich rozciągania i liczne doświadczenia
pozwoliły ustalić, że rozkład wytrzymałości (w godz.) sklejonych
produktów klejem Ala i Ola jest zbliżony odpowiednio do rozkładu
normalnego N(2,9; 0,48) godz. oraz N(3,0; 0,5) godz.
• Jakie jest prawdopodobieństwo, że w grupie 144 elementów
sklejonych klejem Ala średni czas potrzebny do ich rozerwania
będzie o co najmniej kwadrans wyższy jak w grupie 121 produktów
sklejonych klejem Ola.
• (1) N(2,9 ; 0,48), n=144
• (2) N(3,0 ; 0,50), n=121
• Y=X1 – X2, P(Y>=0,25)
• Statystyka z próby:
• (0,25 – (2,9 – 3,0)) / pierwiastek ( (0,48^2 / 144) + (0,5^2 / 121) )

Podobne dokumenty