teoria

Transkrypt

teoria
Empiryczne rozkªady prawdopodobie«stwa
Rozkªad empiryczny to uzyskany na podstawie badania statystycznego opis warto±ci przyjmowanych przez cech¦ statystyczn¡ przy pomocy cz¦sto±ci ich wyst¦powania. Rozkªad
empiryczny z reguªy jest prezentowany jako szereg rozdzielczy (punktowy lub przedziaªowy). Informacje o próbce daje nam równie» histogram, wykres koªowy, sªupkowy,
pudeªkowy itp.
Def. Niech X1 , . . . , Xn b¦dzie prób¡ z rozkªadu o dystrybuancie F . Wówczas dystrybuant¡ empiryczn¡ nazywamy funkcj¦
n
1X
1[Xi ,∞) (x).
F̂n (x) =
n i=1
Tw. Gliwienki-Cantellego (Podstawowe Twierdzenie Statystyki Matematycznej)
Niech
Dn =
|F̂n (x) − F (x)|.
sup
−∞<x<∞
Je»eli próba X1 , . . . , Xn pochodzi z rozkªadu o dystrybuancie F , to
n→∞
Dn −→ 0
z prawdopodobie«stwem 1.
Def. Niech X1 , . . . , Xn b¦dzie prób¡ z nieznanego rozkªadu zmiennej X , za± A ⊂ R.
Wówczas przybli»eniem nieznanej liczby pA = P (X ∈ A) jest prawdopodobie«stwo
empiryczne
n
P
i=1
1A (Xi )
.
n
Def. Niech X1 , . . . , Xn b¦dzie prób¡ losow¡. Niech X1:n ≤ X2:n ≤ . . . ≤ Xn:n b¦dzie
ci¡giem liczb X1 (ω), . . . , Xn (ω) uporz¡dkowanym w kolejno±ci niemalej¡cej. Wówczas
Xi:n , i = 1, . . . , n, nazywamy i-t¡ statystyk¡ pozycyjn¡ (porz¡dkow¡).
p̂A =
Próbkowe odpowiedniki wielko±ci populacyjnych
Oznaczenia:
x1 , . . . , xn warto±ci obserwacji (realizacje próby X1 (ω), . . . , Xn (ω)),
n liczba obserwacji (wielko±¢ próby),
x1:1 , . . . , xn:n statystyki pozycyjne z próby.
‘rednia arytmetyczna z próbki:
n
1X
x̄ =
xi ,
n i=1
1
jest warto±ci¡ oczekiwan¡ rozkªadu empirycznego.
Wariancja próbkowa dana jest wzorem:
n
n
1X
1X 2
ŝ =
(xi − x̄)2 =
xi − x̄2 ,
n i=1
n i=1
2
jest wariancj¡ rozkªadu empirycznego.
Odchylenie standardowe z próbki (ŝ) to pierwiastek z wariancji próbkowej, jest ono
odchyleniem standardowym rozkªadu empirycznego.
Ogólnie, wyró»niamy nast¦puj¡ce typy momentów z próbki:
• zwykªe âk =
n
1P
xki , s¡ odpowiednikiem momentów ak = EX k ,
n i=1
• centralne m̂k =
n
1P
(xi − x̄)k , s¡ odpowiednikiem momentów mk = E(X − EX)k ,
n i=1
• absolutne Âk =
n
1P
|xi |k , s¡ odpowiednikiem momentów Ak = E|X|k ,
n i=1
• centralne momenty absolutne M̂k =
Mk = E|X − EX|k .
n
1P
|xi − x̄|k , s¡ odpowiednikiem momentów
n i=1
Kwantylem rz¦du p, gdzie 0 ≤ p ≤ 1, rozkªadu zmiennej losowej X nazywamy
warto±¢ xp , dla której speªnione s¡ nierówno±ci
P (X ≤ xp ) ≥ p i P (X ≥ xp ) ≥ 1 − p,
lub równowa»nie:
P (X < xp ) = F (xp −) ≤ p ≤ F (xp ) = P (X ≤ xp ).
Taka liczba xp zawsze istnieje, ale nie musi by¢ wyznaczona jednoznacznie. Je»eli istnieje
dokªadnie jedna liczba xp taka, »e P (X ≤ xp ) = F (xp ) = p, to xp jest p-tym kwantylem.
Podobnie jest w przypadku, gdy F (xp −) < p < F (xp ). Je»eli jednak F (a) = F (b) = p, to
ka»da z liczb z przedziaªu [a, b] jest p-tym kwantylem. W przypadku rozkªadów absolutnie
ci¡gªych (gdzie F (xp −) = F (xp )) denicja kwantyla si¦ upraszcza:
P (X ≤ xp ) = F (xp ) = p,
czyli xp = F −1 (p).
Liczb¦ x̂p nazywamy kwantylem empirycznym rz¦du p, je»eli
F̂n (x̂p −) ≤ p ≤ F̂n (x̂p )
W przypadku rozkªadów dyskretnych sytuacja nie jest jednoznaczna, a rozkªad empiryczny zawsze jest dyskretny. Oczywi±cie, statystyka pozycyjna Xdnpe:n jest kwantylem
2
empirycznym rz¦du p, ale nie jedynym. Najlepiej wida¢ to na przykªadzie mediany
próbkowej (kwantyla rz¦du 1/2), któr¡ przyj¦ªo si¦ deniowa¢ nast¦puj¡co:
ˆ =
med

 x n+1
:n ,
2

1
2
n − nieparzyste,
x n2 :n + x n2 +1:n , n − parzyste.
Formalnie, je±li rozmiar próbki n jest liczb¡ nieparzyst¡, to median¡ z próbki jest statystyka pozycyjna o numerze (n + 1)/2. Je»eli jednak rozmiar próbki n jest liczb¡ parzyst¡,
to median¡ próbkow¡ jest ka»da z liczb z przedziaªu [X n2 :n , X n2 +1:n ]. ‘rodek przedziaªu
podaje si¦ po to, aby unikn¡¢ niejednoznaczno±ci.
Kwantyle rz¦du 1/4, 1/2, 3/4 s¡ inaczej nazywane kwartylami. Przy pewnym uproszczeniu mo»na powiedzie¢, »e kwartyle dziel¡ uporz¡dkowane dane statystyczne na cztery
równe cz¦±ci. Drugi kwartyl pokrywa si¦ z median¡. Mediana dzieli uporz¡dkowane dane
na dwie cz¦±ci. Mediana pierwszej z nich to dolny kwartyl (pierwszy kwartyl), a drugiej to górny kwartyl (trzeci kwartyl). Ró»nica mi¦dzy górnym i dolnym kwartylem to
rozst¦p mi¦dzykwartylowy.
Kwantyle rz¦du 1/10, 2/10,..., 9/10 to inaczej decyle. Kwantyle rz¦du 1/100, 2/100,...,
99/100 to inaczej percentyle.
Dominanta (moda) to warto±¢, która w danych wyst¦puje najcz¦±ciej i nie jest war-
to±ci¡ skrajn¡ (tzn. minimaln¡ lub maksymaln¡). Je»eli w zestawie danych wyst¦puje
kilka warto±ci z t¡ sam¡, najwy»sz¡ cz¦stotliwo±ci¡, to ka»da z tych warto±ci jest mod¡;
w zestawie danych mo»e równie» moda nie wyst¦powa¢.
3