Rozkłady empiryczne

Transkrypt

Rozkłady empiryczne
Empiryczne rozkłady prawdopodobieństwa
Rozkład empiryczny to uzyskany na podstawie badania statystycznego opis wartości przyjmowanych przez cechę statystyczną przy pomocy częstości ich występowania. Rozkład
empiryczny z reguły jest prezentowany jako szereg rozdzielczy (punktowy lub przedziałowy). Informacje o próbce daje nam również histogram, wykres kołowy, słupkowy,
pudełkowy itp.
Def. Niech X1 , . . . , Xn będzie próbą z rozkładu o dystrybuancie F . Wówczas dystrybuantą empiryczną nazywamy funkcję
n
1X
1[Xi ,∞) (x).
F̂n (t) =
n i=1
Tw. Gliwienki - Cantellego (Podstawowe Twierdzenie Statystyki Matematycznej)
Niech
Dn = sup |F̂n (x) − F (x)|.
−∞<x<∞
Jeżeli próba X1 , . . . , Xn pochodzi z rozkładu o dystrybuancie F , to
n→∞
Dn −→ 0
z prawdopodobieństwem 1.
Def. Niech X1 , . . . , Xn będzie próbą z nieznanego rozkładu zmiennej X, zaś A ⊂ R.
Wówczas przybliżeniem nieznanej liczby pA = P (X ∈ A) jest prawdopodobieństwo
empiryczne
n
P
1A (Xi )
i=1
.
p̂A =
n
Def. Niech X1 , . . . , Xn będzie próbą losową. Niech X1:n ≤ X2:n ≤ . . . ≤ Xn:n będzie
ciągiem liczb X1 (ω), . . . , Xn (ω) uporządkowanym w kolejności niemalejącej. Wówczas
Xi:n , i = 1, . . . , n nazywamy i-tą statystyką pozycyjną (porządkową).
Próbkowe odpowiedniki wielkości populacyjnych
Oznaczenia:
x1 , . . . , xn - wartości obserwacji (realizacje próby: X1 (ω), . . . , Xn (ω))
n - liczba obserwacji (wielkość próby)
x1:1 , . . . , xn:n - statystyki pozycyjne z próby
Średnia arytmetyczna z próbki:
n
1X
x̄ =
xi ,
n i=1
1
jest wartością oczekiwaną rozkładu empirycznego.
Wariancja próbkowa dana jest wzorem:
n
n
1X 2
1X
(xi − x̄)2 =
xi − x̄2 ,
ŝ =
n i=1
n i=1
2
jest wariancją rozkładu empirycznego.
Odchylenie standardowe z próbki (ŝ) to pierwiastek z wariancji próbkowej, jest ono
odchyleniem standardowym rozkładu empirycznego.
Ogólnie, wyróżniamy następujące typy momentów z próbki:
• zwykłe âk =
1
n
n
P
xki , są odpowiednikiem momentów ak = EX k ,
i=1
• centralne m̂k =
• absolutne Âk =
1
n
1
n
n
P
(xi − x̄)k , są odpowiednikiem momentów mk = E(X − EX)k ,
i=1
n
P
|xi |k , są odpowiednikiem momentów Ak = E|X|k ,
i=1
• centralne momenty absolutne M̂k =
1
n
n
P
|xi − x̄|k , są odpowiednikiem momentów
i=1
Mk = E|X − EX|k .
Kwantylem rzędu p, gdzie 0 ≤ p ≤ 1, rozkładu zmiennej losowej X nazywamy wartość
xp , dla której spełnione są nierówności
P (X ≤ xp ) ≥ p i P (X ≥ xp ) ≥ 1 − p.
W przypadku rozkładów absolutnie ciągłych definicja ta się upraszcza:
P (X ≤ xp ) = F (xp ) = p,
czyli xp = F −1 (p).
W przypadku rozkładów dyskretnych sytuacja nie jest jednoznaczna, a rozkład empiryczny zawsze jest dyskretny. Przykładem jest mediana próbkowa (kwantyl rzędu 1/2):

n − nieparzyste,
 x n+1
:n ,
2
ˆ
med =
 1 n
n
x
+
x
, n − parzyste,
:n
+1:n
2
2
2
Kwantyle rzędu 1/4, 1/2, 3/4 są inaczej nazywane kwartylami. Kwartyle dziela̧ uporza̧dkowane dane statystyczne na cztery równe czȩści. Drugi kwartyl pokrywa siȩ z mediana̧. Mediana dzieli uporza̧dkowane dane na dwie czȩści. Mediana pierwszej z nich to
dolny kwartyl (pierwszy kwartyl), a drugiej to górny kwartyl (trzeci kwartyl). Różnica miȩdzy górnym i dolnym kwartylem to rozstȩp miȩdzykwartylowy.
Kwantyle rzędu 1/10, 2/10,..., 9/10 to inaczej decyle. Kwantyle rzędu 1/100, 2/100,...,
2
99/100 to inaczej percentyle.
Dominanta (moda) to wartość, która w danych wystȩpuje najczȩściej (jeżeli w zestawie danych wystȩpuje kilka wartości z ta̧ sama̧, najwyższa̧ czȩstotliwościa̧, to każda z
tych wartości jest moda̧; w zestawie danych może również moda nie wystȩpować).
3