Empiryczne rozkłady prawdopodobieństwa Rozkład empiryczny to

Transkrypt

Empiryczne rozkłady prawdopodobieństwa Rozkład empiryczny to
Empiryczne rozkłady prawdopodobieństwa
Rozkład empiryczny to uzyskany na podstawie badania statystycznego opis wartości przyjmowanych przez cechę statystyczną przy pomocy częstości ich występowania. Rozkład
empiryczny z reguły jest prezentowany jako szereg rozdzielczy (punktowy lub przedziałowy). Informacje o próbce daje nam również histogram, wykres kołowy, słupkowy,
pudełkowy itp.
Def. Niech X1 , . . . , Xn będzie próbą z rozkładu o dystrybuancie F . Wówczas dystrybuantą empiryczną nazywamy funkcję
n
1X
1[Xi ,∞) (x).
F̂n (x) =
n i=1
Tw. Gliwienki-Cantellego (Podstawowe Twierdzenie Statystyki Matematycznej)
Niech
Dn = sup |F̂n (x) − F (x)|.
−∞<x<∞
Jeżeli próba X1 , . . . , Xn pochodzi z rozkładu o dystrybuancie F , to
n→∞
Dn −→ 0
z prawdopodobieństwem 1.
Def. Niech X1 , . . . , Xn będzie próbą z nieznanego rozkładu zmiennej X, zaś A ⊂ R.
Wówczas przybliżeniem nieznanej liczby pA = P (X ∈ A) jest prawdopodobieństwo
empiryczne
n
P
1A (Xi )
i=1
.
p̂A =
n
Def. Niech X1 , . . . , Xn będzie próbą losową. Niech X1:n ≤ X2:n ≤ . . . ≤ Xn:n będzie
ciągiem liczb X1 (ω), . . . , Xn (ω) uporządkowanym w kolejności niemalejącej. Wówczas
Xi:n , i = 1, . . . , n, nazywamy i-tą statystyką pozycyjną (porządkową).
Próbkowe odpowiedniki wielkości populacyjnych
Oznaczenia:
x1 , . . . , xn – wartości obserwacji (realizacje próby X1 (ω), . . . , Xn (ω)),
n – liczba obserwacji (wielkość próby),
x1:1 , . . . , xn:n – statystyki pozycyjne z próby.
Średnia arytmetyczna z próbki:
n
1X
x̄ =
xi ,
n i=1
1
jest wartością oczekiwaną rozkładu empirycznego.
Wariancja próbkowa dana jest wzorem:
n
n
1X
1X 2
ŝ =
(xi − x̄)2 =
xi − x̄2 ,
n i=1
n i=1
2
jest wariancją rozkładu empirycznego.
Odchylenie standardowe z próbki (ŝ) to pierwiastek z wariancji próbkowej, jest ono
odchyleniem standardowym rozkładu empirycznego.
Ogólnie, wyróżniamy następujące typy momentów z próbki:
• zwykłe âk =
n
1P
xki , są odpowiednikiem momentów ak = EX k ,
n i=1
• centralne m̂k =
n
1P
(xi − x̄)k , są odpowiednikiem momentów mk = E(X − EX)k ,
n i=1
• absolutne Âk =
n
1P
|xi |k , są odpowiednikiem momentów Ak = E|X|k ,
n i=1
• centralne momenty absolutne M̂k =
n
1P
|xi − x̄|k , są odpowiednikiem momentów
n i=1
Mk = E|X − EX|k .
Kwantylem rzędu p, gdzie 0 ≤ p ≤ 1, rozkładu zmiennej losowej X nazywamy
wartość xp , dla której spełnione są nierówności
P (X ≤ xp ) ≥ p i P (X ≥ xp ) ≥ 1 − p,
lub równoważnie:
P (X < xp ) = F (xp −) ≤ p ≤ F (xp ) = P (X ≤ xp ).
Taka liczba xp zawsze istnieje, ale nie musi być wyznaczona jednoznacznie. Jeżeli istnieje
dokładnie jedna liczba xp taka, że P (X ≤ xp ) = F (xp ) = p, to xp jest p-tym kwantylem.
Podobnie jest w przypadku, gdy F (xp −) < p < F (xp ). Jeżeli jednak F (a) = F (b) = p, to
każda z liczb z przedziału [a, b] jest p-tym kwantylem. W przypadku rozkładów absolutnie
ciągłych (gdzie F (xp −) = F (xp )) definicja kwantyla się upraszcza:
P (X ≤ xp ) = F (xp ) = p,
czyli xp = F −1 (p).
Liczbę x̂p nazywamy kwantylem empirycznym rzędu p, jeżeli
F̂n (x̂p −) ≤ p ≤ F̂n (x̂p )
W przypadku rozkładów dyskretnych sytuacja nie jest jednoznaczna, a rozkład empiryczny zawsze jest dyskretny. Oczywiście, statystyka pozycyjna Xdnpe:n jest kwantylem
2
empirycznym rzędu p, ale nie jedynym. Najlepiej widać to na przykładzie mediany
próbkowej (kwantyla rzędu 1/2), którą przyjęło się definiować następująco:

n − nieparzyste,
 x n+1
:n ,
2
ˆ
med =
 1 n
n
x
+
x
, n − parzyste.
:n
+1:n
2
2
2
Formalnie, jeśli rozmiar próbki n jest liczbą nieparzystą, to medianą z próbki jest statystyka pozycyjna o numerze (n + 1)/2. Jeżeli jednak rozmiar próbki n jest liczbą parzystą,
to medianą próbkową jest każda z liczb z przedziału [X n2 :n , X n2 +1:n ]. Środek przedziału
podaje się po to, aby uniknąć niejednoznaczności.
Kwantyle rzędu 1/4, 1/2, 3/4 są inaczej nazywane kwartylami. Przy pewnym uproszczeniu można powiedzieć, że kwartyle dzielą uporządkowane dane statystyczne na cztery
równe części. Drugi kwartyl pokrywa się z medianą. Mediana dzieli uporządkowane dane
na dwie części. Mediana pierwszej z nich to dolny kwartyl (pierwszy kwartyl), a drugiej to górny kwartyl (trzeci kwartyl). Różnica między górnym i dolnym kwartylem to
rozstęp międzykwartylowy.
Kwantyle rzędu 1/10, 2/10,..., 9/10 to inaczej decyle. Kwantyle rzędu 1/100, 2/100,...,
99/100 to inaczej percentyle.
Dominanta (moda) to wartość, która w danych występuje najczęściej i nie jest wartością skrajną (tzn. minimalną lub maksymalną). Jeżeli w zestawie danych występuje
kilka wartości z tą samą, najwyższą częstotliwością, to każda z tych wartości jest modą;
w zestawie danych może również moda nie występować.
3