Rozkłady empiryczne
Transkrypt
Rozkłady empiryczne
Empiryczne rozkłady prawdopodobieństwa Rozkład empiryczny to uzyskany na podstawie badania statystycznego opis wartości przyjmowanych przez cechę statystyczną przy pomocy częstości ich występowania. Rozkład empiryczny z reguły jest prezentowany jako szereg rozdzielczy (punktowy lub przedziałowy). Informacje o próbce daje nam również histogram, wykres kołowy, słupkowy, pudełkowy itp. Def. Niech X1 , . . . , Xn będzie próbą z rozkładu o dystrybuancie F . Wówczas dystrybuantą empiryczną nazywamy funkcję n 1X 1[Xi ,∞) (x). F̂n (t) = n i=1 Tw. Gliwienki - Cantellego (Podstawowe Twierdzenie Statystyki Matematycznej) Niech Dn = sup |F̂n (x) − F (x)|. −∞<x<∞ Jeżeli próba X1 , . . . , Xn pochodzi z rozkładu o dystrybuancie F , to n→∞ Dn −→ 0 z prawdopodobieństwem 1. Def. Niech X1 , . . . , Xn będzie próbą z nieznanego rozkładu zmiennej X, zaś A ⊂ R. Wówczas przybliżeniem nieznanej liczby pA = P (X ∈ A) jest prawdopodobieństwo empiryczne n P 1A (Xi ) i=1 . p̂A = n Def. Niech X1 , . . . , Xn będzie próbą losową. Niech X1:n ≤ X2:n ≤ . . . ≤ Xn:n będzie ciągiem liczb X1 (ω), . . . , Xn (ω) uporządkowanym w kolejności niemalejącej. Wówczas Xi:n , i = 1, . . . , n nazywamy i-tą statystyką pozycyjną (porządkową). Próbkowe odpowiedniki wielkości populacyjnych Oznaczenia: x1 , . . . , xn - wartości obserwacji (realizacje próby: X1 (ω), . . . , Xn (ω)) n - liczba obserwacji (wielkość próby) x1:1 , . . . , xn:n - statystyki pozycyjne z próby Średnia arytmetyczna z próbki: n 1X x̄ = xi , n i=1 1 jest wartością oczekiwaną rozkładu empirycznego. Wariancja próbkowa dana jest wzorem: n n 1X 2 1X (xi − x̄)2 = xi − x̄2 , ŝ = n i=1 n i=1 2 jest wariancją rozkładu empirycznego. Odchylenie standardowe z próbki (ŝ) to pierwiastek z wariancji próbkowej, jest ono odchyleniem standardowym rozkładu empirycznego. Ogólnie, wyróżniamy następujące typy momentów z próbki: • zwykłe âk = 1 n n P xki , są odpowiednikiem momentów ak = EX k , i=1 • centralne m̂k = • absolutne Âk = 1 n 1 n n P (xi − x̄)k , są odpowiednikiem momentów mk = E(X − EX)k , i=1 n P |xi |k , są odpowiednikiem momentów Ak = E|X|k , i=1 • centralne momenty absolutne M̂k = 1 n n P |xi − x̄|k , są odpowiednikiem momentów i=1 Mk = E|X − EX|k . Kwantylem rzędu p, gdzie 0 ≤ p ≤ 1, rozkładu zmiennej losowej X nazywamy wartość xp , dla której spełnione są nierówności P (X ≤ xp ) ≥ p i P (X ≥ xp ) ≥ 1 − p. W przypadku rozkładów absolutnie ciągłych definicja ta się upraszcza: P (X ≤ xp ) = F (xp ) = p, czyli xp = F −1 (p). W przypadku rozkładów dyskretnych sytuacja nie jest jednoznaczna, a rozkład empiryczny zawsze jest dyskretny. Przykładem jest mediana próbkowa (kwantyl rzędu 1/2): n − nieparzyste, x n+1 :n , 2 ˆ med = 1 n n x + x , n − parzyste, :n +1:n 2 2 2 Kwantyle rzędu 1/4, 1/2, 3/4 są inaczej nazywane kwartylami. Kwartyle dziela̧ uporza̧dkowane dane statystyczne na cztery równe czȩści. Drugi kwartyl pokrywa siȩ z mediana̧. Mediana dzieli uporza̧dkowane dane na dwie czȩści. Mediana pierwszej z nich to dolny kwartyl (pierwszy kwartyl), a drugiej to górny kwartyl (trzeci kwartyl). Różnica miȩdzy górnym i dolnym kwartylem to rozstȩp miȩdzykwartylowy. Kwantyle rzędu 1/10, 2/10,..., 9/10 to inaczej decyle. Kwantyle rzędu 1/100, 2/100,..., 2 99/100 to inaczej percentyle. Dominanta (moda) to wartość, która w danych wystȩpuje najczȩściej (jeżeli w zestawie danych wystȩpuje kilka wartości z ta̧ sama̧, najwyższa̧ czȩstotliwościa̧, to każda z tych wartości jest moda̧; w zestawie danych może również moda nie wystȩpować). 3