teoria
Transkrypt
teoria
Empiryczne rozkªady prawdopodobie«stwa Rozkªad empiryczny to uzyskany na podstawie badania statystycznego opis warto±ci przyjmowanych przez cech¦ statystyczn¡ przy pomocy cz¦sto±ci ich wyst¦powania. Rozkªad empiryczny z reguªy jest prezentowany jako szereg rozdzielczy (punktowy lub przedziaªowy). Informacje o próbce daje nam równie» histogram, wykres koªowy, sªupkowy, pudeªkowy itp. Def. Niech X1 , . . . , Xn b¦dzie prób¡ z rozkªadu o dystrybuancie F . Wówczas dystrybuant¡ empiryczn¡ nazywamy funkcj¦ n 1X 1[Xi ,∞) (x). F̂n (x) = n i=1 Tw. Gliwienki-Cantellego (Podstawowe Twierdzenie Statystyki Matematycznej) Niech Dn = |F̂n (x) − F (x)|. sup −∞<x<∞ Je»eli próba X1 , . . . , Xn pochodzi z rozkªadu o dystrybuancie F , to n→∞ Dn −→ 0 z prawdopodobie«stwem 1. Def. Niech X1 , . . . , Xn b¦dzie prób¡ z nieznanego rozkªadu zmiennej X , za± A ⊂ R. Wówczas przybli»eniem nieznanej liczby pA = P (X ∈ A) jest prawdopodobie«stwo empiryczne n P i=1 1A (Xi ) . n Def. Niech X1 , . . . , Xn b¦dzie prób¡ losow¡. Niech X1:n ≤ X2:n ≤ . . . ≤ Xn:n b¦dzie ci¡giem liczb X1 (ω), . . . , Xn (ω) uporz¡dkowanym w kolejno±ci niemalej¡cej. Wówczas Xi:n , i = 1, . . . , n, nazywamy i-t¡ statystyk¡ pozycyjn¡ (porz¡dkow¡). p̂A = Próbkowe odpowiedniki wielko±ci populacyjnych Oznaczenia: x1 , . . . , xn warto±ci obserwacji (realizacje próby X1 (ω), . . . , Xn (ω)), n liczba obserwacji (wielko±¢ próby), x1:1 , . . . , xn:n statystyki pozycyjne z próby. rednia arytmetyczna z próbki: n 1X x̄ = xi , n i=1 1 jest warto±ci¡ oczekiwan¡ rozkªadu empirycznego. Wariancja próbkowa dana jest wzorem: n n 1X 1X 2 ŝ = (xi − x̄)2 = xi − x̄2 , n i=1 n i=1 2 jest wariancj¡ rozkªadu empirycznego. Odchylenie standardowe z próbki (ŝ) to pierwiastek z wariancji próbkowej, jest ono odchyleniem standardowym rozkªadu empirycznego. Ogólnie, wyró»niamy nast¦puj¡ce typy momentów z próbki: • zwykªe âk = n 1P xki , s¡ odpowiednikiem momentów ak = EX k , n i=1 • centralne m̂k = n 1P (xi − x̄)k , s¡ odpowiednikiem momentów mk = E(X − EX)k , n i=1 • absolutne Âk = n 1P |xi |k , s¡ odpowiednikiem momentów Ak = E|X|k , n i=1 • centralne momenty absolutne M̂k = Mk = E|X − EX|k . n 1P |xi − x̄|k , s¡ odpowiednikiem momentów n i=1 Kwantylem rz¦du p, gdzie 0 ≤ p ≤ 1, rozkªadu zmiennej losowej X nazywamy warto±¢ xp , dla której speªnione s¡ nierówno±ci P (X ≤ xp ) ≥ p i P (X ≥ xp ) ≥ 1 − p, lub równowa»nie: P (X < xp ) = F (xp −) ≤ p ≤ F (xp ) = P (X ≤ xp ). Taka liczba xp zawsze istnieje, ale nie musi by¢ wyznaczona jednoznacznie. Je»eli istnieje dokªadnie jedna liczba xp taka, »e P (X ≤ xp ) = F (xp ) = p, to xp jest p-tym kwantylem. Podobnie jest w przypadku, gdy F (xp −) < p < F (xp ). Je»eli jednak F (a) = F (b) = p, to ka»da z liczb z przedziaªu [a, b] jest p-tym kwantylem. W przypadku rozkªadów absolutnie ci¡gªych (gdzie F (xp −) = F (xp )) denicja kwantyla si¦ upraszcza: P (X ≤ xp ) = F (xp ) = p, czyli xp = F −1 (p). Liczb¦ x̂p nazywamy kwantylem empirycznym rz¦du p, je»eli F̂n (x̂p −) ≤ p ≤ F̂n (x̂p ) W przypadku rozkªadów dyskretnych sytuacja nie jest jednoznaczna, a rozkªad empiryczny zawsze jest dyskretny. Oczywi±cie, statystyka pozycyjna Xdnpe:n jest kwantylem 2 empirycznym rz¦du p, ale nie jedynym. Najlepiej wida¢ to na przykªadzie mediany próbkowej (kwantyla rz¦du 1/2), któr¡ przyj¦ªo si¦ deniowa¢ nast¦puj¡co: ˆ = med x n+1 :n , 2 1 2 n − nieparzyste, x n2 :n + x n2 +1:n , n − parzyste. Formalnie, je±li rozmiar próbki n jest liczb¡ nieparzyst¡, to median¡ z próbki jest statystyka pozycyjna o numerze (n + 1)/2. Je»eli jednak rozmiar próbki n jest liczb¡ parzyst¡, to median¡ próbkow¡ jest ka»da z liczb z przedziaªu [X n2 :n , X n2 +1:n ]. rodek przedziaªu podaje si¦ po to, aby unikn¡¢ niejednoznaczno±ci. Kwantyle rz¦du 1/4, 1/2, 3/4 s¡ inaczej nazywane kwartylami. Przy pewnym uproszczeniu mo»na powiedzie¢, »e kwartyle dziel¡ uporz¡dkowane dane statystyczne na cztery równe cz¦±ci. Drugi kwartyl pokrywa si¦ z median¡. Mediana dzieli uporz¡dkowane dane na dwie cz¦±ci. Mediana pierwszej z nich to dolny kwartyl (pierwszy kwartyl), a drugiej to górny kwartyl (trzeci kwartyl). Ró»nica mi¦dzy górnym i dolnym kwartylem to rozst¦p mi¦dzykwartylowy. Kwantyle rz¦du 1/10, 2/10,..., 9/10 to inaczej decyle. Kwantyle rz¦du 1/100, 2/100,..., 99/100 to inaczej percentyle. Dominanta (moda) to warto±¢, która w danych wyst¦puje najcz¦±ciej i nie jest war- to±ci¡ skrajn¡ (tzn. minimaln¡ lub maksymaln¡). Je»eli w zestawie danych wyst¦puje kilka warto±ci z t¡ sam¡, najwy»sz¡ cz¦stotliwo±ci¡, to ka»da z tych warto±ci jest mod¡; w zestawie danych mo»e równie» moda nie wyst¦powa¢. 3