Podstawowe charakterystyki próby, szeregi rozdzielcze
Transkrypt
Podstawowe charakterystyki próby, szeregi rozdzielcze
Podstawowe charakterystyki próby, szeregi rozdzielcze Niech X1 , X2 , ..., Xn będzie próbą pobraną z pewnej populacji, w której badana cecha X ma rozkład z gęstością f (x, θ) lub funkcją prawdopodobieństwa p(x, θ). Realizacją tej próby jest ciąg liczb x1 , x2 , ..., xn . W celu scharakteryzowania rozkładu cechy X na podstawie próby wyznaczane są pewne miary, które przedstawimy poniżej. Gdy dysponujemy dużymi próbami, to zaobserwowane wartości próby grupujemy w szereg rozdzielczy punktowy (gdy cecha X ma rozkład dyskretny) lub przedziałowy (gdy cecha X ma rozkład ciągły, lub dyskretny ale przyjmujący wiele wartości i próba jest bardzo liczna). W poniższych wzorach będziemy oznaczać przez n liczebność próby, dla szeregów punktowych przez xi , ni zaobserwowaną wartość i liczbę jej wystąpień w próbie, dla szeregów przedziałowych przez x∗i środek przedziału klasowego i przez ni jego liczebność. 1) Miary położenia. a) średnia arytmetyczna Pn • dla danych niepogrupowanych x = n1 i=1 xi ; Pk • dla szeregu punktowego x = n1 i=1 xi ni ; Pk • dla szeregu przedziałowego x = n1 i=1 x∗i ni ; b) moda (dominanta) • dla danych niepogrupowanych i szeregu punktowego moda - M o jest wartością, która występuje w próbie najczęściej (o ile nie jest to wartość skrajna - najmniejsza lub największa, wówczas moda nie jest określana); • dla szeregu przedziałowego M o = xm + nm − nm−1 hm (nm − nm−1 ) + (nm − nm+1 ) w powyższym wzorze przedziałem z modą jest przedział najliczniej reprezentowany (o ile nie jest to przedział skrajny), xm oznacza lewy koniec tego przedziału, nm , nm−1 , nm+1 są liczebnościami przedziału z modą, przedziału poprzedniego i następnego, natomiast hm jest długością przedziału, w którym jest moda; c) mediana (kwartyl drugi) • jest wartością środkową w uporządkowanej próbie ( x( n+1 ) , gdy n jest nieparzyste 2 Me = 1 2 x( n ) + x( n +1) , gdy n jest parzyste 2 2 • dla szeregu przedziałowego M e = xm + 1 n 2 − fm−1 hm , nm Pm−1 gdzie fm−1 = i=1 ni oznacza odpowiednią liczebność skumulowaną, a przedziałem z medianą jest ten, w którym liczebność skumulowana przekracza n2 po raz pierwszy, xm jest lewym końcem tego przedziału, nm jego liczebnością, zaś hm długością; d) kwartyl pierwszy i trzeci • kwartyl pierwszy Q1 jest wartością, która dzieli uporządkowaną próbę w stosunku 1:3, kwartyl trzeci dzieli ją w stosunku 3:1; • dla szeregu przedziałowego do wyznaczania kwartyli stosujemy wzory: PQ1 −1 n i=1 ni 4 − hQ1 , Q1 = xQ1 + nQ1 PQ3 −1 3n − i=1 ni Q3 = xQ3 + 4 hQ3 . nQ3 2) Miary zmienności. a) wariancja • dla danych niepogrupowanych n s2 = n 1X 1X 2 (xi − x)2 = x − (x)2 , n i=1 n i=1 i • dla szeregu punktowego k k 1X 1X 2 (xi − x)2 ni = x ni − (x)2 , s = n i=1 n i=1 i 2 • dla szeregu przedziałowego k s2 = k 1X ∗ 2 1X ∗ (xi − x)2 ni = (x ) ni − (x)2 , n i=1 n i=1 i b) odchylenie standardowe s = (x − s, x + s) √ s2 , typowy przedział zmienności c) odchylenie przeciętne od średniej arytmetycznej Pn • dla danych niepogrupowanych d1 = n1 i=1 |xi − x|; Pk • dla szeregu punktowego d1 = n1 i=1 |xi − x|ni ; Pk • dla szeregu przedziałowego d1 = n1 i=1 |x∗i − x|ni ; d) odchylenie przeciętne od mediany Pn • dla danych niepogrupowanych d2 = n1 i=1 |xi − M e|; Pk • dla szeregu punktowego d2 = n1 i=1 |xi − M e|ni ; 2 1 n • dla szeregu przedziałowego d2 = e) odchylenie ćwiartkowe Q = f) współczynnik zmienności V Pk i=1 |x∗i − M e|ni ; Q3 −Q1 2 = xs 100% g) wariancja w próbach połączonych (wariancja ogólna) • jeżeli dysponujemy k próbami, których n1 , ..., nk są liczebnościami i obliczone są w nich średnie x1 , ..., xk oraz wariancje s21 , ..., s2k , to po połączeniu tych prób w jedną o liczebności n = n1 + n2 + ... + nk średnia i wariancja wyraża się wzorami k x= 1X xi ni , n i=1 k s2 = s2w + s2m = k 1X 2 1X si ni + (xi − x)2 ni n i=1 n i=1 gdzie s2w nazywamy wariancją wewnątrzgrupową, natomiast s2m wariancją międzygrupową. 3) Miary asymetrii. a) współczynnik asymetrii • dla danych niepogrupowanych Pn 1 (xi − x)3 m3 = 3 A = n i=1 3 s s • dla szeregu punktowego A= 1 n Pk i=1 (xi s3 − x)3 ni = m3 s3 • dla szeregu przedziałowego Pk 1 (x∗ − x)3 ni m3 = 3 A = n i=1 3i s s b) wskaźnik asymetrii ws = x − M o lub ws = x − M e, c) współczynniki skośności A = x−M o , s A= x−M o d1 , A= Q3 +Q1 −2M e . 2Q 4) Miary koncentracji. Współczynnik skupienia (kurtoza) wyznaczany jest ze wzorów: • dla danych niepogrupowanych Pn 1 4 m4 i=1 (xi − x) n K= = 4, 4 s s 3 • dla szeregu punktowego 1 n K= Pk i=1 (xi s4 − x)4 ni = m4 , s4 • dla szeregu przedziałowego 1 n Pk ∗ i=1 (xi s4 − x)4 ni m4 . s4 Często wyznacza się tzw. eksces E = K −3, który dla rozkładu normalnego jest równy zero, zatem znak współczynnika E wskazuje na to, czy rozkład jest bardziej, czy mniej ”skupiony” niż rozkład normalny. K= = 5) Momenty próbkowe. • moment zwykły k αr = 1X r x ni , n i=1 i • moment zwykły centralny k mr = 1X (xi − x)r ni , n i=1 • moment absolutny k βr = 1X |xi |r ni , n i=1 • moment absolutny centralny k γr = 1X |xi − x|r ni , n i=1 Dla szeregów rozdzielczych przedziałowych w powyższych wzorach należy zastąpić xi przez x∗i . Wykorzystując powyższe oznaczenia zauważmy, że α1 = x, s2 = m2 , d1 = γ1 . 6) Wskaźnik podobieństwa struktur. W celu porównania dwóch prób pod względem podobieństwa ich struktur wyznaczamy wskaźnik podobieństwa struktur ze wzoru: ωp = k X min(ω1i , ω2i ) i=1 gdzie ω1i = nn1i1 oznacza częstość względną i−tej wartości (lub przedziału) w pierwszej próbie, n1 liczebność pierwszej próby i podobnie dla drugiej próby ω2i = nn2i2 . 4