Podstawowe charakterystyki próby, szeregi rozdzielcze

Transkrypt

Podstawowe charakterystyki próby, szeregi rozdzielcze
Podstawowe charakterystyki próby, szeregi rozdzielcze
Niech X1 , X2 , ..., Xn będzie próbą pobraną z pewnej populacji, w której badana cecha X ma rozkład z gęstością f (x, θ) lub funkcją prawdopodobieństwa
p(x, θ). Realizacją tej próby jest ciąg liczb x1 , x2 , ..., xn . W celu scharakteryzowania rozkładu cechy X na podstawie próby wyznaczane są pewne miary, które
przedstawimy poniżej. Gdy dysponujemy dużymi próbami, to zaobserwowane
wartości próby grupujemy w szereg rozdzielczy punktowy (gdy cecha X ma
rozkład dyskretny) lub przedziałowy (gdy cecha X ma rozkład ciągły, lub dyskretny ale przyjmujący wiele wartości i próba jest bardzo liczna). W poniższych
wzorach będziemy oznaczać przez n liczebność próby, dla szeregów punktowych
przez xi , ni zaobserwowaną wartość i liczbę jej wystąpień w próbie, dla szeregów
przedziałowych przez x∗i środek przedziału klasowego i przez ni jego liczebność.
1) Miary położenia.
a) średnia arytmetyczna
Pn
• dla danych niepogrupowanych x = n1 i=1 xi ;
Pk
• dla szeregu punktowego x = n1 i=1 xi ni ;
Pk
• dla szeregu przedziałowego x = n1 i=1 x∗i ni ;
b) moda (dominanta)
• dla danych niepogrupowanych i szeregu punktowego moda - M o
jest wartością, która występuje w próbie najczęściej (o ile nie jest
to wartość skrajna - najmniejsza lub największa, wówczas moda
nie jest określana);
• dla szeregu przedziałowego
M o = xm +
nm − nm−1
hm
(nm − nm−1 ) + (nm − nm+1 )
w powyższym wzorze przedziałem z modą jest przedział najliczniej reprezentowany (o ile nie jest to przedział skrajny), xm
oznacza lewy koniec tego przedziału, nm , nm−1 , nm+1 są liczebnościami przedziału z modą, przedziału poprzedniego i następnego, natomiast hm jest długością przedziału, w którym jest moda;
c) mediana (kwartyl drugi)
• jest wartością środkową w uporządkowanej próbie
(
x( n+1 ) , gdy n jest nieparzyste
2
Me =
1
2 x( n ) + x( n +1) , gdy n jest parzyste
2
2
• dla szeregu przedziałowego
M e = xm +
1
n
2
− fm−1
hm ,
nm
Pm−1
gdzie fm−1 = i=1 ni oznacza odpowiednią liczebność skumulowaną, a przedziałem z medianą jest ten, w którym liczebność
skumulowana przekracza n2 po raz pierwszy, xm jest lewym końcem tego przedziału, nm jego liczebnością, zaś hm długością;
d) kwartyl pierwszy i trzeci
• kwartyl pierwszy Q1 jest wartością, która dzieli uporządkowaną
próbę w stosunku 1:3, kwartyl trzeci dzieli ją w stosunku 3:1;
• dla szeregu przedziałowego do wyznaczania kwartyli stosujemy
wzory:
PQ1 −1
n
i=1 ni
4 −
hQ1 ,
Q1 = xQ1 +
nQ1
PQ3 −1
3n
− i=1
ni
Q3 = xQ3 + 4
hQ3 .
nQ3
2) Miary zmienności.
a) wariancja
• dla danych niepogrupowanych
n
s2 =
n
1X
1X 2
(xi − x)2 =
x − (x)2 ,
n i=1
n i=1 i
• dla szeregu punktowego
k
k
1X
1X 2
(xi − x)2 ni =
x ni − (x)2 ,
s =
n i=1
n i=1 i
2
• dla szeregu przedziałowego
k
s2 =
k
1X ∗ 2
1X ∗
(xi − x)2 ni =
(x ) ni − (x)2 ,
n i=1
n i=1 i
b) odchylenie standardowe s =
(x − s, x + s)
√
s2 , typowy przedział zmienności
c) odchylenie przeciętne od średniej arytmetycznej
Pn
• dla danych niepogrupowanych d1 = n1 i=1 |xi − x|;
Pk
• dla szeregu punktowego d1 = n1 i=1 |xi − x|ni ;
Pk
• dla szeregu przedziałowego d1 = n1 i=1 |x∗i − x|ni ;
d) odchylenie przeciętne od mediany
Pn
• dla danych niepogrupowanych d2 = n1 i=1 |xi − M e|;
Pk
• dla szeregu punktowego d2 = n1 i=1 |xi − M e|ni ;
2
1
n
• dla szeregu przedziałowego d2 =
e) odchylenie ćwiartkowe Q =
f) współczynnik zmienności V
Pk
i=1
|x∗i − M e|ni ;
Q3 −Q1
2
= xs 100%
g) wariancja w próbach połączonych (wariancja ogólna)
• jeżeli dysponujemy k próbami, których n1 , ..., nk są liczebnościami i obliczone są w nich średnie x1 , ..., xk oraz wariancje
s21 , ..., s2k , to po połączeniu tych prób w jedną o liczebności n =
n1 + n2 + ... + nk średnia i wariancja wyraża się wzorami
k
x=
1X
xi ni ,
n i=1
k
s2 = s2w + s2m =
k
1X 2
1X
si ni +
(xi − x)2 ni
n i=1
n i=1
gdzie s2w nazywamy wariancją wewnątrzgrupową, natomiast s2m
wariancją międzygrupową.
3) Miary asymetrii.
a) współczynnik asymetrii
• dla danych niepogrupowanych
Pn
1
(xi − x)3
m3
= 3
A = n i=1 3
s
s
• dla szeregu punktowego
A=
1
n
Pk
i=1 (xi
s3
− x)3 ni
=
m3
s3
• dla szeregu przedziałowego
Pk
1
(x∗ − x)3 ni
m3
= 3
A = n i=1 3i
s
s
b) wskaźnik asymetrii ws = x − M o lub ws = x − M e,
c) współczynniki skośności A =
x−M o
,
s
A=
x−M o
d1 ,
A=
Q3 +Q1 −2M e
.
2Q
4) Miary koncentracji.
Współczynnik skupienia (kurtoza) wyznaczany jest ze wzorów:
• dla danych niepogrupowanych
Pn
1
4
m4
i=1 (xi − x)
n
K=
= 4,
4
s
s
3
• dla szeregu punktowego
1
n
K=
Pk
i=1 (xi
s4
− x)4 ni
=
m4
,
s4
• dla szeregu przedziałowego
1
n
Pk
∗
i=1 (xi
s4
− x)4 ni
m4
.
s4
Często wyznacza się tzw. eksces E = K −3, który dla rozkładu normalnego
jest równy zero, zatem znak współczynnika E wskazuje na to, czy rozkład
jest bardziej, czy mniej ”skupiony” niż rozkład normalny.
K=
=
5) Momenty próbkowe.
• moment zwykły
k
αr =
1X r
x ni ,
n i=1 i
• moment zwykły centralny
k
mr =
1X
(xi − x)r ni ,
n i=1
• moment absolutny
k
βr =
1X
|xi |r ni ,
n i=1
• moment absolutny centralny
k
γr =
1X
|xi − x|r ni ,
n i=1
Dla szeregów rozdzielczych przedziałowych w powyższych wzorach należy
zastąpić xi przez x∗i . Wykorzystując powyższe oznaczenia zauważmy, że
α1 = x, s2 = m2 , d1 = γ1 .
6) Wskaźnik podobieństwa struktur.
W celu porównania dwóch prób pod względem podobieństwa ich struktur
wyznaczamy wskaźnik podobieństwa struktur ze wzoru:
ωp =
k
X
min(ω1i , ω2i )
i=1
gdzie ω1i = nn1i1 oznacza częstość względną i−tej wartości (lub przedziału) w
pierwszej próbie, n1 liczebność pierwszej próby i podobnie dla drugiej próby
ω2i = nn2i2 .
4