stat opisowa - teoria - E-SGH

Transkrypt

stat opisowa - teoria - E-SGH
dr Anna Matysiak
PODSTAWOWE POJĘCIA STATYSTYCZNE
POPULACJA (ZBIOROWOŚĆ GENERALNA) – zbiór logicznie powiązanych jednostek,
obiektów, wyników wszystkich pomiarów, np. mieszkańcy Polski, studenci SGH,
gospodarstwa domowe w Polsce. Populacja może być skończona lub nieskończona (pojęcie
teoretyczne, np. rzuty monetą).
Elementy populacji mogą mieć różne właściwości, podlegające obserwacji statystycznej. Są
to CECHY STATYSTYCZNE, np. w populacji mieszkańców Polski są to: płeć, wzrost,
dochody. Cechy statystyczne mogą być:
− niemierzalne (jakościowe),
− mierzalne (ilościowe).
o skokowe (przyjmuje wartości z przeliczalnego zbioru),
o ciągłe
Elementy populacji różnią się między sobą wartościami rozpatrywanej cechy, zatem cecha ta
ma określony rozkład. Celem badania statystycznego jest na ogół poznanie rozkładu cechy
oraz uzyskanie informacji o wartości syntetycznych charakterystyk tego rozkładu. Wyróżnia
się 2 rodzaje badań statystycznych:
− pełne (obejmuje wszystkie elementy populacji)
− niepełne (obejmuje część elementów populacji – próbę).
PRÓBA – podzbiór elementów populacji podlegający badaniu. Najczęściej próbę pozyskuje
się w sposób losowy (próba losowa). Przez losowy dobór próby rozumie się taki sposób
doboru, przy którym:
− każda jednostka populacji ma dodatnie znane prawdopodobieństwo znalezienia się w
próbie,
− istnieje możliwość ustalenia prawdopodobieństwa znalezienia się w próbie dla każdego
elementu populacji.
POMIARU CECH STATYSTYCZNYCH dokonuje się za pomocą następujących skal:
− nominalne – liczby używane w celu identyfikacji cechy, uporządkowanie liczb nie ma
znaczenia (np. płeć)
− porządkowe - liczby używane w celu identyfikacji i uporządkowania cechy (np. poziom
wykształcenia)
− interwałowe – oprócz uporządkowania mierzą względne róznice pomiędzy wartościami
cechy, zero w tej skali jest ustalone dowolnie a stosowna jednostka mierzy odległość od
tego zera (np. wyniki testów psychologicznych, skala Celsjusza)
− stosunkowe (ilorazowe) – zawiera zero bezwzględne, pomiary charakteryzują się stałymi
ilorazami (np. wiek, waga, dochody).
METODY STATYSTYCZNE:
− Opis statystyczny
o Analiza struktury
o Analiza korelacji i regresji
o Analiza dynamiki
− Wnioskowanie statystyczne
o Parametryczne
o Nieparametryczne
Prezentacja wyników:
− opis graficzny
− opis tabelaryczny
RODZAJE DANYCH:
Indywidualne – informują, jaką wartość cechy ma każda jednostka
Pogrupowane – jednostki o określonej wartości (określonych wartościach) cechy
pogrupowane są w szereg rozdzielczy.
ROZKŁAD CECHY – przyporządkowanie uszeregowanym wartościom, przyjmowanym
przez tę cechę, odpowiednio zdefiniowanych częstości ich występowania.
Konstrukcja rozkładu empirycznego cechy:
A. cecha skokowa:
Wartości cechy Liczebności
xi
ni
x1
n1
x2
n2
x3
n3
.
.
.
.
.
.
xr
nr
Ogółem
n
B. cecha ciągła:
Przedziały
klasowe x0i-x1i
x01-x11
x02-x12
x03-x13
.
.
.
x0r-x1r
Ogółem
Liczebności
ni
n1
n2
n3
.
.
.
nr
n
Częstości
wi
w1
w2
w3
.
.
.
wr
1
Częstości
wi
w1
w2
w3
.
.
.
wr
1
Skumulowana
liczebność n(xi)
n1
n1+n2
n1+n2+n3
.
.
.
n1+n2+...+nr
X
Skumulowana
liczebność n(xi)
n1
n1+n2
n1+n2+n3
.
.
.
n1+n2+...+nr
X
Dystrybuanta
empiryczna Fn(xi)
w1
w1+w2
w1+w2+w3
.
.
.
w1+w2+...+wr
X
Dystrybuanta
empiryczna Fn(xi)
w1
w1+w2
w1+w2+w3
.
.
.
w1+w2+...+wr
X
Aby skonstruować empiryczny rozkład cechy ciągłej należy w pierw:
− określić liczbę przedziałów klasowych cechy: r≤5 log n
− ustalić rozpiętości przedziału klasowego:
i =1,..., r
hi = x1i − x 0i ;
gdzie:
hi - rozpiętość i-tego przedziału klasowego,
x0i, x1i - odpowiednia dolna i górna granica przedziału klasowego.
HISTOGRAM
Zbiór prostokątów, których podstawy wyznaczone są na osi odciętych przez poszczególne
przedziały klasowe, natomiast wysokości są określone na osi rzędnych przez liczebności
(częstości) odpowiadające poszczególnym przedziałom klasowym. Stosunek pola
powierzchni każdego prostokąta do sumy powierzchni wszystkich prostokątów wynosi ni/n.
ni ∆xi
∑ ni ∆xi
0,4
0,3
0,2
0,1
x1
LICZEBNOŚĆ: ni ,
CZĘSTOŚĆ: wi =
x2
∑n
ni
,
n
i
x3
x4
x5
x6
x
= n , gdzie n – liczebność zbiorowości
∑w
i
=1.
SKUMULOWANE LICZEBNOŚCI n(xl) rozkładu dla wartości xl nazywamy liczebność
jednostek zbiorowości, które mają wartość cechy co najwyżej równą xl:
l
n( xl ) = n( x ≤ xl ) = n1 + n2 + ...nl = ∑ ni
i =1
DYSTRYBUANTA EMPIRYCZNA Fn (x) nazywamy funkcję określoną na podstawie
danych (xi, wi), i=1,2,…,k, następująco:
dla x < x1
0
i
Fn ( x) =
∑w
dla xi ≤ x < xi +1 ,
1
dla xk ≥ k
l
l =1
i = 1, 2,..., k − 1
. Dystrybunata jest funkcją:
− niemalejącą,
− przedziałami stałą,
− ograniczoną w przedziale [0,1].
A. dystrybuanta dla cechy skokowej:
F(x)
1
F(x3)
F(x2)
F(x1)
0
x1
x2
x3
x
B. dystrybuanta dla cechy ciągłej
f(x)
1
F(x4)
F(x3)
F(x2)
F(x1)
0
x1
x2
x3
x4
x5 x
WŁASNOŚCI ROZKŁADU EMPIRYCZNEGO:
Położenie
Zróżnicowanie (dyspercja, znienność)
Asymetria
wi
wi
me
x
asymetria prawostronna
xi
x
me
asymetria lewostronna
xi
MIARY POŁOŻENIA:
− Klasyczne - stanowią wypadkową wszystkich wartości cechy wszystkich badanych
jednostek zbiorowości: średnia
− Pozycyjne - wyznaczane są typową pozycją niektórych jednostek lub grup jednostek:
dominanta, kwantyle rzędu p
Ponadto średnia, mediana i dominanta są miarami tendencji centralnej.
ŚREDNIA x
miara szeroko rozpowszechniona, jej wartość jest wrażliwa na wartości ekstremalne w
rozkładzie, gdy mamy do czynienia z dużymi wartościami skrajnymi miara nieprawidłowa
− dla danych indywidualnych (średnia arytmetyczna nieważona):
x =
1 n
∑x j
n j =1
− dla danych pogrupowanych (średnia arytmetyczna ważona):
o cecha skokowa:
r
1 r
x = ∑ x i ⋅ wi = ∑ x i ⋅ ni
n i=1
i =1
o cecha ciągła:
r o
x = ∑ x i ⋅ wi =
i =1
1 r o
∑ x i ⋅ ni ,
n i =1
gdzie:
o
xi =
xi1 + xi 0
2
(i = 1,..., r ), przy czym:
o
x - środek i-tego przedziału klasowego.
DOMINANTA D(x)
wartość występująca w rozkładzie najczęściej, tzn. wartość, której odpowiada najwyższa
liczebność (częstość).
W przypadku cechy ciągłej dominantę wyznacza się czasem ze wzoru (NIE OBOWIĄZUJE):
D( x ) = x0 d +
gdzie:
nd − nd −1
wd − wd −1
⋅ hd = x0d +
⋅ hd
(nd − nd −1 ) + (nd − nd +1 )
2 wd − (wd −1 + wd +1 )
x0d - dolna granica przedziału, w którym występuje dominanta,
hd - rozpiętość tego przedziału,
nd, wd, nd-1, wd-1, nd+1, wd+1 - odpowiednio liczebność i częstość przedziału w którym
występuje dominanta, przedziału poprzedniego i następnego.
MEDIANA M(x)
taka wartość cechy M(x), że co najmniej połowa jednostek zbiorowości ma wartość cechy nie
większą niż M(x) i równocześnie co najmniej połowa jednostek ma wartość cechy nie
mniejszą niż M(x). Innymi słowy jest to wartość środkowa w uporządkowanym szeregu,
występowanie wartości skrajanych w rozkładzie nie wpływa na wartość mediany.
−
dla rozkładu skokowego:
M (x) =
 x( n +1) / 2 ,


 x +x
n
n+2

2
2
,


2
gdy n nieparzyste
gdy n parzyste
lub inaczej, medianą jest wartość cechy, dla której - jako pierwszej - dystrybuanta empiryczna
przyjmuje wartość co najmniej 1/2, tzn.:
−
dla rozkładu ciągłego:
M ( x ) = x0 m +
hm  n

− n( x0 m −1 )

nm  2

lub
M ( x ) = x0 m +
hm  1

− Fn ( x0 m−1 )  ,
wm  2

gdzie:
x0m - dolna granica przedziału, w którym znajduje się wartość mediany,
n(x0m-1), Fn(x0m-1) - odpowiednio liczebność i częstość skumulowana w przedziale
poprzedzającym klasę mediany,
hm,nm,wm - odpowiednio rozpiętość, liczebność oraz częstość przedziału, w którym znajduje
się mediana.
KWANTYL RZĘDU P
taka wartość zmiennej kp, dla której - jako pierwszej - dystrybuanta empiryczna spełnia
relację:
Fn (k p ) ≥ p, 0 < p < 1
Kwartyle (kwantyle rzędu p= k , k=1,2,3):
•
•
•
4
Q1 - kwartyl pierwszy (kwantyl rzędu 1/4),
Q2 - kwartyl drugi (kwantyl rzędu 2/4, czyli mediana),
Q3 - kwartyl trzeci (kwantyl rzędu 3/4).
− dla rozkładu skokowego:
Qk = x( n +1)⋅k / 4 a gdy (n + 1) ⋅ k / 4 nie jest liczbą całkowitą to należy ją zaokrąglić , przy
czym 0,5 dla pierwszego kwartyna zaokrąglamy w górę dla trzeciego kwartyna w dół
− Dla rozkładu ciągłego:
Qk = x0Q +
h
 p ⋅ n − n ( x0Q −1 )  = x0Q + Q  p − F ( x0Q −1 ) 


nQ 
nQ 
hQ
MIARY ZRÓŻNICOWANIA
− Klasyczne: wariancja, odchylenie standardowe, klasyczny współczynnik zmienności
− Pozycyjne: rozstęp, rozstęp ćwiartkowy, odchylenie ćwiartkowe, pozycyjny
współczynnik zmienności
WARIANCJA S2 i ODCHYLENIE STANDARDOWE S
Średnia arytmetyczna kwadratów odchyleń wartości cechy od średniej cechy, z tym
zastrzeżeniem że w mianowniku jest n-1.
Wariancji nie interpretuje się. Interpretuje się natomiast odchylenie standardowe, obliczane
jako pierwiastek wariancji. Odchylenie standardowe pokazuje o ile wartości w próbie
odchylają się przeciętnie od średniej. Im większe zróżnicowanie tym większe odchylenia
wartości cechy od średniej i tym większa wariancja.
− dla danych indywidualnych (formuła nieważona):
2
 n 2
x
−
∑
 ∑ xi  / n
1 n
i =1
 i =1 
2
2
S =
( xi − x ) =
=
∑
n − 1 i =1
n −1
n
2
i
n
∑x
i =1
2
i
− n ⋅ ( x )2
n −1
− dla danych pogrupowanych (formuła ważona):
o cecha skokowa
2
 n 2 
x
n
−
∑
 ∑ xi ni  / n
1 n
 i =1

i =1
2
2
S =
( xi − x ) ⋅ ni =
=
∑
n − 1 i =1
n −1
n
2
i i
n
∑ x n − n ⋅ (x )
i =1
2
i i
2
n −1
o cecha ciągła
2
 n o2 
x
n
−
i
 ∑ x i ni  / n
∑
i
n
o
1
i
=
1
 i =1

S2 =
( x i − x ) 2 ⋅ ni =
=
∑
n − 1 i =1
n −1
n
o 2
n
o 2
∑ xi ni − n ⋅ ( x )2
i =1
n −1
KLASYCZNY WSPÓŁCZYNNIK ZMIENNOŚCI
to iloraz odchylenia standardowego i średniej:
V=
S
.
x
Określa, jaki procent średniej stanowi odchylenie standardowe. Im wyższa wartość V tym
większe zróżnicowanie w rozkładzie.
Współczynnik ten oblicza się także do porównania poziomu zróżnicowania cech w dwóch
bądź więcej rozkładach.
ROZSTĘP
to różnica między największą a najmniejszą wartością cechy w zbiorze. Miara ta uwzględnia
tylko wartości skrajne, jest zatem bardzo prosta:
R = xmax − xmin
ROZSTĘP ĆWIARTKOWY
to różnica między kwartylem trzecim a pierwszym, Q3-Q1
ODCHYLENIE ĆWIARTKOWE
to połowa rozstępu ćwiartkowego. Mierzy zróżnicowanie cechy w środkowym przedziale
zmienności:
Q=
Q3 − Q1
2
POZYCYJNY WSPÓŁCZYNNIK ZMIENNOŚCI
to iloraz odchylenia ćwiartkowego i mediany:
V=
Q
.
me
Rozstęp ćwiartkowy, odchylenie ćwiartkowe i pozycyjny współczynnik zmienności
wykorzystuje się do analizowania zróżnicowania cechy w środkowym przedziale zmienności
(ważne w sytuacji gdy w rozkładzie występują wartości skrajne).
MIARY ASYMETRII
Rozkład symetryczny: x =me
Rozkład asymetryczny prawostronnie: me< x , wówczas mówimy, że cecha większości
obserwacji przyjmuje wartości niższe od średniej; typowym przykładem rozkładu
prawostronnie asymetrycznego jest rozkład dochodów (większość osób w zbiorowości
przeważnie zarabia poniżej średniej).
Rozkład asymetryczny lewostronnie: me> x , wówczas mówimy, że cecha większości
obserwacji przyjmuje wartości wyższe od średniej
KLASYCZNY WSPÓŁCZYNNIK ASYMETRII:
A=
M 3'
,
S3
gdzie M 3' to trzeci moment centralny:
M 3' =
1
( xi − x )3 ⋅ ni - w populacji
∑
n
M 3' =
1
( xi − x )3 ⋅ ni - w próbie
∑
n −1
Współczynnik asymetrii określa siłę i kierunek asymetrii:
A = 0 - rozkład symetryczny
A > 0 - rozkład prawostronnie asymetryczny
A < 0 - rozkład lewostronnie asymetryczny
Współczynnik ten przyjmuje przeważnie wartości z przedziału <-2, 2>. Im większa
bezwzględna wartość współczynnika tym silniejsza asymetria rozkładu.