x - E-SGH

Transkrypt

x - E-SGH

mgr Anna Matysiak
PODSTAWOWE POJĘCIA STATYSTYCZNE
POPULACJA (ZBIOROWOŚĆ GENERALNA) – zbiór logicznie powiązanych jednostek,
obiektów, wyników wszystkich pomiarów, np. mieszkańcy Polski, studenci SGH,
gospodarstwa domowe w Polsce. Populacja może być skończona lub nieskończona (pojęcie
teoretyczne, np. rzuty monetą).
Elementy populacji mogą mieć różne właściwości, podlegające obserwacji statystycznej. Są
to CECHY STATYSTYCZNE, np. w populacji mieszkańców Polski są to: płeć, wzrost,
dochody. Cechy statystyczne mogą być:
− niemierzalne (jakościowe),
− mierzalne (ilościowe).
o skokowe (przyjmuje wartości z przeliczalnego zbioru),
o ciągłe
Elementy populacji różnią się między sobą wartościami rozpatrywanej cechy, zatem cecha ta
ma określony rozkład. Celem badania statystycznego jest na ogół poznanie rozkładu cechy
oraz uzyskanie informacji o wartości syntetycznych charakterystyk tego rozkładu. Wyróżnia
się 2 rodzaje badań statystycznych:
− pełne (obejmuje wszystkie elementy populacji)
− niepełne (obejmuje część elementów populacji – próbę).
PRÓBA – podzbiór elementów populacji podlegający badaniu. Najczęściej próbę pozyskuje
się w sposób losowy (próba losowa). Przez losowy dobór próby rozumie się taki sposób
doboru, przy którym:
− każda jednostka populacji ma dodatnie znane prawdopodobieństwo znalezienia się w
próbie,
− istnieje możliwość ustalenia prawdopodobieństwa znalezienia się w próbie dla każdego
elementu populacji.
POMIARU CECH STATYSTYCZNYCH dokonuje się za pomocą następujących skal:
− nominalne – liczby używane w celu identyfikacji cechy, uporządkowanie liczb nie ma
znaczenia (np. płeć)
− porządkowe - liczby używane w celu identyfikacji i uporządkowania cechy (np. poziom
wykształcenia)
− interwałowe – oprócz uporządkowania mierzą względne róznice pomiędzy wartościami
cechy, zero w tej skali jest ustalone dowolnie a stosowna jednostka mierzy odległość od
tego zera (np. wyniki testów psychologicznych, skala Celsjusza)
− stosunkowe (ilorazowe) – zawiera zero bezwzględne, pomiary charakteryzują się stałymi
ilorazami (np. wiek, waga, dochody).
METODY STATYSTYCZNE:
− Opis statystyczny
o Analiza struktury
o Analiza korelacji i regresji
o Analiza dynamiki
− Wnioskowanie statystyczne
o Parametryczne
o Nieparametryczne
Prezentacja wyników:
− opis graficzny
− opis tabelaryczny
RODZAJE DANYCH:
Indywidualne – informują, jaką wartość cechy ma każda jednostka
Pogrupowane – jednostki o określonej wartości (określonych wartościach) cechy
pogrupowane są w szereg rozdzielczy.
ROZKŁAD CECHY – przyporządkowanie uszeregowanym wartościom, przyjmowanym
przez tę cechę, odpowiednio zdefiniowanych częstości ich występowania.
Konstrukcja rozkładu empirycznego cechy:
A. cecha skokowa:
Wartości
Liczebności
cechy
ni
xi
x1
n1
x2
n2
x3
n3
.
.
.
.
.
.
xr
nr
Ogółem
n
B. cecha ciągła:
Przedziały
Liczebności
klasowe
ni
x0i-x1i
x01-x11
n1
x02-x12
n2
x03-x13
n3
.
.
.
.
.
.
x0r-x1r
nr
Ogółem
n
Częstości
wi
w1
w2
w3
.
.
.
wr
1
Częstości
wi
w1
w2
w3
.
.
.
wr
1
Skumulowana
liczebność
n(xi)
n1
n1+n2
n1+n2+n3
.
.
.
n1+n2+...+nr
X
Skumulowana
liczebność
n(xi)
n1
n1+n2
n1+n2+n3
.
.
.
n1+n2+...+nr
X
Dystrybuanta
empiryczna
Fn(xi)
w1
w1+w2
w1+w2+w3
.
.
.
w1+w2+...+wr
X
Dystrybuanta
empiryczna
Fn(xi)
w1
w1+w2
w1+w2+w3
.
.
.
w1+w2+...+wr
X
Aby skonstruować empiryczny rozkład cechy ciągłej należy w pierw:
− określić liczbę przedziałów klasowych cechy: r≤5 log n
− ustalić rozpiętości przedziału klasowego:
i =1,..., r
hi = x1i − x 0i ;
gdzie:
hi - rozpiętość i-tego przedziału klasowego,
x0i, x1i - odpowiednia dolna i górna granica przedziału
klasowego.
HISTOGRAM
Zbiór prostokątów, których podstawy wyznaczone są na osi odciętych przez poszczególne
przedziały klasowe, natomiast wysokości są określone na osi rzędnych przez liczebności
(częstości) odpowiadające poszczególnym przedziałom klasowym. Stosunek pola
powierzchni każdego prostokąta do sumy powierzchni wszystkich prostokątów wynosi ni/n.
ni ∆xi
∑ ni ∆xi
0,4
0,3
0,2
0,1
x2
x1
LICZEBNOŚĆ: ni ,
∑n
i
ni
,
n
CZĘSTOŚĆ: wi =
x3
x4
x5
x6
x
= n , gdzie n – liczebność zbiorowości
∑ w =1.
i
SKUMULOWANE LICZEBNOŚCI n(xl) rozkładu dla wartości xl nazywamy liczebność
jednostek zbiorowości, które mają wartość cechy co najwyżej równą xl:
l
n( xl ) = n( x ≤ xl ) = n1 + n2 + ...nl = ∑ ni
i =1
DYSTRYBUANTA EMPIRYCZNA Fn (x) nazywamy funkcję określoną na podstawie
danych (xi, wi), i=1,2,…,k, następująco:
dla x < x1
0
i
Fn ( x) =
∑w
dla xi ≤ x < xi +1 ,
1
dla xk ≥ k
l =1
l
i = 1, 2,..., k − 1
. Dystrybunata jest funkcją:
− niemalejącą,
− przedziałami stałą,
− ograniczoną w przedziale [0,1].
A. dystrybuanta dla cechy skokowej:
F(x)
1
F(x3)
F(x2)
F(x1)
0
x2
x1
x3
x
B. dystrybuanta dla cechy ciągłej
f(x)
1
F(x4)
F(x3)
F(x2)
F(x1)
0
x1
x2
x3
x4
x5
x
WŁASNOŚCI ROZKŁADU EMPIRYCZNEGO:
Położenie
Zróżnicowanie (dyspercja, znienność)
MIARY POŁOŻENIA:
− Klasyczne - stanowią wypadkową wszystkich wartości cechy wszystkich badanych
jednostek zbiorowości: średnia
− Pozycyjne - wyznaczane są typową pozycją niektórych jednostek lub grup jednostek:
dominanta, kwantyle rzędu p
Ponadto średnia, mediana i dominanta są miarami tendencji centralnej.
ŚREDNIA x
miara szeroko rozpowszechniona, jej wartość jest wrażliwa na wartości ekstremalne w
rozkładzie, gdy mamy do czynienia z dużymi wartościami skrajnymi miara nieprawidłowa
− dla danych indywidualnych (średnia arytmetyczna nieważona):
x=
1 n
∑x j
n j =1
− dla danych pogrupowanych (średnia arytmetyczna ważona):
o cecha skokowa:
r
1 r
x = ∑ x i ⋅ wi = ∑ x i ⋅ ni
n i =1
i =1
o cecha ciągła:
r o
x = ∑ x i ⋅ wi =
i =1
1 r o
∑ x i ⋅ ni ,
n i =1
gdzie:
o
xi =
xi1 + xi 0
2
(i = 1,..., r ), przy czym:
o
x - środek i-tego przedziału klasowego.
DOMINANTA D(x)
wartość występująca w rozkładzie najczęściej, tzn. wartość, której odpowiada najwyższa
liczebność (częstość). W przypadku cechy ciągłej dominantę wyznacza się ze wzoru:
D( x ) = x0 d +
nd − nd −1
wd − wd −1
⋅ hd = x0 d +
⋅ hd
2wd − (wd −1 + wd +1 )
(nd − nd −1 ) + (nd − nd +1 )
gdzie:
x0d - dolna granica przedziału, w którym występuje dominanta,
hd - rozpiętość tego przedziału,
nd, wd, nd-1, wd-1, nd+1, wd+1 - odpowiednio liczebność i częstość przedziału w którym
występuje dominanta, przedziału poprzedniego i następnego.
MEDIANA M(x)
taka wartość cechy M(x), że co najmniej połowa jednostek zbiorowości ma wartość cechy nie
większą niż M(x) i równocześnie co najmniej połowa jednostek ma wartość cechy nie
mniejszą niż M(x). Innymi słowy jest to wartość środkowa w uporządkowanym szeregu,
występowanie wartości skrajanych w rozkładzie nie wpływa na wartość mediany.
−
dla rozkładu skokowego:
M (x ) =
 x( n +1) / 2 ,


 x +x
n
n+2

2
2
,


2
gdy n nieparzyste
gdy n parzyste
lub inaczej, medianą jest wartość cechy, dla której - jako pierwszej - dystrybuanta empiryczna
przyjmuje wartość co najmniej 1/2, tzn.:
−
dla rozkładu ciągłego:
M ( x ) = x0 m +
hm  n

−
n
(
x
)
0
m
−1

nm  2
lub
M ( x ) = x0 m +
hm  1
,
(
)
F
x
−
n
0
m
−1

wm  n
gdzie:
x0m - dolna granica przedziału, w którym znajduje się wartość mediany,
n(x0m-1), Fn(x0m-1) - odpowiednio liczebność i częstość skumulowana w przedziale
poprzedzającym klasę mediany,
hm,nm,wm - odpowiednio rozpiętość, liczebność oraz częstość przedziału, w którym znajduje
się mediana.
KWANTYL RZĘDU P
taka wartość zmiennej kp, dla której - jako pierwszej - dystrybuanta empiryczna spełnia
relację:
Fn (k p ) ≥ p, 0 < p < 1
Kwartyle (kwantyle rzędu p= k , k=1,2,3):
•
•
•
4
Q1 - kwartyl pierwszy (kwantyl rzędu 1/4),
Q2 - kwartyl drugi (kwantyl rzędu 2/4, czyli mediana),
Q3 - kwartyl trzeci (kwantyl rzędu 3/4).
− dla rozkładu skokowego:
Qk = x( n +1)⋅k / 4 a gdy (n + 1) ⋅ k / 4 nie jest liczbą całkowitą to należy ją zaokrąglić , przy
czym 0,5 dla pierwszego kwartyna zaokrąglamy w górę dla trzeciego kwartyna w dół
− Dla rozkładu ciągłego:
Qk = x0Q +
hQ
h
 p ⋅ n − n ( x0Q −1 )  = x0Q + Q  p − F ( x0Q −1 ) 



nQ
nQ 
MIARY ZRÓŻNICOWANIA
− Klasyczne: wariancja, odchylenie standardowe,
− Pozycyjne: rozstęp
WARIANCJA S2 i ODCHYLENIE STANDARDOWE S
Średnia arytmetyczna kwadratów odchyleń wartości cechy od średniej cechy, z tym
zastrzeżeniem że w mianowniku jest n-1.
Wariancji nie interpretuje się. Interpretuje się natomiast odchylenie standardowe, obliczane
jako pierwiastek wariancji. Odchylenie standardowe pokazuje o ile wartości w próbie
odchylają się przeciętnie od średniej. Im większe zróżnicowanie tym większe odchylenia
wartości cechy od średniej i tym większa wariancja.
− dla danych indywidualnych (formuła nieważona):
2
 n 2
x −  ∑ xi  / n
∑
1 n
i =1
 i =1 
2
2
S =
( xi − x ) =
=
∑
n − 1 i =1
n −1
n
2
i
n
∑x
i =1
2
i
− n ⋅ ( x )2
n −1
− dla danych pogrupowanych (formuła ważona):
o cecha skokowa
2
 n 2 
−
x
n
∑
 ∑ xi ni  / n
1 n
i =1
 i =1

2
2
S =
( xi − x ) ⋅ ni =
=
∑
n − 1 i =1
n −1
n
2
i i
n
∑ x n − n ⋅ (x )
i =1
2
i i
2
n −1
o cecha ciągła
2
 n o2 
x
n
−
i
 ∑ x i ni  / n
∑
i
1 n o
i =1
 i =1

2
2
S =
=
( xi − x ) ⋅ ni =
∑
n − 1 i =1
n −1
n
o 2
n
o 2
∑x
i =1
i
ni − n ⋅ ( x ) 2
n −1
WSPÓŁCZYNNIK ZMIENNOŚCI
to iloraz odchylenia standardowego i średniej:
V=
S
.
x
Określa, jaki procent średniej stanowi odchylenie standardowe. Im wyższa wartość V tym
większe zróżnicowanie w rozkładzie.
Współczynnik ten oblicza się także do porównania poziomu zróżnicowania cech w dwóch
bądź więcej rozkładach.
ROZSTĘP
to różnica między największą a najmniejszą wartością cechy w zbiorze. Miara ta uwzględnia
tylko wartości skrajne, jest zatem bardzo prosta:
Q = xmax − xmin

x - E-SGH

Transkrypt

Podobne dokumenty

stat opisowa - teoria - E-SGH

miary położenia

Mierniki statystyczne (2 godziny)

Równanie kwadratowe z parametrem i warunek: pierwiastek

Sortowanie przez odwracanie Limit pamięci: 256 MB

Wzory na kolokwium 1. Szereg rozdzielczy punktowy xi- i

Tablica wzorów.

Statystyka Opisowa Wzory

CW2 MEWS

Ćwiczenia 1-2 – Analiza rozkładu empirycznego Zadanie 1. Z

redni samochd ratownictwa wodnego na podwoziu Mercedes Benz