x - E-SGH

Transkrypt

x - E-SGH
WYKŁAD 1
Podstawowe pojęcia
Metody opisowe w analizie
rozkładu cechy
Zbiorowość statystyczna
- zbiór elementów lub wyników jakiegoś
procesu powiązanych ze sobą logicznie
(tzn. posiadających wspólne cechy stałe) i
jednocześnie nieidentycznych (tzn.
różniących się ze względu na cechy
zmienne).
Cechy statystyczne - właściwości jednostek
zbiorowości statystycznej
TYPY CECH STATYSTYCZNYCH
cechy mierzalne
czyli: ilościowe, które
można określić za
pomocą liczb
ciągłe
czyli: wartości
rzeczywiste z
pewnego
przedziału
skokowe (dyskretne)
czyli przyjmujące
skończoną lub co
najwyżej przeliczalną
liczbę wartości
cechy niemierzalne
czyli: jakościowe, które
można opisać jedynie
słownie lub za pomocą
odpowiednich skal
numerycznych
Rodzaje badań statystycznych
Badanie pełne
obejmujące wszystkie
elementy zbiorowości
generalnej.
Zbiorowość generalna (populacja generalna) kompletny zbiór elementów lub wyników procesu.
Badanie częściowe
obejmujące pewną część
elementów zbiorowości
generalnej
PRÓBA
Metody statystyczne
metody opisu
syntetyczny liczbowy opis
właściwości zbioru danych
statystyka opisowa
metody wnioskowania
statystycznego
ocena charakterystyk populacji
generalnej na podstawie
danych częściowych = metody
rachunku prawdopodobieństwa
statystyka matematyczna
Cecha = liczba rodzeństwa
Rozkład empiryczny cechy =
dane pogrupowane i uporządkowane
xi - cecha przyjmuje k wartości, dla i= 1,2, ... ,k,.
gdzie ..,k (1k<n),
Szereg rozdzielczy
x
i
0
1
2
3
4
razem
n
w
38
46
24
8
4
120
0,32
0,38
0,20
0,07
0,03
1,00
i
i
ni - liczba jednostek zbiorowości, dla których
cecha przyjmuje wartość xi,
r
przy czym zachodzi:
 ni  n ,
i 1
wi - udział jednostek o wartości xi cechy w ogólnej
liczebności
zbiorowości,
czyli
częstość
względna (częstość jej występowania w ogólnej
zbiorowości) określana jako:
r
wi 
ni i  1,2 ,..., k
wi  1

,oraz i 1
n;
Graficzna prezentacja
Wykres punktowy
Wykres słupkowy
Szereg rozdzielczy
Wartości cechy Liczebności Częstości
xi
ni
wi
x1
x2
x3
.
.
xk
Ogółem
n1
n2
n3
.
.
nk
n
w1
w2
w3
.
.
wk
1
Dystrybuanta
empiryczna
Fn(xi) =  ws
w1
w1+w2
w1+w2+ w3
.
w1+ ... +wk =1
-------
Dystrybuanta empiryczna cechy X
jest to funkcja Fn (x) określona na zbiorze liczb
rzeczywistych od -∞ do + ∞
Wartość cechy dystrybuanta
x
i
0
1
2
3
4
razem
dystrybuanta
0,32
0,70
0,90
0,97
1,00
-
x<0
0≤x<1
1≤x<2
2≤x<3
3≤X<4
x≥4
razem
0
0,32
0,70
0,90
0,97
1,00
-
Dystrybuanta empiryczna cechy X
Dystrybuanta cechy skokowej x
liczbaLiczba
rodzeństwa
⇨ cecha
(liczba
dzieci w rodzinach)
rodzeństwa
F(x)
1,00
0,97
1,00
0,90
0,96
0,86
0,70
0,58
0,32
0,29
0
0
1
2
3
4
x
skokowa x
Rozkład empiryczny cechy ciągłej
Cecha = wiek ulubionego przeboju muzycznego (w latach)
<x0i – x1i )
5-10
10-15
15-20
20-25
25-30
30-35
razem
n
i
2
20
38
35
15
10
120
podział obszaru
przedziały klasowe
zmienności
cechy
na
określenie liczby przedziałów klasowych k
(k5),
(k
≥ 5)
ustalenie rozpiętości przedziału klasowego hi:
hi  x1i  x 0i
i  1,2,..., k
x0i, x1i - odpowiednia dolna i górna granica
przedziału klasowego.
Graficzna prezentacja
Wiek ulubionego przeboju muzycznego
Wielobok
liczebności
5
10
15
20
25
30
35
Wiek ulubionego przeboju muzycznego
Histogram
5
10
15
20
25
30
35
Dystrybuanta cechy ciągłej x
F(x)
Wiek ulubionego przeboju muzycznego
lata
Opis rozkładu empirycznego → charakterystyki rozkładu
MIARY
KLASYCZNE
Położenia
•Średnia
arytmetyczna
Zróżnicowania
Asymetrii
POZYCYJNE
•Mediana
•Kwartyle, decyle
•Dominanta
•Wariancja
•Rozstęp
•Odchylenie
•Rozstęp
standardowe
międzykwartylowy
•Współczynnik •Odchylenie
zmienności
ćwiartkowe
•Współczynnik
zmienności
•Współczynnik
asymetrii
Miary położenia
Średnia arytmetyczna:
dane indywidualne ,
n
1
formuła nieważona x   x
j
n j 1
w rozkładzie cechy skokowej, dane pogrupowane,
k
1
x  xini
n i 1
formuła ważona
w rozkładzie z przedziałami klasowymi,
formuła ważona
o
x
k
1
x   x i n i
n i 1
xi1  xi 0
- środek i-tego przedziału klasowego xi 
2
o
Miary położenia
Średnia arytmetyczna:
dane indywidualne ,
x –x
x
n
0i
1i
i
n
1
5-10
7,5 x 
xj
formuła2nieważona

10-15
20
12,5
n j 1
w
i
15-20
38
17,5
rozkładzie
cechy
dane pogrupowane,
20-25
35 skokowej,
22,5
k
1
25-30
15
27,5
x
formuła ważona
i i
30-35
10
32,5
n i 1
razem
120
x
x n
w rozkładzie z przedziałami klasowymi,
formuła ważona
o
x
k
1
x   x i n i
n i 1
xi1  xi 0
- środek i-tego przedziału klasowego xi 
2
o
Miary położenia
Miary pozycyjne - kwantyle
Mediana – dzieli na połowę
Kwartyle – dzielą na cztery równe części
Decyle – dzielą na dziesięć równych części
Centyle – dzielą na sto równych części
Miary położenia
kwantyl rzędu p  (0 < p <1)  w
rozkładzie empirycznym to taka wartość kp
cechy, dla której - jako pierwszej - dystrybuanta
empiryczna spełnia warunek: Fn (kp)  p
me =Mediana
Q=Kwartyle
Decyle
Centyle
Fn (k0,5)  0,5
Fn (k0,25)  0,25
Fn (k0,75)  0,75
Fn (k0,1)  0,1 Fn (k0,2)  0,2
… Fn (k0,9)  0,9
Fn (k0,01)  0,01 Fn (k0,02)  0,02… Fn (k0,99)  0,99
Miary położenia
Dystrybuanta cechy ciągłej x → skumulowane częstości
Graficzne wyznaczanie mediany
F(x)
Wiek ulubionego przeboju muzycznego
0,50
me
lata
Miary położenia
Przykład wyznaczania kwartyli : szereg rozdzielczy cecha skokowa
Fn (Q1 )  0,25
x
i
0
1
2
3
4
razem
Fn (me)  0,5
Fn (Q3 )  0,75
dystrybuanta
0,32
0,70
0,90
0,97
1,00
-
Q1 = 0
Mediana = 1= Q2
Q3 = 2
Miary położenia
kwartyle  Q1 , Q2 , Q3
• w rozkładzie cechy skokowej
Fn (Q1 )  0,25;
0,75
Fn (Q2)  0,5;
Fn (Q3 ) 
• w rozkładzie z przedziałami klasowymi
Q1  x oQ1  (0,25 - Fn (x oQ1) )
h
Q1
w
Q1
Q3  x oQ3  (0,75 - Fn (x oQ3) )
Q2=me
h
Q3
w
Q3
Miary zróżnicowania
Miary zróżnicowania klasyczne
wariancja  z próby, to suma kwadratów odchyleń
wartości cechy od jej średniej podzielona przez n-1
dane indywidualne, formuła nieważona
n
S  n11 (x j  x)
2
2
j 1
w rozkładzie cechy skokowej, formuła ważona
k
S  n11  (xi  x ) ni
2
2
i 1
w rozkładzie z przedziałami klasowymi, formuła ważona
S
2
k
 1  (xi  x)
n 1
i 1
2
ni
Miary zróżnicowania
odchylenie standardowe 
S S
2
Miary zróżnicowania
Miary zróżnicowania
pozycyjne
• rozstęp = xmax – xmin
• rozstęp międzykwartylowy 
• odchylenie ćwiartkowe

I = Q3 - Q1
Q3 Q1
Q
2
Miary zróżnicowania
Miary względne
współczynnik zmienności (miara klasyczna )
V  S *100%
x
współczynnik zmienności (miara pozycyjna )
Q
V  me *100%
Średnia
arytmetyczn
a
Odchylenie Współczynni
standardowe
k
zmienności
(klasyczny)
studenci
20,5
6
29%
starsi
25
7
28%
średnia; mediana; dominanta (do)
Asymetria dodatnia (prawostronna)
Symetria
ni
ni
A=0
A>0
Mx 
D
xx me
dox
ni
xi
Dx M
xx
do
mex 
Asymetria ujemna (lewostronna)
A<0
xx M
me Ddo
x
x
xi
xi
Miary asymetrii
Miary asymetrii
współczynnik asymetrii (miara klasyczna)
A
M3
S
3
pozycyjny współczynnik asymetrii
(Q3  me) (me Q1)
A2 
Q3 Q1
współczynnik skośności
A1  x  do
S
Miary asymetrii
dla danych indywidualnych, formuła nieważona
n
Moment centralny
trzeciego rzędu
M 3  1n (x j  x )
3
j 1
-
w rozkładzie cechy skokowej, formuła ważona
n
3
1
M 3  n-  (x  x ) *n
i
i
j 1
w rozkładzie z przedziałami klasowymi, formuła
ważona
n
3
1
M 3  n  (x  x ) *n
i
i
j 1
Miary asymetrii
Obliczanie klasycznego współczynnika asymetrii
Wiek ulubionego przeboju muzycznego (w latach)
k
Moment centralny
trzeciego rzędu
-1
=59,20
i
A
A=0
A>0
A<0
M3
S3
symetria
asymetria dodatnia (prawostronna)
asymetria ujemna (lewostronna)
-2<A<2