STATYSTYKA

Transkrypt

STATYSTYKA
STATYSTYKA
Rafał Kucharski
Uniwersytet Ekonomiczny w Katowicach 2015/16
ROND, Finanse i Rachunkowość, rok 2
Statystyka
I
zbiór przetworzonych i zsyntetyzowanych danych liczbowych,
I
nauka o ilościowych metodach badania zjawisk masowych,
I
zmienna losowa będąca funkcją próby.
Podstawowe pojęcia:
I
populacja (zbiorowość statystyczna),
I
jednostka statystyczna,
I
próba.
Cechy:
I ilościowe (mierzalne),
I
I
I
I
skokowe (dyskretne),
quasi ciągłe,
ciągłe,
jakościowe (niemierzalne).
Skale
I
słabe, niemetryczne, jakościowe:
I
nominalna (kategoryjna, wariantowa):
I
I
I
porządkowa (rangowa),
I
I
dwudzielna (dychotomiczna): np. kobieta/mężczyzna, tak/nie, 0/1,
wielodzielna (politomiczna): np. kolor, marka, gatunek,
np. oceny, preferencje, nie/raczej nie/nie mam zdania/raczej tak/tak
silne, metryczne, ilościowe:
I
przedziałowa (interwałowa),
I
I
np. temperatura w skali Celsjusza,
ilorazowa (stosunkowa),
I
np. temperatura w skali Kelvina,
I
zamknięte/otwarte,
I
Zmienna ze skali mocniejszej może być rozpatrywana w skali
słabszej, ale nie odwrotnie.
Badanie statystyczne
I
pełne, częściowe,
I
ciągłe, okresowe, doraźne,
I
badania ankietowe, monograficzne, próbkowe (metoda
reprezentacyjna).
I
szacunki: interpolacja, ekstrapolacja,
Etapy badania statystycznego:
I
przygotowanie badania (cel, populacja, jednostka, metoda),
I
obserwacja statystyczna,
I
opracowanie i prezentacja materiału statystycznego,
I
opis lub wnioskowanie statystyczne.
Szeregi statystyczne
Szeregi statystyczne
szczegółowe
punktowe
rozdzielcze
przedziałowe
czasowe
momentów
okresów
przestrzenne
Szereg szczegółowy (wyliczający, dane indywidualne)
3590,
1520,
1990,
1520,
2045,
2145,
1520,
2340,
1830,
1830,
1520,
2145,
2340,
2145,
1990,
1830,
2145,
1460,
1460,
1460,
1830,
1460,
2145,
1460,
1990,
1830,
1460,
1460,
2299,
1520,
1830,
1520,
1460,
1460,
1660,
1460,
1830,
2299,
1660,
1460,
1520,
1460,
1520,
1460,
1660,
1660,
2340,
4960,
1460,
1460,
1830,
1520,
1520,
2612
1990,
1520,
1990,
2340,
1520,
2612,
2145,
1460,
1460,
1460,
Szereg rozdzielczy punktowy
i
1
2
3
4
5
6
7
8
9
10
11
12
Razem
xi
1460
1520
1660
1830
1990
2045
2145
2299
2340
2612
3590
4960
×
ni
18
12
4
8
5
1
6
2
4
2
1
1
64
Szereg rozdzielczy przedziałowy
xi
1000 –
2000 –
3000 –
4000 –
1999
2999
3999
4999
xi
mniej niż 1500
1500 – 2000
2000 – 2500
2500 – 3000
3000 i więcej
ni
47
15
1
1
ni
18
29
13
2
2
Empiryczny rozkład cechy
I
wartości cechy: xi , i = 1, . . . , k,
I
zakładamy dalej, że wartości są uporządkowane rosnąco:
xmin = x1 < x2 < · · · < xk = xmax ,
I
końce przedziałów klasowych: x0i < x1i ,
I
rozpiętość przedziału: hi = x1i − x0i ,
x0i + x1i
.
środek przedziału: ẋi =
2
liczebności: ni – liczba obserwacji o wartościach równych xi , lub
mieszczących się w i-tym przedziale klasowym,
I
I
I
I
liczebność zbiorowości (próby, populacji): n =
ni P
częstości: fi = , ki=1 fi = 1,
n
Pk
i=1 ni ,
Liczebność skumulowana, dystrybuanta empiryczna
I
Liczebność skumulowana: liczba obserwacji nie większa od danej
wartości cechy:
X
n(x) =
ni
i:xi ¬x
I
Dystrybuanta empiryczna: frakcja (część) obserwacji nie większa od
danej wartości cechy:
Fn (x) =
X
i:xi ¬x
fi =
n(x)
.
n
Liczba
zadań
xi
0
1
2
3
4
5
Suma
Liczebność
Częstość
ni
7
14
6
9
4
0
40
fi
0.175
0.35
0.15
0.225
0.1
0
1
Skumulowana
liczebność
n(xi )
7
21
27
36
40
40
×
Dystrybuanta
empiryczna
Fn (xi )
0.175
0.525
0.675
0.900
1
1
×
Miary opisu struktury
I
poziom przeciętny (położenie, średni poziom wartości): średnia,
mediana, dominanta (moda),
I
zróżnicowanie (rozproszenie, dyspersja, zmienność): wariancja,
odchylenie standardowe, odchylenie przeciętne, odchylenie
ćwiartkowe, rozstęp,
I
asymetria (skośność): skośność, współczynnik Yule’a-Kendalla,
I
koncentracja (spłaszczenie): kurtoza, współczynnik Giniego,
entropia,
Średnia arytmetyczna
I
dla danych indywidualnych:
x̄ =
I
n
x1 + · · · + xn
1X
xi =
,
n i=1
n
dla szeregów rozdzielczych punktowych:
x̄ =
I
dla szeregów rozdzielczych przedziałowych:
x̄ =
I
k
k
X
1X
xi ni =
xi fi ,
n i=1
i=1
k
k
X
1X
x˙i ni =
x˙i fi .
n i=1
i=1
xmin ¬ x̄ ¬ xmax , ni=1 xi = nx̄, ni=1 (xi − x̄) = 0
P
P
(lub ki=1 (xi − x̄)ni = 0 lub ki=1 (x˙i − x̄)ni = 0),
P
P
xi
(20, 25]
(25, 30]
(30, 35]
Σ
x̄ =
ni
11
23
16
50
x˙i
22.5
27.5
32.5
×
1400
= 28.
50
x˙i ni
247.5
632.5
520.0
1400
Mediana – wartość środkowa, kwantyle
I
Medianą z próby Me nazywamy taką wartość, że co najmniej
połowa obserwacji ma wartość nie większą niż Me i równocześnie
co najmniej połowa obserwacji ma wartość nie mniejszą niż Me.
I
Inaczej: jest to najmniejsza wartość, dla której
Fn (Me) ­
I
1
2
n(Me) ­
n
.
2
dla szeregów szczegółowych:
Me =


x n+1
gdy n jest nieparzyste,
2
x n + x n2 +1
 2

I
lub rownoważnie
2
gdy n jest parzyste.
kwantylem empirycznym rzędu p, gdzie 0 < p < 1, nazywamy
najmniejszą wartość qp cechy, dla której zachodzi:
Fn (qp ) ­ p.
Kwantyle, kwartyle
I
dla szeregów przedziałowych kwantyle aproksymujemy wzorem
qp ≈ x0p + [pn − n(x0p )] ·
I
I
I
I
I
I
I
I
n · hp
hp
= x0p + [p − Fn (x0p )] ·
np
np
p – rząd kwantyla,
x0p – dolna granica przedziału kwantyla: Fn (x0p ) ¬ p < Fn (x1p ),
np – liczebność przedziału kwantyla,
hp – szerokość przedziału kwantyla,
n(x0p ) – liczebność skumulowana w przedziale poprzedzającym
przedział kwantyla,
Fn (x0p ) – wartość dystrybuanty empirycznej na końcu przedziału
poprzedzającego przedział kwantyla,
kwartyle: Q1 = q0.25 , Q2 = Me = q0.5 , Q3 = q0.75 ,
w szczególności dla p = 21 otrzymujemy wzór dla mediany:
n
hM
1
n · hM
+
− n(x0M ) ·
= x0M +
− Fn (x0M ) ·
2
nM
2
nM
Me ≈ x0M
1
xi
(20, 25]
(25, 30]
(30, 35]
ni
11
23
16
Fn (xi )
0.22
0.68
1
0.75
0.5
0.25
20
25
30
50 · 5
≈ 25.33,
23
50 · 5
Me = 25 + [0.5 − 0.22] ·
≈ 28.04,
23
50 · 5
Q3 = 30 + [0.75 − 0.68] ·
≈ 31.09.
16
Q1 = 25 + [0.25 − 0.22] ·
35
Dominanta
I
Dominantą (modą, modalną) nazywamy wartość zmiennej, która
występuje najczęściej,
I
można wyznaczać tylko w rozkładach jednomodalnych,
I
w szeregach szczegółowych i punktowych jest to wartość cechy
odpowiadająca największej liczebności,
I
w szeregach przedziałowych aproksymujemy ją wzorem:
D ≈ x0D +
I
I
I
I
nD − nD−1
hD ,
(nD − nD−1 ) + (nD − nD+1 )
x0D – dolna granica przedziału dominanty (o największej
liczebności),
nD , nD−1 , nD+1 – odpowiednio liczebność przedziału dominanty,
przedziału poprzedniego i następnego,
hD – rozpiętość przedziału dominanty.
„Wzór Pearsona”: Me ≈ 13 D + 23 x̄.
25
xi
(20, 25]
(25, 30]
(30, 35]
ni
11
23
16
20
15
10
5
20
D = 25 +
25
D 30
35
23 − 11
· 5 ≈ 28.16.
(23 − 11) + (23 − 16)
Uwaga: w przypadku przedziałów o różnej szerokości liczebności ni
zastępujemy gęstościami: gi = ni /hi .
Wariancja
I
dla danych indywidualnych:
n
n
1X
1X
2
(xi − x̄) =
x 2 − (x̄)2 ,
S =
n i=1
n i=1 i
2
I
dla szeregów rozdzielczych punktowych:
S2 =
I
k
k
1X
1X
(xi − x̄)2 ni =
x 2 ni − (x̄)2 ,
n i=1
n i=1 i
dla szeregów rozdzielczych przedziałowych:
S2 =
k
k
1X
1X
(x˙i − x̄)2 ni =
x˙i 2 ni − (x̄)2 ,
n i=1
n i=1
poprawka Shepparda: S̄ 2 = S 2 −
h2
,
12
I
odchylenie standardowe: S =
I
współczynnik zmienności:
√
S 2,
V =
I
odchylenie przeciętne:
n
1X
|xi − x̄|
d=
n i=1
I
S
,
x̄
k
1X
d=
|xi − x̄| · ni
n i=1
!
odchylenie ćwiartkowe:
Q=
Q3 − Q1
,
2
Q
,
Me
I
pozycyjny współczynnik zmienności: V =
I
rozstęp: R = xmax − xmin ,
I
rozstęp ćwiartkowy (międzykwartylowy): IQR = Q3 − Q1 ,
,
x̄ =
xi
(20, 25]
(25, 30]
(30, 35]
Σ
ni
11
23
16
50
x˙i
22.5
27.5
32.5
×
1400
= 28,
50
x˙i ni
247.5
632.5
520.0
1400
(x˙i − x̄)2
30.25
0.25
20.25
×
662.5
= 13.25,
√50
S = 13.25 ≈ 3.64,
31.09 − 25.33
Q≈
= 2.88,
2
S2 =
(x˙i − x̄)2 ni
332.75
5.75
324.00
662.50
Równość wariancyjna
I
mamy informacje o k grupach: ich liczebności ni , średnie x̄i oraz
wariancje (wewnątrzgrupowe) Si2 ,
I
średnia ogólna, to średnia ważona liczebnościami:
Pk
I
liczbę
2
· ni
.
i=1 ni
i=1 x̄i
x̄ =
Pk
Pk
i=1 (x̄
S (x̄i ) =
− x̄i )2 · ni
i=1 ni
Pk
nazywamy wariancją międzygrupową,
I
wariancja ogólna wyraża się wzorem:
2
S =
Si2
2
+ S (x̄i ) =
Pk
2
i=1 Si · ni
Pk
i=1 ni
Pk
+
i=1 (x̄
− x̄i )2 · ni
.
i=1 ni
Pk
I
Moment zwykły rzędu r :
n
1X
xr ,
mr =
n i=1 i
I
k
1X
mk =
x r · ni
n i=1 i
!
Moment centralny rzędu r :
n
1X
Mr =
(xi − x̄)r ,
n i=1
k
1X
Mk =
(xi − x̄)r · ni
n i=1
!
Asymetria
I
klasyczny współczynnik asymetrii:
γ3 =
I
współczynnik Yule’a-Kendalla:
AQ =
I
M3
,
S3
(Q3 − Q2 ) − (Q2 − Q1 )
,
(Q3 − Q2 ) + (Q2 − Q1 )
współczynnik skośności Pearsona:
AS =
x̄ − D
,
S
Asymetria
wartości dodatnie
asymetria prawostronna
wartości ujemne
asymetria lewostronna
Kurtoza
γ4 =
wartości dodatnie
rozkład wysmukły
(leptokurtyczny)
M4
− 3,
S4
wartości ujemne
rozkład spłaszczony
(platokurtyczny)
Krzywa koncentracji Lorenza, współczynnik Giniego
I
linia łamana powstała z połączenia punktów o współrzędnych:
j
zi
j
P
, ni=1
n
z
i=1 i
P
(x0 , y0 ) = (0, 0),
I
(xj , yj ) =
(xj , yj ) =
I
,
j = 1, . . . , n.
dla szeregu rozdzielczego: (x0 , y0 ) = (0, 0),
Pj
Pj
I
!
i=1 ni
n
,
i=1 zi
Pk
i=1 zi
· ni
· ni
!
,
j = 1, . . . , k.
podwojone pole obszaru między krzywą Lorenza a przekątną
kwadratu jednostkowego nazywamy współczynnikiem koncentracji
Giniego:
Pn
j=1 (2j − n − 1)zj
G=
.
n2 · z̄
współczynnik Giniego przyjmuje wartości z przedziału [0, 1],
gdzie 0 oznacza rozkład równomierny, a wartość 1 – rozkład
skupiony w pojedynczej wartości,
j
1
2
3
4
5
zj
1
2
3
4
90
Pj
i=1 zi
1
3
6
10
100
xj
0.2
0.4
0.6
0.8
1
yj
0.01
0.03
0.06
0.10
1
2j − n − 1
-4
-2
0
2
4
(2j − n − 1)zj
-4
-6
0
20
400
0.2 0.4 0.6 0.8
G=
−4 − 6 + 20 + 400
410
=
= 0.82.
52 · 20
500
Źródło: en.wikipedia.org, dane: World Bank
Entropia
I
dla zmiennej losowej dyskretnej:
H=−
X
px ln(px ),
x
I
dla danych empirycznych w postaci szeregu rozdzielczego
punktowego:
k
X
ni
ni
ln
,
H=−
n
n
i=1
I
Uwaga: przyjmujemy 0 · ln(0) = 0,
I
duża wartość entropii oznacza duże rozproszenie – rozkład zbliżony
do równomiernego – „mało informacji”,
I
Entropia nie bierze pod uwagę wartości – tylko
liczebności/prawdopodobieństwa.
Średnia harmoniczna
I
Chcemy policzyć średnią wielkości stosunkowych (prędkość,
gęstość, wydajność, zużycie na osobę, itp.)
ai =
I
bi
,
ci
i = 1, . . . , k.
Jeśli znamy wartości ai oraz ci , to bi = ai · ci , zatem odpowiednia
jest średnia arytmetyczna, ważona współczynnikami ci :
Pk
Pk
ā =
I
i=1 bi
Pk
i=1 ci
=
Jeśli znamy wartości ai oraz bi , to ci =
jest średnia harmoniczna z wagami bi :
Pk
ā =
i=1 bi
Pk
i=1 ci
· ci
.
i=1 ci
i=1 ai
Pk
bi
, zaś właściwą średnią
ai
Pk
=
i=1 bi
Pk
i=1
bi
ai
.
Średnia harmoniczna
I
Jaka jest średnia gęstość zaludnienia w Trójmieście?
Miasto
Ludność
Gęstość zaludnienia
I
Gdańsk
461 489
1762
Gdynia
247 820
1834
Sopot
37 654
2179
Licząc (zwykłą) średnią arytmetyczną otrzymujemy:
x̄ =
1762 + 1834 + 2179
= 1925,
3
podczas gdy prawidłowy wynik, to
x̄H =
461 489 + 247 820 + 37 654
≈ 1802.87.
461 489
247 820
37 654
1762 + 1834 + 2179
Średnia harmoniczna
I
I
Przez n kolejnych dni kupujemy akcje pewnej spółki, po cenie xi w
i-tym dniu, i = 1, . . . , n, za stałą kwotę c.
Średnia cena zakupu jest średnią harmoniczną:
n
n
c
x̄H = Pni=1 c = Pn
P
1
i=1 xi
i=1 xi
I
I
.
Przez n kolejnych dni sprzedajemy akcje pewnej spółki, w liczbie k
sztuk każdego dnia, po cenie xi w i-tym dniu, i = 1, . . . , n.
Średnia cena sprzedaży, to średnia arytmetyczna:
Pn
Pn
xi
i=1 xi · k
= i=1 .
x̄ = Pn
i=1 k
I
n
Dla dowolnych 0 < x1 , . . . , xn zachodzi warunek:
n
x̄H = Pn
1
i=1 xi
Pn
¬
i=1 xi
n
= x̄.