636,1 x fx

Transkrypt

636,1 x fx
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Mikołaj Rybaczuk
Politechnika Białostocka
Wydział Zarządzania
Katedra Informatyki i Logistyki
MATERIAŁY DO WYKŁADÓW I ĆWICZEŃ
ZE STATYSTYKI
Białystok 2003
Statystyka
Wydział Zarządzania Politechniki Białostockiej
1. Statystyka – zespół informacji liczbowych dotyczących wybranej
grupy zjawisk masowych. Statystyka majątku narodowego,
statystyka produkcji,
⇒ sztuka zdobywania informacji. Każdą decyzję poprzedza zebranie informacji.
2. Statystyka – dyscyplina naukowa traktująca o metodach (narzędziach) opisu i wnioskowania o prawidłowościach występujących
w procesach masowych.
Badanie statystyczne – pozyskiwanie danych, pomiary, zliczanie,
analiza i interpretacja danych.
Dane
a) pierwotne – źródłowe, indywidualne, uzyskane drogą bezpośredniej obserwacji (ankieta, wywiad, eksperyment),
b) wtórne – pogrupowane, przetworzone dane pierwotne.
Badania statystyczne dotyczą pewnych zbiorowości zwanych populacją generalną lub zbiorowością generalną skończoną lub nieskończoną.
Elementy populacji generalnej mają różne właściwości zwane
cechami statystycznymi mierzalnymi lub niemierzalnymi. Cechy
mierzalne mogą być skokowe lub ciągłe.
Badania statystyczne mogą być pełne lub częściowe.
Badania częściowe polegają na zbadaniu podzbioru elementów
populacji generalnej zwanego próbą.
Liczebność próby – liczba elementów populacji wybranych do próby.
2
Statystyka
Wydział Zarządzania Politechniki Białostockiej
STATYSTYKA OPISOWA
Empiryczny rozkład cechy
Dane źródłowe (surowe):
Zmierzono wzrost 100 kandydatów na zarządzanie i marketing:
185, 190, 175, 165, 183, 169, 181, 174, 183, 175, 178, 179, 173, 169, 184, 181,
179, 182, 177, 176, 179, 182, 179, 185, 182, 178, 184, 186, 169, 180, 180, 180,
174, 175, 177, 173, 182, 172, 175, 185, 190, 171, 178, 190, 165, 176, 178, 171,
178, 179, 180, 172, 191, 173, 185, 175, 175, 177, 174, 181, 188, 178, 179, 173,
182, 185, 173, 180, 179, 180, 185, 178, 174, 177, 169, 173, 181, 172, 175, 175,
170, 182, 174, 174, 178, 181, 169, 187, 173, 182, 165, 176, 181, 175, 175, 176,
178, 174, 182, 188.
Min=165, Max=191, średnia arytmetyczna=177.9,
średnia geometryczna=177.8, mediana=178, dominanta=175,
kwartyl pierwszy=174,
kwartyl trzeci=182, wariancja=31.848,
odchylenie standardowe=5.643, skośność=0.076, kurtoza=-0.120,
suma=17790.
Szereg rozdzielczy:
Ustalanie liczby klas:
k < 5 log n
k≈ n
k ≈ 1 + 3.3 log n
k≤
Szerokość klasy: ≈(xmax–xmin)/k
Numer
klasy
Zakres
klasy
Liczba
Liczebności Częstości Częstości
obserwacji skumulow.
skumulow.
ni
1
2
3
4
5
6
7
[160; 165]
(165; 170]
(170; 175]
(175; 180]
(180; 185]
(185; 190]
(190; 195]
n
10
wi
1
7
22
34
25
9
2
1
8
30
64
89
98
100
3
0.01
0.07
0.22
0.34
0.25
0.09
0.02
0.01
0.08
0.30
0.64
0.89
0.98
1.00
Statystyka
Wydział Zarządzania Politechniki Białostockiej
4
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Miary położenia rozkładu:
Średnia arytmetyczna:
a) gdy dysponujemy n indywidualnymi obserwacjami:
x
1
=
n
n
∑ xi
i =1
b) gdy dysponujemy szeregiem rozdzielczym liczebności z k
przedziałami:
k
x=
1
∑
xˆ i n i
1
i
=
n
c) gdy dysponujemy szeregiem rozdzielczym częstości z k
przedziałami:
x
=
k
∑ xˆ i w i
, gdzie
i =1
Numer
Zakres
klasy
klasy
1
2
3
4
5
6
7
Liczba
obserwacji
[160; 165]
(165; 170]
(170; 175]
(175; 180]
(180; 185]
(185; 190]
(190; 195]
Środek
klasy
ni
xˆ
1
7
22
34
25
9
2
162.5
167.5
172.5
177.5
182.5
187.5
192.5
i
7
∑ xˆ i wi = 17800
Średnia geometryczna:
x
g
= n
5
2
n
xˆ n
wi
i
162.5
1172.5
3795
6035
4562.5
1687.5
385
0.01
0.07
0.22
0.34
0.25
0.09
0.20
1
17800 = 178
100
x ⋅x ! x ! x
1
ni
Częstości
i
x=
i =1
wi
=
i
n
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Średnia harmoniczna:
Stosuje się wtedy, gdy wartości cechy podane są w przeliczeniu na
stałą jednostkę innej cechy (wskaźniki natężenia), wagi natomiast
w jednostkach liczników tych cech – np.: prędkość pojazdu w km/h
(wi – km), pracochłonność w min/szt. (wi – czas w min.), gęstość
zaludnienia (wi – osoby), spożycie w kg/osobę (wi – kg), cena
jednostkowa w zł/szt. (wi – zł).
x
H
=
dla szeregu rozdzielczego
H
=
w
∑
x
i =1
i =1
x
H
=
∑n
∑n
x
W =
, gdzie
k
1
∑
i =1
k
i =1
W przypadku stosowania wag
x
n
i
k
x
W
n
i
i
k
∑w
i =1
i
i
i
w
i
=
x n
i
Mediana:
a) gdy dysponujemy n indywidualnymi obserwacjami – jest to wartość cechy, która dzieli obserwacje na tyle samo mniejszych i
większych od niej.
b) gdy dysponujemy szeregiem rozdzielczym liczebności:
gdzie:
n
 hm
me = x 0m +  − n ( x 0m ) 
2
 nm
x 0m − dolna granica przedziału, w którym znajduje się
n ( x 0m )
hm, nm
−
−
wartość mediany,
suma liczebności wszystkich przedziałów
klasowych poprzedzających przedział mediany,
odpowiednio: rozpiętość i liczebność przedziału
mediany.
6
i
i
Statystyka
Wydział Zarządzania Politechniki Białostockiej
c) gdy dysponujemy szeregiem rozdzielczym częstości:
1
 hm
me = x 0m +  − F n ( x 0m ) 
2
 wm
x 0m
−
F n ( x 0m )
−
skumulowana częstość względna dla dolnej granicy
przedziału mediany,
hm, w m
−
odpowiednio: rozpiętość i częstość przedziału
mediany.
gdzie:
dolna granica przedziału, w którym znajduje się
wartość mediany,
Dominanta:
d) gdy dysponujemy n indywidualnymi obserwacjami – jest to
wartość cechy, która występuje najczęściej.
e) gdy dysponujemy szeregiem rozdzielczym liczebności:
do = x0d +
gdzie:
nd − nd − 1
hd
(nd − nd − 1) + (nd − nd + 1)
x 0 d − dolna granica przedziału dominującego,
nd −
n d −1 −
liczebność przedziału dominującego,
liczebność przedziału poprzedzającego
dominujący,
n d +1 − liczebność przedziału następnego po dominującym,
h d − rozpiętość przedziału dominującego.
7
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Kwantyle:
Kwantylem rzędu p (0<p<1) w rozkładzie empirycznym nazywamy
taką wartość cechy kp., dla której (jako pierwszej) dystrybuanta
empiryczna spełnia warunek:
F n( k p ) ≥ p
gdzie:
x0p −
Fn ( x 0p ) −
hp, wp −
[
]h
k p = x0 p + p − Fn (x0 p)
p
w
p
dolna granica przedziału, w którym znajduje się
wartość kwantyla rzędu p,
skumulowana częstość względna dla dolnej granicy przedziału kwantyla rzędu p,
odpowiednio: rozpiętość i częstość przedziału
kwantyla rzędu p.
Szczególne kwantyle:
− centyle (percentyle – P1, P2, ..., P99),
− decyle (D1, D2, ..., D9),
− kwartyle (Q1 [pierwszy, dolny], Q2 [mediana], Q3 [trzeci, górny]).
8
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Miary zróżnicowania (rozrzutu) cechy:
Rozstęp: różnica między największą i najmniejszą wartością cechy.
Rozstęp (przedział) ćwiartkowy: różnica między kwartylami Q3 i Q1.
Odchylenie ćwiartkowe: połowa rozstępu ćwiartkowego, czyli
Q=
Q −Q
2
3
1
Wariancja:
a) gdy dysponujemy n indywidualnymi obserwacjami:
2
s
2
ŝ
1 n
2
2
= ∑(x − x)2 = x − x
n i =1 i
1 n
2
x
)
=
−
(
x
∑
n −1 i=1 i
2
ŝ
n 2
=
S
n −1
b) gdy dysponujemy szeregiem rozdzielczym liczebności z k przedziałami:
ŝ
2
k
1
=
∑
n − 1 i =1
( x̂ i − x ) 2 n i
c) gdy dysponujemy szeregiem rozdzielczym częstości z k przedziałami:
s
2
k
= ∑ (x̂ − x) 2
i
i =1
Odchylenie standardowe:
Współczynnik zmienności:
s
wi
gdzie
=
2
s
lub
n
i
=
wi
ŝ
n
=
s
V = ⋅ 100 %
x
9
ŝ
2
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Asymetria rozkładu empirycznego
Miarą stopnia i kierunku asymetrii jest współczynnik asymetrii A
otrzymany w wyniku podzielenia momentu trzeciego stopnia przez
odchylenie standardowe do potęgi trzeciej.
A=
M
3
s
'
3
1
n
gdzie dla danych źródłowych
M
'
=
3
3
(
x i − x)
∑
n
i =1
lub dla danych pogrupowanych w szereg rozdzielczy
1 k
3
x
)
=
−
x̂
(
M3 n ∑
ni
i
i =1
'
Współczynnik skośności: ze względu na łatwość obliczeń jest
częściej stosowany (w przypadku skrajnej asymetrii przekracza 1 co
do wartości bezwzględnej):
x − do
A1 = s
Pozycyjny współczynnik asymetrii:
A
2
=
(Q 3 − me)− (me− Q 1 )
2Q
gdzie Q jest odchyleniem ćwiartkowym.
10
Statystyka
Wydział Zarządzania Politechniki Białostockiej
24
22
22
20
20
18
Liczba obserwacji
16
13
14
12
12
11
10
8
8
6
6
3
4
2
0
0
0
2
1
400
200
800
600
1200
1000
1600
1400
0
2000
1800
2
2200
2400
2800
2600
3000
Liczba obs.
Histogram (Rozk l_na_cw.sta 16v*100c)
24
22
20
18
16
14
12
10
8
6
4
2
0
22
15
12
8
4
0
11
10
9
5
3
1
0
<= 680 (700;720] (740;760] (780;800] (820;840] (860;880]
> 900
(680;700] (720;740] (760;780] (800;820] (840;860] (880;900]
ZEST_11
Liczba obs.
Histogram (Rozk l_na_cw.sta 16v*100c)
24
22
20
18
16
14
12
10
8
6
4
2
0
22
15
10
12
11
9
8
5
3
4
1
0
0
<= 500 (520;540] (560;580] (600;620] (640;660] (680;700] > 720
(500;520] (540;560] (580;600] (620;640] (660;680] (700;720]
ZES T_11A
11
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Koncentracja wartości cechy – nierównomierne rozdysponowanie
łącznej sumy wartości cechy w badanej zbiorowości pomiędzy jednostki tworzące tę zbiorowość (skrajny przypadek – całą sumą
wartości cechy dysponuje tylko jedna jednostka zbiorowości).
Współczynnik koncentracji – miara skupienia (kurtozy)
k =
1
n
k
(
)
4
∑ x i− x n
s
i =1
i
4
Stanowi on podstawę do obliczenia współczynnika ekscesu –
relatywna ocena stopnia spłaszczenia:
− g<0 – większe rozproszenie,
− g>0 – mniejsze rozproszenie względem krzywej standardowej, dla
której k=3.
g = k −3
12
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Współczynnik Giniego – miara koncentracji (0 – brak koncentracji, 1
– zupełna koncentracja)
K = 2T = 1− 2P
Skumulowane częstości wartości cechy
Znaczenie K i P na rysunku.
1
0.9
Krzywa Lorentza
0.8
Linia równomiernego rozdziału
0.7
0.6
0.5
0.4
T
0.3
0.2
G
0.1
0
G
G
'
'
i
P
i −1
w
i
i −1
G
i
Skumulowane częstości jednostek
zi =
'
G i −1 =
G
i −1
=
i −1
∑w
j =1
j
i −1
∑z
j =1
G
i
' =
Gi
j
=
xi ni
k
∑ xj
j =1
i
∑w
j =1
13
j
i
∑z
j =1
j
w = G −G
i
i
i −1
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Obliczenia dla szeregu rozdzielczego ze str. 3.
i
Częstość Częstość Skumulowana
i
studentów wzrostu częstość wzrostu i −1
+
i
∑
zj ∑
zj
wi
zi
j =1
j =1
∑z
j =1
1
1
2
3
4
5
6
7
Razem
2
0,01
0,07
0,22
0,34
0,25
0,09
0,02
1,00
3
0,00913
0,06587
0,21320
0,33904
0,25632
0,09480
0,02164
1,00000
zi =
4
0,00913
0,07500
0,28820
0,62724
0,88356
0,97836
1,00000
–
5
0,00913
0,08413
0,36320
0,91544
1,51080
1,86192
1,97836
–
suma wzrostu w klasie
suma wzrostu ogólem
K=1-0,98197=0,01803
14
(2)*(5)
j
6
0,00009
0,00589
0,07990
0,31125
0,37770
0,16757
0,03957
0,97197
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Miary indeksowe dynamiki szeregu czasowego
Mierniki dynamiki zjawisk
Miary dynam iki
Przyrosty
Absolutne
jednopodstawowe
łańcuchowe
W zględne
jednopodstawowe
łańcuchowe
Indeksy dynam iki
Indywidualne
jednopodstawowe
łańcuchowe
Agregatowe
(zespołowe)
jednopodstawowe
łańcuchowe
15
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Miary dynamiki jednopodstawowe (o stałej podstawie) służą
do kreślenia zmian, jakie nastąpiły w kolejnych okresach
względem okresu przyjętego jako podstawowy – podstawowego (t*=1) lub innego wyróżnionego (t*=k).
Miary dynamiki o podstawie ruchomej (łańcuchowe) służą do
oceny zmian, jakie nastąpiły w kolejnych okresach względem
okresu poprzedniego (t*=t-1).
Przyrosty
a) absolutne – obliczane w stosunku do jednego okresu:
– t*=1 y2-y1, y3-y1, ..., yn-1-y1, yn-y1;
– t*=k y1-yk, y2-yk, ..., yn-1-yk, yn-yk; ∆t/k=yt-yk, t=1,2,...,n;
b) absolutne – obliczane w stosunku do stale zmieniającego
się okresu bazowego:
– y2-y1, y3-y2, ..., yn-1-yn-2, yn-yn-1; ∆t/t-1=yt-yt-1, t=1,2,...,n.
c) względne (wskaźniki tempa wzrostu) – stosunek przyrostu
absolutnego zjawiska do jego poziomu w okresie bazowym:
– postać jednopodstawowa:
∆t / k = y t − y k ;
t = 1, 2, ! , n
=
dt/k
y
y
k
k
– postać łańcuchowa:
d
y−y
∆
;
=
=
y
y
t / t −1
t / t −1
t −1
t
t −1
t = 2, 3,!, n
t −1
Przyrosty względne pomnożone przez 100 nazywane są
tempem zmian (przyrostu lub obniżki).
16
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Indywidualne indeksy dynamiki
Indeksy dynamiki – mierniki określające stosunek wielkości
zjawiska w dwóch różnych okresach.
Indeksy indywidualne dynamiki – dotyczą zjawisk opisanych
pojedynczym szeregiem czasowym.
– postać jednopodstawowa:
yn
=
= 1 + d n /1 ;
in /1
y
y
=
=1+ d
y
1
– postać łańcuchowa:
i
n
n / n −1
Indeksy na ogół wyrażamy w procentach.
n / n −1
.
n −1
Przykład
Zanotowano ceny akcji Banku Rozwoju Eksportu w dniach
11-25 lipca 1994 roku. Obliczyć i zinterpretować przyrosty
bezwzględne i względne oraz indeksy indywidualne.
Przyrosty
absolutne
Przyrosty
względne (w %)
Indeksy
(w %)
Cena
Nr
jednojednoakcji jednołańcułańcułańcuokresu
(zł) podstapodstapodsta-
t
1
2
3
4
5
6
7
8
9
yt
32.3
32
32.9
34.6
38
41.8
44.9
42.2
38.6
wowe
∆t/1
0.0
-0.3
0.6
2.3
5.7
9.5
12.6
9.9
6.3
chowe
wowe
∆t/t-1 dt/1⋅100 dt/t-1⋅100
0.0
-0.3 -0,93 -0.93
0.9
1.86
2.81
1.7
7.12
5.17
3.4 17.65 9.83
3.8 29.41 10.00
3.1 39.01 7.42
-2.7 30.65 -6.01
-3.6 19.50 -8.53
chowe
17
wowe
it/1⋅100
100.00
99.09
101.86
107.12
117.65
129.41
139.01
130.65
119.50
chowe
it/t-1⋅100
99.07
102.81
105.17
109.83
110.00
107.42
93.99
91.47
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Definicja średniej geometrycznej:
x = x ⋅x ⋅ ! ⋅x
G
n
1
2
n
Średnie tempo zmian zjawiska w czasie wyznacza się za pomocą średniej geometrycznej indeksów łańcuchowych:
i = i
⋅ in−1/ n−2 ⋅ ! ⋅ i2 /1 = n−1 in /1
lub w postaci logarytmicznej:
G
n −1
n / n −1
1 n
1
log iG =
=
∑
it / t −1 n − 1 log in /1
n − 1 t =1
Średniookresowe tempo zmian (stopa wzrostu) w badanych
okresach:
r = T n = iG − 1
lub w procentach:
T [%] = i ⋅ 100 − 100
n
G
Średnie tempo zmian ma wadę polegającą na pomijaniu wartości zawartych między wyrazami skrajnymi szeregu czasowego.
Jeżeli założymy, że średnie tempo jest stałe we wszystkich badanych okresach, to wielkość zjawiska w momencie n można
wyznaczyć znając początkową wartość zjawiska (y0) z wzoru:
yn = y0 (1+ r )
n
Ostatnie wyrażenie może być wykorzystane do określenia
przyszłej wartości pieniądza przy stałej stopie procentowej –
np. wartości zainwestowanego kapitału po n latach przy założeniu rocznej kapitalizacji odsetek.
Indeksy indywidualne są szeroko stosowane w analizach ekonomicznych. Szczególne znaczenie mają indeksy ilości, cen
i wartości różnych produktów (stosunek okresu n do bazowego).
18
Statystyka
Wydział Zarządzania Politechniki Białostockiej
pn
- indeks cen
p0
qn
=
iq q - indeks iloślo
0
w
iw = n - indeks wartośwa
w0
(pn, p0 – ceny artykułu)
ip =
(qn, q0 – ilości artykułu)
(wn, w0 – wartości artykułu)
Agregatowe indeksy dynamiki wartości absolutnych – indeksy
dynamiki zespołu zjawisk
Przykład
Student w przerwie między zajęciami zjada posiłek składający
się z kanapki, soku, ciastka i kawy. Koszt takiego posiłku
w czerwcu w stosunku do stycznia uległ zmianie:
Ceny
Lp.
Indeks cen
styczeń
Czerwiec
Rodzaj
j
p0j
pnj
ipj=pnj/p0j
1
Kanapka
1.0
1.2
1.20
Sok
0.8
1.0
1,25
2
3
Ciastko
0.4
0.8
2,00
4
Kawa
0.4
1.0
2.50
Razem
2.6
4.0
6.95
Indywidualny indeks zestawu obliczamy ze wzoru:
4
4
∑p
40
=
=
= 1.538;
ip
∑ p0 j 26
j =1
4
nj
ip =
∑i
j =1
4
pj
=
6.95
= 1.73
4
j =1
Koszt posiłku wzrósł o 53.8%. Średnio ceny składników
wzrosły o 73%. Wysoki wzrost cen tańszych składników posiłku spowodował wyższy wzrost średniego indeksu cen.
19
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Przykład
W ciągu miesiąca student wypija przeciętnie 15 filiżanek
kawy, 5 opakowań soku, zjada 10 kanapek i 5 ciastek.
Rodzaj
pnj
q0j pnj/p0j p0jq0j pnjq0j
j
p0j
1
Kanapka 1.0
1.2
10
1.20 10
12
2
Sok
0.8
1.0
5
1,25
4
5
3
Ciastko
0.4
0.8
5
2,00
2
4
4
Kawa
0.4
1.0
15
2.50
6
15
Razem
2.6
4.0
6.95
22
36
Ilości składników traktujemy jako wagi.
Agregatowy indeks cen formuły Laspeyresa:
k
LI p =
∑p q
nj
j =1
k
0j
∑p q
0j
j =1
=
36
= 1.636
22
0j
Wzrost cen spowodował wzrost wydatków przeciętnego studenta o 63.6%.
Przykład
Załóżmy, że w badanym okresie nastąpiła zmiana cen oraz
zmiana struktury spożywanych składników:
j Rodzaj p0j
pnj
q0j
qnj p0jq0j pnjq0j p0jqnj pnjqnj
1 Kanapka 1.0 1.2 10
10
10
12 10.0 12.0
2
Sok
0.8 1.0
5
10
4
5
8.0 10.0
3 Ciastko 0.4 0.8
5
8
2
4
3.2 6.4
4 Kawa 0.4 1.0 15
8
6
15 3.2 8.0
Razem
2.6 4.0
22
36 24.4 36.4
Agregatowy indeks cen formuły Paaschego:
k
PI p =
∑p q
j =1
k
nj
nj
∑p q
j =1
0j
=
36.4
= 1.492
24.4
nj
Na skutek zmian cen wydatki wzrosły o 49.2%.
20
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Agregatowe indeksy cen obrazują dynamikę zmian wartości
zespołu badanych jednostek (w przykładach składniki posiłku)
na skutek zmiany cen.
Indeks cen formuły Laspeyresa jest średnią arytmetyczną wartości indywidualnych indeksów cen, zaś indeks cen formuły
Paaschego jest średnią harmoniczną wartości indywidualnych.
Definicja średniej harmonicznej:
n
∑w
gdzie w - wagi
x = 1 , lub x =
∑
∑w
x
x
1
H
H
n
i =1
i
i =1
i
n
i
i =1
i
i
Agregatowy indeks ilości formuły Laspeyresa:
k
LI q =
∑p q
j =1
k
0j
∑p q
j =1
0j
nj
24.4
= 1.109
22
=
0j
Agregatowy indeks ilości formuły Paaschego:
k
PI q =
∑p q
j =1
k
nj
∑p q
j =1
nj
nj
36.4
= 1.01
36
=
0j
Agregatowe indeksy ilości obrazują zmiany wartości zespołu
jednostek (w przykładach - składników posiłku) na skutek
zmiany ilości.
Agregatowy indeks wartości – określa jak zmienił się koszt w badanych okresach ze względu na zmiany cen i ilości łącznie:
k
Iw =
∑p q
nj
∑p q
0j
j =1
k
j =1
Równość indeksowa:
nj
0j
=
36.4
= 1.655
22
I = I ⋅I = I ⋅I
w
21
P
p
L
q
P
q
L
p
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Agregatowe indeksy dynamiki wielkości stosunkowych
Obliczane są dla wskaźników natężenia (kształtowanie się
jednego zjawiska na tle innego – iloraz).
Załóżmy, że między badanymi wielkościami zachodzą zależności:
j = 1, 2, ..., k
yj = xj ;
z
j
Porównując ilorazy w dwóch okresach otrzymujemy indywidualny indeks wielkości stosunkowych:
x x
i = : ;
z z
nj
0j
nj
0j
j = 1, 2, ..., k
jn , 0
oraz indeks wszechstronny (wyraża zmiany w ogólnym poziomie zmiennej y , które są spowodowane równocześnie zmianami cząstkowych poziomów zmiennych x i z):
Iy =
(z)
∑x ∑x
j =1
k
∑z
j =1
nj
nj
:
j =1
k
∑z
j =1
0j
k
k
k
k
=
0j
∑y z
nj
j =1
k
∑z
j =1
nj
0j
:
∑y z
0j
j =1
k
∑z
j =1
0j
0j
=
y
y
n
0
Przykład
Dysponujemy danymi o funduszu płac i zatrudnieniu w dwóch
zakładach przedsiębiorstwa. Przeanalizować dynamikę przeciętnych płac w dwóch okresach mając dane:
Okres podstawowy
Okres badany
Fundusz Zatrud- Przeciętna Fundusz Zatrud- Przeciętna
Zakład płac
nienie
płaca
płac
nienie
płaca
(mln zł)
(mln zł) (mln zł)
(mln zł)
x0j
z0j
y0j= x0j/z0j
xnj
znj
ynj= xnj/znj
I
240
60
4
336
70
4.8
II
20
10
2
300
120
2.5
y =3.71
y =3.35
Razem
260
70
636
190
0
n
22
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Wszechstronny indeks przeciętnej płacy wyznaczony z powyższych wzorów wynosi 0.9 – spadek dynamiki przeciętnych płac w całym przedsiębiorstwie o 10%.
W zakładzie I nastąpił wzrost przeciętnej płacy o 20%
(4.8/4=1.2), w zakładzie II – o 25% (2.5/2=1.25).
Indeksy o stałej strukturze eliminujące wpływ zmian w strukturze agregatu:
a) Laspeyresa
k
LI y =
(s)
∑y z
nj
j =1
k
0j
∑y z
0j
j =1
=
313
= 1.204
260
=
636
= 1.223
520
0j
b) Paaschego
k
PI y =
(s)
∑y z
j =1
k
nj
nj
∑y z
0j
j =1
nj
Wniosek:
Przy założeniu stałego poziomu i struktury zatrudnienia
z okresu podstawowego (indeks formuły Laspeyresa) płaca
w przedsiębiorstwie wzrosłaby w okresie badanym w stosunku
do podstawowego o 20.4%. Gdyby przyjąć niezmienne zatrudnienie, ale z okresu badanego (indeks Paaschego), wzrost ten
wynosiłby 22.3%.
Indeksy wpływu zmian strukturalnych:
c) Laspeyresa
k
k
L
I =
w. s .
∑y z ∑y z
nj
0j
j =1
k
∑z
j =1
nj
:
0j
j =1
k
∑z
j =1
0j
(z)
520 260
:
= I =
= 0.737
190 70
I
y
(s)
0j
P
23
y
Statystyka
Wydział Zarządzania Politechniki Białostockiej
d) Paaschego
k
k
PI w . s . =
∑y z ∑y z
nj
nj
j =1
k
∑z
j =1
nj
:
nj
j =1
k
∑z
j =1
0j
0j
(z)
636 313
:
= I y( s ) =
= 0.749
190
70
LI y
Wniosek:
Gdyby przyjąć średnie płace w obu zakładach na poziomie
okresu podstawowego, to ogólna przeciętna płaca w przedsiębiorstwie w okresie badanym w stosunku do podstawowego
byłaby niższa o 26.3% na skutek zmian w strukturze zatrudnienia. Gdyby przyjąć średnie płace z okresu badanego –
spadek wynosiłby 25.1%.
Przykładami indeksów agregatowych są indeksy giełdowe
oraz indeksy kosztów utrzymania i inflacji (w oparciu o które
oblicza się płacę minimalną, zasiłek dla bezrobotnych, wielkości emerytur i rent)
24
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Zmienne losowe i ich rozkłady
Zmienne losowe skokowe (dyskretne) i ciągłe
Rozkład zmiennej losowej skokowej stanowi zbiór par (xi,pi)
dla i=1,2,...,n, gdzie xi – wartości zmiennej losowej, pi –
prawdopodobieńtwa, z jakimi wartości te są przyjmowane.
Zapisujemy to:
n
i=1, 2,..., n,
P{X=xi}=pi,
∑ pi = 1
i =1
Rozkład zmiennej losowej ciągłej określa funkcja gęstości f(x)
określona na zbiorze liczb rzeczywistych o następujących
własnościach:
10.
f(x)≥0
∞
20.
∫ f ( x)dx =P{−∞ < X ≤ ∞} = 1.
-∞
Druga własność oznacza, że pole między wykresem funkcji
f(x) a osią OX jest dokładnie równe 1.
Funkcja gêstoœci prawdopodobieñstwa
y=normal(x;0;1)
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
-3,50
-1,75
a
0,00
b
1,75
3,50
Dla dowolnych a<b prawdopodobieństwo, że zmienna losowa
osiągnie wartości z przedziału [a; b] wynosi (na rysunku –
pole nad tym odcinkiem): b
∫ f ( x)dx =P{a < X ≤ b}
a
25
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Dystrybuantą zmiennej losowej X nazywamy funkcję
zdefiniowaną następująco:
F(x)=P{X≤x}.
Własności dystrybuanty:
a) 0≤F(x)≤1
b) F(x) jest funkcją niemalejącą
c) F(x) jest funkcją przynajmniej prawostronnie ciągłą
d) lim F ( x ) = 0
lim F ( x) = 1
oraz
x →−∞
x →∞
Dystrybuantą zmiennej losowej skokowej nazywamy funkcję
określoną wzorem:
F ( x) =
∑p
xi ≤ x
i
Dystrybuantą zmiennej losowej ciągłej nazywamy funkcję
określoną wzorem:
x
F ( x) =
∫ f ( x)dx
−∞
Wartość oczekiwana zmiennej losowej jest określona za pomocą jednego ze wzorów:
a) skokowej
n
E ( X ) = ∑ xi
i =1
b) ciągłej
p
∞
E ( X ) = ∑ xi
lub
i
E( X ) =
i =1
∞
p
i
∫ xf ( x)dx
−∞
Wariancja zmiennej losowej jest określona wzorem:
a) skokowej
n
2
2
(
)
X
=
(
(
))
E
X
p
−
∑ xi
D
i
i =1
lub
D
2
n
( X ) = ∑ xi
i =1
26
2
p
i
− ( E ( X ))
2
Statystyka
Wydział Zarządzania Politechniki Białostockiej
b) ciągłej
lub
D
2
D
(X ) =
∞
2
(
)
x
E
X
f ( x)dx
−
[
]
∫
−∞
2
(X ) =
∞
∫ x 2 f ( x)dx - ( E(X))
−∞
Odchylenie standardowe:
2
σ=
D (X )
27
2
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Wybrane rozkłady dyskretne
Rozkład zero-jedynkowy
P{X=1}=p
P{X=0}=q=1-p
E(X)=1⋅p+0⋅q=p
D (X)=(1-p)2⋅p+(0-p)2⋅q=pq
2
Rozkład dwumianowy (binomialny)
k
n−k
 n  k n−k
n!
P{X = k } =   p q =
pq
k!(n − k )!
k 
gdzie k=0, 1, 2,..., n oraz q=1-p.
D2(X)=npq
E(X)=np
Przykład: Zmienną losową zdefiniowano jako liczbę wyrzuconych orłów przy pięciokrotnym rzucie monetą.
P{X=0}=0.03125
P{X=1}=0.15625
P{X=2}=0.31250
P{X=3}=0.31250
P{X=4}=0.15625
P{X=5}=0.03125
Rozkład Poissona
k
λ
P{X = k } =
e− λ
k!
D2(X)=m
E(X)=m=λ
28
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Przykład: W pewnym przedsiębiorstwie zaobserwowano, że
w ciągu miesiąca zdarzają się średnio 2 wypadki (m=2) i że
rozkład liczby wypadków może być opisany za pomocą rozkładu Poissona.
P{X=0}=0.135
P{X=1}=0.271
P{X=2}=0.271
P{X=3}=0.180
P{X=4}=0.090
29
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Wybrane rozkłady ciągłej zmiennej losowej
Rozkład jednostajny
Rozkład normalny
Funkcja gęstości rozkładu: Rozkład normalny posiada
następującą funkcję gęstości:
( x − m)
e 2σ 2
2
f ( x) =
1
σ 2π
gdzie
-∞ < x < +∞
m parametr jest szacowany średnią arytmetyczną
σ>0 jest odchyleniem standardowym szacowany za pomocą s.
e
jest stałą Eulera (2.71...)
π = pi (3.1415...)
0.8
N(5,0.5)
0.6
0.4
N(3,1)
N(5,1)
0.2
N(3,2)
0.0
-2
-1
0
1
2
3
x
30
4
5
6
7
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Standaryzacja:
U=
X −m
σ
N (m,σ )  
→ N (0,1)
Częstości względne
Rozkład wzrostu studentek II roku ZiM PB
(rok akademicki 1997/98)
0.20
0.18
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
145
P{165<X<175}=0.574
N(166.6,5.08)
150
155
160
165
170
175
180
185
Wzrost (X)
Częstości względne
Dystrybuanta wzrostu studentek II roku ZiM PB
(rok akademicki 1997/98)
1.0 0.950
0.9
0.8
0.7
0.6
0.5
0.376
0.4
0.3
0.2
N(166.6,5.08)
0.1
0.0
145
150
155
160
165
Wzrost
31
170
175
180
185
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Funkcja gęstości prawdopodobieństwa
N(100,10)
0.05
Prawo trzech sigma:
0.04 P{m-1σ<X<m+1σ}=0.6827
P{m-2σ<X<m+2σ}=0.9545
P{m-3σ<X<m+3σ}=0.9973
0.03
0.6827
0.02
0.9545
0.01
0.9973
0.00
70
80
90
100
110
120
130
Rozkład χ2 (Chi-kwadrat)
Rozkładem χ2 z ν stopniami swobody nazywamy rozkład
następującej sumy:
2
2
2
U 1 +U 2 + ! +U ν
gzie U1, U2,…,Uν są niezależnymi zmiennymi losowymi o
rozkładzie normalnym N(0,1).
Funkcja gęstości rozkładu: Rozkład χ2 posiada następującą
funkcję gęstości:
1
2
f (χ ) =
ν
2
2
ν 
⋅ Γ 
2
ν
2 2 −1
⋅ (χ )
32
χ
−
⋅e
2
2
Statystyka
Wydział Zarządzania Politechniki Białostockiej
χ2 > 0, ν = n-1, n = 1, 2, ...
gdzie
n
e
Γ
jest liczbą stopni swobody
jest stałą Eulera (2.71...)
(gamma) jest funkcją Gamma (z argumentem α)
Rozkład Chi2
0.175
2
P{Chi <12.55}=0.972
0.131
n=5
2
P{Chi <12.55}=0.75
0.087
0.044
0.000
0.00
n=10
6.25
12.50
Chi
18.75
25.00
2
Rozkład t (Studenta)
Rozkładem Studenta z ν stopniami swobody nazywamy
rozkład przwdopodobieństwa zmiennej losowej t określonej
następująco:
t=
U
χ
2
ν
ν
33
Statystyka
Wydział Zarządzania Politechniki Białostockiej
gdzie U i χ są niezależnymi zmiennymi losowymi, U ma
rozkład normalny N(0,1) a χ ma rozkład Chi-kwadrat z ν stopniami swobody.
2
ν
2
ν
Funkcja gęstości rozkładu: Rozkład t-Studenta posiada następującą funkcję gęstości (dla n = 1, 2, . . .):
ν +1
)
Γ(
2
t
2
f (t ) =
1+
ν
ν
νπ Γ( )
2
( )
 v +1 
−

 2 
gdzie
-∞<t<+∞, ν = n-1
n jest parametrem kształtu - liczbą stopni swobody
Γ (gamma) jest funkcją Gamma
π jest stałą Pi (3.1415 . . .).
Rozkład t-Studenta
0.4
P{t<1}=0.83
0.3
n=10
0.2
n=1
P{t<1}=0.75
0.1
0.0
-3
-2
-1
0
t
34
1
2
3
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Rozkład F Snedecora
Rozkładem Snedecora ze stopniami swobody (r1,r2) nazywamy rozkład prawdopodobieństwa ilorazu:
1
Fr r
,
1
2
=
r
1
1
r
2
χr
1
χr
2
2
2
gdzie χ r χ r są niezależnymi zmiennymi losowymi mający
mi rozkład Chi2 odpowiednio z r1 i r2 stopniami swobody.
2
,
1
2
2
Funkcja gęstości rozkładu Snedecora
1.0
0.8
F28,16
0.6
0.4
F4,10
0.2
0.0
0
1
2
3
F
35
4
5
6
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Rozkład logarytmiczno-normalny
Funkcja gęstości rozkładu: Rozkład Lognormalny posiada
następującą funkcję gęstości::
f ( y) =
1
e
yσ 2π
−
(ln y − µ )
2
2σ
2
y>0, µ > 0, σ > 0
gdzie
µ jest parametrem skali
σ jest parametrem kształtu
e
jest stałą Eulera (2.71...)
π = pi (3.1415...)
µ−
E (Y ) = e
D
2
1
2
σ
2
σ  σ − 1
e

2µ +
(Y ) = e
2
2
Zmienna losowa X=ln Y ma rozkład normalny N(µ,σ), więc
P{a≤Y≤b}=P{ln a≤X≤ ln b}.
Przykład: P{2≤Y≤5}=P{ln 2≤X≤ ln 5} obliczamy korzystając
z rozkładu normalnego N(0,1) dokonując wcześniej ewentualnej standaryzacji.
36
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Rozkład logarytmiczno-normalny
1.0
0.8
LN(1,0.5)
0.6
0.4
LN(0,0.5)
0.2
0.0
0
1
2
3
4
37
5
6
7
8
Statystyka
Wydział Zarządzania Politechniki Białostockiej
PRAWA WIELKICH LICZB
Prawo wielkich liczb Bernouliego
Ciąg zmiennych losowych {Xn} o rozkładach określonych
wzorem (rozkład dwumianowy):
 n  k n−k
k
P{ X n = } =   p q
n k 
jest zbieżny stochastycznie do wartości p. (prawdopodobieństwa sukcesu), tzn.
k
lim P{| − p |< ε } = 1
n→∞
n
Sens zbieżności stochastycznej: wraz ze wzrostem n maleje
prawdopodobieństwo występowania dużych różnic między
zaobserwowaną częstością k/n a prawdopodobieństwem p.
Nie oznacza ona, że granicą tej częstości jest p, czyli
k .
lim = p
n →∞ n
Prawo wielkich liczb Czebyszewa
Jeżeli dla ciągu zmiennych losowych {Xk} (k=1,2,...), z których każda ma skończoną wartość oczekiwaną E(Xk) oraz
wariancję D2(Xk) jest spełniony warunek
2
lim D ( X k ) = 0 ,
k →∞
to ciąg ten jest zbieżny stochastycznie do wartości oczekiwanej E(Xk), tzn.
lim P{| X k − E ( X k ) |< ε } = 1
k →∞
38
Statystyka
Wydział Zarządzania Politechniki Białostockiej
TWIERDZENIA GRANICZNE
Twierdzenie Moivre’a-Laplace’a
Niech Xn będzie zmienną losową o rozkładzie dwumianowym
z liczbą doświadczeń n i prawdopodobieństwem sukcesu p
w każdym doświadczeniu oraz niech X będzie zmienną losową
o rozkładzie normalnym N(np, npq ). Oznaczmy przez Fn(x)
wartość dystrybuanty zmiennej losowej Xn w punkcie x i przez
F(x) wartość dystrybuanty zmiennej losowej X w punkcie x.
Między dystrybuantami Fn(x) i F(x) zachodzi związek:
lim F n ( x) =
n →∞
F ( x) .
Oznacza to, że jeśli próba jest duża (w praktyce n>30), to
rozkład zmiennej losowej o rozkładzie dwumianowym można
przybliżyć rozkładem normalnym o parametrach jak wyżej.
Przykład:
OBOP ocenia, że 50% polskich rodzin żyje poniżej minimum
socjalnego. Wybrano losowo próbę 100 rodzin polskich. Policzmy, jakie jest prawdopodobieństwo, że wśród wybranych
będzie ponad 40 rodzin żyjących poniżej minimum.
Zmienna X100 ma rozkład dwumianowy z n=100 i p=0.5. Nie
można jej przybliżyć rozkładem Poissona (muszą być spełnione warunki: n>=20, stały iloczyn np równy m, p<0.2), gdyż
p>0.2. Rozkład tej zmiennej można przybliżyć (gdyż n>30)
rozkładem normalnym N(50,5). P{X>40}=1-F(40)=0.9773
(zastosować standaryzację i sprawdzić odczyt dystrybuanty
z tablic).
39
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Szczególny przypadek: zmienna Xn o rozkładzie dwumianowym z parametrami n i p przyjmuje wartości 0, 1, 2, 3, ..., n.
Wtedy zmienna Yn przyjmuje wartości 0, 1/n, 2/n, 3/n, ..., 1.
Rozkład zmiennej Yn można przybliżyć rozkładem N(p,
pq
).
n
Przykład:
Wadliwość produktu A wynosi 5%. Z produkcji pobrano 100
sztuk towaru. Jakie jest prawdopodobieństwo, że udział wadliwych sztuk w wybranej partii jest większy niż 4%.
Ponieważ n=100>30, rozkład przybliżymy rozkładem
N(0,05,
0.05 ⋅ 0.95
)
100
- n=100, p=0.05, q=0.95.
Korzystając z tablic dystrybuant rozkładu normalnego możemy odczytać P{Yn>0.04}=1-F(0.04).
Centralne twierdzenie graniczne Lindenberga-Lèvy’ego
Jeżeli zmienne losowe X1, X2, ..., Xn są niezależne i zmienna
losowa Xi dla i=1, 2, ..., n ma rozkład N(mi,σi), to zmienna
losowa Y=X1+X2+ ... +Xn dla dużych n ma rozkład
2
2
2
N( m1+m2+ ... +mn, σ 1 + σ 2 + ! + σ n ).
Przypadek szczególny:
Załóżmy, że zmienne losowe X1, X2, ..., Xn są niezależne.
Jeżeli wszystkie zmienne losowe Xi dla i=1, 2, ..., n mają
rozkład N(m,σ), to zmienna losowa Y= X1+X2+ ... +Xn ma
rozkład
N(nm, σ n ).
40
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Przykład. Grupa 50 studentów II roku ZiM PB planuje wycieczkę z przelotem samolotem do miejsca pobytu. Wiedząc,
że średnio każdy student waży 61 kg z odchyleniem standardowym 10.5 kg, oraz że waga ma rozkład normalny, obliczyć prawdopodobieństwo, że łączna waga grupy przekroczy
3200 kg.
Każda ze zmiennych Xi dla i=1, 2, ..., 50 ma rozkład
N(61,10.5). Łączna waga studentów Y=X1+X2+ ... +Xn, przy
założeniu identyczności rozkładów, będzie miała rozkład
N(50*61 kg, 10.5* 50 ), czyli N(3050,74.2).
P{Y>3200}=1-F(3200)=0.0216
Wniosek z centralnego twierdzenia granicznego
Jeżeli zmienne losowe X1, X2, ..., Xn są niezależne i zmienna
losowa Xi dla i=1, 2, ..., n ma rozkład N(mi,σi), to zmienna
losowa X = 1 (X1+X2+ ... +Xn) ma rozkład
n
N( 1 (m1+m2+ ... +mn), 1
n
n
σ +σ
2
2
1
2
+!+σ n
2
).
Szczególny przypadek:
Jeżeli zmienne losowe X1, X2, ..., Xn są niezależne i wszystkie
zmienne losowe Xi dla i=1, 2, ..., n mają rozkład N(m,σ), to
1
zmienna losowa X = (X1+X2+ ... +Xn) ma rozkład
n
σ
N(m,
).
n
Przykład:
Z magazynu w sposób losowy wybrano 100 pudełek proszku
do prania. Waga każdego pudełka jest zmienną losową o wartości oczekiwanej 1 kg i odchyleniu standardowym równym
0.05 kg. Policzyć prawdopodobieństwo, że średnia waga
proszku w wybranych pudełkach jest większa niż 1.05 kg.
41
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Średnia waga proszku ma rozkład normalny N(1 kg,0.005 kg).
P{ X 100 >1.05}=1-F(1.05)=0.
Rozkład różnicy
Jeżeli zmienne losowe X1, X2 są niezależne i zmienna losowa
Xi dla i=1, 2 ma rozkład N(mi,σi), to zmienna losowa Z=X1–X2
ma rozkład
2
2
+
N( m1–m2, σ 1 σ 2 ).
42
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Zasady wnioskowania statystycznego
Cecha statystyczna a zmienna losowa.
Próba a zbiorowość statystyczna (populacja).
Postępowanie polegające na dopasowaniu jednego ze znanych
rozkładów prawdopodobieństw do właściwości cech w populacji (na podstawie informacji z próby) nazywamy wnioskowaniem statystycznym.
Cele wnioskowania statystycznego:
- ustalenie, jaki rozkład prawdopodobieństwa jest właściwy
dla badanej cechy,
- skonstruowanie na podstawie przyjętego rozkładu prawdopodobieństwa rozkład cechy statystycznej.
Wnioskowanie nieparametryczne – gdy wnioskowanie dotyczy postaci rozkładu prawdopodobieństwa, czyli postaci funkcji prawdopodobieństw, funkcji gęstości, dystrybuanty.
Wnioskowanie parametryczne – gdy wiadomo jaki jest rozkład badanej cechy, a problem polega na ustaleniu wartości
parametrów tego rozkładu.
Metody wnioskowania statystycznego:
- estymacja, czyli szacowanie na podstawie informacji z próby postaci rozkładu cechy statystycznej w populacji
generalnej,
- weryfikacja hipotez statystycznych, czyli sprawdzanie na
podstawie informacji z próby formułowanych założeń
o rozkładzie cechy statystycznej z populacji.
43
Statystyka
Wydział Zarządzania Politechniki Białostockiej
By wyniki wnioskowania statystycznego były prawidłowe,
próba powinna być dobierana losowo a stosowane techniki
muszą być wybierane właściwie.
Próba losowa prosta – jest to ciąg niezależnych zmiennych
losowych X1, X2, ..., Xn o jednakowym rozkładzie, takim jak
rozkład zmiennej losowej X w populacji.
Statystyką z próby nazywamy zmienną losową Zn będącą
funkcją zmiennych X1, X2, ..., Xn stanowiących próbę losową.
Rozkład statystyki Zn=z(X1, X2, ..., Xn) zależy od rozkładu
w populacji i liczebności próby.
Stwierdzenia istotne dla wnioskowania statystycznego:
1.
2.
3.
4.
Jeżeli dobór próby jest losowy, to najbardziej prawdopodobne są próby zbliżone strukturą do struktury populacji.
Losowość próby oznacza, że każda z możliwych do wylosowania prób ma określone prawdopodobieństwo pojawienia się, zwane jej wiarygodnością.
Statystyki z próby (średnia arytmetyczna, dominanta,
wariancja, częstość i inne) są zmiennymi losowymi.
Średnia arytmetyczna z próby losowej pobranej z populacji, w której rozkład prawdopodobieństw jest określony
co do wartości parametrów E(X)=m i D2(X)=σ2, ma rozkład prawdopodobieństwa, który:
! jest określony przez parametry o wartościach odpo2
wiednio:
E( X ) = m
2
D
(X ) = σ
n
! wraz ze wzrostem próby rozkład średniej arytmetycznej dąży do rozkładu normalnego (twierdzenie Lindenberga-Lèvy’ego).
44
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Rozkłady dokładne wybranych statystyk
Rozkład średniej arytmetycznej z próby n-elementowej pochodzącej z populacji normalnej o znanym m i σ:
Zn = X n ma rozkład N(m,
σ
).
n
Rozkład średniej arytmetycznej z próby pochodzącej z populacji normalnej o nieznanym odchyleniu standardowym
Statystyka
X −m
=
T n−1 S n − 1
ma rozkład Studenta z n-1 stopniami swobody, gdzie S jest
odchyleniem standardowym obliczonym z n-elementowej
próby wg wzoru:
(
)
2
1 n
S = n∑
X i− X
i =1
Przy dużych n (>30) statystyka T n −1 ma rozkład zbliżony do
rozkładu N(0,1).
2
Przykład:
Z populacji o rozkładzie normalnym N(12,σ) przy nieznanym
σ pobrano próbkę liczącą 10 elementów. Jakie jest prawdopodobieństwo, że średnia arytmetyczna z próby jest większa
od 11.5 przy odchyleniu S=1.5.
X − 12
9 ma rozkład Studenta z 9=
Zmienna losowa T 9
1.5
cioma stopniami swobody.
P{
X
10
>11.5}=P{
11.5 − 12
X − 12
3>
3 }=P{T9>-1}=0.85
1.5
1.5
45
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Gdyby n=50, możemy skorzystać z tego, że rozkład Tn przy n
dużych jest zbliżony do rozkładu N(0,1).
P{
X
>11.5}=P{
50
11.5 − 12
X − 12
7>
7 }=
1.5
1.5
=P{T9>-2.33}=F(-2.33)=1-F(2.33)=0.9906.
Rozkład różnicy średnich arytmetycznych z prób pochodzących z dwóch populacji normalnych o znanych odchyleniach
standardowych
1 próba pochodzi z populacji o rozkładzie N(m1,σ1)
2 próba pochodzi z populacji o rozkładzie N(m2,σ2)
Zn = X 1 − X 2 ma rozkład N(m1–m2,
σ +σ
n n
2
2
1
2
1
2
).
Rozkład różnicy średnich arytmetycznych z prób pochodzących z dwóch populacji normalnych z nieznanymi (ale nie
różniącymi się) odchyleniami standardowymi
Statystyka
Tn
+
1
n 2
−
2
=
( X 1 − X 2) − (m1 − m2)
n ⋅S +n ⋅S
2
1
1
2
2
2
n ⋅n ( + − )
n n 2
+
n n
1
2
1
1
2
2
ma rozkład Studenta z n1+n2-2 stopniami swobody, gdzie n1
i n2 – liczebności prób, S1 i S2 – odchylenia standardowe
z pierwszej i drugiej próbki.
46
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Rozkład wariancji z próby dla populacji normalnej
Jeżeli cecha X ma w populacji generalnej rozkład N(m,σ) a S2
jest to wariancja policzona z n-elementowej próby, to
statystyka
2
2
nS
χ = 2
n −1
σ
ma rozkład chi-kwadrat z n-1 stopniami swobody.
Rozkład ilorazu wariancji dla dwóch prób z populacji normalnych
Z dwu niezależnych populacji o rozkładach normalnych
N(m1,σ1) i N(m2,σ2) wylosowano próby proste liczące odpo2
2
wiednio r1 i r2 elementów i obliczono wariancje S 1 i S 2 , to
2
statystyka
rS
σ (r − 1)
=
F r −1 r −1
rS
σ (r − 1)
1
1
2
1
1
1
,
2
2
2
2
2
2
2
ma rozkład Snedecora z r1-1 i r2-1 stopniami swobody.
47
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Rozkład częstości (frakcji)
Jeżeli zmienna losowa X zdefiniowana jako liczba „sukcesów” w n losowaniach ma rozkład dwumianowy z prawdopodobieństwem wylosowania „sukcesu” w pojedynczym losowaniu p, to (biorąc pod uwagę twierdzenie Moivre’a-Laplace’a)
przy liczbie doświadczeń n częstość występowania „sukcesów”
= i , gdzie ni oznacza liczbę sukcesów, także
n
w
n
ma rozkład dwumianowy o parametrach:
i
E ( wi ) = p,
D( wi ) =
p (1 − p )
n
Przy odpowiednio dużej liczbie pomiarów (n>120), rozkład
częstości wi można przybliżyć rozkładem normalnym z powyższymi parametrami.
Rozkład różnicy dwóch częstości (frakcji)
Jeżeli mamy dwie niezależne zmienne losowe, każda o rozkładach dwumianowym, odpowiednio o parametrach p1 przy liczbie doświadczeń n1 i p2 przy n2 doświadczeniach, to różnica
między częstościami wi=w1i-w2i ma rozkład graniczny (przy
odpowiednio dużych n [n>120]) normalny o parametrach
p−p,
(1 − p ) p (1 − p )
p
+
σ = D( w ) =
n
n
m = E ( wi ) =
1
2
1
1
2
2
i
1
48
2
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Podstawy teorii estymacji (szacowania)
Estymacja punktowa
Jednym z narzędzi wnioskowania statystycznego jest estymator. Estymator to statystyka zbudowana na wynikach próby.
Estymatorami mogą być: średnia arytmetyczna, dominanta,
kolejne kwartyle, odchylenie standardowe i inne.
W przypadku wnioskowania parametrycznego estymatory
służą do oszacowania parametrów rozkładów.
Przykłady parametrów podlegających oszacowaniu w trakcie
wnioskowania statystycznego:
- λ =E(X) – gdy zmienna X ma rozkład Poissona,
- p= E(X)/n – gdy zmienna X ma rozkład dwumianowy,
- m= E(X) i σ = D 2 ( X ) – gdy zmienna losowa X ma rozkład normalny itd.
W przypadku wnioskowania nieparametrycznego celem jest
ustalenie postaci funkcji gęstości lub dystrybuanty rozkładu, a
estymatory służą do oceny prawdopodobieństw P{X=x0} dla
cech skokowych lub P{x1<X<x2} w przypadku cech ciągłych.
Oznaczmy ogólnie estymator przez Tn, a szacowany parametr
przez Θ (teta).
Różnicę Tn-Θ=d nazywamy błędem oszacowania (estymacji).
Błąd szacunku jest zmienną losową, a miarą tego błędu jest
∆=E(Tn–Θ)2
Jeżeli E(Tn)=Θ, to ∆ jest wariancją D2(Tn) estymatora Tn.
Odchylenie standardowe D(Tn) nazywamy standardowym błędem szacunku parametru Θ.
Wyrażenie D(Tn)/Θ nazywamy względnym błędem szacunku.
49
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Pożądane właściwości estymatorów:
Nieobciążoność estymatora:
Tn jest niebciążonym estymatorem parametru Θ, jeśli E(Tn)=Θ.
W przeciwnym przypadku estymator nazywamy obciążonym,
a b(Tn)=E(Tn)–Θ nazywamy obciążeniem estymatora.
Przykłady estymatorów nieobciążonych:
- średnia arytmetyczna jest nieobciążonym estymatorem
wartości oczekiwanej,
2
2
1 n
=
ˆ
−
X
∑
- wariancja obliczona ze wzoru S n i =1 X i
jest obciążonym estymatorem wariancji D2(X) w populacji z obciąże2
niem b( Ŝ )=–D2(X)/n.
2
n
Wariancja S2= n − 1 Sˆ jest estymatorem nieobciążonym.
(
)
Efektywność estymatora:
Najefektywniejszym estymatorem spośród nieobciążonych
estymatorów jest ten, który ma najmniejszą wariancję.
1
2
Rozważmy dwa nieobciążone estymatory T n i T n parame*
tru Θ. Jeżeli estymator T n jest estymatorem najefektywnieji
szym parametru Θ, to dla dowolnego estymatora T n iloraz:
2
i
e(T n) =
D
D (T
2
Jest miarą efektywności estymatora
wartości z przedziału (0;1].
50
*
(T n)
i
n
)
T
i
n
.
i
e(T n) przyjmuje
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Funkcja gęstości estymatora
T2n o parametrach Θ i D(T2n)
Funkcja gęstości
estymatora T1n
o parametrach Θ
i D(T1n)
Θ
Zgodność estymatora:
Estymator Tn parametru Θ jest estymatorem zgodnym, jeżeli
dla dowolnie małego ε>0 zachodzi:
lim P( T n − Θ < ε ) = 1
n →∞
Estymatory:
- nieobciążone dają, średnio biorąc, prawdziwe oceny parametru,
- najefektywniejsze dają, średnio biorąc, oceny parametru
najmniej różniące się od faktycznych wartości,
- zgodne dają oceny tym bliższe prawdy, im liczniejsza jest
próba będąca podstawą wnioskowania.
Metody konstrukcji estymatorów: metoda największej wiarygodności i metoda najmniejszych kwadratów.
51
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Podsumowanie estymacji punktowej:
Przykład:
Stwierdzono, że liczba awarii urządzenia w ciągu godziny
może być uznana za zmienną losową o rozkładzie Poissona.
Nieznana jest wartość parametru m=E(X) w tym rozkładzie. W
ciągu 100 godzin pracy tego urządzenia zarejestrowano 10
awarii. Najlepszym estymatorem parametru m jest średnia
arytmetyczna. Dla tej próby x =10/100=0.1.
Estymacja punktowa polega na przyjęciu za wartość parametru wartości jego estymatora, czyli m=0.1.
Jedyną informacją o jakości takiego postępowania jest ocena
zróżnicowania wartości, jakie może przyjmować estymator,
czyli ocena jego średniego błędu szacunku wyrażonego przez
odchylenie standardowe D(Tn).
W przykładzie
D( X ) m
D( x ) =
n
=
n
= 0.1 / 10 = 0.01
Można powiedzieć, że m= x =0.1 ze średnim błędem szacunku
D( x )=0.01.
Wynik estymacji punktowej można zapisać w następujący
sposób:
Θ=Tn±D(Tn)
Jeżeli estymator Θ ma rozkład normalny, to
P{Θ–D(Tn)<Tn<Θ+D(Tn)}=0.68,
czyli
P{ Tn–D(Tn)< Θ < Tn +D(Tn)}=0.68.
52
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Estymacja przedziałowa
Załóżmy, że cecha X ma rozkład z nieznanym parametrem µ.
Załóżmy, że na podstawie n-elementowej próby pochodzącej
z tej populacji możemy wyznaczyć dwie funkcje ì( x1 , x2 ,! , xn)
oraz µ ( x1 , x2 ,! , xn) i dla przyjętego prawdopodobieństwa 1α zachodzi:
P{ì( x1 , x2 ,! , xn) < ì < ì( x1 , x2 ,! , xn)} = 1 − α
Przedział (ì, ì) nazywamy przedziałem ufności parametru µ,
natomiast ustalone z góry prawdopodobieństwo 1-α współczynnikiem ufności.
Precyzja estymacji przedziałowej zależy:
- od decydenta, który ustala poziom ufności,
- od sytuacji decyzyjnej, czyli zakresu informacji o rozkładzie badanej cechy, np. czy znane jest odchylenie standardowe rozkładu D(X).
Ustalmy, że Sˆ
2
1 n
=
∑
n − 1 i =1
(X i − X )
2
oraz S
2
1 n
= ∑
n i =1
(X i − X ) .
2
Przedział ufności dla parametru m w populacji normalnej
z nieznanym odchyleniem standardowym.
x−m
=
t n−1 s n − 1
{
}
P − tα ,n −1 ≤ t n−1 ≤ tα ,n −1 = 1 − α


x−m
P− tα,n−1 ≤
n −1 ≤ tα,n−1 = 1 − α
s


s 
s

Px−t
≤ m ≤ x+t
 = 1 −α
α ,n−1
α ,n−1
1
1
n
n
−
−


53
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Przedział ufności dla parametru p w populacji z rozkładem
dwumianowym.
Jeżeli zmienna losowa X ma rozkład dwumianowy z nieznaX
nym p, estymatorem może być częstość pˆ =
, który ma
n
także rozkład dwumianowy z wartością oczekiwaną E( p̂ )=p
p (1 − p ) .
i odchylenie standardowym
D( pˆ ) =
n
Dla dostatecznie dużych n na podstawie twierdzenia
X
Moivre’a-Laplace’a statystyka pˆ =
ma w przybliżeniu
n
rozkład
p (1 − p )
)
N ( p,
n
a statystyka
pˆ − p
U=
rozkład normalny N(0,1).
p (1 − p )
n
{
}
P − uα ≤ U ≤ uα = 1 − α
Zatem
Przyjmując

P  pˆ − uα



P − uα ≤




pˆ − p
≤ uα  = 1 − α
p(1 − p)


n
p (1 − p )
≈
n
pˆ (1 − pˆ )
n
pˆ (1 − pˆ )
≤ p ≤ pˆ + uα
n
54
pˆ (1 − pˆ ) 
 = 1−α
n

Statystyka
Wydział Zarządzania Politechniki Białostockiej
Wybrane parametry i ich najlepsze estymatory
oraz reguły konstrukcji przedziałów ufności:
Parametr Esty- Rozkład
Przedział ufności
mator parametry
σ
σ
Normalny
E(X)=m
x
x − uα
≤ m ≤ x + uα
n
n
σ znane
Normalny n<=120 (30)
S
σ nieznane x −
≤m≤ x+
t
α , n −1
n −1
χ
χ
S
Normalny
χ
α
,n−1
2
lub n − 1
2
α
, n −1
2
" ≤
s σ
2
α , n −1
1+
p̂
2
≤
2
s
α
1− ,n−1
2
n −1
χ
2
α
1− , n −1
2
"
s
2
n>30
S
p
S
n −1
Normalny n>120 (30)
S
S
lub inny
x − uα
≤ m ≤ x + uα
n
n
σ nieznane
Normalny n<=30
n
n
2
2
≤
≤
2
2
s σ
D2(X)=σ2
D(X)
t
u
α
2n
≤σ ≤
S
1−
u
α
2n
n>120
Rozkład
dwumiapˆ (1 − pˆ )
pˆ (1 − pˆ )
−
≤
≤
+
p
p
p
ˆ
ˆ
u
u
α
α
nowy
n
n
55
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Problem minimalnej liczebności próbki
a) Cecha ma rozkład N(m,σ) przy znanym σ i konieczności
2
2
oszacowania parametru m:
uα ⋅σ
n=
d
2
b) Cecha ma rozkład N(m,σ) przy nieznanym σ i konieczności
oszacowania parametru m:
Z wstępnej liczącej n0 elementów próbki oblicza się
n
2
i =1
0
a następnie
(
"
1
=
S n −1 ∑ X i − X
"
⋅
t n s
2
n=
α,
)
2
2
0
−1
d
2
c) W przypadku szacowania prawdopodobieństwa „sukcesu” p
należy na podstawie próbki liczącej co najmniej 100 elementów należy oszacować wstępnie p i wyliczyć minimalną liczebność próbki:
2
⋅ p ⋅ (1 − p )
n = uα
2
d
Jeżeli brak jest podstaw do oszacowania p, przyjmujemy
najmniej sprzyjający przypadek p=q=0.5 i mamy:
2
u
=
n
4d
α
2
56
Statystyka
Wydział Zarządzania Politechniki Białostockiej
TESTOWANIE HIPOTEZ STATYSTYCZNYCH
Hipoteza statystyczna – każde przypuszczenie dotyczące
rozkładu cechy w populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Prawdziwość hipotezy statystycznej ocenia się na podstawie wyników próby losowej.
Hipotezy:
–
nieparametryczne dotyczą postaci funkcyjnej rozkładu,
współzależności cech, losowości próby;
–
parametryczne dotyczą parametrów rozkładu w populacji generalnej.
Hipotezą zerową H0 nazywamy hipotezę sprawdzaną
(weryfikowaną, testowaną).
Hipotezą alternatywną H1 nazywamy hipotezę, którą przyjmujemy, gdy odrzucamy hipotezę H0.
Test statystyczny jest to reguła postępowania, która przyporządkowuje wynikom próby losowej decyzję przyjęcia lub
odrzucenia hipotezy H0.
Błąd I rodzaju polega na odrzuceniu hipotezy H0, mimo że
jest ona prawdziwa.
Poziomem istotności α nazywamy prawdopodobieństwo popełnienia błędu I rodzaju. Wartości α są bliskie zera i na ogół
przyjmuje się jako równe 0.1, 0.05, 0.02, 0.01, 0.005, 0.002,
0.001.
Błąd II rodzaju polega na przyjęciu hipotezy H0, gdy jest ona
fałszywa. Prawdopodobieństwo popełnienia błędu II rodzaju
oznacza się przez β. Wartości α i β są powiązane.
Zmniejszanie jednej z nich powoduje zwiększanie drugiej.
57
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Testy istotności (testy najmocniejsze) dla zadanego z góry
poziomu istotności α zapewniają możliwie najmniejszą wartość prawdopodobieństwa β.
Sprawdzianem hipotezy nazywamy taką statystykę z próby
Zn o znanym rozkładzie (najczęściej statystyka ta ma rozkład
normalny N(0,1), t-Studenta, χ2, F Snedecora), której wartość
zn policzona na podstawie próby losowej, pozwala na podjęcie
decyzji, czy odrzucić hipotezę H0.
Rozkład sprawdzianu określa, z jakich tablic należy odczytywać wartość krytyczną Zα, która wyznacza obszar krytyczny.
Obszarem krytycznym (odrzucenia hipotezy H0) nazywamy
zbiór tych wartości sprawdzianu hipotezy Z, które przemawiają za odrzuceniem hipotezy H0.
W zależności od postaci hipotezy alternatywnej H1 obszar krytyczny może być obszarem jednostronnym lub dwustronnym.
Parametryczne testy istotności
Testowanie hipotezy o wartości średniej w populacji
Model I. Populacja generalna ma rozkład N(m,σ), przy czym
σ jest znane. Na podstawie próby n-elementowej sprawdzić
hipotezę
a)
H0: m= m0,
H1: m≠m0.
H1: m<m0.
b)
H0: m= m0,
H1: m>m0.
c)
H0: m= m0,
σ
Średnia X ma rozkład N(m0,
).
n
Sprawdzianem hipotezy H0 jest statystyka
58
u
uobl
=
X − m0
σ
n
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Z tablic rozkładu N(0,1) lub t-Studenta z ∞ liczbą stopni
swobody odczytujemy wartość krytyczną uα.
Rozkład normalny N(0,1)
a)
0.60
H0: m=
,
H1: m≠ .
H1: m≠m0 (α=0.05)
0.45
0.30
α/2
α/2
0.15
0.00
-3.92
-1.96
Przedział krytyczny -u
α
0.00
1.96
U
uα
3.92
Przedział krytyczny
Rozkład normalny N(0,1)
0.60
H1: m<m0 (α=0.05)
0.45
0.30
α
0.15
0.00
-3.290
-1.645
Przedział krytyczny -u
2α
0.000
U
59
1.645
3.290
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Rozkład normalny N(0,1)
0.60
H1: m>m0 (α=0.05)
0.45
0.30
α
0.15
0.00
-3.290
-1.645
0.000
U
1.645
u 2α
3.290
Przedział krytyczny
Gdy uobl znajduje się w przedziale krytycznym, na poziomie
istotności α za słuszną przyjmujemy H1. W przeciwnym razie
wniosek brzmi: brak podstaw do odrzucenia H0.
Model II. Populacja generalna ma rozkład N(m,σ), przy czym
σ jest nieznane. Na podstawie próby n-elementowej sprawdzić hipotezę
H1: m≠m0.
a)
H0: m= m0,
b)
H0: m= m0,
H1: m<m0.
c)
H0: m= m0,
H1: m>m0.
Sprawdzianem hipotezy H0 jest statystyka
tobl, n - 1 =
X −m
X −m
n
n −1 =
sˆ
s
60
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Z tablic rozkładu t-Studenta z n-1 stopniami swobody odczytujemy wartość krytyczną tα,n−1. Dalej postępujemy analogicznie jak w modelu I.
Przykład: Zakłada się, że „długość życia opon samochodowych ma rozkład normalny. Producent twierdzi, że przeciętne
„życie” jego opon wynosi 50 tys. km. Na podstawie 100 losowo wybranych opon otrzymano X =45 tys. km i s=8 tys. km.
Czy na poziomie istotności α=0.05 można uważać, że producent ma rację?
tobl =
45 − 50
X −m
100 = −6.25
n=
8
s
Ponieważ |tobl|>t0.05,99=1.98, więc można uznać na poziomie
istotności α=0.05, że producent nie ma racji. Przeciętna
„długość życia” jego opon jest istotnie krótsza niż 50 tys. km.
Model III. Populacja generalna ma dowolny rozkład z nieznanymi parametrami. Na podstawie dużej próby n-elementowej
sprawdzić hipotezę
a)
H0: m= m0,
H1: m≠m0.
b)
H0: m= m0,
H1: m<m0.
H1: m>m0.
c)
H0: m= m0,
Korzystamy z tego, że średnia arytmetyczna
z próby wylosowanej z dowolnej populacji ma asymptotyczny rozkład normalny, a odchylenie standardowe s z próby jest stochastycznie
zbieżne do D(X) w populacji.
Sprawdzianem hipotezy H0 jest statystyka
X −m
uobl =
n
s
Z tablic rozkładu N(0,1) lub t-Studenta z ∞ liczbą stopni
swobody odczytujemy wartość krytyczną uα.
61
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Testowanie hipotezy o równości dwóch średnich
Model I. Dane są dwie populacje o rozkładach normalnych
N(m1,σ1) i N(m2,σ2) ze znanymi σ1 i σ2. W oparciu o dwie
losowe próby n1 i n2 elementowe sprawdzić hipotezę
H0: m1= m2,
H1: m1≠ m2.
Sprawdzianem hipotezy H0 jest statystyka
uobl =
X −X
σ +σ
n n
1
2
2
2
1
2
1
2
Z tablic rozkładu N(0,1) lub t-Studenta z ∞ liczbą stopni
swobody odczytujemy wartość krytyczną uα.
Model II. Dane są dwie populacje o rozkładach normalnych
N(m1,σ1) i N(m2,σ2) z nieznanymi σ1 i σ2, ale σ1=σ2. W oparciu o dwie małe niezależne próby losowe n1 i n2 elementowe
sprawdzić hipotezę
H0: m1= m2,
H1: m1≠ m2.
Sprawdzianem hipotezy H0 jest statystyka
t
obl
=
X −X
n s + n s  1
n + n − 2  n
1
2
1
2
2
1
1
2
2
2
1
1 
+
n 2 
Z tablic rozkładu t-Studenta z n1+n2-2 liczbą stopni swobody
odczytujemy wartość krytyczną tα.
62
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Jeżeli wnioskowanie odbywa się w oparciu o dwie małe zależne próby losowe n elementowe (n par obserwacji) sprawdzić
hipotezę
H0: m1- m2=0,
H1: m1-m2≠0.
Sprawdzianem hipotezy H0 jest statystyka
t
obl
=
Z
s
n −1
Z
gdzie Z jest średnią arytmetyczną różnic pomiarów sparowanych a sz jest odchyleniem standardowym tych różnic.
Z tablic rozkładu t-Studenta z n-1 stopniami swobody odczytujemy wartość krytyczną tα.
Model III. Dane są dwie populacje o rozkładach normalnych
N(m1,σ1) i N(m2,σ2) ze nieznanymi σ1 i σ2. W oparciu o dwie
duże losowe próby n1 i n2 elementowe sprawdzić hipotezę
H0: m1= m2,
H1: m1≠ m2.
Sprawdzianem hipotezy H0 jest statystyka
uobl =
X −X
s +s
n n
1
2
2
2
1
2
1
2
Z tablic rozkładu N(0,1) lub t-Studenta z ∞ liczbą stopni
swobody odczytujemy wartość krytyczną uα.
63
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Test hipotezy o wariancji
Populacja generalna ma rozkład N(m,σ) o nieznanych parametrach. Z populacji tej wylosowano niezależnie n-elementową
próbę, na podstawie której należy sprawdzić hipotezę
2
2
2
2
2
=
>
H0: σ σ 0 kontra H1: σ 2 σ 0 , gdzie σ 0 jest hipotetyczną wartością wariancji σ .
Sprawdzianem hipotezy H0 jest statystyka
χ
2
obl
ns
=
σ
2
2
2
=
(n − 1) sˆ
σ
0
2
=
0
n
1
σ
2
0
∑ ( xi − x)
2
i =1
Z tablic rozkładu χ22 z n-1 stopniami swobody odczytujemy
wartość krytyczną χ α .
Test hipotezy o dwóch wariancjach
Badamy dwie populacje generalne o rozkładach N(m1,σ1)
i N(m2,σ2) o nieznanych parametrach. Z populacji tej wylosowano niezależnie dwie próby n1 i n2-elementowe próby, na
podstawie których należy sprawdzić hipotezę
2
2
2
2
H0: σ 1 = σ 2 kontra H1: σ 1 ≠ σ 2 .
Sprawdzianem hipotezy H0 jest statystyka
F
obl
2
=
sˆ
sˆ
1
2
,
2
sˆ
1
2
> sˆ2
2
Z tablic rozkładu F-Snedecora z r1=n1-1 i r2=n2-1 stopniami
swobody odczytujemy wartość krytyczną Fα.
64
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Test istotności dla frakcji (wskaźnika struktury)
Populacja generalna ma rozkład zero-jedynkowy z parametrem p. Dla takiej populacji w oparciu o n-elementową dużą
próbę zweryfikujemy hipotezę, że parametr p ma w populacji
pewną wartość p0, czyli:
H0: p=p0 wobec alternatywnej hipotezy H1: p≠p0
Sprawdzianem hipotezy H0 jest statystyka
u
obl
m
−p
0
n
,
p (1 − p )
=
0
0
n
gdzie m oznacza liczbę elementów wyróżnionych w próbie.
Z tablic rozkładu N(0,1) lub t-Studenta z ∞ liczbą stopni
swobody odczytujemy wartość krytyczną uα.
Test istotności dla różnicy dwóch frakcji
Badamy dwie populacje generalne o rozkładach zero-jedynkowych z parametrami p1 i p2. Dla tych populacji w oparciu o n1
i n2-elementowe duże próby zweryfikujemy hipotezę:
H0: p1=p2 wobec alternatywnej hipotezy H1: p1≠p2
Sprawdzianem hipotezy H0 jest statystyka
m1 m2
u
gdzie p =
m1+ m
n1+ n
2
2
, a n=
nn
n1+ n
1
.
2
2
−
obl
=
n n ,
p (1 − p )
n
1
2
Z tablic rozkładu N(0,1) lub t-Studenta z ∞ liczbą stopni
swobody odczytujemy wartość krytyczną uα.
65
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Nieparametryczne testy istotności
Testy zgodności
Test zgodności χ2
Niech zerową hipotezą będzie przypuszczenie, że populacja
generalna ma rozkład określony dystrybuantą F0(x):
H0: F(x)=F0(x) (cecha ma rozkład zgodny z wybranym rozkładem teoretycznym),
H1: F(x)≠F0(x) (cecha ma rozkład inny niż wybrany rozkład teoretyczny).
2
Test zgodności χ można stosować wtedy, gdy:
- dane pochodzą z dużej n-elementowej próby wylosowanej
w sposób niezależny,
- dane są przedstawione w postaci szeregu rozdzielczego o k
przedziałach klasowych o liczebnościach n1, n2, ... nk (ni≥5),
- rozkład hipotetyczny sprecyzowany w H0 może być
rozkładem typu ciągłego jak i skokowego.
Sprawdzianem hipotezy H0 jest statystyka
χ
2
obl .
=
(n i − n p i)
∑
np
2
k
i =1
i
pi – prawdopodobieństwo, że cecha X przyjmuje wartość
należącą do i-tego przedziału klasowego,
npi – liczba jednostek, które powinny znaleźć się w i-tym
przedziale przy założeniu, że cecha ma rozkład zgodny z rozkładem teoretycznym określonym w H0.
Z tablic rozkładu χ2 2z k-s-1 stopniami swobody odczytujemy
wartość krytyczną χ α (s – liczba parametrów, które szacujemy z próby).
66
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Przykład: Producent proszku do prania uważa, że rozkład wagi
pudełka proszku jest N(m,σ). Na podstawie 150 wylosowanych niezależnie pudełek otrzymano:
Waga pudełka (w gramach) Liczba pudełek
575-585
16
585-595
34
595-605
50
605-615
38
615-625
12
Na poziomie istotności α=0.05 zweryfikować hipotezę, że
rozkład wagi pudełek proszku (X) jest normalny.
H0: X ma rozkład N(m,σ),
H1: X ma inny rozkład.
Parametry m i σ są nieznane, więc szacujemy je z próby:
2
=599.7;
=122.59; s=11.07.
s
x
Oznaczmy:
i – nr klasy,
xi1 – górna granica i-tego przedziału,
t i1 =
x
i1
−x
s
.
(ni−npi)
np
0.548
0.504
0.077
0.422
0.000
1.551
2
i
xi1
ui1
F(ui1)
pi
npi
ni
i
1
2
3
4
5
Razem
585
595
605
615
∞
-1.33
-0.42
0.48
1.38
2.28
0.0885
0.3446
0.6915
0.9192
1,0000
0.0885
0.2561
0.3469
0.2277
0.0808
1.0000
13.3
16
38.4
34
52.0
50
34.2
38
12.1
12
150.0 150
Stopni swobody=5-2-1=2, χobl. =1.551< χ 0.05 = 5.991 . Brak podstaw, by odrzucić hipotezę, że cecha ma rozkład normalny.
2
2
67
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Test zgodności λ-Kołmogorowa
Niech zerową hipotezą będzie przypuszczenie, że populacja
generalna ma rozkład typu ciągłego określony dystrybuantą
F0(x):
H0: F(x)=F0(x) (cecha ma rozkład zgodny z wybranym rozkładem teoretycznym),
H1: F(x)≠F0(x) (cecha ma rozkład inny niż wybrany rozkład teoretyczny).
Sprawdzianem hipotezy H0 jest statystyka
gdzie
λ = n Dn
D=
n
sup | F(x) − F *(x) |
−∞<x<∞
68
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Przy czym F(x) oznacza dystrybuantę teoretyczną, a F*(x) dystrybuantę empiryczną. Jeżeli ni sk jest liczebnością skumulowaną odpowiadającą wartościom cechy nie większym od x, to
F * ( x) =
n
n
i sk
Statystyka λ przy założeniu prawdziwości H0 ma asymptotyczny rozkład λ-Kołmogorowa. Z tablic dystrybuant tego
rozkładu odczytujemy wartość krytyczną λα (P(λ≥λα)=α).
Przykład: Inny sposób testowania hipotez
H0: waga pudełka proszku ma rozkład N(m,σ),
H1: ma inny rozkład
z poprzedniego przykładu (α=0.05).
Wartości dystrybuanty F(ti1) wzięto z tabelki z poprzedniego
przykładu, pozostałe obliczenia pomocnicze zawiera poniższa
tabela:
i
xi1
ni
ni sk
F*(ti1)
F(ti1)
|F(ti1)-F*(ti1)|
1
2
3
4
5
585
595
605
615
∞
16
34
50
38
12
16
50
100
138
150
0.11
0.33
0.67
0.92
1.00
0.0885
0.3446
0.6915
0.9192
1,0000
0.0215
0.0146
0.0215
0.0008
0.0000
λ
=
Dn=0.0215,
obl .
150 ⋅0.0215=0.263.
Ponieważ λobl=0.263 < λ0.05=1.36, nie ma podstaw do odrzucenia H0, że rozkład wagi pudełka proszku jest N(m,σ).
69
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Nieparametryczne (niezależne od rozkładu) testy istotności
dla dwóch prób
Testy te są nieparametryczną alternatywą dla testów do porównania średnich arytmetycznych wymagających spełnienia
podstawowego założenia, że cecha ma rozkład normalny.
Test Kołmogorowa-Smirnowa
Test służy do weryfikacji hipotezy, że dwie populacje mają jednakowy rozkład (inaczej, że dwie próby pochodzą z tej samej
populacji). W obu populacjach cecha jest ciągła o rozkładach
opisanych dystrybuantami F1(x) i F2(x). Testowane hipotezy
mają postać:
H0: F1(x)=F2(x),
H1: F1(x)≠F2(x).
Sprawdzianem hipotezy H0 jest statystyka
⋅n
n
, n=
λ= nD
n n
n +n
Dn n = sup | Fn (x) − Fn (x) |
1
gdzie
,
2
*
1
,
2
2
1
2
*
1
x
1
2
*
*
n1, n2 – liczebności dużych prób z obu populacji, Fn1(x), Fn2(x)
są dystrybuantami empirycznymi w próbach.
Statystyka λ przy założeniu prawdziwości H0 ma asymptotyczny rozkład λ-Kołmogorowa. Z tablic dystrybuant tego
rozkładu odczytujemy wartość krytyczną λα (P(λ≥λα)=α).
70
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Przykład: Mając dane zawarte w poniższej tabeli zweryfikować hipotezę, że rozkład wieku lekarzy na wsi i w mieście jest
taki sam (α=0.05).
Wiek
25-30
30-35
35-40
40-45
45-50
50-55
55-60
*
Liczba lekarzy
Fn
(x)
1
wiejskich miejskich
30
20
30
40
70
80
100
90
60
110
40
40
10
30
0.086
0.200
0.400
0.686
0.857
0.971
1.000
*
Fn2(x) |Fn1(x)− Fn* 2(x)|
0.050
0.125
0.325
0.550
0.825
0.925
1.000
*
0.036
0.075
0.075
0.136
0.032
0.046
0.000
H0: F1(x)=F2(x),
H1: F1(x)≠F2(x).
λ
obl.
= 186.7⋅0.136=1.86>λ0.05=1.36, więc odrzucamy hipote-
zę H0 (struktury wieku lekarzy na wsi i w mieście są różne.
Test serii Walda-Wolfowitza
Hipoteza zerowa H0 stwierdza, że dwie porównywane
próby niezależne pochodzą z tej samej populacji, czyli mają
taki sam rozkład (normalny lub jakikolwiek inny). H1 stwierdza, że próby pochodzą z populacji o różnych rozkładach
(jakiekolwiek różnice).
Zasada: wszystkie pomiary z dwóch prób rangujemy łącznie
i określamy stopień przemieszania prób poprzez ustalenie liczby serii w szeregu rangowym:
określamy stopień przemieszania prób poprzez ustalenie
liczby serii w szeregu rangowym:
ABBBABAAAABAABAAAABBBBBBAA
Niech r oznacza liczbę serii, n1 i n2 – liczebności prób.
71
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Jeżeli liczebności prób są mniejsze lub równe 20, musimy
skorzystać ze specjalnych tabel lub pakietów statystycznych.
Jeżeli n1 i n2 są większe niż 20, to rozkład liczby serii można
przybliżyć rozkładem normalnym:
2n 1n 2 2n 1n 2(2n 1n 2−n 1−n 2)
N(1+
,
)
2
n 1+n 2 (n 1+n 2) (n 1+n 2−1)
&#%#
$ &####%####$
mr
σr
Sprawdzianem hipotezy H0 jest statystyka
u =
obl
r − mr
σ
r
gdzie r oznacza liczbę serii.
Z tablic rozkładu N(0,1) lub t-Studenta z ∞ liczbą stopni
swobody odczytujemy wartość krytyczną uα.
Przykład: W celu porównania wyników studiów studentów
dwóch wydziałów pewnej uczelni, wylosowano dwie próby
reprezentujące studentów obu wydziałów. Dla wydziału A
otrzymano następujące średnie oceny z sesji egzaminacyjnej:
3.64, 4.20, 3.25, 4.50, 4.63, 4.88, 2.65, 4.00, 3.24, 4.15, 4.73,
5.00, 2.60, 2.94, 3.05, a dla wydziału B oceny: 4.30, 4.05,
2.80, 3.00, 3.75, 3.00, 4.35, 3.45, 3.66, 2.50, 3.75, 3.50, 4.48,
4.07, 3.90. Na poziomie istotności α=0.05 zweryfikować
hipotezę, że studenci obu wydziałów uzyskali takie same
wyniki w sesji egzaminacyjnej.
72
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Porządkujemy łącznie obie serie ocen zaznaczając, z którego
wydziału pochodzą.
2.5
b
3.45
b
2.6
a
3.5
b
2.65
a
3.64
a
2.8
b
3.66
b
2.94
a
3.75
b
3
b
3.75
b
3
b
3.9
b
3.05
a
4
a
3.24
a
4.05
b
3.25
a
4.07
b
Liczymy serie (r=14) oraz mr=16 i σr=2.69.
Następnie obliczamy wartość sprawdzianu:
u =
obl
4.15
4.2
4.28
4.3
4.35
4.5
4.63
4.73
4.88
5
a
a
b
b
b
a
a
a
a
a
14 − 16
= -0.74349
2.69
Ponieważ |uobl|=0.74349<u0.05=1.96, więc brak podstaw do
odrzucenia hipotezy H0, że studenci obu wydziałów uzyskali
jednakowe wyniki w sesji.
Testy U Manna-Whitneya (Wilcoxona) dla prób niezależnych oraz test Wilcoxona rang dla par
Wszystkie założenia i hipotezy są identyczne jak w teście
omówionym wyżej. Inna jest zasada. Test U Manna-Whitneya
jest alternatywą testu serii Walda-Wolfowitza o wyższej mocy
opartą o sumy rang. Dostępne w pakietach statystycznych.
Trzy ostatnie testy stanowią alternatywę dla testów porównujących średnie w próbach niezależnych (niepowiązanych, niesparowanych) – testy Walda-Wolfowitza i U Manna-Whitneya, oraz w próbach zależnych (powiązanych, sparowanych)
73
Statystyka
Wydział Zarządzania Politechniki Białostockiej
– test Wilcoxona dla par w sytuacji, gdy badane cechy statystyczne nie mają rozkładu normalnego.
Pakiet STATISTICA – test t-Studenta dla dwóch średnich
Pakiet STATISTICA – test t-Studenta dla par
74
Statystyka
Wydział Zarządzania Politechniki Białostockiej
STATISTICA – testy nieparametryczne
75
Statystyka
Wydział Zarządzania Politechniki Białostockiej
CECHY STATYSTYCZNE WIELOWYMIAROWE
Każda jednostka badanej zbiorowości jest opisywana przez
wiele cech statystycznych jednocześnie. Zbiór tych cech
nazywamy cechą statystyczną wielowymiarową.
Ważna jest odpowiedź na pytanie, czy między obserwowanymi właściwościami istnieje związek, czyli czy wystąpienie
pewnych cech warunkuje wystąpienie innych, ściśle
określonych, czy też takich powiązań nie ma?
Pytanie to dotyczy związku przyczynowo-skutkowego między
cechami (np. cena wyrobu –> wielkość sprzedaży).
Jeżeli cechy statystyczne są mierzalne, to ich współwystępowanie można opisać za pomocą związku funkcyjnego.
Rozkład zmiennej losowej dwuwymiarowej
Rozkładem łącznym prawdopodobieństw dwuwymiarowej
zmiennej losowej skokowej (dyskretnej) (X,Y) nazywa się
k
l
zbiór prawdopodobieństw:
p =1
∑∑
P(X=xi,Y=yj)=pij
i =1 j =1
dla i=1,2,...,k,
ij
j=1,2,...,l,
Dystrybuanta dwuwymiarowej zmiennej skokowej:
F ( x, y ) =
76
∑ ∑ p
xi < x yj < y
ij
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Rozkład dwuwymiarowej zmiennej losowej dyskretnej w postaci tabeli korelacyjnej:
Y
X
y1,
...,
yl
x1
p11,
...,
p1l
p1.
x2
p21,
...,
p2l
p2.
.
.
.
.
.
.
.
.
.
xk
pk1,
...,
pkl
pk.
p.1,
...,
p.l
1
Funkcją gęstości dwuwymiarowej zmiennej losowej ciągłej
(X,Y) jest dowolna funkcja f(x,y) spełniająca warunki:
f(x,y)≥0 oraz
∞ ∞
∫ ∫ f ( x, y )dxdy = 1
−∞ −∞
Dystrybuantą dwuwymiarowej
zmiennej losowej ciągłej (X,Y)
x y
jest funkcja:
F ( x, y ) = ∫ ∫ f ( x, y )dxdy
− ∞ −∞
Rozkłady brzegowe:
a) zmienna losowa skokowa
- zmiennej X
l
P( X = xi ) = ∑ pij = pi . , dla i = 1,2,..., k
j =1
77
Statystyka
Wydział Zarządzania Politechniki Białostockiej
k
- zmiennej Y P(Y = yj ) = ∑ pij = p. j , dla j = 1,2,..., l
i =1
b) zmienna losowa ciągła
- zmiennej X
f 1( x ) =
∞
∫ f ( x, y )dy
−∞
f 2( y ) =
- zmiennej Y
∞
∫ f ( x, y )dx
−∞
Zmienne losowe X i Y są niezależne, gdy dla każdej pary wartości (xi,yj) spełniony jest warunek:
pij =P(X=xi,Y=yj)= P(X=xi)⋅P(Y=yj)= pi. p.j
Jeśli zmienne losowe skokowe X i Y są niezależne, to
P ( X = xi, Y = yj ) P( X = xi ) P(Y = yj )
=
=
P (Y = yj )
P(Y = yj )
= P( X = xi ) = pi.,
dla i = 1,2,..., k
P ( X = xi / Y = yj ) =
oraz
P( X = xi, Y = yj ) P( X = xi ) P(Y = yj )
=
=
P( X = xi )
P( X = xi )
= P(Y = yj ) = p. j ,
dla j = 1,2,..., l
P (Y = yj / X = xi ) =
78
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Warunkiem niezależności w przypadku zmiennych losowych
ciągłych X i Y jest: f(x,y)=f1(x)⋅f2(y) dla każdej pary (x,y).
Dla niezależnych zmiennych losowych ciągłych X i Y mamy
f ( x / y) =
f ( x, y ) f 1( x) f 2( y )
=
= f 1( x)
f 2( y )
f 2( y )
f ( y / x) =
f ( x, y ) f 1( x) f 2( y )
=
= f 2( y )
f 1( x)
f 1( x)
Jeśli cechy X i Y są niezależne, to wszystkie rozkłady warunkowe (P(X=xi/Y=yj), f(x/y)) są identyczne z rozkładami brzegowymi.
Kowariancja zmiennych losowych (X,Y):
C(X,Y)=E(XY)-E(X)⋅E(Y)
Współczynnik korelacji między zmiennymi losowymi X i Y:
ρ ( X ,Y ) =
C( X ,Y )
,
D ( X ) ⋅ D(Y )
−1 ≤ ρ ( X ,Y ) ≤ 1
gdzie D(X) i D(Y) to odchylenia standardowe cech X i Y.
Mierzy on siłę zależności liniowej między zmiennymi X i Y.
Warunkowa wartość oczekiwana zmiennej X:
k
k
i =1
i =1
E ( X / Y = yj ) = ∑ xiP( X = xi / Y = yj ) = ∑ xi
pij
= m1( yj )
p⋅ j
Równanie regresji pierwszego rodzaju zmiennej X względem
zmiennej Y: E ( X / Y = yj ) = m1( yj ) ,
analogicznie, równanie regresji pierwszego rodzaju zmiennej
Y względem zmiennej X: E (Y / X = xi ) = m2( xi ) .
79
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Jeśli zmienne losowe X i Y są niezależne, to E(X/Y=yj)=E(X)
oraz E(Y/X=xi)=E(Y).
Warunkowe wariancje zmiennych losowych X i Y:
D2(X/Y)=E[X/Y-E(X/Y)]2
D2(Y/X)=E[Y/X-E(Y/X)]2
Zbiór punktów płaszczyzny (aj,bj) o współrzędnych:
(aj=E(X/Y=yj)=m1(y), bj=yj), i=1,2,...,l nazywa się regresją
pierwszego rodzaju zmiennej X względem Y.
Zbiór punktów płaszczyzny (cj,dj) o współrzędnych:
(cj=xi, di=E(Y/X=xi)=m2(x)), i=1,2,...,k nazywa się regresją
pierwszego rodzaju zmiennej Y względem X.
Funkcje regresji II rodzaju
Weźmy funkcję liniową h(x) postaci:
h(X)=αyX+βy
Jeśli parametry funkcji h(X) wyznaczymy tak, by spełniony
był warunek:
E[Y-E(αyX+βy)]2=min
wówczas otrzymamy liniową funkcję regresji II rodzaju
zmiennej Y względem X. Oznaczamy ją Y=αyX+βy.
Parametry
y
i
y
określone są wzorami:
C( X ,Y )
αy = 2
βy = E (Y ) − αyE ( X ).
,
D (X )
80
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Analogicznie funkcję liniową regresji II rodzaju X względem
Y oznaczamy: X=αxY+βx, a parametry αx i βx określone są
wzorami:
C( X ,Y )
αx = 2
βx = E ( X ) − αxE (Y ).
,
D (Y )
Obie funkcje regresji przechodzą przez punkt o współrzędnych (E(X),E(Y)).
Przykład: Wydajność pracy (X) w tys. sztuk wyrobu oraz czas
dojazdu w kwadransach do pracy (Y) przedstawia tabela korelacyjna:
Czas dojazdu (Y)
Wydajność (X)
1
2
3
5
0
0.1
0.3
6
0
0.2
0.1
7
0.1
0.1
0.1
Rozkłady brzegowe:
X: P(X=5)=0.4,
P(X=6)=0.3,
P(X=7)=0.2
Y: P(Y=1)=0.1,
P(Y=2)=0.4,
P(Y=3)=0.5
Zmienne X i Y są zależne, gdyż są pij≠pi.p.j.
Np. P(X=5,Y=1)=0 ≠ P(X=5)⋅P(Y=1)=0.4⋅0.1=0.04
E(X)=5⋅0.4+6⋅0.3+7⋅0.3=5.9
E(Y)=1⋅0.1+2⋅0.4+3⋅0.5=2.4D2(X)
=(5-5.9)2⋅0.4+(6-5.9)2⋅0.3+(7-5.9)2⋅0.3=0.690
81
Statystyka
Wydział Zarządzania Politechniki Białostockiej
D(X)=0.83
D2(Y)=(1-2.4)2⋅0.1+(2-2.4)2⋅0.4+(3-2.4)2⋅0.5=0.520
D(Y)=0.72
Policzymy kowariancję:
C(X,Y)=(5⋅1⋅0+6⋅1⋅0+7⋅1⋅0.1+5⋅2⋅0.1+6⋅2⋅0.2+7⋅2⋅0.1+
+5⋅3⋅0.3+6⋅3⋅0.1+7⋅3⋅0.1)-(5.9⋅2.9)=13.9-14.1=-0.26
Między zmiennymi X i Y istnieje korelacja ujemna.
Aby znaleźć siłę korelacji policzmy współczynnik korelacji:
ρ ( X ,Y ) =
C( X ,Y )
− 0.26
=
= −0.43
D( X ) ⋅ D(Y ) 0.83 ⋅ 0.72
Funkcje regresji I rodzaju:
P(Y=1/X=5)=0/0.4=0.00 P(Y=1/X=6)=0/0.3=0.00
P(Y=2/X=5)=0.3/0.4=0.25
P(Y=2/X=6)=0.2/0.3=0.67
P(Y=3/X=5)=0.3/0.4=0.75
P(Y=3/X=6)=0.1/0.3=0.33
P(Y=1/X=7)=0.1/0.3=0.33
P(Y=2/X=7)=0.1/0.3=0.33
P(Y=3/X=7)=0.1/0.3=0.33
Warunkowe wartości oczekiwane zmiennej Y pod warunkiem,
że zmienna X przyjmuje wartości 5, 6, 7:
m1(5)=E(Y/X=5)=1⋅0+2⋅1/4+3⋅3/4=2.75,
m1(6)=E(Y/X=6)=1⋅0+2⋅2/3+3⋅1/3=2.33,
82
Statystyka
Wydział Zarządzania Politechniki Białostockiej
m1(7)=E(Y/X=7)=1⋅1/3+2⋅1/3+3⋅1/3=2.00.
Linię regresji I rodzaju Y względem X wyznaczają punkty
o współrzędnych:
(x=5, m1(5)=2.75), (x=6, m1(6)=2.33), (x=7, m1(7)=2.00).
Analogicznie wyliczając możemy sprawdzić, że linię regresji I
rodzaju X względem Y wyznaczają punkty o współrzędnych:
(m2(1)=7, y=1), (m2(2)=6, y=2), (m2(3)=5.6, y=3).
Obliczymy parametry αy i βy liniowej funkcji regresji II rodzaju zmiennej Y względem zmiennej X:
αy=-0.26/0.69=-0.38,
βy=2.4+0.26⋅5.9=3.93.
Funkcja regresji zmiennej Y względem zmiennej X ma postać:
Y=-0.38 X+3.93
Obliczymy parametry αx i βx liniowej funkcji regresji II rodzaju zmiennej X względem zmiennej Y:
αx=-0.26/0.52=-0.5,
βx=5.9+0.5⋅2.4=7.1.
Funkcja regresji zmiennej X względem zmiennej Y ma postać:
X=-0.5 Y+7.1.
Parametry αy i αx nazywamy współczynnikami regresji.
Dalej zajmiemy się ważnym problemem statystyki jakim jest
analiza współzależności cech statystycznych jakościowych
(niemierzalnych i mierzalnych) na podstawie obserwacji
z próby.
83
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Testowanie niezależności między
cechami jakościowymi testem niezależności χ2
Test przeznaczony jest do oceny współzależności między:
– dwiema cechami jakościowymi (niemierzalnymi),
– cechami jakościową i ilościową,
– dwiema cechami ilościowymi skategoryzowanymi.
Weryfikuje on nieparametryczne hipotezy:
H0: dwie cechy opisujące zbiorowość statystyczną są
niezależne (pij=pi.p.j dla wszystkich par wskaźników
i, j – oznaczenia jak niżej),
H1: dwie cechy są współzależne (pij≠pi.p.j dla niektórych
par wskaźników i, j – oznaczenia jak niżej).
Dla zweryfikowania tych hipotez należy dysponować odpowiednio dużą próbą (nij≥5 dla każdej pary wskaźników i, j).
Wyniki obserwacji przedstawiamy w postaci tzw. tablicy
dwudzielnej o k wierszach i l kolumnach.
Cecha X
Cecha Y
ni.
y1,
...,
yl
x1
n11,
...,
n1l
n1.
x2
n21,
...,
n2l
n2.
xk
nk1,
...,
nkl
nk.
n.j
n.1,
...,
n.l
n
84
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Oszacowania brzegowych rozkładów cechy X i cechy Y uzyskujemy w sposób następujący:
ni⋅
n⋅ j
P(Y=yj)=p.j≈
P(X=xi)=pi. ≈
n
n
Zakładając prawdziwość H0 liczebności teoretyczne obliczamy następująco:
nn
.
npij=npi.p.j=
n
i⋅
⋅j
Sprawdzianem H0 jest statystyka
(nij − n pij )
χ = ∑∑
np
k
2
obl .
2
l
i =1 j =1
ij
Wartość krytyczną χ2 dla zadanego poziomu istotności α odczytujemy z tablic wartości krytycznych
rozkładu χ2 z (k-1)(l-1)
2
2
stopniami swobody. Jeżeli χ obl . > χ α ,( k −1)( l −1) odrzucamy H0, czyli cechy X i Y są zależne.
Ocena siły współzależności cech jakościowych:
a) współczynnik ϕ–Yule’a:
2
χ obl .
ϕ=
n
gdy k=2, l – dowolne – to 0≤ ϕ ≤1,
gdy k>2, l – dowolne – to ϕ może być większe od 1.
b) współczynnik zbieżności T–Czuprowa:
T=
χ
2
obl .
n (k − 1)(l − 1)
gdy k=l – to 0≤ Τ ≤1,
gdy k≠l – to T może być znacznie mniejsze od 1.
c) współczynnik V–Cramera:
V=
χ
2
obl .
n min(k − 1, l − 1)
85
Statystyka
Wydział Zarządzania Politechniki Białostockiej
gdy k=l – to 0≤ V ≤1, (V=T),
gdy k≠l – to 0≤ V ≤1, (V>T),
Gdy obliczony współczynnik jest „w pobliżu” zera – cechy X
i Y są stochastycznie niezależne, im jest bliższy jedności – tym
silniejsza zależność. Gdy k=l=2, to ϕ=V=T.
Przykład: W celu oceny skuteczności specjalnej diety odchudzającej wśród członków klubu „fitness” przeprowadzono
ankietę dotyczącą jej stosowania. Wyniki zawiera tabela:
Stosowanie diety
Nie stosuje
Stosuje
80
20
100
100
180
120
Utrata wagi
Bez utraty
Utrata
Ogółem
Ogółem
100
200
300
Przyjmując α=0.05 zweryfikować hipotezę, że utrata wagi
zależy od stosowania diety.
H0: utrata wagi nie zależy od stosowania diety,
H1: utrata wagi zależy od stosowania diety.
Stosowanie diety
2. Stosuje
1. Nie stosuje
npi2
npi1
np11=60
np12=40
np21=120
np22=80
n.1=180
n.2=120
Utrata wagi
1. Bez utraty
2. Utrata
Ogółem n.j
Ogółem
ni.
n1.=100
n2.=200
n=300
(80−60) (20− 40) (100−120) (100−80)
+
+
+
= 25
χ =
60
40
120
80
2
2
2
2
2
obl .
Ponieważ χ obl . > χ 0.05 ,( 2−1)( 2−1) = χ 0.05 ,1 = 3.841, odrzucamy H0, czyli
utrata wagi w istotny sposób zależy od stosowania diety.
2
2
2
86
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Analiza zależności korelacyjnej
między cechami mierzalnymi
Istotą zależności korelacyjnej jest to, że określonym wartościom jednej cechy przyporządkowane są ściśle określone
średnie drugiej cechy. Zależność jest tym silniejsza, im
mocniej różne wartości przyjmowane przez cechę niezależną
różnicują średni poziom wartości cechy zależnej.
y
y
Korelacja dodatnia
Korelacja ujemna
rxy>0
rxy<0
x
y
x
y
Brak korelacji
rxy≈0
rxy≈0
Zależność
krzywoliniowa
x
x
Miarą siły związku liniowego między dwiema cechami jest
współczynnik korelacji liniowej Pearsona obliczany wg wzoru:
n
r xy =
COV ( X , Y )
ss
x
y
=
∑ ( x − x)( y − y )
i =1
n
i
i
2 n
∑ ( x i − x) ∑ ( y i − y )
i =1
87
i =1
2
Statystyka
Wydział Zarządzania Politechniki Białostockiej
gdy wyniki obserwacji dane są w postaci szeregów szczegółowych lub wg wzoru poniżej gdy wyniki dane są w postaci
tablicy korelacyjnej.
k
l
r =
xy
COV ( X , Y )
ss
x
=
y
∑ ∑ ( xˆ − x)( yˆ − y ) n
i =1 j =1
k
i
j
l
ij
∑ ( xˆ i − x) n ∑ ( yˆ j − y) n
2
i.
i =1
j =1
2
.j
r ∈ − 1; 1 , korelacja jest tym silniejsza, im współczynnik co
xy
do wartości bezwzględnej jest bliższy jedności:
- gdy |r|<0.2, najczęściej brak związku między cechami,
- gdy 0.2≤|r|<0.4, zależność liniowa słaba,
- gdy 0.4≤|r|<0.7, zależność liniowa umiarkowana,
- gdy 0.7≤|r|<0.9, zależność liniowa znacząca,
- gdy |r|≥0.9, zależność liniowa bardzo silna.
Do weryfikacji hipotez: H0: r=0, H1: r≠0 można zastosować test t-Studenta dla współczynnika korelacji.
Sprawdzianem hipotezy H0 jest statystyka
r
t =
obl
1− r
2
n−2
Z tablic rozkładu t-Studenta z n-2 stopniami swobody odczytujemy wartość krytyczną tα.
Do opisu siły korelacji dwóch cech w przypadku
- gdy cechy nie są „dobrze” mierzalne, ale istnieje możliwość
ich uporządkowania,
- gdy cechy są mierzalne ale ich rozkłady są mocno niesymetryczne
stosowany jest współczynnik korelacji rang Spearmana:
n
6∑ d i2
r = 1 − n( − 1) ,
n
s
i =1
2
88
r ∈ − 1; 1
s
Statystyka
Wydział Zarządzania Politechniki Białostockiej
gdzie di oznaczają różnice między rangami odpowiadających
sobie wartości cech xi i yi (i=1,2,...,n).
Siłę korelacji ocenia się analogicznie jak przy współczynniku
korelacji liniowej. Do weryfikacji hipotez: H0: r=0, H1: r≠0
można także zastosować test t-Studenta dla współczynnika
korelacji opisany wyżej.
Przykład: W tabeli zestawiono liczbę ludności i powierzchnię
10-ciu województw. Za pomocą współczynnika korelacji rang
ocenić, czy istnieje współzależność między liczbą ludności
a powierzchnią województw.
Województwo
Katowickie
Warszawskie
Gdańskie
Poznańskie
Krakowskie
Kieleckie
Wrocławskie
Łódzkie
Bydgoskie
Opolskie
Średnia
Powierzchnia Ludność Rangi Rangi
di di2
ranga
X
Y
X
Y
6655
3788
7394
8151
3254
9211
6287
1523
10349
8535
rs = 1 −
3953.0
2409.1
1437.7
1341.4
1232.4
1135.6
1131.6
1130.7
1123.0
1026.0
6
8
5
4
9
2
7
10
1
3
1
2
3
4
5
6
7
8
9
10
-5
-6
-2
0
-4
4
0
-2
8
7
25
36
4
0
16
16
0
4
64
49
3.5
5
4
4
7
4
7
9
5
6.5
6 ⋅ 214
= -0.297
10(100 − 1)
Między badanymi cechami zachodzi niewielka korelacja
ujemna. Województwa o dużej liczbie ludności mają relatywnie mniejszą powierzchnię (wyższa gęstość zaludnienia).
Średnie rangi można wykorzystać do porządkowania obiektów
ze względu na dwie lub więcej cech.
89
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Liniowa funkcja regresji
Jeżeli stwierdzona zostanie istotna korelacja między cechami
X i Y można wyznaczyć liniową funkcję regresji
yˆ = a y x + b y lub xˆ = a x y + bx .
Np. Parametry ay i by można wyznaczyć metodą najmniejszych kwadratów z warunku:
n
n
∑ ( y i − yˆ i) = ∑ ( y i − (a y x + b y )) ⇒ min .
2
i =1
2
i =1
Wyprowadzając z powyższego warunku wzory na obliczanie
ay i by otrzymujemy:
n
a =
y
COV ( X , Y )
s
2
x
=
∑ ( x − x)( y − y )
i
i =1
i
n
∑ ( x i − x)
2
= r xy
s ,
s
y
x
i =1
b = y − a x.
y
y
ay – współczynnik regresji określa, o ile jednostek zmieni się
wartość zmiennej objaśnianej (zależnej) przy zmianie zmiennej objaśniającej (niezależnej) o jednostkę.
Do oceny dopasowania prostej regresji do punktów empirycznych wykorzystuje się reszty ei, które stanowią różnicę między
wartościami empirycznymi a oczekiwanymi (wyliczonymi
z równania regresji) – ei = yi − ŷi dla i=1, 2,..., n.
Odchylenie standardowe reszt ei, nazywane jest średnim błędem szacunku, określa się wzorem:
n
se =
∑ ( y i − yˆ i)
2
i =1
n−2
.
W analizie regresji do oceny dopasowania funkcji regresji
najczęściej stosuje się współczynnik zbieżności
90
Statystyka
Wydział Zarządzania Politechniki Białostockiej
ϕ =
2
yx
∑ ( y i − yˆ i)
n
2
i =1
n
∑ ( y i − y i)
2
,
i =1
który przyjmuje wartości z przedziału [0; 1] – im wartość
bliższa 0, tym lepsze dopasowanie.
Współczynnikiem determinacji R2 nazywa się wyrażenie
R2=1-ϕ2.
W przypadku zależności liniowej zachodzi równość:
R2=ryx2=1-ϕ2.
Testowanie hipotez dotyczących współczynników linii regresji
Odchylenia standardowe współczynników ay i by wyrażają się
wzorami:
n
∑ ( y i − yˆ i)
2
2
sa =
y
s
.
=
( n − 2)∑ ( xi − x i)
∑ ( xi − xi )
i =1
e
n
n
2
i =1
i =1
y
n
s ∑x
2
sb =
e
n
2
i =1
n
i
n∑ ( xi − xi)
2
2 n
∑ ( y i − yˆ i) ∑ x
2
=
i =1
i =1
n
2
i
( n − 2) n ∑ ( x i − x i )
i =1
2
.
i =1
By zweryfikować hipotezy dotyczące ay H0: ay=a0 i H1: ay≠a0
stosujemy sprawdzian
a
y − a0
, a0 – pewna stała, np. 0.
tobl =
sa
y
Z tablic rozkładu t-Studenta z n-2 stopniami swobody odczytujemy wartość krytyczną tα.
By zweryfikować hipotezy dotyczące by H0: by=b0 i H1: by≠b0
stosujemy sprawdzian
b
y −b0
, a0 – pewna stała, np. 0.
tobl =
sb
y
Z tablic rozkładu t-Studenta z n-2 stopniami swobody odczytujemy wartość krytyczną tα.
91
Statystyka
Wydział Zarządzania Politechniki Białostockiej
92
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Analiza dynamiki zjawisk
Szeregiem czasowym nazywamy ciąg wyników obserwacji
uporządkowanych w czasie {t, yt}, gdzie t oznacza numery kolejnych jednostek czasu, a yt – wielkość badanej cechy w momencie t.
Celem analizy szeregów czasowych jest odpowiedź na pytania:
– jaka jest dynamika badanego zjawiska?
– co wywołuje zmienność badanego zjawiska?
– jakie są prognozy na przyszłe okresy?
Metody służące odpowiedzi na te pytania można podzielić na:
– analizę szeregów czasowych,
– metody indeksowe, umożliwiające liczbowe określenie
tempa i intensywności zmian zjawiska w czasie.
Analiza szeregów czasowych
Wykresy przedstawiają przykładowe szeregi czasowe:
Energia
Produkcja energii elektrycznej w Polsce w latach 1991-94
(mld kWh)
15
15
14
14
13
13
12
12
11
11
10
10
9
8
9
0
5
10
15
20
25
Numery obs.
93
30
35
40
45
8
50
Statystyka
Wydział Zarządzania Politechniki Białostockiej
a) Przykład ze str. 452 - Jóźwiak, Podgórski
Miesiące
Lata
1991
1992
1993
1994
I
II
14,0
13,4
13,4
12,9
12,9
12,2
12,2
12,3
III IV
12,8
12,5
12,8
12,7
11,3
11,0
10,7
10,9
V
VI VII VIII IX
10,6
9,6
9,3
9,9
9,2
9,0
8,9
9,4
9,0
9,0
8,7
9,3
Dane do obliczeń brane są z tabeli:
1
2
3
4
5
...
t
Yt 14,0 12,9 12,8 11,3 10,6
9,0
9,0
9,1
9,5
9,3
9,7
9,8
9,8
X
11,2
12,0
11,5
12,3
XI XII
12,1
12,3
13,0
12,3
13,3
13,2
13,5
13,6
45 46 47 48
9,8 12,3 12,3 13,6
Wykr. zmiennej: SZEREG_G
Miesięczna liczba pasażerów (w tysiącach)
700
SZEREG_G
600
700
Liczba pasa¿erów linii lotniczej
w ci¹gu miesi¹ca w latach 1949-1960
600
500
500
400
400
300
300
200
200
Wahania okresowe proporcjonalne do poziomu
zjawiska – model multyplikatywny
100
0
-10
0
10
20
30
40
50
60
70
80
100
0
90 100 110 120 130 140 150
Numery obs.
Składniki szeregu czasowego:
– trend – wyraża ogólną tendencję rozwojową zjawiska.
Wydzielenie składnika charakteryzującego trend poprzez
eliminację z szeregu wahań okresowych i przypadkowych
nazywa się wygładzaniem (wyrównywaniem);
– wahania okresowe (krótkookresowe, długookresowe) –
zmiany powtarzające się co pewien okres. Odstęp czasu,
w którym występują wszystkie fazy wahań nazywa się
cyklem. Wyróżniamy model addytywny (wahania nieza94
Statystyka
Wydział Zarządzania Politechniki Białostockiej
leżne od poziomu zjawiska) i multyplikatywny (wahania
proporcjonalne do poziomu zjawiska);
– wahania przypadkowe (losowe) – występują z różną siłą
i w różnych kierunkach;
– wahania koniunkturalne – wahania rozwoju gospodarki
obserwowane w dłuższych okresach czasu.
Metody wyrównywania szeregów czasowych:
– obliczanie średnich ruchomych,
– dopasowanie odpowiedniej funkcji do danych szeregu
czasowego.
Obliczanie średnich ruchomych
Jeżeli oznaczmy kolejne wartości szeregu czasowego jako
y1, y2, y3, ..., yn-2, yn-1, yn,
to średnie ruchome z nieparzystej liczby okresów, np. z 3
okresów (k=3), wyznaczane są ze wzorów:
y2 =
y+y +y
1
2
3
; y3 =
y +y +y
2
3
4
; ! y n −1 =
y +y +y
n−2
n −1
n
3
3
3
z parzystej zaś liczby okresów (średnie scentrowane), np. z 4
okresów (k=4), wyznaczane są ze wzorów:
1
1
1
1
y1 + y2 + y3 + y4 + y5
y2 + y3 + y4 + y5 + y6
2 ; =2
2 ;
y3 = 2
y4
4
4
1
1
+
+
+
+
y
y
y
yn−4 n−3 n−2 n−1 yn
2
2
! yn−2 =
4
Efekt wyrównywania (dla przykładu a)):
95
Statystyka
Wydział energii
Zarządzania
Politechniki
Produkcja
elektrycznej
w PolsceBiałostockiej
w latach 1991-94
15
15
14
14
yˆ = at + b
13
13
energia
t
12
12
11
11
10
10
9
8
9
0
dane źródłowe
3 okresy (k=3)
6 okresów
5
10(k=6) 15
10 okresów (k=10)
20
25
30
35
40
45
8
50
Numery obs.
Wygładzanie analityczne zilustrujemy na przykładzie trendu
liniowego. Dla szeregu czasowego należy wyznaczyć parametry liniowej funkcji trendu postaci:
Parametry a i b możemy wyliczyć za pomocą wzorów:
a – oznacza okresowe tempo wzrostu (a>0) lub ubytku (a<0)
n
a =
∑ (t − t ) ⋅ y
t =1
n
∑ (t − t )
2
t
,
b = y − at,
t =1
1 n
n +1
gdzie t = ∑ t =
;
1
t
=
2
n
1 n
y = ∑ tt
n t =1
wielkości badanego zjawiska
b – oznacza stan zjawiska w okresie wyjściowym (t=0).
Przykład obliczeń:
Mając dane o miesięcznej wielkości produkcji wyrobu A
w ciągu roku wyznaczyć średnie ruchome (k=3) oraz oszacujemy parametry trendu liniowego produkcji.
96
Statystyka
Wydział Zarządzania Politechniki Białostockiej
t
yt
1
2
3
4
5
6
7
8
9
10
11
12
78
90
85
110
125
120
150
140
160
200
190
220
210
1800
Średnia
ruchoma
k=3
t −t
-5,5
-4,5
-3,5
-2,5
-1,5
-0,5
0,5
1,5
2,5
3,5
4,5
5,5
×
95
106,7
118,3
131,7
136,7
150,0
166,7
183,3
203,3
206,7
×
Stąd
(t − t ) yt (t − t )2
-495
-382,5
-385
-312,5
-180
-75
70
240
500
665
990
1155
1790
30,25
20,25
12,25
6,25
2,25
0,25
0,25
2,25
6,25
12,25
20,25
30,25
143,00
yˆ
( y t − yˆ t ) ( yt − y)
2
2
t
81,15
93,67
106,19
118,71
131,22
143,74
156,26
168,78
181,29
193,81
206,33
218,85
1800,00
78,25
3600
75,19
4225
14,53
1600
39,61
625
125,97
900
39,17
0
264,35
100
77,02
100
349,93 2500
14,53
1600
186,91 4900
78,25
3600
1343,71 23750
Wynik wygładzania średnimi ruchomymi (k=3)
i wyznaczenia trendu liniowego
240
220
Wielkość produkcji (yt)
240
s 11,59
=
= 0 , 077
yt=12,52t+68,64V =
150
y
200
220
200
180
180
160
160
140
140
120
120
100
100
80
80
60
0
1
2
3
4
5
6
7
8
9
10
11
12
60
13
Miesiąc (t)
.
a= 1790/143=12,52 ton/mies. b=150-12,52⋅6,5=68,64 ton.
Współczynnik zmienności resztowej równa się
97
Statystyka
Wydział Zarządzania Politechniki Białostockiej
i oznacza, że odchylenia przypadkowe równania trendu stanowią średnio 7,7% przeciętnego poziomu zaobserwowanej
zmienności produkcji.
Do oceny jakości dopasowania linii trendu do danych empirycznych wykorzystamy średni błąd resztowy i współczynnik
n
s =
2
∑ ( y t − yˆ t )
t =0
2
=
n−k
n
ϕ
2
=
∑ ( y t − yˆ t )
t =1
n
∑ ( yt − y)
1343 ,7
= 134 ,37
10
2
2
=
1343 , 7
= 0 ,057
23750
t =1
zbieżności.
Niski współczynnik zbieżności ϕ=0,057 i małe odchylenie
standardowe składnika resztowego s=11,6 wskazują, że funkcja trendu dobrze opisuje produkcję w badanym okresie.
Znajomość równania trendu daje możliwość prognozowania.
Najprostszą metodą prognozowania jest ekstrapolacja.
Analiza wahań okresowych
Najprostszą metodą pomiaru wahań okresowych jest wykorzystanie wskaźników wahań okresowych (wskaźników sezonowości). Sposób konstrukcji wskaźników jest uzależniony od
tego, czy w badanym szeregu czasowym występuje silny
trend, czy też jest umiarkowany lub nie występuje wcale oraz
czy wahania nakładają się na trend w sposób addytywny czy
multyplikatywny.
Załóżmy, że szereg czasowy wykazuje wahania okresowe i że
w każdym cyklu jest k faz wahań.
Konstrukcja wskaźnika wahań okresowych przy tych założeniach polega na:
98
Statystyka
Wydział Zarządzania Politechniki Białostockiej
a) wygładzeniu szeregu czasowego metodą mechaniczną
(średnich ruchomych z k okresów) lub analityczną;
b) uwolnieniu szeregu czasowego od trendu – uzyskujemy to
stosując przekształcenie:
w=
t
y
; t = 1, 2, ..., n
yˆ
t
t
(wartości wt zawierają wahania okresowe i przypadkowe).
c) eliminacji wahań przypadkowych z wielkości wt – dla
jednoimiennych okresów, tj. pochodzących z tej samej
fazy wahań, obliczamy średnie arytmetyczne z wyrazów
wt; otrzymane w ten sposób wartości nazywamy surowymi wskaźnikami wahań okresowych:
s
c=
∑w
i + j ⋅k
; i = 1, 2, ..., k
s
s oznacza liczbę jednoimiennych okresów, k – liczbę
wahań w cyklu; surowe wskaźniki wahań informują, o ile
procent poziom zjawiska w danej fazie cyklu jest wyższy
lub niższy od poziomu, jaki byłby osiągnięty, gdyby nie
było wahań, a rozwój postępował zgodnie z trendem;
d) obliczeniu czystych wskaźników wahań okresowych ct –
wskaźniki surowe dzieli się przez średnią arytmetyczną
wskaźników surowych (suma równa się liczbie faz
wahań).
'
j =0
i
Przykład:
Produkcja piwa w jednym z browarów kształtuje się następująco:
Lata
1993
1994
1995
Kwartał
I
3
4
5
II
4
6
8
99
III
8
10
12
IV
5
6
7
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Trend produkcji piwa jest rosnący i wykazuje kwartalne wahania sezonowe (cztery fazy wahań w cyklu rocznym).
Wielkośc produkcji (tys. hl)
Produkcja piwa w latach 1993-95
14
14
12
12
10
10
8
8
6
6
4
4
2
0
1
2
3
4
5
6
7
8
9
10
11
12
2
13
Numery obs.
Wyznaczmy kwartalne wskaźniki sezonowości.
a) wygładzamy szereg empiryczny – wyznaczymy równanie
trendu liniowego
63
= 0,441; b = 6,5 − 0,441 ⋅ 6,5 = 3,636
143
Równanie trendu ma postać
a=
yˆ = 0,441t + 3,636
t
100
Statystyka
Wydział Zarządzania Politechniki Białostockiej
t
1
2
3
4
5
6
7
8
9
10
11
12
-
2
Kwartał (t − t ) y
(t − t )
t
3
I
-16,5 30,25
4
II
-18
20,25
8
III
-28
12,25
5
IV
-12,5 6,25
4
I
-6
2,25
6
II
-3
0,25
10
III
5
0,25
6
IV
9
2,25
5
I
12,5
6,25
8
II
28
12,25
12
III
54
20,25
7
IV
38,5 30,25
78
63 143,00
×
yt
yˆ
t
4,08
4,52
4,96
5,40
5,84
6,28
6,72
7,16
7,60
8,04
8,48
8,92
w t = y t : yˆ t
0,736
0,885
1,614
0,926
0,685
0,955
1,488
0,838
0,658
0,995
1,415
0,784
y t w t = y t: y t
5,13
5,50
6,00
6,38
6,63
7,00
7,50
7,88
1,56
0,91
0,67
0,94
1,51
0,86
0,67
1,02
b) Uwalniamy wyrazy szeregu od trendu (kolumny 7 i 9)
c) Obliczamy surowe wskaźniki sezonowości c . W celu
wyeliminowania wahań przypadkowych obliczamy średnie
arytmetyczne wartości wt dla tej samej fazy wahań (średnie
dla czterech kwartałów).
'
t
Metoda analityczna
Lata
1993
1994
1995
Sumy kwartalne
Surowe wskaźniki c
'
t
II
0,885
0,955
0,955
2,836
0,945
III
1,614
1,488
1,415
4,516
1,505
IV
0,926
0,838
0,784
2,549
0,850
III
1,56
1,51
IV
0,91
0,86
3,07
1,535
1,77
0,883
Metoda mechaniczna
Lata
1993
1994
1995
Sumy kwartalne
Surowe wskaźniki c
I
0,736
0,685
0,658
2,079
0,693
'
t
I
II
0,67
0,67
1,34
0,667
0,94
1,02
1,96
0,979
101
Statystyka
Wydział Zarządzania Politechniki Białostockiej
d) Czyste wskaźniki sezonowości (ich suma ma się równać 4,
gdyż jest tyle faz wahań). Korekta wskaźników surowych
polega na podzieleniu ich przez ich średnią arytmetyczną,
czyli
0 , 693 + 0 , 945 + 1, 505 + 0 ,850
= 0 , 9983
4
Metoda
Analityczna
Mechaniczna
Razem
4
4
Czyste wskaźniki wahań ci
I
0,694
0,656
II
0,947
0,963
III
1,508
1,511
IV
0,851
0,869
Interpretacja: w I kwartale każdego roku na skutek działania
składnika okresowego produkcja piwa jest niższa od przeciętnej kwartalnej o 30,6%, w II kwartale niższa o 5,3%, w III
wyższa o 50,8%, w czwartym niższa o 14,9%.
e) prognoza na 1996 rok
Do prognozowania wykorzystujemy równanie trendu:
yˆ = 0,441t + 3,636
t
Dla kolejnych kwartałów 1996 roku, a więc dla t=13, 14, 15,
16, prognozy punktowe są następujące:
I kw. 1996: 0,441×13+3,636=9,369;
II kw. 1996: 0,441×14+3,636=9,81;
III kw. 1996: 0,441×15+3,636=10,251;
IV kw. 1996: 0,441×16+3,636=10,692;
By trafnie prognozować produkcję w poszczególnych kwartałach przy założeniu, że wahania sezonowe będą wpływać podobnie jak w latach poprzednich, należy prognozy te pomnożyć przez odpowiednie wskaźniki sezonowości.
Skorygowany poziom produkcji wynosi odpowiednio:
I – 6,502; II – 9,29; III – 15,48; IV – 9,099
102
Statystyka
Wydział Zarządzania Politechniki Białostockiej
Organizacja badań statystycznych
Etapy badania statystycznego
1. Projektowanie
2. Gromadzenie materiału (pomiar, obserwacja statystyczna)
3. Porządkowanie, opracowanie w postaci tablic, wykresów
4. Analiza wyników, wnioskowanie, podejmowanie decyzji
Ad. 1. Projektowanie badania
a) sprecyzować cel i rodzaj badania, ustalić ograniczenia
środków, zespół badawczy, limit czasu
- cele badań statystycznych:
- poznanie rozkładu zbiorowości pod względem wybranych cech, wyznaczenie wartości wybranych parametrów zbiorowości statystycznej,
- ustalenie związków między cechami,
- porównanie i porządkowanie obiektów wielocechowych,
- porównanie dynamiki zjawisk w zbiorowości.
- rodzaj badania statystycznego
- pełne (całkowite, wyczerpujące) - umożliwia dokładne określenie wybranych parametrów populacji.
Przykłady:
- spis statystyczny,
- rejestracja statystyczna (urodzeń, zgonów, nowotworów, przedsiębiorstw [REGON], kierowców),
- sprawozdawczość statystyczna,
Badania pełne mogą być:
- ciągłe (sprawozdawczość i rejestracja ciągła)
- okresowe (spisy)
103
Statystyka
Wydział Zarządzania Politechniki Białostockiej
- doraźne (badania ankietowe, referenda, sondaże,
badanie kondycji spółek notowanych na giełdzie
papierów wartościowych w Warszawie)
- częściowe (np. badanie jakości produktów) – podstawowym problemem jest dobór próby
- reprezentacyjne (odpowiednio liczna próbka dobrana losowo)
- monograficzne (opis jednostki lub niewielkiej ich
liczby szczegółowy. Często wybiera się jednostki
przodujące lub odstające. Poznawanie i rozpowszechnianie wzorców)
- ankietowe (ustalanie faktów i opinii o nich na ogół
z zachowaniem anonimowości)
b) zdefiniować zbiorowość statystyczną (populację – ściśle
określić kogo, gdzie, w jakim czasie badamy) i jednostkę
statystyczną (jednostkę badania – podmiot badania)
c) dokonać wyboru cech statystycznych (zakres badania)
d) określić metodę badania
e) ustalić źródła pozyskiwania informacji (źródła pierwotne,
wtórne [sprawozdawczość, publikacje statystyczne])
f) opracować formularze i makiety tablic wynikowych
g) zapewnić odpowiednią kontrolę materiału statystycznego
h) ewentualne badanie pilotażowe
Metody losowania
- losowanie indywidualne
- zespołowe
Operat losowania – lista wszystkich jednostek losowania.
- losowanie nieograniczone
- losowanie ograniczone (pewne jednostki nie mogą się
znaleźć w próbie jednocześnie)
104
Statystyka
Wydział Zarządzania Politechniki Białostockiej
- losowanie zależne
- losowanie niezależne
-
losowanie proste (niezależne - ze zwracaniem)
indywidualne, nieograniczone, zależne
losowanie warstwowe - proporcjonalne
losowanie systematyczne
losowanie za pomocą liczb losowych
- losowanie wielostopniowe
105