x x lady

Transkrypt

x x lady

TEORIA PRAWDOPODOBIEŃSTWA I
STATYSTYKA DLA FIZYKI KOMPUTEROWEJ
B. Kamys
Spis treści
1 Elementy teorii prawdopodobieństwa
1.1 Definicje podstawowych pojȩć . . . . . . . . . . . . . . . . . . . . . .
1.2 WÃlasności prawdopodobieństwa . . . . . . . . . . . . . . . . . . . . .
3
3
4
2 Ilościowy opis zmiennych losowych
6
3 Funkcje zmiennej losowej
8
4 Charakterystyki opisowe
10
5 Podstawowe pojȩcia teorii estymacji
14
6 RozkÃlad normalny (Gaussa)
16
7 Podstawy rachunku bÃlȩdów
7.1 RozkÃlad pomiarów obarczonych bÃlȩdami przypadkowymi
7.2 Estymator wartości oczekiwanej . . . . . . . . . . . . .
7.3 Estymator odchylenia standardowego . . . . . . . . . .
7.4 Zapis wyników pomiarów . . . . . . . . . . . . . . . .
7.5 BÃla̧d statystyczny . . . . . . . . . . . . . . . . . . . .
7.6 Pomiary pośrednie . . . . . . . . . . . . . . . . . . . .
7.6.1 Estymator E(Y) dla pomiaru pośredniego Y . . .
7.6.2 BÃla̧d pomiaru pośredniego . . . . . . . . . . . .
7.6.3 BÃla̧d maksymalny . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
19
21
22
23
24
26
27
27
28
28
8 Estymacja przedziaÃlowa
8.1 Estymacja E{X} gdy znamy odchylenie standardowe σ{X} . . . . . . .
8.2 Estymacja E{X} gdy nie znamy odchylenia standardowego σ{X} . . . .
8.3 Estymacja przedziaÃlowa wariancji i odchylenia standardowego . . . . . .
30
31
33
34
9 Metody szukania “dobrych” estymatorów
9.1 Metoda momentów (“MM”) . . . . . . . . . . . . . . . . . . . . . . .
9.2 Metoda najwiȩkszej wiarygodności (“MNW”) . . . . . . . . . . . . . .
9.3 Metoda najmniejszych kwadratów (“MNK”) . . . . . . . . . . . . . . .
36
36
40
45
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
B.Kamys: Fiz. Komp. 2003/04
2
10 Wielowymiarowe (wektorowe) zmienne losowe
49
10.1 Momenty rozkÃladu wielowymiarowej zmiennej losowej . . . . . . . . . .
52
~
~
10.2 Estymacja punktowa wartości oczekiwanej E{Y (X)} i macierzy kowar~ (X)
~
iancji Y
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
10.3 Regresja liniowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
10.4 Regresja przy pomocy wielomianów ortogonalnych . . . . . . . . . . . .
62
10.4.1 Regresja przy pomocy wielomianów ortogonalnych na zbiorze wartości
argumentu . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
10.4.2 Konstrukcja zespoÃlu wielomianów ortogonalnych na zbiorze wartości
argumentu . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
11 Metoda Monte Carlo
11.1 Liczenie caÃlek metoda̧ Monte Carlo . . . . . . . . . . . . . . . . . . .
11.2 Zmniejszanie bÃlȩdu caÃlki . . . . . . . . . . . . . . . . . . . . . . . . .
11.3 Generacja liczb losowych . . . . . . . . . . . . . . . . . . . . . . . . .
11.3.1 Generacja liczb o rozkÃladzie równomiernym . . . . . . . . . . .
11.3.2 Generacja liczb losowych o dowolnych rozkÃladach prawdopodobieństwa
11.3.3 Generacja wielowymiarowych zmiennych losowych . . . . . . . .
12 Testowanie hipotez statystycznych
12.1 Definicje elementarnych pojȩć . . . . . . . . . . . . . . . . . . . .
12.2 Test normalności rozkÃladu . . . . . . . . . . . . . . . . . . . . . .
12.2.1 Test zerowania siȩ wspóÃlczynnika asymetrii i kurtozy . . . . .
12.2.2 Test zgodności λ - KoÃlmogorowa . . . . . . . . . . . . . . .
12.2.3 Test zgodności Andersona-Darlinga . . . . . . . . . . . . .
12.2.4 Test zgodności χ2 - Pearsona . . . . . . . . . . . . . . . .
12.2.5 Wykres normalny . . . . . . . . . . . . . . . . . . . . . .
12.3 Hipotezy dotycza̧ce wartości oczekiwanej . . . . . . . . . . . . . .
12.3.1 Porównanie E(X) z liczba̧ (H0 : E(X) = X0 ) . . . . . . .
12.3.2 Wartości oczekiwane dwu populacji (H0 : E(X) = E(Y )) .
12.4 Hipotezy dotycza̧ce wariancji . . . . . . . . . . . . . . . . . . . .
12.4.1 Porównanie wariancji X z liczba̧ (H0 : σ 2 (X) = σ02 ) . . . .
12.4.2 Porównanie wariancji dwu populacji (H0 : σ 2 (X) = σ 2 (Y ))
12.5 Hipoteza jednorodności wariancji kilku populacji . . . . . . . . . .
12.5.1 Test Bartletta . . . . . . . . . . . . . . . . . . . . . . . .
12.5.2 Test Cochrana . . . . . . . . . . . . . . . . . . . . . . . .
12.6 Analiza wariancji - klasyfikacja jednoczynnikowa . . . . . . . . . . .
12.7 Analiza wariancji - dla regresji liniowej . . . . . . . . . . . . . . .
12.8 Testy nieparametryczne hipotez porównuja̧cych populacje . . . . . .
12.8.1 Test Smirnowa . . . . . . . . . . . . . . . . . . . . . . . .
12.8.2 Test znaków . . . . . . . . . . . . . . . . . . . . . . . . .
12.8.3 Test serii Walda-Wolfowitza . . . . . . . . . . . . . . . . .
12.8.4 Test sumy rang Wilcoxona-Manna-Whitneya . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
67
67
69
72
72
74
80
81
81
82
82
84
86
87
88
90
90
91
94
94
94
96
96
97
98
102
105
105
108
109
111
1
1.1
3
ELEMENTY TEORII PRAWDOPODOBIEŃSTWA
DEFINICJE PODSTAWOWYCH POJȨĆ
DEFINICJA: Zbiór zdarzeń elementarnych - zbiór takich zdarzeń, które siȩ wzajemnie wykluczaja̧ oraz wyczerpuja̧ wszystkie możliwości (tzn. w każdym możliwym
przypadku przynajmniej jedno z nich musi zachodzić).
DEFINICJA: Zdarzeniem jest dowolny podzbiór zdarzeń elementarnych E.
DEFINICJA: Zdarzeniem pewnym jest zdarzenie zawieraja̧ce wszystkie elementy
zbioru E (zachodzi zawsze).
DEFINICJA: Zdarzeniem niemożliwym jest zdarzenie nie zawieraja̧ce żadnego elementu zbioru E tj. zbiór pusty Ø.
DEFINICJA: Zdarzenie A zawiera siȩ w zdarzeniu B jeżeli każde zdarzenie elementarne należa̧ce do zbioru A należy do B: A ⊂ B
DEFINICJA: Zdarzenia A i B sa̧ równe
gdy A ⊂ B i B ⊂ A.
DEFINICJA: Suma zdarzeń A+B
to zdarzenie zawieraja̧ce te i tylko te zdarzenia elementarne, które należa̧ do któregokolwiek
S
ze zdarzeń A, B (suma logiczna zbiorów zdarzeń elementarnych A B).
DEFINICJA: Różnica zdarzeń A-B
to zdarzenie zawieraja̧ce te i tylko te zdarzenia elementarne, które należa̧ do zdarzenia
A a nie należa̧ do zdarzenia B.
DEFINICJA: Iloczyn zdarzeń A.B to zdarzenie zawieraja̧ce te i tylko te zdarzenia eleT
mentarne, które należa̧ do wszystkich zdarzeń A, B (tzn. w jȩzyku zbiorów A B).
DEFINICJA: Zdarzeniem przeciwnym do A: A nazywamy różnicȩ E − A .
DEFINICJA: Zdarzeniem losowym - nazywamy zdarzenie speÃlniaja̧ce poniższe warunki:
1. W zbiorze zdarzeń losowych znajduje siȩ zdarzenie pewne oraz zdarzenie
niemożliwe.
2. Jeżeli zdarzenia A1 , A2 , ... w ilości skończonej lub przeliczalnej sa̧ zdarzeniami
losowymi to ich iloczyn i ich suma sa̧ również zdarzeniami losowymi.
4
3. Jeżeli A1 i A2 sa̧ zdarzeniami losowymi to ich różnica jest również zdarzeniem
losowym.
INTUICYJNE OKREŚLENIE: Zdarzenie losowe to takie, o którym nie możemy
powiedzieć czy zajdzie w danych warunkach czy też nie zajdzie.
DEFINICJA: Zmienna̧ losowa̧ nazywamy jednoznaczna̧ funkcjȩ rzeczywista̧ X(e)
określona̧ na zbiorze E zdarzeń elementarnych taka̧, że każdemu przedziaÃlowi wartości
funkcji X odpowiada zdarzenie losowe.
DEFINICJA: Zmienna losowa typu skokowego (dyskretnego) to taka, która
przyjmuje tylko co najwyżej przeliczalny zbiór wartości. Zmienna losowa typu
cia̧gÃlego - może przyjmować dowolne wartości od minus do plus nieskończoności.
DEFINICJA: Definicja prawdopodobieństwa
Aksjomat 1: Każdemu zdarzeniu losowemu przyporza̧dkowana jest jednoznacznie
nieujemna liczba rzeczywista zwana prawdopodobieństwem.
Aksjomat 2: Prawdopodobieństwo zdarzenia pewnego jest równe jedności.
Aksjomat 3: Jeżeli zdarzenie losowe Z jest suma̧ skończonej lub przeliczalnej
liczby rozÃla̧cznych zdarzeń losowych Z1 ,Z2 ,.. to prawdopodobieństwo zrealizowania siȩ zdarzenia Z jest równe sumie prawdopodobieństw zdarzeń Z1 ,Z2 ,
..
Aksjomat 4: Prawdopodobieństwo warunkowe zdarzenia A pod warunkiem, że
zachodzi zdarzenie B; P (A | B) wyraża siȩ wzorem:
)
P (A | B) = PP(A:B
(B )
Prawdopodobieństwo to jest nieokreślone, gdy prawdopodobieństwo zdarzenia
B wynosi zero.
1.2
WÃLASNOŚCI PRAWDOPODOBIEŃSTWA
1.) Zdarzenie przeciwne do A :
P (A) = 1 − P (A)
Dowód:
A + A = E a wiȩc P (A + A) = P (E) = 1,
z drugiej strony A i A wykluczaja̧ siȩ wiȩc
P (A + A) = P (A) + P (A).
Sta̧d P (A) = P (E) − P (A) czyli P (A) = 1 − P (A) c.b.d.o.
2.) Zdarzenie niemożliwe :
P (Ø) = 0
5
Dowód:
E i Ø wykluczaja̧ siȩ wiȩc P (E + Ø) = P (E) + P (Ø) oraz E + Ø = E a wiȩc
P (E + Ø) = P (E), czyli P (Ø) = 0
c.b.d.o.
3.) Zdarzenie A zawiera siȩ w B :
P (A) ≤ P (B)
Dowód: P (B) = P (A + (A.B)) = P (A) + P (A.B) ≥ P (A) c.b.d.o.
4.) Dowolne zdarzenie losowe :
0 ≤ P (A) ≤ 1
Dowód: Dla każdego zdarzenia jest prawdziwe:
Ø ⊂ A + Ø = A = A.E ⊂ E
a wiȩc prawdopodobieństwa zdarzeń Ø,A i E speÃlniaja̧:
0 ≤ P (A) ≤ 1 c.b.d.o.
5.) Suma dowolnych zdarzeń A+B :
P (A + B) = P (A) + P (B) − P (A.B)
Dowód:
Zarówno A + B jak i B możemy zapisać jako sumy rozÃla̧cznych (wykluczaja̧cych
siȩ) zdarzeń:
A + B = A + (B − A.B) oraz
B = A.B + (B − A.B),
stosujemy aksjomat nr 3 definicji prawdopodobieństwa,
P (A + B) = P (A) + P (B − A.B),
P (B) = P (A.B) + P (B − A.B)
odejmujemy stronami: P (A + B) = P (A) + P (B) − P (A.B) c.b.d.o.
6.) Iloczyn zdarzeń A.B :
P (A.B) = P (B).P (A | B) = P (A).P (B | A)
Dowód:
Wynika to automatycznie z 4 aksjomatu definicji prawdopodobieństwa.
DEFINICJA: Zdarzenie A jest niezależne od B gdy P (A | B) = P (A).
7.) Jeżeli A nie zależy od B to B nie zależy od A. Dowód:
Korzystamy z dwu wzorów na prawdopodobieństwo A.B podanych wyżej, przy czym
w pierwszym z nich uwzglȩdniamy, że A jest niezależne od B. Wówczas z porównania
obu wzorów dostajemy P (B | A) = P (B).
c.b.d.o.
6
8.) WKW niezależnosci: P (A.B) = P (A).P (B) Dowód:
Wynika to automatycznie ze wzoru na prawdopodobieństwo iloczynu zdarzeń.
c.b.d.o
9.) FormuÃla ’caÃlkowitego prawdopodobieństwa’: Jeżeli istnieje zbiór zdarzeń
A1 , A2 , ... wykluczaja̧cych siȩ wzajemnie i wyczerpuja̧cych wszystkie możliwości
wówczas prawdopodobieństwo dowolnego zdarzenia B może być zapisane nastȩpuja̧co:
P (B) =
P
i P (Ai ).P (B | Ai )
Dowód:
P
P
B =
i B.Ai (suma rozÃla̧cznych zdarzeń) a wiȩc P (B) =
i P (B.Ai ) a każdy
skÃladnik można zapisać jako P (Ai ).P (B | Ai ). c.b.d.o.
2
ILOŚCIOWY OPIS ZMIENNYCH LOSOWYCH
Ilościowy opis zmiennych losowych uzyskujemy stosuja̧c
• Dystrybuantȩ (Zwana̧ czȩsto przez statystyków funkcja̧ rozkÃladu)
• RozkÃlad prawdopodobieństwa (Tylko dla zmiennych dyskretnych)
• Funkcjȩ gȩstości prawdopodobieństwa (Tylko dla zmiennych cia̧gÃlych) oraz
wielkości charakteryzuja̧ce te powyżej wymienione twory.
DEFINICJA: Dystrybuanta̧ F(x) nazywamy prawdopodobieństwo tego, że zmienna losowa X przyjmie wartość mniejsza̧ od x. (X - to symbol zmiennej losowej a
x to jej konkretna wartość). Oczywiście dystrybuanta jest funkcja̧ x.
F (x) ≡ P (X < x)
WÃlasności dystrybuanty:
1. 0 ≤ F (x) ≤ 1
2. F (−∞) = 0
3. F (+∞) = 1
4. F (x) jest niemaleja̧ca̧ funkcja̧
5. F (x) nie posiada wymiaru
7
PrzykÃlad:
Dla rzutu kostka̧ do gry, gdzie jako zmienna̧ losowa̧ przyjȩto liczbȩ wyrzuconych
punktów:
F (x) =
=
=
=
=
=
=
0 dla x ≤ 1,
1/6 dla 1 < x
2/6 dla 2 < x
3/6 dla 3 < x
4/6 dla 4 < x
5/6 dla 5 < x
1 dla x > 6
≤
≤
≤
≤
≤
2,
3,
4,
5,
6,
DEFINICJA: RozkÃlad prawdopodobieństwa : Jeżeli xi (i = 1, 2, ...) sa̧ wartościami
dyskretnej zmiennej losowej to rozkÃladem prawdopodobieństwa nazywamy zespóÃl
prawdopodobieństw:
P (X = xi ) = pi ,
P
i pi = 1
PrzykÃlad:
RozkÃlad prawdopodobieństwa dla rzutu kostka̧ do gry omawianego powyżej:
pi = 1/6 dla i = 1, 2..6.
DEFINICJA:
Funkcja gȩstości prawdopodobieństwa f(x)
f (x)dx ≡ P (x ≤ X ≤ x + dx)
WÃlasności funkcji gȩstości prawdopodobieństwa:
1. f (x) ≥ 0,
2. f (x) jest unormowana tj.
R +1
1
f (x)dx = 1
3.
f (x) = dFdx(x)
4.
wymiar f (x) = wymiar(1/x)
8
PrzykÃlad:



0
dla
f (x) =  1/(b − a) dla

0
dla
3
x<a
a ≤x≤b
x>b
FUNKCJE ZMIENNEJ LOSOWEJ
Funkcja Y zmiennej losowej X: Y = Y(X) jest również zmienna̧ losowa̧. Dlatego
też można dla niej określić dystrybuantȩ, rozkÃlad prawdopodobieństwa lub funkcjȩ
gȩstości prawdopodobieństwa. Sa̧ one prosto zwia̧zane z odpowiednimi wielkościami
dla zmiennej X. Należy rozpatrzyć niezależnie przypadek, gdy funkcja Y(X) jest
monotoniczna oraz gdy nie posiada tej wÃlasnosci.
a) Funkcja Y = Y(X) jest monotoniczna.
Można wówczas jednoznacznie określić funkcjȩ odwrotna̧ X=X(Y).
1. Dystrybuanta funkcji Y(X): G(y)
Y(X) jest rosna̧ca :
G(y) = F (x(y))
Y(X) jest maleja̧ca :
G(y) = 1 − F (x(y)) − P (x; y = y(x))
Dowód: Wychodza̧c z definicji dla Y(X) rosna̧cej:
G(y) = P (Y < y)
= P (X(Y ) < x)
= F (x(y))
dla Y(X) maleja̧cej:
G(y) = P (Y < y)
= P (X(Y ) > x)
= 1 − P (X(Y ) ≤ x)
= 1 − P (X(Y ) < x) − P (X(Y ) = x)
= 1 − F (x(y)) − P (x; Y = y(x)) c.b.d.o.
9
2. RozkÃlad prawdopodobieństwa P(y):
P (yi ) = P (xi ; yi = Y (xi ))
3. Funkcja gȩstości prawdopodobieństwa g(y):
(y )
|
g(y) = f (x(y)) | dxdy
gdzie X(Y) jest funkcja̧ odwrotna̧ do Y(X).
Z definicji: f (x)dx = P (x ≤ X < x + dx) a to prawdopodobieństwo przy
jednoznacznym zwia̧zku miȩdzy X i Y wynosi P (y ≤ Y < y + dy) = g(y)dy.
Znak moduÃlu przy pochodnej pojawia siȩ sta̧d, że przy maleja̧cej funkcji Y (X)
pochodna bȩdzie ujemna co powodowaÃloby, że g(y) byÃlaby ujemna a zgodnie z
definicja̧ musi być nieujemna.
PrzykÃlad dla funkcji monotonicznej:
Y (X) = aX + b ; a i b to rzeczywiste staÃle
1. RozkÃlad prawdopodobieństwa:
P (Y = yi ) = P (axi + b = yi ) = P (xi = yia b )
2. Dystrybuanta:
dla a > 0, G(y) = F (x = y a b ),
dla a < 0, G(y) = 1 − F (x = y a b ) − P (x = y a b )
3. Gȩstość prawdopodobieństwa:
g(y) = ja1j f (x = y a b )
10
b.) Funkcja Y(X) nie jest monotoniczna .
Wówczas dzielimy obszar zmienności X na przedziaÃly, w których Y(X) jest
monotoniczna i powtarzamy powyższe rozważania sumuja̧c przyczynki od rozÃla̧cznych
przedziaÃlów.
PrzykÃlad dla funkcji niemonotonicznej:
Y (X) = X 2
1. RozkÃlad prawdopodobieństwa:
√
√
P (yi ) = P (X 2 = yi ) = P (X = − yi ) + P (X = + yi )
2. Dystrybuanta:
√
√
G(y) = P (Y < y) = P (X 2 < y) = P (− y < X < + y)
G(y) = 0 dla y ≤ 0
√
√
G(y) = F ( y) − F (− y) dla y ≥ 0
3. RozkÃlad gȩstości prawdopodobieństwa:
g(y) = 0 dla y < 0
1
−1
√
√
g(y) = | √ | f ( y) + √ f (− y)
2 y
2 y
1
√
√
= √ (f ( y) + f (− y)) dla y ≥ 0
2 y
4
CHARAKTERYSTYKI OPISOWE
W praktycznych zastosowaniach czȩsto wystarcza poznanie wartości pewnych wielkości,
które charakteryzuja̧ rozkÃlad prawdopodobieństwa zamiast peÃlnej informacji o rozkÃladzie.
Oto najczȩściej stosowane:
DEFINICJA: fraktyl xq (zwany również kwantylem) jest to taka wartość zmiennej
losowej, że prawdopodobieństwo znalezienia mniejszych od niej wartości wynosi q:
P (X < xq ) ≡ F (xq ) = q
11
Najważniejsze fraktyle to dolny kwartyl: x0:25 , górny kwartyl: x0:75 oraz mediana: x0:5 .
DEFINICJA: Moda (zwana również wartościa̧ modalna̧ jest to taka wartość zmiennej
losowej, dla której rozkÃlad prawdopodobieństwa (lub funkcja gȩstości prawdopodobieństwa)
przyjmuje maksimum.
DEFINICJA: RozkÃlady prawdopodobieństwa posiadaja̧ce jedna̧ modȩ zwane sa̧
jednomodalnymi a te, które maja̧ wiȩcej niż jedna̧ - wielomodalnymi.
DEFINICJA: m1 zwany wartościa̧ oczekiwana̧, wartościa̧ średnia̧ lub nadzieja̧ matematyczna̧. Bȩdziemy go oznaczali przez E(X) (stosuje siȩ również oznaczenie M(X) lub
X̂ ).
P
E(X) ≡ R i xi ·pi
dla zmiennych dyskretnych,
E(X) ≡ x·f (x) dx
dla zmiennych cia̧gÃlych
UWAGA: Jeżeli powyższa caÃlka (lub suma) sa bezwzglȩdnie zbieżne to mówimy, że istnieje
wartość oczekiwana. W przeciwnym wypadku (nawet jeżeli caÃlka jest zbieżna) mówimy,
że wartość oczekiwana nie istnieje !
INTERPRETACJA E(X):
E(X) jest wspóÃlrzȩdna̧ punktu, który byÃlby środkiem masy
rozkÃladu prawdopodobieństwa (lub pola pod funkcja̧ gȩstości prawdopodobieństwa) gdyby prawdopodobieństwa poszczególnych wartości
”xi ”traktować jako masy (lub odpowiednio gȩstość prawdodobieństwa
jako zwykÃla̧ gȩstość).
WÃLASNOŚCI E(X):
E(X) jest operatorem liniowym a wiȩc:
1.
P
E( i Ci · Xi ) =
P
i Ci · E(Xi )
Co w szczególnych przypadkach daje:
(a) E(C) = C
(b) E(C · X) = C · E(X)
(c) E(X1 + X2 ) = E(X1 ) + E(X2 )
12
2. Dla zmiennych niezależnych X1 , ..., Xn
½
E
Q
i
¾
Xi =
Q
i
E {Xi }
UWAGA: Warunkiem koniecznym i wystarczaja̧cym by zmienne byÃly niezależne
jest aby wspólny rozkÃlad prawdopodobieństwa faktoryzowaÃl siȩ: f (X1 , X2 , .., Xn ) =
f1 (X1 ).f2 (X2 )...fn (Xn ). RozkÃlady wielu zmiennych losowych omówimy później.
3. Dla funkcji zmiennej X; Y=Y(X)
wartość oczekiwana E(Y) może być znaleziona przy pomocy rozkÃladu zmiennej X
bez konieczności szukania rozkÃladu f(y):
R
P
E(Y ) = i y(xi ) · pi , E(Y ) = y(x) · f (x)dx
dla zmiennej dyskretnej i dla zmiennej cia̧gÃlej odpowiednio.
DEFINICJA: Momentem rozkÃladu rzȩdu ’k’ wzglȩdem punktu x0 , nazywamy nastȩpuja̧ca̧
wielkość:
mk (x0 ) ≡ E{(x − x0 )k }
czyli
R
mk (x0 ) ≡ (x − x0 )k f (x) dx
P
mk (x0 ) ≡ i (xi − x0 )k p(xi )
dla zmiennych cia̧gÃlych i dyskretnych odpowiednio.
Najważniejszymi momentami sa̧ te, które liczone sa̧ wzglȩdem pocza̧tku ukÃladu wspóÃlrzȩdnych
tj. x0 = 0 - (bȩdziemy je oznaczali przez ’ mk ’ ) oraz momenty liczone wzglȩdem
X0 = m1 tj. wzglȩdem pierwszego momentu wzglȩdem pocza̧tku ukÃladu wspóÃlrzȩdnych.
Te ostatnie momenty nazywa siȩ momentami centralnymi (bȩdziemy je oznaczać przez
’ µk ’).
DEFINICJA: µ2 , zwany wariancja̧ lub dyspersja̧
Bȩdziemy go oznaczać przez σ 2 (X) lub var(X) (stosuje siȩ również oznaczenie
D(X). Pierwiastek z wariancji nazywany jest odchyleniem standardowym i oznaczany
σ(X) ale czasami używa siȩ również nazwy ’ dyspersja ’.
P
σ 2 (X) ≡ R i (xi − E(x))2 · pi
zmienna dyskretna
σ 2 (X) ≡ (x − E(x))2 · f (x)dx
zmienna cia̧gÃla
13
WÃLASNOŚCI WARIANCJI:
1. Wariancja może być wyrażona przez momenty liczone wzglȩdem pocza̧tku ukÃladu
wspóÃlrzȩdnych:
σ 2 (X) = m2 − m21
σ 2 (X) = E(X 2 ) − E 2 (X)
Dowód: Korzystamy z trzeciej wÃlasności wartości oczekiwanej tj.
m2 (E(X)) = E((X − E(X))2 )
= E(X 2 − 2X.E(X) + E 2 (X))
= E(X 2 ) − 2E(X).E(X) + E 2 (X)
= E(X 2 ) − E 2 (X)
c.b.d.o.
PosÃlugujac siȩ tym przedstawieniem wariancji dostajemy natychmiast nastȩpuja̧ce
wÃlasności:
(a)
var(C) = 0 .
bo E(C 2 ) − E 2 (C) = C 2 − C 2 = 0 c.b.d.o.
(b)
var(C · X) = C 2 · var(X)
jest to nastȩpstwo liniowości E(X), przez która̧ definiowaliśmy var(X).
(c) var(C1 · X + C2 ) = C 2 · var(X)
2. Dla zmiennych niezależnych
P
var( i Ci · Xi ) =
P
2
i Ci · var(X)
Wzór ten Ãlatwo wyprowadzić przypominaja̧c definicjȩ wariancji i korzystaja̧c z trzeciej
wÃlasności wartości oczekiwanej:
P
var(y = i Ci · Xi ) ≡ E((y − E(Y ))2 ).
Po wstawieniu do wzoru oraz podniesieniu do kwadratu otrzymamy sumȩ kwadratów
wyrażeń Ci · (Xi − E(Xi )) oraz iloczyny mieszane tych wyrażeń. Iloczyny mieszane
znikna̧ w chwili gdy podziaÃla na nie zewnȩtrzny operator wartości oczekiwanej (ponieważ
E(X − E(X)) = E(X) − E(X) = 0).
ZaÃlożenie niezależności jest potrzebne przy liczeniu wartości oczekiwanej z iloczynów
mieszanych (wówczas wartość oczekiwana iloczynu równa jest iloczynowi wartości oczekiwanych). Suma wartości oczekiwanych z kwadratów wyrażeń Ci · (Xi − E(Xi )) jest
wÃlaśnie oczekiwanym przez nas wyrażeniem.
14
Interpretacja wariancji wynika z nierówności Czebyszewa, która̧ można zapisać nastȩpuja̧co:
P (| X − E(X) |≥ a · σ(X)) ≤ a
2
TWIERDZENIE:
Prawdopodobieństwo odchylenia wartości zmiennej losowej od wartości oczekiwanej E(X)
o ’a’ -krotna̧ wartość odchylenia standardowego jest mniejsze lub równe od a12 .
Twierdzenie to jest sÃluszne dla wszystkich rozkÃladów, które posiadaja̧ wariancjȩ (a wiȩc,
co za tym idzie i wartość oczekiwana̧). Liczba ’ a ’ jest dowolna̧ dodatnia̧ rzeczywista̧ liczba̧.
INTERPRETACJA WARIANCJI Korzystaja̧c z powyższego twierdzenia dochodzimy do
wniosku, że wariancja (lub odchylenie standardowe) jest miara̧ rozrzutu zmiennej losowej dokoÃla wartości oczekiwanej.
Jest to bardzo ważny wniosek bo w analizie danych doświadczalnych utożsamiamy
wartość oczekiwana̧ pomiarów wykonanych w obecności bÃlȩdów przypadkowych z
wartościa̧ prawdziwa̧ mierzonej wielkości. Wtedy miara̧ bÃlȩdu przypadkowego
jest odchylenie standardowe bo ono określa rozrzut wyników dokoÃla wartości prawdziwej.
5
PODSTAWOWE POJȨCIA TEORII ESTYMACJI
DEFINICJA: W statystyce skończony zespóÃl doświadczeń nazywamy próba̧ a wnioskowanie na podstawie próby o wÃlasnościach nieskończonego (zwykle) zespoÃlu wszystkich
możliwych doświadczeń zwanego populacja̧ generalna̧ , nazywamy estymacja̧.
DEFINICJA: Przez próbȩ prosta̧ rozumiemy cia̧g niezależnych doświadczeń odnosza̧cych
siȩ do tej samej populacji generalnej.
DEFINICJA: Statystyka̧ nazywamy taka̧ funkcjȩ zmiennych losowych obserwowanych w
próbie, która sama jest zmienna̧ losowa̧.
DEFINICJA: Estymatorem Tn (x1 , x2 , ..xn ; θ) parametru θ lub w skrócie Tn (θ) nazywamy statystykȩ o rozkÃladzie prawdopodobieństwa zależnym od θ. Tu ’x1 , x2 , ..’ oznaczaja̧ wyniki pomiarów próby a przez rozkÃlad prawdopodobieństwa rozumiemy przyporza̧dkowanie prawdopodobieństw różnym wartościom statystyki Tn .
15
DEFINICJA: Estymacja punktowa to taka estymacja, która polega na oszacowaniu
wartości danego parametru θ przez wartość jego estymatora Tn (θ).
DEFINICJA: Estymacja przedziaÃlowa polega na szukaniu przedziaÃlu liczbowego, wewna̧trz
którego z zaÃlożonym prawdopodobieństwem leży prawdziwa wartość parametru.
DEFINICJA: Estymator Tn (θ), jest zgodny jeżeli dla każdego ² > 0 jest speÃlniony
warunek:
limn!1 P (| Tn (θ) − θ |< ²) = 1
W takim przypadku używa siȩ czȩsto określenia, że estymator speÃlnia prawo wielkich
liczb .
PRZYKÃLAD:
TWIERDZENIE (Bernoulli): Wzglȩdna czȩstość pojawiania siȩ zdarzenia ’A’ w
cia̧gu ’n’ doświadczeń speÃlnia prawo wielkich liczb czyli jest zgodnym estymatorem prawdopodobieństwa zdarzenia A: P (A).
limn!1 P (| nA /n − P (A) |< ²) = 1
DEFINICJA:
Estymator speÃlniaja̧cy mocne prawo wielkich liczb to taki, który jest zbieżny do estymowanego parametru z prawdopodobieństwem równym jedności.
P (limn!1 Tn (θ) = θ) = 1
PRZYKÃLAD:
TWIERDZENIE: F.P.Cantelli udowodniÃl w 1917 roku, że wzglȩdna czȩstość pozytywnego zakończenia doświadczenia; nA /n jest zbieżna do prawdopodobieństwa zdarzenia
A; P (A) z prawdopodobieństwem równym jedności:
P (limn!1 (nA /n) = P (A)) = 1
czyli wzglȩdna czȩstość speÃlnia mocne prawo wielkich liczb.
DEFINICJA: Estymatorem nieobcia̧żonym Tn (θ) parametru θ nazywamy taki estymator, którego wartość oczekiwana równa jest wartości estymowanego parametru niezależnie
od rozmiarów próby:
E(Tn (θ)) = θ
16
DEFINICJA: Obcia̧żeniem estymatora ’Bn ’ nazywamy różnicȩ jego wartości oczekiwanej i wartości estymowanego parametru:
Bn = E(Tn (θ)) − θ
DEFINICJA: Estymatorem obcia̧żonym nazywamy taki estymator, którego obcia̧żenie
jest różne od zera.
DEFINICJA: Estymatorem asymptotycznie nieobcia̧żonym nazywamy taki estymator
obcia̧żony, którego obcia̧żenie zmierza do zera gdy rozmiary próby nieskończenie rosna̧:
limn!1 Bn = 0
TWIERDZENIE:
Jeżeli wariancja estymatora nieobcia̧żonego lub asymptotycznie nieobcia̧żonego da̧ży do
zera gdy rozmiary próby rosna̧ nieograniczenie wówczas estymator ten jest zgodny.
TWIERDZENIE:
Jeżeli Tn (θ) jest zgodnym estymatorem θ i jeżeli h(θ) jest wielomianem lub ilorazem
wielomianów to estymator h(Tn (θ)) jest estymatorem zgodnym dla h(θ).
DEFINICJA:
Jeżeli mamy zbiór estymatorów tego samego parametru θ: Tn(1) (θ),Tn(2) (θ), ... Tn(k) (θ),
wówczas ten spośród nich nazywany jest najbardziej efektywnym, który ma najmniejsza̧
wariancjȩ.
6
ROZKÃLAD NORMALNY (Gaussa)
DEFINICJA:
Cia̧gÃla zmienna losowa X, której funkcja gȩstości prawdopodobieństwa ma nastȩpuja̧ca̧
postać:
f (X) =
p21 B
exp(
(X A)2
)
2B 2
nazywa siȩ zmienna̧ o rozkÃladzie normalnym N (A, B).
17
WÃlasności rozkÃladu normalnego f (X) ≡ N (A, B):
Wartość oczekiwana:
E(X) = A
Odchylenie standardowe:
σ(X) = B
Sta̧d Ãlatwo widać, że N (A, B) ≡ N (E(X), σ(X))
Dystrybuanta rozkÃladu normalnego nie wyraża siȩ przez funkcje elementarne.
Warto zapamiȩtać nastȩpuja̧ce wartości prawdopodobieństwa znalezienia zmiennej X w danym przedziale:
P (E(X) − σ(X) ≤ X < E(X) + σ(X)) = 0.6827
P (E(X) − 2σ(X) ≤ X < E(X) + 2σ(X)) = 0.9545
P (E(X) − 3σ(X) ≤ X < E(X) + 3σ(X)) = 0.9973
Uwaga:
Dowolna̧ zmienna̧ Y o rozkÃladzie normalnym można standaryzować tworza̧c wielkość Z
o rozkÃladzie ’standardowym normalnym’ N (0, 1):
Z = (Y − E(Y ))/σ(Y ).
Standaryzacja jest ważna ze wzglȩdu na możliwość tablicowania zarówno funkcji gȩstości
prawdopodobieństwa, jak i dystrybuanty rozkÃladu N (0, 1) a potem wykorzystania faktu,
że maja̧c zmienna̧ X o rozkÃladzie N (0, 1) możemy stworzyć zmienna̧ Y o rozkÃladzie
N (A, B) przez prosta̧ transformacjȩ: Y = B ∗ X + A .
TWIERDZENIE (Centralne Twierdzenie Graniczne w wersji podanej przez
Lapunowa):
Niech X1 , X2 , ...Xn bȩdzie cia̧giem niezależnych zmiennych losowych których rozkÃlady
posiadaja̧:
• wartość oczekiwana̧ E(Xk ),
• wariancjȩ var(Xk ),
• trzeci moment centralny µ3 (Xk ), oraz
18
• absolutny trzeci moment centralny tj.
bk ≡ E(| Xk − E(Xk ) |3 ) dla k = 1, ..., n.
Wówczas cia̧g dystrybuant standaryzowanych zmiennych losowych zdefiniowanych
nastȩpuja̧co:
Z=
n
X
Xk − E(Xk )
k=1
qP
n var(X )
i
i=1
speÃlnia zależność:
t2
1 ZZ
dt · exp(− )
lim Fn (Z) = √
n!1
2
2π 1
jeżeli jest speÃlniony warunek:
qP
3
lim q
n!1 2 Pn
n b
k=1 k
k=1 var(Xk )
=0
Centralne Twierdzenie Graniczne (Intuicyjne sformuÃlowanie)
Zmienna Z bȩda̧ca standaryzowana̧ suma̧ niezależnych zmiennych losowych bedzie miaÃla
standardowy rozkÃlad normalny gdy liczba skÃladników w sumie da̧ży do nieskończoności
oraz w sumie nie wystȩpuja̧ zmienne o wariancjach dominuja̧cych w stosunku do reszty
skÃladników.
WÃlaśnie to twierdzenie powoduje, że rozkÃlad normalny jest wyróżnionym rozkÃladem bardzo czȩsto stosowanym w statystyce.
7
19
PODSTAWY RACHUNKU BÃLȨDÓW
Wynik pomiaru bez podania dokÃladności
doświadczenia (bÃlȩdu) jest bezwartościowy.
DEFINICJA: Pomiarem bezpośrednim nazywamy doświadczenie, w którym przy pomocy odpowiednich przyrza̧dow mierzymy (porównujemy z jednostka̧) interesuja̧ca̧ nas
wielkość fizyczna̧.
PrzykÃlad:
• Pomiar dÃlugości przedmiotu przy pomocy linijki
• Pomiar dÃlugości odcinka czasu przy pomocy zegara
DEFINICJA: Pomiarem pośrednim nazywamy doświadczenie, w którym wyznaczamy
wartość interesuja̧cej nas wielkości fizycznej przez pomiar innych wielkości fizycznych
zwia̧zanych z dana̧ wielkościa̧ znanym zwia̧zkiem funkcyjnym.
PrzykÃlad:
• Pomiar oporu elektrycznego przewodnika: mierzymy spadek napiȩcia U na przewodniku i pra̧d I przez niego pÃlyna̧cy a opór R wyznaczamy z prawa Ohma: R = U/I.
• Pomiar gȩstości stopu, z którego zbudowany jest prostopadÃlościan: mierzymy bezpośrednio
dÃlugość krawȩdzi a, b i c prostopadÃlościanu i jego masȩ m a gȩstość wyznaczamy
ze wzoru: ρ = m/(a · b · c).
DEFINICJA: BÃlȩdem pomiaru e nazywamy różnicȩ pomiȩdzy wartościa̧ X uzyskana̧ w
doświadczeniu a prawdziwa̧ (nieznana̧) wartościa̧ X0 danej wielkości:
e = X − X0
BÃlȩdy dzielimy na grube, systematyczne i przypadkowe
DEFINICJA: BÃlȩdy grube to bÃlȩdy, które pojawiaja̧ siȩ w wyniku pomyÃlki eksperymentatora (np. odczyt na niewÃlaściwej skali przyrza̧du) lub w wyniku niesprawności aparatury
pomiarowej. Zwykle sa̧ one na tyle duże, że można je Ãlatwo zauważyć.
20
Dla unikniȩcia tych bÃlȩdów należy starannie zorganizować proces pomiaru i używać do
doświadczeń tylko wÃlaściwie wytestowanych przyrza̧dów.
DEFINICJA: BÃlȩdy systematyczne to takie, które podczas wykonywania pomiaru systematycznie przesuwaja̧ wyniki pomiarów w jedna̧ stronȩ w stosunku do prawdziwej
wartości.
PrzykÃlad:
Przy pomiarze oporu możemy zastosować dwa różne schematy podÃla̧czenia woltomierza i
amperomierza:
1. Woltomierz podÃla̧czony równolegle do oporu a szeregowo do nich amperomierz.
Wówczas spadek napiȩcia mierzony jest rzeczywiście na oporniku ale pra̧d mierzony
przez amperomierz odpowiada nie samemu pra̧dowi pÃlyna̧cemu przez przewodnik
lecz sumie pra̧dów - opornika i woltomierza. Systematycznie zawyżamy wartość
pra̧du ’I’ co w przypadku gdy opór woltomierza nie jest wielokrotnie wiȩkszy od
oporu przewodnika może prowadzić do znacza̧cego bÃlȩdu.
2. Woltomierz podÃla̧czony jest równolegle do ukÃladu szeregowo poÃla̧czonego opornika
i amperomierza. Wówczas woltomierz mierzy spadek napiȩcia na przewodniku oraz
na amperomierzu równocześnie. Systematycznie zawyżamy napiȩcie ’U’ co w
przypadku gdy opór wewnȩtrzny amperomierza nie jest wielokrotnie mniejszy od
oporu przewodnika może prowadzić do znacza̧cego bÃledu.
BÃledy systematyczne sa̧ trudne do zauważenia i oszacowania.
Dla ich unikniȩcia stosuje siȩ:
• staranne przemyślenie metody pomiaru w poszukiwaniu możliwych źródeÃl bÃlȩdów
systematycznych i rezygnacja z metod, które prowadza̧ do takich bÃlȩdów,
• zmianȩ metody pomiaru np. opór w powyższym przykÃladzie można mierzyć metoda̧
mostka, która nie wprowadza takich systematycznych bÃlȩdów jak omówione najprostsze schematy pomiaru. Ważne staÃle fizyczne takie jak prȩdkość światÃla ’c’
byÃly wielokrotnie mierzone różnymi metodami, gÃlównie po to by upewnić siȩ, że
unikniȩto bÃlȩdów systematycznych,
• unikanie oczywistych źródeÃl bÃlȩdu jak np. ”bÃla̧d paralaksy”polegaja̧cy na odczytaniu skali nie patrza̧c na nia̧ z kierunku prostopadÃlego,
• pomiary wzglȩdne polegaja̧ce na tym, że mierzymy równocześnie, ta̧ sama̧ metoda̧
dwie wielkości - jedna̧ dobrze znana̧ a druga̧ - tȩ, która̧ chcemy zmierzyć. Odnosza̧c
wynik pomiaru nieznanej wielkości do wyniku pomiaru znanej wielkości zwykle
możemy wyeliminować bÃlȩdy systematyczne.
21
DEFINICJA: BÃlȩdy przypadkowe to bÃlȩdy, które zmieniaja̧ siȩ od pomiaru do pomiaru, powoduja̧c odchylenia od wartości prawdziwej zarówno w jedna̧ jak i druga̧ stronȩ.
ZakÃlada siȩ, że spowodowane sa̧ one przez wiele niezależnych przyczyn o porównywalnym
znaczeniu.
Metody statystyki pozwalaja̧ na oszacowanie tego typu bÃlȩdów zarowno jakościowo
jak i ilościowo. Nie mówia̧ jednak nic o bÃlȩdach systematycznych czy grubych. Dlatego
dalsze rozważania bȩda̧ dotyczyÃly tylko bÃlȩdów przypadkowych.
Jeżeli mamy do czynienia tylko z bÃlȩdami przypadkowymi wówczas sa̧ speÃlnione zaÃlożenia
centralnego twierdzenia granicznego a wiȩc:
RozkÃlad bÃlȩdu przypadkowego to rozkÃlad N (0, σ(e)).
f (e) =
7.1
p21(e)
2
exp( 22e(e) )
ROZKÃLAD POMIARÓW OBARCZONYCH BÃLȨDAMI PRZYPADKOWYMI
Wartość oczekiwana bÃlȩdu przypadkowego jest z definicji równa zero a rozrzut bÃlȩdów
dokoÃla wartości oczekiwanej bÃlȩdu jest określony przez odchylenie standardowe σ(e).
Wynik pomiaru X różni siȩ od bÃlȩdu e tylko przesuniȩciem skali wspóÃlrzȩdnych o
X0 (wartość prawdziwa̧) a wiȩc rozkÃlad wartości mierzonej X jest rozkÃladem Gaussa
N (X0 , σ(e)):
f (X) =
p21(e) exp(
(X X0 )2
).
2 2 (e)
WAŻNE WNIOSKI:
• Wartość prawdziwa mierzonej wielkości jest równa wartości oczekiwanej
pomiarów (jeżeli sa̧ tylko bÃlȩdy przypadkowe).
• Rozrzut pomiarów dokoÃla wartości prawdziwej jest określony przez odchylenie standardowe σ(e) rozkÃladu bÃlȩdów przypadkowych.
• Miara̧ bÃlȩdu pojedynczego pomiaru jest odchylenie standardowe pomiarów.
22
Z powyższych faktów wynika, że:
szukanie prawdziwej wartości mierzonej wielkości i jej bÃlȩdu to estymacja wartości oczekiwanej i odchylenia standardowego pomiarów
OD ’DOBREGO’ ESTYMATORA ŻA̧DAMY ABY:
• speÃlniaÃl mocne prawo wielkich liczb lub byÃl zgodny
• O ile to możliwe chcemy by byÃl:
– Nieobcia̧żony,
– Najbardziej efektywny.
7.2
ESTYMATOR WARTOŚCI OCZEKIWANEJ
Jako estymator wartości oczekiwanej Tn (E(X)) przyjmuje siȩ średnia̧ arytmetyczna̧
niezależnych pomiarów wielkości X. Bȩdziemy ja̧ oznaczać przez X :
Tn (E(X)) ≡ X = n1
Pn
i=1 Xi
Estymator ten posiada optymalne wÃlasności:
1. KoÃlmogorow pokazaÃl, że X speÃlnia mocne prawo wielkich liczb a wiȩc oczywiście
jest zgodny,
2. Estymator X jest nieobcia̧żony.
1
E( n
P
P
1
1
i Xi ) = n i E(Xi ) = n (n.E(X)) = E(X) c.b.d.o.
Tu wykorzystano fakt, że wszystkie wartości oczekiwane sa̧ równe E(Xi )=E(X).
3. Można pokazać, że X jest najbardziej efektywnym estymatorem E(X).
TWIERDZENIE:
(X )
Estymator X wartości oczekiwanej E(X) ma rozkÃlad normalny N (E(X), p
n )
gdzie ’n’ jest liczba̧ pomiarów w próbie.
23
WNIOSKI:
1. Odchylenie standardowe średniej arytmetycznej X jest
odchylenia standardowego pojedynczego pomiaru.
√
n - krotnie mniejsze od
2. Odchylenie standardowe σ(X) czyli bÃla̧d średni kwadratowy średniej arytmetycznej charakteryzuje dokÃladność wyznaczenia prawdziwej wartości X w danym
konkretnym pomiarze skÃladaja̧cym siȩ z n niezależnych doświadczeń.
X0 = X ± σ(X)
3. Aby charakteryzować dokÃladność metody pomiarowej wówczas jako miarȩ dokÃladności
podajemy bÃla̧d pojedynczego pomiaru tj. σ(X) .
4. W granicach wyznaczonych przez σ(X) powinno leżeć 68.27% wszystkich pomiarów
a nie wszystkie pomiary.
7.3
ESTYMATOR ODCHYLENIA STANDARDOWEGO
(a)
S(X) ≡
q
n
1
1
Pn
2
i=1 (Xi − X)
Jest to zgodny, asymptotycznie nieobcia̧żony estymator
(b)
s(X) ≡
q
1
n
Pn
2
i=1 (Xi − X)
Jest to zgodny, asymptotycznie nieobcia̧żony i najbardziej efektywny estymator
(c)
S(X) ≡ kn S(X)
q
Γ( n 1 )
gdzie kn = n 2 1 Γ( n2 )
2
Jest to zgodny i nieobcia̧żony estymator σ(X).
24
UWAGA: WspóÃlczynnik ”kn ”można zasta̧pić z niezÃlym przybliżeniem przez wstawienie
do wzoru na S(X) zamiast 1/(n − 1) czynnika 1/(n − 1.45).
Poniżej podajemy w tabelce przykÃladowe wartości wspóÃlczynnika kn dla różnych ’n’:
n
3
4
5
6
7
10
15
20
25
50
kn
1.1284
1.0853
1.0640
1.0506
1.0423
1.0280
1.0181
1.0134
1.0104
1.0051
q
n
n
1
1:45
1.1359
1.0847
1.0615
1.0482
1.0397
1.0260
1.0165
1.0121
1.0095
1.0046
UWAGA:
Najczȩściej używanym estymatorem odchylenia standardowego jest estymator S(X)
7.4
ZAPIS WYNIKÓW POMIARÓW
Ponieważ z doświadczenia nie uzyskujemy prawdziwej wartości oczekiwanej E(X) oraz
odchylenia standardowego σ(X) a tylko ich estymatory wiȩc nie podaje siȩ ich wartości
z peÃlna̧ (uzyskana̧ z obliczeń) liczba̧ cyfr znacza̧cych.
Stosuje siȩ nastȩpuja̧ca̧ konwencjȩ:
• Pozostawia siȩ tylko dwie cyfry znacza̧ce estymatora bÃlȩdu a jeżeli
zaokra̧glenie do jednej cyfry (zaokra̧glaja̧c zawsze do góry) nie
zmieni wyniku wiȩcej niż o 10% to podaje siȩ tylko jedna̧ cyfrȩ.
• Wynik pomiaru obliczamy o jedno miejsce dziesiȩtne dalej niż
miejsce dziesiȩtne, na którym zaokra̧glono bÃla̧d, a nastȩpnie
zaokra̧glamy wg normalnych reguÃl do tego samego miejsca
dziesiȩtnego, do którego wyznaczono bÃla̧d.
25
TWIERDZENIE: Jeżeli prawdopodobieństwo zrealizowania siȩ danego zdarzenia losowego
w pojedynczym doświadczeniu jest równe p to liczba k zrealizowanych zdarzeń w N
niezależnych doświadczeniach rza̧dzona jest rozkÃladem Bernoulliego (dwumianowym,
binomialnym):
P (k) = k!(NN ! k)! pk (1 − p)N k ; k = 0, 1, ..N
L
Ã atwo można pokazać, że
E(k) = q
N ·p
σ(k) = N · p · (1 − p)
W fizyce atomowej, ja̧der atomowych i cza̧stek elementarnych czȩsto zdarza siȩ sytuacja gdy N jest bardzo duże, p bardzo maÃle a wartość oczekiwana rejestrowanych zdarzeń
E(k) ≡ N · p jest staÃla. np. N - liczba radioaktywnych ja̧der w badanej próbce, p - prawdopodobieństwo rozpadu pojedynczego radioaktywnego ja̧dra w jednostce czasu, k - liczba
rejestrowanych rozpadów w jednostce czasu
W takiej sytuacji rozkÃlad Bernoulliego przechodzi w rozkÃlad Poissona:
k
P (k) = k! exp(−λ)
Wartość oczekiwana i odchylenie standardowe wyrażaja̧ siȩ wzorem:
E(k) = √
λ
σ(k) = λ
Można pokazać, że dla dla N
i rozkÃlad Poissona da̧ża̧ do
q ⇒ ∞ rozkÃlad Bernoulliego
√
rozkÃladu normalnego N (N.p, N.p.(1 − p)) i N (λ, λ) odpowiednio.
7.5
26
BÃLA̧D STATYSTYCZNY
Liczba rejestrowanych w danym okresie czasu zdarzeń k rza̧dzonych powyższymi prawami
jest zmienna̧ losowa̧ a wiȩc ’prawdziwa’ liczba zdarzeń to E(k) a jej ’bÃla̧d’ to σ(k).
Ten ’bÃla̧d’ nazywany jest bÃlȩdem statystycznym.
ESTYMATOR prawdziwej liczby zdarzeń i bÃlȩdu statystycznego
Jako estymator prawdziwej liczby zdarzeń przyjmuje siȩ liczbȩ k zarejestrowanych
zdarzeń podczas pojedynczego pomiaru:
Tn (E(k)) = k
a jako estymator bÃlȩdu statystycznego: √
Tn (σ(k)) = k
POZORNY PARADOKS: Im dÃlużej mierzymy tym bÃla̧d liczby zarejestrowanych zdarzeń
jest wiȩkszy.
WYTÃLUMACZENIE: Istotny jest statystyczny bÃla̧d wzglȩdny a nie bezwzglȩdny:
(k)
)=
Tn ( E(k)
p1k
.
NOMENKLATURA: Pomiar z maÃlym statystycznym bÃlȩdem wzglȩdnym to pomiar z
DOBRA̧ STATYSTYKA̧ a z dużym to pomiar ze ZÃLA̧ STATYSTYKA̧.
UWAGA: Zwykle interesuje nas liczba zdarzeń na jednostkȩ czasu a wiȩc k ma wymiar
odwrotny do czasu. Należy zwracać uwagȩ, że bÃla̧d statystyczny ma identyczny
wymiar jak liczba zdarzeń, tj. wymiar odwrotny do czasu mimo, że ilościowo jest
pierwiastkiem z liczby zdarzeń.
W praktyce do opisu rejestracji liczby zdarzeń stosujemy rozkÃlad Poissona. Interesuje nas
jednak nie tylko odpowiedź na pytanie:
Ile zdarzeń zachodzi w określonym czasie ?
ale również odpowiedź na inne pytanie:
Ile zachodzi zdarzeń DANEGO TYPU ?
PRZYKÃLAD: Rejestrujemy produkty reakcji ja̧drowej. Chcemy wiedzieć nie tylko ile
reakcji zachodzi ale także ile jest produktów posiadaja̧cych określona̧ energiȩ.
27
PYTANIA:
1. Jakim rozkÃladem rza̧dzona jest liczba zdarzeń w każdym przedziale (’kanale’) energii?
2. Co by siȩ staÃlo gdybyśmy dodali liczby zdarzeń z kilku sa̧siednich kanaÃlów (dla
poprawienia ’statystyki’ liczby zdarzeń) ?
ODPOWIEDZI:
ad 1 Liczba zdarzeń w każdym kanale jest rza̧dzona rozkÃladem Poissona ale każdy z tych
rozkÃladów ma zwykle różny parametr λ.
ad 2 Korzystaja̧c z poniższego twierdzenia:
TWIERDZENIE
RozkÃlad prawdopodobieństwa sumy skończonej liczby niezależnych skÃladników, z których
każdy rza̧dzony jest rozkÃladem Poissona o parametrze λi jest również rozkÃladem
P
Poissona ale o nowym parametrze λ = λi .
i
stwierdzamy, że liczba zdarzeń w kilku wysumowanych kanaÃlach k =
P
i
ki bȩdzie
dalej rza̧dzona rozkÃladem Poissona z parametrem λ, którego estymator jest równy
P
Tn (E(k)) = ki .
i
7.6
POMIARY POŚREDNIE
Jeżeli w doświadczeniu mierzymy wielkości X1 , X2 , .., XN a nastȩpnie wyliczamy wartość
funkcji Y = Y(X1 , X2 , .., XN ) to taka̧ procedurȩ nazywamy pomiarem pośrednim.
7.6.1
ESTYMATOR E(Y) POMIARU POŚREDNIEGO Y
Estymatorem E(Y) jest wartość funkcji Y wyliczona dla argumentów, które sa̧ estymatorami X1 , X2 , ..XN tzn. dla średnich arytmetycznych X1 , X2 , ..., XN :
Tn (E(Y(X1 , X2 , ..XN ))) = Y(X1 , X2 , ..., XN )
lub inaczej
E(Y(X1 , X2 , ..XN )) ≈ Y(X1 , X2 , ..., XN )
7.6.2
28
BÃLA̧D POMIARU POŚREDNIEGO
Przy zaÃlożeniu, że pomiary X1 , X2 , .., XN byÃly wykonywane niezależnie odpowiednio
n1 , n2 , .., nN razy, bÃla̧d pomiaru pośredniego (bÃla̧d średni kwadratowy) oszacowuje
siȩ nastȩpuja̧co:
s
σ(Y ) ≈
N
P
@Y )2
· σ 2 (X i )
( @X
i Xi =Xi
i=1
UWAGA:
1. X1 , X2 , ..XN to różne wielkości a nie kolejne pomiary wielkości ”X”,
2. Pochodne liczone wzglȩdem ’Xi ’ to pochodne cza̧stkowe tzn. liczone przy zaÃlożeniu,
że pozostaÃle zmienne ’Xj 6=i ’ sa̧ ustalone,
3. Zamiast wariancji zmiennej σ 2 (X i ) używa siȩ jej estymatora tzn. S 2 (X i )
ni - krotnie mniejszego od estymatora S 2 (Xi ).
Jeżeli pomiary wielkości mierzonych bezpośrednio byÃly wykonywane jednokrotnie to
nie możemy oszacować bÃlȩdu średniego kwadratowego wielkości mierzonych bezpośrednio
(z rozrzutu pomiarów) ani nie możemy oszacować bÃlȩdu średniego kwadratowego wielkości
mierzonych pośrednio.
Wtedy szacujemy tylko bÃla̧d maksymalny !!!
7.6.3
BÃLA̧D MAKSYMALNY
BÃla̧d maksymalny pomiaru pośredniego liczymy wg poniższego wzoru, tzn. metoda̧
różniczki zupeÃlnej.
∆(Y ) ≈
N
P
i=1
@Y | · ∆(X )
| @X
i
i
Tu moduÃly pochodnych sa̧ wyliczane dla jednokrotnie zmierzonych wielkości Xi a
symbol ∆(Xi ) oznacza maksymalny bÃla̧d tej wielkości mierzonej bezpośrednio.
L
Ã atwo można pokazać , że bÃla̧d obliczony metoda̧ różniczki zupeÃlnej jest nie mniejszy
od bÃlȩdu średniego kwadratowego.
W odróżnieniu od bÃlȩdu średniego kwadratowego szacowanego wzorami podanymi
powyżej bÃla̧d maksymalny nie ma interpretacji statystycznej a wiȩc nie można
go bezpośrednio wyrazić przez bÃla̧d średni kwadratowy. Niekiedy jednak stosuje siȩ przepis
wyznaczaja̧cy go jako potrojona̧ wartość odchylenia standardowego (czyli bÃlȩdu średniego
kwadratowego). Przepis ten wykorzystuje omówiona̧ wcześniej wÃlasność rozkÃladu Gaussa,
29
że w granicy ±3 · σ dokoÃla wartości oczekiwanej leży 99,73 % wszystkich wartości zmiennej.
Czȩsto interesuje nas zamiast bezwzglȩdnej wartości bÃlȩdu jego stosunek do wartości
zmierzonej wielkości. Jest to tzw. bÃla̧d wzglȩdny. Warto pamiȩtać, że w szczególnym
przypadku gdy szukana wielkość f(X,Y,Z) zależy od mierzonych bezpośrednio wielkości w
poniższy sposób:
f (X, Y, Z) = X a · Y b · Z c
gdzie a,b i c to staÃle, Ãlatwiej jest wyliczyć bÃla̧d wzglȩdny niż bezwzglȩdny.
W przypadku bÃlȩdu maksymalnego bÃla̧d wzglȩdny zÃlożonej wielkości ”f”jest nastȩpuja̧ca̧
kombinacja̧ liniowa̧ wzglȩdnych bÃlȩdów argumentów:
∆(f )
f
X)
∆(Y )
∆(Z )
=| a | · ∆(
jX j + | b | · jY j + | c | · jZ j
W przypadku bÃlȩdu średniego kwadratowego dostajemy analogiczny wzór:
(f )
f =
q
a2 · ( (XX ) )2 + b2 · ( (YY ) )2 + c2 · ( (ZZ ) )2
Wzór ten czȩsto określa siȩ sformuÃlowaniem: ’wzglȩdne bÃlȩdy średnie kwadratowe dodaja̧ siȩ w kwadratach’. To sformuÃlowanie jest precyzyjne wtedy gdy wykÃladniki potȩg
’a’,’b’,’c’, ... sa̧ równe 1 (lub -1).
8
30
ESTYMACJA PRZEDZIAÃLOWA
Podstawy tej metody estymacji opracowaÃl polski statystyk Jerzy SpÃlawa-Neyman (w literaturze zachodniej cytowany zwykle jako Neyman). Idea̧ metody jest tworzenie takiego
przedziaÃlu liczbowego, o którym można powiedzieć, że z zadanym prawdopodobieństwem
zawiera w sobie (przekrywa) wartość szacowanego parametru.
Prawdopodobieństwo to nazywa siȩ poziomem ufności i standardowo oznaczane jest
symbolem 1 − α . W tych notatkach zamiennie używane jest oznaczenie 1 − α oraz γ.
PrzedziaÃl nazywany jest przedziaÃlem ufności dla parametru θ jeżeli:
♦ prawdopodobieństwo P( T(1)
≤ θ ≤T(2)
)=1-α,
n
n
♦ końce przedziaÃlu zależa̧ od wyników doświadczenia i od poziomu istotności a nie zależa̧
funkcyjnie od θ.
UWAGA:
• Poziom ufności 1 − α ≡ γ przyjmuje siȩ zwykle duży (np. 0,9) ale nie może być
zbyt duży bo zwiȩkszanie poziomu ufności zwiȩksza dÃlugość przedziaÃlu ufności co
powoduje, że tracona jest informacja o wartości oszacowanego parametru.
• Poniższe rozważania sa̧ sÃluszne przy zaÃlożeniu, że wyniki pomiarów xi ,i=1,..n obarczone sa̧ tylko bÃlȩdami przypadkowymi a wiȩc rza̧dzone sa̧ rozkÃladem normalnym
N (E{x}, σ{x}).
8.1
31
ESTYMACJA E{X} GDY ZNAMY σ{X}
Jako statystykȩ testowa̧ (zmienna̧ losowa̧ zależna̧ od wyniku doświadczenia) bierzemy
zmienna̧ z zdefiniowana̧ poniżej:
z≡
x̄ − E{x̄}
≡
σ{x̄}
√
(x̄ − E{x}) n
σ{x}
Ponieważ średnia arytmetyczna “x̄” ma rozkÃlad normalny wiȩc zmienna z, która jest
standaryzowana̧ średnia̧ arytmetyczna̧, ma
standardowy rozkÃlad normalny N(0,1).
Szukamy takiego przedziaÃlu [zmin , zmax ], że:
• P (zmin ≤ z ≤ zmax ) = γ
• przedziaÃl ten poÃlożony jest tam, gdzie gȩstość prawdopodobieństwa f (z) jest najwiȩksza.
Ponieważ rozkÃlad standardowy normalny jest symetryczny dokoÃla zera i zero jest moda̧
rozkÃladu (funkcja gȩstości ma maksimum) to widać, że przedziaÃl [zmin , zmax ] powinien
być poÃlożony symetrycznie dokoÃla z = 0:
zmax = −zmin .
Wiedza̧c, że funkcja gȩstości prawdopodobieństwa jest unormowana do jedności (pole
pod caÃlym wykresem funkcji gȩstości jest równe jedności) oraz wiedza̧c, że pole pod tym
wykresem dla z leża̧cego w przedziale [zmin , zmax ] wynosi γ a przedziaÃl leży symetrycznie
dokoÃla z = 0 można brzegi przedziaÃlu wyrazić przez kwantyle zq rozkÃladu N (0, 1) :
zmin = z 1
2
oraz zmax = z 1+
2
Dodatkowo możemy skorzystać z faktu symetrii rozkÃladu N (0, 1) dokoÃla z = 0, który
pozwala na wyrażenie obu kwantyli przez siebie:
z1
2
= −z 1+
2
Dziȩki temu w tablicach podawane sa̧ zwykle tylko kwantyle na dużym ( tj.
na maÃlym ( tj. 1 2 ) poziomie.
1+
)
2
lub
Zamiast korzystać z tablic można oczywiście wyliczać numerycznie kwantyle rozkÃladu
N (0, 1). Odpowiednie procedury dla liczenia kwantyli rozkÃladu standardowego normalnego a także innych podstawowych rozkÃladów statystyki, takich jak rozkÃlad chi-kwadrat,
32
rozkÃlad Studenta czy też rozkÃlad Fishera-Snedecora można znaleźć np. w ksia̧żce S.
Brandta, “Analiza danych” , PWN 1998.
Definicyjny wzór na zmienna̧ z pokazuje, że zmienna z i średnia arytmetyczna zwia̧zane sa̧
monotoniczna̧ (liniowa̧) zależnościa̧ a wiȩc można jednoznacznie przedziaÃlowi [zmin , zmax ]
przypisać przedziaÃl wartości zmiennej
X̄ − E{X} =
σ{X}
√ z.
n
co po prostym przeksztaÃlceniu da przedziaÃl ufności na E{X}:
Ã
P (zmin ≤ z ≤ zmax ) ⇔ P
σ{X}
σ{X}
X̄ − √ zmax ≤ E{X} ≤ X̄ − √ zmin
n
n
!
Trzeba pamiȩtać, że wartość oczekiwana jest konkretna̧ liczba̧ a nie zmienna̧ losowa̧.
Zmiennymi sa̧ końce przedziaÃlu bo sa̧ funkcjami średniej arytmetycznej pomiarów.
Inaczej mówia̧c:
Z prawdopodobieństwem γ przedziaÃl liczbowy wypisany
.
powyżej przykrywa soba̧ wartość oczekiwana̧ E{X}.
Wyrażaja̧c zmin i zmax przez kwantyle standardowego rozkÃladu normalnego dostajemy
przedziaÃl ufności dla wartości oczekiwanej E{X} na poziomie ufności γ:
σ{X}
σ{X}
X̄ − √ U 1+ ≤ E{X} ≤ X̄ − √ U 1 2
2
n
n
lub
σ{X}
σ{X}
X̄ − √ z 1+ ≤ E{X} ≤ X̄ + √ z 1+
2
2
n
n
lub
σ{X}
σ{X}
X̄ + √ z 1 ≤ E{X} ≤ X̄ − √ z 1 2
2
n
n
Sa̧ to trzy równoważne formy, przy czym najÃlatwiej chyba zapamiȩtać druga̧ z nich:
σ{X}
σ{X}
X̄ − √ z 1+ ≤ E{X} ≤ X̄ + √ z 1+
2
2
n
n
8.2
33
ESTYMACJA E{X} GDY NIE ZNAMY σ{X}
Jako statystykȩ testowa̧ bierzemy zmienna̧ “t” zdefiniowana̧ poniżej:
√
x̄ − E{x̄}
(x̄ − E{x}) n
t≡
≡
S{x̄}
S{x}
gdzie statystyka
v
u
u
S{x̄} ≡ t
1
n
X
n(n − 1) i=1
(xi − x̄)2
jest znanym nam estymatorem odchylenia standardowego średniej arytmetycznej “x̄” a
“n” oznacza liczbȩ pomiarów w próbie.
Można pokazać, że zmienna t ma rozkÃlad Studenta o (n-1) stopniach swobody .
Ponieważ rozkÃlad Studenta jest bardzo podobny do standardowego rozkÃladu normalnego wiȩc rozważania podane powyżej dla przypadku przedziaÃlu ufności dla E{X} gdy
znane jest odchylenie standardowe pomiarów zachowuja̧ swa̧ prawdziwość i dla aktualnej
sytuacji z tym, że kwantyle rozkÃladu normalnego musza̧ być zamienione przez odpowiednie
kwantyle rozkÃladu Studenta a odchylenie standardowe zasta̧pione przez jego estymator:
S{X}
S{X}
X̄ − √ t 1+ ≤ E{X} ≤ X̄ + √ t 1+
2
2
n
n
Tu podana jest tylko jedna z trzech równoważnych postaci wzoru na przedziaÃl ufności
ale oczywiście można również używać obu pozostaÃlych po odpowiednich modyfikacjach.
UWAGA:
Dla dużych prób (n > 20 ÷ 30) rozkÃlad Studenta upodabnia siȩ bardzo do rozkÃladu
standardowego normalnego i dla wiȩkszości praktycznych zastosowań można posÃlugiwać
siȩ kwantylami rozkÃladu N (0, 1).
8.3
34
ESTYMACJA PRZEDZIAÃLOWA var(X) i σ(X)
Jako statystykȩ bierzemy zmienna̧ Y zdefiniowana̧ nastȩpuja̧co:
Y =
(n − 1)S 2 (X)
σ 2 (X)
gdzie “n” to liczba pomiarów w próbie, σ 2 (X) to wariancja X a S 2 (X) to estymator
wariancji zmiennej X:
1
2
S (X) =
n
X
n − 1 i=1
(xi − x̄)2
Wielkość ta ma rozkÃlad chi-kwadrat o (n-1) stopniach swobody.
Podobnie jak przy szukaniu przedziaÃlu ufności dla wartości oczekiwanej E{X} rozważa siȩ
przedziaÃl najbardziej prawdopodobnych wartości zmiennej Y. Jednakże przedziaÃl ten nie
jest symetryczny dokoÃla mody bo rozkÃlad chi-kwadrat nie jest symetryczny.
Dla jednoznacznego określenia przedziaÃlu ufności zakÃlada siȩ, że prawdopodobieństwo
odchylenia wartości Y poza wybrany przedziaÃl w stronȩ dużych wartości jest takie samo
jak prawdopodobieństwo odchylenia w stronȩ odwrotna̧:
1−γ
P (Y < Ymin ) = P (Y > Ymax ) =
2
ZaÃlożenie to pozwala jednoznacznie określić brzegi przedziaÃlu przez kwantyle rozkÃladu
chi-kwadrat :
Ymin = (χ2n
1) 1 2 i Ymax = (χ2n
1 ) 1+
2
Kwantyle te nie sa̧ równe i musza̧ być oba wyliczone lub znalezione z tablic.
Relacja pomiȩdzy estymowanym parametrem, tj. wariancja̧ i statystyka̧ Y jest monotoniczna̧ funkcja̧ :
σ 2 (X) =
(n − 1).S 2 (X)
Y
wiȩc prawdopodobieństwo trafienia statystyki do przedziaÃlu [Ymin , Ymax ] jest równe prawdopodobieństwu tego, że oszacowywana wariancja bȩdzie leżaÃla w przedziale:
(n − 1).S 2 (X)
Ymax
≤ σ 2 (X) ≤
(n − 1).S 2 (X)
Ymin
,
co powoduje, że ostatecznie przedziaÃl ufności dla wariancji na poziomie ufności γ to :
(n − 1).S 2 (X)
(χ2n
1 ) 1+
2
35
≤ σ 2 (X) ≤
(n − 1).S 2 (X)
(χ2n
1) 1 2 Estymacja przedziaÃlowa odchylenia standardowego σ(X) może być przeprowadzona
przez pierwiastkowanie granic przedziaÃlu ufności dla wariancji. Ten przedziaÃl liczbowy
bȩdzie przedziaÃlem ufności dla odchylenia standardowego na tym samym poziomie ufności
γ ≡ 1 − α co startowy przedziaÃl ufności dla wariancji. Dzieje siȩ tak dlatego, że pierwiastkowanie - relacja miȩdzy wariancja̧ i odchyleniem standardowym - jest monotoniczna̧
funkcja̧.
v
u
u (n − 1).S 2 (X)
u
≤ σ(X) ≤
t
2
(χn
1 ) 1+
2
v
u
u (n − 1).S 2 (X)
u
t
2
(χn
1) 1 2 B.Kamys: Fiz. Komp. 2003/04
9
36
METODY SZUKANIA ESTYMATORÓW
Omówimy poniżej trzy najczȩściej stosowane ogólne metody poszukiwania estymatorów
parametrów zapewniaja̧ce otrzymanie estymatorów o poża̧danych wÃlasnościach. Sa̧ to:
• Metoda momentów
• Metoda najwiȩkszej wiarygodności
• Metoda najmniejszych kwadratów
Każda z nich ma swoje zalety i wady. W ogólnym przypadku zalecana jest metoda najwiȩkszej wiarygodności ale w przypadku szukania parametrów regresji najbardziej popularna̧ jest metoda najmniejszych kwadratów. Z kolei metoda momentów może być bardzo
wygodna w niektórych przypadkach przedyskutowanych poniżej.
9.1
METODA MOMENTÓW (“MM”)
Metoda momentów zaproponowana zostaÃla przez K. Pearsona na przeÃlomie XIX i XX
wieku.
Idea metody : Szukamy estymatorów parametrów θ1; θ2;::: θk określaja̧cych caÃlkowicie
dystrybuantȩ zmiennej losowej X postȩpuja̧c w poniższy sposób:
• Znajdujemy zwia̧zki pomiȩdzy parametrami a momentami rozkÃladu.
• Wyliczamy estymatory momentów Tn (mi (0)) ≡ Mi wg wzoru:
Mi =
n
1X
n j =1
[xj ]i
• Wstawiamy powyższe estymatory momentów do wzorów wia̧ża̧cych oszacowywane
parametry z momentami.
• Rozwia̧zujemy ukÃlad równań na parametry θ1; θ2;::: θk wyrażaja̧c je przez estymatory momentów Mi , i=1,..,k . Te rozwia̧zania sa̧ estymatorami odpowiednich
parametrów T n (θ i ) , i=1,...,k , optymalnymi w sensie metody momentów.
37
PRZYKÃLAD:
Szukamy estymatorów parametrów θ1; (θ2 )2 rozkÃladu Gaussa:
1
f (x) = q
exp{−
2πθ22
(x − θ1 )2
2θ22
}
Znamy zwia̧zki pomiȩdzy parametrami i momentami rozkÃladu:
θ1 =E{x} ≡ m1 (0)
(θ2 ) = var{x} = E{x } − (E{x})2
≡ m2 (0) − (m1 (0))2
2
2
Liczymy estymatory momentów:
Tn (m1 (0)) ≡ M1 =
Tn (m2 (0)) ≡ M2 =
n
1X
n i=1
n
1X
xi
x2
n i=1 i
Z pierwszego równania po wstawieniu średniej arytmetycznej zamiast E{x}
dostajemy:
Tn (θ1 ) =
n
1X
n i=1
xi
Z drugiego równania (zastȩpuja̧c momenty ich estymatorami) dostajemy:
1
Tn (θ22 )
n
P
µ
2
¶2
n
P
1
= n
xi − n
xi =
i=1
i=1
n
P
= n1
x2i − 2x̄2 + x̄2 =
1
i=1
n
P
1
i=1
n
P
µ
n
P
¶
µ
n
P
¶
= n
x2i − 2x̄. n1
xi + n1
x̄2 =
i=1 ³
i=1 ´
i=1
n
1 P
2
2
= n
xi − 2x̄.xi + x̄ =
= n
(xi − x̄)
i=1
2
38
(w drugim wierszu dodany i odjȩty kwadrat średniej arytmetycznej, w trzecim kwadrat
średniej zapisany jako n-ta czȩść sumy kwadratów średniej a dalej to tylko zwijanie
kwadratu różnicy).
Otrzymujemy wiȩc znany nam estymator s2 (x) jako najlepszy w sensie metody momentów estymator wariancji θ22 :
Tn (θ22 )
=
n
1X
n i=1
(xi − x̄)2 ≡ s2 (x)
WÃlasności estymatorów metody momentów :
Estymatory sa̧:
• asymptotycznie nieobcia̧żone (lub nieobcia̧żone)
• zgodne
Wady metody momentów:
• UkÃlad równań na estymatory parametrów θ jest zwykle nieliniowy co powoduje,
że musimy znajdować rozwia̧zania numerycznie i dodatkowo utrudnia oszacowanie
bÃlȩdów estymatorów.
• Estymatory metody momentów sa̧ zwykle mniej efektywne (tzn. maja̧ wiȩksza̧ wariancjȩ) niż estymatory znalezione innymi metodami a w szczególności metoda̧ najwiȩkszej wiarygodności.
• Wyznaczanie wyższych momentów z doświadczenia jest maÃlo dokÃladne co rzutuje
na dokÃladność estymatorów parametrów.
Optymalna sytuacja dla metody momentów:
Zachodzi ona wtedy, gdy szukane parametry wystȩpuja̧ jako wspóÃlczynniki rozwiniȩcia
funkcji gȩstości prawdopodobieństwa na ortonormalny zespóÃl funkcji gk (x), k = 1, .., r:
~ = const +
f (x, θ)
r
X
k=1
θk gk (x)
39
gdzie “const” jest staÃla̧ normalizacyjna̧ a funkcje gk speÃlniaja̧ relacje:
Z
Z
dx gk (x) gj (x) = δkj
oraz
dx gk (x) = 0.
Wtedy możemy napisać nastȩpuja̧co wzór na wartość oczekiwana̧ funkcji gj (x):
E{gj (x)} =
=
=
R
R
~ =
dx gj (x) f (x, θ)
dx const gj (x) +
0
+
r
P
k=1
R
θk dx gk (x) gj (x) =
θj
Wynika sta̧d, że szukanie estymatora parametru θj sprowadza siȩ do znalezienia estymatora wartości oczekiwanej funkcji gj (x). Zgodnie z zasada̧ metody momentów estymatorem tym jest średnia arytmetyczna:
Tn (θj ) =
n
1X
n i=1
gj (xi )
Wiemy, że średnia arytmetyczna jest zgodnym i nieobcia̧żonym estymatorem. Co wiȩcej,
wiemy z centralnego twierdzenia granicznego , że asymptotyczny rozkÃlad takiej zmiennej
jest rozkÃladem normalnym a wiȩc znamy również przepis na estymator wariancji tego
estymatora. Takim nieobcia̧żonym i zgodnym estymatorem jest S 2 (x̄), gdzie zamiast
“xi ” bierzemy funkcjȩ gj (xi ) a zamiast x̄ bierzemy estymator Tn (θj ):
2
S (Tn (θj )) =
1
n
X
n(n − 1) i=1
[gj (xi ) − T n (θj )]2
9.2
40
METODA NAJWIȨKSZEJ WIARYGODNOŚCI (“MNW”)
Metoda najwiȩkszej wiarygodności zaproponowana zostaÃla przez R.A. Fishera w 1921
roku.
Idea metody:
Zawiera siȩ w zaÃlożeniu, że zaobserwowane w próbie wyniki sa̧ najbardziej prawdopodobne
spośród wszystkich możliwych.
• Szukamy prawdopodobieństwa tego, że próba bȩdzie taka jaka̧ zaobserwowaliśmy
~ przyjmuja̧ konkretna̧ wartość θ
~0 .
jeżeli parametry θ
Jeżeli próba jest prosta, tzn. pomiary xi , i = 1, .., n sa̧ niezależne to szukane
prawdopodobieństwo próby równe jest iloczynowi prawdopodobieństw warunkowych
poszczególnych pomiarów. Dla zmiennej cia̧gÃlej X możemy opuścić iloczyn różniczek
dx1 ...dxn i zapisać jedynie iloczyn gȩstości prawdopodobieństw:
~0 ) =
L(θ
n
Y
i=1
¯
¯
~0 ) .
f (xi ¯θ
To prawdopodobieństwo (dla zmiennej dyskretnej) lub gȩstość prawdopodobieństwa
(dla zmiennej cia̧gÃlej) możemy potraktować jako funkcjȩ szukanych parametrów.
Funkcjȩ tȩ nazywamy funkcja̧ wiarygodności.
~ , która zapewnia maksimum funkcji wiary• Znajdujemy taka̧ wartość parametrów θ
godności:
~ = max .
L(θ)
Te dwa warunki sÃluża̧ jako przepis na szukanie optymalnych w sensie metody najwiȩkszej
wiarygodności estymatorów.
Ponieważ szukanie maksimum funkcji wiarygodności wymaga zwykle różniczkowania po parametrach wiȩc bȩdziemy mieć do czynienia z różniczkowaniem iloczynu co
prowadzi do dość skomplikowanych rachunków. Aby uÃlatwić różniczkowanie standardowo
zamienia siȩ funkcjȩ wiarygodności przez jej logarytm co powoduje, że zamiast
różniczkowania iloczynu należy różniczkować sumȩ a poÃlożenie maksimum w przestrzeni
parametrów jest takie samo gdyż logarytm jest funkcja̧ monotoniczna̧ oraz
³
∂ ln(L)
∂θi
≡
@L
@i
L
´
ma taki sam znak jak
∂L
∂θi
(L jest wiȩksze od zera ).
Logarytm z funkcji wiarygodności oznaczany jest zwykle przez maÃla̧ literȩ l.
41
l ≡ ln(L)
(chociaż stosuje siȩ również oznaczenie przez duże L) i nazywany jest “logarytmiczna̧
funkcja̧ wiarygodności” a czasem również “funkcja̧ wiarygodności”.
PRZYKÃLAD:
Dla rozkÃladu normalnego N (θ1 ,θ2 ) :
(
1
f (x) = √
exp −
2π θ2
(x − θ1 )2
)
2θ22
wiȩc funkcja wiarygodności:
L(θ1 , θ2 ) =
(
1
n
(2π) 2 θ2n
exp −
n
1 X
2θ22 i=1
)
(xi − θ1 )2
a logarytmiczna funkcja wiarygodności:
n
1 X
1
l = −n ln((2π) 2 ) − n ln(θ2 ) −
2θ22 i=1
(xi −θ1 )2
Różniczkuja̧c po parametrach dostajemy ukÃlad równań na parametry:

n
1 P
@l


(xi − θ1 ) = 0
 @1 = 2
2 i=1
n

@l
n
1 P

(xi − θ1 )2 = 0
 @ = − + 3
2
2
2
i=1
Rozwia̧zanie pierwszego równania daje estymator Tn (θ1 ):
Tn (θ1 ) =
n
1X
n i=1
xi
czyli średnia̧ arytmetyczna̧ x̄, a przeksztaÃlcaja̧c drugie równanie można napisać tak:
n=
n
1 X
θ22 i=1
(xi − Tn (θ1 )2
czyli
Tn (θ22 )
=
n
1X
n i=1
(xi − x̄)2
42
a to jest znany nam estymator wariancji zmiennej x oznaczany symbolem s2 (x).
Jak widać metoda najwiȩkszej wiarygodności daÃla w tym przypadku dokÃladnie te same
estymatory co metoda momentów.
Zanim podamy wÃlasności estymatorów MNW wprowadzimy definicjȩ rozkÃladu regularnego i estymatorów regularnych.
Mówimy, że rozkÃlad f (X, θ) jest rozkÃladem regularnym gdy caÃlkowanie wzglȩdem x i
różniczkowanie wzglȩdem θ sa̧ przemienne i istnieja̧ wyrażenia:
+1
@ R dx f (x|θ) =
@ 1
1
dx f (x|θ)
1n
o
≡ E @ ln f (xj)
≡
+R
1 @f (xj)
dx @
1
@ ln f (xj)
+R
@
@
oraz
+1
+1
@ 2 R dx f (x|θ) = R dx @ 2 f (xj)
2
@ 1
@2
1
i2
h
1
+R1
f (xj)
≡
dx f (x|θ) @ ln@f (xj) +
dx f (x|θ) @ ln @
1n
1
¾
½
i2
o
h
≡ E @ ln f (xj) + E @ ln f (xj)
≡
+R
2
2
2
@2
@
Estymator parametru θ rozkÃladu regularnego nazywamy estymatorem regularnym.
Gdy zmienna X jest dyskretna to w powyższych wzorach należy funkcje gȩstości prawdopodobieństwa zasta̧pić prawdopodobieństwem i caÃlki sumami.
UWAGA:
Ze wzglȩdu na warunek normalizacji gȩstości prawdopodobieństwa
1
dx f (x|θ)
1
+R
= 1
oba wyrażenia wypisane w definicji rozkÃladu regularnego sa̧ równe zero.
TWIERDZENIE
Jeżeli funkcja gȩstości prawdopodobieństwa f (X|θ) (lub rozkÃlad prawdopodobieństwa
p(X|θ) ) sa̧ rozkÃladami regularnymi i parametr θ jest szacowany na podstawie próby
prostej to estymator Tn (θ) otrzymany przy pomocy MNW ma dla rozmiarów próby
“n” da̧ża̧cych do nieskończoności nastȩpuja̧ce wÃlasności:
• jest zgodny
• jego asymptotyczny rozkÃlad jest normalny
43
– z wartościa̧ oczekiwana̧
E{Tn (θ)}=θ
"
2
– i wariancja̧
σ (Tn (θ))=− n
1 ³ @ ln f (X j) ´2
@
1
+R
# 1
f (X|θ) dX
Można pokazać (jest to treścia̧ tzw. nierówności Cramera-Rao), że wyrażenie powyższe
jest dolna̧ granica̧ wariancji dla nieobcia̧żonego estymatora regularnego a
wiȩc
MNW daje estymatory:
- zgodne,
- asymptotycznie nieobcia̧żone,
- asymptotycznie najbardziej efektywne
Dla skończonych rozmiarów próby i regularnych rozkÃladów MNW daje estymatory zgodne ale moga̧ być one obcia̧żone i moga̧ nie być najbardziej efektywne. O ich
efektywności można wnioskować na podstawie twierdzenia Cramera-Rao zwanego również
nierównościa̧ informacyjna̧:
TWIERDZENIE Cramera-Rao:
Wariancja regularnego estymatora Tn (θ) speÃlnia nierówność

 1
)
!2
+
Z 1Ã
∂B(θ) 
∂ ln f (X|θ)

f (X|θ) dX 
1+
n
(
σ 2 (Tn (θ)) ≥
∂θ
1
∂θ
gdzie
B(θ) ≡ E{Tn (θ)} − θ
jest obcia̧żeniem estymatora.
Wyrażenie w nawiasie kwadratowym nazywane jest informacja̧ o parametrze θ zawarta̧ w próbie (R.A. Fisher) - sta̧d nazwa nierówności.
Wyrażenie to zostaÃlo tak nazwane gdyż posiada wÃlasności, których wymagamy od informacji:
• zwiȩksza siȩ wraz z liczba̧ obserwacji,
• zależy od tego czego chcemy siȩ dowiedzieć (od parametru θ i jego zwia̧zku z mierzonymi wielkościami),
• zwia̧zana jest z dokÃladnościa̧ (im wiȩksza informacja tym lepsza dokÃladność określenia
wartości parametru)
44
TWIERDZENIE
Minimalna̧ wariancjȩ estymatora regularnego (równość w twierdzeniu Cramera-Rao)
Tn (τ (θ)) pewnej funkcji τ (θ) interesuja̧cego nas parametru θ :
´¯
¯³
¯ @ () ¯
¯
¯
σ 2 (Tn (τ (θ)) = ¯¯ @ ¯¯
¯ F (θ) ¯
uzyskuje siȩ dla skończonych rozmiarów próby “n” wtedy gdy pochodna cza̧stkowa
funkcji wiarygodności speÃlnia nastȩpuja̧ca̧ relacjȩ:
∂ ln L
∂θ
= F (θ) ( Tn (τ (θ)) − τ (θ))
gdzie F(θ) jest pewna̧ funkcja̧ parametru θ ale nie zależy od pomiarów ~
x.
°
Funkcja wiarygodności ma wtedy nastȩpuja̧ca̧ postać:
L(~
x|θ ) = exp { A(θ) B(~
x) + C(~
x) + D(θ) }
gdzie “A” i “D” sa̧ funkcjami θ (A jest caÃlka̧ po dθ z F (θ) ) a “B” i “C” sa̧ funkcjami
zespoÃlu pomiarów (próby).
Porównuja̧c wzór na wariancjȩ estymatora Tn (τ (θ)) z nierównościa̧ Cramera-Rao
widać natychmiast, że:
• F (θ) to informacja z próby o funkcji τ (θ),
• gdy τ (θ)=θ to wariancja wynosi 1/F (θ),
• istnieje tylko jedna funkcja parametru θ , dla której osia̧gana jest minimalna wariancja estymatora określona nierównościa̧ Cramera-Rao czyli taka funkcja Tn (τ (θ))
od której liniowo zależy pochodna po parametrze θ z logarytmicznej funkcji wiarygodności.
PRZYKÃLAD: Jeżeli parametrem θ jest odchylenie standardowe rozkÃladu normalnego
σ(x) to tylko estymator wariancji σ 2 (x) , tzn. estymator s2 (x) ma minimalna̧ wariancjȩ
a estymator s(x) już tej wÃlasności nie posiada. Widać to ze wzoru wyprowadzonego w
przykÃladzie zastosowania MNW:
∂l
∂θ2
=−
n
θ2
+
n
1 X
θ23 i=1
(xi − θ1 )2 = 0
n
P
(xi − θ1 )2 a nie z
Pochodna po θ2 jest liniowo zwia̧zana z funkcja̧ s2 (x) ≡ n1
i=1
estymatorem odchylenia standardowego s(x), który jest pierwiastkiem z tego wyrażenia.
9.3
45
METODA NAJMNIEJSZYCH KWADRATÓW (“MNK”)
Za autora metody najmniejszych kwadratów uważa siȩ K. Gaussa.
Idea metody:
Szukamy estymatora Tn (θ) parametru θ wystȩpuja̧cego we wzorze:
g(Y, θ) = 0,
który może być ściśle speÃlniony tylko w wyidealizowanym przypadku, gdy mierzone doświadczalnie
wielkosci Yi nie sa̧ obarczone bÃlȩdami. W obecności bÃlȩdów tak dobieramy parametr θ
(może być ich wiȩcej) aby funkcja “g” zbliżyÃla siȩ do zera tak bardzo jak to tylko jest
możliwe, tj. ża̧damy speÃlnienia warunku:
n
X
i=1
[g(Yi , θ)]2 = min
a w najogólniejszym przypadku (wÃla̧czaja̧c wagi pomiarów “w i ”) warunku:
n
X
i=1
wi · [g(Yi , θ)]2 = min .
PRZYKÃLAD:
Szukamy prawdziwej wartości wielkości Y mierzonej bezpośrednio. Gdyby nie byÃlo blȩdów
wówczas:
θ=Y
albo inaczej
g(Y |θ) ≡ Y − θ = 0.
W obecności bÃlȩdów,funkcja g(Y |θ) bȩdzie zwykle różna od zera ale MNK podaje przepis
jak znaleźć estymator Tn (θ):
n
X
i=1
[g(Yi |θ)]2 ≡
n
X
i=1
[Yi − θ]2 = min
Aby znaleźć minimum powyższej funkcji ze wzglȩdu na θ należy przyrównać do zera
pochodna̧ tej funkcji wzglȩdem θ:
−2
n
X
i=1
[Yi − θ] = 0
a wiȩc dostajemy znany nam przepis na estymator wartości oczekiwanej:
46
Tn (θ) =
n
1 X
n i=1
Yi
WÃlasności estymatorów MNK
Estymatory otrzymane MNK nie maja̧ w ogólnym przypadku optymalnych wÃlasności
(nawet asymptotycznie)! Istnieja̧ jednak dwa ważne wyja̧tki od tej reguÃly:
1.) Pomiary Yi maja̧ rozkÃlad normalny i sa̧ nieskorelowane,
2.) Szukane parametry sa̧ wspóÃlczynnikami w liniowej funkcji regresji.
ad 1. Pomiary maja̧ rozkÃlad normalny i sa̧ nieskorelowane Odpowiada to sytuacji, w której zmienna Y może być przedstawiona nastȩpuja̧co:
~ +ε
Yi = h(Xi , θ)
gdzie ε to bÃla̧d przypadkowy.
Wtedy funkcja wiarygodności ma nastȩpuja̧ca̧ postać:
~ =
L(Y1 , .., Yn |θ)



n
Y
³
1
√
exp −


i=1 2πσi
´2 


~
Yi − h(Xi , θ)


2σi2
a logarytmiczna funkcja wiarygodności:
1
³
´
n
X
~ = − n ln 2πσ 2 −
l(Y1 , .., Yn |θ)
i
2
i=1
³
´2
~
Yi − h(Xi , θ)
2σi2
Funkcja ta bȩdzie miaÃla maksimum (ujemne !) gdy suma kwadratów bȩdzie najmniejsza. A wiȩc metoda najmniejszych kwadratów jest wtedy równoważna metodzie
najwiȩkszej wiarygodności, która zapewnia optymalnośc otrzymywanych estymatorów.
ad 2. Funkcja regresji jest liniowa ze wzglȩdu na szukane parametry Zmienna
Y zależy wtedy od zmiennej X w nastȩpuja̧cy sposób:
Yi =
k
X
j =1
θj · fj (Xi )
47
gdzie fj (X) jest dowolna̧ funkcja̧.
Markow udowodniÃl , że w takiej sytuacji estymatory parametrów posiadaja̧ bardzo
dobre wÃlasności:
• sa̧ nieobcia̧żone
• sa̧ najbardziej efektywne
• sa̧ liniowymi funkcjami pomiarów Y1 , ..., Yn .
Te wÃlasności nie zależa̧ od rozkÃladu zmiennej Y i speÃlnione sa̧ nawet
dla niewielkich prób.
Linowy (ze wzglȩdu na parametry) model funkcji regresji jest bardzo czȩsto stosowany
w praktyce, ponieważ obok optymalnych wÃlasności estymatorów parametrów zapewnia
możliwość ścisÃlego rozwia̧zania równań określaja̧cych estymatory parametrów a wiȩc możliwość
znalezienia jawnych wzorów na estymatory. Tego prawie nigdy nie da siȩ zrobić w przypadku pierwszym, tzn. gdy zależność od parametrów jest nieliniowa. Zapiszemy warunek
metody najmniejszych kwadratów macierzowo stosuja̧c nastȩpuja̧ce oznaczenia:
Aij ≡ fj (xi ) i = 1, .., n j = 1, .., r
Bij i = 1, .., n j = 1, .., n
Yi i = 1, .., n
θi i = 1, .., r
gdzie Aij to macierz wartości funkcji fj (xi ), Bi;j to macierz wag zwykle brana jako
odwrócona macierz kowariancji pomiarów {cov(yi ,yj )} 1 , Yi - wektor pomiarów, θi wektor parametrów. Wtedy minimalizowana suma kwadratów może być zapisana w taki
sposób:
~ T · B · (Y
~
~ − A · θ)
~ − A · θ)
Q2 = ( Y
a pochodne wzglȩdem parametrów nastȩpuja̧co (i=1,...,r):
∂Q2
∂θi
n
~
~ − A · θ)
= −2AT · B · (Y
o
i
= 0·
ZespóÃl r powyższych równań można zapisać macierzowo i rozwia̧zać formalnie:
~ =0
~ − A · θ)
AT · B · (Y
T
T
~
~ =A ·B·A·θ
A ·B·Y
a mnoża̧c lewostronnie przez macierz odwrotna̧ do AT BA, dostaniemy estymatory
parametrów liniowej funkcji regresji :
h
~ = AT · B · A
Tn (θ)
i 1
~
AT · B · Y
48
Jest to dokÃladne i jedyne rozwia̧zanie (pod warunkiem, że macierz AT BA jest nieosobliwa)
Z powyższego wzoru widać, że estymatory parametrów sa̧ liniowymi funkcjami wartości
pomiarów Y1 , ..., Yn co pozwala ściśle wyrazić macierz kowariancji estymatorów parametrów
~ ) stosuja̧c wzór wyprowad(a wiȩc i ich bÃlȩdy) przez macierz kowariancji pomiarów C(Y
zony dla “propagacji bÃlȩdów”. Gdy przyjmiemy macierz wag B jako macierz odwrotna̧ do
~ ) to uzyskamy wyja̧tkowo prosta̧ formȩ macierzy kowariancji estymatorów parametrów.
C(Y
~
C(Tn (θ))
=
=
=
=
=
=
½h
½h
AT BA
i 1
AT B
AT BA
i 1
AT B
h
i 1
h
i 1
AT BA
AT BA
³h
AT BA
h
¾
~)·
· C(Y
¾
·B
AT · BB
1
1
·
½h
AT BA
½h
AT BA
· BT A
· AT BA ·
i 1
µh
AT BA
i µh
h
i 1
iT
AT BA
AT B
AT B
¾T
¾T
i 1 ¶T
¶ 1
i´ 1
~)
AT C(Y
1
A
i 1
Ostatecznie macierz kowariancji estymatorów parametrów :
h
~ = AT C(Y
~)
C(Tn (θ))
1
A
i 1
Warto zauważyć, że
• Ten wynik jest ścisÃly
• Powyższa macierz jest wyliczana dla znalezienia estymatorów parametrów bo to jest
macierz {AT BA} 1 wystȩpuja̧ca we wzorze na estymatory.
• Mimo, że wzór jest ścisÃly i prosty to jego wyliczenie czȩsto napotyka na trudności
numeryczne gdyż procedura odwracania macierzy {AT BA} 1 jest źle uwarunkowana numerycznie (maÃle zaokra̧glenia rachunków moga̧ powodować wielkie zmiany
wyników). Dlatego nieco później omówimy metodȩ pozwalaja̧ca̧ na unikniȩcie tego
problemu przez zastosowanie wielomianów ortogonalnych na zbiorze punktów.
10
49
WIELOWYMIAROWE (WEKTOROWE) ZMIENNE LOSOWE
Wielowymiarowa zmienna losowa definiowana jest analogicznie jak jednowymiarowa
(skalarna), tzn. można ja̧ traktować jako wektor, którego skÃladowe sa̧ jednowymiarowymi
zmiennymi losowymi.
Dystrybuanta :
F (x1 , .., xN ) = P (X1 < x1 , ..., XN < xN )
Funkcja gȩstości prawdopodobieństwa:
f (x1 , ..., xN ).dx1 ...dxN = P (x1 ≤ X1 < x1 + dx1 , ..., xN ≤ XN < xN + dxN )
Oprócz funkcji gȩstości prawdopodobieństwa dla caÃlego wektora losowego (X1 , .., XN )
można zdefiniować jeszcze :
• RozkÃlad brzegowy gȩstości prawdopodobieństwa i
• RozkÃlad warunkowy gȩstości prawdopodobieństwa.
Brzegowy rozkÃlad gȩstości prawdopodobieństwa
zmiennej Xi ( i – tej skÃladowej wektora losowego) to wynik wycaÃlkowania funkcji gȩstości
prawdopodobieństwa dla caÃlej wielowymiarowej zmiennej po wszystkich skÃladowych z
wyja̧tkiem Xi :
Z
g(Xi ) =
dx1 ..dxi
1 .dxi+1 ...dxN .f (x1 , ..., xN )
Oczywiście można stworzyć rozkÃlady brzegowe dla dwuwymiarowych zmiennych (jeżeli
N > 2) caÃlkuja̧c po wszystkich zmiennych z wyja̧tkiem tych dwu wybranych,rozkÃlad
brzegowy dla trzywymiarowych (jeżeli N > 3) caÃlkuja̧c po wszystkich z wyja̧tkiem tych
trzech zmiennych, itd. .
50
RozkÃlad warunkowy “fw ” zmiennych (X1 , .., Xi ) pod warunkiem, że zmienne (Xi+1 , .., XN )
przyjmuja̧ wartość w nieskończenie maÃlym przedziale (xi+1 ≤ Xi+1 < xi+1 , .., xN ≤
XN < xN ) definiowany jest nastȩpuja̧co:
fw (x1 , .., xi |xi+1 , .., xN ) =
f (x1 , .., xN )
fb (xi+1 , .., xN )
RozkÃlad ten nie jest określony, gdy rozkÃlad brzegowy wystȩpuja̧cy w mianowniku zeruje
siȩ. Wskaźniki “w” i “b” zostaÃly użyte w tym wzorze aby podkreślić, że postać funkcyjna
tych rozkÃladów jest w ogólności inna niż rozkÃladu f (x1 , .., xN ).
RozkÃlad warunkowy można tworzyć dla różnych zespoÃlów skÃladowych wektora losowego,
np. moglibyśmy zdefiniować rozkÃlad warunkowy pojedynczej zmiennej “XN ” pod warunkiem, że pozostaÃle zmienne przyjmuja̧ określone wartości.
RozkÃlad prawdopodobieństwa wielowymiarowej dyskretnej zmiennej losowej jest
oczywistym uogólnieniem rozkÃladu jednowymiarowego, a brzegowy rozkÃlad prawdopodobieństwa i warunkowy rozkÃlad prawdopodobieństwa tworzy siȩ tak jak ich
odpowiedniki dla zmiennej cia̧gÃlej zastȩpuja̧c caÃlkowanie sumowaniem po wartościach
odpowiednich skÃladowych.
Warto również pamiȩtać, że można tworzyć brzegowa̧ dystrybuantȩ i warunkowa̧
dystrybuantȩ (zarówno dla zmiennej cia̧gÃlej jak i skokowej).
Niezależne zmienne losowe to takie, że rozkÃlad warunkowy jednej zmiennej (może
to być wielowymiarowa zmienna) pod warunkiem, że druga zmienna przyjmuje konkretne
wartości (ta zmienna też może być wielowymiarowa) równy jest rozkÃladowi brzegowemu:
fw (~
x1 |~
x 2 ) = f (~
x1 )
Warunkiem koniecznym i wystarczaja̧cym niezależności zmiennych losowych jest
aby ich wspólna funkcja gȩstości prawdopodobieństwa (dla zmiennej cia̧gÃlej) lub ich
wspólny rozkÃlad prawdopodobieństwa (dla zmiennej dyskretnej) faktoryzowaÃly siȩ tzn.
f (x1 , ...xN ) = f1 (x1 ).f2 (x2 )....fN (xN )
51
PrzykÃlad dla 2-wymiarowej zmiennej losowej:
Wspólna funkcja gȩstości prawdopodobieństwa X1 i X2 jest staÃla (wynosi 1/2) w
kwadracie o wierzchoÃlkach {(-1,0),(0,1),(1,0) i (0,-1)} a zeruje siȩ poza kwadratem.
RozkÃlad brzegowy X1 :

0



 X +1
1
fb (X1 ) =

−X
1 +1



0
dla
dla
dla
dla
X1 ≤ −1
−1 ≤ X1 ≤ 0
0 ≤ X1 ≤ +1
X1 ≥ +1
Jest to rozkÃlad trójka̧tny zwany “rozkÃladem Simpsona”. Można wyobrazić sobie
pogla̧dowo, że w powyższym przykÃladzie liczenie rozkÃladu brzegowego jest równoważne
“zsypywaniu” punktów jednorodnego rozkÃladu w kwadracie na oś X1 co powoduje, że
rozkÃlad brzegowy ma ksztaÃlt trójka̧ta (w kwadracie zmiennych X1 , X2 najwiȩcej punktów
ma wspóÃlrzȩdna̧ X1 bliska̧ zeru a ilość punktów z wiȩkszymi lub mniejszymi wartościami
tej wspóÃlrzȩdnej maleje liniowo.
RozkÃlad warunkowy X1 pod warunkiem X2 .
fw (X1 |X2 ) =
1
2
fb (X2 )
Wzór ten ważny jest dla nastȩpuja̧cego przedziaÃlu zmiennej X1 :
−X2 − 1 ≤ X1 ≤ +X2 + 1 gdy − 1 ≤ X2 ≤ 0
+X2 − 1 ≤ X1 ≤ −X2 + 1 gdy
0 ≤ X2 ≤ +1
Wyznaczanie rozkÃladu warunkowego fw (X1 |X2 ) można sobie wyobrazić jako ogla̧danie
(patrza̧c wzdÃluż osi X2 ) przekroju prostopadÃlościanu przy czym ze wzglȩdu na normalizacjȩ pole tego przekroju musi być równe jedności – sta̧d pojawia siȩ staÃla normalizacyjna
1/fb (X2 ) (różna dla różnych wartości X2 ).
Ponieważ fw (X1 |X2 ) 6= fb (X1 ) to zmienne X1 i X2 sa̧ zależne !
10.1
52
MOMENTY ROZKÃLADU WIELOWYMIAROWEJ
ZMIENNEJ LOSOWEJ
Momentem wielowymiarowej zmiennej losowej X (X1 ,...,XN ) rzȩdu k1 +...+kN wzglȩdem
punktu X0 (X01 ,...,X0N ) nazywamy wielkość zdefiniowana̧ wzorem:
Z
mk1 +:::+kN (X01 , ..., X0N ) =
dX1 ...dXN .f (X1 , ..., XN ).(X 1 −X01 )k1 ...(XN −X0N )kN
Ten wzór jest sÃluszny dla zmiennej cia̧gÃlej a dla dyskretnej trzeba caÃlkȩ zamienić na sumȩ
i funkcjȩ gȩstości prawdopodobieństwa na rozkÃlad prawdopodobieństwa.
Najważniejsze momenty dla celów analizy statystycznej danych to:
Wartość oczekiwana czyli pierwszy moment wzglȩdem pocza̧tku ukÃladu wspóÃlrzȩdnych:
~ = (m10:::0 (0, .., 0), ..., m0:::01 (0, ..., 0))
E{X}
czyli
~ = (E{X1 }, E{X2 }, ...E{XN })
E{X}
Wariancja czyli drugi moment wzglȩdem wartości oczekiwanej:
var{X1 } = m20:::0 (E{X1 }, ..., E{XN })
.............
var{XN } = m00:::2 (E{X1 }, ..., E{XN })
Kowariancja czyli drugi moment mieszany wzglȩdem wartości oczekiwanej:
cov{X1 , X2 } = m1100::0 (E{X1 }, .., E{XN }),
cov{X1 , X3 } = m1010::0 (E{X1 }, .., E{XN }),
.....
53
Ponieważ wariancjȩ można uważać za kowariancjȩ policzona̧ dla dwukrotnie powtórzonej
zmiennej: var{Xi } = cov{Xi , Xi } to wygodnie jest zgromadzić wariancje i kowariancje
w jeden zespóÃl wielkości zwany macierza̧ kowariancji. Na gÃlównej przeka̧tnej macierzy
znajduja̧ siȩ wariancje a poza przeka̧tna̧ kowariancje. Macierz kowariancji jest: rzeczywista, symetryczna i dodatnio określona. Można ja̧ wiȩc zawsze zdiagonalizować
przez liniowa̧ transformacjȩ zmiennych pozostawiaja̧c jedynie wariancje na diagonali.
Czȩsto zamiast macierzy kowariancji tworzy siȩ macierz korelacji.
Macierz ta skÃlada siȩ ze wspóÃlczynników korelacji ρ(Xi ,Xj ) zdefiniowanych nastȩpuja̧co:
cov{Xi , Xj }
ρ(Xi , Xj ) = q
var{Xi }.var{Xj }
Oczywiście diagonalne elementy macierzy korelacji to jedynki a pozadiagonalne to odpowiednie wspóÃlczynniki korelacji.
WÃlasności wspóÃlczynnika korelacji
° WspóÃlczynnik korelacji przyjmuje wartości z przedziaÃlu [-1,+1]
° Jeżeli zmienne sa̧ niezależne to wspóÃlczynnik korelacji jest równy zero.
° Gdy wspóÃlczynnik korelacji równy jest zero (mówimy wtedy, że zmienne sa̧
nieskorelowane) to zmienne sa̧ niezależne liniowo ale moga̧ być zależne i to nawet
funkcyjnie.
° Jeżeli zmienne X i Y sa̧ zwia̧zane funkcyjnym zwia̧zkiem liniowym; Y=
aX+b to wspóÃlczynnik korelacji jest równy jedności co do moduÃlu a jego znak jest taki
sam jak znak wspóÃlczynnika kierunkowego prostej.
° Jeżeli moduÃl wspóÃlczynnika korelacji jest równy jedności to X i Y zwia̧zane
sa̧ funkcyjnym zwia̧zkiem liniowym Y= aX+b a znak wspóÃlczynnika kierunkowego prostej
jest taki sam jak znak wspóÃlczynnika korelacji.
Estymator wspóÃlczynnika korelacji Tn (ρ(X, Y )) ≡,,r” (symbole x̄ i ȳ oznaczaja̧ średnie
arytmetyczne pomiarów):
n
P
(xi − x̄)(yi − ȳ)
i=1
r ≡ Tn (ρ(X, Y )) = v
!
uµ
¶Ã n
n
u P
P
2
2
t
(xi − x̄)
(yj − ȳ)
i=1
j =1
54
Interpretacja kwadratu estymatora ,,r2 ”
Można pokazać, że kwadrat estymatora wspóÃlczynnika korelacji pokazuje na ile dobre jest
przybliżenie liniowe zależności y(x) czyli jak dobra jest regresja drugiego rodzaju (patrz
niżej).
P
(axi + b − ȳ)2
r2 = i P
i
(yi − ȳ)2
Wyrażenie w liczniku to tzw. wyjaśniona przez regresjȩ suma kwadratów a wyrażenie w
mianowniku to caÃlkowita suma kwadratów. Jak widać im bliższy jedności jest kwadrat
estymatora wspóÃlczynnika korelacji tym lepszym przybliżeniem zależności y(x) jest linia
prosta. Zwykle uważa siȩ, że przybliżenie jest dobre gdy wartości r 2 sa̧ bliskie 0.9 ale w
praktyce sami musimy zdecydować, czy odchylenia rzȩdu 10% sa̧ już zadowalaja̧co maÃle.
Regresja̧ (lub regresja̧ pierwszego rodzaju ) zmiennej Y wzglȩdem X nazywamy warunkowa̧
wartość oczekiwana̧ E{Y |X} traktowana̧ jako funkcja zmiennej X. Oczywiście warunkowa̧
wartość oczekiwana̧ E{X|Y } nazywamy regresja̧ pierwszego rodzaju zmiennej X wzglȩdem
Y.
Podstawowa wÃlasność funkcji regresji E{Y |X}: polega na tym, że wartość oczekiwana
kwadratu odchyleń zmiennej losowej Y od dowolnej funkcji u(X) jest minimalna, gdy jako
tȩ funkcjȩ przyjmiemy funkcjȩ regresji E{Y |X}:
n
o
n
E (Y − u(X))2 ≥ E (Y − E{Y |X})2
Dowód:
n
o
o
R
E (Y − u(X))2 = dX · dY · f (X, Y ) · (Y − u(X))2
R
R
= dX · f1 (X) dY · f2 (Y |X) · (Y − u(X))2
Wewnȩtrzna caÃlka jest wartościa̧ oczekiwana̧ kwadratu odchylenia zmiennej Y od pewnej
staÃlej (u(X) jest staÃla̧ jeżeli idzie o caÃlkowanie wzglȩdem zmiennej Y). Możemy wiȩc
zapisać tȩ caÃlkȩ nastȩpuja̧co (oznaczamy u(X) ≡ c):
R
dY · f2 (Y |X) · (Y − u(X))2 =
= E{(Y − c)2 } =
= E{(Y − E{Y } + E{Y } − c)2 =
= E{(Y − E{Y })2 + 2(Y − E{Y })(E{Y } − c) + (E{Y } − c)2 } =
= E{(Y − E{Y })2 } + 2E{Y − E{Y })(E{Y } − c) + E{(E{Y } − c)2 } =
= E{(Y − E{Y })2 + 0 + E{(E{Y } − c)2 }.
55
Drugi wyraz znikna̧Ãl bo E{Y-E{Y}} ≡ 0 a pozostaÃla suma wartości oczekiwanych z
kwadratów (Y-E{Y})2 i (E{Y}-c)2 bȩdzie miaÃla minimum gdy E{Y } ≡ c tj. E{Y } =
E{Y |X}.
c.b.d.o.
UWAGI:
• W tym wyprowadzeniu oczywiście należy odczytywać E{Y} jako warunkowa̧ wartość
oczekiwana̧, tj. E{Y|X} a staÃla̧ c jako dowolna̧ funkcjȩ u(X).
• Metoda estymacji parametrów oparta na omówionej powyżej wÃlasności funkcji regresji nazywana jest metoda̧ najmniejszych kwadratów
Regresja liniowa zwana również regresja̧ drugiego rodzaju to linia prosta przybliżaja̧ca
zależność regresji E{Y|X} od X, przy czym parametry tej prostej dobiera siȩ tak aby byÃla
speÃlniona podstawowa wÃlasność regresji tzn. aby wartość oczekiwana sumy kwadratów
odchyleń wartości Y od linii prostej byÃla minimalna.
W szczególnym przypadku dwuwymiarowego rozkÃladu normalnego funkcja regresji E{Y|X}
jest linia̧ prosta̧ a wiȩc funkcja regresji drugiego rodzaju jest również funkcja̧ regresji pierwszego rodzaju.
Regresja krzywoliniowa to funkcja nieliniowa argumentu X przybliżaja̧ca regresjȩ E{Y|X}
przy czym parametry funkcji dobierane sa̧ metoda̧ najmniejszych kwadratów. W tym
przypadku należy rozróżnić dwie sytuacje:
• Parametry wchodza̧ liniowo do funkcji, np. przybliżenie E{Y|X} przez szereg wielomianów lub innych funkcji tworza̧cych ukÃlad zupeÃlny. Odpowiada to tzw.
liniowej metodzie najmniejszych kwadratów i pozwala znaleźć wartości parametrów
jako rozwia̧zania ukÃladu równań liniowych przy czym dla unikniȩcia niestabilności
numerycznych zalecane jest stosowanie funkcji, które sa̧ ortogonalne na danym odcinku lub na zbiorze wartości zmiennej X.
W szczególności można posÃlużyć siȩ
wielomianami ortogonalnymi na zbiorze wartości zmiennej X.
• Parametry wchodza̧ nieliniowo do formuÃl. Wtedy optymalne wartości parametrów sa̧
rozwia̧zaniami ukÃladu równań nieliniowych, które rozwia̧zuje siȩ różnymi sposobami.
Jedna̧ z popularnych metod jest szukanie rozwia̧zań iteracyjnie znajduja̧c w kolejnych iteracjach poprawki do startowych parametrów w sposób analogiczny jak dla
liniowego przypadku metody najmniejszych kwadratów. Osia̧ga siȩ to rozwijaja̧c
nieliniowa̧ formuÃlȩ w szereg Taylora dokoÃla startowych wartości parametrów i obcina
siȩ szereg na wyrazach liniowych. Dla zapewnienia zbieżności procedury iteracyjnej
uzupeÃlnia siȩ tȩ metodȩ o szereg pragmatycznych reguÃl przyśpieszaja̧cych zbieżność
i określaja̧cych kiedy należy przerwać poszukiwanie wartości parametrów.
10.2
56
ESTYMACJA PUNKTOWA WARTOŚCI OCZEKIWANEJ
~ (X)}
~
~ (X)
~
E{Y
I MACIERZY KOWARIANCJI Y
Estymator wartości oczekiwanej:
~ )} = Y
~ (Tn {E(X1 )}, Tn {E(X2 )}, ..Tn {E(Xn )})
Tn {E(Y
Estymator macierzy kowariancji:
Tn {cov(Yk , Yq )} =
X
Ã
i;j
∂Yk
!
Ã
∂Yq
!
∂Xi ~x=E (~x) ∂Xj ~x=E (~x)
Tn {cov(Xi , Xj )}
W powyższych wzorach wartości oczekiwane E{Xi } oraz cov{Xi ,Xj } sa̧ zastȩpowane
swoimi estymatorami , tzn. odpowiednimi średnimi arytmetycznymi oraz esty~
matorem kowariancji wektora X:
Tn (cov{Xi , Xj }) =
1
n
X
n − 1 k=1
((Xi )k − X̄i )((Xj )k − X̄j )
Symbol (Xi )k oznacza ”k-ty”pomiar zmiennej Xi .
Wprowadzaja̧c oznaczenia macierzowe:
Cij (X) = Tn {cov{Xi , Xj }}
Cij (Y ³) = T´n {cov{Yi , Yj }}
@Yi
Tij = @X
j
~x=E f~xg
~ przez estymator kowariancji zmiennej
możemy wyrazić estymator kowariancji zmiennej Y
~ w nastȩpuja̧cy sposób (nazywany propagacja̧ bÃlȩdów):
X
C(Y ) = T C(X)T T
57
Wyprowadzenie:
~ dokoÃla wektora E{X}
~ obcinaja̧c
• Rozwijamy w szereg Taylora skÃladowe wektora Y
rozwiniȩcie na wyrazach liniowych
~ + Pj ( @Yi ) · (Xj − E{Xj }).
Yi ≈ Yi (E{X})
@Xj
~ − E{X}
~ tożsamościowo znika wiȩc
• Ponieważ wartość oczekiwana z różnicy X
~
~
wartość oczekiwana wektora Y równa jest Y (E{X}), tzn. dostajemy podany
~
wyżej wzór na wartość oczekiwana̧ Y (E{X}).
~ } otrzymujemy wstawiaja̧c estymatory
Estymator wartości oczekiwanej E{Y
~ .
(średnie arytmetyczne) zamiast skÃladowych wektora E{X}
P @Yi
~
• Z tego również wynika, że Yi − Yi (E{X})
= j ( @X
) · (Xj − E{Xj })
j
a wiȩc kowariancja Yk i Yq , która jest wartościa̧ oczekiwana̧
E{(Yk − E{Yk }) · (Yq − E{Yq })}
liczona jest jako wartość oczekiwana iloczynu analogicznych sum zawieraja̧cych
pochodne i wyrażenia Xj −E{Xj } co po prostym przeliczeniu daje powyższy wzór .
Estymator kowariancji otrzymujemy zastȩpuja̧c wartości oczekiwane przez odpowiednie średnie arytmetyczne a także licza̧c wartości pochodnych cza̧stkowych nie dla
wartości oczekiwanych Yi ale dla odpowiednich średnich arytmetycznych.
~
Gdy zmienne Xi , i = 1, ..n sa̧ niezależne macierz kowariancji skÃladowych wektora X
jest diagonalna czyli pozostaja̧ niezerowe jedynie wariancje:
cov{Xi , Xj } = δij · var{Xi }
Wzór na kowariancjȩ cov(Yk , Yq ) gdy Xi , i = 1, ..n sa̧ niezależne sprowadza siȩ do
poniższej postaci:
cov(Yk , Yq ) =
Ã
X
i
∂Yk
!
Ã
∂Yq
!
∂Xi ~x=E (~x) ∂Xi ~x=E (~x)
var(Xi )
co w szczególności daje znany nam wzór na bÃla̧d średni kwadratowy :
q
σ(Yk ) ≡
v
u
uX Ã ∂Y !2
k
u
var(Yk ) = t i
∂Xi
~x=E (~x)
var(Xi )
58
Należy pamiȩtać, że
• BÃla̧d średni kwadratowy Yk może być policzony wg wzoru powyżej (bez kowariancji)
tylko wtedy gdy zmienne Xi sa̧ niezależne. W praktyce E(Xi ) zastȩpowana
jest przez średnia̧ arytmetyczna̧ X̄i a var(Xj ) przez kwadrat bÃlȩdu średniej arytmetycznej (a nie samej zmiennej Xi ).
• Macierz kowariancji zmiennych Yi , i=1,..n jest zwykle niediagonalna
nawet wtedy gdy zmienne Xi sa̧ niezależne (macierz kowariancji Xi jest diagonalna) czyli zmienne Yi , i=1,..n sa̧ zwykle zależne. Jeżeli wiȩc bȩdziemy chcieli
~ który jest z kolei funkcja̧ wektora
znaleźć macierz kowariancji wektora losowego Z,
~ to musimy korzystać z ogólnego wzoru zawieraja̧cego kowariancje (zastȩpuja̧c
Y
~ przez Z
~ aX
~ przez Y
~ ).
oczywiście Y
• Wzory powyższe sa̧ wzorami przybliżonymi , tzn. na tyle sa̧ dobre na ile rozwiniȩcie
~ (X)
~ w szereg Taylora dokoÃla E{X}
~ z obciȩciem na liniowych wyrazach jest doY
~ (X).
~
brym przybliżeniem funkcji Y
Mimo to praktycznie wszȩdzie stosuje siȩ te wzory , czȩsto zapominaja̧c o
~ i X.
~
tym, że sa̧ one ścisÃle tylko dla liniowego zwia̧zku pomiȩdzy Y
10.3
59
REGRESJA LINIOWA
Definicja regresji liniowej byÃla już omawiana powyżej ale powtórzymy ja̧ dla przypomnienia:
DEFINICJA
Regresja liniowa zmiennej Y wzglȩdem zmiennej X to linia prosta
Y =a·X +b
z parametrami a i b dobranymi tak aby minimalizować sumȩ kwadratów odchyleń wspóÃlrzȩdnych
(yi , i = 1, 2, ..n) zespoÃlu n punktów o wspóÃlrzȩdnych (x1 , y1 ),(x2 , y2 ),... (xn , yn ) od
tej linii:
Q2 =
n
X
i=1
(yi − a · xi − b)2
UWAGA:
Regresja liniowa X wzglȩdem Y tj. prosta X = c · Y + d pokrywa siȩ z regresja̧ liniowa̧
Y wzglȩdem X tj. prosta̧ Y = a · X + b znaleziona̧ dla tego samego zespoÃlu punktów
doświadczalnych tylko wtedy gdy zwia̧zek pomiȩdzy X i Y jest funkcyjnym zwia̧zkiem
liniowym (a nie zależnościa̧ statystyczna̧).
Rozważymy tu specyficzna̧ sytuacjȩ polegaja̧ca̧ na tym, że:
• zmienna X ma zaniedbywalnie maÃle bÃlȩdy
(mówimy wtedy, że X jest zmienna̧ kontrolowana̧)
• bÃla̧d zmiennej Y jest taki sam dla wszystkich punktów i wynosi σ(Y ).
Wtedy dostajemy proste, analityczne wzory na estymatory parametrów regresji:
P
P
P
P
( i xi 2 ) · ( i yi ) − ( i xi ) · ( i xi · yi )
Tn (b) =
W
P
P
P
n · ( i xi · yi ) − ( i xi ) · ( i yi )
Tn (a) =
XW
X
2
W ≡ n·
x i − ( x i )2
i
i
60
Wskaźnik sumowania i przebiega wartości od 1 do n.
BÃlȩdy estymatorów parametrów a i b również wyrażaja̧ siȩ analitycznymi wzorami:
sP
s
Tn (σ(a)) = σ(Y ) ·
2
i xi
Tn (σ(b)) = σ(Y ) ·
W
n
W
Możemy również podać wzór na bÃla̧d wartości Y przewidzianej przez liniȩ regresji
(zależny od x):
Tn (σ(Y (x))) =
v
u
u1
(x − x)2
σ(Y ) · t + P
n
(x − x)2
i
i
• Tn (σ(Y (x))) to estymator bÃlȩdu wartości Y (x) przewidzianej przez regresjȩ,
• σ(Y ) to bÃla̧d pomiaru wspóÃlrzȩdnej Yi z zaÃlożenia taki sam dla wszystkich punktów.
Gdy go nie znamy wpisujemy tu (i do wzorów na bÃlȩdy parametrów ’a’ i ’b’) estymator Tn (σ(Y )),
• x to średnia arytmetyczna wartości zmiennej kontrolowanej wyliczona ze wspóÃlrzȩdnych
punktów x1 , x2 , ...xn ,
• x - to wartość zmiennej kontrolowanej X, dla której wyliczamy wartość regresji
liniowej Y (x) i estymator bÃlȩdu regresji liniowej Tn (σ(Y (x))).
UWAGA: Aby podja̧ć decyzjȩ, czy regresja liniowa zadawalaja̧co dobrze odtwarza zależność
y od x można zastosować jedna̧ wymienionych poniżej metod:
• Przy poprawnym odtwarzaniu zależności y(x) przez prosta̧ regresji y = a · x + b
wielkość Q2 ma rozkÃlad chi - kwadrat o n − 2 stopniach swobody a wiȩc jej wartość
oczekiwana i odchylenie standardowe speÃlniaja̧ nastȩpuja̧ce relacje:
E{Q2 } q
=n−2
2
σ{Q } = 2(n − 2)
61
• WspóÃlczynnik korelacji zmiennych x i y powinien być równy jeden (co do moduÃlu),
a wiȩc można sprawdzać hipotezȩ statystyczna̧ H0 : E{r} = 1
lub H0 : E{r 2 } = 1, gdzie r jest estymatorem wspóÃlczynnika korelacji x i y.
• Można zastosować tzw. analizȩ wariancji. Zarówno ten jak i poprzedni sposób
zostanie omówiony przy okazji badania hipotez statytsycznych.
10.4
62
REGRESJA PRZY POMOCY WIELOMIANÓW ORTOGONALNYCH
Tu omówiona zostanie regresja krzywoliniowa ze wzglȩdu na postać zależności dopasowanych funkcji od argumentu ale liniowa ze wzglȩdu na zależność od dobieranych
parametrów. W takiej sytuacji wartości parametrów można znaleźć przez rozwia̧zanie
ukÃladu równań liniowych (podobnie jak poprzednio dla parametrów linii prostej). Równania
te sa̧ jednakże czȩsto numerycznie niestabilne, tzn. maÃle zmiany wartości wspóÃlczynników
ukÃladu równań powoduja̧ drastyczne zmiany rozwia̧zań. Wygodna̧ metoda̧ unikniȩcia tych
problemów jest zastosowanie wielomianów ortogonalnych.
10.4.1
REGRESJA PRZY POMOCY WIELOMIANÓW ORTOGONALNYCH
NA ZBIORZE WARTOŚCI ZMIENNEJ KONTROLOWANEJ xi , i =
1, ...n
Przedstawiamy zmienna̧ y jako rozwiniȩcie w szereg wielomianów ortogonalnych Pr (x)
na zbiorze wartości argumentów xi , i = 1, ...n:
y(x) =
m
X
r=0
θr · Pr (x)
gdzie
parametry θr , (r = 1, ..., m) należy wyznaczyć metoda̧ najmniejszych kwadratów przyrównuja̧c powyższe wyrażenie na y(x) do zespoÃlu punktów (xi , yi ), (i = 1, 2, ..., n)
a wielomiany Pr (x), (r = 1, 2, ..., m) sa̧ określone przez zbiór wartości argumentu
xi ; (i = 1, 2, .., n) na którym maja̧ być ortogonalne oraz - ewentualnie - przez zbiór wag
wi , (i = 1, 2, ..., n) przypisanych poszczególnym punktom (xi , yi ), (i = 1, 2, ..., n).
Stosowanie wielomianów ortogonalnych ma nastȩpuja̧ce zalety:
1. parametry θr , (r = 1, ..., m) można wyliczyć analitycznie ponieważ pojawiaja̧
siȩ jako wspóÃlczynniki przy wielomianach a wiȩc mamy do czynienia z liniowym
przypadkiem metody najmniejszych kwadratów (MNK).
2. Obliczenie parametrów odbywa siȩ przy pomocy prostych wzorów podanych poniżej.
Nie wymaga to odwracania macierzy - jak to ma miejsce w ogólnym przypadku
ogólnej liniowej MNK. Dziȩki temu unika siȩ problemów numerycznych gdyż odwracanie typowych macierzy pojawiaja̧cych siȩ w MNK jest niestabilna̧ numerycznie
procedura̧.
3. Parametr θr+1 jest wyznaczany niezależnie od parametrów θ1 , θ2 , ...θr , tzn. dodanie nastȩpnego wyrazu do szeregu nie wpÃlywa na parametry przy wielomianach
niższego stopnia). Oznacza to również, że macierz kowariancji estymatorów parametrów θ jest diagonalna.
63
Ortogonalność wielomianów Pr (X) na zbiorze Xi , i = 1, 2, ...n
oznacza speÃlnienie poniższych warunków:
n
X
i=1
Pl (xi ) · Pk (xi ) = 0 dla l 6= k
n
X
[Pl (xi )]2 6= 0
i=1
Powyższe wÃlasności wielomianów ortogonalnych wykorzystujemy nastȩpuja̧co:
Mnożymy równanie określaja̧ce y(x) jako rozwiniȩcie w szereg wielomianów ortogonalnych przez dany wielomian Pk (xi ) i sumujemy po i co dziȩki ortogonalności wielomianów
prowadzi do wzoru:
n
X
i=1
yi · Pk (xi ) = θk
n
X
[Pk (xi )]2
i=1
a wiȩc otrzymujemy analityczny wzór na estymator parametru θk :
n
P
yi · Pk (xi )
Tn (θk ) = i=1
n
P
[Pk (xi )]2
i=1
Oczywiście można wprowadzić wielomiany ortogonalne z pewna̧ waga̧ ’wi ’, które
speÃlniaja̧ równanie analogiczne do wielomianów ortogonalnych z waga̧ jednostkowa̧ określonych
powyżej:
n
X
i=1
wi · Pl (xi ) · Pk (xi ) = 0 dla l 6= k
n
X
i=1
wi · [Pl (xi )]2 6= 0
wtedy
n
P
Tn (θk ) = i=1
n
P
wi · yi · Pk (xi )
i=1
wi · [Pk (xi )]2
64
Jako wagi wi bierze siȩ zwykle kwadraty odwrotności bÃlȩdów mierzonych wielkości Yi ,
gdyż to bardzo upraszcza rachunki:
wi =
1
σ 2 (yi )
Przede wszystkim należy zauważyć, że estymatory parametrów θk zależa̧ liniowo od
danych y1 , y2 , ...yn a wiȩc macierz kowariancji estymatorów można wyliczyć
ściśle stosuja̧c wzór na transformacjȩ macierzy kowariancji (”przenoszenie bÃlȩdów”) znaja̧c macierz kowariancji danych y1 , y2 , ...yn . Co wiȩcej wiadomo,
że macierz kowariancji parametrów jest diagonalna (bo estymator parametru θk jest
wyliczany niezależnie od estymatorów pozostaÃlych parametrów) a wiȩc pozostaje nam
znalezienie wariancji tych estymatorów.
n
P
[wi · Pk (xi )]2 σ 2 (yi )
var(Tn (θk )) = i=1 P
n
[
wi · Pk2 (xi )]2
i=1
Gdy przyjmiemy (tak bȩdziemy robić w nastȩpnych wzorach) wi ≡ 2 (1yi )
to
n
X
i=1
[wi · Pk (xi )]2 · σ 2 (yi ) =
=
n
X
i=1
n
X
i=1
wi2 · Pk2 (xi ) ·
1
wi
wi · Pk2 (xi )
a wiȩc wariancja estymatora parametru θk wyraża siȩ analitycznym wzorem:
var(Tn (θk )) = P
n
i=1
1
wi · Pk2 (xi )
Równie Ãlatwo można (ścisle) znaleźć wariancjȩ (wiȩc i bÃla̧d) formuÃly interpolacyjnej na
y(x):
var(y(x)) =
m
X
r=0
[Pr (x)]2 · var(Tn (θr ))
65
czyli
var(y(x)) =
m
X
r=0
n
P
i=1
[Pr (x)]2
wi · Pr2 (xi )
Jakość dopasowania może być oceniana przez policzenie wartości wyrażenia:
Q2 (m) =
n
X
i=1
wi ·[yi −
m
X
r=0
Tn (θr )·Pr (xi )]2 ,
które przy adekwatności modelu powinno mieć rozkÃlad chi-kwadrat o (n-(m+1)) stopniach
swobody.
Wiedza̧c o tym możemy wartość tego wyrażenia używać jako kryterium doboru najwyższego
2
stopnia wielomianu w rozwiniȩciu (m), gdyż
q wiemy, że Q (m) powinno mieć wartość
oczekiwana̧ równa̧ (n − m − 1) z bÃlȩdem 2(n − m − 1).
Czȩsto zamiast Q2 (m) stosuje siȩ unormowana̧ sumȩ kwadratów odchyleń:
Q2 (m)
n−m−1
.
Wartość oczekiwana tej wielkości jest równa jedności a bÃla̧d
10.4.2
q
2
n m
1
.
KONSTRUKCJA ZESPOÃLU WIELOMIANÓW ORTOGONALNYCH
NA ZBIORZE WARTOŚCI ARGUMENTU
ZakÃladamy, że maja̧ to być wielomiany ortogonalne z wagami w1 , w2 , ...wn na zbiorze
wartości argumentu x1 , x2 , ...xn , posiadaja̧ce jednostkowy wspóÃlczynnik przy najwyższej
potȩdze argumentu x. Można pokazać, że wielomiany ortogonalne P0 (x), P1 (x), ...Pm (x)
speÃlniaja̧ poniższe formuÃly rekurencyjne, które moga̧ być efektywnie zastosowane do ich
wyliczenia:
66
Pr+1 (x) = [x + βr+1 ] · Pr (x) + γr+1 · Pr
n
P
βr+1
wi · Pr2 (xi ) · xi
= − i=1P
n
i=1
n
P
γr+1
i=1
= − P
n
i=1
1 (x)
wi · Pr2 (xi )
wi · Pr2 (xi )
wi · Pr2 1 (xi )
przy czym startowe wielomiany, tzn. P0 (x) i P1 (x) określa siȩ nastȩpuja̧co:
P0 (x) = 1
n
P
wi · x i
P1 (x) = x − i=1P
n
i=1
P
wi
Warto zauważyć, że sumy typu i wi ·Pr2 (xi ) wystȩpuja̧ zarówno w mianowniku wzorów
na γr+2 , βr+1 , Tn (θr ), var(y) jak i w liczniku wzoru na γr+1 . Dziȩki temu przy
programowaniu wzorów można te sumy wykorzystać wielokrotnie.
11
67
METODA MONTE CARLO
Metoda ta polega na przyporza̧dkowaniu problemowi matematycznemu lub przyrodniczemu
równoważnego problemu statystycznego i rozwia̧zaniu go metodami statystyki. Szczególnie
pożyteczna okazaÃla siȩ w przypadkach, gdy szczegóÃly badanego problemu sa̧ zrozumiaÃle
i daÃlyby siȩ rozwia̧zać analitycznie ale rachunki takie sa̧ zbyt czasochÃlonne, np. policzenie caÃlek wielokrotnych gdy wymiar przestrzeni caÃlkowania jest duży czy też śledzenie
losu neutronów przechodza̧cych przez niejednorodne środowisko – takie jak w reaktorze
ja̧drowym i jego obudowie. Ten ostatni przykÃlad, tj. śledzenie losu neutronów przy
Ãlańcuchowej reakcji rozszczepienia prowadza̧cej do wybuchu bomby atomowej byÃl pierwszym zastosowaniem tej metody zaproponowanej przez J. von Neumanna i S. Ulama.
Zwykle udaje siȩ zasta̧pić poszukiwanie rozwia̧zania oryginalnego problemu przez
estymacjȩ wartości oczekiwanej pewnej funkcji na podstawie próby statystycznej
skÃladaja̧cej siȩ z zespoÃlu wartości tej funkcji obliczonego dla wylosowanych wartości argumentu. W zwia̧zku z tym pojawiaja̧ siȩ nastȩpuja̧ce pytania:
1. Jak sformuÃlować problem statystyczny, tzn. jak ma wygla̧dać funkcja dla której
poszukujemy wartości oczekiwanej ? Bierzemy przy tym pod uwagȩ:
• Jak zminimalizować bla̧d estymacji przy ustalonym rozmiarze próby statystycznej ?
• Z jakim rozkÃladem prawdopodobieństwa (gȩstości prawdopodobieństwa) należy
losować wartości argumentu funkcji ?
2. W jaki sposób przeprowadzić generacjȩ liczb losowych ?
Odpowiedzi na te pytania zależa̧ od rozwia̧zywanego problemu. Poniżej bȩda̧ przedstawione przykÃlady jak można dobierać postać funkcji i jakie pojawiaja̧ siȩ wtedy rozkÃlady
prawdopodobieństwa gdy stosuje siȩ metodȩ Monte Carlo do liczenia caÃlek.
11.1
LICZENIE CAÃLEK METODA̧ MONTE CARLO
CaÃlkȩ
I≡
Z b
a
f (x)dx
możemy zapisać w równoważnej postaci
Zb
I=
gdzie funkcja g(x) > 0 oraz
Rb
a
g(x)
a g(x)
· f (x) · dx
g(x)dx = 1 - czyli g(x) jest pewna̧ funkcja̧ gȩstości
prawdopodobieństwa na odcinku [a,b]).
68
Porównuja̧c drugi wzór na caÃlkȩ I ze wzorem na wartość oczekiwana̧ funkcji fg((xx)) :
(
E
f (x)
g(x)
Zb
)
≡
Ã
dx · g(x) ·
a
f (x)
!
g(x)
widać, że caÃlka jest po prostu wartościa̧ oczekiwana̧ funkcji fg((xx)) dla gȩstości prawdopodobieństwa g(x).
W szczególności jako funkcjȩ g(x) możemy wzia̧ć funkcjȩ gȩstości prawdopodobieństwa
rozkÃladu jednorodnego na odcinku [a,b] i dostaniemy:
Zb
I = (b − a) ·
a
f (x)dx
b−a
Estymatorem powyższej wartości oczekiwanej jest średnia arytmetyczna
Tn (I) = (b − a) ·
n
1X
n i=1
f (xi )
gdzie argumenty xi sa̧ losowane z rozkÃladem jednorodnym (równomiernym) na odcinku
[a,b]. Jest to tzw. podstawowa metoda liczenia caÃlki metoda̧ Monte Carlo.
Dla wygody rozważa siȩ zwykle caÃlki liczone na odcinku [0,1] bo wtedy nie
musimy jawnie wypisywać dÃlugości przedziaÃlu caÃlkowania a można zawsze
przez liniowa̧ zmianȩ zmiennych przejść do dowolnego odcinka [a,b]. W
poniższych rozważaniach bȩdziemy stosować tȩ konwencjȩ.
Wzór na estymator caÃlki jest wtedy po prostu średnia̧ arytmetyczna̧ wartości funkcji
podcaÃlkowej gdzie argumenty xi sa̧ losowane z rozkÃladem jednorodnym na przedziale [0,1].
BÃla̧d estymatora caÃlki to bÃla̧d średniej arytmetycznej :
σ{I} =
=
v (
)
u
n
X
u
1
tσ 2
f (xi )
n i=1
v
u
n
u 1 X
t
σ 2 {f (xi )}
s
n2 i=1
1
σ 2 {f }
n2
1
= √ σ{f }
n
=
69
Niestety ten wzór nie może być w praktyce stosowany bo liczenie σ{f } wymagaÃloby
znajomości wartości szukanej caÃlki:
Z1
2
 1
2
Z
f (x)dx −  f (x)dx
2
σ {f } =
0
0
Z1
f 2 (x)dx − I 2
=
0
Dlatego dla liczenia estymatora bÃlȩdu caÃlki S(I) zamiast σ{f } używa siȩ estymatora
S{f } liczonego wg wzoru:
S (f ) =
v
u
u
t
1
n
X
n − 1 i=1
[f (xi ) − Tn (I)]2
1
S (I) = √ S (f )
n
gdzie należy zauważyć, że Tn (I) jest równe (ze wzglȩdu na jednostkowa̧ dÃlugość przedziaÃlu
caÃlkowania) średniej arytmetycznej z wartości funkcji f(x)
Ponieważ przy liczeniu caÃlek chcielibyśmy wiedzieć nie tylko jakie jest odchylenie standardowe estymatora caÃlki, lecz chcielibyśmy określić przedziaÃl gdzie “prawie na pewno”
bȩdzie znajdować siȩ prawdziwa wartość caÃlki to przyjȩÃlo siȩ jako “bÃla̧d caÃlki” brać poÃlowȩ
przedziaÃlu ufności na poziomie ufności 0,9545, który równy jest podwojonej wartości odchylenia standardowego przy zaÃlożeniu, że średnia arytmetyczna ma rozkÃlad normalny.
A wiȩc jako “bÃla̧d caÃlki” bierzemy wielkość:
2S(f )
√
n
11.2
ZMNIEJSZANIE BÃLȨDU CAÃLKI
Podstawowa̧ metoda̧ stosowana̧ w tym celu jest tzw. ”metoda średniej ważonej” (zwana
po angielsku “importance sampling”). Polega ona na tym, że zamiast losować argument
funkcji podcaÃlkowej z rozkÃladem jednorodnym losuje siȩ go z rozkÃladem g(x) możliwie
podobnym do funkcji podcaÃlkowej. Wtedy estymatorem caÃlki na przedziale [0,1] z funkcji
f(x) jest średnia ważona:
70
Tn (I) =
n f (x )
1 X
i
n i=1 g(xi )
gdzie argumenty xi losowane sa̧ czȩściej tam gdzie funkcja f(x) jest duża a wiȩc przyczynki
do caÃlki sa̧ znacza̧ce – sta̧d angielska nazwa “losowanie istotne”.
Można pokazać, że zastosowanie tej metody zawsze daje mniejszy bÃla̧d caÃlki niż otrzymywany w metodzie podstawowej.
Inna̧ metoda̧ jest tzw. “losowanie warstwowe” polegaja̧ce na rozbiciu przedziaÃlu
caÃlkowania na mniejsze przedziaÃly, w których funkcja podcaÃlkowa zmienia siȩ możliwie
maÃlo – jest prawie staÃla. Wtedy użycie najprostszej metody – podstawowej – w każdym
z przedziaÃlów zdecydowanie zmniejsza wariancjȩ (bÃla̧d) caÃlki. Widać to ewidentnie dla
funkcji przedziaÃlami staÃlej. Tam metoda warstwowa daje bÃla̧d równy zeru (!).
Tu także można pokazać, że bÃla̧d caÃlki jest zawsze mniejszy lub równy od bÃlȩdu metody
podstawowej.
“Metoda zmiennych kontrolnych” to szukanie funkcji h(x) podobnej do f(x) ale
takiej, że caÃlka z h(x) na przedziale [0,1] jest znana. Wtedy możemy liczyć podstawowa̧
metoda̧ Monte Carlo caÃlkȩ z różnicy f(x)-h(x). Jest to opÃlacalne jeżeli liczenie funkcji h(x)
nie jest zbyt pracochÃlonne. Zwykle przyjmuje siȩ, że wspóÃlczynnik korelacji
pomiȩdzy
q
1
funkcjami f(x) i h(x) powinien speÃlniać relacjȩ: ρ(f (x), h(x)) ≥ 1 − k gdzie “k”
oznacza ile razy bardziej pracochÃlonne jest policzenie różnicy f(x)-h(x) od policzenia samej
funkcji f(x).
“Metoda zmiennych antytetycznych”
Jeżeli f1 (ξ) i f2 (η) sa̧ dwoma estymatorami liczonej powyżej caÃlki to ich średnia
arytmetyczna g2 też bȩdzie estymatorem caÃlki:
g2 ≡
1
2
(f1 + f2 ),
przy czym jeżeli oba estymatory f1 i f2 sa̧ nieobcia̧żone to i estymator g2 jest nieobcia̧żony.
Z drugiej strony wariancja estymatora g2 bȩdzie zależeć nie tylko od wariancji estymatorów f1 i f2 ale także od ich kowariancji:
σ 2 (g2 ) ≡
1
4
(σ 2 (f1 ) + σ 2 (f2 )) +
1
2
cov(f1 , f2 ).
Jeżeli kowariancja estymatorów bȩdzie ujemna i duża co do moduÃlu, to wariancja estymatora g2 może być mniejsza od wariancji każdego z estymatorów f1 i f2 . Powyższe
rozumowanie można oczywiście rozszerzyć na średnia̧ m estymatorów caÃlki.
71
PRZYKÃLAD:
Jeżeli funkcja podcaÃlkowa f (x) jest monotoniczna to jako dwa wyżej omawiane estymatory możemy wzia̧ć nastȩpuja̧ce funkcje: f1 = f (x) i f2 = f (1 − x). Wtedy estymator g2 bȩdzie bardziej zbliżony do staÃlej na odcinku [0,1] niż każdy z dwu skÃladników.
To spowoduje, że jego wariancja bȩdzie mniejsza od wariancji każdego ze skÃladników a o
to nam chodzi.
Dla funkcji monotonicznej na caÃlym przedziale caÃlkowania można dobrać inny wygodny
estymator g2 , który bȩdzie średnia̧ ważona̧ a nie średnia̧ arytmetyczna̧ a wagi dobierze siȩ
tak aby najbardziej zmniejszyć wariancjȩ estymatora g2 :
g2 ≡ α · f (αx) + (1 − α) · f (1 − (1 − α)x) gdzie 0 < α < 1.
Znalezienie optymalnej wartości wspóÃlczynnika α może być bardzo trudne, wiȩc czȩsto
zadawalamy siȩ zastosowaniem nastȩpuja̧cego, prostszego przepisu, który zwykle daje
porównywalnie maÃla̧ wariancjȩ caÃlki jak optymalna wartość α. Jest to rozwia̧zanie równania:
f (α) = (1 − α) · f (1) + α · f (0)
Powyższe przykÃlady liczenia caÃlki metoda̧ Monte Carlo nie wyczerpuja̧ wszystkich
stosowanych wariantów tej metody lecz sÃluża̧ raczej do ilustracji na czym polega problem
doboru funkcji, dla której szukamy wartości oczekiwanej. Nie pokazuja̧ jednak na czym
polega przewaga metody Monte Carlo nad innymi metodami liczenia caÃlki.
W przypadku caÃlki jednokrotnej taka przewaga nie ujawnia siȩ bo istnieje wiele innych
metod numerycznych takich jak np. metoda Simpsona, Romberga czy Gaussa, które sa̧
bardziej precyzyjne od metody Monte Carlo przy tej samej liczbie wyliczonych wartości
funkcji podcaÃlkowej. Jednakże gdybyśmy chcieli zastosować która̧ś z tych metod do
caÃlki wielokrotnej to okaże siȩ, że otrzymanie maÃlego bÃlȩdu caÃlki wymaga przy zwiȩkszaniu
wymiaru przestrzeni argumentów zwiȩkszania liczby obliczeń funkcji podcaÃlkowej w sposób
proporcjonalny do nw , gdzie n jest liczba̧ wartości jednego argumentu a w jest wymiarem
przestrzeni argumentów. W odróżnieniu od tych metod wielkość bÃlȩdu estymatora caÃlki
uzyskanego metoda̧√Monte Carlo maleje tak jak bÃla̧d średniej arytmetycznej czyli proporcjonalnie do 1/ n niezależnie od wymiaru przestrzeni argumentów . A wiȩc
zwiȩkszanie wymiaru przestrzeni argumentów funkcji podcaÃlkowej nie musi przedÃlużać
czasu obliczenia caÃlki.
Rozważmy prosty przykÃlad: do obliczenia caÃlki 10 – krotnej, wyliczaja̧c funkcjȩ podcaÃlkowa̧
10 razy dla każdego wymiaru musielibyśmy obliczyć funkcjȩ podcaÃlkowa̧ 1010 razy. Jeżeli
potrafimy w cia̧gu sekundy obliczyć funkcjȩ podcaÃlkowa̧ 10 000 razy to znalezienie wartości
caÃlki wymagaÃloby 1000 000 sekund czyli okoÃlo 12 dni i nocy. Tymczasem stosuja̧c metodȩ
Monte Carlo, możemy oszacować wartość caÃlki z dokÃladnościa̧ kilku procent wyliczaja̧c
np. 1000 000 razy funkcjȩ podcaÃlkowa̧ tzn. skracaja̧c czas obliczeń do 100 sekund.
11.3
72
GENERACJA LICZB LOSOWYCH
Przy obliczeniach metoda̧ Monte Carlo konieczna jest generacja liczb losowych o poża̧danym
rozkÃladzie (gȩstości) prawdopodobieństwa. Liczby te w praktyce znajduje siȩ przy pomocy
odpowiednich programów komputerowych co powoduje, że cia̧gi liczb losowych otrzymane
z tych samych startowych parametrów sa̧ powtarzalne a wiȩc nie sa̧ naprawdȩ losowe. Z
tej przyczyny używa siȩ czȩsto określenia liczby pseudolosowe.
Najważniejszym ze stosowanych rozkÃladów jest rozkÃlad jednorodny(równomierny,
jednostajny), gdyż przy jego użyciu można wygenerować liczby pseudolosowe o innych poża̧danych rozkÃladach prawdopodobieństwa. Jak bȩdzie pokazane poniżej istnieja̧
metody pozwalaja̧ce na stworzenie prostych i krótkich programów komputerowych do
generacji liczb pseudolosowych o rozkÃladzie jednorodnym. Można wiȩc samemu napisać
taki program. Okazuje siȩ jednak, że bezpieczniej jest korzystać z gotowych, opracowanych przez specjalistów procedur , gdyż speÃlniaja̧ one nie tylko podstawowe
wymagania narzucane na liczby pseudolosowe ale uwzglȩdniaja̧ także bardziej zaawansowane warunki, które musza̧ być zapewnione przy niektórych obliczeniach. Takimi godnymi polecenia generatorami liczb losowych sa̧ procedury RANLUX i RANMAR z
biblioteki procedur CERN. Pierwszy z nich zostaÃl napisany przez F. Jamesa (Comp. Phys.
Comm. 79 (1994) 111) i oznaczony jest symbolem V115 w bibliotece procedur CERN a
drugi (stworzony w oparciu o raport G. Marsaglia, A. Zaman, and W.W. Tsang, Towards a
Universal Random Number Generator, Supercomputer Computations Research Institute,
Florida State University technical report FSU-SCRI-87-50 (1987)) przez F. Carminati i
F. Jamesa i wystȩpuje jako procedura V113 w bibliotece procedur CERN.
11.3.1
Generacja liczb o rozkÃladzie równomiernym
W olbrzymiej wiȩkszości przypadków cia̧gi liczb pseudolosowych tworzone sa̧ przy pomocy
zwia̧zków rekurencyjnych. Najlepiej zbadanym algorytmem jest tzw. metoda kongruencyjna, która generuje kolejna̧ liczbȩ pseudolosowa̧ w oparciu o k + 1 poprzednich wg
wzoru:
xn+1 = (a0 xn + a1 xn
1
+ . . . + ak xn k )(modM ),
gdzie zapis a(mod b) należy rozumieć jako resztȩ z dzielenia liczby a przez liczbȩ b.
Liczba M a także wszystkie liczby ai oraz xi sa̧ liczbami caÃlkowitymi z przedziaÃlu [0, M ).
Generatory stanowia̧ce szczególne przypadki powyższego wzoru maja̧ swoje specjalne
nazwy. Generatory stosuja̧ce wzór:
xn+1 = xn + xn
1 (modM )
nazywane sa̧ generatorami Fibonacciego,
te, które używaja̧ relacji:
xn+1 = a0 xn (modM )
określa siȩ mianem generatorów multiplikatywnych a oparte o wyrażenie:
xn+1 = (a0 xn + a1 )(modM )
73
nosza̧ nazwȩ generatorów mieszanych.
Wszystkie cia̧gi liczb pseudolosowych sa̧ cia̧gami okresowymi. Dobry generator powinien
mieć możliwie dÃlugi okres, tak dÃlugi aby w czasie wykonywania prac obliczeniowych wykorzystywać tylko niewielka̧ czȩść okresu. Maksymalny możliwy okres cia̧gu liczb losowych
otrzymanych ogólna̧ metoda̧ kongruencyjna̧ nie może przekroczyć M k+1 . A wiȩc maksymalny okres generatora Fibonacciego to M 2 a generatora multiplikatywnego i mieszanego
nie przekracza M . Te maksymalne wartości sa̧ osia̧gane tylko przy odpowiednim doborze
wspóÃlczynników formuÃly rekurencyjnej. Na przykÃlad, można pokazać, że dÃlugość okresu
cia̧gu liczb losowych generatora mieszanego wynosi M wtedy i tylko wtedy, gdy speÃlnione
sa̧ nastȩpuja̧ce warunki:
• a1 i M nie maja̧ wspólnych dzielników,
• (a0 − 1) jest wielokrotnościa̧ liczby pierwszej, która jest dzielnikiem liczby M ,
• (a0 − 1) jest wielokrotnościa̧ liczby 4, o ile M jest też wielokrotnościa̧ liczby 4.
Od dobrego generatora, ża̧damy również aby można byÃlo kolejne liczby pseudolosowe
uważać za niezależne. W szczególności powinny być niezależne liniowo. Możemy to
sprawdzić licza̧c wspóÃlczynniki korelacji pomiȩdzy parami liczb:
%j ≡ %(xi , xi+j ).
WspóÃlczynniki korelacji %j ,j=1,2,... powinny być równe zero.
Zamiast liczyć wspóÃlczynniki korelacji można niezależność liniowa̧ generowanych liczb
sprawdzać przez wykonanie pewnych kontrolnych zadań rachunkowych. Jednym z najprostszych zadań jest liczenie metoda̧ Monte Carlo (np. podstawowa̧ metoda̧ szukania
caÃlki) objȩtości kuli o jednostkowym promieniu w przestrzeni N-wymiarowej. Objȩtość
kuli wynosi:
2 π N=2
VN =
,
N Γ(N/2)
√
gdzie Γ(N/2) to funkcja gamma Eulera. Funkcja ta przyjmuje wartość π dla argumentu 1/2 i może być liczona rekurencyjnie wg wzoru Γ(z + 1) = z · Γ(z). Nawet
niewielka korelacja pomiȩdzy generowanymi liczbami pseudolosowymi odbija siȩ wyraźnie
na wynikach obliczeń dyskredytuja̧c stosowany generator.
Inna̧, bardzo ważna̧ cecha̧ generatora liczb pseudolosowych jest aby te liczby pokrywaÃly
przedziaÃl (0,1) odpowiednio gȩsto.
Aby to prosto wyjaśnić weźmy pod uwagȩ rekurencyjny algorytm, w którym nastȩpna
liczba generowana jest przy pomocy poprzedniej: xn+1 = f (xn ). Jeżeli wykreślimy
na powierzchni jednostkowego kwadratu (czyli kwadratu o wierzchoÃlkach (0,0),(1,0),(1,1)
i (0,1) poÃlożenia punktów o wspóÃlrzȩdnych (x = xn , y = xn+1 ) to w przypadku
prawdziwych losowych liczb xn i xn+1 powinny one pokrywać równomiernie powierzchniȩ
kwadratu. Natomiast dla pseudolosowych liczb dostaniemy punkty leża̧ce na krzywej
y = f (x). A wiȩc krzywa y = f (x) musi wielokrotnie i to w maÃlych odlegÃlościach
przechodzić przez powierzchniȩ kwadratu aby zapewnić w miarȩ równomierne pokrycie
74
powierzchni kwadratu. Ten warunek podobnie jak i inne powyżej wymienione jest jedynie
warunkiem koniecznym aby generator mógÃl być uznany za zadawalaja̧cy generator.
Dla surowego testowania generatorów wymyślono caÃly zestaw testów, które powinny
być speÃlniane przez dobre generatory (np. G. Marsaglia, A Current View of Random
Number Generators, Computer Science and Statistics: 16th Symposium on the Interface, Elsevier (1985)). Wspomniane na wstȩpie generatory RANLUX, RANMAR przeszÃly
pomyślnie ten zestaw testów.
11.3.2
Generacja liczb losowych o dowolnych rozkÃladach prawdopodobieństwa
Jeżeli dysponujemy już dobrym generatorem liczb pseudolosowych o rozkÃladzie równomiernym
na odcinku [0,1] to możemy przysta̧pić do generacji liczb o dowolnych rozkÃladach prawdopodobieństwa. Zacznijmy od generacji zmiennej dyskretnej przyjmuja̧cej n wartości
z zadanym rozkÃladem prawdopodobieństwa:
P (x = xi ) = pi , dla i = 1, 2, ...n
W tym celu podzielmy przedziaÃl [0,1] na n przedziaÃlów o dÃlugości ∆i = pi . Litera̧ γ
oznaczać bȩdziemy wygenerowana̧ zmienna̧ o rozkÃladzie równomiernym w przedziale [0,1].
Wtedy Ãlatwo udowodnić nastȩpuja̧ce twierdzenie:
TWIERDZENIE
Losowa wielkość x określona formuÃla̧
x = xi gdy γ ∈ ∆i
ma poszukiwany rozkÃlad dyskretny.
DOWÓD:
P (x = xi ) = P (γ ∈ ∆i ) = ∆i = pi
♦
UWAGA 1: Powyższe twierdzenie można uogólnić na przypadek zmiennej dyskretnej przyjmuja̧cej nieskończenie wiele wartości. Wtedy zarówno wartości zmiennej
xi jak i prawdopodobieństwa pi określone sa̧ wzorami określaja̧cymi ich zależność od
wskaźnika i. Dla efektywnego losowania wybiera siȩ pewne nmax tak duże, że suma
prawdopodobieństw
nX
max
i=1
pi = 1 − ε
jest bliska jedności (tj. ε > 0 jest odpowiednio maÃle) i dla wskaźników i = 1, ..., nmax
wylicza siȩ przed generacja̧ xi i pi (przechowuja̧c je nastȩpnie w pamiȩci komputera) a
75
obliczenia wg zadanych wzorów wykonuje siȩ tylko przy generacji maÃlo prawdopodobnych
wartości xi (dla i > nmax ).
♦
UWAGA 2: Czȩsto przy symulacji zjawisk przyrodniczych spotykamy siȩ z sytuacja̧,
w której musimy zdecydować jakie zdarzenie spośród wszystkich możliwych i wykluczaja̧cych siȩ zdarzeń (A1 , A2 , ..., An ) zachodzi w danym momencie jeżeli znamy
prawdopodobieństwa tych zdarzeń. Taka sytuacja dokÃladnie odpowiada schematowi
wyboru wartości zmiennej dyskretnej tożsamej ze wskaźnikiem i danego zdarzenia Ai o
znanym rozkÃladzie prawdopodobieństw pi , i = 1, ..., n.
♦
Generacja zmiennej cia̧gÃlej z zadana̧ funkcja̧ gȩstości prawdopodobieństwa f(x).
ZaÃlóżmy, że zmienna losowa x ma funkcjȩ gȩstości prawdopodobieństwa f (x) > 0 w
skończonym lub nieskończonym przedziale [a,b]. Wtedy dystrybuanta zmiennej x opisywana jest wzorem:
Zx
F (x) =
f (t)dt
a
i jest silnie rosna̧ca̧ funkcja̧.
TWIERDZENIE
Przy tych zaÃlożeniach losowa wielkość x określona formuÃla̧
F (x) = γ
ma funkcjȩ gȩstości prawdopodobieństwa f (x).
DOWÓD:
Dla silnie rosna̧cej dystrybuanty F (x) możemy napisać nastȩpuja̧cy zespóÃl równań (przez
Y oznaczamy dystrybuantȩ traktowana̧ jako zmienna losowa):
P (y < Y < y + dy)
P (y < Y < y + dy)
P (x < X < x + dx)
g(y)dy
=
≡
≡
=
P (x < X < x + dx)
g(y)dy
f (x)dx
f (x)dx
ska̧d wynika, że
g(F (x))dF (x) = f (x)dx.
Z definicji dystrybuanty wiadomo, że:
dF (x) = f (x)dx,
76
a wiȩc
g(F (x)) = 1,
czyli dystrybuanta ma rozkÃlad równomierny w przedziale [0,1].
Sta̧d generuja̧c wartość liczby losowej γ określamy jednoznacznie wartość dystrybuanty
F(x) a co za tym idzie wartość zmiennej x o funkcji gȩstości prawdopodobieństwa f(x):
x=F
gdzie F
♦
1
1
(γ),
(x) oznacza funkcjȩ odwrotna̧ do dystrybuanty.
UWAGA 1: Jeżeli funkcja gȩstości prawdopodobieństwa f(x) zeruje siȩ na pewnych odcinkach wartości argumentu to dystrybuanta F(x) nie jest funkcja̧ silnie rosna̧ca̧ i wtedy
rozwia̧zanie równania F (x) = γ nie jest jednoznaczne (F(x) nie ma funkcji odwrotnej).
Można temu jednak zapobiec zastȩpuja̧c funkcjȩ odwrotna̧ do dystrybuanty F 1 (x) przez
funkcjȩ G(y) zdefiniowana̧ nastȩpuja̧co:
G(y) ≡
inf x
fxjy<F (x)g
.
A wiȩc generujemy liczbȩ losowa̧ o rozkÃladzie gȩstości prawdopodobieństwa f(x) przy
pomocy równości:
x = G(γ).
♦
UWAGA 2: Przedstawiona̧ powyżej metodȩ generacji liczb pseudolosowych nazywa siȩ
najczȩściej metoda̧ funkcji odwrotnych ( inverse functions method ). Należy podkreślić,
że zamiast wzorów x = F 1 (γ) lub x = G(γ) ze specjalnym wyborem funkcji G podanym powyżej można stosować wzór x = g(γ) , gdzie g nie jest monotoniczna, byleby
tylko speÃlniaÃla relacjȩ P (g(γ) < x) = F (x).
♦
PRZYKÃLAD: Generacja zmiennej losowej x o rozkÃladzie wykÃladniczym dla x ≥ x0 .
(
f (x) =
C · exp[−C(x − x0 )] dla x ≥ x0
0
dla x < 0
77
Dystrybuanta:
Zx
F (x) =
C · exp[−C(t − x0 )] · dt = 1 − exp[−C(x − x0 )].
x0
Rozwia̧zujemy ze wzglȩdu na x równanie F (x) = γ, gdzie γ jest pseudolosowa̧ liczba̧
o rozkÃladzie równomiernym w [0,1]. Wstawiaja̧c jawna̧ postać dystrybuanty dostajemy:
1 − exp[−C(x − x0 )] = γ. Rozwia̧zanie równania to:
x = x0 −
1
C
· ln(1 − γ).
♦
Szukanie funkcji odwrotnej do dystrybuanty może być trudne ze wzglȩdów numerycznych.
Wtedy czȩsto daje siȩ uprościć generacjȩ stosuja̧c tzw. metodȩ superpozycji. Używa siȩ
jej wtedy gdy dystrybuantȩ zmiennej, która̧ chcemy generować udaje siȩ przedstawić
w postaci kombinacji liniowej dystrybuant o prostszej postaci, takich dla których Ãlatwo
znaleźć funkcje odwrotne. Istotne jest, że wspóÃlczynniki kombinacji liniowej (o skończonej
lub nieskończonej liczbie wyrazów) powinny mieć wartości należa̧ce do przedziaÃlu (0,1)
a ich suma ma być równa jedności, tak aby można je byÃlo interpretować jako prawdopodobieństwa. Wtedy kombinacjȩ liniowa̧ można interpretować jako formuÃlȩ peÃlnego
prawdopodobieństwa:
F (x) =
N
P
k=1
N
P
k=1
ck = 1,
ck · Fk (x)
0 < ck < 1
W metodzie superpozycji generujemy dwie niezależne liczby losowe o rozkÃladzie jednorodnym w [0,1]: γ1 i γ2 . Pierwsza̧ z nich stosujemy do losowego wyboru wartości wskaźnika k
(zgodnie z przepisem podanym wyżej dla generacji wartości dyskretnej zmiennej) a druga̧
do generacji wartości zmiennej x posiadaja̧cej dystrybuantȩ Fk (x).
PRZYKÃLAD:
Chcemy generować wartości zmiennej x o funkcji gȩstości prawdopodobieństwa:
f (x) =
5
12
· [1 + (x − 1)4 ] dla x ∈ (0, 2).
Dystrybuanta zmiennej x ma postać:
F (x) =
1
5
· [(x − 1)5 + 1] dla ∈ (0, 2)
78
co powoduje, że dla generacji metoda̧ funkcji odwrotnych musielibyśmy rozwia̧zać równanie
pia̧tego stopnia:
´
1 ³
(x − 1)5 + 5x + 1 = γ.
12
Gdy przedstawimy funkcjȩ gȩstości prawdopodobieństwa jako kombinacjȩ liniowa̧ o
wspóÃlczynnikach c1 = (5/6) i c2 = (1/6) dwu funkcji gȩstości prawdopodobieństwa:
Ã !
f (x) =
5
·
6
1
2
Ã !
+
1
·
6
5
2
(x − 1)4
to dystrybuanta też bȩdzie kombinacja̧ liniowa̧ postaci:
Ã !
F (x) =
5
6
·
x
2
Ã !
+
1
6
·
1
2
[(x − 1)5 + 1].
Wtedy generacja metoda̧ funkcji odwrotnej dla obu prostszych dystrybuant daje jawne
wzory na funkcje odwrotne i dostajemy nastȩpuja̧cy przepis na wyliczenie x:
x = 2γ2
= 1+
q
5
gdy γ1 < 5/6
2γ2 − 1 gdy γ1 ≥ 5/6.
♦
Obok metody funkcji odwrotnych używa siȩ dla generacji liczb losowych również inne
metody, spośród których najbardziej popularna jest metoda eliminacji zaproponowana
przez J. von Neumanna lub metody wykorzystuja̧ce wzory typu: x = g(γ1 , γ2 , ..., γn ).
Omówimy je poniżej.
Metodȩ eliminacji stosuje siȩ gdy zmienna x ma rozkÃlad o gȩstości prawdopodobieństwa
opisany funkcja̧ f(x) w przedziale [a,b] i równy zero poza przedziaÃlem, oraz f(x) jest
ograniczona od góry: f (x) ≤ c. Postȩpuje siȩ wtedy wg nastȩpuja̧cej procedury:
1. Generujemy wartość zmiennej x wg wzoru: x = (b − a)γ1 + a z rozkÃladem
jednorodnym w przedziale [a,b].
2. Generujemy wartość zmiennej y wg wzoru: y = cγ2 z rozkÃladem jednorodnym w
przedziale [0,c].
3. Sprawdzamy, czy y ≤ f (x). Jeżeli tak, to akceptujemy wartość x, w przeciwnym
przypadku para (x,y) jest eliminowana i generacjȩ powtarza siȩ od nowa.
79
Metody wykorzystuja̧ce przeksztaÃlcenie x = g(γ1 , γ2 , ..., γn )
PRZYKÃLAD Pokażemy, że zmienna̧ o rozkÃladzie gȩstości prawdopodobieństwa:
f (x) = n · xn
1
dla x ∈ [0, 1]
czyli o dystrybuancie
F (x) = xn
dla x ∈ [0, 1]
można generować stosuja̧c wzór: x = max(γ1 , ..., γn ).
Dowód:
Wprowadźmy funkcjȩ schodkowa̧ zdefiniowana̧ nastȩpuja̧co:
(
θ(z) =
0 dla z ≤ 0
1 dla z > 0.
Zmienna losowa g(γ1 , ..., γn ) bȩdzie miaÃla dystrybuantȩ F (x) wtedy i tylko wtedy gdy
Z1
Z1
...
0
dy1 . . . dyn θ(x − g(γ1 , ..., γn )) = F (x).
0
Jest oczywiste, że θ(x− max yi ) nie równa jest zero wtedy i tylko wtedy gdy równocześnie
1in
y1 < x, y2 < x , ..., yn < x. A wiȩc caÃlka
Z1
Z1
...
0
dy1 . . . dyn θ(x − max yi )
in
1
0
może być zapisana jako:
Zx
Zx
...
0
dy1 . . . dyn = xn
0
a to jest wÃlaśnie taka dystrybuanta zmiennej x jaka̧ chcielibyśmy uzyskać.
♦
UWAGA
Zmienna̧ losowa̧ o dystrybuancie F (x) = xn dla x ∈ [0, 1] można generować metoda̧
funkcji odwrotnych, z której dostajemy:
√
x = n γ.
Porównuja̧c ten wynik z poprzednim dostajemy zaskakuja̧cy wniosek, że można
zasta̧pić obliczanie pierwiastka n-tego stopnia z liczby losowej o rozkÃladzie
równomiernym w [0,1] przez obliczanie maksimum n liczb losowych o takim
rozkÃladzie.
11.3.3
80
Generacja wielowymiarowych zmiennych losowych
Metoda eliminacji może być Ãlatwo uogólniona na przypadek zmiennych wielowymiarowych. Jeżeli f (x1 , x2 , ..., xn ) jest gȩstościa̧ prawdopodobieństwa dla n-wymiarowej
zmiennej losowej (x1 , x2 , ...xn ), która znika poza kostka̧ n-wymiarowa̧: ai ≤ bi , i =
1, 2, .., n i ograniczona̧ przez liczbȩ c to przeprowadzamy generacjȩ w nastȩpuja̧cy sposób:
1. Generujemy wartość zmiennej x1 , x2 , ...xn+1 wg wzoru:
xi = (bi − ai )γi + ai , i = 1, 2, ..., n oraz xn+1 = cγn+1
z rozkÃladem równomiernym w przedziale (a1 ≤ x1 ≤ b1 , ..., an ≤ xn ≤ bn ) i
ograniczona̧ przez liczbȩ c: (0 ≤ xn+1 ≤ c)
2. Sprawdzamy, czy xn+1 ≤ f (x1 , x2 , ..., xn ). Jeżeli tak, to akceptujemy punkt
x1 , x2 , ..., xn , w przeciwnym przypadku punkt ten jest eliminowany i generacjȩ
powtarza siȩ od nowa.
Wielowymiarowe zmienne losowe możemy również generować metoda̧ funkcji odwrotnych. Należy rozważyć oddzielnie dwa przypadki:
1. Gdy poszczególne skÃladowe wielowymiarowej zmiennej sa̧ niezależne to każda̧ z nich
generuje siȩ niezależnie jedna̧ z metod omawianych dla jednowymiarowych zmiennych losowych.
2. Gdy skÃladowe sa̧ zależne to korzystamy z poniższego twierdzenia:
TWIERDZENIE
Gdy γ1 , γ2 , ..., γn sa̧ niezależnymi liczbami losowymi o rozkÃladzie równomiernym w
przedziale [0,1) to zbiór liczb x1 , x2 , ..., xn otrzymanych jako rozwia̧zania nastȩpuja̧cego
ukÃladu równań:
F1 (x1 ) = γ1
F2 (x2 |x1 ) = γ2
···
Fn (xn |x1 , ..., xn 1 ) = γn
ma poża̧dana̧ gȩstość prawdopodobieństwa f (x1 , x2 , ..., xn ).
♦
12
81
TESTOWANIE HIPOTEZ STATYSTYCZNYCH
12.1
Definicje elementarnych pojȩć
Poniżej podamy definicje elementarnych pojȩć stosowanych przy testowaniu hipotez.
Hipoteza̧ statystyczna̧ nazywamy hipotezȩ odnosza̧ca̧ siȩ do rozkÃladu prawdopodobieństwa
zmiennej losowej (funkcji gȩstości prawdopodobieństwa, itp.) lub do parametrów rozkÃladu
prawdopodobieństwa.
Hipoteza prosta to taka, która jednoznacznie określa dystrybuantȩ (rozkÃlad) zmiennej losowej, tzn. podana jest postać rozkÃladu i wartości wszystkich parametrów.
Hipoteza zÃlożona to taka, która nie jest prosta, np. podana jest postać rozkÃladu a
nie sa̧ znane wartości niektórych parametrów.
Hipoteza parametryczna to hipoteza odnosza̧ca siȩ do wartości parametrów rozkÃladu.
Inne hipotezy nazywaja̧ siȩ hipotezami nieparametrycznymi i z natury sa̧ hipotezami
zÃlożonymi.
Hipoteza zerowa H0 ” to sprawdzana hipoteza.
”
Hipoteza alternatywna H1 ” to hipoteza, która̧ bylibyśmy skÃlonni przyja̧ć gdy
”
H ” jest nieprawdziwa.
” 0
UWAGA: H1 ” nie musi być prostym zaprzeczeniem H0 ”
”
”
BÃla̧d pierwszego rodzaju to odrzucenie prawdziwej H0 ”.
”
Poziomem istotności α” nazywamy prawdopodobieństwo popeÃlnienia bÃlȩdu pier”
wszego rodzaju. Przyjmuje siȩ zwykle α” ∈ [0.1−0.001] – konkretny wybór oczywiście
”
zależy od tego jak kosztowne bȩda̧ skutki popeÃlnienia bÃlȩdu pierwszego rodzaju.
BÃla̧d drugiego rodzaju to przyjȩcie nieprawdziwej H0 ”.
”
UWAGA: Przez sformuÃlowanie przyjȩcie hipotezy” należy rozumieć stwierdzenie, że nie
”
”
mamy podstaw do odrzucenia hipotezy H0 ”. Inaczej mówia̧c pomiaru, którego wynik
nie przeczy hipotezie nie można uważać za dowód prawdziwości hipotezy !!!
Moca̧ testu nazywamy prawdopodobieństwo odrzucenia faÃlszywej H0 ”, tzn. praw”
dopodobieństwo tego, że nie popeÃlnimy bÃlȩdu II rodzaju. Moc testu oznacza siȩ zwykle
przez 1 − β” gdzie β” oznacza prawdopodobieństwo popeÃlnienia bÃlȩdu II rodzaju.
”
”
Tablica 1: Wyniki podejmowania decyzji przy testowaniu hipotez
Przyjȩcie H0
Przyjȩcie H1
H0 prawdziwa
Decyzja prawidÃlowa
BÃla̧d I rodzaju
H1 prawdziwa
BÃla̧d II rodzaju
Decyzja prawidÃlowa
12.2
82
Test normalności rozkÃladu
Wiȩkszość metod statystyki jest dobrze opracowana matematycznie dla zmiennych o
rozkÃladzie normalnym natomiast nie jest oczywiste, że dadza̧ siȩ zastosować bez modyfikacji dla zmiennych o innych rozkÃladach. Z tej przyczyny przed rozpoczȩciem bardziej
zaawansowanych rozważań statystycznych należy siȩ upewnić, że badana zmienna podlega
rozkÃladowi normalnemu. Sprawdzana hipoteza zerowa polega na stwierdzeniu, że rozkÃlad
badanej zmiennej jest rozkÃladem normalnym. W zależności od testu zakÃlada siȩ znajomość parametrów rozkÃladu jak np. w teście lambda KoÃlmogorowa lub też nie jest
to niezbȩdne jak np. w badaniu wykresu normalnego.
12.2.1
Test zerowania siȩ wspóÃlczynnika asymetrii i kurtozy
Test ten polega na sprawdzeniu, czy speÃlnione sa̧ warunki konieczne do tego aby rozkÃlad
badanej zmiennej mógÃl być rozkÃladem normalnym. Wiadomo, że dla rozkÃladu normalnego
wspóÃlczynnik asymetrii i kurtoza (wspóÃlczynnik przewyższenia) znikaja̧ niezależnie od
tego jaka jest wartość oczekiwana i wariancja rozkÃladu. A wiȩc
• Hipoteza zerowa, H0 :
(γ1 = 0) ∧ (γ2 = 0)
• Statystyka testowa:
√
n · g1
√
6
√
n · g2
√
=
24
Q1 =
Q2
gdzie g1 i g2 to estymatory wspóÃlczynnika asymetrii γ1 i kurtozy γ2 :
γ1 ≡
E ((x − E(x))3 )
σ 3 (x)
γ1 ≡
E ((x − E(x))4 )
σ 4 (x)
−3
83
opisane poniższymi wzorami:
M3
g1 = q
,
M23
g2 =
M4
−3
M22
UWAGA:
Wielkości M2 , M3 i M4 to nie sa̧ momenty liczone wzglȩdem pocza̧tku ukÃladu
lecz estymatory momentów centralnych odpowiednio drugiego, trzeciego i czwartego
rzȩdu:
n
P
M2 ≡ n1
(xi − x̄)2
i=1
n
1 P
M3 ≡ n
(xi − x̄)3
i=1
n
P
M4 ≡ n
(xi − x̄)4
i=1
1
Jeżeli hipoteza zerowa jest prawdziwa oraz próba jest bardzo duża to statystyki
g1 i g2 maja̧ rozkÃlady normalne o wartościach oczekiwanych
E(g1 ) ≈ 0
E(g2 ) ≈ 0
i odchyleniach standardowych:
s
σ(g1 ) ≈
s
6
σ(g2 ) ≈
n
24
n
Wtedy estymatory Q1 i Q2 maja̧ standardowe rozkÃlady normalne N(0,1).
• Hipoteza alternatywna to zaprzeczenie H0 :
prawdziwe wartości γ1 i γ2 nie sa̧ równe 0.
• Obszar krytyczny dwustronny. Brzegi określone przez kwantyl rozkÃladu N(0,1):
| Q1 |> U1
2
[
| Q2 |> U1
2
Jeżeli rozmiary próby nie sa̧ bardzo duże to rozkÃlad statystyk Q1 i Q2 nie przyjmuje
swej asymptotycznej postaci; N(0,1) ale wartości oczekiwane i wariancje tych zmiennych
sa̧ bliskie odpowiednio zeru i jedności. Można to wykorzystać do stworzenia obszaru
krytycznego w oparciu o nierówność Czebyszewa . Jako obszar krytyczny przyjmuje siȩ
S
wartości ( | Q1 |> 3
| Q2 |> 3 ) tj. poziom istotności równy α = 1/9.
84
Należy zwrócić uwagȩ na fakt, że powyższy test pozwala zwykle w uzasadniony sposób
odrzucić hipotezȩ zerowa̧ (gdy Q1 lub Q2 trafia do obszaru krytycznego) natomiast fakt,
że wartości tych statystyk nie sa̧ sprzeczne z hipoteza̧ zerowa̧ nie wyklucza możliwości, że
mamy do czynienia z rozkÃladem różnym od normalnego.
12.2.2
Test zgodności λ - KoÃlmogorowa
Ten test stosowany jest do porównania rozkÃladu prawdopodobieństwa z próby ze znanym
(teoretycznym) rozkÃladem. Tu wykorzystujemy go do testowania normalności rozkÃladu
ale można go stosować do dowolnych teoretycznych rozkÃladów cia̧gÃlej zmiennej
losowej. Parametry rozkÃladu powinny być określone w hipotezie zerowej.
Pomiary z próby x1 , x2 , x3 , ...xn porza̧dkujemy wg wzrastajacej wartości otrzymuja̧c
nastȩpujacy cia̧g:
x1 ≤ x2 ≤ x3 ≤ ... xn
, taka̧, że jej realizacja x zajmuje w cia̧gu m − te miejsce nazyZmienna̧ losowa̧ Xm
m
wamy statystyka̧ pozycyjna̧ rzȩdu m w próbie n-elementowej.
Tworzymy empiryczna̧ dystrybuantȩ Fn (x) obserwowanej w próbie zmiennej losowej X:


 0
m
Fn (x) =

 n
1
gdy
gdy
gdy
x ≤ x1
xm < x ≤ xm+1 , 1 ≤ m ≤ n − 1
x > xn
Empiryczna dystrybuanta jest zwykÃla̧ funkcja̧ argumentu x ale jest równocześnie
statystyka̧ bo jest definiowana przez wszystkie wielkości x1 , ..., xn z próby.
Można pokazać, że wartość oczekiwana empirycznej dystrybuanty jest równa oszacowywanej
wielkości teoretycznej dystrybuanty
E(Fn (x)) = F (x)
a jej wariancja da̧ży do zera gdy rozmiary próby da̧ża̧ do nieskończoności
σ 2 (Fn (x)) =
1
· F (x) · (1 − F (x)) → 0.
n
Sta̧d Fn (x) jest nieobcia̧żonym i zgodnym estymatorem F(x).
85
• Hipoteza zerowa
Dystrybuanta obserwowanej zmiennej losowej jest dystrybuanta̧ rozkÃladu normalnego o parametrach E(x) = x0 , σ(x) = σ:
E(F n(x)) =
Z x
1
1
dx · √
· exp(−
2πσ
(x − x0 )2
2σ 2
)
w oryginalnej wersji - zaproponowanej przez KoÃlmogorowa:
Dn = sup | Fn (x) − F (x) |
x
Smirnow zaproponowaÃl dwie inne definicje statystyki testowej (sta̧d czȩsto używana
nazwa test KoÃlmogorowa-Smirnowa):
Dn+ = sup(Fn (x) − F (x))
x
Dn = − inf
(Fn (x) − F (x))
x
Dla praktycznych rachunków wykorzystuje siȩ nieco inne wzory, które wymagaja̧
znajomości teoretycznej dystrybuanty tylko dla zmierzonych wartości zmiennej X:
Dn+ =
Dn
=
max (
mn
1
m
n
− F (xm ) )
max ( F (xm ) −
mn
1
m−1
n
)
Dn = max( Dn+ , Dn )
• Obszar krytyczny: prawostronny (duże wartości Dn , tzn. Dn > Dn (1 − α))
Granicȩ obszaru krytycznego, tj. kwantyl Dn (1 − α) można dla n ≥ 10 oraz
dla poziomu istotności α ≥ 0, 01 wyliczyć z przybliżonego wzoru (dokÃladność nie
gorsza niż 3 cyfry znacza̧ce)
s
Dn (1 − α) ≈
1
· (y −
2y 2 − 4y − 1
2n
y ≡ − ln(0, 5 · α)
18n
)−
1
6n
86
Po wyliczeniu z próby wartości statystyki Dn porównujemy ja̧ z kwantylem Dn (1 − α)
znalezionym z tablic lub wyliczonym z podanego wzoru (W praktyce możemy wyliczać ten
kwantyl wg wzoru ponieważ zarówno typowe poziomy istotności α ≥ 0, 01 jak i liczebność
próby n ≥ 10 odpowiadaja̧ warunkom stosowania tego wzoru.)
Gdy Dn > Dn (1−α) odrzucamy hipotezȩ zerowa̧, tzn. stwierdzamy, że dane doświadczalne
wykluczaja̧ to aby rozkÃlad prawdopodobieństwa populacji byÃl rozkÃladem normalnym z
parametrami E(x) = x0 i σ(x) = σ, przy czym nasz wniosek może być bÃlȩdny z
prawdopodobieństwem α.
UWAGA:
1. Statystyka Dn powinna być liczona ze szczegóÃlowego szeregu statystycznego ( tj. z
indywidualnych pomiarów ) a nie może być liczona z szeregu rozdzielczego (danych
pogrupowanych)!!
2. Statystyka Dn testu KoÃlmogorowa - Smirnowa ma dla n da̧ża̧cego do nieskończoności
rozkÃlad niezależny od postaci porównywanych rozkÃladów:
To jest wielka̧ zaleta̧ testu ale jest również pewna̧ sÃlabościa̧ bo przez to jest stosunkowo maÃlo czuÃly na postać ogonów rozkÃladu. Aby to poprawić stosuje siȩ
specjalna̧ odmianȩ tego testu tzw. test Andersona - Darlinga, który przy liczeniu
wartości krytycznych testu wykorzystuje specyfikȩ badanych rozkÃladów. Te wartości
liczone sa̧ przy pomocy specjalnych programów komputerowych.
3. Dla poprawnego stosowania testu KoÃlmogorowa - Smirnowa niezbȩdna jest znajomość wartości parametrów teoretycznego rozkÃladu. Jeżeli nie znamy tych parametrów
- musimy je wcześniej oszacować, np. przy pomocy metody najwiȩkszej wiarygodności. Istnieja̧ programy, które dokonuja̧ automatycznie takiego oszacowania
(np. w pakiecie STATISTICA ta wersja testu nazywa siȩ
testem KoÃlmogorowa -Smirnowa z poprawka̧ Lillieforsa .
12.2.3
Test zgodności Andersona-Darlinga
Jak to wspomniano wyżej ten test jest modyfikacja̧ testu KoÃlmogorowa-Smirnowa wykorzystuja̧ca̧ do liczenia wartości krytycznych wÃlasności badanego rozkÃladu (tu - rozkÃladu
normalnego). Test ten jest bardziej czuÃly na ksztaÃlt ”ogonów” rozkÃladu.
• Hipoteza zerowa
Dystrybuanta obserwowanej zmiennej losowej jest dystrybuanta̧ rozkÃladu normalnego.
• Hipoteza alternatywna
Zaprzeczenie hipotezy zerowej.
87
• Statystyka testowa
A2 = −n − S gdzie
S=
n (2i 1) n
P
ln F (xi ) + ln[1 − F (xn+1 i )]
n
i=1
F (xi ) − dystrybuanta danego
x − statystyka pozycyjna
o
rozkladu normalnego
i
• Obszar krytyczny
Prawostronny (duże wartości statystyki testowej): A2 > A21 .
Typowe wartości krytyczne testu:
A20:9 = 1.062
A20:95 = 1.321
A20:975 = 1.591
A20:99 = 1.959
UWAGA: Te kwantyle sa̧ policzone przy zaÃlożeniu, że badany rozkÃlad jest normalny.
Nie moga̧ wiȩc być stosowane dla testowania czy dane maja̧ inny rozkÃlad.
12.2.4
Test zgodności χ2 - Pearsona
Podobnie jak test λ KoÃlmogorowa tak i ten test stosowany jest do porównania rozkÃladu
prawdopodobieństwa z próby ze znanym (teoretycznym) rozkÃladem. Tu wykorzystujemy
go do testowania normalności rozkÃladu ale można go stosować do dowolnych teoretycznych rozkÃladów cia̧gÃlej lub dyskretnej zmiennej losowej ale
pomiary musza̧ być pogrupowane (szereg rozdzielczy) - wprost przeciwnie niż w przypadku testu KoÃlmogorowa.
• Hipoteza zerowa
Dystrybuanta obserwowanej zmiennej losowej jest dystrybuanta̧ rozkÃladu normalnego:
Z x
(x − x0 )2
1
· exp(−
)
E(F n(x)) =
dx · √
1
2σ 2
2πσ
X2 =
k (n − n · π )2
X
i
i
i=1
nπi
88
gdzie
– k to liczba przedziaÃlów w szeregu rozdzielczym (przynajmniej kilka),
– ni to liczebność i − tego przedziaÃlu (ni ≥ 5),
– πi to prawdopodobieństwo zaobserwowania pomiarów w przedziale i − tym
jeżeli prawdziwa jest hipoteza zerowa,
– n to liczba wszystkich pomiarów.
Dowodzi siȩ, że asymptotycznie (tzn. dla n → ∞) statystyka X 2 ma rozkÃlad
χ2k r 1 , gdzie r jest liczba̧ nieznanych parametrów teoretycznego rozkÃladu (dla
rozkÃladu normalnego r = 2) oszacowywanych wstȩpnie z próby metoda̧ najwiȩkszej
wiarygodności.
• Obszar krytyczny to duże wartości X 2 (X 2 > χ2k r 1 (1 − α)), gdzie w naszym
przypadku testowania normalności rozkÃladu χ2k r 1 (1 − α) jest kwantylem rzȩdu
1 − α rozkÃladu χ2k 1 (gdy znamy E(x) i σ(x) rozkÃladu normalnego) lub rozkÃladu
χ2k 3 (gdy musimy oszacować przed testowaniem normalności E(x) i σ(x) ).
Test χ2 również nie wymaga skomplikowanych obliczeń i dlatego może być przeprowadzony bez użycia komputera ale kwantyle tego rozkÃladu nie dadza̧ siȩ policzyć tak prosto
jak dla testu KoÃlmogorowa. Musimy korzystać z tablic statystycznych.
12.2.5
Wykres normalny
Wykres ten jest szczególnym przypadkiem wykresu kwantyl - kwantyl, na którym przedstawia siȩ estymatory kwantyli dla rozkÃladu zmiennej z próby w funkcji kwantyli teoretycznego rozkÃladu. Jako kwantyle teoretycznego rozkÃladu bierze siȩ kwantyle standardowego
rozkÃladu normalnego. Jako kwantyle doświadczalne bierzemy kolejne wartości pozycyjnej
statystyki z próby. Jeżeli hipoteza zerowa (normalność rozkÃladu mierzonej wielkości X)
jest prawdziwa to tak otrzymany wykres powinien być linia̧ prosta̧. Odstȩpstwa od prostoliniowości sa̧ argumentem za odrzuceniem hipotezy zerowej.
• Hipoteza zerowa
Dystrybuanta obserwowanej zmiennej losowej jest dystrybuanta̧ rozkÃladu normalnego, przy czym dla tego testu nie jest wymagana znajomość parametrów rozkÃladu.
• Statystyka testowa
Jako statystykȩ testowa̧ można wzia̧ć estymator wspólczynnika korelacji r pomiȩdzy
doświadczalnymi i teoretycznymi kwantylami.
Postȩpujemy nastȩpuja̧co:
1. Porza̧dkujemy pomiary {xk } tak aby utworzyÃly cia̧g rosnacy {xk } czyli statystykȩ
pozycyjna̧. Statystykȩ pozycyjna̧ rzȩdu k z n - elementowej próby traktujemy
jako estymator kwantyla na poziomie k/(n + 1).
2. Szukamy zk , tj. teoretycznego kwantyla standardowego rozkÃladu normalnego
na poziomie k/(n + 1) wykorzystuja̧c relacjȩ:
F (zk ) =
89
Ã
k
⇒ zk = F
n+1
1
k
!
n+1
3. Rysujemy pary {zk , xk }. Gdy wykres wyraźnie różni siȩ od linii prostej to
odrzucamy H0 , w przeciwnym wypadku liczymy estymator wspóÃlczynnika korelacji r(zk , xk ) i przeprowadzamy bardziej ilościowe rozważania.
• Obszar krytyczny to maÃle wartości estymatora r wspóÃlczynnika korelacji %(zk , xk ),
tj. mniejsze od odpowiednich wartości krytycznych rn (α) zależnych od poziomu istotności α (test lewostronny). Wartości te można znaleźć w tablicach lub zastosować
przybliżone wzory podane poniżej:
rn (α = 0.05) ≈ 1 −
0.5669
n2=3
,
rn (α = 0.01) ≈ 1 −
0.3867
n2=3
Wzory te daja̧ krytyczne wartości wspóÃlczynnika korelacji rn (α) dla dwu
poziomów istotności α z dokÃladnościa̧ nie gorsza̧ niż 1% jeżeli rozmiar próby n leży
w przedziale 5 < n < 1000.
UWAGA:
Jeżeli linia prosta jest dobrym przybliżeniem, to wspóÃlczynnik kierunkowy prostej
{zk , xk } równy jest parametrowi skali (tj. odchyleniu standardowemu) a wspóÃlrzȩdna
przeciȩcia prostej z osia̧ xk równa jest wspóÃlczynnikowi tendencji centralnej (wartości
oczekiwanej X). W ten sposób można oszacować parametry rozkÃladu normalnego, rza̧dza̧cego
wartościami zmiennej z próby.
12.3
90
HIPOTEZY DOTYCZA̧CE WARTOŚCI OCZEKIWANEJ
Zajmujemy siȩ zmiennymi o rozkÃladzie normalnym. Sa̧ dwie podstawowe hipotezy, które
bada siȩ najczȩściej:
• Porównanie E(X) z liczba̧:
H0 : E(X) = x0 , oraz
• Porównanie wartości oczekiwanych dwu populacji:
H0 : E(X) = E(Y )
Każda z tych hipotez może oczywiście być formuÃlowana jako nierówność, np. H0 :
E(X) > X0 ale wtedy hipoteza zerowa jest zÃlożona a wiȩc nie mamy jednoznacznie
zdefiniowanego rozkÃladu X. Z tego powodu wygodniej jest zawsze brać jako hipotezȩ
zerowa̧ równość E(X) z dana̧ liczba̧ lub E(Y) a interesuja̧ca̧ nas hipotezȩ traktować jako
hipotezȩ alternatywna̧.
12.3.1
PORÓWNANIE E(X) Z LICZBA̧ (H0 : E(X)=X0 )
Musimy rozróżnić dwa przypadki:
• gdy znamy σ(X), wtedy jako statystykȩ testowa̧ Tn (X) bierzemy poniższa̧ statystykȩ
z o rozkÃladzie standardowym normalnym N(0,1):
z=
(x − E(X))
σ(X)
• gdy nie znamy σ(X), to jako statystykȩ Tn (X) bierzemy analogiczna̧ funkcjȩ ”t”,
w której σ zasta̧piona jest estymatorem S(X):
t=
(x − E(X))
S(X)
.
Statystyka t ma rozkÃlad Studenta o (n-1) stopniach swobody.
Oczywiście odchylenie standardowe średniej arytmetycznej σ(X) podobnie jak jego
estymator
√ S(X) równe sa̧ odpowiednim wartościom dla samej zmiennej X podzielonym
przez n:
σ(X)
σ(X) = √
n
91
Tablica 2: Obszar krytyczny dla hipotez dotycza̧cych E(X)
Hipoteza H1
Obszar krytyczny
gdy znamy σ(X)
E(X) 6= X0
| z | > z1
2
Obszar krytyczny
gdy nie znamy σ(X)
| t | > t1
2
E(X) > X0
z > z1 t > t1 E(X) < X0
z < z
t < t
Sposób określenia obszaru krytycznego dla poszczególnych hipotez alternatywnych
podany jest w tabeli (2).
z oraz t to odpowiednio fraktyle standardowego rozkÃladu normalnego N(0,1) i rozkÃladu
Studenta o (n-1) stopniach swobody. Oba te rozkÃlady sa̧ symetryczne wzglȩdem zera a
wiȩc można wykorzystać nastȩpuja̧ca̧ symetriȩ kwantyli:
z = −z1 t = −t1 12.3.2
WARTOŚCI OCZEKIWANE DWU POPULACJI (H0 : E(X) = E(Y ))
Tutaj trzeba odróżnić trzy sytuacje:
1.) σ(X) i σ(Y ) znane,
2.) σ(X) i σ(Y ) nieznane ale σ(X) = σ(Y ),
3.) σ(X) i σ(Y ) nieznane oraz σ(X) 6= σ(Y ),
92
ad 1.) Jako statystykȩ testowa̧ bierze siȩ zmienna̧ z:
z= r
X −Y
X)
2 (Y )
nx + ny
2(
Zmienna ta ma rozkÃlad standardowy normalny N(0,1).
ad 2.) Po stwierdzeniu (przy pomocy testu Fishera-Snedecora), że wariancje zmiennej X
i zmiennej Y można uznać za równe, stosujemy test Studenta ze zmienna̧ t zdefiniowana̧ nastȩpuja̧co:
t =
X −Y
r
S(X, Y ) ·
S(X, Y ) =
nx +ny
nx ny
v
u
u (nx − 1) ∗ S 2 (X) + (ny − 1) ∗ S 2 (Y )
t
nx + ny − 2
Zmienna t ma rozkÃlad Studenta o (nx + ny − 2) stopniach swobody.
ad 3.) Jeżeli test F pokazaÃl, że wariancje zmiennych X i Y sa̧ istotnie różne to jako
statystykȩ testowa̧ używa siȩ zmodyfikowanej zmiennej t:
t= r
X −Y
S X)
S 2 (Y )
nx + ny
2(
Zmienna t ma rozkÃlad, który można przybliżyć rozkÃladem Studenta o efektywnej
liczbie stopni swobody nef :
( S n(xX ) + S n(yY ) )2
−2
nef = (S 2 (X )=nx )2
(S 2 (Y )=ny )2
+
nx +1
ny +1
2
2
93
Ponieważ efektywna liczba stopni swobody nef zwykle nie jest liczba̧ caÃlkowita̧ to
szukaja̧c w tablicach musimy zaokra̧glać ja̧ do liczby caÃlkowitej (bezpieczniej zaokra̧glać
w dóÃl - wtedy efektywnie zwiȩkszamy nieco poziom istotności).
W tabeli przytoczonej poniżej zdefiniowane sa̧ obszary krytyczne dla tych trzech przypadków przy zastosowaniu dwu różnych hipotez alternatywnych H1 .
Hipoteza H1
E(X) 6= E(Y )
E(X) > E(Y )
Obszar krytyczny
σ(X) i σ(Y )
znane
Obszar krytyczny
σ(X) = σ(Y )
nieznane
Obszar krytyczny
σ(X) 6= σ(Y )
nieznane
| t | > tnx +ny
2 (1
− 2 )
| t | > tnef (1 − 2 )
z > z1 t > tnx +ny
2 (1
− α)
t > tnef (1 − α)
| z | > z1
2
Oczywiście statystyki testowe z i t to statystyki zdefiniowane powyżej a fraktyle należy
brać odpowiednio dla rozkÃladu standardowego normalnego N(0,1) oraz rozkÃladów Studenta o odpowiedniej liczbie stopni swobody.
12.4
94
HIPOTEZY DOTYCZA̧CE WARIANCJI
Najważniejsze to hipotezy porównuja̧ce wariancjȩ zmiennej X z liczba̧ oraz hipoteza
porównuja̧ca wariancje dwu populacji. ZakÃladamy, podobnie jak w przypadku hipotez
odnosza̧cych siȩ do wartości oczekiwanych, że zmienne losowe pochodza̧ z populacji normalnych.
12.4.1
PORÓWNANIE WARIANCJI X Z LICZBA̧ (H0 : σ 2 (X) = σ02 )
Dla testowania takiej hipotezy używa siȩ statystyki testowej Q2 zdefiniowanej nastȩpuja̧co:
2
Q =
(n − 1) · S 2 (X)
σ02
Przy prawdziwości H0 ta statystyka ma rozkÃlad χ2n 1 , gdzie n to liczba pomiarów w próbie
a S2 (X) to estymator wariancji.
Obszary krytyczne dla różnych hipotez alternatywnych sa̧ wymienione w tabeli poniżej:
Hipoteza H1
12.4.2
Obszar krytyczny
σ 2 (X) 6= σ02
Q2 < χ2 lub Q2 > χ21
σ 2 (X) > σ02
Q2 > χ21 σ 2 (X) < σ02
Q2 < χ2
2
2
PORÓWNANIE WARIANCJI DWU POPULACJI
Hipoteza zerowa H0 : σ 2 (X) = σ 2 (Y )
Dla testowania tej hipotezy używa siȩ testu F Fishera-Snedecora. Zarówno zmienna̧
jak i rozkÃlad prawdopodobieństwa oznacza siȩ litera̧ F z dwoma wskaźnikami n1 , n2 :
F(n1 , n2 ). Zmienna F(n1 , n2 ) to stosunek dwu zmiennych o rozkÃladach chikwadrat podzielonych przez ich liczby stopni swobody , przy czym zmienna w
liczniku ma n1 a zmienna w mianowniku n2 stopni swobody:
95
2
( n1 )
F (n1 , n2 ) ≡ n21
( nn22 )
Zmienna ta przyjmuje, jako stosunek dwu nieujemnych liczb, tylko wartości nieujemne
a ksztaÃlt jej rozkÃladu jest podobny do ksztaÃltu rozkÃladu χ2 .
Jako statystykȩ testowa̧ F bierze siȩ iloraz estymatora S2 (X) i estymatora S2 (Y):
F ≡
S 2 (X)
S 2 (Y )
L
Ã atwo pokazać, że statystyka F ma rozkÃlad F(nx − 1, ny − 1):
Wiemy z rozważań dotycza̧cych porównania wariancji z liczba̧, że zmienna Q2 obliczona
dla próby skÃladaja̧cej siȩ z n elementów ma rozkÃlad χ2n 1 . Po podzieleniu jej przez
2
liczbȩ stopni swobody (n − 1) otrzymujemy iloraz S2 . Jeżeli prawdziwa jest hipoteza zerowa gÃlosza̧ca, że wariancje licznika i mianownika sa̧ równe, to stosunek statystyk S 2 (X)
2
2
(licznika) i S 2 (Y ) (mianownika) jest równy stosunkowi Qnx(X1) i Qny(Y1) czyli równy jest
zmiennej F (nx − 1, ny − 1).
Jako hipotezȩ alternatywna̧ kÃladzie siȩ brak równości obu wariancji lub to, że wariancja
licznika jest wiȩksza od wariancji mianownika:
Hipoteza H1
Obszar krytyczny
σ 2 (X) 6= σ 2 (Y )
F < F 2 (nx − 1, ny − 1) lub F > F1
σ 2 (X) > σ 2 (Y )
F > F1 (nx − 1, ny − 1)
(nx
2
− 1, ny − 1)
Jeżeli w tablicach podane sa̧ tylko kwantyle rozkÃladu F na dużym poziomie lub tylko
na maÃlym poziomie, to korzysta siȩ z oczywistej równości:
F=2 (n1 , n2 ) = 1/F1 =2 (n2 , n1 )
12.5
96
HIPOTEZA JEDNORODNOŚCI WARIANCJI (KILKU
POPULACJI
Zajmujemy siȩ zmiennymi o rozkÃladzie normalnym. Sprawdzamy czy wariancje kilku
populacji sa̧ takie same (np. czy dokÃladność kilku różnych serii pomiarów jest taka
sama). Ta wÃlasność - zwana jednorodnościa̧ wariancji - może być interesuja̧ca sama w
sobie a dodatkowo jest niezbȩdna jeżeli chcemy badać równość wartości oczekiwanych
kilku populacji przez zastosowanie tzw. analizy wariancji (ANOVA).
12.5.1
TEST BARTLETTA
Badamy k populacji normalnych. Z każdej populacji i = 1, .., k bierzemy ni obserwacji
P
(w sumie n = n
i=1 ni wyników).
• Hipoteza zerowa H0 : Wszystkie wariancje sa̧ sobie równe:
σ12 = σ22 = ·· = σk2
• Hipoteza alternatywna H1 : Przynajmniej jedna wariancja jest wiȩksza od pozostaÃlych:
σj2 > σ12 = · · σj2
1
= σj2+1 = ·· = σk2
M =






µ
k
P
S2
−
(ni − 1) · ln Si2
i=1
¶






"
#


k
P


1
1
1




−
 1 + 3(k 1)

n
1
n
k
i
i=1
gdzie Si2 jest estymatorem wariancji dla i-tej próby:
Si2 = ni1
ni
P
1
j =1
(xji − x̄i )2
oraz
k
P
S2 = n 1 k
(ni − 1) · Si2 .
i=1
Bartlett pokazaÃl, że zmienna M zdefiniowana powyżej ma rozkÃlad, który bardzo
szybko da̧ży do rozkÃladu chi-kwadrat o k-1 stopniach swobody. Wystarcza już
warunek ni > 3 dla wszystkich prób i.
• Obszar krytyczny: prawostronny.
12.5.2
97
TEST COCHRANA
Można go stosować dla k populacji normalnych jeżeli liczebność wszystkich prób ni ,
i=1,..,k jest identyczna.
• Hipoteza zerowa H0 : Wszystkie wariancje sa̧ sobie równe:
σ12 = σ22 = ·· = σk2
• Hipoteza alternatywna H1 : Przynajmniej jedna wariancja jest wiȩksza od pozostaÃlych:
σj2 > σ22 = · · σj2
1
= σj2+1 = ·· = σk2
G=
max Si2
i
k
P
i=1
Si2
gdzie Si2 jest estymatorem wariancji dla i-tej próby.
• Obszar krytyczny: prawostronny. Należy korzystać ze specjalnych tablic testu Cochrana.
12.6
98
ANALIZA WARIANCJI - klasyfikacja jednoczynnikowa
Analiza wariancji - zaproponowana przez R. A. Fishera - to metoda sÃluża̧ca w swojej
najprostszej wersji do porównania wartości oczekiwanych kilku populacji normalnych. Poniżej zostanie wyjaśniona idea tej metody na przykÃladzie tego zastosowania.
Należy podkreślić, że analiza wariancji zwana czȩsto ANOVA (ANalysis Of VAriance)
ma bardzo szerokie zastosowanie w naukach biologicznych i medycznych gdyż czynnik
odróżniaja̧cy populacje może być zmienna̧ jakościowa̧.
ZAÃLOŻENIA:
1. Badamy k populacji normalnych zmiennych X1 , ...Xk ,
2. Wszystkie populacje maja̧ równe wariancje,
Jeżeli nie mamy z góry zagwarantowanego speÃlnienia tych zaÃlożeń to musimy przeprowadzić
odpowiednie testy statystyczne (np. Test λ-KoÃlmogorowa, test χ2 Pearsona lub inne dla
sprawdzenia normalności populacji oraz test Bartletta lub Cochrana dla sprawdzenia identyczności wariancji - nazywanej jednorodnościa̧ wariancji - dla różnych populacji).
• Hipoteza zerowa: H0 :
E(X1 ) = E(X2 ) = ... = E(Xk )
• Hipoteza alternatywna: H1 :
Niektóre E(Xi ) sa̧ różne.
Wprowadzamy nastȩpuja̧ce oznaczenia:
– xij to i-ty pomiar z j-tej próby (j-tej populacji)
– nj to liczebność j-tej próby, przy czym
k
P
j =1
nj = N
– x̄j to średnia arytmetyczna dla j-tej próby:
nj
P
nj
P
x̄j = n1j
xij czyli
xij = nj · x̄j
i=1
i=1
– x̄ to średnia arytmetyczna wszystkich pomiarów:
nj
k P
P
k
P
1
x̄ = N1
xij = N
nj · x̄j
j =1 i=1
j =1
–
nj
k P
P
k
P
(x̄j − x̄ )2 = (k 1 1)
nj · (x̄j − x̄ )2
s2b ≡ (k 1 1)
j =1 i=1
j =1
to estymator wariancji caÃlkowitego zbioru danych liczony z rozrzutu średnich
arytmetycznych poszczególnych prób j = 1, .., k. Kwadrat odchylenia j-tej
99
średniej x̄j od ogólnej średniej wchodzi do wzoru z waga̧ równa̧ liczebności jtej próby. Ponieważ ogólna średnia narzuca jeden warunek na zespóÃl k średnich
grupowych to suma s2b ma (k − 1) stopni swobody .
Wskaźnik ”b”pochodzi od angielskiego sÃlowa ”between”(pomiȩdzy) i s2b nazywany jest estymatorem ”wariancji miȩdzygrupowej”.
–
nj
k P
P
s2w ≡ (N 1 k)
(xij − x̄j )2
j =1 i=1
to estymator wariancji caÃlkowitego zbioru danych liczony z rozrzutu pomiarów
wewna̧trz każdej próby j = 1, .., k. Liczba stopni swobody dla sumy kwadratów
wewna̧trz j-tej grupy to (nj − 1). Liczba stopni swobody dla sumy kwadratów
po wszystkich k grupach to:
(n1 − 1) + (n2 − 1) + .. + (nk − 1) =
k
P
j =1
nj − k = N − k.
Sta̧d liczba stopni swobody tej sumy wynosi (N − k).
Wskaźnik ”w” pochodzi od angielskiego sÃlowa ”within” (wewna̧trz) i dlatego
estymator s2w nazywany jest estymatorem ”wariancji wewna̧trzgrupowej”.
TWIERDZENIE:
Można pokazać, że przy równości wariancji wszystkich populacji
σ12 = σ22 = . . . = σk2 ≡ σ 2 zachodza̧ nastȩpuja̧ce relacje:
E{s2w } = σ 2
E{s2b } = σ 2 +
µ k
P
j =1
(E fxj g E fxg)
k
1
¶
µ
2
N
·
k n2j
P
¶
j =1 N
k
1
gdzie E{xj } i E{x} to wartość oczekiwana dla j -tej populacji i postulowana przez
hipotezȩ zerowa̧ wspólna wartość oczekiwana wszystkich populacji.
Jak widać, estymator s2w jest zawsze nieobcia̧żonym estymatorem wariancji (niezależnie od prawdziwości H0 ), natomiast estymator s2b jest
nieobcia̧żony tylko wtedy, gdy H0 jest prawdziwa natomiast ma dodatnie
obcia̧żenie, gdy tak nie jest (kwadrat sumy dodatnich liczb N 2 ≡ (
jest zawsze wiȩkszy od sumy ich kwadratów).
k
P
j =1
nj )2
Jako statystykȩ testowa̧ bierzemy wielkość:
s2b /s2w = F (k − 1, N − k)
Powyższy wzór przedstawia stosunek dwu estymatorów wariancji, który przy prawdziwości
hipotezy zerowej powinien być zmienna̧ o rozkÃladzie F Fishera - Snedecora.
100
• Obszar krytyczny
Jeżeli hipoteza zerowa nie jest prawdziwa to statystyka testowa powinna być wiȩksza
niż przewiduje to rozkÃlad F (k − 1, N − k) bo wtedy s2b jest dodatnio obcia̧żony,
a wiȩc obszar krytyczny odpowiada dużym wartościom statystyki testowej (test
prawostronny).
UWAGI:
1. Gdy odrzucamy hipotezȩ zerowa̧, czyli stwierdzamy że nie wszystkie populacje maja̧
równe wartości oczekiwane badanej wielkości X, pojawia siȩ problem oszacowania
tych wartości oczekiwanych. Jako estymator wartości oczekiwanej j-tej populacji przyjmuje siȩ definiowana̧ wyżej wielkość x̄j .
2. Jednoczynnikowa analiza wariancji bierze swa̧ nazwȩ z faktu podziaÃlu caÃlej populacji wartości zmiennej X na k populacji różnia̧cych siȩ wartościa̧ lub poziomem jednego klasyfikuja̧cego czynnika. W szczególności ten czynnik może być zmienna̧
jakościowa̧ a wiȩc zamiast wartości czynnika klasyfikuja̧cego (zmiennej ilościowej)
moga̧ to być kategorie lub poziomy czynnika jakościowego. Na przykÃlad, zmienna̧
X może być temperatura ciaÃla leczonych pacjentów a czynnikiem klasyfikuja̧cym
rodzaj podanego lekarstwa.
Dziȩki takim możliwościom analiza wariancji jest czȩsto stosowana w naukach
biologicznych, medycznych i spoÃlecznych a wiȩc tam gdzie używa siȩ zmiennych
jakościowych.
3. Warunkiem stosowalności analizy wariancji jest normalność analizowanej zmiennej oraz jednorodność wariancji (równość wariancji) dla wszystkich porównywanych populacji. Z doświadczenia wiadomo, że drugi warunek jest znacznie
ważniejszy , tzn. niejednorodność wariancji wpÃlywa silniej na wyniki analizy wariancji niż niewielkie odstȩpstwa od normalności rozkÃladu zmiennej X.
W przypadku, gdy wariancja zmienia siȩ regularnie wraz z wartościa̧ oczekiwana̧
(co stwierdzamy porównuja̧c średnie poszczególnych prób i estymatory s2 dla tych
prób) można zastosować przeksztaÃlcenia zmiennych takie jak pierwiastkowanie
lub logarytmowanie, a nastȩpnie przeprowadzić analizȩ wariancji dla tak przeksztaÃlconych danych. Taka̧ procedurȩ postȩpowania, nazywa siȩ stabilizacja̧ wariancji.
4. Rachunki zwia̧zane z analiza̧ wariancji należy prowadzić z możliwie
duża̧ dokÃladnościa̧, gdyż pozornie niewielkie zaokra̧glenia moga̧ silnie znieksztaÃlcić wyniki.
101
Sumy kwadratów wystȩpuja̧ce w definicjach s2b i s2w zaleca siȩ liczyć wg wzorów
przytoczonych w prawej kolumnie poniżej:
SSb ≡ (k − 1) · s2b =
k
P
j =1
SSw ≡ (N − k) · s2w =
SS ≡ (N − 1) ·
nj
k P
P
j =1 i=1
nj x̄2:j − N x̄2::
nj
k P
P
j =1 i=1
x2ij −
k
P
j =1
(xij − x̄:: )2 =
nj x̄2:j
nj
k P
P
j =1 i=1
x2ij − N x̄2::
gdzie suma kwadratów SS jest obliczana jako sprawdzian bo musi zachodzić:
SS = SSb + SSw .
Zwykle cza̧stkowe wyniki zapisuje siȩ w postaci tabeli analizy wariancji jednoczynnikowej:
Rodzaj wariancji
SS≡ sum of squares
DF≡ degrees of freedom
MS≡ mean square
F - statystyka
(suma kwadratów)
(liczba stopni swobody)
(średni kwadrat)
testowa
Pomiȩdzy grupami
SSb
k−1
s2b = SSb /(k − 1)
Wewna̧trz grup
SSw
N −k
s2w = SSw /(N − k)
CaÃlkowita
SS
N −1
s2 = SS/(N − 1)
F = s2b /s2w
12.7
102
ANALIZA WARIANCJI - dla regresji liniowej
Analiza wariancji polega na podziale sumy kwadratów odchyleń na czȩść wyjaśniona̧ przez
regresjȩ i czȩść niewyjaśniona̧ (definicja tych pojȩć podana jest poniżej). Zapisuja̧c regresjȩ liniowa̧ w postaci R(x) = b + ax możemy przedstawić sumȩ kwadratów odchyleń
poszczególnych pomiarów yi od wartości średniej ȳ jako sumȩ:
X
i
(yi − ȳ)2 =
X
i
2
((yi − R(xi )) + (R(xi ) − ȳ)) .
Pierwszy z wewnȩtrznych nawiasów opisuje odchylenie pomiarów od prostej regresji a
drugi odchylenie regresji od średniej arytmetycznej wszystkich pomiarów.
Dalej bȩdziemy używać uproszczonego zapisu polegaja̧cego na opuszczaniu wskaźników
przy symbolu sumy i przy sumowanych elementach oraz na opuszczaniu argumentu x w
funkcji regresji liniowej. Wtedy powyższy wzór bȩdzie zapisany nastȩpuja̧co:
X
(y − ȳ)2 =
X
((y − R) + (R − ȳ))2 .
Sumȩ tȩ możemy rozpisać tak:
X
(y − ȳ)2 =
X
(y − R)2 + 2
X
(y − R) (R − ȳ) +
X
(R − ȳ)2 ,
a wykorzystuja̧c fakt, że drugi wyraz jest równy zero przedstawić jako dwie sumy kwadratów:
X
(y − ȳ)2 =
X
(y − R)2 +
X
(R − ȳ)2 .
Pierwsza z sum po prawej stronie równania nazywana jest niewyjaśniona̧ (przez
regresjȩ) suma̧ kwadratów a druga wyjaśniona̧ (przez regresjȩ) suma̧ kwadratów .
Nazwy te staja̧ siȩ oczywiste gdy zależność y od x jest liniowa̧ zależnościa̧ funkcyjna̧ a
nie zależnościa̧ losowa̧. Wtedy pierwsza suma znika a caÃla zmienność y pojawiaja̧ca siȩ
jako odchylenie od średniej wartości ȳ opisana jest przez regresjȩ.
P
Niewyjaśniona przez regresjȩ suma kwadratów (y − R)2 może być traktowana jako
miara rozrzutu zmiennej y dokoÃla prostej regresji a wiȩc zwia̧zana jest bezpośrednio z estymatorem wariancji y dokoÃla regresji (która z definicji jest warunkowa̧ wartościa̧ oczekiwana̧ y; R = E{y|x} zmiennej y dla ustalonej zmiennej x):
n
P
Sy=x = i=1
2
(yi − R(xi ))2
n−2
gdzie (n−2) jest liczba̧ stopni swobody (mniejsza̧ o 2 od n gdyż dla uzyskania parametrów
prostej musieliśmy użyć dwu równań zwia̧zuja̧cych ze soba̧ wartości danych).
P
Wyjaśniona przez regresjȩ suma kwadratów (R − ȳ)2 może być wyrażona w inny
sposób przy wykorzystaniu estymatora r wspóÃlczynnika korelacji ρ.
103
P
(x − x̄)(y − ȳ)
r= qP
.
P
[ (x − x̄)2 ][ (y − ȳ)2 ]
Wprowadzimy teraz dodatkowa̧ konwencjȩ zapisu polegaja̧ca̧ na oznaczaniu odchylenia zmiennych od średniej arytmetycznej przez odpowiednie duże litery:
X ≡ x − x̄,
Y ≡ y − ȳ.
Korzystaja̧c z tego, że wspóÃlczynnik a we wzorach R = ax + b oraz ȳ = ax̄ + b da
siȩ zapisać jako
X
X
a=
XY /
X2
(można to sprawdzić przeksztaÃlcaja̧c wzory na parametry linii prostej podane wcześniej w rozdziale o regresji liniowej) dostajemy:
X
(R − ȳ)2 =
= a2
≡ a2
=
=
(
X
X
P
(
(
(
= r2
≡ r2
X2
XY )2 ³X
P
P
(x − x̄)2
X 2 )2
P
X2
XY )2
X 2) (
³X
³X
P
Y2
´
³X
Y 2)
(y − ȳ)2
´
Y2
´
´
W ten sposób pokazano, że kwadrat estymatora wspóÃlczynnika korelacji równy
jest stosunkowi sumy kwadratów odchyleń wyjaśnionych przez regresjȩ do
caÃlkowitej sumy kwadratów odchyleń:
P
2
r = P
(R − ȳ)2
(y − ȳ)2
.
Daje to nam prosta̧ interpretacjȩ kwadratu wspóÃlczynnika korelacji: gdy r 2 bliskie jest
jedności to regresja odpowiada za prawie caÃly rozrzut obserwowanych wartości yi (dla
wszystkich xi ) a caÃla reszta rozrzutu może być przypisana istnieniu bÃlȩdów yi .
104
Sumȩ kwadratów wyjaśniona̧ przez regresjȩ i niewyjaśniona̧ przez regresjȩ można
zwia̧zać z odpowiednimi estymatorami wariancji. Jeżeli zmienna y i x sa̧ niezależne liniowo to obie te wariancje powinny być sobie równe (liczenie regresji nie wnosi nic nowego).
A wiȩc sprawdzenie metoda̧ analizy wariancji hipotezy, że obie wariancje sa̧
równe możemy uznać za równoważne do testowania hipotezy gÃlosza̧cej, że
zmienne x i y sa̧ liniowo niezależne tzn.
H0 : ρ(x, y) = 0.
Uporza̧dkujmy dotychczasowe informacje w tabeli analizy wariancji:
Suma
Kwadratów
CaÃlkowita
Wyjaśniona
przez regresjȩ
P
r2
Stopnie Estymator
swobody wariancji
(y − ȳ)
X
2
Statystyka testowa
N −1
(y − ȳ)2
1
r2
P
(y − ȳ)2
1
Niewyjaśniona
przez regresjȩ
(1 − r 2 )
X
(y − ȳ)
2
N −2
(1 − r 2 )
P
(y − ȳ)2
N −2
F(1,N −2) =
r 2 (N − 2)
(1 − r 2 )
Liczby stopni swobody skojarzone z odpowiednimi sumami kwadratów wynosza̧ odpowiednio:
• N − 1 dla caÃlkowitej wariancji (liczba pomiarów minus jeden zwia̧zek wykorzystany
na liczenie średniej arytmetycznej ȳ),
P
• 1 dla sumy (R − ȳ)2 (bo równanie regresji jednoznacznie określa jaki jest rozrzut
punktów leża̧cych na prostej wzglȩdem średniej arytmetycznej) i
P
• N − 2 dla sumy (y − R)2 (bo dwa równania na parametry prostej ograniczaja̧
swobodȩ zmiany N wartości yi ).
Dla sprawdzenia czy wariancja wyjaśniona przez regresjȩ jest taka sama jak wariancja
niewyjaśniona przez regresjȩ stosuje siȩ test F Fishera, używaja̧c jako statystyki testowej
ilorazu estymatorów tych wariancji a wiȩc dwu zmiennych o rozkÃladach chi-kwadrat χ21 i
χ2N 2 podzielonych przez odpowiednie liczby stopni swobody a wiȩc zmiennej:
F (1, N − 2),
analogicznie jak robi siȩ przy porównaniu wariancji dwu populacji normalnych.
Obszar krytyczny jest obszarem prawostronnym (wartości statystyki testowej wiȩksze
od krytycznej wartości tj. kwantyla F1 (1, N − 2) ).
12.8
105
TESTY NIEPARAMETRYCZNE
HIPOTEZ PORÓWNUJA̧CYCH POPULACJE
Do tej pory rozważaliśmy testy sprawdzaja̧ce hipotezy gÃlosza̧ce równość wartości oczekiwanych dwu zmiennych a także równość wariancji dwu zmiennych. Testy te dotyczyÃly
jedynie zmiennych o rozkÃladach normalnych. Teraz omówimy testy odnosza̧ce siȩ do
hipotez gÃlosza̧cych identyczność dystrybuant dwu populacji; H0 : F (X) = G(X)
niezależnie od postaci rozkÃladu. Dystrybuanty oznaczono różnymi literami aby podkreślić, że odnosza̧ siȩ do dwu różnych populacji ale badamy tȩ sama̧ zmienna̧ losowa̧
X dla obu populacji biora̧c próbȩ liczebności n1 z pierwszej populacji i liczebności n2 z
drugiej populacji.
12.8.1
TEST SMIRNOWA
• Hipoteza zerowa H0 : F (X) ≡ G(X)
gdzie zmienna X jest zmienna̧ cia̧gÃla̧.
F (X) i G(X) sa̧ odpowiednio dystrybuantami zmiennej X dla pierwszej i drugiej
populacji .
• Hipoteza alternatywna H1 : zaprzeczenie H0
• Statystyka testowa Dn1 ;n2 :
Dn1 ;n2 = sup | Fn1 (x) − Gn2 (x) |
x
gdzie Fn1 (x) i Gn2 (x) to empiryczne dystrybuanty zbudowane na podstawie prób
o liczebności odpowiednio n1 i n2 , zdefiniowane tak jak dla rozkÃladu KoÃlmogorowa.
Należy zauważyć, że obie dystrybuanty sa̧ od tej samej wartości argumentu.
Ponieważ speÃlniona jest relacja:
Dn1 ;n2 = Dn2 ;n1
wiȩc bez ograniczenia ogólności wniosków można rozważać tylko
Dn1 ;n2
zakÃladaja̧c, że
n1 ≤ n2 .
106
W praktycznych rachunkach używa siȩ nastȩpuja̧cych wzorów na Dn1 ;n2 , gdzie
obliczenia wykonuje siȩ tylko dla wartości argumentów zaobserwowanych w obu
próbach i dla rozróżnienia prób stosuje siȩ symbole x1 ...xn1 i y1 ....yn 2 na statystyki
pozycyjne odpowiednio z pierwszej i drugiej próby:
Dn+1 ;n2 =
Dn1 ;n2 =
Dn1 ;n2 =
³
max
in
1
1
³
max
in
1
1
´
i
n1 − Gn2 (xi ) =
j n
1
´
Gn2 (xi ) − in11 = max
j n
1
³
max Dn+1 ;n2 , Dn1 ;n2
´
³
max
2
2
Fn1 (yj ) − jn21
³
j
n2 − Fn1 (yj )
´
´
TWIERDZENIE (Smirnow):
Gdy H0 jest prawdziwa oraz liczby pomiarów n1 i n2 da̧ża̧ do nieskończoności to
zmienna
s
n1 · n2
Dn1 ;n2 ·
n1 + n2
da̧ży do rozkÃladu λ (KoÃlmogorowa).
♦
Dystrybuanta rozkÃladu KoÃlmogorowa wyraża siȩ nastȩpuja̧cym wzorem:
K(y) =
1
X
k=
1
(−1)k exp[−2k2 y 2 ]
Sta̧d można znaleźć kwantyle tego rozkÃladu. Przytoczymy tylko trzy najczȩściej
stosowane: y0;95 = 1, 36, y0;99 = 1, 63 i y0;999 = 1, 95.
Jeżeli obie próby sa̧ odpowiednio duże (ni > 150) to można już z rozsa̧dnym
przybliżeniem stosować asymptotyczne wzory, tj.
s
Dn1 ;n2 (1 − α) ≈
n1 + n2
n1 · n2
· y1 B.Kamys: Fiz. Komp. 2003/04
107
Gdy n1 i n2 sa̧ maÃle, trzeba stosować dokÃladny rozkÃlad statystyki Dn1 ;n2 znaleziony
przez Masseya (F.J.Massey, AMS 23 (1952) 435-441).
• Obszar krytyczny: prawostronny (duże wartości statystyki testowej)
12.8.2
108
TEST ZNAKÓW
Test znaków sÃluży do sprawdzenia hipotezy zerowej gÃlosza̧cej, że dystrybuanty dwu cia̧gÃlych
zmiennych losowych X i Y sa̧ identyczne:
• Hipoteza zerowa H0 : G(X) = F (Y ).
Przy prawdziwości H0 prawdopodobieństwo P (X > Y ) tego, że zajdzie zdarzenie losowe X > Y , jest równe prawdopodobieństwu P (X < Y ) tego, że X < Y .
Ze wzglȩdu na zaÃlożenie cia̧gÃlości zmiennych prawdopodobieństwo równości X i Y
jest równe zero; P (X = Y ) = 0 a ponieważ te trzy zdarzenia sa̧ rozÃla̧czne i
wyczerpuja̧ wszystkie możliwości wiȩc ostatecznie:
P (X < Y ) = P (X > Y ) = 1/2
• Hipoteza alternatywna H1 : G(X) 6= F (Y ).
• Statystyka testowa to liczba k takich par, że xi > yi wśród n niezależnych par
(xi , yi ). RozkÃlad prawdopodobieństwa tej statystyki przy prawdziwości H0 to
rozkÃlad Bernoulliego z parametrem p = 1/2 :
1
1
1
n
P (k) = (n
k ) · 2k · 2(n k) = (k ) · 2n
• Obszar krytyczny to bardzo maÃla (k ≈ 0) i bardzo duża (k ≈ n) liczba par
(xi , yi ), takich że xi > yi (obszar dwustronny). Jeżeli mamy wskazówki, że prawdopodobieństwo pojawienia siȩ wartości X wiȩkszych od Y jest wiȩksze niż 1/2 to
należy przyja̧ć prawostronny obszar krytyczny (k > kp ) a gdy prawdopodobieństwo
X wiȩkszych od Y jest mniejsze od 1/2 to lewostronny obszar krytyczny (k < kl ).
Brzeg prawostronnego obszaru krytycznego kp szukamy z warunku:
n
X
P (k ≥ kp ) = 2 n ·
(n
i)=α
i=kp
109
Brzeg lewostronnego obszaru krytycznego kl szukamy z warunku:
kl
X
P (k ≤ kl ) = 2 n ·
(n
i)=α
i=0
a brzegi dwustronnego obszaru krytycznego z obu powyższych wzorów, w których
zasta̧pi siȩ α przez α/2.
UWAGA:
Tu zakÃladaliśmy milcza̧co, że nie bȩda̧ siȩ pojawiaÃly pary (xi = yi ) ponieważ obie
zmienne sa̧ cia̧gÃle a wiȩc prawdopodobieństwo takich par wynosi zero. W praktyce
obliczenia wykonywane sa̧ zawsze ze skończona̧ dokÃladnościa̧ a to powoduje pojawianie
siȩ powyższych par. Jeżeli ich liczba jest niewielka w porównaniu do liczby wszystkich
par to można je po prostu pomina̧ć. W przeciwnym wypadku stosuje siȩ losowanie , które
(z prawdopodobieństwem 0,5 ) określa czy dana̧ parȩ zaliczyć do par, w których xi > yi
czy odwrotnie.
12.8.3
TEST SERII WALDA - WOLFOWITZA
Seria̧ nazywamy każdy podcia̧g cia̧gu zÃlożonego z elementów A i B maja̧cy tȩ wÃlasność,
że należa̧ do niego elementy tego samego typu (A lub B).
Liczba serii ns speÃlnia warunek:
2 ≤ ns ≤ 2 · min(nA , nB ) + 1
gdzie nA i nB to odpowiednio liczby elementów typu A i typu B w caÃlym cia̧gu.
Test serii Walda-Wolfowitza sÃluży do sprawdzania hipotezy gÃlosza̧cej, że dystrybuanty dwu zmiennych cia̧gÃlych X i Y sa̧ identyczne:
• Hipoteza zerowa H0 : F1 (X) = F2 (Y )
• Hipoteza alternatywna H1 : F1 (X) 6= F2 (Y )
110
• Statystyka testowa ns (liczba serii ).
Mamy próbȩ skÃladaja̧ca̧ siȩ z nA wartości zmiennej X oraz z nB wartości zmiennej
Y . Zapisujemy te nA + nB wartości w jeden niemaleja̧cy cia̧g i sprawdzamy ile jest
serii typu A (tzn. skÃladaja̧cych siȩ z elementów X) i ile jest serii typu B (tzn.
skÃladaja̧cych siȩ z elementów Y ). Jeżeli zdarzy siȩ, że dwie wartości sa̧ identyczne
to musimy losować (z prawdopodobieństwem 0,5), która z nich ma być pierwsza w
cia̧gu.
• Obszar krytyczny - lewostronny : ns ≤ ns (α)
Gdy hipoteza zerowa jest sÃluszna to możemy siȩ spodziewać, że wartości X sa̧
przemieszane z wartościami Y a wiȩc liczba serii bȩdzie duża. Jeżeli dystrybuanty
zmiennych X i Y sa̧ różne to spodziewamy siȩ, że systematycznie jedna z tych
zmiennych bȩdzie wiȩksza od drugiej (przynajmniej na pewnym odcinku wartości)
a wiȩc liczba serii bȩdzie maÃla. Sta̧d maÃla liczba serii w próbie bȩdzie świadczyć
przeciw hipotezie zerowej.
RozkÃlad liczby serii ns jest znany przy prawdziwości H0 i wyraża siȩ analitycznym wzorem:


































 nA − 1

 n
 nB − 1


 n




2
s −1
2
s −1
2

 nA + nB



nA


p(ns ) =
































  nB − 1


 n
s − 3
2
2
2

 nA − 1


 n
s − 1
2

dla ns parzystego




 


  nA − 1
+
 
  n
s − 3
2
2

 nB − 1


 n
s − 1




 nA + nB



nA
2
2
dla ns nieparzystego




a wiȩc można znaleźć (numerycznie) wartości krytyczne statystyki testowej.
UWAGA:
Warto zauważyć, że w przypadku odrzucenia hipotezy zerowej, tj. zaobserwowania maÃlej
liczby serii, można próbować uzyskać informacjȩ o relacji pomiȩdzy wartościami oczekiwanymi E(X) i E(Y ) sprawdzaja̧c czy na pocza̧tku caÃlego cia̧gu przeważaja̧ wartości
typu A (tj. wartości zmiennej X) czy typu B(wartości zmiennej Y ).
Jeżeli na pocza̧tku mamy przewagȩ wartości typu A a potem typu B to możemy uważać,
że E(X) < E(Y ). W przypadku odwrotnym spodziewamy siȩ, że E(X) > E(Y ).
12.8.4
111
TEST SUMY RANG WILCOXONA - MANNA - WHITNEYA
Test ten zostaÃl opracowany przez F. Wilcoxona dla dwu równie licznych prób a później
uogólniony przez H.B. Manna i D.R. Whitneya na dwie próby o dowolnej liczebności.
Można wiȩc spotkać siȩ z nazwa̧ test Wilcoxona lub test Wilcoxona-Manna-Whitneya.
Przez rangȩ obserwacji rozumie siȩ liczbȩ naturalna̧ równa̧ numerowi miejsca, który ta
obserwacja zajmuje w uporza̧dkowanym cia̧gu niemaleja̧cym obserwacji w próbie (numer
danej statystyki pozycyjnej). Jeżeli dwie lub wiȩcej obserwacji ma tȩ sama̧ wartość to
ich rangi sa̧ równe średniej arytmetycznej rang, które posiadaÃlyby gdyby siȩ minimalnie
różniÃly (tzn. różniÃlyby siȩ tak maÃlo, że nie zmieniÃlyby poÃlożenia w cia̧gu w stosunku do
innych obserwacji).
• Hipoteza zerowa H0 : F1 (X) = F2 (Y )
• Hipoteza alternatywna H1 : F1 (X) 6= F2 (Y )
Można jednak postawić inne hipotezy alternatywne:
– H1 : P (X > Y ) > 0, 5 lub
– H1 : P (X > Y ) < 0, 5
w=
nX
min
i=1
ranga(i)
nmin oznacza liczebność mniejszej próby a ranga(i) to ranga kolejnej obserwacji
z mniej licznej próby ale w cia̧gu utworzonym z obserwacji obu prób.
• Obszar krytyczny: Dla prostego zaprzeczenia - obustronny, a dla dwu pozostaÃlych
hipotez alternatywnych jest odpowiednio prawo- i lewostronny (przy zaÃlożeniu, że
próba̧ mniej liczna̧ jest próba ’X’). Wartości krytyczne trzeba brać z odpowiednich
tablic.

x x lady

Transkrypt

Podobne dokumenty

To nie jest gra planszowa! - Związek Pracodawców Gospodarki

popularyzatorski opis rezultatów projektu

Zestaw 2 - kinematyka Zarz ˛adzanie i In˙zynieria Produkcji 1. Dwie

Ekonometria Praca domowa nr 2 Termin oddania: 5 stycznia 2017

1 + z2, y

Humor z prac egzaminacyjnych """

GIMP 2.2