x x lady

Transkrypt

x x lady
TEORIA PRAWDOPODOBIEŃSTWA I
STATYSTYKA DLA FIZYKI KOMPUTEROWEJ
B. Kamys
Spis treści
1 Elementy teorii prawdopodobieństwa
1.1 Definicje podstawowych pojȩć . . . . . . . . . . . . . . . . . . . . . .
1.2 WÃlasności prawdopodobieństwa . . . . . . . . . . . . . . . . . . . . .
3
3
4
2 Ilościowy opis zmiennych losowych
6
3 Funkcje zmiennej losowej
8
4 Charakterystyki opisowe
10
5 Podstawowe pojȩcia teorii estymacji
14
6 RozkÃlad normalny (Gaussa)
16
7 Podstawy rachunku bÃlȩdów
7.1 RozkÃlad pomiarów obarczonych bÃlȩdami przypadkowymi
7.2 Estymator wartości oczekiwanej . . . . . . . . . . . . .
7.3 Estymator odchylenia standardowego . . . . . . . . . .
7.4 Zapis wyników pomiarów . . . . . . . . . . . . . . . .
7.5 BÃla̧d statystyczny . . . . . . . . . . . . . . . . . . . .
7.6 Pomiary pośrednie . . . . . . . . . . . . . . . . . . . .
7.6.1 Estymator E(Y) dla pomiaru pośredniego Y . . .
7.6.2 BÃla̧d pomiaru pośredniego . . . . . . . . . . . .
7.6.3 BÃla̧d maksymalny . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
19
21
22
23
24
26
27
27
28
28
8 Estymacja przedziaÃlowa
8.1 Estymacja E{X} gdy znamy odchylenie standardowe σ{X} . . . . . . .
8.2 Estymacja E{X} gdy nie znamy odchylenia standardowego σ{X} . . . .
8.3 Estymacja przedziaÃlowa wariancji i odchylenia standardowego . . . . . .
30
31
33
34
9 Metody szukania “dobrych” estymatorów
9.1 Metoda momentów (“MM”) . . . . . . . . . . . . . . . . . . . . . . .
9.2 Metoda najwiȩkszej wiarygodności (“MNW”) . . . . . . . . . . . . . .
9.3 Metoda najmniejszych kwadratów (“MNK”) . . . . . . . . . . . . . . .
36
36
40
45
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
B.Kamys: Fiz. Komp. 2003/04
2
10 Wielowymiarowe (wektorowe) zmienne losowe
49
10.1 Momenty rozkÃladu wielowymiarowej zmiennej losowej . . . . . . . . . .
52
~
~
10.2 Estymacja punktowa wartości oczekiwanej E{Y (X)} i macierzy kowar~ (X)
~
iancji Y
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
10.3 Regresja liniowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
10.4 Regresja przy pomocy wielomianów ortogonalnych . . . . . . . . . . . .
62
10.4.1 Regresja przy pomocy wielomianów ortogonalnych na zbiorze wartości
argumentu . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
10.4.2 Konstrukcja zespoÃlu wielomianów ortogonalnych na zbiorze wartości
argumentu . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
11 Metoda Monte Carlo
11.1 Liczenie caÃlek metoda̧ Monte Carlo . . . . . . . . . . . . . . . . . . .
11.2 Zmniejszanie bÃlȩdu caÃlki . . . . . . . . . . . . . . . . . . . . . . . . .
11.3 Generacja liczb losowych . . . . . . . . . . . . . . . . . . . . . . . . .
11.3.1 Generacja liczb o rozkÃladzie równomiernym . . . . . . . . . . .
11.3.2 Generacja liczb losowych o dowolnych rozkÃladach prawdopodobieństwa
11.3.3 Generacja wielowymiarowych zmiennych losowych . . . . . . . .
12 Testowanie hipotez statystycznych
12.1 Definicje elementarnych pojȩć . . . . . . . . . . . . . . . . . . . .
12.2 Test normalności rozkÃladu . . . . . . . . . . . . . . . . . . . . . .
12.2.1 Test zerowania siȩ wspóÃlczynnika asymetrii i kurtozy . . . . .
12.2.2 Test zgodności λ - KoÃlmogorowa . . . . . . . . . . . . . . .
12.2.3 Test zgodności Andersona-Darlinga . . . . . . . . . . . . .
12.2.4 Test zgodności χ2 - Pearsona . . . . . . . . . . . . . . . .
12.2.5 Wykres normalny . . . . . . . . . . . . . . . . . . . . . .
12.3 Hipotezy dotycza̧ce wartości oczekiwanej . . . . . . . . . . . . . .
12.3.1 Porównanie E(X) z liczba̧ (H0 : E(X) = X0 ) . . . . . . .
12.3.2 Wartości oczekiwane dwu populacji (H0 : E(X) = E(Y )) .
12.4 Hipotezy dotycza̧ce wariancji . . . . . . . . . . . . . . . . . . . .
12.4.1 Porównanie wariancji X z liczba̧ (H0 : σ 2 (X) = σ02 ) . . . .
12.4.2 Porównanie wariancji dwu populacji (H0 : σ 2 (X) = σ 2 (Y ))
12.5 Hipoteza jednorodności wariancji kilku populacji . . . . . . . . . .
12.5.1 Test Bartletta . . . . . . . . . . . . . . . . . . . . . . . .
12.5.2 Test Cochrana . . . . . . . . . . . . . . . . . . . . . . . .
12.6 Analiza wariancji - klasyfikacja jednoczynnikowa . . . . . . . . . . .
12.7 Analiza wariancji - dla regresji liniowej . . . . . . . . . . . . . . .
12.8 Testy nieparametryczne hipotez porównuja̧cych populacje . . . . . .
12.8.1 Test Smirnowa . . . . . . . . . . . . . . . . . . . . . . . .
12.8.2 Test znaków . . . . . . . . . . . . . . . . . . . . . . . . .
12.8.3 Test serii Walda-Wolfowitza . . . . . . . . . . . . . . . . .
12.8.4 Test sumy rang Wilcoxona-Manna-Whitneya . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
67
67
69
72
72
74
80
81
81
82
82
84
86
87
88
90
90
91
94
94
94
96
96
97
98
102
105
105
108
109
111
B.Kamys: Fiz. Komp. 2003/04
1
1.1
3
ELEMENTY TEORII PRAWDOPODOBIEŃSTWA
DEFINICJE PODSTAWOWYCH POJȨĆ
DEFINICJA: Zbiór zdarzeń elementarnych - zbiór takich zdarzeń, które siȩ wzajemnie wykluczaja̧ oraz wyczerpuja̧ wszystkie możliwości (tzn. w każdym możliwym
przypadku przynajmniej jedno z nich musi zachodzić).
DEFINICJA: Zdarzeniem jest dowolny podzbiór zdarzeń elementarnych E.
DEFINICJA: Zdarzeniem pewnym jest zdarzenie zawieraja̧ce wszystkie elementy
zbioru E (zachodzi zawsze).
DEFINICJA: Zdarzeniem niemożliwym jest zdarzenie nie zawieraja̧ce żadnego elementu zbioru E tj. zbiór pusty Ø.
DEFINICJA: Zdarzenie A zawiera siȩ w zdarzeniu B jeżeli każde zdarzenie elementarne należa̧ce do zbioru A należy do B: A ⊂ B
DEFINICJA: Zdarzenia A i B sa̧ równe
gdy A ⊂ B i B ⊂ A.
DEFINICJA: Suma zdarzeń A+B
to zdarzenie zawieraja̧ce te i tylko te zdarzenia elementarne, które należa̧ do któregokolwiek
S
ze zdarzeń A, B (suma logiczna zbiorów zdarzeń elementarnych A B).
DEFINICJA: Różnica zdarzeń A-B
to zdarzenie zawieraja̧ce te i tylko te zdarzenia elementarne, które należa̧ do zdarzenia
A a nie należa̧ do zdarzenia B.
DEFINICJA: Iloczyn zdarzeń A.B to zdarzenie zawieraja̧ce te i tylko te zdarzenia eleT
mentarne, które należa̧ do wszystkich zdarzeń A, B (tzn. w jȩzyku zbiorów A B).
DEFINICJA: Zdarzeniem przeciwnym do A: A nazywamy różnicȩ E − A .
DEFINICJA: Zdarzeniem losowym - nazywamy zdarzenie speÃlniaja̧ce poniższe warunki:
1. W zbiorze zdarzeń losowych znajduje siȩ zdarzenie pewne oraz zdarzenie
niemożliwe.
2. Jeżeli zdarzenia A1 , A2 , ... w ilości skończonej lub przeliczalnej sa̧ zdarzeniami
losowymi to ich iloczyn i ich suma sa̧ również zdarzeniami losowymi.
B.Kamys: Fiz. Komp. 2003/04
4
3. Jeżeli A1 i A2 sa̧ zdarzeniami losowymi to ich różnica jest również zdarzeniem
losowym.
INTUICYJNE OKREŚLENIE: Zdarzenie losowe to takie, o którym nie możemy
powiedzieć czy zajdzie w danych warunkach czy też nie zajdzie.
DEFINICJA: Zmienna̧ losowa̧ nazywamy jednoznaczna̧ funkcjȩ rzeczywista̧ X(e)
określona̧ na zbiorze E zdarzeń elementarnych taka̧, że każdemu przedziaÃlowi wartości
funkcji X odpowiada zdarzenie losowe.
DEFINICJA: Zmienna losowa typu skokowego (dyskretnego) to taka, która
przyjmuje tylko co najwyżej przeliczalny zbiór wartości. Zmienna losowa typu
cia̧gÃlego - może przyjmować dowolne wartości od minus do plus nieskończoności.
DEFINICJA: Definicja prawdopodobieństwa
Aksjomat 1: Każdemu zdarzeniu losowemu przyporza̧dkowana jest jednoznacznie
nieujemna liczba rzeczywista zwana prawdopodobieństwem.
Aksjomat 2: Prawdopodobieństwo zdarzenia pewnego jest równe jedności.
Aksjomat 3: Jeżeli zdarzenie losowe Z jest suma̧ skończonej lub przeliczalnej
liczby rozÃla̧cznych zdarzeń losowych Z1 ,Z2 ,.. to prawdopodobieństwo zrealizowania siȩ zdarzenia Z jest równe sumie prawdopodobieństw zdarzeń Z1 ,Z2 ,
..
Aksjomat 4: Prawdopodobieństwo warunkowe zdarzenia A pod warunkiem, że
zachodzi zdarzenie B; P (A | B) wyraża siȩ wzorem:
)
P (A | B) = PP(A:B
(B )
Prawdopodobieństwo to jest nieokreślone, gdy prawdopodobieństwo zdarzenia
B wynosi zero.
1.2
WÃLASNOŚCI PRAWDOPODOBIEŃSTWA
1.) Zdarzenie przeciwne do A :
P (A) = 1 − P (A)
Dowód:
A + A = E a wiȩc P (A + A) = P (E) = 1,
z drugiej strony A i A wykluczaja̧ siȩ wiȩc
P (A + A) = P (A) + P (A).
Sta̧d P (A) = P (E) − P (A) czyli P (A) = 1 − P (A) c.b.d.o.
2.) Zdarzenie niemożliwe :
P (Ø) = 0
B.Kamys: Fiz. Komp. 2003/04
5
Dowód:
E i Ø wykluczaja̧ siȩ wiȩc P (E + Ø) = P (E) + P (Ø) oraz E + Ø = E a wiȩc
P (E + Ø) = P (E), czyli P (Ø) = 0
c.b.d.o.
3.) Zdarzenie A zawiera siȩ w B :
P (A) ≤ P (B)
Dowód: P (B) = P (A + (A.B)) = P (A) + P (A.B) ≥ P (A) c.b.d.o.
4.) Dowolne zdarzenie losowe :
0 ≤ P (A) ≤ 1
Dowód: Dla każdego zdarzenia jest prawdziwe:
Ø ⊂ A + Ø = A = A.E ⊂ E
a wiȩc prawdopodobieństwa zdarzeń Ø,A i E speÃlniaja̧:
0 ≤ P (A) ≤ 1 c.b.d.o.
5.) Suma dowolnych zdarzeń A+B :
P (A + B) = P (A) + P (B) − P (A.B)
Dowód:
Zarówno A + B jak i B możemy zapisać jako sumy rozÃla̧cznych (wykluczaja̧cych
siȩ) zdarzeń:
A + B = A + (B − A.B) oraz
B = A.B + (B − A.B),
stosujemy aksjomat nr 3 definicji prawdopodobieństwa,
P (A + B) = P (A) + P (B − A.B),
P (B) = P (A.B) + P (B − A.B)
odejmujemy stronami: P (A + B) = P (A) + P (B) − P (A.B) c.b.d.o.
6.) Iloczyn zdarzeń A.B :
P (A.B) = P (B).P (A | B) = P (A).P (B | A)
Dowód:
Wynika to automatycznie z 4 aksjomatu definicji prawdopodobieństwa.
DEFINICJA: Zdarzenie A jest niezależne od B gdy P (A | B) = P (A).
7.) Jeżeli A nie zależy od B to B nie zależy od A. Dowód:
Korzystamy z dwu wzorów na prawdopodobieństwo A.B podanych wyżej, przy czym
w pierwszym z nich uwzglȩdniamy, że A jest niezależne od B. Wówczas z porównania
obu wzorów dostajemy P (B | A) = P (B).
c.b.d.o.
B.Kamys: Fiz. Komp. 2003/04
6
8.) WKW niezależnosci: P (A.B) = P (A).P (B) Dowód:
Wynika to automatycznie ze wzoru na prawdopodobieństwo iloczynu zdarzeń.
c.b.d.o
9.) FormuÃla ’caÃlkowitego prawdopodobieństwa’: Jeżeli istnieje zbiór zdarzeń
A1 , A2 , ... wykluczaja̧cych siȩ wzajemnie i wyczerpuja̧cych wszystkie możliwości
wówczas prawdopodobieństwo dowolnego zdarzenia B może być zapisane nastȩpuja̧co:
P (B) =
P
i P (Ai ).P (B | Ai )
Dowód:
P
P
B =
i B.Ai (suma rozÃla̧cznych zdarzeń) a wiȩc P (B) =
i P (B.Ai ) a każdy
skÃladnik można zapisać jako P (Ai ).P (B | Ai ). c.b.d.o.
2
ILOŚCIOWY OPIS ZMIENNYCH LOSOWYCH
Ilościowy opis zmiennych losowych uzyskujemy stosuja̧c
• Dystrybuantȩ (Zwana̧ czȩsto przez statystyków funkcja̧ rozkÃladu)
• RozkÃlad prawdopodobieństwa (Tylko dla zmiennych dyskretnych)
• Funkcjȩ gȩstości prawdopodobieństwa (Tylko dla zmiennych cia̧gÃlych) oraz
wielkości charakteryzuja̧ce te powyżej wymienione twory.
DEFINICJA: Dystrybuanta̧ F(x) nazywamy prawdopodobieństwo tego, że zmienna losowa X przyjmie wartość mniejsza̧ od x. (X - to symbol zmiennej losowej a
x to jej konkretna wartość). Oczywiście dystrybuanta jest funkcja̧ x.
F (x) ≡ P (X < x)
WÃlasności dystrybuanty:
1. 0 ≤ F (x) ≤ 1
2. F (−∞) = 0
3. F (+∞) = 1
4. F (x) jest niemaleja̧ca̧ funkcja̧
5. F (x) nie posiada wymiaru
B.Kamys: Fiz. Komp. 2003/04
7
PrzykÃlad:
Dla rzutu kostka̧ do gry, gdzie jako zmienna̧ losowa̧ przyjȩto liczbȩ wyrzuconych
punktów:
F (x) =
=
=
=
=
=
=
0 dla x ≤ 1,
1/6 dla 1 < x
2/6 dla 2 < x
3/6 dla 3 < x
4/6 dla 4 < x
5/6 dla 5 < x
1 dla x > 6
≤
≤
≤
≤
≤
2,
3,
4,
5,
6,
DEFINICJA: RozkÃlad prawdopodobieństwa : Jeżeli xi (i = 1, 2, ...) sa̧ wartościami
dyskretnej zmiennej losowej to rozkÃladem prawdopodobieństwa nazywamy zespóÃl
prawdopodobieństw:
P (X = xi ) = pi ,
P
i pi = 1
PrzykÃlad:
RozkÃlad prawdopodobieństwa dla rzutu kostka̧ do gry omawianego powyżej:
pi = 1/6 dla i = 1, 2..6.
DEFINICJA:
Funkcja gȩstości prawdopodobieństwa f(x)
f (x)dx ≡ P (x ≤ X ≤ x + dx)
WÃlasności funkcji gȩstości prawdopodobieństwa:
1. f (x) ≥ 0,
2. f (x) jest unormowana tj.
R +1
1
f (x)dx = 1
3.
f (x) = dFdx(x)
4.
wymiar f (x) = wymiar(1/x)
B.Kamys: Fiz. Komp. 2003/04
8
PrzykÃlad:



0
dla
f (x) =  1/(b − a) dla

0
dla
3
x<a
a ≤x≤b
x>b
FUNKCJE ZMIENNEJ LOSOWEJ
Funkcja Y zmiennej losowej X: Y = Y(X) jest również zmienna̧ losowa̧. Dlatego
też można dla niej określić dystrybuantȩ, rozkÃlad prawdopodobieństwa lub funkcjȩ
gȩstości prawdopodobieństwa. Sa̧ one prosto zwia̧zane z odpowiednimi wielkościami
dla zmiennej X. Należy rozpatrzyć niezależnie przypadek, gdy funkcja Y(X) jest
monotoniczna oraz gdy nie posiada tej wÃlasnosci.
a) Funkcja Y = Y(X) jest monotoniczna.
Można wówczas jednoznacznie określić funkcjȩ odwrotna̧ X=X(Y).
1. Dystrybuanta funkcji Y(X): G(y)
Y(X) jest rosna̧ca :
G(y) = F (x(y))
Y(X) jest maleja̧ca :
G(y) = 1 − F (x(y)) − P (x; y = y(x))
Dowód: Wychodza̧c z definicji dla Y(X) rosna̧cej:
G(y) = P (Y < y)
= P (X(Y ) < x)
= F (x(y))
dla Y(X) maleja̧cej:
G(y) = P (Y < y)
= P (X(Y ) > x)
= 1 − P (X(Y ) ≤ x)
= 1 − P (X(Y ) < x) − P (X(Y ) = x)
= 1 − F (x(y)) − P (x; Y = y(x)) c.b.d.o.
B.Kamys: Fiz. Komp. 2003/04
9
2. RozkÃlad prawdopodobieństwa P(y):
P (yi ) = P (xi ; yi = Y (xi ))
3. Funkcja gȩstości prawdopodobieństwa g(y):
(y )
|
g(y) = f (x(y)) | dxdy
gdzie X(Y) jest funkcja̧ odwrotna̧ do Y(X).
Z definicji: f (x)dx = P (x ≤ X < x + dx) a to prawdopodobieństwo przy
jednoznacznym zwia̧zku miȩdzy X i Y wynosi P (y ≤ Y < y + dy) = g(y)dy.
Znak moduÃlu przy pochodnej pojawia siȩ sta̧d, że przy maleja̧cej funkcji Y (X)
pochodna bȩdzie ujemna co powodowaÃloby, że g(y) byÃlaby ujemna a zgodnie z
definicja̧ musi być nieujemna.
PrzykÃlad dla funkcji monotonicznej:
Y (X) = aX + b ; a i b to rzeczywiste staÃle
1. RozkÃlad prawdopodobieństwa:
P (Y = yi ) = P (axi + b = yi ) = P (xi = yia b )
2. Dystrybuanta:
dla a > 0, G(y) = F (x = y a b ),
dla a < 0, G(y) = 1 − F (x = y a b ) − P (x = y a b )
3. Gȩstość prawdopodobieństwa:
g(y) = ja1j f (x = y a b )
B.Kamys: Fiz. Komp. 2003/04
10
b.) Funkcja Y(X) nie jest monotoniczna .
Wówczas dzielimy obszar zmienności X na przedziaÃly, w których Y(X) jest
monotoniczna i powtarzamy powyższe rozważania sumuja̧c przyczynki od rozÃla̧cznych
przedziaÃlów.
PrzykÃlad dla funkcji niemonotonicznej:
Y (X) = X 2
1. RozkÃlad prawdopodobieństwa:
√
√
P (yi ) = P (X 2 = yi ) = P (X = − yi ) + P (X = + yi )
2. Dystrybuanta:
√
√
G(y) = P (Y < y) = P (X 2 < y) = P (− y < X < + y)
G(y) = 0 dla y ≤ 0
√
√
G(y) = F ( y) − F (− y) dla y ≥ 0
3. RozkÃlad gȩstości prawdopodobieństwa:
g(y) = 0 dla y < 0
1
−1
√
√
g(y) = | √ | f ( y) + √ f (− y)
2 y
2 y
1
√
√
= √ (f ( y) + f (− y)) dla y ≥ 0
2 y
4
CHARAKTERYSTYKI OPISOWE
W praktycznych zastosowaniach czȩsto wystarcza poznanie wartości pewnych wielkości,
które charakteryzuja̧ rozkÃlad prawdopodobieństwa zamiast peÃlnej informacji o rozkÃladzie.
Oto najczȩściej stosowane:
DEFINICJA: fraktyl xq (zwany również kwantylem) jest to taka wartość zmiennej
losowej, że prawdopodobieństwo znalezienia mniejszych od niej wartości wynosi q:
P (X < xq ) ≡ F (xq ) = q
B.Kamys: Fiz. Komp. 2003/04
11
Najważniejsze fraktyle to dolny kwartyl: x0:25 , górny kwartyl: x0:75 oraz mediana: x0:5 .
DEFINICJA: Moda (zwana również wartościa̧ modalna̧ jest to taka wartość zmiennej
losowej, dla której rozkÃlad prawdopodobieństwa (lub funkcja gȩstości prawdopodobieństwa)
przyjmuje maksimum.
DEFINICJA: RozkÃlady prawdopodobieństwa posiadaja̧ce jedna̧ modȩ zwane sa̧
jednomodalnymi a te, które maja̧ wiȩcej niż jedna̧ - wielomodalnymi.
DEFINICJA: m1 zwany wartościa̧ oczekiwana̧, wartościa̧ średnia̧ lub nadzieja̧ matematyczna̧. Bȩdziemy go oznaczali przez E(X) (stosuje siȩ również oznaczenie M(X) lub
X̂ ).
P
E(X) ≡ R i xi ·pi
dla zmiennych dyskretnych,
E(X) ≡ x·f (x) dx
dla zmiennych cia̧gÃlych
UWAGA: Jeżeli powyższa caÃlka (lub suma) sa bezwzglȩdnie zbieżne to mówimy, że istnieje
wartość oczekiwana. W przeciwnym wypadku (nawet jeżeli caÃlka jest zbieżna) mówimy,
że wartość oczekiwana nie istnieje !
INTERPRETACJA E(X):
E(X) jest wspóÃlrzȩdna̧ punktu, który byÃlby środkiem masy
rozkÃladu prawdopodobieństwa (lub pola pod funkcja̧ gȩstości prawdopodobieństwa) gdyby prawdopodobieństwa poszczególnych wartości
”xi ”traktować jako masy (lub odpowiednio gȩstość prawdodobieństwa
jako zwykÃla̧ gȩstość).
WÃLASNOŚCI E(X):
E(X) jest operatorem liniowym a wiȩc:
1.
P
E( i Ci · Xi ) =
P
i Ci · E(Xi )
Co w szczególnych przypadkach daje:
(a) E(C) = C
(b) E(C · X) = C · E(X)
(c) E(X1 + X2 ) = E(X1 ) + E(X2 )
B.Kamys: Fiz. Komp. 2003/04
12
2. Dla zmiennych niezależnych X1 , ..., Xn
½
E
Q
i
¾
Xi =
Q
i
E {Xi }
UWAGA: Warunkiem koniecznym i wystarczaja̧cym by zmienne byÃly niezależne
jest aby wspólny rozkÃlad prawdopodobieństwa faktoryzowaÃl siȩ: f (X1 , X2 , .., Xn ) =
f1 (X1 ).f2 (X2 )...fn (Xn ). RozkÃlady wielu zmiennych losowych omówimy później.
3. Dla funkcji zmiennej X; Y=Y(X)
wartość oczekiwana E(Y) może być znaleziona przy pomocy rozkÃladu zmiennej X
bez konieczności szukania rozkÃladu f(y):
R
P
E(Y ) = i y(xi ) · pi , E(Y ) = y(x) · f (x)dx
dla zmiennej dyskretnej i dla zmiennej cia̧gÃlej odpowiednio.
DEFINICJA: Momentem rozkÃladu rzȩdu ’k’ wzglȩdem punktu x0 , nazywamy nastȩpuja̧ca̧
wielkość:
mk (x0 ) ≡ E{(x − x0 )k }
czyli
R
mk (x0 ) ≡ (x − x0 )k f (x) dx
P
mk (x0 ) ≡ i (xi − x0 )k p(xi )
dla zmiennych cia̧gÃlych i dyskretnych odpowiednio.
Najważniejszymi momentami sa̧ te, które liczone sa̧ wzglȩdem pocza̧tku ukÃladu wspóÃlrzȩdnych
tj. x0 = 0 - (bȩdziemy je oznaczali przez ’ mk ’ ) oraz momenty liczone wzglȩdem
X0 = m1 tj. wzglȩdem pierwszego momentu wzglȩdem pocza̧tku ukÃladu wspóÃlrzȩdnych.
Te ostatnie momenty nazywa siȩ momentami centralnymi (bȩdziemy je oznaczać przez
’ µk ’).
DEFINICJA: µ2 , zwany wariancja̧ lub dyspersja̧
Bȩdziemy go oznaczać przez σ 2 (X) lub var(X) (stosuje siȩ również oznaczenie
D(X). Pierwiastek z wariancji nazywany jest odchyleniem standardowym i oznaczany
σ(X) ale czasami używa siȩ również nazwy ’ dyspersja ’.
P
σ 2 (X) ≡ R i (xi − E(x))2 · pi
zmienna dyskretna
σ 2 (X) ≡ (x − E(x))2 · f (x)dx
zmienna cia̧gÃla
B.Kamys: Fiz. Komp. 2003/04
13
WÃLASNOŚCI WARIANCJI:
1. Wariancja może być wyrażona przez momenty liczone wzglȩdem pocza̧tku ukÃladu
wspóÃlrzȩdnych:
σ 2 (X) = m2 − m21
σ 2 (X) = E(X 2 ) − E 2 (X)
Dowód: Korzystamy z trzeciej wÃlasności wartości oczekiwanej tj.
m2 (E(X)) = E((X − E(X))2 )
= E(X 2 − 2X.E(X) + E 2 (X))
= E(X 2 ) − 2E(X).E(X) + E 2 (X)
= E(X 2 ) − E 2 (X)
c.b.d.o.
PosÃlugujac siȩ tym przedstawieniem wariancji dostajemy natychmiast nastȩpuja̧ce
wÃlasności:
(a)
var(C) = 0 .
bo E(C 2 ) − E 2 (C) = C 2 − C 2 = 0 c.b.d.o.
(b)
var(C · X) = C 2 · var(X)
jest to nastȩpstwo liniowości E(X), przez która̧ definiowaliśmy var(X).
(c) var(C1 · X + C2 ) = C 2 · var(X)
2. Dla zmiennych niezależnych
P
var( i Ci · Xi ) =
P
2
i Ci · var(X)
Wzór ten Ãlatwo wyprowadzić przypominaja̧c definicjȩ wariancji i korzystaja̧c z trzeciej
wÃlasności wartości oczekiwanej:
P
var(y = i Ci · Xi ) ≡ E((y − E(Y ))2 ).
Po wstawieniu do wzoru oraz podniesieniu do kwadratu otrzymamy sumȩ kwadratów
wyrażeń Ci · (Xi − E(Xi )) oraz iloczyny mieszane tych wyrażeń. Iloczyny mieszane
znikna̧ w chwili gdy podziaÃla na nie zewnȩtrzny operator wartości oczekiwanej (ponieważ
E(X − E(X)) = E(X) − E(X) = 0).
ZaÃlożenie niezależności jest potrzebne przy liczeniu wartości oczekiwanej z iloczynów
mieszanych (wówczas wartość oczekiwana iloczynu równa jest iloczynowi wartości oczekiwanych). Suma wartości oczekiwanych z kwadratów wyrażeń Ci · (Xi − E(Xi )) jest
wÃlaśnie oczekiwanym przez nas wyrażeniem.
B.Kamys: Fiz. Komp. 2003/04
14
Interpretacja wariancji wynika z nierówności Czebyszewa, która̧ można zapisać nastȩpuja̧co:
P (| X − E(X) |≥ a · σ(X)) ≤ a
2
TWIERDZENIE:
Prawdopodobieństwo odchylenia wartości zmiennej losowej od wartości oczekiwanej E(X)
o ’a’ -krotna̧ wartość odchylenia standardowego jest mniejsze lub równe od a12 .
Twierdzenie to jest sÃluszne dla wszystkich rozkÃladów, które posiadaja̧ wariancjȩ (a wiȩc,
co za tym idzie i wartość oczekiwana̧). Liczba ’ a ’ jest dowolna̧ dodatnia̧ rzeczywista̧ liczba̧.
INTERPRETACJA WARIANCJI Korzystaja̧c z powyższego twierdzenia dochodzimy do
wniosku, że wariancja (lub odchylenie standardowe) jest miara̧ rozrzutu zmiennej losowej dokoÃla wartości oczekiwanej.
Jest to bardzo ważny wniosek bo w analizie danych doświadczalnych utożsamiamy
wartość oczekiwana̧ pomiarów wykonanych w obecności bÃlȩdów przypadkowych z
wartościa̧ prawdziwa̧ mierzonej wielkości. Wtedy miara̧ bÃlȩdu przypadkowego
jest odchylenie standardowe bo ono określa rozrzut wyników dokoÃla wartości prawdziwej.
5
PODSTAWOWE POJȨCIA TEORII ESTYMACJI
DEFINICJA: W statystyce skończony zespóÃl doświadczeń nazywamy próba̧ a wnioskowanie na podstawie próby o wÃlasnościach nieskończonego (zwykle) zespoÃlu wszystkich
możliwych doświadczeń zwanego populacja̧ generalna̧ , nazywamy estymacja̧.
DEFINICJA: Przez próbȩ prosta̧ rozumiemy cia̧g niezależnych doświadczeń odnosza̧cych
siȩ do tej samej populacji generalnej.
DEFINICJA: Statystyka̧ nazywamy taka̧ funkcjȩ zmiennych losowych obserwowanych w
próbie, która sama jest zmienna̧ losowa̧.
DEFINICJA: Estymatorem Tn (x1 , x2 , ..xn ; θ) parametru θ lub w skrócie Tn (θ) nazywamy statystykȩ o rozkÃladzie prawdopodobieństwa zależnym od θ. Tu ’x1 , x2 , ..’ oznaczaja̧ wyniki pomiarów próby a przez rozkÃlad prawdopodobieństwa rozumiemy przyporza̧dkowanie prawdopodobieństw różnym wartościom statystyki Tn .
B.Kamys: Fiz. Komp. 2003/04
15
DEFINICJA: Estymacja punktowa to taka estymacja, która polega na oszacowaniu
wartości danego parametru θ przez wartość jego estymatora Tn (θ).
DEFINICJA: Estymacja przedziaÃlowa polega na szukaniu przedziaÃlu liczbowego, wewna̧trz
którego z zaÃlożonym prawdopodobieństwem leży prawdziwa wartość parametru.
DEFINICJA: Estymator Tn (θ), jest zgodny jeżeli dla każdego ² > 0 jest speÃlniony
warunek:
limn!1 P (| Tn (θ) − θ |< ²) = 1
W takim przypadku używa siȩ czȩsto określenia, że estymator speÃlnia prawo wielkich
liczb .
PRZYKÃLAD:
TWIERDZENIE (Bernoulli): Wzglȩdna czȩstość pojawiania siȩ zdarzenia ’A’ w
cia̧gu ’n’ doświadczeń speÃlnia prawo wielkich liczb czyli jest zgodnym estymatorem prawdopodobieństwa zdarzenia A: P (A).
limn!1 P (| nA /n − P (A) |< ²) = 1
DEFINICJA:
Estymator speÃlniaja̧cy mocne prawo wielkich liczb to taki, który jest zbieżny do estymowanego parametru z prawdopodobieństwem równym jedności.
P (limn!1 Tn (θ) = θ) = 1
PRZYKÃLAD:
TWIERDZENIE: F.P.Cantelli udowodniÃl w 1917 roku, że wzglȩdna czȩstość pozytywnego zakończenia doświadczenia; nA /n jest zbieżna do prawdopodobieństwa zdarzenia
A; P (A) z prawdopodobieństwem równym jedności:
P (limn!1 (nA /n) = P (A)) = 1
czyli wzglȩdna czȩstość speÃlnia mocne prawo wielkich liczb.
DEFINICJA: Estymatorem nieobcia̧żonym Tn (θ) parametru θ nazywamy taki estymator, którego wartość oczekiwana równa jest wartości estymowanego parametru niezależnie
od rozmiarów próby:
E(Tn (θ)) = θ
B.Kamys: Fiz. Komp. 2003/04
16
DEFINICJA: Obcia̧żeniem estymatora ’Bn ’ nazywamy różnicȩ jego wartości oczekiwanej i wartości estymowanego parametru:
Bn = E(Tn (θ)) − θ
DEFINICJA: Estymatorem obcia̧żonym nazywamy taki estymator, którego obcia̧żenie
jest różne od zera.
DEFINICJA: Estymatorem asymptotycznie nieobcia̧żonym nazywamy taki estymator
obcia̧żony, którego obcia̧żenie zmierza do zera gdy rozmiary próby nieskończenie rosna̧:
limn!1 Bn = 0
TWIERDZENIE:
Jeżeli wariancja estymatora nieobcia̧żonego lub asymptotycznie nieobcia̧żonego da̧ży do
zera gdy rozmiary próby rosna̧ nieograniczenie wówczas estymator ten jest zgodny.
TWIERDZENIE:
Jeżeli Tn (θ) jest zgodnym estymatorem θ i jeżeli h(θ) jest wielomianem lub ilorazem
wielomianów to estymator h(Tn (θ)) jest estymatorem zgodnym dla h(θ).
DEFINICJA:
Jeżeli mamy zbiór estymatorów tego samego parametru θ: Tn(1) (θ),Tn(2) (θ), ... Tn(k) (θ),
wówczas ten spośród nich nazywany jest najbardziej efektywnym, który ma najmniejsza̧
wariancjȩ.
6
ROZKÃLAD NORMALNY (Gaussa)
DEFINICJA:
Cia̧gÃla zmienna losowa X, której funkcja gȩstości prawdopodobieństwa ma nastȩpuja̧ca̧
postać:
f (X) =
p21 B
exp(
(X A)2
)
2B 2
nazywa siȩ zmienna̧ o rozkÃladzie normalnym N (A, B).
B.Kamys: Fiz. Komp. 2003/04
17
WÃlasności rozkÃladu normalnego f (X) ≡ N (A, B):
Wartość oczekiwana:
E(X) = A
Odchylenie standardowe:
σ(X) = B
Sta̧d Ãlatwo widać, że N (A, B) ≡ N (E(X), σ(X))
Dystrybuanta rozkÃladu normalnego nie wyraża siȩ przez funkcje elementarne.
Warto zapamiȩtać nastȩpuja̧ce wartości prawdopodobieństwa znalezienia zmiennej X w danym przedziale:
P (E(X) − σ(X) ≤ X < E(X) + σ(X)) = 0.6827
P (E(X) − 2σ(X) ≤ X < E(X) + 2σ(X)) = 0.9545
P (E(X) − 3σ(X) ≤ X < E(X) + 3σ(X)) = 0.9973
Uwaga:
Dowolna̧ zmienna̧ Y o rozkÃladzie normalnym można standaryzować tworza̧c wielkość Z
o rozkÃladzie ’standardowym normalnym’ N (0, 1):
Z = (Y − E(Y ))/σ(Y ).
Standaryzacja jest ważna ze wzglȩdu na możliwość tablicowania zarówno funkcji gȩstości
prawdopodobieństwa, jak i dystrybuanty rozkÃladu N (0, 1) a potem wykorzystania faktu,
że maja̧c zmienna̧ X o rozkÃladzie N (0, 1) możemy stworzyć zmienna̧ Y o rozkÃladzie
N (A, B) przez prosta̧ transformacjȩ: Y = B ∗ X + A .
TWIERDZENIE (Centralne Twierdzenie Graniczne w wersji podanej przez
Lapunowa):
Niech X1 , X2 , ...Xn bȩdzie cia̧giem niezależnych zmiennych losowych których rozkÃlady
posiadaja̧:
• wartość oczekiwana̧ E(Xk ),
• wariancjȩ var(Xk ),
• trzeci moment centralny µ3 (Xk ), oraz
B.Kamys: Fiz. Komp. 2003/04
18
• absolutny trzeci moment centralny tj.
bk ≡ E(| Xk − E(Xk ) |3 ) dla k = 1, ..., n.
Wówczas cia̧g dystrybuant standaryzowanych zmiennych losowych zdefiniowanych
nastȩpuja̧co:
Z=
n
X
Xk − E(Xk )
k=1
qP
n var(X )
i
i=1
speÃlnia zależność:
t2
1 ZZ
dt · exp(− )
lim Fn (Z) = √
n!1
2
2π 1
jeżeli jest speÃlniony warunek:
qP
3
lim q
n!1 2 Pn
n b
k=1 k
k=1 var(Xk )
=0
Centralne Twierdzenie Graniczne (Intuicyjne sformuÃlowanie)
Zmienna Z bȩda̧ca standaryzowana̧ suma̧ niezależnych zmiennych losowych bedzie miaÃla
standardowy rozkÃlad normalny gdy liczba skÃladników w sumie da̧ży do nieskończoności
oraz w sumie nie wystȩpuja̧ zmienne o wariancjach dominuja̧cych w stosunku do reszty
skÃladników.
WÃlaśnie to twierdzenie powoduje, że rozkÃlad normalny jest wyróżnionym rozkÃladem bardzo czȩsto stosowanym w statystyce.
B.Kamys: Fiz. Komp. 2003/04
7
19
PODSTAWY RACHUNKU BÃLȨDÓW
Wynik pomiaru bez podania dokÃladności
doświadczenia (bÃlȩdu) jest bezwartościowy.
DEFINICJA: Pomiarem bezpośrednim nazywamy doświadczenie, w którym przy pomocy odpowiednich przyrza̧dow mierzymy (porównujemy z jednostka̧) interesuja̧ca̧ nas
wielkość fizyczna̧.
PrzykÃlad:
• Pomiar dÃlugości przedmiotu przy pomocy linijki
• Pomiar dÃlugości odcinka czasu przy pomocy zegara
DEFINICJA: Pomiarem pośrednim nazywamy doświadczenie, w którym wyznaczamy
wartość interesuja̧cej nas wielkości fizycznej przez pomiar innych wielkości fizycznych
zwia̧zanych z dana̧ wielkościa̧ znanym zwia̧zkiem funkcyjnym.
PrzykÃlad:
• Pomiar oporu elektrycznego przewodnika: mierzymy spadek napiȩcia U na przewodniku i pra̧d I przez niego pÃlyna̧cy a opór R wyznaczamy z prawa Ohma: R = U/I.
• Pomiar gȩstości stopu, z którego zbudowany jest prostopadÃlościan: mierzymy bezpośrednio
dÃlugość krawȩdzi a, b i c prostopadÃlościanu i jego masȩ m a gȩstość wyznaczamy
ze wzoru: ρ = m/(a · b · c).
DEFINICJA: BÃlȩdem pomiaru e nazywamy różnicȩ pomiȩdzy wartościa̧ X uzyskana̧ w
doświadczeniu a prawdziwa̧ (nieznana̧) wartościa̧ X0 danej wielkości:
e = X − X0
BÃlȩdy dzielimy na grube, systematyczne i przypadkowe
DEFINICJA: BÃlȩdy grube to bÃlȩdy, które pojawiaja̧ siȩ w wyniku pomyÃlki eksperymentatora (np. odczyt na niewÃlaściwej skali przyrza̧du) lub w wyniku niesprawności aparatury
pomiarowej. Zwykle sa̧ one na tyle duże, że można je Ãlatwo zauważyć.
B.Kamys: Fiz. Komp. 2003/04
20
Dla unikniȩcia tych bÃlȩdów należy starannie zorganizować proces pomiaru i używać do
doświadczeń tylko wÃlaściwie wytestowanych przyrza̧dów.
DEFINICJA: BÃlȩdy systematyczne to takie, które podczas wykonywania pomiaru systematycznie przesuwaja̧ wyniki pomiarów w jedna̧ stronȩ w stosunku do prawdziwej
wartości.
PrzykÃlad:
Przy pomiarze oporu możemy zastosować dwa różne schematy podÃla̧czenia woltomierza i
amperomierza:
1. Woltomierz podÃla̧czony równolegle do oporu a szeregowo do nich amperomierz.
Wówczas spadek napiȩcia mierzony jest rzeczywiście na oporniku ale pra̧d mierzony
przez amperomierz odpowiada nie samemu pra̧dowi pÃlyna̧cemu przez przewodnik
lecz sumie pra̧dów - opornika i woltomierza. Systematycznie zawyżamy wartość
pra̧du ’I’ co w przypadku gdy opór woltomierza nie jest wielokrotnie wiȩkszy od
oporu przewodnika może prowadzić do znacza̧cego bÃlȩdu.
2. Woltomierz podÃla̧czony jest równolegle do ukÃladu szeregowo poÃla̧czonego opornika
i amperomierza. Wówczas woltomierz mierzy spadek napiȩcia na przewodniku oraz
na amperomierzu równocześnie. Systematycznie zawyżamy napiȩcie ’U’ co w
przypadku gdy opór wewnȩtrzny amperomierza nie jest wielokrotnie mniejszy od
oporu przewodnika może prowadzić do znacza̧cego bÃledu.
BÃledy systematyczne sa̧ trudne do zauważenia i oszacowania.
Dla ich unikniȩcia stosuje siȩ:
• staranne przemyślenie metody pomiaru w poszukiwaniu możliwych źródeÃl bÃlȩdów
systematycznych i rezygnacja z metod, które prowadza̧ do takich bÃlȩdów,
• zmianȩ metody pomiaru np. opór w powyższym przykÃladzie można mierzyć metoda̧
mostka, która nie wprowadza takich systematycznych bÃlȩdów jak omówione najprostsze schematy pomiaru. Ważne staÃle fizyczne takie jak prȩdkość światÃla ’c’
byÃly wielokrotnie mierzone różnymi metodami, gÃlównie po to by upewnić siȩ, że
unikniȩto bÃlȩdów systematycznych,
• unikanie oczywistych źródeÃl bÃlȩdu jak np. ”bÃla̧d paralaksy”polegaja̧cy na odczytaniu skali nie patrza̧c na nia̧ z kierunku prostopadÃlego,
• pomiary wzglȩdne polegaja̧ce na tym, że mierzymy równocześnie, ta̧ sama̧ metoda̧
dwie wielkości - jedna̧ dobrze znana̧ a druga̧ - tȩ, która̧ chcemy zmierzyć. Odnosza̧c
wynik pomiaru nieznanej wielkości do wyniku pomiaru znanej wielkości zwykle
możemy wyeliminować bÃlȩdy systematyczne.
B.Kamys: Fiz. Komp. 2003/04
21
DEFINICJA: BÃlȩdy przypadkowe to bÃlȩdy, które zmieniaja̧ siȩ od pomiaru do pomiaru, powoduja̧c odchylenia od wartości prawdziwej zarówno w jedna̧ jak i druga̧ stronȩ.
ZakÃlada siȩ, że spowodowane sa̧ one przez wiele niezależnych przyczyn o porównywalnym
znaczeniu.
Metody statystyki pozwalaja̧ na oszacowanie tego typu bÃlȩdów zarowno jakościowo
jak i ilościowo. Nie mówia̧ jednak nic o bÃlȩdach systematycznych czy grubych. Dlatego
dalsze rozważania bȩda̧ dotyczyÃly tylko bÃlȩdów przypadkowych.
Jeżeli mamy do czynienia tylko z bÃlȩdami przypadkowymi wówczas sa̧ speÃlnione zaÃlożenia
centralnego twierdzenia granicznego a wiȩc:
RozkÃlad bÃlȩdu przypadkowego to rozkÃlad N (0, σ(e)).
f (e) =
7.1
p21(e)
2
exp( 22e(e) )
ROZKÃLAD POMIARÓW OBARCZONYCH BÃLȨDAMI PRZYPADKOWYMI
Wartość oczekiwana bÃlȩdu przypadkowego jest z definicji równa zero a rozrzut bÃlȩdów
dokoÃla wartości oczekiwanej bÃlȩdu jest określony przez odchylenie standardowe σ(e).
Wynik pomiaru X różni siȩ od bÃlȩdu e tylko przesuniȩciem skali wspóÃlrzȩdnych o
X0 (wartość prawdziwa̧) a wiȩc rozkÃlad wartości mierzonej X jest rozkÃladem Gaussa
N (X0 , σ(e)):
f (X) =
p21(e) exp(
(X X0 )2
).
2 2 (e)
WAŻNE WNIOSKI:
• Wartość prawdziwa mierzonej wielkości jest równa wartości oczekiwanej
pomiarów (jeżeli sa̧ tylko bÃlȩdy przypadkowe).
• Rozrzut pomiarów dokoÃla wartości prawdziwej jest określony przez odchylenie standardowe σ(e) rozkÃladu bÃlȩdów przypadkowych.
• Miara̧ bÃlȩdu pojedynczego pomiaru jest odchylenie standardowe pomiarów.
B.Kamys: Fiz. Komp. 2003/04
22
Z powyższych faktów wynika, że:
szukanie prawdziwej wartości mierzonej wielkości i jej bÃlȩdu to estymacja wartości oczekiwanej i odchylenia standardowego pomiarów
OD ’DOBREGO’ ESTYMATORA ŻA̧DAMY ABY:
• speÃlniaÃl mocne prawo wielkich liczb lub byÃl zgodny
• O ile to możliwe chcemy by byÃl:
– Nieobcia̧żony,
– Najbardziej efektywny.
7.2
ESTYMATOR WARTOŚCI OCZEKIWANEJ
Jako estymator wartości oczekiwanej Tn (E(X)) przyjmuje siȩ średnia̧ arytmetyczna̧
niezależnych pomiarów wielkości X. Bȩdziemy ja̧ oznaczać przez X :
Tn (E(X)) ≡ X = n1
Pn
i=1 Xi
Estymator ten posiada optymalne wÃlasności:
1. KoÃlmogorow pokazaÃl, że X speÃlnia mocne prawo wielkich liczb a wiȩc oczywiście
jest zgodny,
2. Estymator X jest nieobcia̧żony.
1
E( n
P
P
1
1
i Xi ) = n i E(Xi ) = n (n.E(X)) = E(X) c.b.d.o.
Tu wykorzystano fakt, że wszystkie wartości oczekiwane sa̧ równe E(Xi )=E(X).
3. Można pokazać, że X jest najbardziej efektywnym estymatorem E(X).
TWIERDZENIE:
(X )
Estymator X wartości oczekiwanej E(X) ma rozkÃlad normalny N (E(X), p
n )
gdzie ’n’ jest liczba̧ pomiarów w próbie.
B.Kamys: Fiz. Komp. 2003/04
23
WNIOSKI:
1. Odchylenie standardowe średniej arytmetycznej X jest
odchylenia standardowego pojedynczego pomiaru.
√
n - krotnie mniejsze od
2. Odchylenie standardowe σ(X) czyli bÃla̧d średni kwadratowy średniej arytmetycznej charakteryzuje dokÃladność wyznaczenia prawdziwej wartości X w danym
konkretnym pomiarze skÃladaja̧cym siȩ z n niezależnych doświadczeń.
X0 = X ± σ(X)
3. Aby charakteryzować dokÃladność metody pomiarowej wówczas jako miarȩ dokÃladności
podajemy bÃla̧d pojedynczego pomiaru tj. σ(X) .
4. W granicach wyznaczonych przez σ(X) powinno leżeć 68.27% wszystkich pomiarów
a nie wszystkie pomiary.
7.3
ESTYMATOR ODCHYLENIA STANDARDOWEGO
(a)
S(X) ≡
q
n
1
1
Pn
2
i=1 (Xi − X)
Jest to zgodny, asymptotycznie nieobcia̧żony estymator
(b)
s(X) ≡
q
1
n
Pn
2
i=1 (Xi − X)
Jest to zgodny, asymptotycznie nieobcia̧żony i najbardziej efektywny estymator
(c)
S(X) ≡ kn S(X)
q
Γ( n 1 )
gdzie kn = n 2 1 Γ( n2 )
2
Jest to zgodny i nieobcia̧żony estymator σ(X).
B.Kamys: Fiz. Komp. 2003/04
24
UWAGA: WspóÃlczynnik ”kn ”można zasta̧pić z niezÃlym przybliżeniem przez wstawienie
do wzoru na S(X) zamiast 1/(n − 1) czynnika 1/(n − 1.45).
Poniżej podajemy w tabelce przykÃladowe wartości wspóÃlczynnika kn dla różnych ’n’:
n
3
4
5
6
7
10
15
20
25
50
kn
1.1284
1.0853
1.0640
1.0506
1.0423
1.0280
1.0181
1.0134
1.0104
1.0051
q
n
n
1
1:45
1.1359
1.0847
1.0615
1.0482
1.0397
1.0260
1.0165
1.0121
1.0095
1.0046
UWAGA:
Najczȩściej używanym estymatorem odchylenia standardowego jest estymator S(X)
7.4
ZAPIS WYNIKÓW POMIARÓW
Ponieważ z doświadczenia nie uzyskujemy prawdziwej wartości oczekiwanej E(X) oraz
odchylenia standardowego σ(X) a tylko ich estymatory wiȩc nie podaje siȩ ich wartości
z peÃlna̧ (uzyskana̧ z obliczeń) liczba̧ cyfr znacza̧cych.
Stosuje siȩ nastȩpuja̧ca̧ konwencjȩ:
• Pozostawia siȩ tylko dwie cyfry znacza̧ce estymatora bÃlȩdu a jeżeli
zaokra̧glenie do jednej cyfry (zaokra̧glaja̧c zawsze do góry) nie
zmieni wyniku wiȩcej niż o 10% to podaje siȩ tylko jedna̧ cyfrȩ.
• Wynik pomiaru obliczamy o jedno miejsce dziesiȩtne dalej niż
miejsce dziesiȩtne, na którym zaokra̧glono bÃla̧d, a nastȩpnie
zaokra̧glamy wg normalnych reguÃl do tego samego miejsca
dziesiȩtnego, do którego wyznaczono bÃla̧d.
B.Kamys: Fiz. Komp. 2003/04
25
TWIERDZENIE: Jeżeli prawdopodobieństwo zrealizowania siȩ danego zdarzenia losowego
w pojedynczym doświadczeniu jest równe p to liczba k zrealizowanych zdarzeń w N
niezależnych doświadczeniach rza̧dzona jest rozkÃladem Bernoulliego (dwumianowym,
binomialnym):
P (k) = k!(NN ! k)! pk (1 − p)N k ; k = 0, 1, ..N
L
à atwo można pokazać, że
E(k) = q
N ·p
σ(k) = N · p · (1 − p)
W fizyce atomowej, ja̧der atomowych i cza̧stek elementarnych czȩsto zdarza siȩ sytuacja gdy N jest bardzo duże, p bardzo maÃle a wartość oczekiwana rejestrowanych zdarzeń
E(k) ≡ N · p jest staÃla. np. N - liczba radioaktywnych ja̧der w badanej próbce, p - prawdopodobieństwo rozpadu pojedynczego radioaktywnego ja̧dra w jednostce czasu, k - liczba
rejestrowanych rozpadów w jednostce czasu
W takiej sytuacji rozkÃlad Bernoulliego przechodzi w rozkÃlad Poissona:
k
P (k) = k! exp(−λ)
Wartość oczekiwana i odchylenie standardowe wyrażaja̧ siȩ wzorem:
E(k) = √
λ
σ(k) = λ
Można pokazać, że dla dla N
i rozkÃlad Poissona da̧ża̧ do
q ⇒ ∞ rozkÃlad Bernoulliego
√
rozkÃladu normalnego N (N.p, N.p.(1 − p)) i N (λ, λ) odpowiednio.
B.Kamys: Fiz. Komp. 2003/04
7.5
26
BÃLA̧D STATYSTYCZNY
Liczba rejestrowanych w danym okresie czasu zdarzeń k rza̧dzonych powyższymi prawami
jest zmienna̧ losowa̧ a wiȩc ’prawdziwa’ liczba zdarzeń to E(k) a jej ’bÃla̧d’ to σ(k).
Ten ’bÃla̧d’ nazywany jest bÃlȩdem statystycznym.
ESTYMATOR prawdziwej liczby zdarzeń i bÃlȩdu statystycznego
Jako estymator prawdziwej liczby zdarzeń przyjmuje siȩ liczbȩ k zarejestrowanych
zdarzeń podczas pojedynczego pomiaru:
Tn (E(k)) = k
a jako estymator bÃlȩdu statystycznego: √
Tn (σ(k)) = k
POZORNY PARADOKS: Im dÃlużej mierzymy tym bÃla̧d liczby zarejestrowanych zdarzeń
jest wiȩkszy.
WYTÃLUMACZENIE: Istotny jest statystyczny bÃla̧d wzglȩdny a nie bezwzglȩdny:
(k)
)=
Tn ( E(k)
p1k
.
NOMENKLATURA: Pomiar z maÃlym statystycznym bÃlȩdem wzglȩdnym to pomiar z
DOBRA̧ STATYSTYKA̧ a z dużym to pomiar ze ZÃLA̧ STATYSTYKA̧.
UWAGA: Zwykle interesuje nas liczba zdarzeń na jednostkȩ czasu a wiȩc k ma wymiar
odwrotny do czasu. Należy zwracać uwagȩ, że bÃla̧d statystyczny ma identyczny
wymiar jak liczba zdarzeń, tj. wymiar odwrotny do czasu mimo, że ilościowo jest
pierwiastkiem z liczby zdarzeń.
W praktyce do opisu rejestracji liczby zdarzeń stosujemy rozkÃlad Poissona. Interesuje nas
jednak nie tylko odpowiedź na pytanie:
Ile zdarzeń zachodzi w określonym czasie ?
ale również odpowiedź na inne pytanie:
Ile zachodzi zdarzeń DANEGO TYPU ?
PRZYKÃLAD: Rejestrujemy produkty reakcji ja̧drowej. Chcemy wiedzieć nie tylko ile
reakcji zachodzi ale także ile jest produktów posiadaja̧cych określona̧ energiȩ.
B.Kamys: Fiz. Komp. 2003/04
27
PYTANIA:
1. Jakim rozkÃladem rza̧dzona jest liczba zdarzeń w każdym przedziale (’kanale’) energii?
2. Co by siȩ staÃlo gdybyśmy dodali liczby zdarzeń z kilku sa̧siednich kanaÃlów (dla
poprawienia ’statystyki’ liczby zdarzeń) ?
ODPOWIEDZI:
ad 1 Liczba zdarzeń w każdym kanale jest rza̧dzona rozkÃladem Poissona ale każdy z tych
rozkÃladów ma zwykle różny parametr λ.
ad 2 Korzystaja̧c z poniższego twierdzenia:
TWIERDZENIE
RozkÃlad prawdopodobieństwa sumy skończonej liczby niezależnych skÃladników, z których
każdy rza̧dzony jest rozkÃladem Poissona o parametrze λi jest również rozkÃladem
P
Poissona ale o nowym parametrze λ = λi .
i
stwierdzamy, że liczba zdarzeń w kilku wysumowanych kanaÃlach k =
P
i
ki bȩdzie
dalej rza̧dzona rozkÃladem Poissona z parametrem λ, którego estymator jest równy
P
Tn (E(k)) = ki .
i
7.6
POMIARY POŚREDNIE
Jeżeli w doświadczeniu mierzymy wielkości X1 , X2 , .., XN a nastȩpnie wyliczamy wartość
funkcji Y = Y(X1 , X2 , .., XN ) to taka̧ procedurȩ nazywamy pomiarem pośrednim.
7.6.1
ESTYMATOR E(Y) POMIARU POŚREDNIEGO Y
Estymatorem E(Y) jest wartość funkcji Y wyliczona dla argumentów, które sa̧ estymatorami X1 , X2 , ..XN tzn. dla średnich arytmetycznych X1 , X2 , ..., XN :
Tn (E(Y(X1 , X2 , ..XN ))) = Y(X1 , X2 , ..., XN )
lub inaczej
E(Y(X1 , X2 , ..XN )) ≈ Y(X1 , X2 , ..., XN )
B.Kamys: Fiz. Komp. 2003/04
7.6.2
28
BÃLA̧D POMIARU POŚREDNIEGO
Przy zaÃlożeniu, że pomiary X1 , X2 , .., XN byÃly wykonywane niezależnie odpowiednio
n1 , n2 , .., nN razy, bÃla̧d pomiaru pośredniego (bÃla̧d średni kwadratowy) oszacowuje
siȩ nastȩpuja̧co:
s
σ(Y ) ≈
N
P
@Y )2
· σ 2 (X i )
( @X
i Xi =Xi
i=1
UWAGA:
1. X1 , X2 , ..XN to różne wielkości a nie kolejne pomiary wielkości ”X”,
2. Pochodne liczone wzglȩdem ’Xi ’ to pochodne cza̧stkowe tzn. liczone przy zaÃlożeniu,
że pozostaÃle zmienne ’Xj 6=i ’ sa̧ ustalone,
3. Zamiast wariancji zmiennej σ 2 (X i ) używa siȩ jej estymatora tzn. S 2 (X i )
ni - krotnie mniejszego od estymatora S 2 (Xi ).
Jeżeli pomiary wielkości mierzonych bezpośrednio byÃly wykonywane jednokrotnie to
nie możemy oszacować bÃlȩdu średniego kwadratowego wielkości mierzonych bezpośrednio
(z rozrzutu pomiarów) ani nie możemy oszacować bÃlȩdu średniego kwadratowego wielkości
mierzonych pośrednio.
Wtedy szacujemy tylko bÃla̧d maksymalny !!!
7.6.3
BÃLA̧D MAKSYMALNY
BÃla̧d maksymalny pomiaru pośredniego liczymy wg poniższego wzoru, tzn. metoda̧
różniczki zupeÃlnej.
∆(Y ) ≈
N
P
i=1
@Y | · ∆(X )
| @X
i
i
Tu moduÃly pochodnych sa̧ wyliczane dla jednokrotnie zmierzonych wielkości Xi a
symbol ∆(Xi ) oznacza maksymalny bÃla̧d tej wielkości mierzonej bezpośrednio.
L
à atwo można pokazać , że bÃla̧d obliczony metoda̧ różniczki zupeÃlnej jest nie mniejszy
od bÃlȩdu średniego kwadratowego.
W odróżnieniu od bÃlȩdu średniego kwadratowego szacowanego wzorami podanymi
powyżej bÃla̧d maksymalny nie ma interpretacji statystycznej a wiȩc nie można
go bezpośrednio wyrazić przez bÃla̧d średni kwadratowy. Niekiedy jednak stosuje siȩ przepis
wyznaczaja̧cy go jako potrojona̧ wartość odchylenia standardowego (czyli bÃlȩdu średniego
kwadratowego). Przepis ten wykorzystuje omówiona̧ wcześniej wÃlasność rozkÃladu Gaussa,
B.Kamys: Fiz. Komp. 2003/04
29
że w granicy ±3 · σ dokoÃla wartości oczekiwanej leży 99,73 % wszystkich wartości zmiennej.
Czȩsto interesuje nas zamiast bezwzglȩdnej wartości bÃlȩdu jego stosunek do wartości
zmierzonej wielkości. Jest to tzw. bÃla̧d wzglȩdny. Warto pamiȩtać, że w szczególnym
przypadku gdy szukana wielkość f(X,Y,Z) zależy od mierzonych bezpośrednio wielkości w
poniższy sposób:
f (X, Y, Z) = X a · Y b · Z c
gdzie a,b i c to staÃle, Ãlatwiej jest wyliczyć bÃla̧d wzglȩdny niż bezwzglȩdny.
W przypadku bÃlȩdu maksymalnego bÃla̧d wzglȩdny zÃlożonej wielkości ”f”jest nastȩpuja̧ca̧
kombinacja̧ liniowa̧ wzglȩdnych bÃlȩdów argumentów:
∆(f )
f
X)
∆(Y )
∆(Z )
=| a | · ∆(
jX j + | b | · jY j + | c | · jZ j
W przypadku bÃlȩdu średniego kwadratowego dostajemy analogiczny wzór:
(f )
f =
q
a2 · ( (XX ) )2 + b2 · ( (YY ) )2 + c2 · ( (ZZ ) )2
Wzór ten czȩsto określa siȩ sformuÃlowaniem: ’wzglȩdne bÃlȩdy średnie kwadratowe dodaja̧ siȩ w kwadratach’. To sformuÃlowanie jest precyzyjne wtedy gdy wykÃladniki potȩg
’a’,’b’,’c’, ... sa̧ równe 1 (lub -1).
B.Kamys: Fiz. Komp. 2003/04
8
30
ESTYMACJA PRZEDZIAÃLOWA
Podstawy tej metody estymacji opracowaÃl polski statystyk Jerzy SpÃlawa-Neyman (w literaturze zachodniej cytowany zwykle jako Neyman). Idea̧ metody jest tworzenie takiego
przedziaÃlu liczbowego, o którym można powiedzieć, że z zadanym prawdopodobieństwem
zawiera w sobie (przekrywa) wartość szacowanego parametru.
Prawdopodobieństwo to nazywa siȩ poziomem ufności i standardowo oznaczane jest
symbolem 1 − α . W tych notatkach zamiennie używane jest oznaczenie 1 − α oraz γ.
PrzedziaÃl nazywany jest przedziaÃlem ufności dla parametru θ jeżeli:
♦ prawdopodobieństwo P( T(1)
≤ θ ≤T(2)
)=1-α,
n
n
♦ końce przedziaÃlu zależa̧ od wyników doświadczenia i od poziomu istotności a nie zależa̧
funkcyjnie od θ.
UWAGA:
• Poziom ufności 1 − α ≡ γ przyjmuje siȩ zwykle duży (np. 0,9) ale nie może być
zbyt duży bo zwiȩkszanie poziomu ufności zwiȩksza dÃlugość przedziaÃlu ufności co
powoduje, że tracona jest informacja o wartości oszacowanego parametru.
• Poniższe rozważania sa̧ sÃluszne przy zaÃlożeniu, że wyniki pomiarów xi ,i=1,..n obarczone sa̧ tylko bÃlȩdami przypadkowymi a wiȩc rza̧dzone sa̧ rozkÃladem normalnym
N (E{x}, σ{x}).
B.Kamys: Fiz. Komp. 2003/04
8.1
31
ESTYMACJA E{X} GDY ZNAMY σ{X}
Jako statystykȩ testowa̧ (zmienna̧ losowa̧ zależna̧ od wyniku doświadczenia) bierzemy
zmienna̧ z zdefiniowana̧ poniżej:
z≡
x̄ − E{x̄}
≡
σ{x̄}
√
(x̄ − E{x}) n
σ{x}
Ponieważ średnia arytmetyczna “x̄” ma rozkÃlad normalny wiȩc zmienna z, która jest
standaryzowana̧ średnia̧ arytmetyczna̧, ma
standardowy rozkÃlad normalny N(0,1).
Szukamy takiego przedziaÃlu [zmin , zmax ], że:
• P (zmin ≤ z ≤ zmax ) = γ
• przedziaÃl ten poÃlożony jest tam, gdzie gȩstość prawdopodobieństwa f (z) jest najwiȩksza.
Ponieważ rozkÃlad standardowy normalny jest symetryczny dokoÃla zera i zero jest moda̧
rozkÃladu (funkcja gȩstości ma maksimum) to widać, że przedziaÃl [zmin , zmax ] powinien
być poÃlożony symetrycznie dokoÃla z = 0:
zmax = −zmin .
Wiedza̧c, że funkcja gȩstości prawdopodobieństwa jest unormowana do jedności (pole
pod caÃlym wykresem funkcji gȩstości jest równe jedności) oraz wiedza̧c, że pole pod tym
wykresem dla z leża̧cego w przedziale [zmin , zmax ] wynosi γ a przedziaÃl leży symetrycznie
dokoÃla z = 0 można brzegi przedziaÃlu wyrazić przez kwantyle zq rozkÃladu N (0, 1) :
zmin = z 1
2
oraz zmax = z 1+
2
Dodatkowo możemy skorzystać z faktu symetrii rozkÃladu N (0, 1) dokoÃla z = 0, który
pozwala na wyrażenie obu kwantyli przez siebie:
z1
2
= −z 1+
2
Dziȩki temu w tablicach podawane sa̧ zwykle tylko kwantyle na dużym ( tj.
na maÃlym ( tj. 1 2 ) poziomie.
1+
)
2
lub
Zamiast korzystać z tablic można oczywiście wyliczać numerycznie kwantyle rozkÃladu
N (0, 1). Odpowiednie procedury dla liczenia kwantyli rozkÃladu standardowego normalnego a także innych podstawowych rozkÃladów statystyki, takich jak rozkÃlad chi-kwadrat,
B.Kamys: Fiz. Komp. 2003/04
32
rozkÃlad Studenta czy też rozkÃlad Fishera-Snedecora można znaleźć np. w ksia̧żce S.
Brandta, “Analiza danych” , PWN 1998.
Definicyjny wzór na zmienna̧ z pokazuje, że zmienna z i średnia arytmetyczna zwia̧zane sa̧
monotoniczna̧ (liniowa̧) zależnościa̧ a wiȩc można jednoznacznie przedziaÃlowi [zmin , zmax ]
przypisać przedziaÃl wartości zmiennej
X̄ − E{X} =
σ{X}
√ z.
n
co po prostym przeksztaÃlceniu da przedziaÃl ufności na E{X}:
Ã
P (zmin ≤ z ≤ zmax ) ⇔ P
σ{X}
σ{X}
X̄ − √ zmax ≤ E{X} ≤ X̄ − √ zmin
n
n
!
Trzeba pamiȩtać, że wartość oczekiwana jest konkretna̧ liczba̧ a nie zmienna̧ losowa̧.
Zmiennymi sa̧ końce przedziaÃlu bo sa̧ funkcjami średniej arytmetycznej pomiarów.
Inaczej mówia̧c:
Z prawdopodobieństwem γ przedziaÃl liczbowy wypisany
.
powyżej przykrywa soba̧ wartość oczekiwana̧ E{X}.
Wyrażaja̧c zmin i zmax przez kwantyle standardowego rozkÃladu normalnego dostajemy
przedziaÃl ufności dla wartości oczekiwanej E{X} na poziomie ufności γ:
σ{X}
σ{X}
X̄ − √ U 1+ ≤ E{X} ≤ X̄ − √ U 1 2
2
n
n
lub
σ{X}
σ{X}
X̄ − √ z 1+ ≤ E{X} ≤ X̄ + √ z 1+
2
2
n
n
lub
σ{X}
σ{X}
X̄ + √ z 1 ≤ E{X} ≤ X̄ − √ z 1 2
2
n
n
Sa̧ to trzy równoważne formy, przy czym najÃlatwiej chyba zapamiȩtać druga̧ z nich:
σ{X}
σ{X}
X̄ − √ z 1+ ≤ E{X} ≤ X̄ + √ z 1+
2
2
n
n
B.Kamys: Fiz. Komp. 2003/04
8.2
33
ESTYMACJA E{X} GDY NIE ZNAMY σ{X}
Jako statystykȩ testowa̧ bierzemy zmienna̧ “t” zdefiniowana̧ poniżej:
√
x̄ − E{x̄}
(x̄ − E{x}) n
t≡
≡
S{x̄}
S{x}
gdzie statystyka
v
u
u
S{x̄} ≡ t
1
n
X
n(n − 1) i=1
(xi − x̄)2
jest znanym nam estymatorem odchylenia standardowego średniej arytmetycznej “x̄” a
“n” oznacza liczbȩ pomiarów w próbie.
Można pokazać, że zmienna t ma rozkÃlad Studenta o (n-1) stopniach swobody .
Ponieważ rozkÃlad Studenta jest bardzo podobny do standardowego rozkÃladu normalnego wiȩc rozważania podane powyżej dla przypadku przedziaÃlu ufności dla E{X} gdy
znane jest odchylenie standardowe pomiarów zachowuja̧ swa̧ prawdziwość i dla aktualnej
sytuacji z tym, że kwantyle rozkÃladu normalnego musza̧ być zamienione przez odpowiednie
kwantyle rozkÃladu Studenta a odchylenie standardowe zasta̧pione przez jego estymator:
S{X}
S{X}
X̄ − √ t 1+ ≤ E{X} ≤ X̄ + √ t 1+
2
2
n
n
Tu podana jest tylko jedna z trzech równoważnych postaci wzoru na przedziaÃl ufności
ale oczywiście można również używać obu pozostaÃlych po odpowiednich modyfikacjach.
UWAGA:
Dla dużych prób (n > 20 ÷ 30) rozkÃlad Studenta upodabnia siȩ bardzo do rozkÃladu
standardowego normalnego i dla wiȩkszości praktycznych zastosowań można posÃlugiwać
siȩ kwantylami rozkÃladu N (0, 1).
B.Kamys: Fiz. Komp. 2003/04
8.3
34
ESTYMACJA PRZEDZIAÃLOWA var(X) i σ(X)
Jako statystykȩ bierzemy zmienna̧ Y zdefiniowana̧ nastȩpuja̧co:
Y =
(n − 1)S 2 (X)
σ 2 (X)
gdzie “n” to liczba pomiarów w próbie, σ 2 (X) to wariancja X a S 2 (X) to estymator
wariancji zmiennej X:
1
2
S (X) =
n
X
n − 1 i=1
(xi − x̄)2
Wielkość ta ma rozkÃlad chi-kwadrat o (n-1) stopniach swobody.
Podobnie jak przy szukaniu przedziaÃlu ufności dla wartości oczekiwanej E{X} rozważa siȩ
przedziaÃl najbardziej prawdopodobnych wartości zmiennej Y. Jednakże przedziaÃl ten nie
jest symetryczny dokoÃla mody bo rozkÃlad chi-kwadrat nie jest symetryczny.
Dla jednoznacznego określenia przedziaÃlu ufności zakÃlada siȩ, że prawdopodobieństwo
odchylenia wartości Y poza wybrany przedziaÃl w stronȩ dużych wartości jest takie samo
jak prawdopodobieństwo odchylenia w stronȩ odwrotna̧:
1−γ
P (Y < Ymin ) = P (Y > Ymax ) =
2
ZaÃlożenie to pozwala jednoznacznie określić brzegi przedziaÃlu przez kwantyle rozkÃladu
chi-kwadrat :
Ymin = (χ2n
1) 1 2 i Ymax = (χ2n
1 ) 1+
2
Kwantyle te nie sa̧ równe i musza̧ być oba wyliczone lub znalezione z tablic.
Relacja pomiȩdzy estymowanym parametrem, tj. wariancja̧ i statystyka̧ Y jest monotoniczna̧ funkcja̧ :
σ 2 (X) =
(n − 1).S 2 (X)
Y
wiȩc prawdopodobieństwo trafienia statystyki do przedziaÃlu [Ymin , Ymax ] jest równe prawdopodobieństwu tego, że oszacowywana wariancja bȩdzie leżaÃla w przedziale:
(n − 1).S 2 (X)
Ymax
≤ σ 2 (X) ≤
(n − 1).S 2 (X)
Ymin
,
co powoduje, że ostatecznie przedziaÃl ufności dla wariancji na poziomie ufności γ to :
B.Kamys: Fiz. Komp. 2003/04
(n − 1).S 2 (X)
(χ2n
1 ) 1+
2
35
≤ σ 2 (X) ≤
(n − 1).S 2 (X)
(χ2n
1) 1 2 Estymacja przedziaÃlowa odchylenia standardowego σ(X) może być przeprowadzona
przez pierwiastkowanie granic przedziaÃlu ufności dla wariancji. Ten przedziaÃl liczbowy
bȩdzie przedziaÃlem ufności dla odchylenia standardowego na tym samym poziomie ufności
γ ≡ 1 − α co startowy przedziaÃl ufności dla wariancji. Dzieje siȩ tak dlatego, że pierwiastkowanie - relacja miȩdzy wariancja̧ i odchyleniem standardowym - jest monotoniczna̧
funkcja̧.
v
u
u (n − 1).S 2 (X)
u
≤ σ(X) ≤
t
2
(χn
1 ) 1+
2
v
u
u (n − 1).S 2 (X)
u
t
2
(χn
1) 1 2 B.Kamys: Fiz. Komp. 2003/04
9
36
METODY SZUKANIA ESTYMATORÓW
Omówimy poniżej trzy najczȩściej stosowane ogólne metody poszukiwania estymatorów
parametrów zapewniaja̧ce otrzymanie estymatorów o poża̧danych wÃlasnościach. Sa̧ to:
• Metoda momentów
• Metoda najwiȩkszej wiarygodności
• Metoda najmniejszych kwadratów
Każda z nich ma swoje zalety i wady. W ogólnym przypadku zalecana jest metoda najwiȩkszej wiarygodności ale w przypadku szukania parametrów regresji najbardziej popularna̧ jest metoda najmniejszych kwadratów. Z kolei metoda momentów może być bardzo
wygodna w niektórych przypadkach przedyskutowanych poniżej.
9.1
METODA MOMENTÓW (“MM”)
Metoda momentów zaproponowana zostaÃla przez K. Pearsona na przeÃlomie XIX i XX
wieku.
Idea metody : Szukamy estymatorów parametrów θ1; θ2;::: θk określaja̧cych caÃlkowicie
dystrybuantȩ zmiennej losowej X postȩpuja̧c w poniższy sposób:
• Znajdujemy zwia̧zki pomiȩdzy parametrami a momentami rozkÃladu.
• Wyliczamy estymatory momentów Tn (mi (0)) ≡ Mi wg wzoru:
Mi =
n
1X
n j =1
[xj ]i
• Wstawiamy powyższe estymatory momentów do wzorów wia̧ża̧cych oszacowywane
parametry z momentami.
• Rozwia̧zujemy ukÃlad równań na parametry θ1; θ2;::: θk wyrażaja̧c je przez estymatory momentów Mi , i=1,..,k . Te rozwia̧zania sa̧ estymatorami odpowiednich
parametrów T n (θ i ) , i=1,...,k , optymalnymi w sensie metody momentów.
B.Kamys: Fiz. Komp. 2003/04
37
PRZYKÃLAD:
Szukamy estymatorów parametrów θ1; (θ2 )2 rozkÃladu Gaussa:
1
f (x) = q
exp{−
2πθ22
(x − θ1 )2
2θ22
}
Znamy zwia̧zki pomiȩdzy parametrami i momentami rozkÃladu:
θ1 =E{x} ≡ m1 (0)
(θ2 ) = var{x} = E{x } − (E{x})2
≡ m2 (0) − (m1 (0))2
2
2
Liczymy estymatory momentów:
Tn (m1 (0)) ≡ M1 =
Tn (m2 (0)) ≡ M2 =
n
1X
n i=1
n
1X
xi
x2
n i=1 i
Z pierwszego równania po wstawieniu średniej arytmetycznej zamiast E{x}
dostajemy:
Tn (θ1 ) =
n
1X
n i=1
xi
Z drugiego równania (zastȩpuja̧c momenty ich estymatorami) dostajemy:
1
Tn (θ22 )
n
P
µ
2
¶2
n
P
1
= n
xi − n
xi =
i=1
i=1
n
P
= n1
x2i − 2x̄2 + x̄2 =
1
i=1
n
P
1
i=1
n
P
µ
n
P
¶
µ
n
P
¶
= n
x2i − 2x̄. n1
xi + n1
x̄2 =
i=1 ³
i=1 ´
i=1
n
1 P
2
2
= n
xi − 2x̄.xi + x̄ =
= n
(xi − x̄)
i=1
2
B.Kamys: Fiz. Komp. 2003/04
38
(w drugim wierszu dodany i odjȩty kwadrat średniej arytmetycznej, w trzecim kwadrat
średniej zapisany jako n-ta czȩść sumy kwadratów średniej a dalej to tylko zwijanie
kwadratu różnicy).
Otrzymujemy wiȩc znany nam estymator s2 (x) jako najlepszy w sensie metody momentów estymator wariancji θ22 :
Tn (θ22 )
=
n
1X
n i=1
(xi − x̄)2 ≡ s2 (x)
WÃlasności estymatorów metody momentów :
Estymatory sa̧:
• asymptotycznie nieobcia̧żone (lub nieobcia̧żone)
• zgodne
Wady metody momentów:
• UkÃlad równań na estymatory parametrów θ jest zwykle nieliniowy co powoduje,
że musimy znajdować rozwia̧zania numerycznie i dodatkowo utrudnia oszacowanie
bÃlȩdów estymatorów.
• Estymatory metody momentów sa̧ zwykle mniej efektywne (tzn. maja̧ wiȩksza̧ wariancjȩ) niż estymatory znalezione innymi metodami a w szczególności metoda̧ najwiȩkszej wiarygodności.
• Wyznaczanie wyższych momentów z doświadczenia jest maÃlo dokÃladne co rzutuje
na dokÃladność estymatorów parametrów.
Optymalna sytuacja dla metody momentów:
Zachodzi ona wtedy, gdy szukane parametry wystȩpuja̧ jako wspóÃlczynniki rozwiniȩcia
funkcji gȩstości prawdopodobieństwa na ortonormalny zespóÃl funkcji gk (x), k = 1, .., r:
~ = const +
f (x, θ)
r
X
k=1
θk gk (x)
B.Kamys: Fiz. Komp. 2003/04
39
gdzie “const” jest staÃla̧ normalizacyjna̧ a funkcje gk speÃlniaja̧ relacje:
Z
Z
dx gk (x) gj (x) = δkj
oraz
dx gk (x) = 0.
Wtedy możemy napisać nastȩpuja̧co wzór na wartość oczekiwana̧ funkcji gj (x):
E{gj (x)} =
=
=
R
R
~ =
dx gj (x) f (x, θ)
dx const gj (x) +
0
+
r
P
k=1
R
θk dx gk (x) gj (x) =
θj
Wynika sta̧d, że szukanie estymatora parametru θj sprowadza siȩ do znalezienia estymatora wartości oczekiwanej funkcji gj (x). Zgodnie z zasada̧ metody momentów estymatorem tym jest średnia arytmetyczna:
Tn (θj ) =
n
1X
n i=1
gj (xi )
Wiemy, że średnia arytmetyczna jest zgodnym i nieobcia̧żonym estymatorem. Co wiȩcej,
wiemy z centralnego twierdzenia granicznego , że asymptotyczny rozkÃlad takiej zmiennej
jest rozkÃladem normalnym a wiȩc znamy również przepis na estymator wariancji tego
estymatora. Takim nieobcia̧żonym i zgodnym estymatorem jest S 2 (x̄), gdzie zamiast
“xi ” bierzemy funkcjȩ gj (xi ) a zamiast x̄ bierzemy estymator Tn (θj ):
2
S (Tn (θj )) =
1
n
X
n(n − 1) i=1
[gj (xi ) − T n (θj )]2
B.Kamys: Fiz. Komp. 2003/04
9.2
40
METODA NAJWIȨKSZEJ WIARYGODNOŚCI (“MNW”)
Metoda najwiȩkszej wiarygodności zaproponowana zostaÃla przez R.A. Fishera w 1921
roku.
Idea metody:
Zawiera siȩ w zaÃlożeniu, że zaobserwowane w próbie wyniki sa̧ najbardziej prawdopodobne
spośród wszystkich możliwych.
• Szukamy prawdopodobieństwa tego, że próba bȩdzie taka jaka̧ zaobserwowaliśmy
~ przyjmuja̧ konkretna̧ wartość θ
~0 .
jeżeli parametry θ
Jeżeli próba jest prosta, tzn. pomiary xi , i = 1, .., n sa̧ niezależne to szukane
prawdopodobieństwo próby równe jest iloczynowi prawdopodobieństw warunkowych
poszczególnych pomiarów. Dla zmiennej cia̧gÃlej X możemy opuścić iloczyn różniczek
dx1 ...dxn i zapisać jedynie iloczyn gȩstości prawdopodobieństw:
~0 ) =
L(θ
n
Y
i=1
¯
¯
~0 ) .
f (xi ¯θ
To prawdopodobieństwo (dla zmiennej dyskretnej) lub gȩstość prawdopodobieństwa
(dla zmiennej cia̧gÃlej) możemy potraktować jako funkcjȩ szukanych parametrów.
Funkcjȩ tȩ nazywamy funkcja̧ wiarygodności.
~ , która zapewnia maksimum funkcji wiary• Znajdujemy taka̧ wartość parametrów θ
godności:
~ = max .
L(θ)
Te dwa warunki sÃluża̧ jako przepis na szukanie optymalnych w sensie metody najwiȩkszej
wiarygodności estymatorów.
Ponieważ szukanie maksimum funkcji wiarygodności wymaga zwykle różniczkowania po parametrach wiȩc bȩdziemy mieć do czynienia z różniczkowaniem iloczynu co
prowadzi do dość skomplikowanych rachunków. Aby uÃlatwić różniczkowanie standardowo
zamienia siȩ funkcjȩ wiarygodności przez jej logarytm co powoduje, że zamiast
różniczkowania iloczynu należy różniczkować sumȩ a poÃlożenie maksimum w przestrzeni
parametrów jest takie samo gdyż logarytm jest funkcja̧ monotoniczna̧ oraz
³
∂ ln(L)
∂θi
≡
@L
@i
L
´
ma taki sam znak jak
∂L
∂θi
(L jest wiȩksze od zera ).
Logarytm z funkcji wiarygodności oznaczany jest zwykle przez maÃla̧ literȩ l.
B.Kamys: Fiz. Komp. 2003/04
41
l ≡ ln(L)
(chociaż stosuje siȩ również oznaczenie przez duże L) i nazywany jest “logarytmiczna̧
funkcja̧ wiarygodności” a czasem również “funkcja̧ wiarygodności”.
PRZYKÃLAD:
Dla rozkÃladu normalnego N (θ1 ,θ2 ) :
(
1
f (x) = √
exp −
2π θ2
(x − θ1 )2
)
2θ22
wiȩc funkcja wiarygodności:
L(θ1 , θ2 ) =
(
1
n
(2π) 2 θ2n
exp −
n
1 X
2θ22 i=1
)
(xi − θ1 )2
a logarytmiczna funkcja wiarygodności:
n
1 X
1
l = −n ln((2π) 2 ) − n ln(θ2 ) −
2θ22 i=1
(xi −θ1 )2
Różniczkuja̧c po parametrach dostajemy ukÃlad równań na parametry:

n
1 P
@l


(xi − θ1 ) = 0
 @1 = 2
2 i=1
n

@l
n
1 P

(xi − θ1 )2 = 0
 @ = − + 3
2
2
2
i=1
Rozwia̧zanie pierwszego równania daje estymator Tn (θ1 ):
Tn (θ1 ) =
n
1X
n i=1
xi
czyli średnia̧ arytmetyczna̧ x̄, a przeksztaÃlcaja̧c drugie równanie można napisać tak:
n=
n
1 X
θ22 i=1
(xi − Tn (θ1 )2
czyli
Tn (θ22 )
=
n
1X
n i=1
(xi − x̄)2
B.Kamys: Fiz. Komp. 2003/04
42
a to jest znany nam estymator wariancji zmiennej x oznaczany symbolem s2 (x).
Jak widać metoda najwiȩkszej wiarygodności daÃla w tym przypadku dokÃladnie te same
estymatory co metoda momentów.
Zanim podamy wÃlasności estymatorów MNW wprowadzimy definicjȩ rozkÃladu regularnego i estymatorów regularnych.
Mówimy, że rozkÃlad f (X, θ) jest rozkÃladem regularnym gdy caÃlkowanie wzglȩdem x i
różniczkowanie wzglȩdem θ sa̧ przemienne i istnieja̧ wyrażenia:
+1
@ R dx f (x|θ) =
@ 1
1
dx f (x|θ)
1n
o
≡ E @ ln f (xj)
≡
+R
1 @f (xj)
dx @
1
@ ln f (xj)
+R
@
@
oraz
+1
+1
@ 2 R dx f (x|θ) = R dx @ 2 f (xj)
2
@ 1
@2
1
i2
h
1
+R1
f (xj)
≡
dx f (x|θ) @ ln@f (xj) +
dx f (x|θ) @ ln @
1n
1
¾
½
i2
o
h
≡ E @ ln f (xj) + E @ ln f (xj)
≡
+R
2
2
2
@2
@
Estymator parametru θ rozkÃladu regularnego nazywamy estymatorem regularnym.
Gdy zmienna X jest dyskretna to w powyższych wzorach należy funkcje gȩstości prawdopodobieństwa zasta̧pić prawdopodobieństwem i caÃlki sumami.
UWAGA:
Ze wzglȩdu na warunek normalizacji gȩstości prawdopodobieństwa
1
dx f (x|θ)
1
+R
= 1
oba wyrażenia wypisane w definicji rozkÃladu regularnego sa̧ równe zero.
TWIERDZENIE
Jeżeli funkcja gȩstości prawdopodobieństwa f (X|θ) (lub rozkÃlad prawdopodobieństwa
p(X|θ) ) sa̧ rozkÃladami regularnymi i parametr θ jest szacowany na podstawie próby
prostej to estymator Tn (θ) otrzymany przy pomocy MNW ma dla rozmiarów próby
“n” da̧ża̧cych do nieskończoności nastȩpuja̧ce wÃlasności:
• jest zgodny
• jego asymptotyczny rozkÃlad jest normalny
B.Kamys: Fiz. Komp. 2003/04
43
– z wartościa̧ oczekiwana̧
E{Tn (θ)}=θ
"
2
– i wariancja̧
σ (Tn (θ))=− n
1 ³ @ ln f (X j) ´2
@
1
+R
# 1
f (X|θ) dX
Można pokazać (jest to treścia̧ tzw. nierówności Cramera-Rao), że wyrażenie powyższe
jest dolna̧ granica̧ wariancji dla nieobcia̧żonego estymatora regularnego a
wiȩc
MNW daje estymatory:
- zgodne,
- asymptotycznie nieobcia̧żone,
- asymptotycznie najbardziej efektywne
Dla skończonych rozmiarów próby i regularnych rozkÃladów MNW daje estymatory zgodne ale moga̧ być one obcia̧żone i moga̧ nie być najbardziej efektywne. O ich
efektywności można wnioskować na podstawie twierdzenia Cramera-Rao zwanego również
nierównościa̧ informacyjna̧:
TWIERDZENIE Cramera-Rao:
Wariancja regularnego estymatora Tn (θ) speÃlnia nierówność

 1
)
!2
+
Z 1Ã
∂B(θ) 
∂ ln f (X|θ)

f (X|θ) dX 
1+
n
(
σ 2 (Tn (θ)) ≥
∂θ
1
∂θ
gdzie
B(θ) ≡ E{Tn (θ)} − θ
jest obcia̧żeniem estymatora.
Wyrażenie w nawiasie kwadratowym nazywane jest informacja̧ o parametrze θ zawarta̧ w próbie (R.A. Fisher) - sta̧d nazwa nierówności.
Wyrażenie to zostaÃlo tak nazwane gdyż posiada wÃlasności, których wymagamy od informacji:
• zwiȩksza siȩ wraz z liczba̧ obserwacji,
• zależy od tego czego chcemy siȩ dowiedzieć (od parametru θ i jego zwia̧zku z mierzonymi wielkościami),
• zwia̧zana jest z dokÃladnościa̧ (im wiȩksza informacja tym lepsza dokÃladność określenia
wartości parametru)
B.Kamys: Fiz. Komp. 2003/04
44
TWIERDZENIE
Minimalna̧ wariancjȩ estymatora regularnego (równość w twierdzeniu Cramera-Rao)
Tn (τ (θ)) pewnej funkcji τ (θ) interesuja̧cego nas parametru θ :
´¯
¯³
¯ @ () ¯
¯
¯
σ 2 (Tn (τ (θ)) = ¯¯ @ ¯¯
¯ F (θ) ¯
uzyskuje siȩ dla skończonych rozmiarów próby “n” wtedy gdy pochodna cza̧stkowa
funkcji wiarygodności speÃlnia nastȩpuja̧ca̧ relacjȩ:
∂ ln L
∂θ
= F (θ) ( Tn (τ (θ)) − τ (θ))
gdzie F(θ) jest pewna̧ funkcja̧ parametru θ ale nie zależy od pomiarów ~
x.
°
Funkcja wiarygodności ma wtedy nastȩpuja̧ca̧ postać:
L(~
x|θ ) = exp { A(θ) B(~
x) + C(~
x) + D(θ) }
gdzie “A” i “D” sa̧ funkcjami θ (A jest caÃlka̧ po dθ z F (θ) ) a “B” i “C” sa̧ funkcjami
zespoÃlu pomiarów (próby).
Porównuja̧c wzór na wariancjȩ estymatora Tn (τ (θ)) z nierównościa̧ Cramera-Rao
widać natychmiast, że:
• F (θ) to informacja z próby o funkcji τ (θ),
• gdy τ (θ)=θ to wariancja wynosi 1/F (θ),
• istnieje tylko jedna funkcja parametru θ , dla której osia̧gana jest minimalna wariancja estymatora określona nierównościa̧ Cramera-Rao czyli taka funkcja Tn (τ (θ))
od której liniowo zależy pochodna po parametrze θ z logarytmicznej funkcji wiarygodności.
PRZYKÃLAD: Jeżeli parametrem θ jest odchylenie standardowe rozkÃladu normalnego
σ(x) to tylko estymator wariancji σ 2 (x) , tzn. estymator s2 (x) ma minimalna̧ wariancjȩ
a estymator s(x) już tej wÃlasności nie posiada. Widać to ze wzoru wyprowadzonego w
przykÃladzie zastosowania MNW:
∂l
∂θ2
=−
n
θ2
+
n
1 X
θ23 i=1
(xi − θ1 )2 = 0
n
P
(xi − θ1 )2 a nie z
Pochodna po θ2 jest liniowo zwia̧zana z funkcja̧ s2 (x) ≡ n1
i=1
estymatorem odchylenia standardowego s(x), który jest pierwiastkiem z tego wyrażenia.
B.Kamys: Fiz. Komp. 2003/04
9.3
45
METODA NAJMNIEJSZYCH KWADRATÓW (“MNK”)
Za autora metody najmniejszych kwadratów uważa siȩ K. Gaussa.
Idea metody:
Szukamy estymatora Tn (θ) parametru θ wystȩpuja̧cego we wzorze:
g(Y, θ) = 0,
który może być ściśle speÃlniony tylko w wyidealizowanym przypadku, gdy mierzone doświadczalnie
wielkosci Yi nie sa̧ obarczone bÃlȩdami. W obecności bÃlȩdów tak dobieramy parametr θ
(może być ich wiȩcej) aby funkcja “g” zbliżyÃla siȩ do zera tak bardzo jak to tylko jest
możliwe, tj. ża̧damy speÃlnienia warunku:
n
X
i=1
[g(Yi , θ)]2 = min
a w najogólniejszym przypadku (wÃla̧czaja̧c wagi pomiarów “w i ”) warunku:
n
X
i=1
wi · [g(Yi , θ)]2 = min .
PRZYKÃLAD:
Szukamy prawdziwej wartości wielkości Y mierzonej bezpośrednio. Gdyby nie byÃlo blȩdów
wówczas:
θ=Y
albo inaczej
g(Y |θ) ≡ Y − θ = 0.
W obecności bÃlȩdów,funkcja g(Y |θ) bȩdzie zwykle różna od zera ale MNK podaje przepis
jak znaleźć estymator Tn (θ):
n
X
i=1
[g(Yi |θ)]2 ≡
n
X
i=1
[Yi − θ]2 = min
Aby znaleźć minimum powyższej funkcji ze wzglȩdu na θ należy przyrównać do zera
pochodna̧ tej funkcji wzglȩdem θ:
−2
n
X
i=1
[Yi − θ] = 0
a wiȩc dostajemy znany nam przepis na estymator wartości oczekiwanej:
B.Kamys: Fiz. Komp. 2003/04
46
Tn (θ) =
n
1 X
n i=1
Yi
WÃlasności estymatorów MNK
Estymatory otrzymane MNK nie maja̧ w ogólnym przypadku optymalnych wÃlasności
(nawet asymptotycznie)! Istnieja̧ jednak dwa ważne wyja̧tki od tej reguÃly:
1.) Pomiary Yi maja̧ rozkÃlad normalny i sa̧ nieskorelowane,
2.) Szukane parametry sa̧ wspóÃlczynnikami w liniowej funkcji regresji.
ad 1. Pomiary maja̧ rozkÃlad normalny i sa̧ nieskorelowane Odpowiada to sytuacji, w której zmienna Y może być przedstawiona nastȩpuja̧co:
~ +ε
Yi = h(Xi , θ)
gdzie ε to bÃla̧d przypadkowy.
Wtedy funkcja wiarygodności ma nastȩpuja̧ca̧ postać:
~ =
L(Y1 , .., Yn |θ)



n
Y
³
1
√
exp −


i=1 2πσi
´2 


~
Yi − h(Xi , θ)


2σi2
a logarytmiczna funkcja wiarygodności:
1
³
´
n
X
~ = − n ln 2πσ 2 −
l(Y1 , .., Yn |θ)
i
2
i=1
³
´2
~
Yi − h(Xi , θ)
2σi2
Funkcja ta bȩdzie miaÃla maksimum (ujemne !) gdy suma kwadratów bȩdzie najmniejsza. A wiȩc metoda najmniejszych kwadratów jest wtedy równoważna metodzie
najwiȩkszej wiarygodności, która zapewnia optymalnośc otrzymywanych estymatorów.
ad 2. Funkcja regresji jest liniowa ze wzglȩdu na szukane parametry Zmienna
Y zależy wtedy od zmiennej X w nastȩpuja̧cy sposób:
Yi =
k
X
j =1
θj · fj (Xi )
B.Kamys: Fiz. Komp. 2003/04
47
gdzie fj (X) jest dowolna̧ funkcja̧.
Markow udowodniÃl , że w takiej sytuacji estymatory parametrów posiadaja̧ bardzo
dobre wÃlasności:
• sa̧ nieobcia̧żone
• sa̧ najbardziej efektywne
• sa̧ liniowymi funkcjami pomiarów Y1 , ..., Yn .
Te wÃlasności nie zależa̧ od rozkÃladu zmiennej Y i speÃlnione sa̧ nawet
dla niewielkich prób.
Linowy (ze wzglȩdu na parametry) model funkcji regresji jest bardzo czȩsto stosowany
w praktyce, ponieważ obok optymalnych wÃlasności estymatorów parametrów zapewnia
możliwość ścisÃlego rozwia̧zania równań określaja̧cych estymatory parametrów a wiȩc możliwość
znalezienia jawnych wzorów na estymatory. Tego prawie nigdy nie da siȩ zrobić w przypadku pierwszym, tzn. gdy zależność od parametrów jest nieliniowa. Zapiszemy warunek
metody najmniejszych kwadratów macierzowo stosuja̧c nastȩpuja̧ce oznaczenia:
Aij ≡ fj (xi ) i = 1, .., n j = 1, .., r
Bij i = 1, .., n j = 1, .., n
Yi i = 1, .., n
θi i = 1, .., r
gdzie Aij to macierz wartości funkcji fj (xi ), Bi;j to macierz wag zwykle brana jako
odwrócona macierz kowariancji pomiarów {cov(yi ,yj )} 1 , Yi - wektor pomiarów, θi wektor parametrów. Wtedy minimalizowana suma kwadratów może być zapisana w taki
sposób:
~ T · B · (Y
~
~ − A · θ)
~ − A · θ)
Q2 = ( Y
a pochodne wzglȩdem parametrów nastȩpuja̧co (i=1,...,r):
∂Q2
∂θi
n
~
~ − A · θ)
= −2AT · B · (Y
o
i
= 0·
ZespóÃl r powyższych równań można zapisać macierzowo i rozwia̧zać formalnie:
~ =0
~ − A · θ)
AT · B · (Y
T
T
~
~ =A ·B·A·θ
A ·B·Y
a mnoża̧c lewostronnie przez macierz odwrotna̧ do AT BA, dostaniemy estymatory
parametrów liniowej funkcji regresji :
h
~ = AT · B · A
Tn (θ)
i 1
~
AT · B · Y
B.Kamys: Fiz. Komp. 2003/04
48
Jest to dokÃladne i jedyne rozwia̧zanie (pod warunkiem, że macierz AT BA jest nieosobliwa)
Z powyższego wzoru widać, że estymatory parametrów sa̧ liniowymi funkcjami wartości
pomiarów Y1 , ..., Yn co pozwala ściśle wyrazić macierz kowariancji estymatorów parametrów
~ ) stosuja̧c wzór wyprowad(a wiȩc i ich bÃlȩdy) przez macierz kowariancji pomiarów C(Y
zony dla “propagacji bÃlȩdów”. Gdy przyjmiemy macierz wag B jako macierz odwrotna̧ do
~ ) to uzyskamy wyja̧tkowo prosta̧ formȩ macierzy kowariancji estymatorów parametrów.
C(Y
~
C(Tn (θ))
=
=
=
=
=
=
½h
½h
AT BA
i 1
AT B
AT BA
i 1
AT B
h
i 1
h
i 1
AT BA
AT BA
³h
AT BA
h
¾
~)·
· C(Y
¾
·B
AT · BB
1
1
·
½h
AT BA
½h
AT BA
· BT A
· AT BA ·
i 1
µh
AT BA
i µh
h
i 1
iT
AT BA
AT B
AT B
¾T
¾T
i 1 ¶T
¶ 1
i´ 1
~)
AT C(Y
1
A
i 1
Ostatecznie macierz kowariancji estymatorów parametrów :
h
~ = AT C(Y
~)
C(Tn (θ))
1
A
i 1
Warto zauważyć, że
• Ten wynik jest ścisÃly
• Powyższa macierz jest wyliczana dla znalezienia estymatorów parametrów bo to jest
macierz {AT BA} 1 wystȩpuja̧ca we wzorze na estymatory.
• Mimo, że wzór jest ścisÃly i prosty to jego wyliczenie czȩsto napotyka na trudności
numeryczne gdyż procedura odwracania macierzy {AT BA} 1 jest źle uwarunkowana numerycznie (maÃle zaokra̧glenia rachunków moga̧ powodować wielkie zmiany
wyników). Dlatego nieco później omówimy metodȩ pozwalaja̧ca̧ na unikniȩcie tego
problemu przez zastosowanie wielomianów ortogonalnych na zbiorze punktów.
B.Kamys: Fiz. Komp. 2003/04
10
49
WIELOWYMIAROWE (WEKTOROWE) ZMIENNE LOSOWE
Wielowymiarowa zmienna losowa definiowana jest analogicznie jak jednowymiarowa
(skalarna), tzn. można ja̧ traktować jako wektor, którego skÃladowe sa̧ jednowymiarowymi
zmiennymi losowymi.
Dystrybuanta :
F (x1 , .., xN ) = P (X1 < x1 , ..., XN < xN )
Funkcja gȩstości prawdopodobieństwa:
f (x1 , ..., xN ).dx1 ...dxN = P (x1 ≤ X1 < x1 + dx1 , ..., xN ≤ XN < xN + dxN )
Oprócz funkcji gȩstości prawdopodobieństwa dla caÃlego wektora losowego (X1 , .., XN )
można zdefiniować jeszcze :
• RozkÃlad brzegowy gȩstości prawdopodobieństwa i
• RozkÃlad warunkowy gȩstości prawdopodobieństwa.
Brzegowy rozkÃlad gȩstości prawdopodobieństwa
zmiennej Xi ( i – tej skÃladowej wektora losowego) to wynik wycaÃlkowania funkcji gȩstości
prawdopodobieństwa dla caÃlej wielowymiarowej zmiennej po wszystkich skÃladowych z
wyja̧tkiem Xi :
Z
g(Xi ) =
dx1 ..dxi
1 .dxi+1 ...dxN .f (x1 , ..., xN )
Oczywiście można stworzyć rozkÃlady brzegowe dla dwuwymiarowych zmiennych (jeżeli
N > 2) caÃlkuja̧c po wszystkich zmiennych z wyja̧tkiem tych dwu wybranych,rozkÃlad
brzegowy dla trzywymiarowych (jeżeli N > 3) caÃlkuja̧c po wszystkich z wyja̧tkiem tych
trzech zmiennych, itd. .
B.Kamys: Fiz. Komp. 2003/04
50
RozkÃlad warunkowy “fw ” zmiennych (X1 , .., Xi ) pod warunkiem, że zmienne (Xi+1 , .., XN )
przyjmuja̧ wartość w nieskończenie maÃlym przedziale (xi+1 ≤ Xi+1 < xi+1 , .., xN ≤
XN < xN ) definiowany jest nastȩpuja̧co:
fw (x1 , .., xi |xi+1 , .., xN ) =
f (x1 , .., xN )
fb (xi+1 , .., xN )
RozkÃlad ten nie jest określony, gdy rozkÃlad brzegowy wystȩpuja̧cy w mianowniku zeruje
siȩ. Wskaźniki “w” i “b” zostaÃly użyte w tym wzorze aby podkreślić, że postać funkcyjna
tych rozkÃladów jest w ogólności inna niż rozkÃladu f (x1 , .., xN ).
RozkÃlad warunkowy można tworzyć dla różnych zespoÃlów skÃladowych wektora losowego,
np. moglibyśmy zdefiniować rozkÃlad warunkowy pojedynczej zmiennej “XN ” pod warunkiem, że pozostaÃle zmienne przyjmuja̧ określone wartości.
RozkÃlad prawdopodobieństwa wielowymiarowej dyskretnej zmiennej losowej jest
oczywistym uogólnieniem rozkÃladu jednowymiarowego, a brzegowy rozkÃlad prawdopodobieństwa i warunkowy rozkÃlad prawdopodobieństwa tworzy siȩ tak jak ich
odpowiedniki dla zmiennej cia̧gÃlej zastȩpuja̧c caÃlkowanie sumowaniem po wartościach
odpowiednich skÃladowych.
Warto również pamiȩtać, że można tworzyć brzegowa̧ dystrybuantȩ i warunkowa̧
dystrybuantȩ (zarówno dla zmiennej cia̧gÃlej jak i skokowej).
Niezależne zmienne losowe to takie, że rozkÃlad warunkowy jednej zmiennej (może
to być wielowymiarowa zmienna) pod warunkiem, że druga zmienna przyjmuje konkretne
wartości (ta zmienna też może być wielowymiarowa) równy jest rozkÃladowi brzegowemu:
fw (~
x1 |~
x 2 ) = f (~
x1 )
Warunkiem koniecznym i wystarczaja̧cym niezależności zmiennych losowych jest
aby ich wspólna funkcja gȩstości prawdopodobieństwa (dla zmiennej cia̧gÃlej) lub ich
wspólny rozkÃlad prawdopodobieństwa (dla zmiennej dyskretnej) faktoryzowaÃly siȩ tzn.
f (x1 , ...xN ) = f1 (x1 ).f2 (x2 )....fN (xN )
B.Kamys: Fiz. Komp. 2003/04
51
PrzykÃlad dla 2-wymiarowej zmiennej losowej:
Wspólna funkcja gȩstości prawdopodobieństwa X1 i X2 jest staÃla (wynosi 1/2) w
kwadracie o wierzchoÃlkach {(-1,0),(0,1),(1,0) i (0,-1)} a zeruje siȩ poza kwadratem.
RozkÃlad brzegowy X1 :

0



 X +1
1
fb (X1 ) =

−X
1 +1



0
dla
dla
dla
dla
X1 ≤ −1
−1 ≤ X1 ≤ 0
0 ≤ X1 ≤ +1
X1 ≥ +1
Jest to rozkÃlad trójka̧tny zwany “rozkÃladem Simpsona”. Można wyobrazić sobie
pogla̧dowo, że w powyższym przykÃladzie liczenie rozkÃladu brzegowego jest równoważne
“zsypywaniu” punktów jednorodnego rozkÃladu w kwadracie na oś X1 co powoduje, że
rozkÃlad brzegowy ma ksztaÃlt trójka̧ta (w kwadracie zmiennych X1 , X2 najwiȩcej punktów
ma wspóÃlrzȩdna̧ X1 bliska̧ zeru a ilość punktów z wiȩkszymi lub mniejszymi wartościami
tej wspóÃlrzȩdnej maleje liniowo.
RozkÃlad warunkowy X1 pod warunkiem X2 .
fw (X1 |X2 ) =
1
2
fb (X2 )
Wzór ten ważny jest dla nastȩpuja̧cego przedziaÃlu zmiennej X1 :
−X2 − 1 ≤ X1 ≤ +X2 + 1 gdy − 1 ≤ X2 ≤ 0
+X2 − 1 ≤ X1 ≤ −X2 + 1 gdy
0 ≤ X2 ≤ +1
Wyznaczanie rozkÃladu warunkowego fw (X1 |X2 ) można sobie wyobrazić jako ogla̧danie
(patrza̧c wzdÃluż osi X2 ) przekroju prostopadÃlościanu przy czym ze wzglȩdu na normalizacjȩ pole tego przekroju musi być równe jedności – sta̧d pojawia siȩ staÃla normalizacyjna
1/fb (X2 ) (różna dla różnych wartości X2 ).
Ponieważ fw (X1 |X2 ) 6= fb (X1 ) to zmienne X1 i X2 sa̧ zależne !
B.Kamys: Fiz. Komp. 2003/04
10.1
52
MOMENTY ROZKÃLADU WIELOWYMIAROWEJ
ZMIENNEJ LOSOWEJ
Momentem wielowymiarowej zmiennej losowej X (X1 ,...,XN ) rzȩdu k1 +...+kN wzglȩdem
punktu X0 (X01 ,...,X0N ) nazywamy wielkość zdefiniowana̧ wzorem:
Z
mk1 +:::+kN (X01 , ..., X0N ) =
dX1 ...dXN .f (X1 , ..., XN ).(X 1 −X01 )k1 ...(XN −X0N )kN
Ten wzór jest sÃluszny dla zmiennej cia̧gÃlej a dla dyskretnej trzeba caÃlkȩ zamienić na sumȩ
i funkcjȩ gȩstości prawdopodobieństwa na rozkÃlad prawdopodobieństwa.
Najważniejsze momenty dla celów analizy statystycznej danych to:
Wartość oczekiwana czyli pierwszy moment wzglȩdem pocza̧tku ukÃladu wspóÃlrzȩdnych:
~ = (m10:::0 (0, .., 0), ..., m0:::01 (0, ..., 0))
E{X}
czyli
~ = (E{X1 }, E{X2 }, ...E{XN })
E{X}
Wariancja czyli drugi moment wzglȩdem wartości oczekiwanej:
var{X1 } = m20:::0 (E{X1 }, ..., E{XN })
.............
var{XN } = m00:::2 (E{X1 }, ..., E{XN })
Kowariancja czyli drugi moment mieszany wzglȩdem wartości oczekiwanej:
cov{X1 , X2 } = m1100::0 (E{X1 }, .., E{XN }),
cov{X1 , X3 } = m1010::0 (E{X1 }, .., E{XN }),
.....
B.Kamys: Fiz. Komp. 2003/04
53
Ponieważ wariancjȩ można uważać za kowariancjȩ policzona̧ dla dwukrotnie powtórzonej
zmiennej: var{Xi } = cov{Xi , Xi } to wygodnie jest zgromadzić wariancje i kowariancje
w jeden zespóÃl wielkości zwany macierza̧ kowariancji. Na gÃlównej przeka̧tnej macierzy
znajduja̧ siȩ wariancje a poza przeka̧tna̧ kowariancje. Macierz kowariancji jest: rzeczywista, symetryczna i dodatnio określona. Można ja̧ wiȩc zawsze zdiagonalizować
przez liniowa̧ transformacjȩ zmiennych pozostawiaja̧c jedynie wariancje na diagonali.
Czȩsto zamiast macierzy kowariancji tworzy siȩ macierz korelacji.
Macierz ta skÃlada siȩ ze wspóÃlczynników korelacji ρ(Xi ,Xj ) zdefiniowanych nastȩpuja̧co:
cov{Xi , Xj }
ρ(Xi , Xj ) = q
var{Xi }.var{Xj }
Oczywiście diagonalne elementy macierzy korelacji to jedynki a pozadiagonalne to odpowiednie wspóÃlczynniki korelacji.
WÃlasności wspóÃlczynnika korelacji
° WspóÃlczynnik korelacji przyjmuje wartości z przedziaÃlu [-1,+1]
° Jeżeli zmienne sa̧ niezależne to wspóÃlczynnik korelacji jest równy zero.
° Gdy wspóÃlczynnik korelacji równy jest zero (mówimy wtedy, że zmienne sa̧
nieskorelowane) to zmienne sa̧ niezależne liniowo ale moga̧ być zależne i to nawet
funkcyjnie.
° Jeżeli zmienne X i Y sa̧ zwia̧zane funkcyjnym zwia̧zkiem liniowym; Y=
aX+b to wspóÃlczynnik korelacji jest równy jedności co do moduÃlu a jego znak jest taki
sam jak znak wspóÃlczynnika kierunkowego prostej.
° Jeżeli moduÃl wspóÃlczynnika korelacji jest równy jedności to X i Y zwia̧zane
sa̧ funkcyjnym zwia̧zkiem liniowym Y= aX+b a znak wspóÃlczynnika kierunkowego prostej
jest taki sam jak znak wspóÃlczynnika korelacji.
Estymator wspóÃlczynnika korelacji Tn (ρ(X, Y )) ≡,,r” (symbole x̄ i ȳ oznaczaja̧ średnie
arytmetyczne pomiarów):
n
P
(xi − x̄)(yi − ȳ)
i=1
r ≡ Tn (ρ(X, Y )) = v
!
uµ
¶Ã n
n
u P
P
2
2
t
(xi − x̄)
(yj − ȳ)
i=1
j =1
B.Kamys: Fiz. Komp. 2003/04
54
Interpretacja kwadratu estymatora ,,r2 ”
Można pokazać, że kwadrat estymatora wspóÃlczynnika korelacji pokazuje na ile dobre jest
przybliżenie liniowe zależności y(x) czyli jak dobra jest regresja drugiego rodzaju (patrz
niżej).
P
(axi + b − ȳ)2
r2 = i P
i
(yi − ȳ)2
Wyrażenie w liczniku to tzw. wyjaśniona przez regresjȩ suma kwadratów a wyrażenie w
mianowniku to caÃlkowita suma kwadratów. Jak widać im bliższy jedności jest kwadrat
estymatora wspóÃlczynnika korelacji tym lepszym przybliżeniem zależności y(x) jest linia
prosta. Zwykle uważa siȩ, że przybliżenie jest dobre gdy wartości r 2 sa̧ bliskie 0.9 ale w
praktyce sami musimy zdecydować, czy odchylenia rzȩdu 10% sa̧ już zadowalaja̧co maÃle.
Regresja̧ (lub regresja̧ pierwszego rodzaju ) zmiennej Y wzglȩdem X nazywamy warunkowa̧
wartość oczekiwana̧ E{Y |X} traktowana̧ jako funkcja zmiennej X. Oczywiście warunkowa̧
wartość oczekiwana̧ E{X|Y } nazywamy regresja̧ pierwszego rodzaju zmiennej X wzglȩdem
Y.
Podstawowa wÃlasność funkcji regresji E{Y |X}: polega na tym, że wartość oczekiwana
kwadratu odchyleń zmiennej losowej Y od dowolnej funkcji u(X) jest minimalna, gdy jako
tȩ funkcjȩ przyjmiemy funkcjȩ regresji E{Y |X}:
n
o
n
E (Y − u(X))2 ≥ E (Y − E{Y |X})2
Dowód:
n
o
o
R
E (Y − u(X))2 = dX · dY · f (X, Y ) · (Y − u(X))2
R
R
= dX · f1 (X) dY · f2 (Y |X) · (Y − u(X))2
Wewnȩtrzna caÃlka jest wartościa̧ oczekiwana̧ kwadratu odchylenia zmiennej Y od pewnej
staÃlej (u(X) jest staÃla̧ jeżeli idzie o caÃlkowanie wzglȩdem zmiennej Y). Możemy wiȩc
zapisać tȩ caÃlkȩ nastȩpuja̧co (oznaczamy u(X) ≡ c):
R
dY · f2 (Y |X) · (Y − u(X))2 =
= E{(Y − c)2 } =
= E{(Y − E{Y } + E{Y } − c)2 =
= E{(Y − E{Y })2 + 2(Y − E{Y })(E{Y } − c) + (E{Y } − c)2 } =
= E{(Y − E{Y })2 } + 2E{Y − E{Y })(E{Y } − c) + E{(E{Y } − c)2 } =
= E{(Y − E{Y })2 + 0 + E{(E{Y } − c)2 }.
B.Kamys: Fiz. Komp. 2003/04
55
Drugi wyraz znikna̧Ãl bo E{Y-E{Y}} ≡ 0 a pozostaÃla suma wartości oczekiwanych z
kwadratów (Y-E{Y})2 i (E{Y}-c)2 bȩdzie miaÃla minimum gdy E{Y } ≡ c tj. E{Y } =
E{Y |X}.
c.b.d.o.
UWAGI:
• W tym wyprowadzeniu oczywiście należy odczytywać E{Y} jako warunkowa̧ wartość
oczekiwana̧, tj. E{Y|X} a staÃla̧ c jako dowolna̧ funkcjȩ u(X).
• Metoda estymacji parametrów oparta na omówionej powyżej wÃlasności funkcji regresji nazywana jest metoda̧ najmniejszych kwadratów
Regresja liniowa zwana również regresja̧ drugiego rodzaju to linia prosta przybliżaja̧ca
zależność regresji E{Y|X} od X, przy czym parametry tej prostej dobiera siȩ tak aby byÃla
speÃlniona podstawowa wÃlasność regresji tzn. aby wartość oczekiwana sumy kwadratów
odchyleń wartości Y od linii prostej byÃla minimalna.
W szczególnym przypadku dwuwymiarowego rozkÃladu normalnego funkcja regresji E{Y|X}
jest linia̧ prosta̧ a wiȩc funkcja regresji drugiego rodzaju jest również funkcja̧ regresji pierwszego rodzaju.
Regresja krzywoliniowa to funkcja nieliniowa argumentu X przybliżaja̧ca regresjȩ E{Y|X}
przy czym parametry funkcji dobierane sa̧ metoda̧ najmniejszych kwadratów. W tym
przypadku należy rozróżnić dwie sytuacje:
• Parametry wchodza̧ liniowo do funkcji, np. przybliżenie E{Y|X} przez szereg wielomianów lub innych funkcji tworza̧cych ukÃlad zupeÃlny. Odpowiada to tzw.
liniowej metodzie najmniejszych kwadratów i pozwala znaleźć wartości parametrów
jako rozwia̧zania ukÃladu równań liniowych przy czym dla unikniȩcia niestabilności
numerycznych zalecane jest stosowanie funkcji, które sa̧ ortogonalne na danym odcinku lub na zbiorze wartości zmiennej X.
W szczególności można posÃlużyć siȩ
wielomianami ortogonalnymi na zbiorze wartości zmiennej X.
• Parametry wchodza̧ nieliniowo do formuÃl. Wtedy optymalne wartości parametrów sa̧
rozwia̧zaniami ukÃladu równań nieliniowych, które rozwia̧zuje siȩ różnymi sposobami.
Jedna̧ z popularnych metod jest szukanie rozwia̧zań iteracyjnie znajduja̧c w kolejnych iteracjach poprawki do startowych parametrów w sposób analogiczny jak dla
liniowego przypadku metody najmniejszych kwadratów. Osia̧ga siȩ to rozwijaja̧c
nieliniowa̧ formuÃlȩ w szereg Taylora dokoÃla startowych wartości parametrów i obcina
siȩ szereg na wyrazach liniowych. Dla zapewnienia zbieżności procedury iteracyjnej
uzupeÃlnia siȩ tȩ metodȩ o szereg pragmatycznych reguÃl przyśpieszaja̧cych zbieżność
i określaja̧cych kiedy należy przerwać poszukiwanie wartości parametrów.
B.Kamys: Fiz. Komp. 2003/04
10.2
56
ESTYMACJA PUNKTOWA WARTOŚCI OCZEKIWANEJ
~ (X)}
~
~ (X)
~
E{Y
I MACIERZY KOWARIANCJI Y
Estymator wartości oczekiwanej:
~ )} = Y
~ (Tn {E(X1 )}, Tn {E(X2 )}, ..Tn {E(Xn )})
Tn {E(Y
Estymator macierzy kowariancji:
Tn {cov(Yk , Yq )} =
X
Ã
i;j
∂Yk
!
Ã
∂Yq
!
∂Xi ~x=E (~x) ∂Xj ~x=E (~x)
Tn {cov(Xi , Xj )}
W powyższych wzorach wartości oczekiwane E{Xi } oraz cov{Xi ,Xj } sa̧ zastȩpowane
swoimi estymatorami , tzn. odpowiednimi średnimi arytmetycznymi oraz esty~
matorem kowariancji wektora X:
Tn (cov{Xi , Xj }) =
1
n
X
n − 1 k=1
((Xi )k − X̄i )((Xj )k − X̄j )
Symbol (Xi )k oznacza ”k-ty”pomiar zmiennej Xi .
Wprowadzaja̧c oznaczenia macierzowe:
Cij (X) = Tn {cov{Xi , Xj }}
Cij (Y ³) = T´n {cov{Yi , Yj }}
@Yi
Tij = @X
j
~x=E f~xg
~ przez estymator kowariancji zmiennej
możemy wyrazić estymator kowariancji zmiennej Y
~ w nastȩpuja̧cy sposób (nazywany propagacja̧ bÃlȩdów):
X
C(Y ) = T C(X)T T
B.Kamys: Fiz. Komp. 2003/04
57
Wyprowadzenie:
~ dokoÃla wektora E{X}
~ obcinaja̧c
• Rozwijamy w szereg Taylora skÃladowe wektora Y
rozwiniȩcie na wyrazach liniowych
~ + Pj ( @Yi ) · (Xj − E{Xj }).
Yi ≈ Yi (E{X})
@Xj
~ − E{X}
~ tożsamościowo znika wiȩc
• Ponieważ wartość oczekiwana z różnicy X
~
~
wartość oczekiwana wektora Y równa jest Y (E{X}), tzn. dostajemy podany
~
wyżej wzór na wartość oczekiwana̧ Y (E{X}).
~ } otrzymujemy wstawiaja̧c estymatory
Estymator wartości oczekiwanej E{Y
~ .
(średnie arytmetyczne) zamiast skÃladowych wektora E{X}
P @Yi
~
• Z tego również wynika, że Yi − Yi (E{X})
= j ( @X
) · (Xj − E{Xj })
j
a wiȩc kowariancja Yk i Yq , która jest wartościa̧ oczekiwana̧
E{(Yk − E{Yk }) · (Yq − E{Yq })}
liczona jest jako wartość oczekiwana iloczynu analogicznych sum zawieraja̧cych
pochodne i wyrażenia Xj −E{Xj } co po prostym przeliczeniu daje powyższy wzór .
Estymator kowariancji otrzymujemy zastȩpuja̧c wartości oczekiwane przez odpowiednie średnie arytmetyczne a także licza̧c wartości pochodnych cza̧stkowych nie dla
wartości oczekiwanych Yi ale dla odpowiednich średnich arytmetycznych.
~
Gdy zmienne Xi , i = 1, ..n sa̧ niezależne macierz kowariancji skÃladowych wektora X
jest diagonalna czyli pozostaja̧ niezerowe jedynie wariancje:
cov{Xi , Xj } = δij · var{Xi }
Wzór na kowariancjȩ cov(Yk , Yq ) gdy Xi , i = 1, ..n sa̧ niezależne sprowadza siȩ do
poniższej postaci:
cov(Yk , Yq ) =
Ã
X
i
∂Yk
!
Ã
∂Yq
!
∂Xi ~x=E (~x) ∂Xi ~x=E (~x)
var(Xi )
co w szczególności daje znany nam wzór na bÃla̧d średni kwadratowy :
q
σ(Yk ) ≡
v
u
uX Ã ∂Y !2
k
u
var(Yk ) = t i
∂Xi
~x=E (~x)
var(Xi )
B.Kamys: Fiz. Komp. 2003/04
58
Należy pamiȩtać, że
• BÃla̧d średni kwadratowy Yk może być policzony wg wzoru powyżej (bez kowariancji)
tylko wtedy gdy zmienne Xi sa̧ niezależne. W praktyce E(Xi ) zastȩpowana
jest przez średnia̧ arytmetyczna̧ X̄i a var(Xj ) przez kwadrat bÃlȩdu średniej arytmetycznej (a nie samej zmiennej Xi ).
• Macierz kowariancji zmiennych Yi , i=1,..n jest zwykle niediagonalna
nawet wtedy gdy zmienne Xi sa̧ niezależne (macierz kowariancji Xi jest diagonalna) czyli zmienne Yi , i=1,..n sa̧ zwykle zależne. Jeżeli wiȩc bȩdziemy chcieli
~ który jest z kolei funkcja̧ wektora
znaleźć macierz kowariancji wektora losowego Z,
~ to musimy korzystać z ogólnego wzoru zawieraja̧cego kowariancje (zastȩpuja̧c
Y
~ przez Z
~ aX
~ przez Y
~ ).
oczywiście Y
• Wzory powyższe sa̧ wzorami przybliżonymi , tzn. na tyle sa̧ dobre na ile rozwiniȩcie
~ (X)
~ w szereg Taylora dokoÃla E{X}
~ z obciȩciem na liniowych wyrazach jest doY
~ (X).
~
brym przybliżeniem funkcji Y
Mimo to praktycznie wszȩdzie stosuje siȩ te wzory , czȩsto zapominaja̧c o
~ i X.
~
tym, że sa̧ one ścisÃle tylko dla liniowego zwia̧zku pomiȩdzy Y
B.Kamys: Fiz. Komp. 2003/04
10.3
59
REGRESJA LINIOWA
Definicja regresji liniowej byÃla już omawiana powyżej ale powtórzymy ja̧ dla przypomnienia:
DEFINICJA
Regresja liniowa zmiennej Y wzglȩdem zmiennej X to linia prosta
Y =a·X +b
z parametrami a i b dobranymi tak aby minimalizować sumȩ kwadratów odchyleń wspóÃlrzȩdnych
(yi , i = 1, 2, ..n) zespoÃlu n punktów o wspóÃlrzȩdnych (x1 , y1 ),(x2 , y2 ),... (xn , yn ) od
tej linii:
Q2 =
n
X
i=1
(yi − a · xi − b)2
UWAGA:
Regresja liniowa X wzglȩdem Y tj. prosta X = c · Y + d pokrywa siȩ z regresja̧ liniowa̧
Y wzglȩdem X tj. prosta̧ Y = a · X + b znaleziona̧ dla tego samego zespoÃlu punktów
doświadczalnych tylko wtedy gdy zwia̧zek pomiȩdzy X i Y jest funkcyjnym zwia̧zkiem
liniowym (a nie zależnościa̧ statystyczna̧).
Rozważymy tu specyficzna̧ sytuacjȩ polegaja̧ca̧ na tym, że:
• zmienna X ma zaniedbywalnie maÃle bÃlȩdy
(mówimy wtedy, że X jest zmienna̧ kontrolowana̧)
• bÃla̧d zmiennej Y jest taki sam dla wszystkich punktów i wynosi σ(Y ).
Wtedy dostajemy proste, analityczne wzory na estymatory parametrów regresji:
P
P
P
P
( i xi 2 ) · ( i yi ) − ( i xi ) · ( i xi · yi )
Tn (b) =
W
P
P
P
n · ( i xi · yi ) − ( i xi ) · ( i yi )
Tn (a) =
XW
X
2
W ≡ n·
x i − ( x i )2
i
i
B.Kamys: Fiz. Komp. 2003/04
60
Wskaźnik sumowania i przebiega wartości od 1 do n.
BÃlȩdy estymatorów parametrów a i b również wyrażaja̧ siȩ analitycznymi wzorami:
sP
s
Tn (σ(a)) = σ(Y ) ·
2
i xi
Tn (σ(b)) = σ(Y ) ·
W
n
W
Możemy również podać wzór na bÃla̧d wartości Y przewidzianej przez liniȩ regresji
(zależny od x):
Tn (σ(Y (x))) =
v
u
u1
(x − x)2
σ(Y ) · t + P
n
(x − x)2
i
i
• Tn (σ(Y (x))) to estymator bÃlȩdu wartości Y (x) przewidzianej przez regresjȩ,
• σ(Y ) to bÃla̧d pomiaru wspóÃlrzȩdnej Yi z zaÃlożenia taki sam dla wszystkich punktów.
Gdy go nie znamy wpisujemy tu (i do wzorów na bÃlȩdy parametrów ’a’ i ’b’) estymator Tn (σ(Y )),
• x to średnia arytmetyczna wartości zmiennej kontrolowanej wyliczona ze wspóÃlrzȩdnych
punktów x1 , x2 , ...xn ,
• x - to wartość zmiennej kontrolowanej X, dla której wyliczamy wartość regresji
liniowej Y (x) i estymator bÃlȩdu regresji liniowej Tn (σ(Y (x))).
UWAGA: Aby podja̧ć decyzjȩ, czy regresja liniowa zadawalaja̧co dobrze odtwarza zależność
y od x można zastosować jedna̧ wymienionych poniżej metod:
• Przy poprawnym odtwarzaniu zależności y(x) przez prosta̧ regresji y = a · x + b
wielkość Q2 ma rozkÃlad chi - kwadrat o n − 2 stopniach swobody a wiȩc jej wartość
oczekiwana i odchylenie standardowe speÃlniaja̧ nastȩpuja̧ce relacje:
E{Q2 } q
=n−2
2
σ{Q } = 2(n − 2)
B.Kamys: Fiz. Komp. 2003/04
61
• WspóÃlczynnik korelacji zmiennych x i y powinien być równy jeden (co do moduÃlu),
a wiȩc można sprawdzać hipotezȩ statystyczna̧ H0 : E{r} = 1
lub H0 : E{r 2 } = 1, gdzie r jest estymatorem wspóÃlczynnika korelacji x i y.
• Można zastosować tzw. analizȩ wariancji. Zarówno ten jak i poprzedni sposób
zostanie omówiony przy okazji badania hipotez statytsycznych.
B.Kamys: Fiz. Komp. 2003/04
10.4
62
REGRESJA PRZY POMOCY WIELOMIANÓW ORTOGONALNYCH
Tu omówiona zostanie regresja krzywoliniowa ze wzglȩdu na postać zależności dopasowanych funkcji od argumentu ale liniowa ze wzglȩdu na zależność od dobieranych
parametrów. W takiej sytuacji wartości parametrów można znaleźć przez rozwia̧zanie
ukÃladu równań liniowych (podobnie jak poprzednio dla parametrów linii prostej). Równania
te sa̧ jednakże czȩsto numerycznie niestabilne, tzn. maÃle zmiany wartości wspóÃlczynników
ukÃladu równań powoduja̧ drastyczne zmiany rozwia̧zań. Wygodna̧ metoda̧ unikniȩcia tych
problemów jest zastosowanie wielomianów ortogonalnych.
10.4.1
REGRESJA PRZY POMOCY WIELOMIANÓW ORTOGONALNYCH
NA ZBIORZE WARTOŚCI ZMIENNEJ KONTROLOWANEJ xi , i =
1, ...n
Przedstawiamy zmienna̧ y jako rozwiniȩcie w szereg wielomianów ortogonalnych Pr (x)
na zbiorze wartości argumentów xi , i = 1, ...n:
y(x) =
m
X
r=0
θr · Pr (x)
gdzie
parametry θr , (r = 1, ..., m) należy wyznaczyć metoda̧ najmniejszych kwadratów przyrównuja̧c powyższe wyrażenie na y(x) do zespoÃlu punktów (xi , yi ), (i = 1, 2, ..., n)
a wielomiany Pr (x), (r = 1, 2, ..., m) sa̧ określone przez zbiór wartości argumentu
xi ; (i = 1, 2, .., n) na którym maja̧ być ortogonalne oraz - ewentualnie - przez zbiór wag
wi , (i = 1, 2, ..., n) przypisanych poszczególnym punktom (xi , yi ), (i = 1, 2, ..., n).
Stosowanie wielomianów ortogonalnych ma nastȩpuja̧ce zalety:
1. parametry θr , (r = 1, ..., m) można wyliczyć analitycznie ponieważ pojawiaja̧
siȩ jako wspóÃlczynniki przy wielomianach a wiȩc mamy do czynienia z liniowym
przypadkiem metody najmniejszych kwadratów (MNK).
2. Obliczenie parametrów odbywa siȩ przy pomocy prostych wzorów podanych poniżej.
Nie wymaga to odwracania macierzy - jak to ma miejsce w ogólnym przypadku
ogólnej liniowej MNK. Dziȩki temu unika siȩ problemów numerycznych gdyż odwracanie typowych macierzy pojawiaja̧cych siȩ w MNK jest niestabilna̧ numerycznie
procedura̧.
3. Parametr θr+1 jest wyznaczany niezależnie od parametrów θ1 , θ2 , ...θr , tzn. dodanie nastȩpnego wyrazu do szeregu nie wpÃlywa na parametry przy wielomianach
niższego stopnia). Oznacza to również, że macierz kowariancji estymatorów parametrów θ jest diagonalna.
B.Kamys: Fiz. Komp. 2003/04
63
Ortogonalność wielomianów Pr (X) na zbiorze Xi , i = 1, 2, ...n
oznacza speÃlnienie poniższych warunków:
n
X
i=1
Pl (xi ) · Pk (xi ) = 0 dla l 6= k
n
X
[Pl (xi )]2 6= 0
i=1
Powyższe wÃlasności wielomianów ortogonalnych wykorzystujemy nastȩpuja̧co:
Mnożymy równanie określaja̧ce y(x) jako rozwiniȩcie w szereg wielomianów ortogonalnych przez dany wielomian Pk (xi ) i sumujemy po i co dziȩki ortogonalności wielomianów
prowadzi do wzoru:
n
X
i=1
yi · Pk (xi ) = θk
n
X
[Pk (xi )]2
i=1
a wiȩc otrzymujemy analityczny wzór na estymator parametru θk :
n
P
yi · Pk (xi )
Tn (θk ) = i=1
n
P
[Pk (xi )]2
i=1
Oczywiście można wprowadzić wielomiany ortogonalne z pewna̧ waga̧ ’wi ’, które
speÃlniaja̧ równanie analogiczne do wielomianów ortogonalnych z waga̧ jednostkowa̧ określonych
powyżej:
n
X
i=1
wi · Pl (xi ) · Pk (xi ) = 0 dla l 6= k
n
X
i=1
wi · [Pl (xi )]2 6= 0
wtedy
n
P
Tn (θk ) = i=1
n
P
wi · yi · Pk (xi )
i=1
wi · [Pk (xi )]2
B.Kamys: Fiz. Komp. 2003/04
64
Jako wagi wi bierze siȩ zwykle kwadraty odwrotności bÃlȩdów mierzonych wielkości Yi ,
gdyż to bardzo upraszcza rachunki:
wi =
1
σ 2 (yi )
Przede wszystkim należy zauważyć, że estymatory parametrów θk zależa̧ liniowo od
danych y1 , y2 , ...yn a wiȩc macierz kowariancji estymatorów można wyliczyć
ściśle stosuja̧c wzór na transformacjȩ macierzy kowariancji (”przenoszenie bÃlȩdów”) znaja̧c macierz kowariancji danych y1 , y2 , ...yn . Co wiȩcej wiadomo,
że macierz kowariancji parametrów jest diagonalna (bo estymator parametru θk jest
wyliczany niezależnie od estymatorów pozostaÃlych parametrów) a wiȩc pozostaje nam
znalezienie wariancji tych estymatorów.
n
P
[wi · Pk (xi )]2 σ 2 (yi )
var(Tn (θk )) = i=1 P
n
[
wi · Pk2 (xi )]2
i=1
Gdy przyjmiemy (tak bȩdziemy robić w nastȩpnych wzorach) wi ≡ 2 (1yi )
to
n
X
i=1
[wi · Pk (xi )]2 · σ 2 (yi ) =
=
n
X
i=1
n
X
i=1
wi2 · Pk2 (xi ) ·
1
wi
wi · Pk2 (xi )
a wiȩc wariancja estymatora parametru θk wyraża siȩ analitycznym wzorem:
var(Tn (θk )) = P
n
i=1
1
wi · Pk2 (xi )
Równie Ãlatwo można (ścisle) znaleźć wariancjȩ (wiȩc i bÃla̧d) formuÃly interpolacyjnej na
y(x):
var(y(x)) =
m
X
r=0
[Pr (x)]2 · var(Tn (θr ))
B.Kamys: Fiz. Komp. 2003/04
65
czyli
var(y(x)) =
m
X
r=0
n
P
i=1
[Pr (x)]2
wi · Pr2 (xi )
Jakość dopasowania może być oceniana przez policzenie wartości wyrażenia:
Q2 (m) =
n
X
i=1
wi ·[yi −
m
X
r=0
Tn (θr )·Pr (xi )]2 ,
które przy adekwatności modelu powinno mieć rozkÃlad chi-kwadrat o (n-(m+1)) stopniach
swobody.
Wiedza̧c o tym możemy wartość tego wyrażenia używać jako kryterium doboru najwyższego
2
stopnia wielomianu w rozwiniȩciu (m), gdyż
q wiemy, że Q (m) powinno mieć wartość
oczekiwana̧ równa̧ (n − m − 1) z bÃlȩdem 2(n − m − 1).
Czȩsto zamiast Q2 (m) stosuje siȩ unormowana̧ sumȩ kwadratów odchyleń:
Q2 (m)
n−m−1
.
Wartość oczekiwana tej wielkości jest równa jedności a bÃla̧d
10.4.2
q
2
n m
1
.
KONSTRUKCJA ZESPOÃLU WIELOMIANÓW ORTOGONALNYCH
NA ZBIORZE WARTOŚCI ARGUMENTU
ZakÃladamy, że maja̧ to być wielomiany ortogonalne z wagami w1 , w2 , ...wn na zbiorze
wartości argumentu x1 , x2 , ...xn , posiadaja̧ce jednostkowy wspóÃlczynnik przy najwyższej
potȩdze argumentu x. Można pokazać, że wielomiany ortogonalne P0 (x), P1 (x), ...Pm (x)
speÃlniaja̧ poniższe formuÃly rekurencyjne, które moga̧ być efektywnie zastosowane do ich
wyliczenia:
B.Kamys: Fiz. Komp. 2003/04
66
Pr+1 (x) = [x + βr+1 ] · Pr (x) + γr+1 · Pr
n
P
βr+1
wi · Pr2 (xi ) · xi
= − i=1P
n
i=1
n
P
γr+1
i=1
= − P
n
i=1
1 (x)
wi · Pr2 (xi )
wi · Pr2 (xi )
wi · Pr2 1 (xi )
przy czym startowe wielomiany, tzn. P0 (x) i P1 (x) określa siȩ nastȩpuja̧co:
P0 (x) = 1
n
P
wi · x i
P1 (x) = x − i=1P
n
i=1
P
wi
Warto zauważyć, że sumy typu i wi ·Pr2 (xi ) wystȩpuja̧ zarówno w mianowniku wzorów
na γr+2 , βr+1 , Tn (θr ), var(y) jak i w liczniku wzoru na γr+1 . Dziȩki temu przy
programowaniu wzorów można te sumy wykorzystać wielokrotnie.
B.Kamys: Fiz. Komp. 2003/04
11
67
METODA MONTE CARLO
Metoda ta polega na przyporza̧dkowaniu problemowi matematycznemu lub przyrodniczemu
równoważnego problemu statystycznego i rozwia̧zaniu go metodami statystyki. Szczególnie
pożyteczna okazaÃla siȩ w przypadkach, gdy szczegóÃly badanego problemu sa̧ zrozumiaÃle
i daÃlyby siȩ rozwia̧zać analitycznie ale rachunki takie sa̧ zbyt czasochÃlonne, np. policzenie caÃlek wielokrotnych gdy wymiar przestrzeni caÃlkowania jest duży czy też śledzenie
losu neutronów przechodza̧cych przez niejednorodne środowisko – takie jak w reaktorze
ja̧drowym i jego obudowie. Ten ostatni przykÃlad, tj. śledzenie losu neutronów przy
Ãlańcuchowej reakcji rozszczepienia prowadza̧cej do wybuchu bomby atomowej byÃl pierwszym zastosowaniem tej metody zaproponowanej przez J. von Neumanna i S. Ulama.
Zwykle udaje siȩ zasta̧pić poszukiwanie rozwia̧zania oryginalnego problemu przez
estymacjȩ wartości oczekiwanej pewnej funkcji na podstawie próby statystycznej
skÃladaja̧cej siȩ z zespoÃlu wartości tej funkcji obliczonego dla wylosowanych wartości argumentu. W zwia̧zku z tym pojawiaja̧ siȩ nastȩpuja̧ce pytania:
1. Jak sformuÃlować problem statystyczny, tzn. jak ma wygla̧dać funkcja dla której
poszukujemy wartości oczekiwanej ? Bierzemy przy tym pod uwagȩ:
• Jak zminimalizować bla̧d estymacji przy ustalonym rozmiarze próby statystycznej ?
• Z jakim rozkÃladem prawdopodobieństwa (gȩstości prawdopodobieństwa) należy
losować wartości argumentu funkcji ?
2. W jaki sposób przeprowadzić generacjȩ liczb losowych ?
Odpowiedzi na te pytania zależa̧ od rozwia̧zywanego problemu. Poniżej bȩda̧ przedstawione przykÃlady jak można dobierać postać funkcji i jakie pojawiaja̧ siȩ wtedy rozkÃlady
prawdopodobieństwa gdy stosuje siȩ metodȩ Monte Carlo do liczenia caÃlek.
11.1
LICZENIE CAÃLEK METODA̧ MONTE CARLO
CaÃlkȩ
I≡
Z b
a
f (x)dx
możemy zapisać w równoważnej postaci
Zb
I=
gdzie funkcja g(x) > 0 oraz
Rb
a
g(x)
a g(x)
· f (x) · dx
g(x)dx = 1 - czyli g(x) jest pewna̧ funkcja̧ gȩstości
prawdopodobieństwa na odcinku [a,b]).
B.Kamys: Fiz. Komp. 2003/04
68
Porównuja̧c drugi wzór na caÃlkȩ I ze wzorem na wartość oczekiwana̧ funkcji fg((xx)) :
(
E
f (x)
g(x)
Zb
)
≡
Ã
dx · g(x) ·
a
f (x)
!
g(x)
widać, że caÃlka jest po prostu wartościa̧ oczekiwana̧ funkcji fg((xx)) dla gȩstości prawdopodobieństwa g(x).
W szczególności jako funkcjȩ g(x) możemy wzia̧ć funkcjȩ gȩstości prawdopodobieństwa
rozkÃladu jednorodnego na odcinku [a,b] i dostaniemy:
Zb
I = (b − a) ·
a
f (x)dx
b−a
Estymatorem powyższej wartości oczekiwanej jest średnia arytmetyczna
Tn (I) = (b − a) ·
n
1X
n i=1
f (xi )
gdzie argumenty xi sa̧ losowane z rozkÃladem jednorodnym (równomiernym) na odcinku
[a,b]. Jest to tzw. podstawowa metoda liczenia caÃlki metoda̧ Monte Carlo.
Dla wygody rozważa siȩ zwykle caÃlki liczone na odcinku [0,1] bo wtedy nie
musimy jawnie wypisywać dÃlugości przedziaÃlu caÃlkowania a można zawsze
przez liniowa̧ zmianȩ zmiennych przejść do dowolnego odcinka [a,b]. W
poniższych rozważaniach bȩdziemy stosować tȩ konwencjȩ.
Wzór na estymator caÃlki jest wtedy po prostu średnia̧ arytmetyczna̧ wartości funkcji
podcaÃlkowej gdzie argumenty xi sa̧ losowane z rozkÃladem jednorodnym na przedziale [0,1].
BÃla̧d estymatora caÃlki to bÃla̧d średniej arytmetycznej :
σ{I} =
=
v (
)
u
n
X
u
1
tσ 2
f (xi )
n i=1
v
u
n
u 1 X
t
σ 2 {f (xi )}
s
n2 i=1
1
σ 2 {f }
n2
1
= √ σ{f }
n
=
B.Kamys: Fiz. Komp. 2003/04
69
Niestety ten wzór nie może być w praktyce stosowany bo liczenie σ{f } wymagaÃloby
znajomości wartości szukanej caÃlki:
Z1
2
 1
2
Z
f (x)dx −  f (x)dx
2
σ {f } =
0
0
Z1
f 2 (x)dx − I 2
=
0
Dlatego dla liczenia estymatora bÃlȩdu caÃlki S(I) zamiast σ{f } używa siȩ estymatora
S{f } liczonego wg wzoru:
S (f ) =
v
u
u
t
1
n
X
n − 1 i=1
[f (xi ) − Tn (I)]2
1
S (I) = √ S (f )
n
gdzie należy zauważyć, że Tn (I) jest równe (ze wzglȩdu na jednostkowa̧ dÃlugość przedziaÃlu
caÃlkowania) średniej arytmetycznej z wartości funkcji f(x)
Ponieważ przy liczeniu caÃlek chcielibyśmy wiedzieć nie tylko jakie jest odchylenie standardowe estymatora caÃlki, lecz chcielibyśmy określić przedziaÃl gdzie “prawie na pewno”
bȩdzie znajdować siȩ prawdziwa wartość caÃlki to przyjȩÃlo siȩ jako “bÃla̧d caÃlki” brać poÃlowȩ
przedziaÃlu ufności na poziomie ufności 0,9545, który równy jest podwojonej wartości odchylenia standardowego przy zaÃlożeniu, że średnia arytmetyczna ma rozkÃlad normalny.
A wiȩc jako “bÃla̧d caÃlki” bierzemy wielkość:
2S(f )
√
n
11.2
ZMNIEJSZANIE BÃLȨDU CAÃLKI
Podstawowa̧ metoda̧ stosowana̧ w tym celu jest tzw. ”metoda średniej ważonej” (zwana
po angielsku “importance sampling”). Polega ona na tym, że zamiast losować argument
funkcji podcaÃlkowej z rozkÃladem jednorodnym losuje siȩ go z rozkÃladem g(x) możliwie
podobnym do funkcji podcaÃlkowej. Wtedy estymatorem caÃlki na przedziale [0,1] z funkcji
f(x) jest średnia ważona:
B.Kamys: Fiz. Komp. 2003/04
70
Tn (I) =
n f (x )
1 X
i
n i=1 g(xi )
gdzie argumenty xi losowane sa̧ czȩściej tam gdzie funkcja f(x) jest duża a wiȩc przyczynki
do caÃlki sa̧ znacza̧ce – sta̧d angielska nazwa “losowanie istotne”.
Można pokazać, że zastosowanie tej metody zawsze daje mniejszy bÃla̧d caÃlki niż otrzymywany w metodzie podstawowej.
Inna̧ metoda̧ jest tzw. “losowanie warstwowe” polegaja̧ce na rozbiciu przedziaÃlu
caÃlkowania na mniejsze przedziaÃly, w których funkcja podcaÃlkowa zmienia siȩ możliwie
maÃlo – jest prawie staÃla. Wtedy użycie najprostszej metody – podstawowej – w każdym
z przedziaÃlów zdecydowanie zmniejsza wariancjȩ (bÃla̧d) caÃlki. Widać to ewidentnie dla
funkcji przedziaÃlami staÃlej. Tam metoda warstwowa daje bÃla̧d równy zeru (!).
Tu także można pokazać, że bÃla̧d caÃlki jest zawsze mniejszy lub równy od bÃlȩdu metody
podstawowej.
“Metoda zmiennych kontrolnych” to szukanie funkcji h(x) podobnej do f(x) ale
takiej, że caÃlka z h(x) na przedziale [0,1] jest znana. Wtedy możemy liczyć podstawowa̧
metoda̧ Monte Carlo caÃlkȩ z różnicy f(x)-h(x). Jest to opÃlacalne jeżeli liczenie funkcji h(x)
nie jest zbyt pracochÃlonne. Zwykle przyjmuje siȩ, że wspóÃlczynnik korelacji
pomiȩdzy
q
1
funkcjami f(x) i h(x) powinien speÃlniać relacjȩ: ρ(f (x), h(x)) ≥ 1 − k gdzie “k”
oznacza ile razy bardziej pracochÃlonne jest policzenie różnicy f(x)-h(x) od policzenia samej
funkcji f(x).
“Metoda zmiennych antytetycznych”
Jeżeli f1 (ξ) i f2 (η) sa̧ dwoma estymatorami liczonej powyżej caÃlki to ich średnia
arytmetyczna g2 też bȩdzie estymatorem caÃlki:
g2 ≡
1
2
(f1 + f2 ),
przy czym jeżeli oba estymatory f1 i f2 sa̧ nieobcia̧żone to i estymator g2 jest nieobcia̧żony.
Z drugiej strony wariancja estymatora g2 bȩdzie zależeć nie tylko od wariancji estymatorów f1 i f2 ale także od ich kowariancji:
σ 2 (g2 ) ≡
1
4
(σ 2 (f1 ) + σ 2 (f2 )) +
1
2
cov(f1 , f2 ).
Jeżeli kowariancja estymatorów bȩdzie ujemna i duża co do moduÃlu, to wariancja estymatora g2 może być mniejsza od wariancji każdego z estymatorów f1 i f2 . Powyższe
rozumowanie można oczywiście rozszerzyć na średnia̧ m estymatorów caÃlki.
B.Kamys: Fiz. Komp. 2003/04
71
PRZYKÃLAD:
Jeżeli funkcja podcaÃlkowa f (x) jest monotoniczna to jako dwa wyżej omawiane estymatory możemy wzia̧ć nastȩpuja̧ce funkcje: f1 = f (x) i f2 = f (1 − x). Wtedy estymator g2 bȩdzie bardziej zbliżony do staÃlej na odcinku [0,1] niż każdy z dwu skÃladników.
To spowoduje, że jego wariancja bȩdzie mniejsza od wariancji każdego ze skÃladników a o
to nam chodzi.
Dla funkcji monotonicznej na caÃlym przedziale caÃlkowania można dobrać inny wygodny
estymator g2 , który bȩdzie średnia̧ ważona̧ a nie średnia̧ arytmetyczna̧ a wagi dobierze siȩ
tak aby najbardziej zmniejszyć wariancjȩ estymatora g2 :
g2 ≡ α · f (αx) + (1 − α) · f (1 − (1 − α)x) gdzie 0 < α < 1.
Znalezienie optymalnej wartości wspóÃlczynnika α może być bardzo trudne, wiȩc czȩsto
zadawalamy siȩ zastosowaniem nastȩpuja̧cego, prostszego przepisu, który zwykle daje
porównywalnie maÃla̧ wariancjȩ caÃlki jak optymalna wartość α. Jest to rozwia̧zanie równania:
f (α) = (1 − α) · f (1) + α · f (0)
Powyższe przykÃlady liczenia caÃlki metoda̧ Monte Carlo nie wyczerpuja̧ wszystkich
stosowanych wariantów tej metody lecz sÃluża̧ raczej do ilustracji na czym polega problem
doboru funkcji, dla której szukamy wartości oczekiwanej. Nie pokazuja̧ jednak na czym
polega przewaga metody Monte Carlo nad innymi metodami liczenia caÃlki.
W przypadku caÃlki jednokrotnej taka przewaga nie ujawnia siȩ bo istnieje wiele innych
metod numerycznych takich jak np. metoda Simpsona, Romberga czy Gaussa, które sa̧
bardziej precyzyjne od metody Monte Carlo przy tej samej liczbie wyliczonych wartości
funkcji podcaÃlkowej. Jednakże gdybyśmy chcieli zastosować która̧ś z tych metod do
caÃlki wielokrotnej to okaże siȩ, że otrzymanie maÃlego bÃlȩdu caÃlki wymaga przy zwiȩkszaniu
wymiaru przestrzeni argumentów zwiȩkszania liczby obliczeń funkcji podcaÃlkowej w sposób
proporcjonalny do nw , gdzie n jest liczba̧ wartości jednego argumentu a w jest wymiarem
przestrzeni argumentów. W odróżnieniu od tych metod wielkość bÃlȩdu estymatora caÃlki
uzyskanego metoda̧√Monte Carlo maleje tak jak bÃla̧d średniej arytmetycznej czyli proporcjonalnie do 1/ n niezależnie od wymiaru przestrzeni argumentów . A wiȩc
zwiȩkszanie wymiaru przestrzeni argumentów funkcji podcaÃlkowej nie musi przedÃlużać
czasu obliczenia caÃlki.
Rozważmy prosty przykÃlad: do obliczenia caÃlki 10 – krotnej, wyliczaja̧c funkcjȩ podcaÃlkowa̧
10 razy dla każdego wymiaru musielibyśmy obliczyć funkcjȩ podcaÃlkowa̧ 1010 razy. Jeżeli
potrafimy w cia̧gu sekundy obliczyć funkcjȩ podcaÃlkowa̧ 10 000 razy to znalezienie wartości
caÃlki wymagaÃloby 1000 000 sekund czyli okoÃlo 12 dni i nocy. Tymczasem stosuja̧c metodȩ
Monte Carlo, możemy oszacować wartość caÃlki z dokÃladnościa̧ kilku procent wyliczaja̧c
np. 1000 000 razy funkcjȩ podcaÃlkowa̧ tzn. skracaja̧c czas obliczeń do 100 sekund.
B.Kamys: Fiz. Komp. 2003/04
11.3
72
GENERACJA LICZB LOSOWYCH
Przy obliczeniach metoda̧ Monte Carlo konieczna jest generacja liczb losowych o poża̧danym
rozkÃladzie (gȩstości) prawdopodobieństwa. Liczby te w praktyce znajduje siȩ przy pomocy
odpowiednich programów komputerowych co powoduje, że cia̧gi liczb losowych otrzymane
z tych samych startowych parametrów sa̧ powtarzalne a wiȩc nie sa̧ naprawdȩ losowe. Z
tej przyczyny używa siȩ czȩsto określenia liczby pseudolosowe.
Najważniejszym ze stosowanych rozkÃladów jest rozkÃlad jednorodny(równomierny,
jednostajny), gdyż przy jego użyciu można wygenerować liczby pseudolosowe o innych poża̧danych rozkÃladach prawdopodobieństwa. Jak bȩdzie pokazane poniżej istnieja̧
metody pozwalaja̧ce na stworzenie prostych i krótkich programów komputerowych do
generacji liczb pseudolosowych o rozkÃladzie jednorodnym. Można wiȩc samemu napisać
taki program. Okazuje siȩ jednak, że bezpieczniej jest korzystać z gotowych, opracowanych przez specjalistów procedur , gdyż speÃlniaja̧ one nie tylko podstawowe
wymagania narzucane na liczby pseudolosowe ale uwzglȩdniaja̧ także bardziej zaawansowane warunki, które musza̧ być zapewnione przy niektórych obliczeniach. Takimi godnymi polecenia generatorami liczb losowych sa̧ procedury RANLUX i RANMAR z
biblioteki procedur CERN. Pierwszy z nich zostaÃl napisany przez F. Jamesa (Comp. Phys.
Comm. 79 (1994) 111) i oznaczony jest symbolem V115 w bibliotece procedur CERN a
drugi (stworzony w oparciu o raport G. Marsaglia, A. Zaman, and W.W. Tsang, Towards a
Universal Random Number Generator, Supercomputer Computations Research Institute,
Florida State University technical report FSU-SCRI-87-50 (1987)) przez F. Carminati i
F. Jamesa i wystȩpuje jako procedura V113 w bibliotece procedur CERN.
11.3.1
Generacja liczb o rozkÃladzie równomiernym
W olbrzymiej wiȩkszości przypadków cia̧gi liczb pseudolosowych tworzone sa̧ przy pomocy
zwia̧zków rekurencyjnych. Najlepiej zbadanym algorytmem jest tzw. metoda kongruencyjna, która generuje kolejna̧ liczbȩ pseudolosowa̧ w oparciu o k + 1 poprzednich wg
wzoru:
xn+1 = (a0 xn + a1 xn
1
+ . . . + ak xn k )(modM ),
gdzie zapis a(mod b) należy rozumieć jako resztȩ z dzielenia liczby a przez liczbȩ b.
Liczba M a także wszystkie liczby ai oraz xi sa̧ liczbami caÃlkowitymi z przedziaÃlu [0, M ).
Generatory stanowia̧ce szczególne przypadki powyższego wzoru maja̧ swoje specjalne
nazwy. Generatory stosuja̧ce wzór:
xn+1 = xn + xn
1 (modM )
nazywane sa̧ generatorami Fibonacciego,
te, które używaja̧ relacji:
xn+1 = a0 xn (modM )
określa siȩ mianem generatorów multiplikatywnych a oparte o wyrażenie:
xn+1 = (a0 xn + a1 )(modM )
B.Kamys: Fiz. Komp. 2003/04
73
nosza̧ nazwȩ generatorów mieszanych.
Wszystkie cia̧gi liczb pseudolosowych sa̧ cia̧gami okresowymi. Dobry generator powinien
mieć możliwie dÃlugi okres, tak dÃlugi aby w czasie wykonywania prac obliczeniowych wykorzystywać tylko niewielka̧ czȩść okresu. Maksymalny możliwy okres cia̧gu liczb losowych
otrzymanych ogólna̧ metoda̧ kongruencyjna̧ nie może przekroczyć M k+1 . A wiȩc maksymalny okres generatora Fibonacciego to M 2 a generatora multiplikatywnego i mieszanego
nie przekracza M . Te maksymalne wartości sa̧ osia̧gane tylko przy odpowiednim doborze
wspóÃlczynników formuÃly rekurencyjnej. Na przykÃlad, można pokazać, że dÃlugość okresu
cia̧gu liczb losowych generatora mieszanego wynosi M wtedy i tylko wtedy, gdy speÃlnione
sa̧ nastȩpuja̧ce warunki:
• a1 i M nie maja̧ wspólnych dzielników,
• (a0 − 1) jest wielokrotnościa̧ liczby pierwszej, która jest dzielnikiem liczby M ,
• (a0 − 1) jest wielokrotnościa̧ liczby 4, o ile M jest też wielokrotnościa̧ liczby 4.
Od dobrego generatora, ża̧damy również aby można byÃlo kolejne liczby pseudolosowe
uważać za niezależne. W szczególności powinny być niezależne liniowo. Możemy to
sprawdzić licza̧c wspóÃlczynniki korelacji pomiȩdzy parami liczb:
%j ≡ %(xi , xi+j ).
WspóÃlczynniki korelacji %j ,j=1,2,... powinny być równe zero.
Zamiast liczyć wspóÃlczynniki korelacji można niezależność liniowa̧ generowanych liczb
sprawdzać przez wykonanie pewnych kontrolnych zadań rachunkowych. Jednym z najprostszych zadań jest liczenie metoda̧ Monte Carlo (np. podstawowa̧ metoda̧ szukania
caÃlki) objȩtości kuli o jednostkowym promieniu w przestrzeni N-wymiarowej. Objȩtość
kuli wynosi:
2 π N=2
VN =
,
N Γ(N/2)
√
gdzie Γ(N/2) to funkcja gamma Eulera. Funkcja ta przyjmuje wartość π dla argumentu 1/2 i może być liczona rekurencyjnie wg wzoru Γ(z + 1) = z · Γ(z). Nawet
niewielka korelacja pomiȩdzy generowanymi liczbami pseudolosowymi odbija siȩ wyraźnie
na wynikach obliczeń dyskredytuja̧c stosowany generator.
Inna̧, bardzo ważna̧ cecha̧ generatora liczb pseudolosowych jest aby te liczby pokrywaÃly
przedziaÃl (0,1) odpowiednio gȩsto.
Aby to prosto wyjaśnić weźmy pod uwagȩ rekurencyjny algorytm, w którym nastȩpna
liczba generowana jest przy pomocy poprzedniej: xn+1 = f (xn ). Jeżeli wykreślimy
na powierzchni jednostkowego kwadratu (czyli kwadratu o wierzchoÃlkach (0,0),(1,0),(1,1)
i (0,1) poÃlożenia punktów o wspóÃlrzȩdnych (x = xn , y = xn+1 ) to w przypadku
prawdziwych losowych liczb xn i xn+1 powinny one pokrywać równomiernie powierzchniȩ
kwadratu. Natomiast dla pseudolosowych liczb dostaniemy punkty leża̧ce na krzywej
y = f (x). A wiȩc krzywa y = f (x) musi wielokrotnie i to w maÃlych odlegÃlościach
przechodzić przez powierzchniȩ kwadratu aby zapewnić w miarȩ równomierne pokrycie
B.Kamys: Fiz. Komp. 2003/04
74
powierzchni kwadratu. Ten warunek podobnie jak i inne powyżej wymienione jest jedynie
warunkiem koniecznym aby generator mógÃl być uznany za zadawalaja̧cy generator.
Dla surowego testowania generatorów wymyślono caÃly zestaw testów, które powinny
być speÃlniane przez dobre generatory (np. G. Marsaglia, A Current View of Random
Number Generators, Computer Science and Statistics: 16th Symposium on the Interface, Elsevier (1985)). Wspomniane na wstȩpie generatory RANLUX, RANMAR przeszÃly
pomyślnie ten zestaw testów.
11.3.2
Generacja liczb losowych o dowolnych rozkÃladach prawdopodobieństwa
Jeżeli dysponujemy już dobrym generatorem liczb pseudolosowych o rozkÃladzie równomiernym
na odcinku [0,1] to możemy przysta̧pić do generacji liczb o dowolnych rozkÃladach prawdopodobieństwa. Zacznijmy od generacji zmiennej dyskretnej przyjmuja̧cej n wartości
z zadanym rozkÃladem prawdopodobieństwa:
P (x = xi ) = pi , dla i = 1, 2, ...n
W tym celu podzielmy przedziaÃl [0,1] na n przedziaÃlów o dÃlugości ∆i = pi . Litera̧ γ
oznaczać bȩdziemy wygenerowana̧ zmienna̧ o rozkÃladzie równomiernym w przedziale [0,1].
Wtedy Ãlatwo udowodnić nastȩpuja̧ce twierdzenie:
TWIERDZENIE
Losowa wielkość x określona formuÃla̧
x = xi gdy γ ∈ ∆i
ma poszukiwany rozkÃlad dyskretny.
DOWÓD:
P (x = xi ) = P (γ ∈ ∆i ) = ∆i = pi
♦
UWAGA 1: Powyższe twierdzenie można uogólnić na przypadek zmiennej dyskretnej przyjmuja̧cej nieskończenie wiele wartości. Wtedy zarówno wartości zmiennej
xi jak i prawdopodobieństwa pi określone sa̧ wzorami określaja̧cymi ich zależność od
wskaźnika i. Dla efektywnego losowania wybiera siȩ pewne nmax tak duże, że suma
prawdopodobieństw
nX
max
i=1
pi = 1 − ε
jest bliska jedności (tj. ε > 0 jest odpowiednio maÃle) i dla wskaźników i = 1, ..., nmax
wylicza siȩ przed generacja̧ xi i pi (przechowuja̧c je nastȩpnie w pamiȩci komputera) a
B.Kamys: Fiz. Komp. 2003/04
75
obliczenia wg zadanych wzorów wykonuje siȩ tylko przy generacji maÃlo prawdopodobnych
wartości xi (dla i > nmax ).
♦
UWAGA 2: Czȩsto przy symulacji zjawisk przyrodniczych spotykamy siȩ z sytuacja̧,
w której musimy zdecydować jakie zdarzenie spośród wszystkich możliwych i wykluczaja̧cych siȩ zdarzeń (A1 , A2 , ..., An ) zachodzi w danym momencie jeżeli znamy
prawdopodobieństwa tych zdarzeń. Taka sytuacja dokÃladnie odpowiada schematowi
wyboru wartości zmiennej dyskretnej tożsamej ze wskaźnikiem i danego zdarzenia Ai o
znanym rozkÃladzie prawdopodobieństw pi , i = 1, ..., n.
♦
Generacja zmiennej cia̧gÃlej z zadana̧ funkcja̧ gȩstości prawdopodobieństwa f(x).
ZaÃlóżmy, że zmienna losowa x ma funkcjȩ gȩstości prawdopodobieństwa f (x) > 0 w
skończonym lub nieskończonym przedziale [a,b]. Wtedy dystrybuanta zmiennej x opisywana jest wzorem:
Zx
F (x) =
f (t)dt
a
i jest silnie rosna̧ca̧ funkcja̧.
TWIERDZENIE
Przy tych zaÃlożeniach losowa wielkość x określona formuÃla̧
F (x) = γ
ma funkcjȩ gȩstości prawdopodobieństwa f (x).
DOWÓD:
Dla silnie rosna̧cej dystrybuanty F (x) możemy napisać nastȩpuja̧cy zespóÃl równań (przez
Y oznaczamy dystrybuantȩ traktowana̧ jako zmienna losowa):
P (y < Y < y + dy)
P (y < Y < y + dy)
P (x < X < x + dx)
g(y)dy
=
≡
≡
=
P (x < X < x + dx)
g(y)dy
f (x)dx
f (x)dx
ska̧d wynika, że
g(F (x))dF (x) = f (x)dx.
Z definicji dystrybuanty wiadomo, że:
dF (x) = f (x)dx,
B.Kamys: Fiz. Komp. 2003/04
76
a wiȩc
g(F (x)) = 1,
czyli dystrybuanta ma rozkÃlad równomierny w przedziale [0,1].
Sta̧d generuja̧c wartość liczby losowej γ określamy jednoznacznie wartość dystrybuanty
F(x) a co za tym idzie wartość zmiennej x o funkcji gȩstości prawdopodobieństwa f(x):
x=F
gdzie F
♦
1
1
(γ),
(x) oznacza funkcjȩ odwrotna̧ do dystrybuanty.
UWAGA 1: Jeżeli funkcja gȩstości prawdopodobieństwa f(x) zeruje siȩ na pewnych odcinkach wartości argumentu to dystrybuanta F(x) nie jest funkcja̧ silnie rosna̧ca̧ i wtedy
rozwia̧zanie równania F (x) = γ nie jest jednoznaczne (F(x) nie ma funkcji odwrotnej).
Można temu jednak zapobiec zastȩpuja̧c funkcjȩ odwrotna̧ do dystrybuanty F 1 (x) przez
funkcjȩ G(y) zdefiniowana̧ nastȩpuja̧co:
G(y) ≡
inf x
fxjy<F (x)g
.
A wiȩc generujemy liczbȩ losowa̧ o rozkÃladzie gȩstości prawdopodobieństwa f(x) przy
pomocy równości:
x = G(γ).
♦
UWAGA 2: Przedstawiona̧ powyżej metodȩ generacji liczb pseudolosowych nazywa siȩ
najczȩściej metoda̧ funkcji odwrotnych ( inverse functions method ). Należy podkreślić,
że zamiast wzorów x = F 1 (γ) lub x = G(γ) ze specjalnym wyborem funkcji G podanym powyżej można stosować wzór x = g(γ) , gdzie g nie jest monotoniczna, byleby
tylko speÃlniaÃla relacjȩ P (g(γ) < x) = F (x).
♦
PRZYKÃLAD: Generacja zmiennej losowej x o rozkÃladzie wykÃladniczym dla x ≥ x0 .
(
f (x) =
C · exp[−C(x − x0 )] dla x ≥ x0
0
dla x < 0
B.Kamys: Fiz. Komp. 2003/04
77
Dystrybuanta:
Zx
F (x) =
C · exp[−C(t − x0 )] · dt = 1 − exp[−C(x − x0 )].
x0
Rozwia̧zujemy ze wzglȩdu na x równanie F (x) = γ, gdzie γ jest pseudolosowa̧ liczba̧
o rozkÃladzie równomiernym w [0,1]. Wstawiaja̧c jawna̧ postać dystrybuanty dostajemy:
1 − exp[−C(x − x0 )] = γ. Rozwia̧zanie równania to:
x = x0 −
1
C
· ln(1 − γ).
♦
Szukanie funkcji odwrotnej do dystrybuanty może być trudne ze wzglȩdów numerycznych.
Wtedy czȩsto daje siȩ uprościć generacjȩ stosuja̧c tzw. metodȩ superpozycji. Używa siȩ
jej wtedy gdy dystrybuantȩ zmiennej, która̧ chcemy generować udaje siȩ przedstawić
w postaci kombinacji liniowej dystrybuant o prostszej postaci, takich dla których Ãlatwo
znaleźć funkcje odwrotne. Istotne jest, że wspóÃlczynniki kombinacji liniowej (o skończonej
lub nieskończonej liczbie wyrazów) powinny mieć wartości należa̧ce do przedziaÃlu (0,1)
a ich suma ma być równa jedności, tak aby można je byÃlo interpretować jako prawdopodobieństwa. Wtedy kombinacjȩ liniowa̧ można interpretować jako formuÃlȩ peÃlnego
prawdopodobieństwa:
F (x) =
N
P
k=1
N
P
k=1
ck = 1,
ck · Fk (x)
0 < ck < 1
W metodzie superpozycji generujemy dwie niezależne liczby losowe o rozkÃladzie jednorodnym w [0,1]: γ1 i γ2 . Pierwsza̧ z nich stosujemy do losowego wyboru wartości wskaźnika k
(zgodnie z przepisem podanym wyżej dla generacji wartości dyskretnej zmiennej) a druga̧
do generacji wartości zmiennej x posiadaja̧cej dystrybuantȩ Fk (x).
PRZYKÃLAD:
Chcemy generować wartości zmiennej x o funkcji gȩstości prawdopodobieństwa:
f (x) =
5
12
· [1 + (x − 1)4 ] dla x ∈ (0, 2).
Dystrybuanta zmiennej x ma postać:
F (x) =
1
5
· [(x − 1)5 + 1] dla ∈ (0, 2)
B.Kamys: Fiz. Komp. 2003/04
78
co powoduje, że dla generacji metoda̧ funkcji odwrotnych musielibyśmy rozwia̧zać równanie
pia̧tego stopnia:
´
1 ³
(x − 1)5 + 5x + 1 = γ.
12
Gdy przedstawimy funkcjȩ gȩstości prawdopodobieństwa jako kombinacjȩ liniowa̧ o
wspóÃlczynnikach c1 = (5/6) i c2 = (1/6) dwu funkcji gȩstości prawdopodobieństwa:
à !
f (x) =
5
·
6
1
2
à !
+
1
·
6
5
2
(x − 1)4
to dystrybuanta też bȩdzie kombinacja̧ liniowa̧ postaci:
à !
F (x) =
5
6
·
x
2
à !
+
1
6
·
1
2
[(x − 1)5 + 1].
Wtedy generacja metoda̧ funkcji odwrotnej dla obu prostszych dystrybuant daje jawne
wzory na funkcje odwrotne i dostajemy nastȩpuja̧cy przepis na wyliczenie x:
x = 2γ2
= 1+
q
5
gdy γ1 < 5/6
2γ2 − 1 gdy γ1 ≥ 5/6.
♦
Obok metody funkcji odwrotnych używa siȩ dla generacji liczb losowych również inne
metody, spośród których najbardziej popularna jest metoda eliminacji zaproponowana
przez J. von Neumanna lub metody wykorzystuja̧ce wzory typu: x = g(γ1 , γ2 , ..., γn ).
Omówimy je poniżej.
Metodȩ eliminacji stosuje siȩ gdy zmienna x ma rozkÃlad o gȩstości prawdopodobieństwa
opisany funkcja̧ f(x) w przedziale [a,b] i równy zero poza przedziaÃlem, oraz f(x) jest
ograniczona od góry: f (x) ≤ c. Postȩpuje siȩ wtedy wg nastȩpuja̧cej procedury:
1. Generujemy wartość zmiennej x wg wzoru: x = (b − a)γ1 + a z rozkÃladem
jednorodnym w przedziale [a,b].
2. Generujemy wartość zmiennej y wg wzoru: y = cγ2 z rozkÃladem jednorodnym w
przedziale [0,c].
3. Sprawdzamy, czy y ≤ f (x). Jeżeli tak, to akceptujemy wartość x, w przeciwnym
przypadku para (x,y) jest eliminowana i generacjȩ powtarza siȩ od nowa.
B.Kamys: Fiz. Komp. 2003/04
79
Metody wykorzystuja̧ce przeksztaÃlcenie x = g(γ1 , γ2 , ..., γn )
PRZYKÃLAD Pokażemy, że zmienna̧ o rozkÃladzie gȩstości prawdopodobieństwa:
f (x) = n · xn
1
dla x ∈ [0, 1]
czyli o dystrybuancie
F (x) = xn
dla x ∈ [0, 1]
można generować stosuja̧c wzór: x = max(γ1 , ..., γn ).
Dowód:
Wprowadźmy funkcjȩ schodkowa̧ zdefiniowana̧ nastȩpuja̧co:
(
θ(z) =
0 dla z ≤ 0
1 dla z > 0.
Zmienna losowa g(γ1 , ..., γn ) bȩdzie miaÃla dystrybuantȩ F (x) wtedy i tylko wtedy gdy
Z1
Z1
...
0
dy1 . . . dyn θ(x − g(γ1 , ..., γn )) = F (x).
0
Jest oczywiste, że θ(x− max yi ) nie równa jest zero wtedy i tylko wtedy gdy równocześnie
1in
y1 < x, y2 < x , ..., yn < x. A wiȩc caÃlka
Z1
Z1
...
0
dy1 . . . dyn θ(x − max yi )
in
1
0
może być zapisana jako:
Zx
Zx
...
0
dy1 . . . dyn = xn
0
a to jest wÃlaśnie taka dystrybuanta zmiennej x jaka̧ chcielibyśmy uzyskać.
♦
UWAGA
Zmienna̧ losowa̧ o dystrybuancie F (x) = xn dla x ∈ [0, 1] można generować metoda̧
funkcji odwrotnych, z której dostajemy:
√
x = n γ.
Porównuja̧c ten wynik z poprzednim dostajemy zaskakuja̧cy wniosek, że można
zasta̧pić obliczanie pierwiastka n-tego stopnia z liczby losowej o rozkÃladzie
równomiernym w [0,1] przez obliczanie maksimum n liczb losowych o takim
rozkÃladzie.
B.Kamys: Fiz. Komp. 2003/04
11.3.3
80
Generacja wielowymiarowych zmiennych losowych
Metoda eliminacji może być Ãlatwo uogólniona na przypadek zmiennych wielowymiarowych. Jeżeli f (x1 , x2 , ..., xn ) jest gȩstościa̧ prawdopodobieństwa dla n-wymiarowej
zmiennej losowej (x1 , x2 , ...xn ), która znika poza kostka̧ n-wymiarowa̧: ai ≤ bi , i =
1, 2, .., n i ograniczona̧ przez liczbȩ c to przeprowadzamy generacjȩ w nastȩpuja̧cy sposób:
1. Generujemy wartość zmiennej x1 , x2 , ...xn+1 wg wzoru:
xi = (bi − ai )γi + ai , i = 1, 2, ..., n oraz xn+1 = cγn+1
z rozkÃladem równomiernym w przedziale (a1 ≤ x1 ≤ b1 , ..., an ≤ xn ≤ bn ) i
ograniczona̧ przez liczbȩ c: (0 ≤ xn+1 ≤ c)
2. Sprawdzamy, czy xn+1 ≤ f (x1 , x2 , ..., xn ). Jeżeli tak, to akceptujemy punkt
x1 , x2 , ..., xn , w przeciwnym przypadku punkt ten jest eliminowany i generacjȩ
powtarza siȩ od nowa.
Wielowymiarowe zmienne losowe możemy również generować metoda̧ funkcji odwrotnych. Należy rozważyć oddzielnie dwa przypadki:
1. Gdy poszczególne skÃladowe wielowymiarowej zmiennej sa̧ niezależne to każda̧ z nich
generuje siȩ niezależnie jedna̧ z metod omawianych dla jednowymiarowych zmiennych losowych.
2. Gdy skÃladowe sa̧ zależne to korzystamy z poniższego twierdzenia:
TWIERDZENIE
Gdy γ1 , γ2 , ..., γn sa̧ niezależnymi liczbami losowymi o rozkÃladzie równomiernym w
przedziale [0,1) to zbiór liczb x1 , x2 , ..., xn otrzymanych jako rozwia̧zania nastȩpuja̧cego
ukÃladu równań:
F1 (x1 ) = γ1
F2 (x2 |x1 ) = γ2
···
Fn (xn |x1 , ..., xn 1 ) = γn
ma poża̧dana̧ gȩstość prawdopodobieństwa f (x1 , x2 , ..., xn ).
♦
B.Kamys: Fiz. Komp. 2003/04
12
81
TESTOWANIE HIPOTEZ STATYSTYCZNYCH
12.1
Definicje elementarnych pojȩć
Poniżej podamy definicje elementarnych pojȩć stosowanych przy testowaniu hipotez.
Hipoteza̧ statystyczna̧ nazywamy hipotezȩ odnosza̧ca̧ siȩ do rozkÃladu prawdopodobieństwa
zmiennej losowej (funkcji gȩstości prawdopodobieństwa, itp.) lub do parametrów rozkÃladu
prawdopodobieństwa.
Hipoteza prosta to taka, która jednoznacznie określa dystrybuantȩ (rozkÃlad) zmiennej losowej, tzn. podana jest postać rozkÃladu i wartości wszystkich parametrów.
Hipoteza zÃlożona to taka, która nie jest prosta, np. podana jest postać rozkÃladu a
nie sa̧ znane wartości niektórych parametrów.
Hipoteza parametryczna to hipoteza odnosza̧ca siȩ do wartości parametrów rozkÃladu.
Inne hipotezy nazywaja̧ siȩ hipotezami nieparametrycznymi i z natury sa̧ hipotezami
zÃlożonymi.
Hipoteza zerowa H0 ” to sprawdzana hipoteza.
”
Hipoteza alternatywna H1 ” to hipoteza, która̧ bylibyśmy skÃlonni przyja̧ć gdy
”
H ” jest nieprawdziwa.
” 0
UWAGA: H1 ” nie musi być prostym zaprzeczeniem H0 ”
”
”
BÃla̧d pierwszego rodzaju to odrzucenie prawdziwej H0 ”.
”
Poziomem istotności α” nazywamy prawdopodobieństwo popeÃlnienia bÃlȩdu pier”
wszego rodzaju. Przyjmuje siȩ zwykle α” ∈ [0.1−0.001] – konkretny wybór oczywiście
”
zależy od tego jak kosztowne bȩda̧ skutki popeÃlnienia bÃlȩdu pierwszego rodzaju.
BÃla̧d drugiego rodzaju to przyjȩcie nieprawdziwej H0 ”.
”
UWAGA: Przez sformuÃlowanie przyjȩcie hipotezy” należy rozumieć stwierdzenie, że nie
”
”
mamy podstaw do odrzucenia hipotezy H0 ”. Inaczej mówia̧c pomiaru, którego wynik
nie przeczy hipotezie nie można uważać za dowód prawdziwości hipotezy !!!
Moca̧ testu nazywamy prawdopodobieństwo odrzucenia faÃlszywej H0 ”, tzn. praw”
dopodobieństwo tego, że nie popeÃlnimy bÃlȩdu II rodzaju. Moc testu oznacza siȩ zwykle
przez 1 − β” gdzie β” oznacza prawdopodobieństwo popeÃlnienia bÃlȩdu II rodzaju.
”
”
Tablica 1: Wyniki podejmowania decyzji przy testowaniu hipotez
Przyjȩcie H0
Przyjȩcie H1
H0 prawdziwa
Decyzja prawidÃlowa
BÃla̧d I rodzaju
H1 prawdziwa
BÃla̧d II rodzaju
Decyzja prawidÃlowa
B.Kamys: Fiz. Komp. 2003/04
12.2
82
Test normalności rozkÃladu
Wiȩkszość metod statystyki jest dobrze opracowana matematycznie dla zmiennych o
rozkÃladzie normalnym natomiast nie jest oczywiste, że dadza̧ siȩ zastosować bez modyfikacji dla zmiennych o innych rozkÃladach. Z tej przyczyny przed rozpoczȩciem bardziej
zaawansowanych rozważań statystycznych należy siȩ upewnić, że badana zmienna podlega
rozkÃladowi normalnemu. Sprawdzana hipoteza zerowa polega na stwierdzeniu, że rozkÃlad
badanej zmiennej jest rozkÃladem normalnym. W zależności od testu zakÃlada siȩ znajomość parametrów rozkÃladu jak np. w teście lambda KoÃlmogorowa lub też nie jest
to niezbȩdne jak np. w badaniu wykresu normalnego.
12.2.1
Test zerowania siȩ wspóÃlczynnika asymetrii i kurtozy
Test ten polega na sprawdzeniu, czy speÃlnione sa̧ warunki konieczne do tego aby rozkÃlad
badanej zmiennej mógÃl być rozkÃladem normalnym. Wiadomo, że dla rozkÃladu normalnego
wspóÃlczynnik asymetrii i kurtoza (wspóÃlczynnik przewyższenia) znikaja̧ niezależnie od
tego jaka jest wartość oczekiwana i wariancja rozkÃladu. A wiȩc
• Hipoteza zerowa, H0 :
(γ1 = 0) ∧ (γ2 = 0)
• Statystyka testowa:
√
n · g1
√
6
√
n · g2
√
=
24
Q1 =
Q2
gdzie g1 i g2 to estymatory wspóÃlczynnika asymetrii γ1 i kurtozy γ2 :
γ1 ≡
E ((x − E(x))3 )
σ 3 (x)
γ1 ≡
E ((x − E(x))4 )
σ 4 (x)
−3
B.Kamys: Fiz. Komp. 2003/04
83
opisane poniższymi wzorami:
M3
g1 = q
,
M23
g2 =
M4
−3
M22
UWAGA:
Wielkości M2 , M3 i M4 to nie sa̧ momenty liczone wzglȩdem pocza̧tku ukÃladu
lecz estymatory momentów centralnych odpowiednio drugiego, trzeciego i czwartego
rzȩdu:
n
P
M2 ≡ n1
(xi − x̄)2
i=1
n
1 P
M3 ≡ n
(xi − x̄)3
i=1
n
P
M4 ≡ n
(xi − x̄)4
i=1
1
Jeżeli hipoteza zerowa jest prawdziwa oraz próba jest bardzo duża to statystyki
g1 i g2 maja̧ rozkÃlady normalne o wartościach oczekiwanych
E(g1 ) ≈ 0
E(g2 ) ≈ 0
i odchyleniach standardowych:
s
σ(g1 ) ≈
s
6
σ(g2 ) ≈
n
24
n
Wtedy estymatory Q1 i Q2 maja̧ standardowe rozkÃlady normalne N(0,1).
• Hipoteza alternatywna to zaprzeczenie H0 :
prawdziwe wartości γ1 i γ2 nie sa̧ równe 0.
• Obszar krytyczny dwustronny. Brzegi określone przez kwantyl rozkÃladu N(0,1):
| Q1 |> U1
2
[
| Q2 |> U1
2
Jeżeli rozmiary próby nie sa̧ bardzo duże to rozkÃlad statystyk Q1 i Q2 nie przyjmuje
swej asymptotycznej postaci; N(0,1) ale wartości oczekiwane i wariancje tych zmiennych
sa̧ bliskie odpowiednio zeru i jedności. Można to wykorzystać do stworzenia obszaru
krytycznego w oparciu o nierówność Czebyszewa . Jako obszar krytyczny przyjmuje siȩ
S
wartości ( | Q1 |> 3
| Q2 |> 3 ) tj. poziom istotności równy α = 1/9.
B.Kamys: Fiz. Komp. 2003/04
84
Należy zwrócić uwagȩ na fakt, że powyższy test pozwala zwykle w uzasadniony sposób
odrzucić hipotezȩ zerowa̧ (gdy Q1 lub Q2 trafia do obszaru krytycznego) natomiast fakt,
że wartości tych statystyk nie sa̧ sprzeczne z hipoteza̧ zerowa̧ nie wyklucza możliwości, że
mamy do czynienia z rozkÃladem różnym od normalnego.
12.2.2
Test zgodności λ - KoÃlmogorowa
Ten test stosowany jest do porównania rozkÃladu prawdopodobieństwa z próby ze znanym
(teoretycznym) rozkÃladem. Tu wykorzystujemy go do testowania normalności rozkÃladu
ale można go stosować do dowolnych teoretycznych rozkÃladów cia̧gÃlej zmiennej
losowej. Parametry rozkÃladu powinny być określone w hipotezie zerowej.
Pomiary z próby x1 , x2 , x3 , ...xn porza̧dkujemy wg wzrastajacej wartości otrzymuja̧c
nastȩpujacy cia̧g:
x1 ≤ x2 ≤ x3 ≤ ... xn
, taka̧, że jej realizacja x zajmuje w cia̧gu m − te miejsce nazyZmienna̧ losowa̧ Xm
m
wamy statystyka̧ pozycyjna̧ rzȩdu m w próbie n-elementowej.
Tworzymy empiryczna̧ dystrybuantȩ Fn (x) obserwowanej w próbie zmiennej losowej X:


 0
m
Fn (x) =

 n
1
gdy
gdy
gdy
x ≤ x1
xm < x ≤ xm+1 , 1 ≤ m ≤ n − 1
x > xn
Empiryczna dystrybuanta jest zwykÃla̧ funkcja̧ argumentu x ale jest równocześnie
statystyka̧ bo jest definiowana przez wszystkie wielkości x1 , ..., xn z próby.
Można pokazać, że wartość oczekiwana empirycznej dystrybuanty jest równa oszacowywanej
wielkości teoretycznej dystrybuanty
E(Fn (x)) = F (x)
a jej wariancja da̧ży do zera gdy rozmiary próby da̧ża̧ do nieskończoności
σ 2 (Fn (x)) =
1
· F (x) · (1 − F (x)) → 0.
n
Sta̧d Fn (x) jest nieobcia̧żonym i zgodnym estymatorem F(x).
B.Kamys: Fiz. Komp. 2003/04
85
• Hipoteza zerowa
Dystrybuanta obserwowanej zmiennej losowej jest dystrybuanta̧ rozkÃladu normalnego o parametrach E(x) = x0 , σ(x) = σ:
E(F n(x)) =
Z x
1
1
dx · √
· exp(−
2πσ
(x − x0 )2
2σ 2
)
• Statystyka testowa:
w oryginalnej wersji - zaproponowanej przez KoÃlmogorowa:
Dn = sup | Fn (x) − F (x) |
x
Smirnow zaproponowaÃl dwie inne definicje statystyki testowej (sta̧d czȩsto używana
nazwa test KoÃlmogorowa-Smirnowa):
Dn+ = sup(Fn (x) − F (x))
x
Dn = − inf
(Fn (x) − F (x))
x
Dla praktycznych rachunków wykorzystuje siȩ nieco inne wzory, które wymagaja̧
znajomości teoretycznej dystrybuanty tylko dla zmierzonych wartości zmiennej X:
Dn+ =
Dn
=
max (
mn
1
m
n
− F (xm ) )
max ( F (xm ) −
mn
1
m−1
n
)
Dn = max( Dn+ , Dn )
• Obszar krytyczny: prawostronny (duże wartości Dn , tzn. Dn > Dn (1 − α))
Granicȩ obszaru krytycznego, tj. kwantyl Dn (1 − α) można dla n ≥ 10 oraz
dla poziomu istotności α ≥ 0, 01 wyliczyć z przybliżonego wzoru (dokÃladność nie
gorsza niż 3 cyfry znacza̧ce)
s
Dn (1 − α) ≈
1
· (y −
2y 2 − 4y − 1
2n
y ≡ − ln(0, 5 · α)
18n
)−
1
6n
B.Kamys: Fiz. Komp. 2003/04
86
Po wyliczeniu z próby wartości statystyki Dn porównujemy ja̧ z kwantylem Dn (1 − α)
znalezionym z tablic lub wyliczonym z podanego wzoru (W praktyce możemy wyliczać ten
kwantyl wg wzoru ponieważ zarówno typowe poziomy istotności α ≥ 0, 01 jak i liczebność
próby n ≥ 10 odpowiadaja̧ warunkom stosowania tego wzoru.)
Gdy Dn > Dn (1−α) odrzucamy hipotezȩ zerowa̧, tzn. stwierdzamy, że dane doświadczalne
wykluczaja̧ to aby rozkÃlad prawdopodobieństwa populacji byÃl rozkÃladem normalnym z
parametrami E(x) = x0 i σ(x) = σ, przy czym nasz wniosek może być bÃlȩdny z
prawdopodobieństwem α.
UWAGA:
1. Statystyka Dn powinna być liczona ze szczegóÃlowego szeregu statystycznego ( tj. z
indywidualnych pomiarów ) a nie może być liczona z szeregu rozdzielczego (danych
pogrupowanych)!!
2. Statystyka Dn testu KoÃlmogorowa - Smirnowa ma dla n da̧ża̧cego do nieskończoności
rozkÃlad niezależny od postaci porównywanych rozkÃladów:
To jest wielka̧ zaleta̧ testu ale jest również pewna̧ sÃlabościa̧ bo przez to jest stosunkowo maÃlo czuÃly na postać ogonów rozkÃladu. Aby to poprawić stosuje siȩ
specjalna̧ odmianȩ tego testu tzw. test Andersona - Darlinga, który przy liczeniu
wartości krytycznych testu wykorzystuje specyfikȩ badanych rozkÃladów. Te wartości
liczone sa̧ przy pomocy specjalnych programów komputerowych.
3. Dla poprawnego stosowania testu KoÃlmogorowa - Smirnowa niezbȩdna jest znajomość wartości parametrów teoretycznego rozkÃladu. Jeżeli nie znamy tych parametrów
- musimy je wcześniej oszacować, np. przy pomocy metody najwiȩkszej wiarygodności. Istnieja̧ programy, które dokonuja̧ automatycznie takiego oszacowania
(np. w pakiecie STATISTICA ta wersja testu nazywa siȩ
testem KoÃlmogorowa -Smirnowa z poprawka̧ Lillieforsa .
12.2.3
Test zgodności Andersona-Darlinga
Jak to wspomniano wyżej ten test jest modyfikacja̧ testu KoÃlmogorowa-Smirnowa wykorzystuja̧ca̧ do liczenia wartości krytycznych wÃlasności badanego rozkÃladu (tu - rozkÃladu
normalnego). Test ten jest bardziej czuÃly na ksztaÃlt ”ogonów” rozkÃladu.
• Hipoteza zerowa
Dystrybuanta obserwowanej zmiennej losowej jest dystrybuanta̧ rozkÃladu normalnego.
• Hipoteza alternatywna
Zaprzeczenie hipotezy zerowej.
B.Kamys: Fiz. Komp. 2003/04
87
• Statystyka testowa
A2 = −n − S gdzie
S=
n (2i 1) n
P
ln F (xi ) + ln[1 − F (xn+1 i )]
n
i=1
F (xi ) − dystrybuanta danego
x − statystyka pozycyjna
o
rozkladu normalnego
i
• Obszar krytyczny
Prawostronny (duże wartości statystyki testowej): A2 > A21 .
Typowe wartości krytyczne testu:
A20:9 = 1.062
A20:95 = 1.321
A20:975 = 1.591
A20:99 = 1.959
UWAGA: Te kwantyle sa̧ policzone przy zaÃlożeniu, że badany rozkÃlad jest normalny.
Nie moga̧ wiȩc być stosowane dla testowania czy dane maja̧ inny rozkÃlad.
12.2.4
Test zgodności χ2 - Pearsona
Podobnie jak test λ KoÃlmogorowa tak i ten test stosowany jest do porównania rozkÃladu
prawdopodobieństwa z próby ze znanym (teoretycznym) rozkÃladem. Tu wykorzystujemy
go do testowania normalności rozkÃladu ale można go stosować do dowolnych teoretycznych rozkÃladów cia̧gÃlej lub dyskretnej zmiennej losowej ale
pomiary musza̧ być pogrupowane (szereg rozdzielczy) - wprost przeciwnie niż w przypadku testu KoÃlmogorowa.
• Hipoteza zerowa
Dystrybuanta obserwowanej zmiennej losowej jest dystrybuanta̧ rozkÃladu normalnego:
Z x
(x − x0 )2
1
· exp(−
)
E(F n(x)) =
dx · √
1
2σ 2
2πσ
• Statystyka testowa:
X2 =
k (n − n · π )2
X
i
i
i=1
nπi
B.Kamys: Fiz. Komp. 2003/04
88
gdzie
– k to liczba przedziaÃlów w szeregu rozdzielczym (przynajmniej kilka),
– ni to liczebność i − tego przedziaÃlu (ni ≥ 5),
– πi to prawdopodobieństwo zaobserwowania pomiarów w przedziale i − tym
jeżeli prawdziwa jest hipoteza zerowa,
– n to liczba wszystkich pomiarów.
Dowodzi siȩ, że asymptotycznie (tzn. dla n → ∞) statystyka X 2 ma rozkÃlad
χ2k r 1 , gdzie r jest liczba̧ nieznanych parametrów teoretycznego rozkÃladu (dla
rozkÃladu normalnego r = 2) oszacowywanych wstȩpnie z próby metoda̧ najwiȩkszej
wiarygodności.
• Obszar krytyczny to duże wartości X 2 (X 2 > χ2k r 1 (1 − α)), gdzie w naszym
przypadku testowania normalności rozkÃladu χ2k r 1 (1 − α) jest kwantylem rzȩdu
1 − α rozkÃladu χ2k 1 (gdy znamy E(x) i σ(x) rozkÃladu normalnego) lub rozkÃladu
χ2k 3 (gdy musimy oszacować przed testowaniem normalności E(x) i σ(x) ).
Test χ2 również nie wymaga skomplikowanych obliczeń i dlatego może być przeprowadzony bez użycia komputera ale kwantyle tego rozkÃladu nie dadza̧ siȩ policzyć tak prosto
jak dla testu KoÃlmogorowa. Musimy korzystać z tablic statystycznych.
12.2.5
Wykres normalny
Wykres ten jest szczególnym przypadkiem wykresu kwantyl - kwantyl, na którym przedstawia siȩ estymatory kwantyli dla rozkÃladu zmiennej z próby w funkcji kwantyli teoretycznego rozkÃladu. Jako kwantyle teoretycznego rozkÃladu bierze siȩ kwantyle standardowego
rozkÃladu normalnego. Jako kwantyle doświadczalne bierzemy kolejne wartości pozycyjnej
statystyki z próby. Jeżeli hipoteza zerowa (normalność rozkÃladu mierzonej wielkości X)
jest prawdziwa to tak otrzymany wykres powinien być linia̧ prosta̧. Odstȩpstwa od prostoliniowości sa̧ argumentem za odrzuceniem hipotezy zerowej.
• Hipoteza zerowa
Dystrybuanta obserwowanej zmiennej losowej jest dystrybuanta̧ rozkÃladu normalnego, przy czym dla tego testu nie jest wymagana znajomość parametrów rozkÃladu.
• Statystyka testowa
Jako statystykȩ testowa̧ można wzia̧ć estymator wspólczynnika korelacji r pomiȩdzy
doświadczalnymi i teoretycznymi kwantylami.
Postȩpujemy nastȩpuja̧co:
1. Porza̧dkujemy pomiary {xk } tak aby utworzyÃly cia̧g rosnacy {xk } czyli statystykȩ
pozycyjna̧. Statystykȩ pozycyjna̧ rzȩdu k z n - elementowej próby traktujemy
jako estymator kwantyla na poziomie k/(n + 1).
2. Szukamy zk , tj. teoretycznego kwantyla standardowego rozkÃladu normalnego
na poziomie k/(n + 1) wykorzystuja̧c relacjȩ:
B.Kamys: Fiz. Komp. 2003/04
F (zk ) =
89
Ã
k
⇒ zk = F
n+1
1
k
!
n+1
3. Rysujemy pary {zk , xk }. Gdy wykres wyraźnie różni siȩ od linii prostej to
odrzucamy H0 , w przeciwnym wypadku liczymy estymator wspóÃlczynnika korelacji r(zk , xk ) i przeprowadzamy bardziej ilościowe rozważania.
• Obszar krytyczny to maÃle wartości estymatora r wspóÃlczynnika korelacji %(zk , xk ),
tj. mniejsze od odpowiednich wartości krytycznych rn (α) zależnych od poziomu istotności α (test lewostronny). Wartości te można znaleźć w tablicach lub zastosować
przybliżone wzory podane poniżej:
rn (α = 0.05) ≈ 1 −
0.5669
n2=3
,
rn (α = 0.01) ≈ 1 −
0.3867
n2=3
Wzory te daja̧ krytyczne wartości wspóÃlczynnika korelacji rn (α) dla dwu
poziomów istotności α z dokÃladnościa̧ nie gorsza̧ niż 1% jeżeli rozmiar próby n leży
w przedziale 5 < n < 1000.
UWAGA:
Jeżeli linia prosta jest dobrym przybliżeniem, to wspóÃlczynnik kierunkowy prostej
{zk , xk } równy jest parametrowi skali (tj. odchyleniu standardowemu) a wspóÃlrzȩdna
przeciȩcia prostej z osia̧ xk równa jest wspóÃlczynnikowi tendencji centralnej (wartości
oczekiwanej X). W ten sposób można oszacować parametry rozkÃladu normalnego, rza̧dza̧cego
wartościami zmiennej z próby.
B.Kamys: Fiz. Komp. 2003/04
12.3
90
HIPOTEZY DOTYCZA̧CE WARTOŚCI OCZEKIWANEJ
Zajmujemy siȩ zmiennymi o rozkÃladzie normalnym. Sa̧ dwie podstawowe hipotezy, które
bada siȩ najczȩściej:
• Porównanie E(X) z liczba̧:
H0 : E(X) = x0 , oraz
• Porównanie wartości oczekiwanych dwu populacji:
H0 : E(X) = E(Y )
Każda z tych hipotez może oczywiście być formuÃlowana jako nierówność, np. H0 :
E(X) > X0 ale wtedy hipoteza zerowa jest zÃlożona a wiȩc nie mamy jednoznacznie
zdefiniowanego rozkÃladu X. Z tego powodu wygodniej jest zawsze brać jako hipotezȩ
zerowa̧ równość E(X) z dana̧ liczba̧ lub E(Y) a interesuja̧ca̧ nas hipotezȩ traktować jako
hipotezȩ alternatywna̧.
12.3.1
PORÓWNANIE E(X) Z LICZBA̧ (H0 : E(X)=X0 )
Musimy rozróżnić dwa przypadki:
• gdy znamy σ(X), wtedy jako statystykȩ testowa̧ Tn (X) bierzemy poniższa̧ statystykȩ
z o rozkÃladzie standardowym normalnym N(0,1):
z=
(x − E(X))
σ(X)
• gdy nie znamy σ(X), to jako statystykȩ Tn (X) bierzemy analogiczna̧ funkcjȩ ”t”,
w której σ zasta̧piona jest estymatorem S(X):
t=
(x − E(X))
S(X)
.
Statystyka t ma rozkÃlad Studenta o (n-1) stopniach swobody.
Oczywiście odchylenie standardowe średniej arytmetycznej σ(X) podobnie jak jego
estymator
√ S(X) równe sa̧ odpowiednim wartościom dla samej zmiennej X podzielonym
przez n:
σ(X)
σ(X) = √
n
B.Kamys: Fiz. Komp. 2003/04
91
Tablica 2: Obszar krytyczny dla hipotez dotycza̧cych E(X)
Hipoteza H1
Obszar krytyczny
gdy znamy σ(X)
E(X) 6= X0
| z | > z1
2
Obszar krytyczny
gdy nie znamy σ(X)
| t | > t1
2
E(X) > X0
z > z1 t > t1 E(X) < X0
z < z
t < t
Sposób określenia obszaru krytycznego dla poszczególnych hipotez alternatywnych
podany jest w tabeli (2).
z oraz t to odpowiednio fraktyle standardowego rozkÃladu normalnego N(0,1) i rozkÃladu
Studenta o (n-1) stopniach swobody. Oba te rozkÃlady sa̧ symetryczne wzglȩdem zera a
wiȩc można wykorzystać nastȩpuja̧ca̧ symetriȩ kwantyli:
z = −z1 t = −t1 12.3.2
WARTOŚCI OCZEKIWANE DWU POPULACJI (H0 : E(X) = E(Y ))
Tutaj trzeba odróżnić trzy sytuacje:
1.) σ(X) i σ(Y ) znane,
2.) σ(X) i σ(Y ) nieznane ale σ(X) = σ(Y ),
3.) σ(X) i σ(Y ) nieznane oraz σ(X) 6= σ(Y ),
B.Kamys: Fiz. Komp. 2003/04
92
ad 1.) Jako statystykȩ testowa̧ bierze siȩ zmienna̧ z:
z= r
X −Y
X)
2 (Y )
nx + ny
2(
Zmienna ta ma rozkÃlad standardowy normalny N(0,1).
ad 2.) Po stwierdzeniu (przy pomocy testu Fishera-Snedecora), że wariancje zmiennej X
i zmiennej Y można uznać za równe, stosujemy test Studenta ze zmienna̧ t zdefiniowana̧ nastȩpuja̧co:
t =
X −Y
r
S(X, Y ) ·
S(X, Y ) =
nx +ny
nx ny
v
u
u (nx − 1) ∗ S 2 (X) + (ny − 1) ∗ S 2 (Y )
t
nx + ny − 2
Zmienna t ma rozkÃlad Studenta o (nx + ny − 2) stopniach swobody.
ad 3.) Jeżeli test F pokazaÃl, że wariancje zmiennych X i Y sa̧ istotnie różne to jako
statystykȩ testowa̧ używa siȩ zmodyfikowanej zmiennej t:
t= r
X −Y
S X)
S 2 (Y )
nx + ny
2(
Zmienna t ma rozkÃlad, który można przybliżyć rozkÃladem Studenta o efektywnej
liczbie stopni swobody nef :
( S n(xX ) + S n(yY ) )2
−2
nef = (S 2 (X )=nx )2
(S 2 (Y )=ny )2
+
nx +1
ny +1
2
2
B.Kamys: Fiz. Komp. 2003/04
93
Ponieważ efektywna liczba stopni swobody nef zwykle nie jest liczba̧ caÃlkowita̧ to
szukaja̧c w tablicach musimy zaokra̧glać ja̧ do liczby caÃlkowitej (bezpieczniej zaokra̧glać
w dóÃl - wtedy efektywnie zwiȩkszamy nieco poziom istotności).
W tabeli przytoczonej poniżej zdefiniowane sa̧ obszary krytyczne dla tych trzech przypadków przy zastosowaniu dwu różnych hipotez alternatywnych H1 .
Hipoteza H1
E(X) 6= E(Y )
E(X) > E(Y )
Obszar krytyczny
σ(X) i σ(Y )
znane
Obszar krytyczny
σ(X) = σ(Y )
nieznane
Obszar krytyczny
σ(X) 6= σ(Y )
nieznane
| t | > tnx +ny
2 (1
− 2 )
| t | > tnef (1 − 2 )
z > z1 t > tnx +ny
2 (1
− α)
t > tnef (1 − α)
| z | > z1
2
Oczywiście statystyki testowe z i t to statystyki zdefiniowane powyżej a fraktyle należy
brać odpowiednio dla rozkÃladu standardowego normalnego N(0,1) oraz rozkÃladów Studenta o odpowiedniej liczbie stopni swobody.
B.Kamys: Fiz. Komp. 2003/04
12.4
94
HIPOTEZY DOTYCZA̧CE WARIANCJI
Najważniejsze to hipotezy porównuja̧ce wariancjȩ zmiennej X z liczba̧ oraz hipoteza
porównuja̧ca wariancje dwu populacji. ZakÃladamy, podobnie jak w przypadku hipotez
odnosza̧cych siȩ do wartości oczekiwanych, że zmienne losowe pochodza̧ z populacji normalnych.
12.4.1
PORÓWNANIE WARIANCJI X Z LICZBA̧ (H0 : σ 2 (X) = σ02 )
Dla testowania takiej hipotezy używa siȩ statystyki testowej Q2 zdefiniowanej nastȩpuja̧co:
2
Q =
(n − 1) · S 2 (X)
σ02
Przy prawdziwości H0 ta statystyka ma rozkÃlad χ2n 1 , gdzie n to liczba pomiarów w próbie
a S2 (X) to estymator wariancji.
Obszary krytyczne dla różnych hipotez alternatywnych sa̧ wymienione w tabeli poniżej:
Hipoteza H1
12.4.2
Obszar krytyczny
σ 2 (X) 6= σ02
Q2 < χ2 lub Q2 > χ21
σ 2 (X) > σ02
Q2 > χ21 σ 2 (X) < σ02
Q2 < χ2
2
2
PORÓWNANIE WARIANCJI DWU POPULACJI
Hipoteza zerowa H0 : σ 2 (X) = σ 2 (Y )
Dla testowania tej hipotezy używa siȩ testu F Fishera-Snedecora. Zarówno zmienna̧
jak i rozkÃlad prawdopodobieństwa oznacza siȩ litera̧ F z dwoma wskaźnikami n1 , n2 :
F(n1 , n2 ). Zmienna F(n1 , n2 ) to stosunek dwu zmiennych o rozkÃladach chikwadrat podzielonych przez ich liczby stopni swobody , przy czym zmienna w
liczniku ma n1 a zmienna w mianowniku n2 stopni swobody:
B.Kamys: Fiz. Komp. 2003/04
95
2
( n1 )
F (n1 , n2 ) ≡ n21
( nn22 )
Zmienna ta przyjmuje, jako stosunek dwu nieujemnych liczb, tylko wartości nieujemne
a ksztaÃlt jej rozkÃladu jest podobny do ksztaÃltu rozkÃladu χ2 .
Jako statystykȩ testowa̧ F bierze siȩ iloraz estymatora S2 (X) i estymatora S2 (Y):
F ≡
S 2 (X)
S 2 (Y )
L
à atwo pokazać, że statystyka F ma rozkÃlad F(nx − 1, ny − 1):
Wiemy z rozważań dotycza̧cych porównania wariancji z liczba̧, że zmienna Q2 obliczona
dla próby skÃladaja̧cej siȩ z n elementów ma rozkÃlad χ2n 1 . Po podzieleniu jej przez
2
liczbȩ stopni swobody (n − 1) otrzymujemy iloraz S2 . Jeżeli prawdziwa jest hipoteza zerowa gÃlosza̧ca, że wariancje licznika i mianownika sa̧ równe, to stosunek statystyk S 2 (X)
2
2
(licznika) i S 2 (Y ) (mianownika) jest równy stosunkowi Qnx(X1) i Qny(Y1) czyli równy jest
zmiennej F (nx − 1, ny − 1).
Jako hipotezȩ alternatywna̧ kÃladzie siȩ brak równości obu wariancji lub to, że wariancja
licznika jest wiȩksza od wariancji mianownika:
Hipoteza H1
Obszar krytyczny
σ 2 (X) 6= σ 2 (Y )
F < F 2 (nx − 1, ny − 1) lub F > F1
σ 2 (X) > σ 2 (Y )
F > F1 (nx − 1, ny − 1)
(nx
2
− 1, ny − 1)
Jeżeli w tablicach podane sa̧ tylko kwantyle rozkÃladu F na dużym poziomie lub tylko
na maÃlym poziomie, to korzysta siȩ z oczywistej równości:
F=2 (n1 , n2 ) = 1/F1 =2 (n2 , n1 )
B.Kamys: Fiz. Komp. 2003/04
12.5
96
HIPOTEZA JEDNORODNOŚCI WARIANCJI (KILKU
POPULACJI
Zajmujemy siȩ zmiennymi o rozkÃladzie normalnym. Sprawdzamy czy wariancje kilku
populacji sa̧ takie same (np. czy dokÃladność kilku różnych serii pomiarów jest taka
sama). Ta wÃlasność - zwana jednorodnościa̧ wariancji - może być interesuja̧ca sama w
sobie a dodatkowo jest niezbȩdna jeżeli chcemy badać równość wartości oczekiwanych
kilku populacji przez zastosowanie tzw. analizy wariancji (ANOVA).
12.5.1
TEST BARTLETTA
Badamy k populacji normalnych. Z każdej populacji i = 1, .., k bierzemy ni obserwacji
P
(w sumie n = n
i=1 ni wyników).
• Hipoteza zerowa H0 : Wszystkie wariancje sa̧ sobie równe:
σ12 = σ22 = ·· = σk2
• Hipoteza alternatywna H1 : Przynajmniej jedna wariancja jest wiȩksza od pozostaÃlych:
σj2 > σ12 = · · σj2
1
= σj2+1 = ·· = σk2
• Statystyka testowa:
M =






µ
k
P
S2
−
(ni − 1) · ln Si2
i=1
¶






"
#


k
P


1
1
1




−
 1 + 3(k 1)

n
1
n
k
i
i=1
gdzie Si2 jest estymatorem wariancji dla i-tej próby:
Si2 = ni1
ni
P
1
j =1
(xji − x̄i )2
oraz
k
P
S2 = n 1 k
(ni − 1) · Si2 .
i=1
Bartlett pokazaÃl, że zmienna M zdefiniowana powyżej ma rozkÃlad, który bardzo
szybko da̧ży do rozkÃladu chi-kwadrat o k-1 stopniach swobody. Wystarcza już
warunek ni > 3 dla wszystkich prób i.
• Obszar krytyczny: prawostronny.
B.Kamys: Fiz. Komp. 2003/04
12.5.2
97
TEST COCHRANA
Można go stosować dla k populacji normalnych jeżeli liczebność wszystkich prób ni ,
i=1,..,k jest identyczna.
• Hipoteza zerowa H0 : Wszystkie wariancje sa̧ sobie równe:
σ12 = σ22 = ·· = σk2
• Hipoteza alternatywna H1 : Przynajmniej jedna wariancja jest wiȩksza od pozostaÃlych:
σj2 > σ22 = · · σj2
1
= σj2+1 = ·· = σk2
• Statystyka testowa:
G=
max Si2
i
k
P
i=1
Si2
gdzie Si2 jest estymatorem wariancji dla i-tej próby.
• Obszar krytyczny: prawostronny. Należy korzystać ze specjalnych tablic testu Cochrana.
B.Kamys: Fiz. Komp. 2003/04
12.6
98
ANALIZA WARIANCJI - klasyfikacja jednoczynnikowa
Analiza wariancji - zaproponowana przez R. A. Fishera - to metoda sÃluża̧ca w swojej
najprostszej wersji do porównania wartości oczekiwanych kilku populacji normalnych. Poniżej zostanie wyjaśniona idea tej metody na przykÃladzie tego zastosowania.
Należy podkreślić, że analiza wariancji zwana czȩsto ANOVA (ANalysis Of VAriance)
ma bardzo szerokie zastosowanie w naukach biologicznych i medycznych gdyż czynnik
odróżniaja̧cy populacje może być zmienna̧ jakościowa̧.
ZAÃLOŻENIA:
1. Badamy k populacji normalnych zmiennych X1 , ...Xk ,
2. Wszystkie populacje maja̧ równe wariancje,
Jeżeli nie mamy z góry zagwarantowanego speÃlnienia tych zaÃlożeń to musimy przeprowadzić
odpowiednie testy statystyczne (np. Test λ-KoÃlmogorowa, test χ2 Pearsona lub inne dla
sprawdzenia normalności populacji oraz test Bartletta lub Cochrana dla sprawdzenia identyczności wariancji - nazywanej jednorodnościa̧ wariancji - dla różnych populacji).
• Hipoteza zerowa: H0 :
E(X1 ) = E(X2 ) = ... = E(Xk )
• Hipoteza alternatywna: H1 :
Niektóre E(Xi ) sa̧ różne.
• Statystyka testowa:
Wprowadzamy nastȩpuja̧ce oznaczenia:
– xij to i-ty pomiar z j-tej próby (j-tej populacji)
– nj to liczebność j-tej próby, przy czym
k
P
j =1
nj = N
– x̄j to średnia arytmetyczna dla j-tej próby:
nj
P
nj
P
x̄j = n1j
xij czyli
xij = nj · x̄j
i=1
i=1
– x̄ to średnia arytmetyczna wszystkich pomiarów:
nj
k P
P
k
P
1
x̄ = N1
xij = N
nj · x̄j
j =1 i=1
j =1
–
nj
k P
P
k
P
(x̄j − x̄ )2 = (k 1 1)
nj · (x̄j − x̄ )2
s2b ≡ (k 1 1)
j =1 i=1
j =1
to estymator wariancji caÃlkowitego zbioru danych liczony z rozrzutu średnich
arytmetycznych poszczególnych prób j = 1, .., k. Kwadrat odchylenia j-tej
B.Kamys: Fiz. Komp. 2003/04
99
średniej x̄j od ogólnej średniej wchodzi do wzoru z waga̧ równa̧ liczebności jtej próby. Ponieważ ogólna średnia narzuca jeden warunek na zespóÃl k średnich
grupowych to suma s2b ma (k − 1) stopni swobody .
Wskaźnik ”b”pochodzi od angielskiego sÃlowa ”between”(pomiȩdzy) i s2b nazywany jest estymatorem ”wariancji miȩdzygrupowej”.
–
nj
k P
P
s2w ≡ (N 1 k)
(xij − x̄j )2
j =1 i=1
to estymator wariancji caÃlkowitego zbioru danych liczony z rozrzutu pomiarów
wewna̧trz każdej próby j = 1, .., k. Liczba stopni swobody dla sumy kwadratów
wewna̧trz j-tej grupy to (nj − 1). Liczba stopni swobody dla sumy kwadratów
po wszystkich k grupach to:
(n1 − 1) + (n2 − 1) + .. + (nk − 1) =
k
P
j =1
nj − k = N − k.
Sta̧d liczba stopni swobody tej sumy wynosi (N − k).
Wskaźnik ”w” pochodzi od angielskiego sÃlowa ”within” (wewna̧trz) i dlatego
estymator s2w nazywany jest estymatorem ”wariancji wewna̧trzgrupowej”.
TWIERDZENIE:
Można pokazać, że przy równości wariancji wszystkich populacji
σ12 = σ22 = . . . = σk2 ≡ σ 2 zachodza̧ nastȩpuja̧ce relacje:
E{s2w } = σ 2
E{s2b } = σ 2 +
µ k
P
j =1
(E fxj g E fxg)
k
1
¶
µ
2
N
·
k n2j
P
¶
j =1 N
k
1
gdzie E{xj } i E{x} to wartość oczekiwana dla j -tej populacji i postulowana przez
hipotezȩ zerowa̧ wspólna wartość oczekiwana wszystkich populacji.
Jak widać, estymator s2w jest zawsze nieobcia̧żonym estymatorem wariancji (niezależnie od prawdziwości H0 ), natomiast estymator s2b jest
nieobcia̧żony tylko wtedy, gdy H0 jest prawdziwa natomiast ma dodatnie
obcia̧żenie, gdy tak nie jest (kwadrat sumy dodatnich liczb N 2 ≡ (
jest zawsze wiȩkszy od sumy ich kwadratów).
k
P
j =1
nj )2
Jako statystykȩ testowa̧ bierzemy wielkość:
s2b /s2w = F (k − 1, N − k)
Powyższy wzór przedstawia stosunek dwu estymatorów wariancji, który przy prawdziwości
hipotezy zerowej powinien być zmienna̧ o rozkÃladzie F Fishera - Snedecora.
B.Kamys: Fiz. Komp. 2003/04
100
• Obszar krytyczny
Jeżeli hipoteza zerowa nie jest prawdziwa to statystyka testowa powinna być wiȩksza
niż przewiduje to rozkÃlad F (k − 1, N − k) bo wtedy s2b jest dodatnio obcia̧żony,
a wiȩc obszar krytyczny odpowiada dużym wartościom statystyki testowej (test
prawostronny).
UWAGI:
1. Gdy odrzucamy hipotezȩ zerowa̧, czyli stwierdzamy że nie wszystkie populacje maja̧
równe wartości oczekiwane badanej wielkości X, pojawia siȩ problem oszacowania
tych wartości oczekiwanych. Jako estymator wartości oczekiwanej j-tej populacji przyjmuje siȩ definiowana̧ wyżej wielkość x̄j .
2. Jednoczynnikowa analiza wariancji bierze swa̧ nazwȩ z faktu podziaÃlu caÃlej populacji wartości zmiennej X na k populacji różnia̧cych siȩ wartościa̧ lub poziomem jednego klasyfikuja̧cego czynnika. W szczególności ten czynnik może być zmienna̧
jakościowa̧ a wiȩc zamiast wartości czynnika klasyfikuja̧cego (zmiennej ilościowej)
moga̧ to być kategorie lub poziomy czynnika jakościowego. Na przykÃlad, zmienna̧
X może być temperatura ciaÃla leczonych pacjentów a czynnikiem klasyfikuja̧cym
rodzaj podanego lekarstwa.
Dziȩki takim możliwościom analiza wariancji jest czȩsto stosowana w naukach
biologicznych, medycznych i spoÃlecznych a wiȩc tam gdzie używa siȩ zmiennych
jakościowych.
3. Warunkiem stosowalności analizy wariancji jest normalność analizowanej zmiennej oraz jednorodność wariancji (równość wariancji) dla wszystkich porównywanych populacji. Z doświadczenia wiadomo, że drugi warunek jest znacznie
ważniejszy , tzn. niejednorodność wariancji wpÃlywa silniej na wyniki analizy wariancji niż niewielkie odstȩpstwa od normalności rozkÃladu zmiennej X.
W przypadku, gdy wariancja zmienia siȩ regularnie wraz z wartościa̧ oczekiwana̧
(co stwierdzamy porównuja̧c średnie poszczególnych prób i estymatory s2 dla tych
prób) można zastosować przeksztaÃlcenia zmiennych takie jak pierwiastkowanie
lub logarytmowanie, a nastȩpnie przeprowadzić analizȩ wariancji dla tak przeksztaÃlconych danych. Taka̧ procedurȩ postȩpowania, nazywa siȩ stabilizacja̧ wariancji.
4. Rachunki zwia̧zane z analiza̧ wariancji należy prowadzić z możliwie
duża̧ dokÃladnościa̧, gdyż pozornie niewielkie zaokra̧glenia moga̧ silnie znieksztaÃlcić wyniki.
B.Kamys: Fiz. Komp. 2003/04
101
Sumy kwadratów wystȩpuja̧ce w definicjach s2b i s2w zaleca siȩ liczyć wg wzorów
przytoczonych w prawej kolumnie poniżej:
SSb ≡ (k − 1) · s2b =
k
P
j =1
SSw ≡ (N − k) · s2w =
SS ≡ (N − 1) ·
nj
k P
P
j =1 i=1
nj x̄2:j − N x̄2::
nj
k P
P
j =1 i=1
x2ij −
k
P
j =1
(xij − x̄:: )2 =
nj x̄2:j
nj
k P
P
j =1 i=1
x2ij − N x̄2::
gdzie suma kwadratów SS jest obliczana jako sprawdzian bo musi zachodzić:
SS = SSb + SSw .
Zwykle cza̧stkowe wyniki zapisuje siȩ w postaci tabeli analizy wariancji jednoczynnikowej:
Rodzaj wariancji
SS≡ sum of squares
DF≡ degrees of freedom
MS≡ mean square
F - statystyka
(suma kwadratów)
(liczba stopni swobody)
(średni kwadrat)
testowa
Pomiȩdzy grupami
SSb
k−1
s2b = SSb /(k − 1)
Wewna̧trz grup
SSw
N −k
s2w = SSw /(N − k)
CaÃlkowita
SS
N −1
s2 = SS/(N − 1)
F = s2b /s2w
B.Kamys: Fiz. Komp. 2003/04
12.7
102
ANALIZA WARIANCJI - dla regresji liniowej
Analiza wariancji polega na podziale sumy kwadratów odchyleń na czȩść wyjaśniona̧ przez
regresjȩ i czȩść niewyjaśniona̧ (definicja tych pojȩć podana jest poniżej). Zapisuja̧c regresjȩ liniowa̧ w postaci R(x) = b + ax możemy przedstawić sumȩ kwadratów odchyleń
poszczególnych pomiarów yi od wartości średniej ȳ jako sumȩ:
X
i
(yi − ȳ)2 =
X
i
2
((yi − R(xi )) + (R(xi ) − ȳ)) .
Pierwszy z wewnȩtrznych nawiasów opisuje odchylenie pomiarów od prostej regresji a
drugi odchylenie regresji od średniej arytmetycznej wszystkich pomiarów.
Dalej bȩdziemy używać uproszczonego zapisu polegaja̧cego na opuszczaniu wskaźników
przy symbolu sumy i przy sumowanych elementach oraz na opuszczaniu argumentu x w
funkcji regresji liniowej. Wtedy powyższy wzór bȩdzie zapisany nastȩpuja̧co:
X
(y − ȳ)2 =
X
((y − R) + (R − ȳ))2 .
Sumȩ tȩ możemy rozpisać tak:
X
(y − ȳ)2 =
X
(y − R)2 + 2
X
(y − R) (R − ȳ) +
X
(R − ȳ)2 ,
a wykorzystuja̧c fakt, że drugi wyraz jest równy zero przedstawić jako dwie sumy kwadratów:
X
(y − ȳ)2 =
X
(y − R)2 +
X
(R − ȳ)2 .
Pierwsza z sum po prawej stronie równania nazywana jest niewyjaśniona̧ (przez
regresjȩ) suma̧ kwadratów a druga wyjaśniona̧ (przez regresjȩ) suma̧ kwadratów .
Nazwy te staja̧ siȩ oczywiste gdy zależność y od x jest liniowa̧ zależnościa̧ funkcyjna̧ a
nie zależnościa̧ losowa̧. Wtedy pierwsza suma znika a caÃla zmienność y pojawiaja̧ca siȩ
jako odchylenie od średniej wartości ȳ opisana jest przez regresjȩ.
P
Niewyjaśniona przez regresjȩ suma kwadratów (y − R)2 może być traktowana jako
miara rozrzutu zmiennej y dokoÃla prostej regresji a wiȩc zwia̧zana jest bezpośrednio z estymatorem wariancji y dokoÃla regresji (która z definicji jest warunkowa̧ wartościa̧ oczekiwana̧ y; R = E{y|x} zmiennej y dla ustalonej zmiennej x):
n
P
Sy=x = i=1
2
(yi − R(xi ))2
n−2
gdzie (n−2) jest liczba̧ stopni swobody (mniejsza̧ o 2 od n gdyż dla uzyskania parametrów
prostej musieliśmy użyć dwu równań zwia̧zuja̧cych ze soba̧ wartości danych).
P
Wyjaśniona przez regresjȩ suma kwadratów (R − ȳ)2 może być wyrażona w inny
sposób przy wykorzystaniu estymatora r wspóÃlczynnika korelacji ρ.
B.Kamys: Fiz. Komp. 2003/04
103
P
(x − x̄)(y − ȳ)
r= qP
.
P
[ (x − x̄)2 ][ (y − ȳ)2 ]
Wprowadzimy teraz dodatkowa̧ konwencjȩ zapisu polegaja̧ca̧ na oznaczaniu odchylenia zmiennych od średniej arytmetycznej przez odpowiednie duże litery:
X ≡ x − x̄,
Y ≡ y − ȳ.
Korzystaja̧c z tego, że wspóÃlczynnik a we wzorach R = ax + b oraz ȳ = ax̄ + b da
siȩ zapisać jako
X
X
a=
XY /
X2
(można to sprawdzić przeksztaÃlcaja̧c wzory na parametry linii prostej podane wcześniej w rozdziale o regresji liniowej) dostajemy:
X
(R − ȳ)2 =
= a2
≡ a2
=
=
(
X
X
P
(
(
(
= r2
≡ r2
X2
XY )2 ³X
P
P
(x − x̄)2
X 2 )2
P
X2
XY )2
X 2) (
³X
³X
P
Y2
´
³X
Y 2)
(y − ȳ)2
´
Y2
´
´
W ten sposób pokazano, że kwadrat estymatora wspóÃlczynnika korelacji równy
jest stosunkowi sumy kwadratów odchyleń wyjaśnionych przez regresjȩ do
caÃlkowitej sumy kwadratów odchyleń:
P
2
r = P
(R − ȳ)2
(y − ȳ)2
.
Daje to nam prosta̧ interpretacjȩ kwadratu wspóÃlczynnika korelacji: gdy r 2 bliskie jest
jedności to regresja odpowiada za prawie caÃly rozrzut obserwowanych wartości yi (dla
wszystkich xi ) a caÃla reszta rozrzutu może być przypisana istnieniu bÃlȩdów yi .
B.Kamys: Fiz. Komp. 2003/04
104
Sumȩ kwadratów wyjaśniona̧ przez regresjȩ i niewyjaśniona̧ przez regresjȩ można
zwia̧zać z odpowiednimi estymatorami wariancji. Jeżeli zmienna y i x sa̧ niezależne liniowo to obie te wariancje powinny być sobie równe (liczenie regresji nie wnosi nic nowego).
A wiȩc sprawdzenie metoda̧ analizy wariancji hipotezy, że obie wariancje sa̧
równe możemy uznać za równoważne do testowania hipotezy gÃlosza̧cej, że
zmienne x i y sa̧ liniowo niezależne tzn.
H0 : ρ(x, y) = 0.
Uporza̧dkujmy dotychczasowe informacje w tabeli analizy wariancji:
Suma
Kwadratów
CaÃlkowita
Wyjaśniona
przez regresjȩ
P
r2
Stopnie Estymator
swobody wariancji
(y − ȳ)
X
2
Statystyka testowa
N −1
(y − ȳ)2
1
r2
P
(y − ȳ)2
1
Niewyjaśniona
przez regresjȩ
(1 − r 2 )
X
(y − ȳ)
2
N −2
(1 − r 2 )
P
(y − ȳ)2
N −2
F(1,N −2) =
r 2 (N − 2)
(1 − r 2 )
Liczby stopni swobody skojarzone z odpowiednimi sumami kwadratów wynosza̧ odpowiednio:
• N − 1 dla caÃlkowitej wariancji (liczba pomiarów minus jeden zwia̧zek wykorzystany
na liczenie średniej arytmetycznej ȳ),
P
• 1 dla sumy (R − ȳ)2 (bo równanie regresji jednoznacznie określa jaki jest rozrzut
punktów leża̧cych na prostej wzglȩdem średniej arytmetycznej) i
P
• N − 2 dla sumy (y − R)2 (bo dwa równania na parametry prostej ograniczaja̧
swobodȩ zmiany N wartości yi ).
Dla sprawdzenia czy wariancja wyjaśniona przez regresjȩ jest taka sama jak wariancja
niewyjaśniona przez regresjȩ stosuje siȩ test F Fishera, używaja̧c jako statystyki testowej
ilorazu estymatorów tych wariancji a wiȩc dwu zmiennych o rozkÃladach chi-kwadrat χ21 i
χ2N 2 podzielonych przez odpowiednie liczby stopni swobody a wiȩc zmiennej:
F (1, N − 2),
analogicznie jak robi siȩ przy porównaniu wariancji dwu populacji normalnych.
Obszar krytyczny jest obszarem prawostronnym (wartości statystyki testowej wiȩksze
od krytycznej wartości tj. kwantyla F1 (1, N − 2) ).
B.Kamys: Fiz. Komp. 2003/04
12.8
105
TESTY NIEPARAMETRYCZNE
HIPOTEZ PORÓWNUJA̧CYCH POPULACJE
Do tej pory rozważaliśmy testy sprawdzaja̧ce hipotezy gÃlosza̧ce równość wartości oczekiwanych dwu zmiennych a także równość wariancji dwu zmiennych. Testy te dotyczyÃly
jedynie zmiennych o rozkÃladach normalnych. Teraz omówimy testy odnosza̧ce siȩ do
hipotez gÃlosza̧cych identyczność dystrybuant dwu populacji; H0 : F (X) = G(X)
niezależnie od postaci rozkÃladu. Dystrybuanty oznaczono różnymi literami aby podkreślić, że odnosza̧ siȩ do dwu różnych populacji ale badamy tȩ sama̧ zmienna̧ losowa̧
X dla obu populacji biora̧c próbȩ liczebności n1 z pierwszej populacji i liczebności n2 z
drugiej populacji.
12.8.1
TEST SMIRNOWA
• Hipoteza zerowa H0 : F (X) ≡ G(X)
gdzie zmienna X jest zmienna̧ cia̧gÃla̧.
F (X) i G(X) sa̧ odpowiednio dystrybuantami zmiennej X dla pierwszej i drugiej
populacji .
• Hipoteza alternatywna H1 : zaprzeczenie H0
• Statystyka testowa Dn1 ;n2 :
Dn1 ;n2 = sup | Fn1 (x) − Gn2 (x) |
x
gdzie Fn1 (x) i Gn2 (x) to empiryczne dystrybuanty zbudowane na podstawie prób
o liczebności odpowiednio n1 i n2 , zdefiniowane tak jak dla rozkÃladu KoÃlmogorowa.
Należy zauważyć, że obie dystrybuanty sa̧ od tej samej wartości argumentu.
Ponieważ speÃlniona jest relacja:
Dn1 ;n2 = Dn2 ;n1
wiȩc bez ograniczenia ogólności wniosków można rozważać tylko
Dn1 ;n2
zakÃladaja̧c, że
n1 ≤ n2 .
B.Kamys: Fiz. Komp. 2003/04
106
W praktycznych rachunkach używa siȩ nastȩpuja̧cych wzorów na Dn1 ;n2 , gdzie
obliczenia wykonuje siȩ tylko dla wartości argumentów zaobserwowanych w obu
próbach i dla rozróżnienia prób stosuje siȩ symbole x1 ...xn1 i y1 ....yn 2 na statystyki
pozycyjne odpowiednio z pierwszej i drugiej próby:
Dn+1 ;n2 =
Dn1 ;n2 =
Dn1 ;n2 =
³
max
in
1
1
³
max
in
1
1
´
i
n1 − Gn2 (xi ) =
j n
1
´
Gn2 (xi ) − in11 = max
j n
1
³
max Dn+1 ;n2 , Dn1 ;n2
´
³
max
2
2
Fn1 (yj ) − jn21
³
j
n2 − Fn1 (yj )
´
´
TWIERDZENIE (Smirnow):
Gdy H0 jest prawdziwa oraz liczby pomiarów n1 i n2 da̧ża̧ do nieskończoności to
zmienna
s
n1 · n2
Dn1 ;n2 ·
n1 + n2
da̧ży do rozkÃladu λ (KoÃlmogorowa).
♦
Dystrybuanta rozkÃladu KoÃlmogorowa wyraża siȩ nastȩpuja̧cym wzorem:
K(y) =
1
X
k=
1
(−1)k exp[−2k2 y 2 ]
Sta̧d można znaleźć kwantyle tego rozkÃladu. Przytoczymy tylko trzy najczȩściej
stosowane: y0;95 = 1, 36, y0;99 = 1, 63 i y0;999 = 1, 95.
Jeżeli obie próby sa̧ odpowiednio duże (ni > 150) to można już z rozsa̧dnym
przybliżeniem stosować asymptotyczne wzory, tj.
s
Dn1 ;n2 (1 − α) ≈
n1 + n2
n1 · n2
· y1 B.Kamys: Fiz. Komp. 2003/04
107
Gdy n1 i n2 sa̧ maÃle, trzeba stosować dokÃladny rozkÃlad statystyki Dn1 ;n2 znaleziony
przez Masseya (F.J.Massey, AMS 23 (1952) 435-441).
• Obszar krytyczny: prawostronny (duże wartości statystyki testowej)
B.Kamys: Fiz. Komp. 2003/04
12.8.2
108
TEST ZNAKÓW
Test znaków sÃluży do sprawdzenia hipotezy zerowej gÃlosza̧cej, że dystrybuanty dwu cia̧gÃlych
zmiennych losowych X i Y sa̧ identyczne:
• Hipoteza zerowa H0 : G(X) = F (Y ).
Przy prawdziwości H0 prawdopodobieństwo P (X > Y ) tego, że zajdzie zdarzenie losowe X > Y , jest równe prawdopodobieństwu P (X < Y ) tego, że X < Y .
Ze wzglȩdu na zaÃlożenie cia̧gÃlości zmiennych prawdopodobieństwo równości X i Y
jest równe zero; P (X = Y ) = 0 a ponieważ te trzy zdarzenia sa̧ rozÃla̧czne i
wyczerpuja̧ wszystkie możliwości wiȩc ostatecznie:
P (X < Y ) = P (X > Y ) = 1/2
• Hipoteza alternatywna H1 : G(X) 6= F (Y ).
• Statystyka testowa to liczba k takich par, że xi > yi wśród n niezależnych par
(xi , yi ). RozkÃlad prawdopodobieństwa tej statystyki przy prawdziwości H0 to
rozkÃlad Bernoulliego z parametrem p = 1/2 :
1
1
1
n
P (k) = (n
k ) · 2k · 2(n k) = (k ) · 2n
• Obszar krytyczny to bardzo maÃla (k ≈ 0) i bardzo duża (k ≈ n) liczba par
(xi , yi ), takich że xi > yi (obszar dwustronny). Jeżeli mamy wskazówki, że prawdopodobieństwo pojawienia siȩ wartości X wiȩkszych od Y jest wiȩksze niż 1/2 to
należy przyja̧ć prawostronny obszar krytyczny (k > kp ) a gdy prawdopodobieństwo
X wiȩkszych od Y jest mniejsze od 1/2 to lewostronny obszar krytyczny (k < kl ).
Brzeg prawostronnego obszaru krytycznego kp szukamy z warunku:
n
X
P (k ≥ kp ) = 2 n ·
(n
i)=α
i=kp
B.Kamys: Fiz. Komp. 2003/04
109
Brzeg lewostronnego obszaru krytycznego kl szukamy z warunku:
kl
X
P (k ≤ kl ) = 2 n ·
(n
i)=α
i=0
a brzegi dwustronnego obszaru krytycznego z obu powyższych wzorów, w których
zasta̧pi siȩ α przez α/2.
UWAGA:
Tu zakÃladaliśmy milcza̧co, że nie bȩda̧ siȩ pojawiaÃly pary (xi = yi ) ponieważ obie
zmienne sa̧ cia̧gÃle a wiȩc prawdopodobieństwo takich par wynosi zero. W praktyce
obliczenia wykonywane sa̧ zawsze ze skończona̧ dokÃladnościa̧ a to powoduje pojawianie
siȩ powyższych par. Jeżeli ich liczba jest niewielka w porównaniu do liczby wszystkich
par to można je po prostu pomina̧ć. W przeciwnym wypadku stosuje siȩ losowanie , które
(z prawdopodobieństwem 0,5 ) określa czy dana̧ parȩ zaliczyć do par, w których xi > yi
czy odwrotnie.
12.8.3
TEST SERII WALDA - WOLFOWITZA
Seria̧ nazywamy każdy podcia̧g cia̧gu zÃlożonego z elementów A i B maja̧cy tȩ wÃlasność,
że należa̧ do niego elementy tego samego typu (A lub B).
Liczba serii ns speÃlnia warunek:
2 ≤ ns ≤ 2 · min(nA , nB ) + 1
gdzie nA i nB to odpowiednio liczby elementów typu A i typu B w caÃlym cia̧gu.
Test serii Walda-Wolfowitza sÃluży do sprawdzania hipotezy gÃlosza̧cej, że dystrybuanty dwu zmiennych cia̧gÃlych X i Y sa̧ identyczne:
• Hipoteza zerowa H0 : F1 (X) = F2 (Y )
• Hipoteza alternatywna H1 : F1 (X) 6= F2 (Y )
B.Kamys: Fiz. Komp. 2003/04
110
• Statystyka testowa ns (liczba serii ).
Mamy próbȩ skÃladaja̧ca̧ siȩ z nA wartości zmiennej X oraz z nB wartości zmiennej
Y . Zapisujemy te nA + nB wartości w jeden niemaleja̧cy cia̧g i sprawdzamy ile jest
serii typu A (tzn. skÃladaja̧cych siȩ z elementów X) i ile jest serii typu B (tzn.
skÃladaja̧cych siȩ z elementów Y ). Jeżeli zdarzy siȩ, że dwie wartości sa̧ identyczne
to musimy losować (z prawdopodobieństwem 0,5), która z nich ma być pierwsza w
cia̧gu.
• Obszar krytyczny - lewostronny : ns ≤ ns (α)
Gdy hipoteza zerowa jest sÃluszna to możemy siȩ spodziewać, że wartości X sa̧
przemieszane z wartościami Y a wiȩc liczba serii bȩdzie duża. Jeżeli dystrybuanty
zmiennych X i Y sa̧ różne to spodziewamy siȩ, że systematycznie jedna z tych
zmiennych bȩdzie wiȩksza od drugiej (przynajmniej na pewnym odcinku wartości)
a wiȩc liczba serii bȩdzie maÃla. Sta̧d maÃla liczba serii w próbie bȩdzie świadczyć
przeciw hipotezie zerowej.
RozkÃlad liczby serii ns jest znany przy prawdziwości H0 i wyraża siȩ analitycznym wzorem:


































 nA − 1

 n
 nB − 1


 n




2
s −1
2
s −1
2

 nA + nB



nA


p(ns ) =
































  nB − 1


 n
s − 3
2
2
2

 nA − 1


 n
s − 1
2

dla ns parzystego




 


  nA − 1
+
 
  n
s − 3
2
2

 nB − 1


 n
s − 1




 nA + nB



nA
2
2
dla ns nieparzystego




a wiȩc można znaleźć (numerycznie) wartości krytyczne statystyki testowej.
UWAGA:
Warto zauważyć, że w przypadku odrzucenia hipotezy zerowej, tj. zaobserwowania maÃlej
liczby serii, można próbować uzyskać informacjȩ o relacji pomiȩdzy wartościami oczekiwanymi E(X) i E(Y ) sprawdzaja̧c czy na pocza̧tku caÃlego cia̧gu przeważaja̧ wartości
typu A (tj. wartości zmiennej X) czy typu B(wartości zmiennej Y ).
Jeżeli na pocza̧tku mamy przewagȩ wartości typu A a potem typu B to możemy uważać,
że E(X) < E(Y ). W przypadku odwrotnym spodziewamy siȩ, że E(X) > E(Y ).
B.Kamys: Fiz. Komp. 2003/04
12.8.4
111
TEST SUMY RANG WILCOXONA - MANNA - WHITNEYA
Test ten zostaÃl opracowany przez F. Wilcoxona dla dwu równie licznych prób a później
uogólniony przez H.B. Manna i D.R. Whitneya na dwie próby o dowolnej liczebności.
Można wiȩc spotkać siȩ z nazwa̧ test Wilcoxona lub test Wilcoxona-Manna-Whitneya.
Przez rangȩ obserwacji rozumie siȩ liczbȩ naturalna̧ równa̧ numerowi miejsca, który ta
obserwacja zajmuje w uporza̧dkowanym cia̧gu niemaleja̧cym obserwacji w próbie (numer
danej statystyki pozycyjnej). Jeżeli dwie lub wiȩcej obserwacji ma tȩ sama̧ wartość to
ich rangi sa̧ równe średniej arytmetycznej rang, które posiadaÃlyby gdyby siȩ minimalnie
różniÃly (tzn. różniÃlyby siȩ tak maÃlo, że nie zmieniÃlyby poÃlożenia w cia̧gu w stosunku do
innych obserwacji).
• Hipoteza zerowa H0 : F1 (X) = F2 (Y )
• Hipoteza alternatywna H1 : F1 (X) 6= F2 (Y )
Można jednak postawić inne hipotezy alternatywne:
– H1 : P (X > Y ) > 0, 5 lub
– H1 : P (X > Y ) < 0, 5
• Statystyka testowa:
w=
nX
min
i=1
ranga(i)
nmin oznacza liczebność mniejszej próby a ranga(i) to ranga kolejnej obserwacji
z mniej licznej próby ale w cia̧gu utworzonym z obserwacji obu prób.
• Obszar krytyczny: Dla prostego zaprzeczenia - obustronny, a dla dwu pozostaÃlych
hipotez alternatywnych jest odpowiednio prawo- i lewostronny (przy zaÃlożeniu, że
próba̧ mniej liczna̧ jest próba ’X’). Wartości krytyczne trzeba brać z odpowiednich
tablic.

Podobne dokumenty