x x lady
Transkrypt
x x lady
TEORIA PRAWDOPODOBIEŃSTWA I STATYSTYKA DLA FIZYKI KOMPUTEROWEJ B. Kamys Spis treści 1 Elementy teorii prawdopodobieństwa 1.1 Definicje podstawowych pojȩć . . . . . . . . . . . . . . . . . . . . . . 1.2 WÃlasności prawdopodobieństwa . . . . . . . . . . . . . . . . . . . . . 3 3 4 2 Ilościowy opis zmiennych losowych 6 3 Funkcje zmiennej losowej 8 4 Charakterystyki opisowe 10 5 Podstawowe pojȩcia teorii estymacji 14 6 RozkÃlad normalny (Gaussa) 16 7 Podstawy rachunku bÃlȩdów 7.1 RozkÃlad pomiarów obarczonych bÃlȩdami przypadkowymi 7.2 Estymator wartości oczekiwanej . . . . . . . . . . . . . 7.3 Estymator odchylenia standardowego . . . . . . . . . . 7.4 Zapis wyników pomiarów . . . . . . . . . . . . . . . . 7.5 BÃla̧d statystyczny . . . . . . . . . . . . . . . . . . . . 7.6 Pomiary pośrednie . . . . . . . . . . . . . . . . . . . . 7.6.1 Estymator E(Y) dla pomiaru pośredniego Y . . . 7.6.2 BÃla̧d pomiaru pośredniego . . . . . . . . . . . . 7.6.3 BÃla̧d maksymalny . . . . . . . . . . . . . . . . . . . . . . . . . 19 21 22 23 24 26 27 27 28 28 8 Estymacja przedziaÃlowa 8.1 Estymacja E{X} gdy znamy odchylenie standardowe σ{X} . . . . . . . 8.2 Estymacja E{X} gdy nie znamy odchylenia standardowego σ{X} . . . . 8.3 Estymacja przedziaÃlowa wariancji i odchylenia standardowego . . . . . . 30 31 33 34 9 Metody szukania “dobrych” estymatorów 9.1 Metoda momentów (“MM”) . . . . . . . . . . . . . . . . . . . . . . . 9.2 Metoda najwiȩkszej wiarygodności (“MNW”) . . . . . . . . . . . . . . 9.3 Metoda najmniejszych kwadratów (“MNK”) . . . . . . . . . . . . . . . 36 36 40 45 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.Kamys: Fiz. Komp. 2003/04 2 10 Wielowymiarowe (wektorowe) zmienne losowe 49 10.1 Momenty rozkÃladu wielowymiarowej zmiennej losowej . . . . . . . . . . 52 ~ ~ 10.2 Estymacja punktowa wartości oczekiwanej E{Y (X)} i macierzy kowar~ (X) ~ iancji Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 10.3 Regresja liniowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 10.4 Regresja przy pomocy wielomianów ortogonalnych . . . . . . . . . . . . 62 10.4.1 Regresja przy pomocy wielomianów ortogonalnych na zbiorze wartości argumentu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 10.4.2 Konstrukcja zespoÃlu wielomianów ortogonalnych na zbiorze wartości argumentu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 11 Metoda Monte Carlo 11.1 Liczenie caÃlek metoda̧ Monte Carlo . . . . . . . . . . . . . . . . . . . 11.2 Zmniejszanie bÃlȩdu caÃlki . . . . . . . . . . . . . . . . . . . . . . . . . 11.3 Generacja liczb losowych . . . . . . . . . . . . . . . . . . . . . . . . . 11.3.1 Generacja liczb o rozkÃladzie równomiernym . . . . . . . . . . . 11.3.2 Generacja liczb losowych o dowolnych rozkÃladach prawdopodobieństwa 11.3.3 Generacja wielowymiarowych zmiennych losowych . . . . . . . . 12 Testowanie hipotez statystycznych 12.1 Definicje elementarnych pojȩć . . . . . . . . . . . . . . . . . . . . 12.2 Test normalności rozkÃladu . . . . . . . . . . . . . . . . . . . . . . 12.2.1 Test zerowania siȩ wspóÃlczynnika asymetrii i kurtozy . . . . . 12.2.2 Test zgodności λ - KoÃlmogorowa . . . . . . . . . . . . . . . 12.2.3 Test zgodności Andersona-Darlinga . . . . . . . . . . . . . 12.2.4 Test zgodności χ2 - Pearsona . . . . . . . . . . . . . . . . 12.2.5 Wykres normalny . . . . . . . . . . . . . . . . . . . . . . 12.3 Hipotezy dotycza̧ce wartości oczekiwanej . . . . . . . . . . . . . . 12.3.1 Porównanie E(X) z liczba̧ (H0 : E(X) = X0 ) . . . . . . . 12.3.2 Wartości oczekiwane dwu populacji (H0 : E(X) = E(Y )) . 12.4 Hipotezy dotycza̧ce wariancji . . . . . . . . . . . . . . . . . . . . 12.4.1 Porównanie wariancji X z liczba̧ (H0 : σ 2 (X) = σ02 ) . . . . 12.4.2 Porównanie wariancji dwu populacji (H0 : σ 2 (X) = σ 2 (Y )) 12.5 Hipoteza jednorodności wariancji kilku populacji . . . . . . . . . . 12.5.1 Test Bartletta . . . . . . . . . . . . . . . . . . . . . . . . 12.5.2 Test Cochrana . . . . . . . . . . . . . . . . . . . . . . . . 12.6 Analiza wariancji - klasyfikacja jednoczynnikowa . . . . . . . . . . . 12.7 Analiza wariancji - dla regresji liniowej . . . . . . . . . . . . . . . 12.8 Testy nieparametryczne hipotez porównuja̧cych populacje . . . . . . 12.8.1 Test Smirnowa . . . . . . . . . . . . . . . . . . . . . . . . 12.8.2 Test znaków . . . . . . . . . . . . . . . . . . . . . . . . . 12.8.3 Test serii Walda-Wolfowitza . . . . . . . . . . . . . . . . . 12.8.4 Test sumy rang Wilcoxona-Manna-Whitneya . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 67 69 72 72 74 80 81 81 82 82 84 86 87 88 90 90 91 94 94 94 96 96 97 98 102 105 105 108 109 111 B.Kamys: Fiz. Komp. 2003/04 1 1.1 3 ELEMENTY TEORII PRAWDOPODOBIEŃSTWA DEFINICJE PODSTAWOWYCH POJȨĆ DEFINICJA: Zbiór zdarzeń elementarnych - zbiór takich zdarzeń, które siȩ wzajemnie wykluczaja̧ oraz wyczerpuja̧ wszystkie możliwości (tzn. w każdym możliwym przypadku przynajmniej jedno z nich musi zachodzić). DEFINICJA: Zdarzeniem jest dowolny podzbiór zdarzeń elementarnych E. DEFINICJA: Zdarzeniem pewnym jest zdarzenie zawieraja̧ce wszystkie elementy zbioru E (zachodzi zawsze). DEFINICJA: Zdarzeniem niemożliwym jest zdarzenie nie zawieraja̧ce żadnego elementu zbioru E tj. zbiór pusty Ø. DEFINICJA: Zdarzenie A zawiera siȩ w zdarzeniu B jeżeli każde zdarzenie elementarne należa̧ce do zbioru A należy do B: A ⊂ B DEFINICJA: Zdarzenia A i B sa̧ równe gdy A ⊂ B i B ⊂ A. DEFINICJA: Suma zdarzeń A+B to zdarzenie zawieraja̧ce te i tylko te zdarzenia elementarne, które należa̧ do któregokolwiek S ze zdarzeń A, B (suma logiczna zbiorów zdarzeń elementarnych A B). DEFINICJA: Różnica zdarzeń A-B to zdarzenie zawieraja̧ce te i tylko te zdarzenia elementarne, które należa̧ do zdarzenia A a nie należa̧ do zdarzenia B. DEFINICJA: Iloczyn zdarzeń A.B to zdarzenie zawieraja̧ce te i tylko te zdarzenia eleT mentarne, które należa̧ do wszystkich zdarzeń A, B (tzn. w jȩzyku zbiorów A B). DEFINICJA: Zdarzeniem przeciwnym do A: A nazywamy różnicȩ E − A . DEFINICJA: Zdarzeniem losowym - nazywamy zdarzenie speÃlniaja̧ce poniższe warunki: 1. W zbiorze zdarzeń losowych znajduje siȩ zdarzenie pewne oraz zdarzenie niemożliwe. 2. Jeżeli zdarzenia A1 , A2 , ... w ilości skończonej lub przeliczalnej sa̧ zdarzeniami losowymi to ich iloczyn i ich suma sa̧ również zdarzeniami losowymi. B.Kamys: Fiz. Komp. 2003/04 4 3. Jeżeli A1 i A2 sa̧ zdarzeniami losowymi to ich różnica jest również zdarzeniem losowym. INTUICYJNE OKREŚLENIE: Zdarzenie losowe to takie, o którym nie możemy powiedzieć czy zajdzie w danych warunkach czy też nie zajdzie. DEFINICJA: Zmienna̧ losowa̧ nazywamy jednoznaczna̧ funkcjȩ rzeczywista̧ X(e) określona̧ na zbiorze E zdarzeń elementarnych taka̧, że każdemu przedziaÃlowi wartości funkcji X odpowiada zdarzenie losowe. DEFINICJA: Zmienna losowa typu skokowego (dyskretnego) to taka, która przyjmuje tylko co najwyżej przeliczalny zbiór wartości. Zmienna losowa typu cia̧gÃlego - może przyjmować dowolne wartości od minus do plus nieskończoności. DEFINICJA: Definicja prawdopodobieństwa Aksjomat 1: Każdemu zdarzeniu losowemu przyporza̧dkowana jest jednoznacznie nieujemna liczba rzeczywista zwana prawdopodobieństwem. Aksjomat 2: Prawdopodobieństwo zdarzenia pewnego jest równe jedności. Aksjomat 3: Jeżeli zdarzenie losowe Z jest suma̧ skończonej lub przeliczalnej liczby rozÃla̧cznych zdarzeń losowych Z1 ,Z2 ,.. to prawdopodobieństwo zrealizowania siȩ zdarzenia Z jest równe sumie prawdopodobieństw zdarzeń Z1 ,Z2 , .. Aksjomat 4: Prawdopodobieństwo warunkowe zdarzenia A pod warunkiem, że zachodzi zdarzenie B; P (A | B) wyraża siȩ wzorem: ) P (A | B) = PP(A:B (B ) Prawdopodobieństwo to jest nieokreślone, gdy prawdopodobieństwo zdarzenia B wynosi zero. 1.2 WÃLASNOŚCI PRAWDOPODOBIEŃSTWA 1.) Zdarzenie przeciwne do A : P (A) = 1 − P (A) Dowód: A + A = E a wiȩc P (A + A) = P (E) = 1, z drugiej strony A i A wykluczaja̧ siȩ wiȩc P (A + A) = P (A) + P (A). Sta̧d P (A) = P (E) − P (A) czyli P (A) = 1 − P (A) c.b.d.o. 2.) Zdarzenie niemożliwe : P (Ø) = 0 B.Kamys: Fiz. Komp. 2003/04 5 Dowód: E i Ø wykluczaja̧ siȩ wiȩc P (E + Ø) = P (E) + P (Ø) oraz E + Ø = E a wiȩc P (E + Ø) = P (E), czyli P (Ø) = 0 c.b.d.o. 3.) Zdarzenie A zawiera siȩ w B : P (A) ≤ P (B) Dowód: P (B) = P (A + (A.B)) = P (A) + P (A.B) ≥ P (A) c.b.d.o. 4.) Dowolne zdarzenie losowe : 0 ≤ P (A) ≤ 1 Dowód: Dla każdego zdarzenia jest prawdziwe: Ø ⊂ A + Ø = A = A.E ⊂ E a wiȩc prawdopodobieństwa zdarzeń Ø,A i E speÃlniaja̧: 0 ≤ P (A) ≤ 1 c.b.d.o. 5.) Suma dowolnych zdarzeń A+B : P (A + B) = P (A) + P (B) − P (A.B) Dowód: Zarówno A + B jak i B możemy zapisać jako sumy rozÃla̧cznych (wykluczaja̧cych siȩ) zdarzeń: A + B = A + (B − A.B) oraz B = A.B + (B − A.B), stosujemy aksjomat nr 3 definicji prawdopodobieństwa, P (A + B) = P (A) + P (B − A.B), P (B) = P (A.B) + P (B − A.B) odejmujemy stronami: P (A + B) = P (A) + P (B) − P (A.B) c.b.d.o. 6.) Iloczyn zdarzeń A.B : P (A.B) = P (B).P (A | B) = P (A).P (B | A) Dowód: Wynika to automatycznie z 4 aksjomatu definicji prawdopodobieństwa. DEFINICJA: Zdarzenie A jest niezależne od B gdy P (A | B) = P (A). 7.) Jeżeli A nie zależy od B to B nie zależy od A. Dowód: Korzystamy z dwu wzorów na prawdopodobieństwo A.B podanych wyżej, przy czym w pierwszym z nich uwzglȩdniamy, że A jest niezależne od B. Wówczas z porównania obu wzorów dostajemy P (B | A) = P (B). c.b.d.o. B.Kamys: Fiz. Komp. 2003/04 6 8.) WKW niezależnosci: P (A.B) = P (A).P (B) Dowód: Wynika to automatycznie ze wzoru na prawdopodobieństwo iloczynu zdarzeń. c.b.d.o 9.) FormuÃla ’caÃlkowitego prawdopodobieństwa’: Jeżeli istnieje zbiór zdarzeń A1 , A2 , ... wykluczaja̧cych siȩ wzajemnie i wyczerpuja̧cych wszystkie możliwości wówczas prawdopodobieństwo dowolnego zdarzenia B może być zapisane nastȩpuja̧co: P (B) = P i P (Ai ).P (B | Ai ) Dowód: P P B = i B.Ai (suma rozÃla̧cznych zdarzeń) a wiȩc P (B) = i P (B.Ai ) a każdy skÃladnik można zapisać jako P (Ai ).P (B | Ai ). c.b.d.o. 2 ILOŚCIOWY OPIS ZMIENNYCH LOSOWYCH Ilościowy opis zmiennych losowych uzyskujemy stosuja̧c • Dystrybuantȩ (Zwana̧ czȩsto przez statystyków funkcja̧ rozkÃladu) • RozkÃlad prawdopodobieństwa (Tylko dla zmiennych dyskretnych) • Funkcjȩ gȩstości prawdopodobieństwa (Tylko dla zmiennych cia̧gÃlych) oraz wielkości charakteryzuja̧ce te powyżej wymienione twory. DEFINICJA: Dystrybuanta̧ F(x) nazywamy prawdopodobieństwo tego, że zmienna losowa X przyjmie wartość mniejsza̧ od x. (X - to symbol zmiennej losowej a x to jej konkretna wartość). Oczywiście dystrybuanta jest funkcja̧ x. F (x) ≡ P (X < x) WÃlasności dystrybuanty: 1. 0 ≤ F (x) ≤ 1 2. F (−∞) = 0 3. F (+∞) = 1 4. F (x) jest niemaleja̧ca̧ funkcja̧ 5. F (x) nie posiada wymiaru B.Kamys: Fiz. Komp. 2003/04 7 PrzykÃlad: Dla rzutu kostka̧ do gry, gdzie jako zmienna̧ losowa̧ przyjȩto liczbȩ wyrzuconych punktów: F (x) = = = = = = = 0 dla x ≤ 1, 1/6 dla 1 < x 2/6 dla 2 < x 3/6 dla 3 < x 4/6 dla 4 < x 5/6 dla 5 < x 1 dla x > 6 ≤ ≤ ≤ ≤ ≤ 2, 3, 4, 5, 6, DEFINICJA: RozkÃlad prawdopodobieństwa : Jeżeli xi (i = 1, 2, ...) sa̧ wartościami dyskretnej zmiennej losowej to rozkÃladem prawdopodobieństwa nazywamy zespóÃl prawdopodobieństw: P (X = xi ) = pi , P i pi = 1 PrzykÃlad: RozkÃlad prawdopodobieństwa dla rzutu kostka̧ do gry omawianego powyżej: pi = 1/6 dla i = 1, 2..6. DEFINICJA: Funkcja gȩstości prawdopodobieństwa f(x) f (x)dx ≡ P (x ≤ X ≤ x + dx) WÃlasności funkcji gȩstości prawdopodobieństwa: 1. f (x) ≥ 0, 2. f (x) jest unormowana tj. R +1 1 f (x)dx = 1 3. f (x) = dFdx(x) 4. wymiar f (x) = wymiar(1/x) B.Kamys: Fiz. Komp. 2003/04 8 PrzykÃlad: 0 dla f (x) = 1/(b − a) dla 0 dla 3 x<a a ≤x≤b x>b FUNKCJE ZMIENNEJ LOSOWEJ Funkcja Y zmiennej losowej X: Y = Y(X) jest również zmienna̧ losowa̧. Dlatego też można dla niej określić dystrybuantȩ, rozkÃlad prawdopodobieństwa lub funkcjȩ gȩstości prawdopodobieństwa. Sa̧ one prosto zwia̧zane z odpowiednimi wielkościami dla zmiennej X. Należy rozpatrzyć niezależnie przypadek, gdy funkcja Y(X) jest monotoniczna oraz gdy nie posiada tej wÃlasnosci. a) Funkcja Y = Y(X) jest monotoniczna. Można wówczas jednoznacznie określić funkcjȩ odwrotna̧ X=X(Y). 1. Dystrybuanta funkcji Y(X): G(y) Y(X) jest rosna̧ca : G(y) = F (x(y)) Y(X) jest maleja̧ca : G(y) = 1 − F (x(y)) − P (x; y = y(x)) Dowód: Wychodza̧c z definicji dla Y(X) rosna̧cej: G(y) = P (Y < y) = P (X(Y ) < x) = F (x(y)) dla Y(X) maleja̧cej: G(y) = P (Y < y) = P (X(Y ) > x) = 1 − P (X(Y ) ≤ x) = 1 − P (X(Y ) < x) − P (X(Y ) = x) = 1 − F (x(y)) − P (x; Y = y(x)) c.b.d.o. B.Kamys: Fiz. Komp. 2003/04 9 2. RozkÃlad prawdopodobieństwa P(y): P (yi ) = P (xi ; yi = Y (xi )) 3. Funkcja gȩstości prawdopodobieństwa g(y): (y ) | g(y) = f (x(y)) | dxdy gdzie X(Y) jest funkcja̧ odwrotna̧ do Y(X). Z definicji: f (x)dx = P (x ≤ X < x + dx) a to prawdopodobieństwo przy jednoznacznym zwia̧zku miȩdzy X i Y wynosi P (y ≤ Y < y + dy) = g(y)dy. Znak moduÃlu przy pochodnej pojawia siȩ sta̧d, że przy maleja̧cej funkcji Y (X) pochodna bȩdzie ujemna co powodowaÃloby, że g(y) byÃlaby ujemna a zgodnie z definicja̧ musi być nieujemna. PrzykÃlad dla funkcji monotonicznej: Y (X) = aX + b ; a i b to rzeczywiste staÃle 1. RozkÃlad prawdopodobieństwa: P (Y = yi ) = P (axi + b = yi ) = P (xi = yia b ) 2. Dystrybuanta: dla a > 0, G(y) = F (x = y a b ), dla a < 0, G(y) = 1 − F (x = y a b ) − P (x = y a b ) 3. Gȩstość prawdopodobieństwa: g(y) = ja1j f (x = y a b ) B.Kamys: Fiz. Komp. 2003/04 10 b.) Funkcja Y(X) nie jest monotoniczna . Wówczas dzielimy obszar zmienności X na przedziaÃly, w których Y(X) jest monotoniczna i powtarzamy powyższe rozważania sumuja̧c przyczynki od rozÃla̧cznych przedziaÃlów. PrzykÃlad dla funkcji niemonotonicznej: Y (X) = X 2 1. RozkÃlad prawdopodobieństwa: √ √ P (yi ) = P (X 2 = yi ) = P (X = − yi ) + P (X = + yi ) 2. Dystrybuanta: √ √ G(y) = P (Y < y) = P (X 2 < y) = P (− y < X < + y) G(y) = 0 dla y ≤ 0 √ √ G(y) = F ( y) − F (− y) dla y ≥ 0 3. RozkÃlad gȩstości prawdopodobieństwa: g(y) = 0 dla y < 0 1 −1 √ √ g(y) = | √ | f ( y) + √ f (− y) 2 y 2 y 1 √ √ = √ (f ( y) + f (− y)) dla y ≥ 0 2 y 4 CHARAKTERYSTYKI OPISOWE W praktycznych zastosowaniach czȩsto wystarcza poznanie wartości pewnych wielkości, które charakteryzuja̧ rozkÃlad prawdopodobieństwa zamiast peÃlnej informacji o rozkÃladzie. Oto najczȩściej stosowane: DEFINICJA: fraktyl xq (zwany również kwantylem) jest to taka wartość zmiennej losowej, że prawdopodobieństwo znalezienia mniejszych od niej wartości wynosi q: P (X < xq ) ≡ F (xq ) = q B.Kamys: Fiz. Komp. 2003/04 11 Najważniejsze fraktyle to dolny kwartyl: x0:25 , górny kwartyl: x0:75 oraz mediana: x0:5 . DEFINICJA: Moda (zwana również wartościa̧ modalna̧ jest to taka wartość zmiennej losowej, dla której rozkÃlad prawdopodobieństwa (lub funkcja gȩstości prawdopodobieństwa) przyjmuje maksimum. DEFINICJA: RozkÃlady prawdopodobieństwa posiadaja̧ce jedna̧ modȩ zwane sa̧ jednomodalnymi a te, które maja̧ wiȩcej niż jedna̧ - wielomodalnymi. DEFINICJA: m1 zwany wartościa̧ oczekiwana̧, wartościa̧ średnia̧ lub nadzieja̧ matematyczna̧. Bȩdziemy go oznaczali przez E(X) (stosuje siȩ również oznaczenie M(X) lub X̂ ). P E(X) ≡ R i xi ·pi dla zmiennych dyskretnych, E(X) ≡ x·f (x) dx dla zmiennych cia̧gÃlych UWAGA: Jeżeli powyższa caÃlka (lub suma) sa bezwzglȩdnie zbieżne to mówimy, że istnieje wartość oczekiwana. W przeciwnym wypadku (nawet jeżeli caÃlka jest zbieżna) mówimy, że wartość oczekiwana nie istnieje ! INTERPRETACJA E(X): E(X) jest wspóÃlrzȩdna̧ punktu, który byÃlby środkiem masy rozkÃladu prawdopodobieństwa (lub pola pod funkcja̧ gȩstości prawdopodobieństwa) gdyby prawdopodobieństwa poszczególnych wartości ”xi ”traktować jako masy (lub odpowiednio gȩstość prawdodobieństwa jako zwykÃla̧ gȩstość). WÃLASNOŚCI E(X): E(X) jest operatorem liniowym a wiȩc: 1. P E( i Ci · Xi ) = P i Ci · E(Xi ) Co w szczególnych przypadkach daje: (a) E(C) = C (b) E(C · X) = C · E(X) (c) E(X1 + X2 ) = E(X1 ) + E(X2 ) B.Kamys: Fiz. Komp. 2003/04 12 2. Dla zmiennych niezależnych X1 , ..., Xn ½ E Q i ¾ Xi = Q i E {Xi } UWAGA: Warunkiem koniecznym i wystarczaja̧cym by zmienne byÃly niezależne jest aby wspólny rozkÃlad prawdopodobieństwa faktoryzowaÃl siȩ: f (X1 , X2 , .., Xn ) = f1 (X1 ).f2 (X2 )...fn (Xn ). RozkÃlady wielu zmiennych losowych omówimy później. 3. Dla funkcji zmiennej X; Y=Y(X) wartość oczekiwana E(Y) może być znaleziona przy pomocy rozkÃladu zmiennej X bez konieczności szukania rozkÃladu f(y): R P E(Y ) = i y(xi ) · pi , E(Y ) = y(x) · f (x)dx dla zmiennej dyskretnej i dla zmiennej cia̧gÃlej odpowiednio. DEFINICJA: Momentem rozkÃladu rzȩdu ’k’ wzglȩdem punktu x0 , nazywamy nastȩpuja̧ca̧ wielkość: mk (x0 ) ≡ E{(x − x0 )k } czyli R mk (x0 ) ≡ (x − x0 )k f (x) dx P mk (x0 ) ≡ i (xi − x0 )k p(xi ) dla zmiennych cia̧gÃlych i dyskretnych odpowiednio. Najważniejszymi momentami sa̧ te, które liczone sa̧ wzglȩdem pocza̧tku ukÃladu wspóÃlrzȩdnych tj. x0 = 0 - (bȩdziemy je oznaczali przez ’ mk ’ ) oraz momenty liczone wzglȩdem X0 = m1 tj. wzglȩdem pierwszego momentu wzglȩdem pocza̧tku ukÃladu wspóÃlrzȩdnych. Te ostatnie momenty nazywa siȩ momentami centralnymi (bȩdziemy je oznaczać przez ’ µk ’). DEFINICJA: µ2 , zwany wariancja̧ lub dyspersja̧ Bȩdziemy go oznaczać przez σ 2 (X) lub var(X) (stosuje siȩ również oznaczenie D(X). Pierwiastek z wariancji nazywany jest odchyleniem standardowym i oznaczany σ(X) ale czasami używa siȩ również nazwy ’ dyspersja ’. P σ 2 (X) ≡ R i (xi − E(x))2 · pi zmienna dyskretna σ 2 (X) ≡ (x − E(x))2 · f (x)dx zmienna cia̧gÃla B.Kamys: Fiz. Komp. 2003/04 13 WÃLASNOŚCI WARIANCJI: 1. Wariancja może być wyrażona przez momenty liczone wzglȩdem pocza̧tku ukÃladu wspóÃlrzȩdnych: σ 2 (X) = m2 − m21 σ 2 (X) = E(X 2 ) − E 2 (X) Dowód: Korzystamy z trzeciej wÃlasności wartości oczekiwanej tj. m2 (E(X)) = E((X − E(X))2 ) = E(X 2 − 2X.E(X) + E 2 (X)) = E(X 2 ) − 2E(X).E(X) + E 2 (X) = E(X 2 ) − E 2 (X) c.b.d.o. PosÃlugujac siȩ tym przedstawieniem wariancji dostajemy natychmiast nastȩpuja̧ce wÃlasności: (a) var(C) = 0 . bo E(C 2 ) − E 2 (C) = C 2 − C 2 = 0 c.b.d.o. (b) var(C · X) = C 2 · var(X) jest to nastȩpstwo liniowości E(X), przez która̧ definiowaliśmy var(X). (c) var(C1 · X + C2 ) = C 2 · var(X) 2. Dla zmiennych niezależnych P var( i Ci · Xi ) = P 2 i Ci · var(X) Wzór ten Ãlatwo wyprowadzić przypominaja̧c definicjȩ wariancji i korzystaja̧c z trzeciej wÃlasności wartości oczekiwanej: P var(y = i Ci · Xi ) ≡ E((y − E(Y ))2 ). Po wstawieniu do wzoru oraz podniesieniu do kwadratu otrzymamy sumȩ kwadratów wyrażeń Ci · (Xi − E(Xi )) oraz iloczyny mieszane tych wyrażeń. Iloczyny mieszane znikna̧ w chwili gdy podziaÃla na nie zewnȩtrzny operator wartości oczekiwanej (ponieważ E(X − E(X)) = E(X) − E(X) = 0). ZaÃlożenie niezależności jest potrzebne przy liczeniu wartości oczekiwanej z iloczynów mieszanych (wówczas wartość oczekiwana iloczynu równa jest iloczynowi wartości oczekiwanych). Suma wartości oczekiwanych z kwadratów wyrażeń Ci · (Xi − E(Xi )) jest wÃlaśnie oczekiwanym przez nas wyrażeniem. B.Kamys: Fiz. Komp. 2003/04 14 Interpretacja wariancji wynika z nierówności Czebyszewa, która̧ można zapisać nastȩpuja̧co: P (| X − E(X) |≥ a · σ(X)) ≤ a 2 TWIERDZENIE: Prawdopodobieństwo odchylenia wartości zmiennej losowej od wartości oczekiwanej E(X) o ’a’ -krotna̧ wartość odchylenia standardowego jest mniejsze lub równe od a12 . Twierdzenie to jest sÃluszne dla wszystkich rozkÃladów, które posiadaja̧ wariancjȩ (a wiȩc, co za tym idzie i wartość oczekiwana̧). Liczba ’ a ’ jest dowolna̧ dodatnia̧ rzeczywista̧ liczba̧. INTERPRETACJA WARIANCJI Korzystaja̧c z powyższego twierdzenia dochodzimy do wniosku, że wariancja (lub odchylenie standardowe) jest miara̧ rozrzutu zmiennej losowej dokoÃla wartości oczekiwanej. Jest to bardzo ważny wniosek bo w analizie danych doświadczalnych utożsamiamy wartość oczekiwana̧ pomiarów wykonanych w obecności bÃlȩdów przypadkowych z wartościa̧ prawdziwa̧ mierzonej wielkości. Wtedy miara̧ bÃlȩdu przypadkowego jest odchylenie standardowe bo ono określa rozrzut wyników dokoÃla wartości prawdziwej. 5 PODSTAWOWE POJȨCIA TEORII ESTYMACJI DEFINICJA: W statystyce skończony zespóÃl doświadczeń nazywamy próba̧ a wnioskowanie na podstawie próby o wÃlasnościach nieskończonego (zwykle) zespoÃlu wszystkich możliwych doświadczeń zwanego populacja̧ generalna̧ , nazywamy estymacja̧. DEFINICJA: Przez próbȩ prosta̧ rozumiemy cia̧g niezależnych doświadczeń odnosza̧cych siȩ do tej samej populacji generalnej. DEFINICJA: Statystyka̧ nazywamy taka̧ funkcjȩ zmiennych losowych obserwowanych w próbie, która sama jest zmienna̧ losowa̧. DEFINICJA: Estymatorem Tn (x1 , x2 , ..xn ; θ) parametru θ lub w skrócie Tn (θ) nazywamy statystykȩ o rozkÃladzie prawdopodobieństwa zależnym od θ. Tu ’x1 , x2 , ..’ oznaczaja̧ wyniki pomiarów próby a przez rozkÃlad prawdopodobieństwa rozumiemy przyporza̧dkowanie prawdopodobieństw różnym wartościom statystyki Tn . B.Kamys: Fiz. Komp. 2003/04 15 DEFINICJA: Estymacja punktowa to taka estymacja, która polega na oszacowaniu wartości danego parametru θ przez wartość jego estymatora Tn (θ). DEFINICJA: Estymacja przedziaÃlowa polega na szukaniu przedziaÃlu liczbowego, wewna̧trz którego z zaÃlożonym prawdopodobieństwem leży prawdziwa wartość parametru. DEFINICJA: Estymator Tn (θ), jest zgodny jeżeli dla każdego ² > 0 jest speÃlniony warunek: limn!1 P (| Tn (θ) − θ |< ²) = 1 W takim przypadku używa siȩ czȩsto określenia, że estymator speÃlnia prawo wielkich liczb . PRZYKÃLAD: TWIERDZENIE (Bernoulli): Wzglȩdna czȩstość pojawiania siȩ zdarzenia ’A’ w cia̧gu ’n’ doświadczeń speÃlnia prawo wielkich liczb czyli jest zgodnym estymatorem prawdopodobieństwa zdarzenia A: P (A). limn!1 P (| nA /n − P (A) |< ²) = 1 DEFINICJA: Estymator speÃlniaja̧cy mocne prawo wielkich liczb to taki, który jest zbieżny do estymowanego parametru z prawdopodobieństwem równym jedności. P (limn!1 Tn (θ) = θ) = 1 PRZYKÃLAD: TWIERDZENIE: F.P.Cantelli udowodniÃl w 1917 roku, że wzglȩdna czȩstość pozytywnego zakończenia doświadczenia; nA /n jest zbieżna do prawdopodobieństwa zdarzenia A; P (A) z prawdopodobieństwem równym jedności: P (limn!1 (nA /n) = P (A)) = 1 czyli wzglȩdna czȩstość speÃlnia mocne prawo wielkich liczb. DEFINICJA: Estymatorem nieobcia̧żonym Tn (θ) parametru θ nazywamy taki estymator, którego wartość oczekiwana równa jest wartości estymowanego parametru niezależnie od rozmiarów próby: E(Tn (θ)) = θ B.Kamys: Fiz. Komp. 2003/04 16 DEFINICJA: Obcia̧żeniem estymatora ’Bn ’ nazywamy różnicȩ jego wartości oczekiwanej i wartości estymowanego parametru: Bn = E(Tn (θ)) − θ DEFINICJA: Estymatorem obcia̧żonym nazywamy taki estymator, którego obcia̧żenie jest różne od zera. DEFINICJA: Estymatorem asymptotycznie nieobcia̧żonym nazywamy taki estymator obcia̧żony, którego obcia̧żenie zmierza do zera gdy rozmiary próby nieskończenie rosna̧: limn!1 Bn = 0 TWIERDZENIE: Jeżeli wariancja estymatora nieobcia̧żonego lub asymptotycznie nieobcia̧żonego da̧ży do zera gdy rozmiary próby rosna̧ nieograniczenie wówczas estymator ten jest zgodny. TWIERDZENIE: Jeżeli Tn (θ) jest zgodnym estymatorem θ i jeżeli h(θ) jest wielomianem lub ilorazem wielomianów to estymator h(Tn (θ)) jest estymatorem zgodnym dla h(θ). DEFINICJA: Jeżeli mamy zbiór estymatorów tego samego parametru θ: Tn(1) (θ),Tn(2) (θ), ... Tn(k) (θ), wówczas ten spośród nich nazywany jest najbardziej efektywnym, który ma najmniejsza̧ wariancjȩ. 6 ROZKÃLAD NORMALNY (Gaussa) DEFINICJA: Cia̧gÃla zmienna losowa X, której funkcja gȩstości prawdopodobieństwa ma nastȩpuja̧ca̧ postać: f (X) = p21 B exp( (X A)2 ) 2B 2 nazywa siȩ zmienna̧ o rozkÃladzie normalnym N (A, B). B.Kamys: Fiz. Komp. 2003/04 17 WÃlasności rozkÃladu normalnego f (X) ≡ N (A, B): Wartość oczekiwana: E(X) = A Odchylenie standardowe: σ(X) = B Sta̧d Ãlatwo widać, że N (A, B) ≡ N (E(X), σ(X)) Dystrybuanta rozkÃladu normalnego nie wyraża siȩ przez funkcje elementarne. Warto zapamiȩtać nastȩpuja̧ce wartości prawdopodobieństwa znalezienia zmiennej X w danym przedziale: P (E(X) − σ(X) ≤ X < E(X) + σ(X)) = 0.6827 P (E(X) − 2σ(X) ≤ X < E(X) + 2σ(X)) = 0.9545 P (E(X) − 3σ(X) ≤ X < E(X) + 3σ(X)) = 0.9973 Uwaga: Dowolna̧ zmienna̧ Y o rozkÃladzie normalnym można standaryzować tworza̧c wielkość Z o rozkÃladzie ’standardowym normalnym’ N (0, 1): Z = (Y − E(Y ))/σ(Y ). Standaryzacja jest ważna ze wzglȩdu na możliwość tablicowania zarówno funkcji gȩstości prawdopodobieństwa, jak i dystrybuanty rozkÃladu N (0, 1) a potem wykorzystania faktu, że maja̧c zmienna̧ X o rozkÃladzie N (0, 1) możemy stworzyć zmienna̧ Y o rozkÃladzie N (A, B) przez prosta̧ transformacjȩ: Y = B ∗ X + A . TWIERDZENIE (Centralne Twierdzenie Graniczne w wersji podanej przez Lapunowa): Niech X1 , X2 , ...Xn bȩdzie cia̧giem niezależnych zmiennych losowych których rozkÃlady posiadaja̧: • wartość oczekiwana̧ E(Xk ), • wariancjȩ var(Xk ), • trzeci moment centralny µ3 (Xk ), oraz B.Kamys: Fiz. Komp. 2003/04 18 • absolutny trzeci moment centralny tj. bk ≡ E(| Xk − E(Xk ) |3 ) dla k = 1, ..., n. Wówczas cia̧g dystrybuant standaryzowanych zmiennych losowych zdefiniowanych nastȩpuja̧co: Z= n X Xk − E(Xk ) k=1 qP n var(X ) i i=1 speÃlnia zależność: t2 1 ZZ dt · exp(− ) lim Fn (Z) = √ n!1 2 2π 1 jeżeli jest speÃlniony warunek: qP 3 lim q n!1 2 Pn n b k=1 k k=1 var(Xk ) =0 Centralne Twierdzenie Graniczne (Intuicyjne sformuÃlowanie) Zmienna Z bȩda̧ca standaryzowana̧ suma̧ niezależnych zmiennych losowych bedzie miaÃla standardowy rozkÃlad normalny gdy liczba skÃladników w sumie da̧ży do nieskończoności oraz w sumie nie wystȩpuja̧ zmienne o wariancjach dominuja̧cych w stosunku do reszty skÃladników. WÃlaśnie to twierdzenie powoduje, że rozkÃlad normalny jest wyróżnionym rozkÃladem bardzo czȩsto stosowanym w statystyce. B.Kamys: Fiz. Komp. 2003/04 7 19 PODSTAWY RACHUNKU BÃLȨDÓW Wynik pomiaru bez podania dokÃladności doświadczenia (bÃlȩdu) jest bezwartościowy. DEFINICJA: Pomiarem bezpośrednim nazywamy doświadczenie, w którym przy pomocy odpowiednich przyrza̧dow mierzymy (porównujemy z jednostka̧) interesuja̧ca̧ nas wielkość fizyczna̧. PrzykÃlad: • Pomiar dÃlugości przedmiotu przy pomocy linijki • Pomiar dÃlugości odcinka czasu przy pomocy zegara DEFINICJA: Pomiarem pośrednim nazywamy doświadczenie, w którym wyznaczamy wartość interesuja̧cej nas wielkości fizycznej przez pomiar innych wielkości fizycznych zwia̧zanych z dana̧ wielkościa̧ znanym zwia̧zkiem funkcyjnym. PrzykÃlad: • Pomiar oporu elektrycznego przewodnika: mierzymy spadek napiȩcia U na przewodniku i pra̧d I przez niego pÃlyna̧cy a opór R wyznaczamy z prawa Ohma: R = U/I. • Pomiar gȩstości stopu, z którego zbudowany jest prostopadÃlościan: mierzymy bezpośrednio dÃlugość krawȩdzi a, b i c prostopadÃlościanu i jego masȩ m a gȩstość wyznaczamy ze wzoru: ρ = m/(a · b · c). DEFINICJA: BÃlȩdem pomiaru e nazywamy różnicȩ pomiȩdzy wartościa̧ X uzyskana̧ w doświadczeniu a prawdziwa̧ (nieznana̧) wartościa̧ X0 danej wielkości: e = X − X0 BÃlȩdy dzielimy na grube, systematyczne i przypadkowe DEFINICJA: BÃlȩdy grube to bÃlȩdy, które pojawiaja̧ siȩ w wyniku pomyÃlki eksperymentatora (np. odczyt na niewÃlaściwej skali przyrza̧du) lub w wyniku niesprawności aparatury pomiarowej. Zwykle sa̧ one na tyle duże, że można je Ãlatwo zauważyć. B.Kamys: Fiz. Komp. 2003/04 20 Dla unikniȩcia tych bÃlȩdów należy starannie zorganizować proces pomiaru i używać do doświadczeń tylko wÃlaściwie wytestowanych przyrza̧dów. DEFINICJA: BÃlȩdy systematyczne to takie, które podczas wykonywania pomiaru systematycznie przesuwaja̧ wyniki pomiarów w jedna̧ stronȩ w stosunku do prawdziwej wartości. PrzykÃlad: Przy pomiarze oporu możemy zastosować dwa różne schematy podÃla̧czenia woltomierza i amperomierza: 1. Woltomierz podÃla̧czony równolegle do oporu a szeregowo do nich amperomierz. Wówczas spadek napiȩcia mierzony jest rzeczywiście na oporniku ale pra̧d mierzony przez amperomierz odpowiada nie samemu pra̧dowi pÃlyna̧cemu przez przewodnik lecz sumie pra̧dów - opornika i woltomierza. Systematycznie zawyżamy wartość pra̧du ’I’ co w przypadku gdy opór woltomierza nie jest wielokrotnie wiȩkszy od oporu przewodnika może prowadzić do znacza̧cego bÃlȩdu. 2. Woltomierz podÃla̧czony jest równolegle do ukÃladu szeregowo poÃla̧czonego opornika i amperomierza. Wówczas woltomierz mierzy spadek napiȩcia na przewodniku oraz na amperomierzu równocześnie. Systematycznie zawyżamy napiȩcie ’U’ co w przypadku gdy opór wewnȩtrzny amperomierza nie jest wielokrotnie mniejszy od oporu przewodnika może prowadzić do znacza̧cego bÃledu. BÃledy systematyczne sa̧ trudne do zauważenia i oszacowania. Dla ich unikniȩcia stosuje siȩ: • staranne przemyślenie metody pomiaru w poszukiwaniu możliwych źródeÃl bÃlȩdów systematycznych i rezygnacja z metod, które prowadza̧ do takich bÃlȩdów, • zmianȩ metody pomiaru np. opór w powyższym przykÃladzie można mierzyć metoda̧ mostka, która nie wprowadza takich systematycznych bÃlȩdów jak omówione najprostsze schematy pomiaru. Ważne staÃle fizyczne takie jak prȩdkość światÃla ’c’ byÃly wielokrotnie mierzone różnymi metodami, gÃlównie po to by upewnić siȩ, że unikniȩto bÃlȩdów systematycznych, • unikanie oczywistych źródeÃl bÃlȩdu jak np. ”bÃla̧d paralaksy”polegaja̧cy na odczytaniu skali nie patrza̧c na nia̧ z kierunku prostopadÃlego, • pomiary wzglȩdne polegaja̧ce na tym, że mierzymy równocześnie, ta̧ sama̧ metoda̧ dwie wielkości - jedna̧ dobrze znana̧ a druga̧ - tȩ, która̧ chcemy zmierzyć. Odnosza̧c wynik pomiaru nieznanej wielkości do wyniku pomiaru znanej wielkości zwykle możemy wyeliminować bÃlȩdy systematyczne. B.Kamys: Fiz. Komp. 2003/04 21 DEFINICJA: BÃlȩdy przypadkowe to bÃlȩdy, które zmieniaja̧ siȩ od pomiaru do pomiaru, powoduja̧c odchylenia od wartości prawdziwej zarówno w jedna̧ jak i druga̧ stronȩ. ZakÃlada siȩ, że spowodowane sa̧ one przez wiele niezależnych przyczyn o porównywalnym znaczeniu. Metody statystyki pozwalaja̧ na oszacowanie tego typu bÃlȩdów zarowno jakościowo jak i ilościowo. Nie mówia̧ jednak nic o bÃlȩdach systematycznych czy grubych. Dlatego dalsze rozważania bȩda̧ dotyczyÃly tylko bÃlȩdów przypadkowych. Jeżeli mamy do czynienia tylko z bÃlȩdami przypadkowymi wówczas sa̧ speÃlnione zaÃlożenia centralnego twierdzenia granicznego a wiȩc: RozkÃlad bÃlȩdu przypadkowego to rozkÃlad N (0, σ(e)). f (e) = 7.1 p21(e) 2 exp( 22e(e) ) ROZKÃLAD POMIARÓW OBARCZONYCH BÃLȨDAMI PRZYPADKOWYMI Wartość oczekiwana bÃlȩdu przypadkowego jest z definicji równa zero a rozrzut bÃlȩdów dokoÃla wartości oczekiwanej bÃlȩdu jest określony przez odchylenie standardowe σ(e). Wynik pomiaru X różni siȩ od bÃlȩdu e tylko przesuniȩciem skali wspóÃlrzȩdnych o X0 (wartość prawdziwa̧) a wiȩc rozkÃlad wartości mierzonej X jest rozkÃladem Gaussa N (X0 , σ(e)): f (X) = p21(e) exp( (X X0 )2 ). 2 2 (e) WAŻNE WNIOSKI: • Wartość prawdziwa mierzonej wielkości jest równa wartości oczekiwanej pomiarów (jeżeli sa̧ tylko bÃlȩdy przypadkowe). • Rozrzut pomiarów dokoÃla wartości prawdziwej jest określony przez odchylenie standardowe σ(e) rozkÃladu bÃlȩdów przypadkowych. • Miara̧ bÃlȩdu pojedynczego pomiaru jest odchylenie standardowe pomiarów. B.Kamys: Fiz. Komp. 2003/04 22 Z powyższych faktów wynika, że: szukanie prawdziwej wartości mierzonej wielkości i jej bÃlȩdu to estymacja wartości oczekiwanej i odchylenia standardowego pomiarów OD ’DOBREGO’ ESTYMATORA ŻA̧DAMY ABY: • speÃlniaÃl mocne prawo wielkich liczb lub byÃl zgodny • O ile to możliwe chcemy by byÃl: – Nieobcia̧żony, – Najbardziej efektywny. 7.2 ESTYMATOR WARTOŚCI OCZEKIWANEJ Jako estymator wartości oczekiwanej Tn (E(X)) przyjmuje siȩ średnia̧ arytmetyczna̧ niezależnych pomiarów wielkości X. Bȩdziemy ja̧ oznaczać przez X : Tn (E(X)) ≡ X = n1 Pn i=1 Xi Estymator ten posiada optymalne wÃlasności: 1. KoÃlmogorow pokazaÃl, że X speÃlnia mocne prawo wielkich liczb a wiȩc oczywiście jest zgodny, 2. Estymator X jest nieobcia̧żony. 1 E( n P P 1 1 i Xi ) = n i E(Xi ) = n (n.E(X)) = E(X) c.b.d.o. Tu wykorzystano fakt, że wszystkie wartości oczekiwane sa̧ równe E(Xi )=E(X). 3. Można pokazać, że X jest najbardziej efektywnym estymatorem E(X). TWIERDZENIE: (X ) Estymator X wartości oczekiwanej E(X) ma rozkÃlad normalny N (E(X), p n ) gdzie ’n’ jest liczba̧ pomiarów w próbie. B.Kamys: Fiz. Komp. 2003/04 23 WNIOSKI: 1. Odchylenie standardowe średniej arytmetycznej X jest odchylenia standardowego pojedynczego pomiaru. √ n - krotnie mniejsze od 2. Odchylenie standardowe σ(X) czyli bÃla̧d średni kwadratowy średniej arytmetycznej charakteryzuje dokÃladność wyznaczenia prawdziwej wartości X w danym konkretnym pomiarze skÃladaja̧cym siȩ z n niezależnych doświadczeń. X0 = X ± σ(X) 3. Aby charakteryzować dokÃladność metody pomiarowej wówczas jako miarȩ dokÃladności podajemy bÃla̧d pojedynczego pomiaru tj. σ(X) . 4. W granicach wyznaczonych przez σ(X) powinno leżeć 68.27% wszystkich pomiarów a nie wszystkie pomiary. 7.3 ESTYMATOR ODCHYLENIA STANDARDOWEGO (a) S(X) ≡ q n 1 1 Pn 2 i=1 (Xi − X) Jest to zgodny, asymptotycznie nieobcia̧żony estymator (b) s(X) ≡ q 1 n Pn 2 i=1 (Xi − X) Jest to zgodny, asymptotycznie nieobcia̧żony i najbardziej efektywny estymator (c) S(X) ≡ kn S(X) q Γ( n 1 ) gdzie kn = n 2 1 Γ( n2 ) 2 Jest to zgodny i nieobcia̧żony estymator σ(X). B.Kamys: Fiz. Komp. 2003/04 24 UWAGA: WspóÃlczynnik ”kn ”można zasta̧pić z niezÃlym przybliżeniem przez wstawienie do wzoru na S(X) zamiast 1/(n − 1) czynnika 1/(n − 1.45). Poniżej podajemy w tabelce przykÃladowe wartości wspóÃlczynnika kn dla różnych ’n’: n 3 4 5 6 7 10 15 20 25 50 kn 1.1284 1.0853 1.0640 1.0506 1.0423 1.0280 1.0181 1.0134 1.0104 1.0051 q n n 1 1:45 1.1359 1.0847 1.0615 1.0482 1.0397 1.0260 1.0165 1.0121 1.0095 1.0046 UWAGA: Najczȩściej używanym estymatorem odchylenia standardowego jest estymator S(X) 7.4 ZAPIS WYNIKÓW POMIARÓW Ponieważ z doświadczenia nie uzyskujemy prawdziwej wartości oczekiwanej E(X) oraz odchylenia standardowego σ(X) a tylko ich estymatory wiȩc nie podaje siȩ ich wartości z peÃlna̧ (uzyskana̧ z obliczeń) liczba̧ cyfr znacza̧cych. Stosuje siȩ nastȩpuja̧ca̧ konwencjȩ: • Pozostawia siȩ tylko dwie cyfry znacza̧ce estymatora bÃlȩdu a jeżeli zaokra̧glenie do jednej cyfry (zaokra̧glaja̧c zawsze do góry) nie zmieni wyniku wiȩcej niż o 10% to podaje siȩ tylko jedna̧ cyfrȩ. • Wynik pomiaru obliczamy o jedno miejsce dziesiȩtne dalej niż miejsce dziesiȩtne, na którym zaokra̧glono bÃla̧d, a nastȩpnie zaokra̧glamy wg normalnych reguÃl do tego samego miejsca dziesiȩtnego, do którego wyznaczono bÃla̧d. B.Kamys: Fiz. Komp. 2003/04 25 TWIERDZENIE: Jeżeli prawdopodobieństwo zrealizowania siȩ danego zdarzenia losowego w pojedynczym doświadczeniu jest równe p to liczba k zrealizowanych zdarzeń w N niezależnych doświadczeniach rza̧dzona jest rozkÃladem Bernoulliego (dwumianowym, binomialnym): P (k) = k!(NN ! k)! pk (1 − p)N k ; k = 0, 1, ..N L à atwo można pokazać, że E(k) = q N ·p σ(k) = N · p · (1 − p) W fizyce atomowej, ja̧der atomowych i cza̧stek elementarnych czȩsto zdarza siȩ sytuacja gdy N jest bardzo duże, p bardzo maÃle a wartość oczekiwana rejestrowanych zdarzeń E(k) ≡ N · p jest staÃla. np. N - liczba radioaktywnych ja̧der w badanej próbce, p - prawdopodobieństwo rozpadu pojedynczego radioaktywnego ja̧dra w jednostce czasu, k - liczba rejestrowanych rozpadów w jednostce czasu W takiej sytuacji rozkÃlad Bernoulliego przechodzi w rozkÃlad Poissona: k P (k) = k! exp(−λ) Wartość oczekiwana i odchylenie standardowe wyrażaja̧ siȩ wzorem: E(k) = √ λ σ(k) = λ Można pokazać, że dla dla N i rozkÃlad Poissona da̧ża̧ do q ⇒ ∞ rozkÃlad Bernoulliego √ rozkÃladu normalnego N (N.p, N.p.(1 − p)) i N (λ, λ) odpowiednio. B.Kamys: Fiz. Komp. 2003/04 7.5 26 BÃLA̧D STATYSTYCZNY Liczba rejestrowanych w danym okresie czasu zdarzeń k rza̧dzonych powyższymi prawami jest zmienna̧ losowa̧ a wiȩc ’prawdziwa’ liczba zdarzeń to E(k) a jej ’bÃla̧d’ to σ(k). Ten ’bÃla̧d’ nazywany jest bÃlȩdem statystycznym. ESTYMATOR prawdziwej liczby zdarzeń i bÃlȩdu statystycznego Jako estymator prawdziwej liczby zdarzeń przyjmuje siȩ liczbȩ k zarejestrowanych zdarzeń podczas pojedynczego pomiaru: Tn (E(k)) = k a jako estymator bÃlȩdu statystycznego: √ Tn (σ(k)) = k POZORNY PARADOKS: Im dÃlużej mierzymy tym bÃla̧d liczby zarejestrowanych zdarzeń jest wiȩkszy. WYTÃLUMACZENIE: Istotny jest statystyczny bÃla̧d wzglȩdny a nie bezwzglȩdny: (k) )= Tn ( E(k) p1k . NOMENKLATURA: Pomiar z maÃlym statystycznym bÃlȩdem wzglȩdnym to pomiar z DOBRA̧ STATYSTYKA̧ a z dużym to pomiar ze ZÃLA̧ STATYSTYKA̧. UWAGA: Zwykle interesuje nas liczba zdarzeń na jednostkȩ czasu a wiȩc k ma wymiar odwrotny do czasu. Należy zwracać uwagȩ, że bÃla̧d statystyczny ma identyczny wymiar jak liczba zdarzeń, tj. wymiar odwrotny do czasu mimo, że ilościowo jest pierwiastkiem z liczby zdarzeń. W praktyce do opisu rejestracji liczby zdarzeń stosujemy rozkÃlad Poissona. Interesuje nas jednak nie tylko odpowiedź na pytanie: Ile zdarzeń zachodzi w określonym czasie ? ale również odpowiedź na inne pytanie: Ile zachodzi zdarzeń DANEGO TYPU ? PRZYKÃLAD: Rejestrujemy produkty reakcji ja̧drowej. Chcemy wiedzieć nie tylko ile reakcji zachodzi ale także ile jest produktów posiadaja̧cych określona̧ energiȩ. B.Kamys: Fiz. Komp. 2003/04 27 PYTANIA: 1. Jakim rozkÃladem rza̧dzona jest liczba zdarzeń w każdym przedziale (’kanale’) energii? 2. Co by siȩ staÃlo gdybyśmy dodali liczby zdarzeń z kilku sa̧siednich kanaÃlów (dla poprawienia ’statystyki’ liczby zdarzeń) ? ODPOWIEDZI: ad 1 Liczba zdarzeń w każdym kanale jest rza̧dzona rozkÃladem Poissona ale każdy z tych rozkÃladów ma zwykle różny parametr λ. ad 2 Korzystaja̧c z poniższego twierdzenia: TWIERDZENIE RozkÃlad prawdopodobieństwa sumy skończonej liczby niezależnych skÃladników, z których każdy rza̧dzony jest rozkÃladem Poissona o parametrze λi jest również rozkÃladem P Poissona ale o nowym parametrze λ = λi . i stwierdzamy, że liczba zdarzeń w kilku wysumowanych kanaÃlach k = P i ki bȩdzie dalej rza̧dzona rozkÃladem Poissona z parametrem λ, którego estymator jest równy P Tn (E(k)) = ki . i 7.6 POMIARY POŚREDNIE Jeżeli w doświadczeniu mierzymy wielkości X1 , X2 , .., XN a nastȩpnie wyliczamy wartość funkcji Y = Y(X1 , X2 , .., XN ) to taka̧ procedurȩ nazywamy pomiarem pośrednim. 7.6.1 ESTYMATOR E(Y) POMIARU POŚREDNIEGO Y Estymatorem E(Y) jest wartość funkcji Y wyliczona dla argumentów, które sa̧ estymatorami X1 , X2 , ..XN tzn. dla średnich arytmetycznych X1 , X2 , ..., XN : Tn (E(Y(X1 , X2 , ..XN ))) = Y(X1 , X2 , ..., XN ) lub inaczej E(Y(X1 , X2 , ..XN )) ≈ Y(X1 , X2 , ..., XN ) B.Kamys: Fiz. Komp. 2003/04 7.6.2 28 BÃLA̧D POMIARU POŚREDNIEGO Przy zaÃlożeniu, że pomiary X1 , X2 , .., XN byÃly wykonywane niezależnie odpowiednio n1 , n2 , .., nN razy, bÃla̧d pomiaru pośredniego (bÃla̧d średni kwadratowy) oszacowuje siȩ nastȩpuja̧co: s σ(Y ) ≈ N P @Y )2 · σ 2 (X i ) ( @X i Xi =Xi i=1 UWAGA: 1. X1 , X2 , ..XN to różne wielkości a nie kolejne pomiary wielkości ”X”, 2. Pochodne liczone wzglȩdem ’Xi ’ to pochodne cza̧stkowe tzn. liczone przy zaÃlożeniu, że pozostaÃle zmienne ’Xj 6=i ’ sa̧ ustalone, 3. Zamiast wariancji zmiennej σ 2 (X i ) używa siȩ jej estymatora tzn. S 2 (X i ) ni - krotnie mniejszego od estymatora S 2 (Xi ). Jeżeli pomiary wielkości mierzonych bezpośrednio byÃly wykonywane jednokrotnie to nie możemy oszacować bÃlȩdu średniego kwadratowego wielkości mierzonych bezpośrednio (z rozrzutu pomiarów) ani nie możemy oszacować bÃlȩdu średniego kwadratowego wielkości mierzonych pośrednio. Wtedy szacujemy tylko bÃla̧d maksymalny !!! 7.6.3 BÃLA̧D MAKSYMALNY BÃla̧d maksymalny pomiaru pośredniego liczymy wg poniższego wzoru, tzn. metoda̧ różniczki zupeÃlnej. ∆(Y ) ≈ N P i=1 @Y | · ∆(X ) | @X i i Tu moduÃly pochodnych sa̧ wyliczane dla jednokrotnie zmierzonych wielkości Xi a symbol ∆(Xi ) oznacza maksymalny bÃla̧d tej wielkości mierzonej bezpośrednio. L à atwo można pokazać , że bÃla̧d obliczony metoda̧ różniczki zupeÃlnej jest nie mniejszy od bÃlȩdu średniego kwadratowego. W odróżnieniu od bÃlȩdu średniego kwadratowego szacowanego wzorami podanymi powyżej bÃla̧d maksymalny nie ma interpretacji statystycznej a wiȩc nie można go bezpośrednio wyrazić przez bÃla̧d średni kwadratowy. Niekiedy jednak stosuje siȩ przepis wyznaczaja̧cy go jako potrojona̧ wartość odchylenia standardowego (czyli bÃlȩdu średniego kwadratowego). Przepis ten wykorzystuje omówiona̧ wcześniej wÃlasność rozkÃladu Gaussa, B.Kamys: Fiz. Komp. 2003/04 29 że w granicy ±3 · σ dokoÃla wartości oczekiwanej leży 99,73 % wszystkich wartości zmiennej. Czȩsto interesuje nas zamiast bezwzglȩdnej wartości bÃlȩdu jego stosunek do wartości zmierzonej wielkości. Jest to tzw. bÃla̧d wzglȩdny. Warto pamiȩtać, że w szczególnym przypadku gdy szukana wielkość f(X,Y,Z) zależy od mierzonych bezpośrednio wielkości w poniższy sposób: f (X, Y, Z) = X a · Y b · Z c gdzie a,b i c to staÃle, Ãlatwiej jest wyliczyć bÃla̧d wzglȩdny niż bezwzglȩdny. W przypadku bÃlȩdu maksymalnego bÃla̧d wzglȩdny zÃlożonej wielkości ”f”jest nastȩpuja̧ca̧ kombinacja̧ liniowa̧ wzglȩdnych bÃlȩdów argumentów: ∆(f ) f X) ∆(Y ) ∆(Z ) =| a | · ∆( jX j + | b | · jY j + | c | · jZ j W przypadku bÃlȩdu średniego kwadratowego dostajemy analogiczny wzór: (f ) f = q a2 · ( (XX ) )2 + b2 · ( (YY ) )2 + c2 · ( (ZZ ) )2 Wzór ten czȩsto określa siȩ sformuÃlowaniem: ’wzglȩdne bÃlȩdy średnie kwadratowe dodaja̧ siȩ w kwadratach’. To sformuÃlowanie jest precyzyjne wtedy gdy wykÃladniki potȩg ’a’,’b’,’c’, ... sa̧ równe 1 (lub -1). B.Kamys: Fiz. Komp. 2003/04 8 30 ESTYMACJA PRZEDZIAÃLOWA Podstawy tej metody estymacji opracowaÃl polski statystyk Jerzy SpÃlawa-Neyman (w literaturze zachodniej cytowany zwykle jako Neyman). Idea̧ metody jest tworzenie takiego przedziaÃlu liczbowego, o którym można powiedzieć, że z zadanym prawdopodobieństwem zawiera w sobie (przekrywa) wartość szacowanego parametru. Prawdopodobieństwo to nazywa siȩ poziomem ufności i standardowo oznaczane jest symbolem 1 − α . W tych notatkach zamiennie używane jest oznaczenie 1 − α oraz γ. PrzedziaÃl nazywany jest przedziaÃlem ufności dla parametru θ jeżeli: ♦ prawdopodobieństwo P( T(1) ≤ θ ≤T(2) )=1-α, n n ♦ końce przedziaÃlu zależa̧ od wyników doświadczenia i od poziomu istotności a nie zależa̧ funkcyjnie od θ. UWAGA: • Poziom ufności 1 − α ≡ γ przyjmuje siȩ zwykle duży (np. 0,9) ale nie może być zbyt duży bo zwiȩkszanie poziomu ufności zwiȩksza dÃlugość przedziaÃlu ufności co powoduje, że tracona jest informacja o wartości oszacowanego parametru. • Poniższe rozważania sa̧ sÃluszne przy zaÃlożeniu, że wyniki pomiarów xi ,i=1,..n obarczone sa̧ tylko bÃlȩdami przypadkowymi a wiȩc rza̧dzone sa̧ rozkÃladem normalnym N (E{x}, σ{x}). B.Kamys: Fiz. Komp. 2003/04 8.1 31 ESTYMACJA E{X} GDY ZNAMY σ{X} Jako statystykȩ testowa̧ (zmienna̧ losowa̧ zależna̧ od wyniku doświadczenia) bierzemy zmienna̧ z zdefiniowana̧ poniżej: z≡ x̄ − E{x̄} ≡ σ{x̄} √ (x̄ − E{x}) n σ{x} Ponieważ średnia arytmetyczna “x̄” ma rozkÃlad normalny wiȩc zmienna z, która jest standaryzowana̧ średnia̧ arytmetyczna̧, ma standardowy rozkÃlad normalny N(0,1). Szukamy takiego przedziaÃlu [zmin , zmax ], że: • P (zmin ≤ z ≤ zmax ) = γ • przedziaÃl ten poÃlożony jest tam, gdzie gȩstość prawdopodobieństwa f (z) jest najwiȩksza. Ponieważ rozkÃlad standardowy normalny jest symetryczny dokoÃla zera i zero jest moda̧ rozkÃladu (funkcja gȩstości ma maksimum) to widać, że przedziaÃl [zmin , zmax ] powinien być poÃlożony symetrycznie dokoÃla z = 0: zmax = −zmin . Wiedza̧c, że funkcja gȩstości prawdopodobieństwa jest unormowana do jedności (pole pod caÃlym wykresem funkcji gȩstości jest równe jedności) oraz wiedza̧c, że pole pod tym wykresem dla z leża̧cego w przedziale [zmin , zmax ] wynosi γ a przedziaÃl leży symetrycznie dokoÃla z = 0 można brzegi przedziaÃlu wyrazić przez kwantyle zq rozkÃladu N (0, 1) : zmin = z 1 2 oraz zmax = z 1+ 2 Dodatkowo możemy skorzystać z faktu symetrii rozkÃladu N (0, 1) dokoÃla z = 0, który pozwala na wyrażenie obu kwantyli przez siebie: z1 2 = −z 1+ 2 Dziȩki temu w tablicach podawane sa̧ zwykle tylko kwantyle na dużym ( tj. na maÃlym ( tj. 1 2 ) poziomie. 1+ ) 2 lub Zamiast korzystać z tablic można oczywiście wyliczać numerycznie kwantyle rozkÃladu N (0, 1). Odpowiednie procedury dla liczenia kwantyli rozkÃladu standardowego normalnego a także innych podstawowych rozkÃladów statystyki, takich jak rozkÃlad chi-kwadrat, B.Kamys: Fiz. Komp. 2003/04 32 rozkÃlad Studenta czy też rozkÃlad Fishera-Snedecora można znaleźć np. w ksia̧żce S. Brandta, “Analiza danych” , PWN 1998. Definicyjny wzór na zmienna̧ z pokazuje, że zmienna z i średnia arytmetyczna zwia̧zane sa̧ monotoniczna̧ (liniowa̧) zależnościa̧ a wiȩc można jednoznacznie przedziaÃlowi [zmin , zmax ] przypisać przedziaÃl wartości zmiennej X̄ − E{X} = σ{X} √ z. n co po prostym przeksztaÃlceniu da przedziaÃl ufności na E{X}: à P (zmin ≤ z ≤ zmax ) ⇔ P σ{X} σ{X} X̄ − √ zmax ≤ E{X} ≤ X̄ − √ zmin n n ! Trzeba pamiȩtać, że wartość oczekiwana jest konkretna̧ liczba̧ a nie zmienna̧ losowa̧. Zmiennymi sa̧ końce przedziaÃlu bo sa̧ funkcjami średniej arytmetycznej pomiarów. Inaczej mówia̧c: Z prawdopodobieństwem γ przedziaÃl liczbowy wypisany . powyżej przykrywa soba̧ wartość oczekiwana̧ E{X}. Wyrażaja̧c zmin i zmax przez kwantyle standardowego rozkÃladu normalnego dostajemy przedziaÃl ufności dla wartości oczekiwanej E{X} na poziomie ufności γ: σ{X} σ{X} X̄ − √ U 1+ ≤ E{X} ≤ X̄ − √ U 1 2 2 n n lub σ{X} σ{X} X̄ − √ z 1+ ≤ E{X} ≤ X̄ + √ z 1+ 2 2 n n lub σ{X} σ{X} X̄ + √ z 1 ≤ E{X} ≤ X̄ − √ z 1 2 2 n n Sa̧ to trzy równoważne formy, przy czym najÃlatwiej chyba zapamiȩtać druga̧ z nich: σ{X} σ{X} X̄ − √ z 1+ ≤ E{X} ≤ X̄ + √ z 1+ 2 2 n n B.Kamys: Fiz. Komp. 2003/04 8.2 33 ESTYMACJA E{X} GDY NIE ZNAMY σ{X} Jako statystykȩ testowa̧ bierzemy zmienna̧ “t” zdefiniowana̧ poniżej: √ x̄ − E{x̄} (x̄ − E{x}) n t≡ ≡ S{x̄} S{x} gdzie statystyka v u u S{x̄} ≡ t 1 n X n(n − 1) i=1 (xi − x̄)2 jest znanym nam estymatorem odchylenia standardowego średniej arytmetycznej “x̄” a “n” oznacza liczbȩ pomiarów w próbie. Można pokazać, że zmienna t ma rozkÃlad Studenta o (n-1) stopniach swobody . Ponieważ rozkÃlad Studenta jest bardzo podobny do standardowego rozkÃladu normalnego wiȩc rozważania podane powyżej dla przypadku przedziaÃlu ufności dla E{X} gdy znane jest odchylenie standardowe pomiarów zachowuja̧ swa̧ prawdziwość i dla aktualnej sytuacji z tym, że kwantyle rozkÃladu normalnego musza̧ być zamienione przez odpowiednie kwantyle rozkÃladu Studenta a odchylenie standardowe zasta̧pione przez jego estymator: S{X} S{X} X̄ − √ t 1+ ≤ E{X} ≤ X̄ + √ t 1+ 2 2 n n Tu podana jest tylko jedna z trzech równoważnych postaci wzoru na przedziaÃl ufności ale oczywiście można również używać obu pozostaÃlych po odpowiednich modyfikacjach. UWAGA: Dla dużych prób (n > 20 ÷ 30) rozkÃlad Studenta upodabnia siȩ bardzo do rozkÃladu standardowego normalnego i dla wiȩkszości praktycznych zastosowań można posÃlugiwać siȩ kwantylami rozkÃladu N (0, 1). B.Kamys: Fiz. Komp. 2003/04 8.3 34 ESTYMACJA PRZEDZIAÃLOWA var(X) i σ(X) Jako statystykȩ bierzemy zmienna̧ Y zdefiniowana̧ nastȩpuja̧co: Y = (n − 1)S 2 (X) σ 2 (X) gdzie “n” to liczba pomiarów w próbie, σ 2 (X) to wariancja X a S 2 (X) to estymator wariancji zmiennej X: 1 2 S (X) = n X n − 1 i=1 (xi − x̄)2 Wielkość ta ma rozkÃlad chi-kwadrat o (n-1) stopniach swobody. Podobnie jak przy szukaniu przedziaÃlu ufności dla wartości oczekiwanej E{X} rozważa siȩ przedziaÃl najbardziej prawdopodobnych wartości zmiennej Y. Jednakże przedziaÃl ten nie jest symetryczny dokoÃla mody bo rozkÃlad chi-kwadrat nie jest symetryczny. Dla jednoznacznego określenia przedziaÃlu ufności zakÃlada siȩ, że prawdopodobieństwo odchylenia wartości Y poza wybrany przedziaÃl w stronȩ dużych wartości jest takie samo jak prawdopodobieństwo odchylenia w stronȩ odwrotna̧: 1−γ P (Y < Ymin ) = P (Y > Ymax ) = 2 ZaÃlożenie to pozwala jednoznacznie określić brzegi przedziaÃlu przez kwantyle rozkÃladu chi-kwadrat : Ymin = (χ2n 1) 1 2 i Ymax = (χ2n 1 ) 1+ 2 Kwantyle te nie sa̧ równe i musza̧ być oba wyliczone lub znalezione z tablic. Relacja pomiȩdzy estymowanym parametrem, tj. wariancja̧ i statystyka̧ Y jest monotoniczna̧ funkcja̧ : σ 2 (X) = (n − 1).S 2 (X) Y wiȩc prawdopodobieństwo trafienia statystyki do przedziaÃlu [Ymin , Ymax ] jest równe prawdopodobieństwu tego, że oszacowywana wariancja bȩdzie leżaÃla w przedziale: (n − 1).S 2 (X) Ymax ≤ σ 2 (X) ≤ (n − 1).S 2 (X) Ymin , co powoduje, że ostatecznie przedziaÃl ufności dla wariancji na poziomie ufności γ to : B.Kamys: Fiz. Komp. 2003/04 (n − 1).S 2 (X) (χ2n 1 ) 1+ 2 35 ≤ σ 2 (X) ≤ (n − 1).S 2 (X) (χ2n 1) 1 2 Estymacja przedziaÃlowa odchylenia standardowego σ(X) może być przeprowadzona przez pierwiastkowanie granic przedziaÃlu ufności dla wariancji. Ten przedziaÃl liczbowy bȩdzie przedziaÃlem ufności dla odchylenia standardowego na tym samym poziomie ufności γ ≡ 1 − α co startowy przedziaÃl ufności dla wariancji. Dzieje siȩ tak dlatego, że pierwiastkowanie - relacja miȩdzy wariancja̧ i odchyleniem standardowym - jest monotoniczna̧ funkcja̧. v u u (n − 1).S 2 (X) u ≤ σ(X) ≤ t 2 (χn 1 ) 1+ 2 v u u (n − 1).S 2 (X) u t 2 (χn 1) 1 2 B.Kamys: Fiz. Komp. 2003/04 9 36 METODY SZUKANIA ESTYMATORÓW Omówimy poniżej trzy najczȩściej stosowane ogólne metody poszukiwania estymatorów parametrów zapewniaja̧ce otrzymanie estymatorów o poża̧danych wÃlasnościach. Sa̧ to: • Metoda momentów • Metoda najwiȩkszej wiarygodności • Metoda najmniejszych kwadratów Każda z nich ma swoje zalety i wady. W ogólnym przypadku zalecana jest metoda najwiȩkszej wiarygodności ale w przypadku szukania parametrów regresji najbardziej popularna̧ jest metoda najmniejszych kwadratów. Z kolei metoda momentów może być bardzo wygodna w niektórych przypadkach przedyskutowanych poniżej. 9.1 METODA MOMENTÓW (“MM”) Metoda momentów zaproponowana zostaÃla przez K. Pearsona na przeÃlomie XIX i XX wieku. Idea metody : Szukamy estymatorów parametrów θ1; θ2;::: θk określaja̧cych caÃlkowicie dystrybuantȩ zmiennej losowej X postȩpuja̧c w poniższy sposób: • Znajdujemy zwia̧zki pomiȩdzy parametrami a momentami rozkÃladu. • Wyliczamy estymatory momentów Tn (mi (0)) ≡ Mi wg wzoru: Mi = n 1X n j =1 [xj ]i • Wstawiamy powyższe estymatory momentów do wzorów wia̧ża̧cych oszacowywane parametry z momentami. • Rozwia̧zujemy ukÃlad równań na parametry θ1; θ2;::: θk wyrażaja̧c je przez estymatory momentów Mi , i=1,..,k . Te rozwia̧zania sa̧ estymatorami odpowiednich parametrów T n (θ i ) , i=1,...,k , optymalnymi w sensie metody momentów. B.Kamys: Fiz. Komp. 2003/04 37 PRZYKÃLAD: Szukamy estymatorów parametrów θ1; (θ2 )2 rozkÃladu Gaussa: 1 f (x) = q exp{− 2πθ22 (x − θ1 )2 2θ22 } Znamy zwia̧zki pomiȩdzy parametrami i momentami rozkÃladu: θ1 =E{x} ≡ m1 (0) (θ2 ) = var{x} = E{x } − (E{x})2 ≡ m2 (0) − (m1 (0))2 2 2 Liczymy estymatory momentów: Tn (m1 (0)) ≡ M1 = Tn (m2 (0)) ≡ M2 = n 1X n i=1 n 1X xi x2 n i=1 i Z pierwszego równania po wstawieniu średniej arytmetycznej zamiast E{x} dostajemy: Tn (θ1 ) = n 1X n i=1 xi Z drugiego równania (zastȩpuja̧c momenty ich estymatorami) dostajemy: 1 Tn (θ22 ) n P µ 2 ¶2 n P 1 = n xi − n xi = i=1 i=1 n P = n1 x2i − 2x̄2 + x̄2 = 1 i=1 n P 1 i=1 n P µ n P ¶ µ n P ¶ = n x2i − 2x̄. n1 xi + n1 x̄2 = i=1 ³ i=1 ´ i=1 n 1 P 2 2 = n xi − 2x̄.xi + x̄ = = n (xi − x̄) i=1 2 B.Kamys: Fiz. Komp. 2003/04 38 (w drugim wierszu dodany i odjȩty kwadrat średniej arytmetycznej, w trzecim kwadrat średniej zapisany jako n-ta czȩść sumy kwadratów średniej a dalej to tylko zwijanie kwadratu różnicy). Otrzymujemy wiȩc znany nam estymator s2 (x) jako najlepszy w sensie metody momentów estymator wariancji θ22 : Tn (θ22 ) = n 1X n i=1 (xi − x̄)2 ≡ s2 (x) WÃlasności estymatorów metody momentów : Estymatory sa̧: • asymptotycznie nieobcia̧żone (lub nieobcia̧żone) • zgodne Wady metody momentów: • UkÃlad równań na estymatory parametrów θ jest zwykle nieliniowy co powoduje, że musimy znajdować rozwia̧zania numerycznie i dodatkowo utrudnia oszacowanie bÃlȩdów estymatorów. • Estymatory metody momentów sa̧ zwykle mniej efektywne (tzn. maja̧ wiȩksza̧ wariancjȩ) niż estymatory znalezione innymi metodami a w szczególności metoda̧ najwiȩkszej wiarygodności. • Wyznaczanie wyższych momentów z doświadczenia jest maÃlo dokÃladne co rzutuje na dokÃladność estymatorów parametrów. Optymalna sytuacja dla metody momentów: Zachodzi ona wtedy, gdy szukane parametry wystȩpuja̧ jako wspóÃlczynniki rozwiniȩcia funkcji gȩstości prawdopodobieństwa na ortonormalny zespóÃl funkcji gk (x), k = 1, .., r: ~ = const + f (x, θ) r X k=1 θk gk (x) B.Kamys: Fiz. Komp. 2003/04 39 gdzie “const” jest staÃla̧ normalizacyjna̧ a funkcje gk speÃlniaja̧ relacje: Z Z dx gk (x) gj (x) = δkj oraz dx gk (x) = 0. Wtedy możemy napisać nastȩpuja̧co wzór na wartość oczekiwana̧ funkcji gj (x): E{gj (x)} = = = R R ~ = dx gj (x) f (x, θ) dx const gj (x) + 0 + r P k=1 R θk dx gk (x) gj (x) = θj Wynika sta̧d, że szukanie estymatora parametru θj sprowadza siȩ do znalezienia estymatora wartości oczekiwanej funkcji gj (x). Zgodnie z zasada̧ metody momentów estymatorem tym jest średnia arytmetyczna: Tn (θj ) = n 1X n i=1 gj (xi ) Wiemy, że średnia arytmetyczna jest zgodnym i nieobcia̧żonym estymatorem. Co wiȩcej, wiemy z centralnego twierdzenia granicznego , że asymptotyczny rozkÃlad takiej zmiennej jest rozkÃladem normalnym a wiȩc znamy również przepis na estymator wariancji tego estymatora. Takim nieobcia̧żonym i zgodnym estymatorem jest S 2 (x̄), gdzie zamiast “xi ” bierzemy funkcjȩ gj (xi ) a zamiast x̄ bierzemy estymator Tn (θj ): 2 S (Tn (θj )) = 1 n X n(n − 1) i=1 [gj (xi ) − T n (θj )]2 B.Kamys: Fiz. Komp. 2003/04 9.2 40 METODA NAJWIȨKSZEJ WIARYGODNOŚCI (“MNW”) Metoda najwiȩkszej wiarygodności zaproponowana zostaÃla przez R.A. Fishera w 1921 roku. Idea metody: Zawiera siȩ w zaÃlożeniu, że zaobserwowane w próbie wyniki sa̧ najbardziej prawdopodobne spośród wszystkich możliwych. • Szukamy prawdopodobieństwa tego, że próba bȩdzie taka jaka̧ zaobserwowaliśmy ~ przyjmuja̧ konkretna̧ wartość θ ~0 . jeżeli parametry θ Jeżeli próba jest prosta, tzn. pomiary xi , i = 1, .., n sa̧ niezależne to szukane prawdopodobieństwo próby równe jest iloczynowi prawdopodobieństw warunkowych poszczególnych pomiarów. Dla zmiennej cia̧gÃlej X możemy opuścić iloczyn różniczek dx1 ...dxn i zapisać jedynie iloczyn gȩstości prawdopodobieństw: ~0 ) = L(θ n Y i=1 ¯ ¯ ~0 ) . f (xi ¯θ To prawdopodobieństwo (dla zmiennej dyskretnej) lub gȩstość prawdopodobieństwa (dla zmiennej cia̧gÃlej) możemy potraktować jako funkcjȩ szukanych parametrów. Funkcjȩ tȩ nazywamy funkcja̧ wiarygodności. ~ , która zapewnia maksimum funkcji wiary• Znajdujemy taka̧ wartość parametrów θ godności: ~ = max . L(θ) Te dwa warunki sÃluża̧ jako przepis na szukanie optymalnych w sensie metody najwiȩkszej wiarygodności estymatorów. Ponieważ szukanie maksimum funkcji wiarygodności wymaga zwykle różniczkowania po parametrach wiȩc bȩdziemy mieć do czynienia z różniczkowaniem iloczynu co prowadzi do dość skomplikowanych rachunków. Aby uÃlatwić różniczkowanie standardowo zamienia siȩ funkcjȩ wiarygodności przez jej logarytm co powoduje, że zamiast różniczkowania iloczynu należy różniczkować sumȩ a poÃlożenie maksimum w przestrzeni parametrów jest takie samo gdyż logarytm jest funkcja̧ monotoniczna̧ oraz ³ ∂ ln(L) ∂θi ≡ @L @i L ´ ma taki sam znak jak ∂L ∂θi (L jest wiȩksze od zera ). Logarytm z funkcji wiarygodności oznaczany jest zwykle przez maÃla̧ literȩ l. B.Kamys: Fiz. Komp. 2003/04 41 l ≡ ln(L) (chociaż stosuje siȩ również oznaczenie przez duże L) i nazywany jest “logarytmiczna̧ funkcja̧ wiarygodności” a czasem również “funkcja̧ wiarygodności”. PRZYKÃLAD: Dla rozkÃladu normalnego N (θ1 ,θ2 ) : ( 1 f (x) = √ exp − 2π θ2 (x − θ1 )2 ) 2θ22 wiȩc funkcja wiarygodności: L(θ1 , θ2 ) = ( 1 n (2π) 2 θ2n exp − n 1 X 2θ22 i=1 ) (xi − θ1 )2 a logarytmiczna funkcja wiarygodności: n 1 X 1 l = −n ln((2π) 2 ) − n ln(θ2 ) − 2θ22 i=1 (xi −θ1 )2 Różniczkuja̧c po parametrach dostajemy ukÃlad równań na parametry: n 1 P @l (xi − θ1 ) = 0 @1 = 2 2 i=1 n @l n 1 P (xi − θ1 )2 = 0 @ = − + 3 2 2 2 i=1 Rozwia̧zanie pierwszego równania daje estymator Tn (θ1 ): Tn (θ1 ) = n 1X n i=1 xi czyli średnia̧ arytmetyczna̧ x̄, a przeksztaÃlcaja̧c drugie równanie można napisać tak: n= n 1 X θ22 i=1 (xi − Tn (θ1 )2 czyli Tn (θ22 ) = n 1X n i=1 (xi − x̄)2 B.Kamys: Fiz. Komp. 2003/04 42 a to jest znany nam estymator wariancji zmiennej x oznaczany symbolem s2 (x). Jak widać metoda najwiȩkszej wiarygodności daÃla w tym przypadku dokÃladnie te same estymatory co metoda momentów. Zanim podamy wÃlasności estymatorów MNW wprowadzimy definicjȩ rozkÃladu regularnego i estymatorów regularnych. Mówimy, że rozkÃlad f (X, θ) jest rozkÃladem regularnym gdy caÃlkowanie wzglȩdem x i różniczkowanie wzglȩdem θ sa̧ przemienne i istnieja̧ wyrażenia: +1 @ R dx f (x|θ) = @ 1 1 dx f (x|θ) 1n o ≡ E @ ln f (xj) ≡ +R 1 @f (xj) dx @ 1 @ ln f (xj) +R @ @ oraz +1 +1 @ 2 R dx f (x|θ) = R dx @ 2 f (xj) 2 @ 1 @2 1 i2 h 1 +R1 f (xj) ≡ dx f (x|θ) @ ln@f (xj) + dx f (x|θ) @ ln @ 1n 1 ¾ ½ i2 o h ≡ E @ ln f (xj) + E @ ln f (xj) ≡ +R 2 2 2 @2 @ Estymator parametru θ rozkÃladu regularnego nazywamy estymatorem regularnym. Gdy zmienna X jest dyskretna to w powyższych wzorach należy funkcje gȩstości prawdopodobieństwa zasta̧pić prawdopodobieństwem i caÃlki sumami. UWAGA: Ze wzglȩdu na warunek normalizacji gȩstości prawdopodobieństwa 1 dx f (x|θ) 1 +R = 1 oba wyrażenia wypisane w definicji rozkÃladu regularnego sa̧ równe zero. TWIERDZENIE Jeżeli funkcja gȩstości prawdopodobieństwa f (X|θ) (lub rozkÃlad prawdopodobieństwa p(X|θ) ) sa̧ rozkÃladami regularnymi i parametr θ jest szacowany na podstawie próby prostej to estymator Tn (θ) otrzymany przy pomocy MNW ma dla rozmiarów próby “n” da̧ża̧cych do nieskończoności nastȩpuja̧ce wÃlasności: • jest zgodny • jego asymptotyczny rozkÃlad jest normalny B.Kamys: Fiz. Komp. 2003/04 43 – z wartościa̧ oczekiwana̧ E{Tn (θ)}=θ " 2 – i wariancja̧ σ (Tn (θ))=− n 1 ³ @ ln f (X j) ´2 @ 1 +R # 1 f (X|θ) dX Można pokazać (jest to treścia̧ tzw. nierówności Cramera-Rao), że wyrażenie powyższe jest dolna̧ granica̧ wariancji dla nieobcia̧żonego estymatora regularnego a wiȩc MNW daje estymatory: - zgodne, - asymptotycznie nieobcia̧żone, - asymptotycznie najbardziej efektywne Dla skończonych rozmiarów próby i regularnych rozkÃladów MNW daje estymatory zgodne ale moga̧ być one obcia̧żone i moga̧ nie być najbardziej efektywne. O ich efektywności można wnioskować na podstawie twierdzenia Cramera-Rao zwanego również nierównościa̧ informacyjna̧: TWIERDZENIE Cramera-Rao: Wariancja regularnego estymatora Tn (θ) speÃlnia nierówność 1 ) !2 + Z 1à ∂B(θ) ∂ ln f (X|θ) f (X|θ) dX 1+ n ( σ 2 (Tn (θ)) ≥ ∂θ 1 ∂θ gdzie B(θ) ≡ E{Tn (θ)} − θ jest obcia̧żeniem estymatora. Wyrażenie w nawiasie kwadratowym nazywane jest informacja̧ o parametrze θ zawarta̧ w próbie (R.A. Fisher) - sta̧d nazwa nierówności. Wyrażenie to zostaÃlo tak nazwane gdyż posiada wÃlasności, których wymagamy od informacji: • zwiȩksza siȩ wraz z liczba̧ obserwacji, • zależy od tego czego chcemy siȩ dowiedzieć (od parametru θ i jego zwia̧zku z mierzonymi wielkościami), • zwia̧zana jest z dokÃladnościa̧ (im wiȩksza informacja tym lepsza dokÃladność określenia wartości parametru) B.Kamys: Fiz. Komp. 2003/04 44 TWIERDZENIE Minimalna̧ wariancjȩ estymatora regularnego (równość w twierdzeniu Cramera-Rao) Tn (τ (θ)) pewnej funkcji τ (θ) interesuja̧cego nas parametru θ : ´¯ ¯³ ¯ @ () ¯ ¯ ¯ σ 2 (Tn (τ (θ)) = ¯¯ @ ¯¯ ¯ F (θ) ¯ uzyskuje siȩ dla skończonych rozmiarów próby “n” wtedy gdy pochodna cza̧stkowa funkcji wiarygodności speÃlnia nastȩpuja̧ca̧ relacjȩ: ∂ ln L ∂θ = F (θ) ( Tn (τ (θ)) − τ (θ)) gdzie F(θ) jest pewna̧ funkcja̧ parametru θ ale nie zależy od pomiarów ~ x. ° Funkcja wiarygodności ma wtedy nastȩpuja̧ca̧ postać: L(~ x|θ ) = exp { A(θ) B(~ x) + C(~ x) + D(θ) } gdzie “A” i “D” sa̧ funkcjami θ (A jest caÃlka̧ po dθ z F (θ) ) a “B” i “C” sa̧ funkcjami zespoÃlu pomiarów (próby). Porównuja̧c wzór na wariancjȩ estymatora Tn (τ (θ)) z nierównościa̧ Cramera-Rao widać natychmiast, że: • F (θ) to informacja z próby o funkcji τ (θ), • gdy τ (θ)=θ to wariancja wynosi 1/F (θ), • istnieje tylko jedna funkcja parametru θ , dla której osia̧gana jest minimalna wariancja estymatora określona nierównościa̧ Cramera-Rao czyli taka funkcja Tn (τ (θ)) od której liniowo zależy pochodna po parametrze θ z logarytmicznej funkcji wiarygodności. PRZYKÃLAD: Jeżeli parametrem θ jest odchylenie standardowe rozkÃladu normalnego σ(x) to tylko estymator wariancji σ 2 (x) , tzn. estymator s2 (x) ma minimalna̧ wariancjȩ a estymator s(x) już tej wÃlasności nie posiada. Widać to ze wzoru wyprowadzonego w przykÃladzie zastosowania MNW: ∂l ∂θ2 =− n θ2 + n 1 X θ23 i=1 (xi − θ1 )2 = 0 n P (xi − θ1 )2 a nie z Pochodna po θ2 jest liniowo zwia̧zana z funkcja̧ s2 (x) ≡ n1 i=1 estymatorem odchylenia standardowego s(x), który jest pierwiastkiem z tego wyrażenia. B.Kamys: Fiz. Komp. 2003/04 9.3 45 METODA NAJMNIEJSZYCH KWADRATÓW (“MNK”) Za autora metody najmniejszych kwadratów uważa siȩ K. Gaussa. Idea metody: Szukamy estymatora Tn (θ) parametru θ wystȩpuja̧cego we wzorze: g(Y, θ) = 0, który może być ściśle speÃlniony tylko w wyidealizowanym przypadku, gdy mierzone doświadczalnie wielkosci Yi nie sa̧ obarczone bÃlȩdami. W obecności bÃlȩdów tak dobieramy parametr θ (może być ich wiȩcej) aby funkcja “g” zbliżyÃla siȩ do zera tak bardzo jak to tylko jest możliwe, tj. ża̧damy speÃlnienia warunku: n X i=1 [g(Yi , θ)]2 = min a w najogólniejszym przypadku (wÃla̧czaja̧c wagi pomiarów “w i ”) warunku: n X i=1 wi · [g(Yi , θ)]2 = min . PRZYKÃLAD: Szukamy prawdziwej wartości wielkości Y mierzonej bezpośrednio. Gdyby nie byÃlo blȩdów wówczas: θ=Y albo inaczej g(Y |θ) ≡ Y − θ = 0. W obecności bÃlȩdów,funkcja g(Y |θ) bȩdzie zwykle różna od zera ale MNK podaje przepis jak znaleźć estymator Tn (θ): n X i=1 [g(Yi |θ)]2 ≡ n X i=1 [Yi − θ]2 = min Aby znaleźć minimum powyższej funkcji ze wzglȩdu na θ należy przyrównać do zera pochodna̧ tej funkcji wzglȩdem θ: −2 n X i=1 [Yi − θ] = 0 a wiȩc dostajemy znany nam przepis na estymator wartości oczekiwanej: B.Kamys: Fiz. Komp. 2003/04 46 Tn (θ) = n 1 X n i=1 Yi WÃlasności estymatorów MNK Estymatory otrzymane MNK nie maja̧ w ogólnym przypadku optymalnych wÃlasności (nawet asymptotycznie)! Istnieja̧ jednak dwa ważne wyja̧tki od tej reguÃly: 1.) Pomiary Yi maja̧ rozkÃlad normalny i sa̧ nieskorelowane, 2.) Szukane parametry sa̧ wspóÃlczynnikami w liniowej funkcji regresji. ad 1. Pomiary maja̧ rozkÃlad normalny i sa̧ nieskorelowane Odpowiada to sytuacji, w której zmienna Y może być przedstawiona nastȩpuja̧co: ~ +ε Yi = h(Xi , θ) gdzie ε to bÃla̧d przypadkowy. Wtedy funkcja wiarygodności ma nastȩpuja̧ca̧ postać: ~ = L(Y1 , .., Yn |θ) n Y ³ 1 √ exp − i=1 2πσi ´2 ~ Yi − h(Xi , θ) 2σi2 a logarytmiczna funkcja wiarygodności: 1 ³ ´ n X ~ = − n ln 2πσ 2 − l(Y1 , .., Yn |θ) i 2 i=1 ³ ´2 ~ Yi − h(Xi , θ) 2σi2 Funkcja ta bȩdzie miaÃla maksimum (ujemne !) gdy suma kwadratów bȩdzie najmniejsza. A wiȩc metoda najmniejszych kwadratów jest wtedy równoważna metodzie najwiȩkszej wiarygodności, która zapewnia optymalnośc otrzymywanych estymatorów. ad 2. Funkcja regresji jest liniowa ze wzglȩdu na szukane parametry Zmienna Y zależy wtedy od zmiennej X w nastȩpuja̧cy sposób: Yi = k X j =1 θj · fj (Xi ) B.Kamys: Fiz. Komp. 2003/04 47 gdzie fj (X) jest dowolna̧ funkcja̧. Markow udowodniÃl , że w takiej sytuacji estymatory parametrów posiadaja̧ bardzo dobre wÃlasności: • sa̧ nieobcia̧żone • sa̧ najbardziej efektywne • sa̧ liniowymi funkcjami pomiarów Y1 , ..., Yn . Te wÃlasności nie zależa̧ od rozkÃladu zmiennej Y i speÃlnione sa̧ nawet dla niewielkich prób. Linowy (ze wzglȩdu na parametry) model funkcji regresji jest bardzo czȩsto stosowany w praktyce, ponieważ obok optymalnych wÃlasności estymatorów parametrów zapewnia możliwość ścisÃlego rozwia̧zania równań określaja̧cych estymatory parametrów a wiȩc możliwość znalezienia jawnych wzorów na estymatory. Tego prawie nigdy nie da siȩ zrobić w przypadku pierwszym, tzn. gdy zależność od parametrów jest nieliniowa. Zapiszemy warunek metody najmniejszych kwadratów macierzowo stosuja̧c nastȩpuja̧ce oznaczenia: Aij ≡ fj (xi ) i = 1, .., n j = 1, .., r Bij i = 1, .., n j = 1, .., n Yi i = 1, .., n θi i = 1, .., r gdzie Aij to macierz wartości funkcji fj (xi ), Bi;j to macierz wag zwykle brana jako odwrócona macierz kowariancji pomiarów {cov(yi ,yj )} 1 , Yi - wektor pomiarów, θi wektor parametrów. Wtedy minimalizowana suma kwadratów może być zapisana w taki sposób: ~ T · B · (Y ~ ~ − A · θ) ~ − A · θ) Q2 = ( Y a pochodne wzglȩdem parametrów nastȩpuja̧co (i=1,...,r): ∂Q2 ∂θi n ~ ~ − A · θ) = −2AT · B · (Y o i = 0· ZespóÃl r powyższych równań można zapisać macierzowo i rozwia̧zać formalnie: ~ =0 ~ − A · θ) AT · B · (Y T T ~ ~ =A ·B·A·θ A ·B·Y a mnoża̧c lewostronnie przez macierz odwrotna̧ do AT BA, dostaniemy estymatory parametrów liniowej funkcji regresji : h ~ = AT · B · A Tn (θ) i 1 ~ AT · B · Y B.Kamys: Fiz. Komp. 2003/04 48 Jest to dokÃladne i jedyne rozwia̧zanie (pod warunkiem, że macierz AT BA jest nieosobliwa) Z powyższego wzoru widać, że estymatory parametrów sa̧ liniowymi funkcjami wartości pomiarów Y1 , ..., Yn co pozwala ściśle wyrazić macierz kowariancji estymatorów parametrów ~ ) stosuja̧c wzór wyprowad(a wiȩc i ich bÃlȩdy) przez macierz kowariancji pomiarów C(Y zony dla “propagacji bÃlȩdów”. Gdy przyjmiemy macierz wag B jako macierz odwrotna̧ do ~ ) to uzyskamy wyja̧tkowo prosta̧ formȩ macierzy kowariancji estymatorów parametrów. C(Y ~ C(Tn (θ)) = = = = = = ½h ½h AT BA i 1 AT B AT BA i 1 AT B h i 1 h i 1 AT BA AT BA ³h AT BA h ¾ ~)· · C(Y ¾ ·B AT · BB 1 1 · ½h AT BA ½h AT BA · BT A · AT BA · i 1 µh AT BA i µh h i 1 iT AT BA AT B AT B ¾T ¾T i 1 ¶T ¶ 1 i´ 1 ~) AT C(Y 1 A i 1 Ostatecznie macierz kowariancji estymatorów parametrów : h ~ = AT C(Y ~) C(Tn (θ)) 1 A i 1 Warto zauważyć, że • Ten wynik jest ścisÃly • Powyższa macierz jest wyliczana dla znalezienia estymatorów parametrów bo to jest macierz {AT BA} 1 wystȩpuja̧ca we wzorze na estymatory. • Mimo, że wzór jest ścisÃly i prosty to jego wyliczenie czȩsto napotyka na trudności numeryczne gdyż procedura odwracania macierzy {AT BA} 1 jest źle uwarunkowana numerycznie (maÃle zaokra̧glenia rachunków moga̧ powodować wielkie zmiany wyników). Dlatego nieco później omówimy metodȩ pozwalaja̧ca̧ na unikniȩcie tego problemu przez zastosowanie wielomianów ortogonalnych na zbiorze punktów. B.Kamys: Fiz. Komp. 2003/04 10 49 WIELOWYMIAROWE (WEKTOROWE) ZMIENNE LOSOWE Wielowymiarowa zmienna losowa definiowana jest analogicznie jak jednowymiarowa (skalarna), tzn. można ja̧ traktować jako wektor, którego skÃladowe sa̧ jednowymiarowymi zmiennymi losowymi. Dystrybuanta : F (x1 , .., xN ) = P (X1 < x1 , ..., XN < xN ) Funkcja gȩstości prawdopodobieństwa: f (x1 , ..., xN ).dx1 ...dxN = P (x1 ≤ X1 < x1 + dx1 , ..., xN ≤ XN < xN + dxN ) Oprócz funkcji gȩstości prawdopodobieństwa dla caÃlego wektora losowego (X1 , .., XN ) można zdefiniować jeszcze : • RozkÃlad brzegowy gȩstości prawdopodobieństwa i • RozkÃlad warunkowy gȩstości prawdopodobieństwa. Brzegowy rozkÃlad gȩstości prawdopodobieństwa zmiennej Xi ( i – tej skÃladowej wektora losowego) to wynik wycaÃlkowania funkcji gȩstości prawdopodobieństwa dla caÃlej wielowymiarowej zmiennej po wszystkich skÃladowych z wyja̧tkiem Xi : Z g(Xi ) = dx1 ..dxi 1 .dxi+1 ...dxN .f (x1 , ..., xN ) Oczywiście można stworzyć rozkÃlady brzegowe dla dwuwymiarowych zmiennych (jeżeli N > 2) caÃlkuja̧c po wszystkich zmiennych z wyja̧tkiem tych dwu wybranych,rozkÃlad brzegowy dla trzywymiarowych (jeżeli N > 3) caÃlkuja̧c po wszystkich z wyja̧tkiem tych trzech zmiennych, itd. . B.Kamys: Fiz. Komp. 2003/04 50 RozkÃlad warunkowy “fw ” zmiennych (X1 , .., Xi ) pod warunkiem, że zmienne (Xi+1 , .., XN ) przyjmuja̧ wartość w nieskończenie maÃlym przedziale (xi+1 ≤ Xi+1 < xi+1 , .., xN ≤ XN < xN ) definiowany jest nastȩpuja̧co: fw (x1 , .., xi |xi+1 , .., xN ) = f (x1 , .., xN ) fb (xi+1 , .., xN ) RozkÃlad ten nie jest określony, gdy rozkÃlad brzegowy wystȩpuja̧cy w mianowniku zeruje siȩ. Wskaźniki “w” i “b” zostaÃly użyte w tym wzorze aby podkreślić, że postać funkcyjna tych rozkÃladów jest w ogólności inna niż rozkÃladu f (x1 , .., xN ). RozkÃlad warunkowy można tworzyć dla różnych zespoÃlów skÃladowych wektora losowego, np. moglibyśmy zdefiniować rozkÃlad warunkowy pojedynczej zmiennej “XN ” pod warunkiem, że pozostaÃle zmienne przyjmuja̧ określone wartości. RozkÃlad prawdopodobieństwa wielowymiarowej dyskretnej zmiennej losowej jest oczywistym uogólnieniem rozkÃladu jednowymiarowego, a brzegowy rozkÃlad prawdopodobieństwa i warunkowy rozkÃlad prawdopodobieństwa tworzy siȩ tak jak ich odpowiedniki dla zmiennej cia̧gÃlej zastȩpuja̧c caÃlkowanie sumowaniem po wartościach odpowiednich skÃladowych. Warto również pamiȩtać, że można tworzyć brzegowa̧ dystrybuantȩ i warunkowa̧ dystrybuantȩ (zarówno dla zmiennej cia̧gÃlej jak i skokowej). Niezależne zmienne losowe to takie, że rozkÃlad warunkowy jednej zmiennej (może to być wielowymiarowa zmienna) pod warunkiem, że druga zmienna przyjmuje konkretne wartości (ta zmienna też może być wielowymiarowa) równy jest rozkÃladowi brzegowemu: fw (~ x1 |~ x 2 ) = f (~ x1 ) Warunkiem koniecznym i wystarczaja̧cym niezależności zmiennych losowych jest aby ich wspólna funkcja gȩstości prawdopodobieństwa (dla zmiennej cia̧gÃlej) lub ich wspólny rozkÃlad prawdopodobieństwa (dla zmiennej dyskretnej) faktoryzowaÃly siȩ tzn. f (x1 , ...xN ) = f1 (x1 ).f2 (x2 )....fN (xN ) B.Kamys: Fiz. Komp. 2003/04 51 PrzykÃlad dla 2-wymiarowej zmiennej losowej: Wspólna funkcja gȩstości prawdopodobieństwa X1 i X2 jest staÃla (wynosi 1/2) w kwadracie o wierzchoÃlkach {(-1,0),(0,1),(1,0) i (0,-1)} a zeruje siȩ poza kwadratem. RozkÃlad brzegowy X1 : 0 X +1 1 fb (X1 ) = −X 1 +1 0 dla dla dla dla X1 ≤ −1 −1 ≤ X1 ≤ 0 0 ≤ X1 ≤ +1 X1 ≥ +1 Jest to rozkÃlad trójka̧tny zwany “rozkÃladem Simpsona”. Można wyobrazić sobie pogla̧dowo, że w powyższym przykÃladzie liczenie rozkÃladu brzegowego jest równoważne “zsypywaniu” punktów jednorodnego rozkÃladu w kwadracie na oś X1 co powoduje, że rozkÃlad brzegowy ma ksztaÃlt trójka̧ta (w kwadracie zmiennych X1 , X2 najwiȩcej punktów ma wspóÃlrzȩdna̧ X1 bliska̧ zeru a ilość punktów z wiȩkszymi lub mniejszymi wartościami tej wspóÃlrzȩdnej maleje liniowo. RozkÃlad warunkowy X1 pod warunkiem X2 . fw (X1 |X2 ) = 1 2 fb (X2 ) Wzór ten ważny jest dla nastȩpuja̧cego przedziaÃlu zmiennej X1 : −X2 − 1 ≤ X1 ≤ +X2 + 1 gdy − 1 ≤ X2 ≤ 0 +X2 − 1 ≤ X1 ≤ −X2 + 1 gdy 0 ≤ X2 ≤ +1 Wyznaczanie rozkÃladu warunkowego fw (X1 |X2 ) można sobie wyobrazić jako ogla̧danie (patrza̧c wzdÃluż osi X2 ) przekroju prostopadÃlościanu przy czym ze wzglȩdu na normalizacjȩ pole tego przekroju musi być równe jedności – sta̧d pojawia siȩ staÃla normalizacyjna 1/fb (X2 ) (różna dla różnych wartości X2 ). Ponieważ fw (X1 |X2 ) 6= fb (X1 ) to zmienne X1 i X2 sa̧ zależne ! B.Kamys: Fiz. Komp. 2003/04 10.1 52 MOMENTY ROZKÃLADU WIELOWYMIAROWEJ ZMIENNEJ LOSOWEJ Momentem wielowymiarowej zmiennej losowej X (X1 ,...,XN ) rzȩdu k1 +...+kN wzglȩdem punktu X0 (X01 ,...,X0N ) nazywamy wielkość zdefiniowana̧ wzorem: Z mk1 +:::+kN (X01 , ..., X0N ) = dX1 ...dXN .f (X1 , ..., XN ).(X 1 −X01 )k1 ...(XN −X0N )kN Ten wzór jest sÃluszny dla zmiennej cia̧gÃlej a dla dyskretnej trzeba caÃlkȩ zamienić na sumȩ i funkcjȩ gȩstości prawdopodobieństwa na rozkÃlad prawdopodobieństwa. Najważniejsze momenty dla celów analizy statystycznej danych to: Wartość oczekiwana czyli pierwszy moment wzglȩdem pocza̧tku ukÃladu wspóÃlrzȩdnych: ~ = (m10:::0 (0, .., 0), ..., m0:::01 (0, ..., 0)) E{X} czyli ~ = (E{X1 }, E{X2 }, ...E{XN }) E{X} Wariancja czyli drugi moment wzglȩdem wartości oczekiwanej: var{X1 } = m20:::0 (E{X1 }, ..., E{XN }) ............. var{XN } = m00:::2 (E{X1 }, ..., E{XN }) Kowariancja czyli drugi moment mieszany wzglȩdem wartości oczekiwanej: cov{X1 , X2 } = m1100::0 (E{X1 }, .., E{XN }), cov{X1 , X3 } = m1010::0 (E{X1 }, .., E{XN }), ..... B.Kamys: Fiz. Komp. 2003/04 53 Ponieważ wariancjȩ można uważać za kowariancjȩ policzona̧ dla dwukrotnie powtórzonej zmiennej: var{Xi } = cov{Xi , Xi } to wygodnie jest zgromadzić wariancje i kowariancje w jeden zespóÃl wielkości zwany macierza̧ kowariancji. Na gÃlównej przeka̧tnej macierzy znajduja̧ siȩ wariancje a poza przeka̧tna̧ kowariancje. Macierz kowariancji jest: rzeczywista, symetryczna i dodatnio określona. Można ja̧ wiȩc zawsze zdiagonalizować przez liniowa̧ transformacjȩ zmiennych pozostawiaja̧c jedynie wariancje na diagonali. Czȩsto zamiast macierzy kowariancji tworzy siȩ macierz korelacji. Macierz ta skÃlada siȩ ze wspóÃlczynników korelacji ρ(Xi ,Xj ) zdefiniowanych nastȩpuja̧co: cov{Xi , Xj } ρ(Xi , Xj ) = q var{Xi }.var{Xj } Oczywiście diagonalne elementy macierzy korelacji to jedynki a pozadiagonalne to odpowiednie wspóÃlczynniki korelacji. WÃlasności wspóÃlczynnika korelacji ° WspóÃlczynnik korelacji przyjmuje wartości z przedziaÃlu [-1,+1] ° Jeżeli zmienne sa̧ niezależne to wspóÃlczynnik korelacji jest równy zero. ° Gdy wspóÃlczynnik korelacji równy jest zero (mówimy wtedy, że zmienne sa̧ nieskorelowane) to zmienne sa̧ niezależne liniowo ale moga̧ być zależne i to nawet funkcyjnie. ° Jeżeli zmienne X i Y sa̧ zwia̧zane funkcyjnym zwia̧zkiem liniowym; Y= aX+b to wspóÃlczynnik korelacji jest równy jedności co do moduÃlu a jego znak jest taki sam jak znak wspóÃlczynnika kierunkowego prostej. ° Jeżeli moduÃl wspóÃlczynnika korelacji jest równy jedności to X i Y zwia̧zane sa̧ funkcyjnym zwia̧zkiem liniowym Y= aX+b a znak wspóÃlczynnika kierunkowego prostej jest taki sam jak znak wspóÃlczynnika korelacji. Estymator wspóÃlczynnika korelacji Tn (ρ(X, Y )) ≡,,r” (symbole x̄ i ȳ oznaczaja̧ średnie arytmetyczne pomiarów): n P (xi − x̄)(yi − ȳ) i=1 r ≡ Tn (ρ(X, Y )) = v ! uµ ¶Ã n n u P P 2 2 t (xi − x̄) (yj − ȳ) i=1 j =1 B.Kamys: Fiz. Komp. 2003/04 54 Interpretacja kwadratu estymatora ,,r2 ” Można pokazać, że kwadrat estymatora wspóÃlczynnika korelacji pokazuje na ile dobre jest przybliżenie liniowe zależności y(x) czyli jak dobra jest regresja drugiego rodzaju (patrz niżej). P (axi + b − ȳ)2 r2 = i P i (yi − ȳ)2 Wyrażenie w liczniku to tzw. wyjaśniona przez regresjȩ suma kwadratów a wyrażenie w mianowniku to caÃlkowita suma kwadratów. Jak widać im bliższy jedności jest kwadrat estymatora wspóÃlczynnika korelacji tym lepszym przybliżeniem zależności y(x) jest linia prosta. Zwykle uważa siȩ, że przybliżenie jest dobre gdy wartości r 2 sa̧ bliskie 0.9 ale w praktyce sami musimy zdecydować, czy odchylenia rzȩdu 10% sa̧ już zadowalaja̧co maÃle. Regresja̧ (lub regresja̧ pierwszego rodzaju ) zmiennej Y wzglȩdem X nazywamy warunkowa̧ wartość oczekiwana̧ E{Y |X} traktowana̧ jako funkcja zmiennej X. Oczywiście warunkowa̧ wartość oczekiwana̧ E{X|Y } nazywamy regresja̧ pierwszego rodzaju zmiennej X wzglȩdem Y. Podstawowa wÃlasność funkcji regresji E{Y |X}: polega na tym, że wartość oczekiwana kwadratu odchyleń zmiennej losowej Y od dowolnej funkcji u(X) jest minimalna, gdy jako tȩ funkcjȩ przyjmiemy funkcjȩ regresji E{Y |X}: n o n E (Y − u(X))2 ≥ E (Y − E{Y |X})2 Dowód: n o o R E (Y − u(X))2 = dX · dY · f (X, Y ) · (Y − u(X))2 R R = dX · f1 (X) dY · f2 (Y |X) · (Y − u(X))2 Wewnȩtrzna caÃlka jest wartościa̧ oczekiwana̧ kwadratu odchylenia zmiennej Y od pewnej staÃlej (u(X) jest staÃla̧ jeżeli idzie o caÃlkowanie wzglȩdem zmiennej Y). Możemy wiȩc zapisać tȩ caÃlkȩ nastȩpuja̧co (oznaczamy u(X) ≡ c): R dY · f2 (Y |X) · (Y − u(X))2 = = E{(Y − c)2 } = = E{(Y − E{Y } + E{Y } − c)2 = = E{(Y − E{Y })2 + 2(Y − E{Y })(E{Y } − c) + (E{Y } − c)2 } = = E{(Y − E{Y })2 } + 2E{Y − E{Y })(E{Y } − c) + E{(E{Y } − c)2 } = = E{(Y − E{Y })2 + 0 + E{(E{Y } − c)2 }. B.Kamys: Fiz. Komp. 2003/04 55 Drugi wyraz znikna̧Ãl bo E{Y-E{Y}} ≡ 0 a pozostaÃla suma wartości oczekiwanych z kwadratów (Y-E{Y})2 i (E{Y}-c)2 bȩdzie miaÃla minimum gdy E{Y } ≡ c tj. E{Y } = E{Y |X}. c.b.d.o. UWAGI: • W tym wyprowadzeniu oczywiście należy odczytywać E{Y} jako warunkowa̧ wartość oczekiwana̧, tj. E{Y|X} a staÃla̧ c jako dowolna̧ funkcjȩ u(X). • Metoda estymacji parametrów oparta na omówionej powyżej wÃlasności funkcji regresji nazywana jest metoda̧ najmniejszych kwadratów Regresja liniowa zwana również regresja̧ drugiego rodzaju to linia prosta przybliżaja̧ca zależność regresji E{Y|X} od X, przy czym parametry tej prostej dobiera siȩ tak aby byÃla speÃlniona podstawowa wÃlasność regresji tzn. aby wartość oczekiwana sumy kwadratów odchyleń wartości Y od linii prostej byÃla minimalna. W szczególnym przypadku dwuwymiarowego rozkÃladu normalnego funkcja regresji E{Y|X} jest linia̧ prosta̧ a wiȩc funkcja regresji drugiego rodzaju jest również funkcja̧ regresji pierwszego rodzaju. Regresja krzywoliniowa to funkcja nieliniowa argumentu X przybliżaja̧ca regresjȩ E{Y|X} przy czym parametry funkcji dobierane sa̧ metoda̧ najmniejszych kwadratów. W tym przypadku należy rozróżnić dwie sytuacje: • Parametry wchodza̧ liniowo do funkcji, np. przybliżenie E{Y|X} przez szereg wielomianów lub innych funkcji tworza̧cych ukÃlad zupeÃlny. Odpowiada to tzw. liniowej metodzie najmniejszych kwadratów i pozwala znaleźć wartości parametrów jako rozwia̧zania ukÃladu równań liniowych przy czym dla unikniȩcia niestabilności numerycznych zalecane jest stosowanie funkcji, które sa̧ ortogonalne na danym odcinku lub na zbiorze wartości zmiennej X. W szczególności można posÃlużyć siȩ wielomianami ortogonalnymi na zbiorze wartości zmiennej X. • Parametry wchodza̧ nieliniowo do formuÃl. Wtedy optymalne wartości parametrów sa̧ rozwia̧zaniami ukÃladu równań nieliniowych, które rozwia̧zuje siȩ różnymi sposobami. Jedna̧ z popularnych metod jest szukanie rozwia̧zań iteracyjnie znajduja̧c w kolejnych iteracjach poprawki do startowych parametrów w sposób analogiczny jak dla liniowego przypadku metody najmniejszych kwadratów. Osia̧ga siȩ to rozwijaja̧c nieliniowa̧ formuÃlȩ w szereg Taylora dokoÃla startowych wartości parametrów i obcina siȩ szereg na wyrazach liniowych. Dla zapewnienia zbieżności procedury iteracyjnej uzupeÃlnia siȩ tȩ metodȩ o szereg pragmatycznych reguÃl przyśpieszaja̧cych zbieżność i określaja̧cych kiedy należy przerwać poszukiwanie wartości parametrów. B.Kamys: Fiz. Komp. 2003/04 10.2 56 ESTYMACJA PUNKTOWA WARTOŚCI OCZEKIWANEJ ~ (X)} ~ ~ (X) ~ E{Y I MACIERZY KOWARIANCJI Y Estymator wartości oczekiwanej: ~ )} = Y ~ (Tn {E(X1 )}, Tn {E(X2 )}, ..Tn {E(Xn )}) Tn {E(Y Estymator macierzy kowariancji: Tn {cov(Yk , Yq )} = X à i;j ∂Yk ! à ∂Yq ! ∂Xi ~x=E (~x) ∂Xj ~x=E (~x) Tn {cov(Xi , Xj )} W powyższych wzorach wartości oczekiwane E{Xi } oraz cov{Xi ,Xj } sa̧ zastȩpowane swoimi estymatorami , tzn. odpowiednimi średnimi arytmetycznymi oraz esty~ matorem kowariancji wektora X: Tn (cov{Xi , Xj }) = 1 n X n − 1 k=1 ((Xi )k − X̄i )((Xj )k − X̄j ) Symbol (Xi )k oznacza ”k-ty”pomiar zmiennej Xi . Wprowadzaja̧c oznaczenia macierzowe: Cij (X) = Tn {cov{Xi , Xj }} Cij (Y ³) = T´n {cov{Yi , Yj }} @Yi Tij = @X j ~x=E f~xg ~ przez estymator kowariancji zmiennej możemy wyrazić estymator kowariancji zmiennej Y ~ w nastȩpuja̧cy sposób (nazywany propagacja̧ bÃlȩdów): X C(Y ) = T C(X)T T B.Kamys: Fiz. Komp. 2003/04 57 Wyprowadzenie: ~ dokoÃla wektora E{X} ~ obcinaja̧c • Rozwijamy w szereg Taylora skÃladowe wektora Y rozwiniȩcie na wyrazach liniowych ~ + Pj ( @Yi ) · (Xj − E{Xj }). Yi ≈ Yi (E{X}) @Xj ~ − E{X} ~ tożsamościowo znika wiȩc • Ponieważ wartość oczekiwana z różnicy X ~ ~ wartość oczekiwana wektora Y równa jest Y (E{X}), tzn. dostajemy podany ~ wyżej wzór na wartość oczekiwana̧ Y (E{X}). ~ } otrzymujemy wstawiaja̧c estymatory Estymator wartości oczekiwanej E{Y ~ . (średnie arytmetyczne) zamiast skÃladowych wektora E{X} P @Yi ~ • Z tego również wynika, że Yi − Yi (E{X}) = j ( @X ) · (Xj − E{Xj }) j a wiȩc kowariancja Yk i Yq , która jest wartościa̧ oczekiwana̧ E{(Yk − E{Yk }) · (Yq − E{Yq })} liczona jest jako wartość oczekiwana iloczynu analogicznych sum zawieraja̧cych pochodne i wyrażenia Xj −E{Xj } co po prostym przeliczeniu daje powyższy wzór . Estymator kowariancji otrzymujemy zastȩpuja̧c wartości oczekiwane przez odpowiednie średnie arytmetyczne a także licza̧c wartości pochodnych cza̧stkowych nie dla wartości oczekiwanych Yi ale dla odpowiednich średnich arytmetycznych. ~ Gdy zmienne Xi , i = 1, ..n sa̧ niezależne macierz kowariancji skÃladowych wektora X jest diagonalna czyli pozostaja̧ niezerowe jedynie wariancje: cov{Xi , Xj } = δij · var{Xi } Wzór na kowariancjȩ cov(Yk , Yq ) gdy Xi , i = 1, ..n sa̧ niezależne sprowadza siȩ do poniższej postaci: cov(Yk , Yq ) = à X i ∂Yk ! à ∂Yq ! ∂Xi ~x=E (~x) ∂Xi ~x=E (~x) var(Xi ) co w szczególności daje znany nam wzór na bÃla̧d średni kwadratowy : q σ(Yk ) ≡ v u uX à ∂Y !2 k u var(Yk ) = t i ∂Xi ~x=E (~x) var(Xi ) B.Kamys: Fiz. Komp. 2003/04 58 Należy pamiȩtać, że • BÃla̧d średni kwadratowy Yk może być policzony wg wzoru powyżej (bez kowariancji) tylko wtedy gdy zmienne Xi sa̧ niezależne. W praktyce E(Xi ) zastȩpowana jest przez średnia̧ arytmetyczna̧ X̄i a var(Xj ) przez kwadrat bÃlȩdu średniej arytmetycznej (a nie samej zmiennej Xi ). • Macierz kowariancji zmiennych Yi , i=1,..n jest zwykle niediagonalna nawet wtedy gdy zmienne Xi sa̧ niezależne (macierz kowariancji Xi jest diagonalna) czyli zmienne Yi , i=1,..n sa̧ zwykle zależne. Jeżeli wiȩc bȩdziemy chcieli ~ który jest z kolei funkcja̧ wektora znaleźć macierz kowariancji wektora losowego Z, ~ to musimy korzystać z ogólnego wzoru zawieraja̧cego kowariancje (zastȩpuja̧c Y ~ przez Z ~ aX ~ przez Y ~ ). oczywiście Y • Wzory powyższe sa̧ wzorami przybliżonymi , tzn. na tyle sa̧ dobre na ile rozwiniȩcie ~ (X) ~ w szereg Taylora dokoÃla E{X} ~ z obciȩciem na liniowych wyrazach jest doY ~ (X). ~ brym przybliżeniem funkcji Y Mimo to praktycznie wszȩdzie stosuje siȩ te wzory , czȩsto zapominaja̧c o ~ i X. ~ tym, że sa̧ one ścisÃle tylko dla liniowego zwia̧zku pomiȩdzy Y B.Kamys: Fiz. Komp. 2003/04 10.3 59 REGRESJA LINIOWA Definicja regresji liniowej byÃla już omawiana powyżej ale powtórzymy ja̧ dla przypomnienia: DEFINICJA Regresja liniowa zmiennej Y wzglȩdem zmiennej X to linia prosta Y =a·X +b z parametrami a i b dobranymi tak aby minimalizować sumȩ kwadratów odchyleń wspóÃlrzȩdnych (yi , i = 1, 2, ..n) zespoÃlu n punktów o wspóÃlrzȩdnych (x1 , y1 ),(x2 , y2 ),... (xn , yn ) od tej linii: Q2 = n X i=1 (yi − a · xi − b)2 UWAGA: Regresja liniowa X wzglȩdem Y tj. prosta X = c · Y + d pokrywa siȩ z regresja̧ liniowa̧ Y wzglȩdem X tj. prosta̧ Y = a · X + b znaleziona̧ dla tego samego zespoÃlu punktów doświadczalnych tylko wtedy gdy zwia̧zek pomiȩdzy X i Y jest funkcyjnym zwia̧zkiem liniowym (a nie zależnościa̧ statystyczna̧). Rozważymy tu specyficzna̧ sytuacjȩ polegaja̧ca̧ na tym, że: • zmienna X ma zaniedbywalnie maÃle bÃlȩdy (mówimy wtedy, że X jest zmienna̧ kontrolowana̧) • bÃla̧d zmiennej Y jest taki sam dla wszystkich punktów i wynosi σ(Y ). Wtedy dostajemy proste, analityczne wzory na estymatory parametrów regresji: P P P P ( i xi 2 ) · ( i yi ) − ( i xi ) · ( i xi · yi ) Tn (b) = W P P P n · ( i xi · yi ) − ( i xi ) · ( i yi ) Tn (a) = XW X 2 W ≡ n· x i − ( x i )2 i i B.Kamys: Fiz. Komp. 2003/04 60 Wskaźnik sumowania i przebiega wartości od 1 do n. BÃlȩdy estymatorów parametrów a i b również wyrażaja̧ siȩ analitycznymi wzorami: sP s Tn (σ(a)) = σ(Y ) · 2 i xi Tn (σ(b)) = σ(Y ) · W n W Możemy również podać wzór na bÃla̧d wartości Y przewidzianej przez liniȩ regresji (zależny od x): Tn (σ(Y (x))) = v u u1 (x − x)2 σ(Y ) · t + P n (x − x)2 i i • Tn (σ(Y (x))) to estymator bÃlȩdu wartości Y (x) przewidzianej przez regresjȩ, • σ(Y ) to bÃla̧d pomiaru wspóÃlrzȩdnej Yi z zaÃlożenia taki sam dla wszystkich punktów. Gdy go nie znamy wpisujemy tu (i do wzorów na bÃlȩdy parametrów ’a’ i ’b’) estymator Tn (σ(Y )), • x to średnia arytmetyczna wartości zmiennej kontrolowanej wyliczona ze wspóÃlrzȩdnych punktów x1 , x2 , ...xn , • x - to wartość zmiennej kontrolowanej X, dla której wyliczamy wartość regresji liniowej Y (x) i estymator bÃlȩdu regresji liniowej Tn (σ(Y (x))). UWAGA: Aby podja̧ć decyzjȩ, czy regresja liniowa zadawalaja̧co dobrze odtwarza zależność y od x można zastosować jedna̧ wymienionych poniżej metod: • Przy poprawnym odtwarzaniu zależności y(x) przez prosta̧ regresji y = a · x + b wielkość Q2 ma rozkÃlad chi - kwadrat o n − 2 stopniach swobody a wiȩc jej wartość oczekiwana i odchylenie standardowe speÃlniaja̧ nastȩpuja̧ce relacje: E{Q2 } q =n−2 2 σ{Q } = 2(n − 2) B.Kamys: Fiz. Komp. 2003/04 61 • WspóÃlczynnik korelacji zmiennych x i y powinien być równy jeden (co do moduÃlu), a wiȩc można sprawdzać hipotezȩ statystyczna̧ H0 : E{r} = 1 lub H0 : E{r 2 } = 1, gdzie r jest estymatorem wspóÃlczynnika korelacji x i y. • Można zastosować tzw. analizȩ wariancji. Zarówno ten jak i poprzedni sposób zostanie omówiony przy okazji badania hipotez statytsycznych. B.Kamys: Fiz. Komp. 2003/04 10.4 62 REGRESJA PRZY POMOCY WIELOMIANÓW ORTOGONALNYCH Tu omówiona zostanie regresja krzywoliniowa ze wzglȩdu na postać zależności dopasowanych funkcji od argumentu ale liniowa ze wzglȩdu na zależność od dobieranych parametrów. W takiej sytuacji wartości parametrów można znaleźć przez rozwia̧zanie ukÃladu równań liniowych (podobnie jak poprzednio dla parametrów linii prostej). Równania te sa̧ jednakże czȩsto numerycznie niestabilne, tzn. maÃle zmiany wartości wspóÃlczynników ukÃladu równań powoduja̧ drastyczne zmiany rozwia̧zań. Wygodna̧ metoda̧ unikniȩcia tych problemów jest zastosowanie wielomianów ortogonalnych. 10.4.1 REGRESJA PRZY POMOCY WIELOMIANÓW ORTOGONALNYCH NA ZBIORZE WARTOŚCI ZMIENNEJ KONTROLOWANEJ xi , i = 1, ...n Przedstawiamy zmienna̧ y jako rozwiniȩcie w szereg wielomianów ortogonalnych Pr (x) na zbiorze wartości argumentów xi , i = 1, ...n: y(x) = m X r=0 θr · Pr (x) gdzie parametry θr , (r = 1, ..., m) należy wyznaczyć metoda̧ najmniejszych kwadratów przyrównuja̧c powyższe wyrażenie na y(x) do zespoÃlu punktów (xi , yi ), (i = 1, 2, ..., n) a wielomiany Pr (x), (r = 1, 2, ..., m) sa̧ określone przez zbiór wartości argumentu xi ; (i = 1, 2, .., n) na którym maja̧ być ortogonalne oraz - ewentualnie - przez zbiór wag wi , (i = 1, 2, ..., n) przypisanych poszczególnym punktom (xi , yi ), (i = 1, 2, ..., n). Stosowanie wielomianów ortogonalnych ma nastȩpuja̧ce zalety: 1. parametry θr , (r = 1, ..., m) można wyliczyć analitycznie ponieważ pojawiaja̧ siȩ jako wspóÃlczynniki przy wielomianach a wiȩc mamy do czynienia z liniowym przypadkiem metody najmniejszych kwadratów (MNK). 2. Obliczenie parametrów odbywa siȩ przy pomocy prostych wzorów podanych poniżej. Nie wymaga to odwracania macierzy - jak to ma miejsce w ogólnym przypadku ogólnej liniowej MNK. Dziȩki temu unika siȩ problemów numerycznych gdyż odwracanie typowych macierzy pojawiaja̧cych siȩ w MNK jest niestabilna̧ numerycznie procedura̧. 3. Parametr θr+1 jest wyznaczany niezależnie od parametrów θ1 , θ2 , ...θr , tzn. dodanie nastȩpnego wyrazu do szeregu nie wpÃlywa na parametry przy wielomianach niższego stopnia). Oznacza to również, że macierz kowariancji estymatorów parametrów θ jest diagonalna. B.Kamys: Fiz. Komp. 2003/04 63 Ortogonalność wielomianów Pr (X) na zbiorze Xi , i = 1, 2, ...n oznacza speÃlnienie poniższych warunków: n X i=1 Pl (xi ) · Pk (xi ) = 0 dla l 6= k n X [Pl (xi )]2 6= 0 i=1 Powyższe wÃlasności wielomianów ortogonalnych wykorzystujemy nastȩpuja̧co: Mnożymy równanie określaja̧ce y(x) jako rozwiniȩcie w szereg wielomianów ortogonalnych przez dany wielomian Pk (xi ) i sumujemy po i co dziȩki ortogonalności wielomianów prowadzi do wzoru: n X i=1 yi · Pk (xi ) = θk n X [Pk (xi )]2 i=1 a wiȩc otrzymujemy analityczny wzór na estymator parametru θk : n P yi · Pk (xi ) Tn (θk ) = i=1 n P [Pk (xi )]2 i=1 Oczywiście można wprowadzić wielomiany ortogonalne z pewna̧ waga̧ ’wi ’, które speÃlniaja̧ równanie analogiczne do wielomianów ortogonalnych z waga̧ jednostkowa̧ określonych powyżej: n X i=1 wi · Pl (xi ) · Pk (xi ) = 0 dla l 6= k n X i=1 wi · [Pl (xi )]2 6= 0 wtedy n P Tn (θk ) = i=1 n P wi · yi · Pk (xi ) i=1 wi · [Pk (xi )]2 B.Kamys: Fiz. Komp. 2003/04 64 Jako wagi wi bierze siȩ zwykle kwadraty odwrotności bÃlȩdów mierzonych wielkości Yi , gdyż to bardzo upraszcza rachunki: wi = 1 σ 2 (yi ) Przede wszystkim należy zauważyć, że estymatory parametrów θk zależa̧ liniowo od danych y1 , y2 , ...yn a wiȩc macierz kowariancji estymatorów można wyliczyć ściśle stosuja̧c wzór na transformacjȩ macierzy kowariancji (”przenoszenie bÃlȩdów”) znaja̧c macierz kowariancji danych y1 , y2 , ...yn . Co wiȩcej wiadomo, że macierz kowariancji parametrów jest diagonalna (bo estymator parametru θk jest wyliczany niezależnie od estymatorów pozostaÃlych parametrów) a wiȩc pozostaje nam znalezienie wariancji tych estymatorów. n P [wi · Pk (xi )]2 σ 2 (yi ) var(Tn (θk )) = i=1 P n [ wi · Pk2 (xi )]2 i=1 Gdy przyjmiemy (tak bȩdziemy robić w nastȩpnych wzorach) wi ≡ 2 (1yi ) to n X i=1 [wi · Pk (xi )]2 · σ 2 (yi ) = = n X i=1 n X i=1 wi2 · Pk2 (xi ) · 1 wi wi · Pk2 (xi ) a wiȩc wariancja estymatora parametru θk wyraża siȩ analitycznym wzorem: var(Tn (θk )) = P n i=1 1 wi · Pk2 (xi ) Równie Ãlatwo można (ścisle) znaleźć wariancjȩ (wiȩc i bÃla̧d) formuÃly interpolacyjnej na y(x): var(y(x)) = m X r=0 [Pr (x)]2 · var(Tn (θr )) B.Kamys: Fiz. Komp. 2003/04 65 czyli var(y(x)) = m X r=0 n P i=1 [Pr (x)]2 wi · Pr2 (xi ) Jakość dopasowania może być oceniana przez policzenie wartości wyrażenia: Q2 (m) = n X i=1 wi ·[yi − m X r=0 Tn (θr )·Pr (xi )]2 , które przy adekwatności modelu powinno mieć rozkÃlad chi-kwadrat o (n-(m+1)) stopniach swobody. Wiedza̧c o tym możemy wartość tego wyrażenia używać jako kryterium doboru najwyższego 2 stopnia wielomianu w rozwiniȩciu (m), gdyż q wiemy, że Q (m) powinno mieć wartość oczekiwana̧ równa̧ (n − m − 1) z bÃlȩdem 2(n − m − 1). Czȩsto zamiast Q2 (m) stosuje siȩ unormowana̧ sumȩ kwadratów odchyleń: Q2 (m) n−m−1 . Wartość oczekiwana tej wielkości jest równa jedności a bÃla̧d 10.4.2 q 2 n m 1 . KONSTRUKCJA ZESPOÃLU WIELOMIANÓW ORTOGONALNYCH NA ZBIORZE WARTOŚCI ARGUMENTU ZakÃladamy, że maja̧ to być wielomiany ortogonalne z wagami w1 , w2 , ...wn na zbiorze wartości argumentu x1 , x2 , ...xn , posiadaja̧ce jednostkowy wspóÃlczynnik przy najwyższej potȩdze argumentu x. Można pokazać, że wielomiany ortogonalne P0 (x), P1 (x), ...Pm (x) speÃlniaja̧ poniższe formuÃly rekurencyjne, które moga̧ być efektywnie zastosowane do ich wyliczenia: B.Kamys: Fiz. Komp. 2003/04 66 Pr+1 (x) = [x + βr+1 ] · Pr (x) + γr+1 · Pr n P βr+1 wi · Pr2 (xi ) · xi = − i=1P n i=1 n P γr+1 i=1 = − P n i=1 1 (x) wi · Pr2 (xi ) wi · Pr2 (xi ) wi · Pr2 1 (xi ) przy czym startowe wielomiany, tzn. P0 (x) i P1 (x) określa siȩ nastȩpuja̧co: P0 (x) = 1 n P wi · x i P1 (x) = x − i=1P n i=1 P wi Warto zauważyć, że sumy typu i wi ·Pr2 (xi ) wystȩpuja̧ zarówno w mianowniku wzorów na γr+2 , βr+1 , Tn (θr ), var(y) jak i w liczniku wzoru na γr+1 . Dziȩki temu przy programowaniu wzorów można te sumy wykorzystać wielokrotnie. B.Kamys: Fiz. Komp. 2003/04 11 67 METODA MONTE CARLO Metoda ta polega na przyporza̧dkowaniu problemowi matematycznemu lub przyrodniczemu równoważnego problemu statystycznego i rozwia̧zaniu go metodami statystyki. Szczególnie pożyteczna okazaÃla siȩ w przypadkach, gdy szczegóÃly badanego problemu sa̧ zrozumiaÃle i daÃlyby siȩ rozwia̧zać analitycznie ale rachunki takie sa̧ zbyt czasochÃlonne, np. policzenie caÃlek wielokrotnych gdy wymiar przestrzeni caÃlkowania jest duży czy też śledzenie losu neutronów przechodza̧cych przez niejednorodne środowisko – takie jak w reaktorze ja̧drowym i jego obudowie. Ten ostatni przykÃlad, tj. śledzenie losu neutronów przy Ãlańcuchowej reakcji rozszczepienia prowadza̧cej do wybuchu bomby atomowej byÃl pierwszym zastosowaniem tej metody zaproponowanej przez J. von Neumanna i S. Ulama. Zwykle udaje siȩ zasta̧pić poszukiwanie rozwia̧zania oryginalnego problemu przez estymacjȩ wartości oczekiwanej pewnej funkcji na podstawie próby statystycznej skÃladaja̧cej siȩ z zespoÃlu wartości tej funkcji obliczonego dla wylosowanych wartości argumentu. W zwia̧zku z tym pojawiaja̧ siȩ nastȩpuja̧ce pytania: 1. Jak sformuÃlować problem statystyczny, tzn. jak ma wygla̧dać funkcja dla której poszukujemy wartości oczekiwanej ? Bierzemy przy tym pod uwagȩ: • Jak zminimalizować bla̧d estymacji przy ustalonym rozmiarze próby statystycznej ? • Z jakim rozkÃladem prawdopodobieństwa (gȩstości prawdopodobieństwa) należy losować wartości argumentu funkcji ? 2. W jaki sposób przeprowadzić generacjȩ liczb losowych ? Odpowiedzi na te pytania zależa̧ od rozwia̧zywanego problemu. Poniżej bȩda̧ przedstawione przykÃlady jak można dobierać postać funkcji i jakie pojawiaja̧ siȩ wtedy rozkÃlady prawdopodobieństwa gdy stosuje siȩ metodȩ Monte Carlo do liczenia caÃlek. 11.1 LICZENIE CAÃLEK METODA̧ MONTE CARLO CaÃlkȩ I≡ Z b a f (x)dx możemy zapisać w równoważnej postaci Zb I= gdzie funkcja g(x) > 0 oraz Rb a g(x) a g(x) · f (x) · dx g(x)dx = 1 - czyli g(x) jest pewna̧ funkcja̧ gȩstości prawdopodobieństwa na odcinku [a,b]). B.Kamys: Fiz. Komp. 2003/04 68 Porównuja̧c drugi wzór na caÃlkȩ I ze wzorem na wartość oczekiwana̧ funkcji fg((xx)) : ( E f (x) g(x) Zb ) ≡ à dx · g(x) · a f (x) ! g(x) widać, że caÃlka jest po prostu wartościa̧ oczekiwana̧ funkcji fg((xx)) dla gȩstości prawdopodobieństwa g(x). W szczególności jako funkcjȩ g(x) możemy wzia̧ć funkcjȩ gȩstości prawdopodobieństwa rozkÃladu jednorodnego na odcinku [a,b] i dostaniemy: Zb I = (b − a) · a f (x)dx b−a Estymatorem powyższej wartości oczekiwanej jest średnia arytmetyczna Tn (I) = (b − a) · n 1X n i=1 f (xi ) gdzie argumenty xi sa̧ losowane z rozkÃladem jednorodnym (równomiernym) na odcinku [a,b]. Jest to tzw. podstawowa metoda liczenia caÃlki metoda̧ Monte Carlo. Dla wygody rozważa siȩ zwykle caÃlki liczone na odcinku [0,1] bo wtedy nie musimy jawnie wypisywać dÃlugości przedziaÃlu caÃlkowania a można zawsze przez liniowa̧ zmianȩ zmiennych przejść do dowolnego odcinka [a,b]. W poniższych rozważaniach bȩdziemy stosować tȩ konwencjȩ. Wzór na estymator caÃlki jest wtedy po prostu średnia̧ arytmetyczna̧ wartości funkcji podcaÃlkowej gdzie argumenty xi sa̧ losowane z rozkÃladem jednorodnym na przedziale [0,1]. BÃla̧d estymatora caÃlki to bÃla̧d średniej arytmetycznej : σ{I} = = v ( ) u n X u 1 tσ 2 f (xi ) n i=1 v u n u 1 X t σ 2 {f (xi )} s n2 i=1 1 σ 2 {f } n2 1 = √ σ{f } n = B.Kamys: Fiz. Komp. 2003/04 69 Niestety ten wzór nie może być w praktyce stosowany bo liczenie σ{f } wymagaÃloby znajomości wartości szukanej caÃlki: Z1 2 1 2 Z f (x)dx − f (x)dx 2 σ {f } = 0 0 Z1 f 2 (x)dx − I 2 = 0 Dlatego dla liczenia estymatora bÃlȩdu caÃlki S(I) zamiast σ{f } używa siȩ estymatora S{f } liczonego wg wzoru: S (f ) = v u u t 1 n X n − 1 i=1 [f (xi ) − Tn (I)]2 1 S (I) = √ S (f ) n gdzie należy zauważyć, że Tn (I) jest równe (ze wzglȩdu na jednostkowa̧ dÃlugość przedziaÃlu caÃlkowania) średniej arytmetycznej z wartości funkcji f(x) Ponieważ przy liczeniu caÃlek chcielibyśmy wiedzieć nie tylko jakie jest odchylenie standardowe estymatora caÃlki, lecz chcielibyśmy określić przedziaÃl gdzie “prawie na pewno” bȩdzie znajdować siȩ prawdziwa wartość caÃlki to przyjȩÃlo siȩ jako “bÃla̧d caÃlki” brać poÃlowȩ przedziaÃlu ufności na poziomie ufności 0,9545, który równy jest podwojonej wartości odchylenia standardowego przy zaÃlożeniu, że średnia arytmetyczna ma rozkÃlad normalny. A wiȩc jako “bÃla̧d caÃlki” bierzemy wielkość: 2S(f ) √ n 11.2 ZMNIEJSZANIE BÃLȨDU CAÃLKI Podstawowa̧ metoda̧ stosowana̧ w tym celu jest tzw. ”metoda średniej ważonej” (zwana po angielsku “importance sampling”). Polega ona na tym, że zamiast losować argument funkcji podcaÃlkowej z rozkÃladem jednorodnym losuje siȩ go z rozkÃladem g(x) możliwie podobnym do funkcji podcaÃlkowej. Wtedy estymatorem caÃlki na przedziale [0,1] z funkcji f(x) jest średnia ważona: B.Kamys: Fiz. Komp. 2003/04 70 Tn (I) = n f (x ) 1 X i n i=1 g(xi ) gdzie argumenty xi losowane sa̧ czȩściej tam gdzie funkcja f(x) jest duża a wiȩc przyczynki do caÃlki sa̧ znacza̧ce – sta̧d angielska nazwa “losowanie istotne”. Można pokazać, że zastosowanie tej metody zawsze daje mniejszy bÃla̧d caÃlki niż otrzymywany w metodzie podstawowej. Inna̧ metoda̧ jest tzw. “losowanie warstwowe” polegaja̧ce na rozbiciu przedziaÃlu caÃlkowania na mniejsze przedziaÃly, w których funkcja podcaÃlkowa zmienia siȩ możliwie maÃlo – jest prawie staÃla. Wtedy użycie najprostszej metody – podstawowej – w każdym z przedziaÃlów zdecydowanie zmniejsza wariancjȩ (bÃla̧d) caÃlki. Widać to ewidentnie dla funkcji przedziaÃlami staÃlej. Tam metoda warstwowa daje bÃla̧d równy zeru (!). Tu także można pokazać, że bÃla̧d caÃlki jest zawsze mniejszy lub równy od bÃlȩdu metody podstawowej. “Metoda zmiennych kontrolnych” to szukanie funkcji h(x) podobnej do f(x) ale takiej, że caÃlka z h(x) na przedziale [0,1] jest znana. Wtedy możemy liczyć podstawowa̧ metoda̧ Monte Carlo caÃlkȩ z różnicy f(x)-h(x). Jest to opÃlacalne jeżeli liczenie funkcji h(x) nie jest zbyt pracochÃlonne. Zwykle przyjmuje siȩ, że wspóÃlczynnik korelacji pomiȩdzy q 1 funkcjami f(x) i h(x) powinien speÃlniać relacjȩ: ρ(f (x), h(x)) ≥ 1 − k gdzie “k” oznacza ile razy bardziej pracochÃlonne jest policzenie różnicy f(x)-h(x) od policzenia samej funkcji f(x). “Metoda zmiennych antytetycznych” Jeżeli f1 (ξ) i f2 (η) sa̧ dwoma estymatorami liczonej powyżej caÃlki to ich średnia arytmetyczna g2 też bȩdzie estymatorem caÃlki: g2 ≡ 1 2 (f1 + f2 ), przy czym jeżeli oba estymatory f1 i f2 sa̧ nieobcia̧żone to i estymator g2 jest nieobcia̧żony. Z drugiej strony wariancja estymatora g2 bȩdzie zależeć nie tylko od wariancji estymatorów f1 i f2 ale także od ich kowariancji: σ 2 (g2 ) ≡ 1 4 (σ 2 (f1 ) + σ 2 (f2 )) + 1 2 cov(f1 , f2 ). Jeżeli kowariancja estymatorów bȩdzie ujemna i duża co do moduÃlu, to wariancja estymatora g2 może być mniejsza od wariancji każdego z estymatorów f1 i f2 . Powyższe rozumowanie można oczywiście rozszerzyć na średnia̧ m estymatorów caÃlki. B.Kamys: Fiz. Komp. 2003/04 71 PRZYKÃLAD: Jeżeli funkcja podcaÃlkowa f (x) jest monotoniczna to jako dwa wyżej omawiane estymatory możemy wzia̧ć nastȩpuja̧ce funkcje: f1 = f (x) i f2 = f (1 − x). Wtedy estymator g2 bȩdzie bardziej zbliżony do staÃlej na odcinku [0,1] niż każdy z dwu skÃladników. To spowoduje, że jego wariancja bȩdzie mniejsza od wariancji każdego ze skÃladników a o to nam chodzi. Dla funkcji monotonicznej na caÃlym przedziale caÃlkowania można dobrać inny wygodny estymator g2 , który bȩdzie średnia̧ ważona̧ a nie średnia̧ arytmetyczna̧ a wagi dobierze siȩ tak aby najbardziej zmniejszyć wariancjȩ estymatora g2 : g2 ≡ α · f (αx) + (1 − α) · f (1 − (1 − α)x) gdzie 0 < α < 1. Znalezienie optymalnej wartości wspóÃlczynnika α może być bardzo trudne, wiȩc czȩsto zadawalamy siȩ zastosowaniem nastȩpuja̧cego, prostszego przepisu, który zwykle daje porównywalnie maÃla̧ wariancjȩ caÃlki jak optymalna wartość α. Jest to rozwia̧zanie równania: f (α) = (1 − α) · f (1) + α · f (0) Powyższe przykÃlady liczenia caÃlki metoda̧ Monte Carlo nie wyczerpuja̧ wszystkich stosowanych wariantów tej metody lecz sÃluża̧ raczej do ilustracji na czym polega problem doboru funkcji, dla której szukamy wartości oczekiwanej. Nie pokazuja̧ jednak na czym polega przewaga metody Monte Carlo nad innymi metodami liczenia caÃlki. W przypadku caÃlki jednokrotnej taka przewaga nie ujawnia siȩ bo istnieje wiele innych metod numerycznych takich jak np. metoda Simpsona, Romberga czy Gaussa, które sa̧ bardziej precyzyjne od metody Monte Carlo przy tej samej liczbie wyliczonych wartości funkcji podcaÃlkowej. Jednakże gdybyśmy chcieli zastosować która̧ś z tych metod do caÃlki wielokrotnej to okaże siȩ, że otrzymanie maÃlego bÃlȩdu caÃlki wymaga przy zwiȩkszaniu wymiaru przestrzeni argumentów zwiȩkszania liczby obliczeń funkcji podcaÃlkowej w sposób proporcjonalny do nw , gdzie n jest liczba̧ wartości jednego argumentu a w jest wymiarem przestrzeni argumentów. W odróżnieniu od tych metod wielkość bÃlȩdu estymatora caÃlki uzyskanego metoda̧√Monte Carlo maleje tak jak bÃla̧d średniej arytmetycznej czyli proporcjonalnie do 1/ n niezależnie od wymiaru przestrzeni argumentów . A wiȩc zwiȩkszanie wymiaru przestrzeni argumentów funkcji podcaÃlkowej nie musi przedÃlużać czasu obliczenia caÃlki. Rozważmy prosty przykÃlad: do obliczenia caÃlki 10 – krotnej, wyliczaja̧c funkcjȩ podcaÃlkowa̧ 10 razy dla każdego wymiaru musielibyśmy obliczyć funkcjȩ podcaÃlkowa̧ 1010 razy. Jeżeli potrafimy w cia̧gu sekundy obliczyć funkcjȩ podcaÃlkowa̧ 10 000 razy to znalezienie wartości caÃlki wymagaÃloby 1000 000 sekund czyli okoÃlo 12 dni i nocy. Tymczasem stosuja̧c metodȩ Monte Carlo, możemy oszacować wartość caÃlki z dokÃladnościa̧ kilku procent wyliczaja̧c np. 1000 000 razy funkcjȩ podcaÃlkowa̧ tzn. skracaja̧c czas obliczeń do 100 sekund. B.Kamys: Fiz. Komp. 2003/04 11.3 72 GENERACJA LICZB LOSOWYCH Przy obliczeniach metoda̧ Monte Carlo konieczna jest generacja liczb losowych o poża̧danym rozkÃladzie (gȩstości) prawdopodobieństwa. Liczby te w praktyce znajduje siȩ przy pomocy odpowiednich programów komputerowych co powoduje, że cia̧gi liczb losowych otrzymane z tych samych startowych parametrów sa̧ powtarzalne a wiȩc nie sa̧ naprawdȩ losowe. Z tej przyczyny używa siȩ czȩsto określenia liczby pseudolosowe. Najważniejszym ze stosowanych rozkÃladów jest rozkÃlad jednorodny(równomierny, jednostajny), gdyż przy jego użyciu można wygenerować liczby pseudolosowe o innych poża̧danych rozkÃladach prawdopodobieństwa. Jak bȩdzie pokazane poniżej istnieja̧ metody pozwalaja̧ce na stworzenie prostych i krótkich programów komputerowych do generacji liczb pseudolosowych o rozkÃladzie jednorodnym. Można wiȩc samemu napisać taki program. Okazuje siȩ jednak, że bezpieczniej jest korzystać z gotowych, opracowanych przez specjalistów procedur , gdyż speÃlniaja̧ one nie tylko podstawowe wymagania narzucane na liczby pseudolosowe ale uwzglȩdniaja̧ także bardziej zaawansowane warunki, które musza̧ być zapewnione przy niektórych obliczeniach. Takimi godnymi polecenia generatorami liczb losowych sa̧ procedury RANLUX i RANMAR z biblioteki procedur CERN. Pierwszy z nich zostaÃl napisany przez F. Jamesa (Comp. Phys. Comm. 79 (1994) 111) i oznaczony jest symbolem V115 w bibliotece procedur CERN a drugi (stworzony w oparciu o raport G. Marsaglia, A. Zaman, and W.W. Tsang, Towards a Universal Random Number Generator, Supercomputer Computations Research Institute, Florida State University technical report FSU-SCRI-87-50 (1987)) przez F. Carminati i F. Jamesa i wystȩpuje jako procedura V113 w bibliotece procedur CERN. 11.3.1 Generacja liczb o rozkÃladzie równomiernym W olbrzymiej wiȩkszości przypadków cia̧gi liczb pseudolosowych tworzone sa̧ przy pomocy zwia̧zków rekurencyjnych. Najlepiej zbadanym algorytmem jest tzw. metoda kongruencyjna, która generuje kolejna̧ liczbȩ pseudolosowa̧ w oparciu o k + 1 poprzednich wg wzoru: xn+1 = (a0 xn + a1 xn 1 + . . . + ak xn k )(modM ), gdzie zapis a(mod b) należy rozumieć jako resztȩ z dzielenia liczby a przez liczbȩ b. Liczba M a także wszystkie liczby ai oraz xi sa̧ liczbami caÃlkowitymi z przedziaÃlu [0, M ). Generatory stanowia̧ce szczególne przypadki powyższego wzoru maja̧ swoje specjalne nazwy. Generatory stosuja̧ce wzór: xn+1 = xn + xn 1 (modM ) nazywane sa̧ generatorami Fibonacciego, te, które używaja̧ relacji: xn+1 = a0 xn (modM ) określa siȩ mianem generatorów multiplikatywnych a oparte o wyrażenie: xn+1 = (a0 xn + a1 )(modM ) B.Kamys: Fiz. Komp. 2003/04 73 nosza̧ nazwȩ generatorów mieszanych. Wszystkie cia̧gi liczb pseudolosowych sa̧ cia̧gami okresowymi. Dobry generator powinien mieć możliwie dÃlugi okres, tak dÃlugi aby w czasie wykonywania prac obliczeniowych wykorzystywać tylko niewielka̧ czȩść okresu. Maksymalny możliwy okres cia̧gu liczb losowych otrzymanych ogólna̧ metoda̧ kongruencyjna̧ nie może przekroczyć M k+1 . A wiȩc maksymalny okres generatora Fibonacciego to M 2 a generatora multiplikatywnego i mieszanego nie przekracza M . Te maksymalne wartości sa̧ osia̧gane tylko przy odpowiednim doborze wspóÃlczynników formuÃly rekurencyjnej. Na przykÃlad, można pokazać, że dÃlugość okresu cia̧gu liczb losowych generatora mieszanego wynosi M wtedy i tylko wtedy, gdy speÃlnione sa̧ nastȩpuja̧ce warunki: • a1 i M nie maja̧ wspólnych dzielników, • (a0 − 1) jest wielokrotnościa̧ liczby pierwszej, która jest dzielnikiem liczby M , • (a0 − 1) jest wielokrotnościa̧ liczby 4, o ile M jest też wielokrotnościa̧ liczby 4. Od dobrego generatora, ża̧damy również aby można byÃlo kolejne liczby pseudolosowe uważać za niezależne. W szczególności powinny być niezależne liniowo. Możemy to sprawdzić licza̧c wspóÃlczynniki korelacji pomiȩdzy parami liczb: %j ≡ %(xi , xi+j ). WspóÃlczynniki korelacji %j ,j=1,2,... powinny być równe zero. Zamiast liczyć wspóÃlczynniki korelacji można niezależność liniowa̧ generowanych liczb sprawdzać przez wykonanie pewnych kontrolnych zadań rachunkowych. Jednym z najprostszych zadań jest liczenie metoda̧ Monte Carlo (np. podstawowa̧ metoda̧ szukania caÃlki) objȩtości kuli o jednostkowym promieniu w przestrzeni N-wymiarowej. Objȩtość kuli wynosi: 2 π N=2 VN = , N Γ(N/2) √ gdzie Γ(N/2) to funkcja gamma Eulera. Funkcja ta przyjmuje wartość π dla argumentu 1/2 i może być liczona rekurencyjnie wg wzoru Γ(z + 1) = z · Γ(z). Nawet niewielka korelacja pomiȩdzy generowanymi liczbami pseudolosowymi odbija siȩ wyraźnie na wynikach obliczeń dyskredytuja̧c stosowany generator. Inna̧, bardzo ważna̧ cecha̧ generatora liczb pseudolosowych jest aby te liczby pokrywaÃly przedziaÃl (0,1) odpowiednio gȩsto. Aby to prosto wyjaśnić weźmy pod uwagȩ rekurencyjny algorytm, w którym nastȩpna liczba generowana jest przy pomocy poprzedniej: xn+1 = f (xn ). Jeżeli wykreślimy na powierzchni jednostkowego kwadratu (czyli kwadratu o wierzchoÃlkach (0,0),(1,0),(1,1) i (0,1) poÃlożenia punktów o wspóÃlrzȩdnych (x = xn , y = xn+1 ) to w przypadku prawdziwych losowych liczb xn i xn+1 powinny one pokrywać równomiernie powierzchniȩ kwadratu. Natomiast dla pseudolosowych liczb dostaniemy punkty leża̧ce na krzywej y = f (x). A wiȩc krzywa y = f (x) musi wielokrotnie i to w maÃlych odlegÃlościach przechodzić przez powierzchniȩ kwadratu aby zapewnić w miarȩ równomierne pokrycie B.Kamys: Fiz. Komp. 2003/04 74 powierzchni kwadratu. Ten warunek podobnie jak i inne powyżej wymienione jest jedynie warunkiem koniecznym aby generator mógÃl być uznany za zadawalaja̧cy generator. Dla surowego testowania generatorów wymyślono caÃly zestaw testów, które powinny być speÃlniane przez dobre generatory (np. G. Marsaglia, A Current View of Random Number Generators, Computer Science and Statistics: 16th Symposium on the Interface, Elsevier (1985)). Wspomniane na wstȩpie generatory RANLUX, RANMAR przeszÃly pomyślnie ten zestaw testów. 11.3.2 Generacja liczb losowych o dowolnych rozkÃladach prawdopodobieństwa Jeżeli dysponujemy już dobrym generatorem liczb pseudolosowych o rozkÃladzie równomiernym na odcinku [0,1] to możemy przysta̧pić do generacji liczb o dowolnych rozkÃladach prawdopodobieństwa. Zacznijmy od generacji zmiennej dyskretnej przyjmuja̧cej n wartości z zadanym rozkÃladem prawdopodobieństwa: P (x = xi ) = pi , dla i = 1, 2, ...n W tym celu podzielmy przedziaÃl [0,1] na n przedziaÃlów o dÃlugości ∆i = pi . Litera̧ γ oznaczać bȩdziemy wygenerowana̧ zmienna̧ o rozkÃladzie równomiernym w przedziale [0,1]. Wtedy Ãlatwo udowodnić nastȩpuja̧ce twierdzenie: TWIERDZENIE Losowa wielkość x określona formuÃla̧ x = xi gdy γ ∈ ∆i ma poszukiwany rozkÃlad dyskretny. DOWÓD: P (x = xi ) = P (γ ∈ ∆i ) = ∆i = pi ♦ UWAGA 1: Powyższe twierdzenie można uogólnić na przypadek zmiennej dyskretnej przyjmuja̧cej nieskończenie wiele wartości. Wtedy zarówno wartości zmiennej xi jak i prawdopodobieństwa pi określone sa̧ wzorami określaja̧cymi ich zależność od wskaźnika i. Dla efektywnego losowania wybiera siȩ pewne nmax tak duże, że suma prawdopodobieństw nX max i=1 pi = 1 − ε jest bliska jedności (tj. ε > 0 jest odpowiednio maÃle) i dla wskaźników i = 1, ..., nmax wylicza siȩ przed generacja̧ xi i pi (przechowuja̧c je nastȩpnie w pamiȩci komputera) a B.Kamys: Fiz. Komp. 2003/04 75 obliczenia wg zadanych wzorów wykonuje siȩ tylko przy generacji maÃlo prawdopodobnych wartości xi (dla i > nmax ). ♦ UWAGA 2: Czȩsto przy symulacji zjawisk przyrodniczych spotykamy siȩ z sytuacja̧, w której musimy zdecydować jakie zdarzenie spośród wszystkich możliwych i wykluczaja̧cych siȩ zdarzeń (A1 , A2 , ..., An ) zachodzi w danym momencie jeżeli znamy prawdopodobieństwa tych zdarzeń. Taka sytuacja dokÃladnie odpowiada schematowi wyboru wartości zmiennej dyskretnej tożsamej ze wskaźnikiem i danego zdarzenia Ai o znanym rozkÃladzie prawdopodobieństw pi , i = 1, ..., n. ♦ Generacja zmiennej cia̧gÃlej z zadana̧ funkcja̧ gȩstości prawdopodobieństwa f(x). ZaÃlóżmy, że zmienna losowa x ma funkcjȩ gȩstości prawdopodobieństwa f (x) > 0 w skończonym lub nieskończonym przedziale [a,b]. Wtedy dystrybuanta zmiennej x opisywana jest wzorem: Zx F (x) = f (t)dt a i jest silnie rosna̧ca̧ funkcja̧. TWIERDZENIE Przy tych zaÃlożeniach losowa wielkość x określona formuÃla̧ F (x) = γ ma funkcjȩ gȩstości prawdopodobieństwa f (x). DOWÓD: Dla silnie rosna̧cej dystrybuanty F (x) możemy napisać nastȩpuja̧cy zespóÃl równań (przez Y oznaczamy dystrybuantȩ traktowana̧ jako zmienna losowa): P (y < Y < y + dy) P (y < Y < y + dy) P (x < X < x + dx) g(y)dy = ≡ ≡ = P (x < X < x + dx) g(y)dy f (x)dx f (x)dx ska̧d wynika, że g(F (x))dF (x) = f (x)dx. Z definicji dystrybuanty wiadomo, że: dF (x) = f (x)dx, B.Kamys: Fiz. Komp. 2003/04 76 a wiȩc g(F (x)) = 1, czyli dystrybuanta ma rozkÃlad równomierny w przedziale [0,1]. Sta̧d generuja̧c wartość liczby losowej γ określamy jednoznacznie wartość dystrybuanty F(x) a co za tym idzie wartość zmiennej x o funkcji gȩstości prawdopodobieństwa f(x): x=F gdzie F ♦ 1 1 (γ), (x) oznacza funkcjȩ odwrotna̧ do dystrybuanty. UWAGA 1: Jeżeli funkcja gȩstości prawdopodobieństwa f(x) zeruje siȩ na pewnych odcinkach wartości argumentu to dystrybuanta F(x) nie jest funkcja̧ silnie rosna̧ca̧ i wtedy rozwia̧zanie równania F (x) = γ nie jest jednoznaczne (F(x) nie ma funkcji odwrotnej). Można temu jednak zapobiec zastȩpuja̧c funkcjȩ odwrotna̧ do dystrybuanty F 1 (x) przez funkcjȩ G(y) zdefiniowana̧ nastȩpuja̧co: G(y) ≡ inf x fxjy<F (x)g . A wiȩc generujemy liczbȩ losowa̧ o rozkÃladzie gȩstości prawdopodobieństwa f(x) przy pomocy równości: x = G(γ). ♦ UWAGA 2: Przedstawiona̧ powyżej metodȩ generacji liczb pseudolosowych nazywa siȩ najczȩściej metoda̧ funkcji odwrotnych ( inverse functions method ). Należy podkreślić, że zamiast wzorów x = F 1 (γ) lub x = G(γ) ze specjalnym wyborem funkcji G podanym powyżej można stosować wzór x = g(γ) , gdzie g nie jest monotoniczna, byleby tylko speÃlniaÃla relacjȩ P (g(γ) < x) = F (x). ♦ PRZYKÃLAD: Generacja zmiennej losowej x o rozkÃladzie wykÃladniczym dla x ≥ x0 . ( f (x) = C · exp[−C(x − x0 )] dla x ≥ x0 0 dla x < 0 B.Kamys: Fiz. Komp. 2003/04 77 Dystrybuanta: Zx F (x) = C · exp[−C(t − x0 )] · dt = 1 − exp[−C(x − x0 )]. x0 Rozwia̧zujemy ze wzglȩdu na x równanie F (x) = γ, gdzie γ jest pseudolosowa̧ liczba̧ o rozkÃladzie równomiernym w [0,1]. Wstawiaja̧c jawna̧ postać dystrybuanty dostajemy: 1 − exp[−C(x − x0 )] = γ. Rozwia̧zanie równania to: x = x0 − 1 C · ln(1 − γ). ♦ Szukanie funkcji odwrotnej do dystrybuanty może być trudne ze wzglȩdów numerycznych. Wtedy czȩsto daje siȩ uprościć generacjȩ stosuja̧c tzw. metodȩ superpozycji. Używa siȩ jej wtedy gdy dystrybuantȩ zmiennej, która̧ chcemy generować udaje siȩ przedstawić w postaci kombinacji liniowej dystrybuant o prostszej postaci, takich dla których Ãlatwo znaleźć funkcje odwrotne. Istotne jest, że wspóÃlczynniki kombinacji liniowej (o skończonej lub nieskończonej liczbie wyrazów) powinny mieć wartości należa̧ce do przedziaÃlu (0,1) a ich suma ma być równa jedności, tak aby można je byÃlo interpretować jako prawdopodobieństwa. Wtedy kombinacjȩ liniowa̧ można interpretować jako formuÃlȩ peÃlnego prawdopodobieństwa: F (x) = N P k=1 N P k=1 ck = 1, ck · Fk (x) 0 < ck < 1 W metodzie superpozycji generujemy dwie niezależne liczby losowe o rozkÃladzie jednorodnym w [0,1]: γ1 i γ2 . Pierwsza̧ z nich stosujemy do losowego wyboru wartości wskaźnika k (zgodnie z przepisem podanym wyżej dla generacji wartości dyskretnej zmiennej) a druga̧ do generacji wartości zmiennej x posiadaja̧cej dystrybuantȩ Fk (x). PRZYKÃLAD: Chcemy generować wartości zmiennej x o funkcji gȩstości prawdopodobieństwa: f (x) = 5 12 · [1 + (x − 1)4 ] dla x ∈ (0, 2). Dystrybuanta zmiennej x ma postać: F (x) = 1 5 · [(x − 1)5 + 1] dla ∈ (0, 2) B.Kamys: Fiz. Komp. 2003/04 78 co powoduje, że dla generacji metoda̧ funkcji odwrotnych musielibyśmy rozwia̧zać równanie pia̧tego stopnia: ´ 1 ³ (x − 1)5 + 5x + 1 = γ. 12 Gdy przedstawimy funkcjȩ gȩstości prawdopodobieństwa jako kombinacjȩ liniowa̧ o wspóÃlczynnikach c1 = (5/6) i c2 = (1/6) dwu funkcji gȩstości prawdopodobieństwa: à ! f (x) = 5 · 6 1 2 à ! + 1 · 6 5 2 (x − 1)4 to dystrybuanta też bȩdzie kombinacja̧ liniowa̧ postaci: à ! F (x) = 5 6 · x 2 à ! + 1 6 · 1 2 [(x − 1)5 + 1]. Wtedy generacja metoda̧ funkcji odwrotnej dla obu prostszych dystrybuant daje jawne wzory na funkcje odwrotne i dostajemy nastȩpuja̧cy przepis na wyliczenie x: x = 2γ2 = 1+ q 5 gdy γ1 < 5/6 2γ2 − 1 gdy γ1 ≥ 5/6. ♦ Obok metody funkcji odwrotnych używa siȩ dla generacji liczb losowych również inne metody, spośród których najbardziej popularna jest metoda eliminacji zaproponowana przez J. von Neumanna lub metody wykorzystuja̧ce wzory typu: x = g(γ1 , γ2 , ..., γn ). Omówimy je poniżej. Metodȩ eliminacji stosuje siȩ gdy zmienna x ma rozkÃlad o gȩstości prawdopodobieństwa opisany funkcja̧ f(x) w przedziale [a,b] i równy zero poza przedziaÃlem, oraz f(x) jest ograniczona od góry: f (x) ≤ c. Postȩpuje siȩ wtedy wg nastȩpuja̧cej procedury: 1. Generujemy wartość zmiennej x wg wzoru: x = (b − a)γ1 + a z rozkÃladem jednorodnym w przedziale [a,b]. 2. Generujemy wartość zmiennej y wg wzoru: y = cγ2 z rozkÃladem jednorodnym w przedziale [0,c]. 3. Sprawdzamy, czy y ≤ f (x). Jeżeli tak, to akceptujemy wartość x, w przeciwnym przypadku para (x,y) jest eliminowana i generacjȩ powtarza siȩ od nowa. B.Kamys: Fiz. Komp. 2003/04 79 Metody wykorzystuja̧ce przeksztaÃlcenie x = g(γ1 , γ2 , ..., γn ) PRZYKÃLAD Pokażemy, że zmienna̧ o rozkÃladzie gȩstości prawdopodobieństwa: f (x) = n · xn 1 dla x ∈ [0, 1] czyli o dystrybuancie F (x) = xn dla x ∈ [0, 1] można generować stosuja̧c wzór: x = max(γ1 , ..., γn ). Dowód: Wprowadźmy funkcjȩ schodkowa̧ zdefiniowana̧ nastȩpuja̧co: ( θ(z) = 0 dla z ≤ 0 1 dla z > 0. Zmienna losowa g(γ1 , ..., γn ) bȩdzie miaÃla dystrybuantȩ F (x) wtedy i tylko wtedy gdy Z1 Z1 ... 0 dy1 . . . dyn θ(x − g(γ1 , ..., γn )) = F (x). 0 Jest oczywiste, że θ(x− max yi ) nie równa jest zero wtedy i tylko wtedy gdy równocześnie 1in y1 < x, y2 < x , ..., yn < x. A wiȩc caÃlka Z1 Z1 ... 0 dy1 . . . dyn θ(x − max yi ) in 1 0 może być zapisana jako: Zx Zx ... 0 dy1 . . . dyn = xn 0 a to jest wÃlaśnie taka dystrybuanta zmiennej x jaka̧ chcielibyśmy uzyskać. ♦ UWAGA Zmienna̧ losowa̧ o dystrybuancie F (x) = xn dla x ∈ [0, 1] można generować metoda̧ funkcji odwrotnych, z której dostajemy: √ x = n γ. Porównuja̧c ten wynik z poprzednim dostajemy zaskakuja̧cy wniosek, że można zasta̧pić obliczanie pierwiastka n-tego stopnia z liczby losowej o rozkÃladzie równomiernym w [0,1] przez obliczanie maksimum n liczb losowych o takim rozkÃladzie. B.Kamys: Fiz. Komp. 2003/04 11.3.3 80 Generacja wielowymiarowych zmiennych losowych Metoda eliminacji może być Ãlatwo uogólniona na przypadek zmiennych wielowymiarowych. Jeżeli f (x1 , x2 , ..., xn ) jest gȩstościa̧ prawdopodobieństwa dla n-wymiarowej zmiennej losowej (x1 , x2 , ...xn ), która znika poza kostka̧ n-wymiarowa̧: ai ≤ bi , i = 1, 2, .., n i ograniczona̧ przez liczbȩ c to przeprowadzamy generacjȩ w nastȩpuja̧cy sposób: 1. Generujemy wartość zmiennej x1 , x2 , ...xn+1 wg wzoru: xi = (bi − ai )γi + ai , i = 1, 2, ..., n oraz xn+1 = cγn+1 z rozkÃladem równomiernym w przedziale (a1 ≤ x1 ≤ b1 , ..., an ≤ xn ≤ bn ) i ograniczona̧ przez liczbȩ c: (0 ≤ xn+1 ≤ c) 2. Sprawdzamy, czy xn+1 ≤ f (x1 , x2 , ..., xn ). Jeżeli tak, to akceptujemy punkt x1 , x2 , ..., xn , w przeciwnym przypadku punkt ten jest eliminowany i generacjȩ powtarza siȩ od nowa. Wielowymiarowe zmienne losowe możemy również generować metoda̧ funkcji odwrotnych. Należy rozważyć oddzielnie dwa przypadki: 1. Gdy poszczególne skÃladowe wielowymiarowej zmiennej sa̧ niezależne to każda̧ z nich generuje siȩ niezależnie jedna̧ z metod omawianych dla jednowymiarowych zmiennych losowych. 2. Gdy skÃladowe sa̧ zależne to korzystamy z poniższego twierdzenia: TWIERDZENIE Gdy γ1 , γ2 , ..., γn sa̧ niezależnymi liczbami losowymi o rozkÃladzie równomiernym w przedziale [0,1) to zbiór liczb x1 , x2 , ..., xn otrzymanych jako rozwia̧zania nastȩpuja̧cego ukÃladu równań: F1 (x1 ) = γ1 F2 (x2 |x1 ) = γ2 ··· Fn (xn |x1 , ..., xn 1 ) = γn ma poża̧dana̧ gȩstość prawdopodobieństwa f (x1 , x2 , ..., xn ). ♦ B.Kamys: Fiz. Komp. 2003/04 12 81 TESTOWANIE HIPOTEZ STATYSTYCZNYCH 12.1 Definicje elementarnych pojȩć Poniżej podamy definicje elementarnych pojȩć stosowanych przy testowaniu hipotez. Hipoteza̧ statystyczna̧ nazywamy hipotezȩ odnosza̧ca̧ siȩ do rozkÃladu prawdopodobieństwa zmiennej losowej (funkcji gȩstości prawdopodobieństwa, itp.) lub do parametrów rozkÃladu prawdopodobieństwa. Hipoteza prosta to taka, która jednoznacznie określa dystrybuantȩ (rozkÃlad) zmiennej losowej, tzn. podana jest postać rozkÃladu i wartości wszystkich parametrów. Hipoteza zÃlożona to taka, która nie jest prosta, np. podana jest postać rozkÃladu a nie sa̧ znane wartości niektórych parametrów. Hipoteza parametryczna to hipoteza odnosza̧ca siȩ do wartości parametrów rozkÃladu. Inne hipotezy nazywaja̧ siȩ hipotezami nieparametrycznymi i z natury sa̧ hipotezami zÃlożonymi. Hipoteza zerowa H0 ” to sprawdzana hipoteza. ” Hipoteza alternatywna H1 ” to hipoteza, która̧ bylibyśmy skÃlonni przyja̧ć gdy ” H ” jest nieprawdziwa. ” 0 UWAGA: H1 ” nie musi być prostym zaprzeczeniem H0 ” ” ” BÃla̧d pierwszego rodzaju to odrzucenie prawdziwej H0 ”. ” Poziomem istotności α” nazywamy prawdopodobieństwo popeÃlnienia bÃlȩdu pier” wszego rodzaju. Przyjmuje siȩ zwykle α” ∈ [0.1−0.001] – konkretny wybór oczywiście ” zależy od tego jak kosztowne bȩda̧ skutki popeÃlnienia bÃlȩdu pierwszego rodzaju. BÃla̧d drugiego rodzaju to przyjȩcie nieprawdziwej H0 ”. ” UWAGA: Przez sformuÃlowanie przyjȩcie hipotezy” należy rozumieć stwierdzenie, że nie ” ” mamy podstaw do odrzucenia hipotezy H0 ”. Inaczej mówia̧c pomiaru, którego wynik nie przeczy hipotezie nie można uważać za dowód prawdziwości hipotezy !!! Moca̧ testu nazywamy prawdopodobieństwo odrzucenia faÃlszywej H0 ”, tzn. praw” dopodobieństwo tego, że nie popeÃlnimy bÃlȩdu II rodzaju. Moc testu oznacza siȩ zwykle przez 1 − β” gdzie β” oznacza prawdopodobieństwo popeÃlnienia bÃlȩdu II rodzaju. ” ” Tablica 1: Wyniki podejmowania decyzji przy testowaniu hipotez Przyjȩcie H0 Przyjȩcie H1 H0 prawdziwa Decyzja prawidÃlowa BÃla̧d I rodzaju H1 prawdziwa BÃla̧d II rodzaju Decyzja prawidÃlowa B.Kamys: Fiz. Komp. 2003/04 12.2 82 Test normalności rozkÃladu Wiȩkszość metod statystyki jest dobrze opracowana matematycznie dla zmiennych o rozkÃladzie normalnym natomiast nie jest oczywiste, że dadza̧ siȩ zastosować bez modyfikacji dla zmiennych o innych rozkÃladach. Z tej przyczyny przed rozpoczȩciem bardziej zaawansowanych rozważań statystycznych należy siȩ upewnić, że badana zmienna podlega rozkÃladowi normalnemu. Sprawdzana hipoteza zerowa polega na stwierdzeniu, że rozkÃlad badanej zmiennej jest rozkÃladem normalnym. W zależności od testu zakÃlada siȩ znajomość parametrów rozkÃladu jak np. w teście lambda KoÃlmogorowa lub też nie jest to niezbȩdne jak np. w badaniu wykresu normalnego. 12.2.1 Test zerowania siȩ wspóÃlczynnika asymetrii i kurtozy Test ten polega na sprawdzeniu, czy speÃlnione sa̧ warunki konieczne do tego aby rozkÃlad badanej zmiennej mógÃl być rozkÃladem normalnym. Wiadomo, że dla rozkÃladu normalnego wspóÃlczynnik asymetrii i kurtoza (wspóÃlczynnik przewyższenia) znikaja̧ niezależnie od tego jaka jest wartość oczekiwana i wariancja rozkÃladu. A wiȩc • Hipoteza zerowa, H0 : (γ1 = 0) ∧ (γ2 = 0) • Statystyka testowa: √ n · g1 √ 6 √ n · g2 √ = 24 Q1 = Q2 gdzie g1 i g2 to estymatory wspóÃlczynnika asymetrii γ1 i kurtozy γ2 : γ1 ≡ E ((x − E(x))3 ) σ 3 (x) γ1 ≡ E ((x − E(x))4 ) σ 4 (x) −3 B.Kamys: Fiz. Komp. 2003/04 83 opisane poniższymi wzorami: M3 g1 = q , M23 g2 = M4 −3 M22 UWAGA: Wielkości M2 , M3 i M4 to nie sa̧ momenty liczone wzglȩdem pocza̧tku ukÃladu lecz estymatory momentów centralnych odpowiednio drugiego, trzeciego i czwartego rzȩdu: n P M2 ≡ n1 (xi − x̄)2 i=1 n 1 P M3 ≡ n (xi − x̄)3 i=1 n P M4 ≡ n (xi − x̄)4 i=1 1 Jeżeli hipoteza zerowa jest prawdziwa oraz próba jest bardzo duża to statystyki g1 i g2 maja̧ rozkÃlady normalne o wartościach oczekiwanych E(g1 ) ≈ 0 E(g2 ) ≈ 0 i odchyleniach standardowych: s σ(g1 ) ≈ s 6 σ(g2 ) ≈ n 24 n Wtedy estymatory Q1 i Q2 maja̧ standardowe rozkÃlady normalne N(0,1). • Hipoteza alternatywna to zaprzeczenie H0 : prawdziwe wartości γ1 i γ2 nie sa̧ równe 0. • Obszar krytyczny dwustronny. Brzegi określone przez kwantyl rozkÃladu N(0,1): | Q1 |> U1 2 [ | Q2 |> U1 2 Jeżeli rozmiary próby nie sa̧ bardzo duże to rozkÃlad statystyk Q1 i Q2 nie przyjmuje swej asymptotycznej postaci; N(0,1) ale wartości oczekiwane i wariancje tych zmiennych sa̧ bliskie odpowiednio zeru i jedności. Można to wykorzystać do stworzenia obszaru krytycznego w oparciu o nierówność Czebyszewa . Jako obszar krytyczny przyjmuje siȩ S wartości ( | Q1 |> 3 | Q2 |> 3 ) tj. poziom istotności równy α = 1/9. B.Kamys: Fiz. Komp. 2003/04 84 Należy zwrócić uwagȩ na fakt, że powyższy test pozwala zwykle w uzasadniony sposób odrzucić hipotezȩ zerowa̧ (gdy Q1 lub Q2 trafia do obszaru krytycznego) natomiast fakt, że wartości tych statystyk nie sa̧ sprzeczne z hipoteza̧ zerowa̧ nie wyklucza możliwości, że mamy do czynienia z rozkÃladem różnym od normalnego. 12.2.2 Test zgodności λ - KoÃlmogorowa Ten test stosowany jest do porównania rozkÃladu prawdopodobieństwa z próby ze znanym (teoretycznym) rozkÃladem. Tu wykorzystujemy go do testowania normalności rozkÃladu ale można go stosować do dowolnych teoretycznych rozkÃladów cia̧gÃlej zmiennej losowej. Parametry rozkÃladu powinny być określone w hipotezie zerowej. Pomiary z próby x1 , x2 , x3 , ...xn porza̧dkujemy wg wzrastajacej wartości otrzymuja̧c nastȩpujacy cia̧g: x1 ≤ x2 ≤ x3 ≤ ... xn , taka̧, że jej realizacja x zajmuje w cia̧gu m − te miejsce nazyZmienna̧ losowa̧ Xm m wamy statystyka̧ pozycyjna̧ rzȩdu m w próbie n-elementowej. Tworzymy empiryczna̧ dystrybuantȩ Fn (x) obserwowanej w próbie zmiennej losowej X: 0 m Fn (x) = n 1 gdy gdy gdy x ≤ x1 xm < x ≤ xm+1 , 1 ≤ m ≤ n − 1 x > xn Empiryczna dystrybuanta jest zwykÃla̧ funkcja̧ argumentu x ale jest równocześnie statystyka̧ bo jest definiowana przez wszystkie wielkości x1 , ..., xn z próby. Można pokazać, że wartość oczekiwana empirycznej dystrybuanty jest równa oszacowywanej wielkości teoretycznej dystrybuanty E(Fn (x)) = F (x) a jej wariancja da̧ży do zera gdy rozmiary próby da̧ża̧ do nieskończoności σ 2 (Fn (x)) = 1 · F (x) · (1 − F (x)) → 0. n Sta̧d Fn (x) jest nieobcia̧żonym i zgodnym estymatorem F(x). B.Kamys: Fiz. Komp. 2003/04 85 • Hipoteza zerowa Dystrybuanta obserwowanej zmiennej losowej jest dystrybuanta̧ rozkÃladu normalnego o parametrach E(x) = x0 , σ(x) = σ: E(F n(x)) = Z x 1 1 dx · √ · exp(− 2πσ (x − x0 )2 2σ 2 ) • Statystyka testowa: w oryginalnej wersji - zaproponowanej przez KoÃlmogorowa: Dn = sup | Fn (x) − F (x) | x Smirnow zaproponowaÃl dwie inne definicje statystyki testowej (sta̧d czȩsto używana nazwa test KoÃlmogorowa-Smirnowa): Dn+ = sup(Fn (x) − F (x)) x Dn = − inf (Fn (x) − F (x)) x Dla praktycznych rachunków wykorzystuje siȩ nieco inne wzory, które wymagaja̧ znajomości teoretycznej dystrybuanty tylko dla zmierzonych wartości zmiennej X: Dn+ = Dn = max ( mn 1 m n − F (xm ) ) max ( F (xm ) − mn 1 m−1 n ) Dn = max( Dn+ , Dn ) • Obszar krytyczny: prawostronny (duże wartości Dn , tzn. Dn > Dn (1 − α)) Granicȩ obszaru krytycznego, tj. kwantyl Dn (1 − α) można dla n ≥ 10 oraz dla poziomu istotności α ≥ 0, 01 wyliczyć z przybliżonego wzoru (dokÃladność nie gorsza niż 3 cyfry znacza̧ce) s Dn (1 − α) ≈ 1 · (y − 2y 2 − 4y − 1 2n y ≡ − ln(0, 5 · α) 18n )− 1 6n B.Kamys: Fiz. Komp. 2003/04 86 Po wyliczeniu z próby wartości statystyki Dn porównujemy ja̧ z kwantylem Dn (1 − α) znalezionym z tablic lub wyliczonym z podanego wzoru (W praktyce możemy wyliczać ten kwantyl wg wzoru ponieważ zarówno typowe poziomy istotności α ≥ 0, 01 jak i liczebność próby n ≥ 10 odpowiadaja̧ warunkom stosowania tego wzoru.) Gdy Dn > Dn (1−α) odrzucamy hipotezȩ zerowa̧, tzn. stwierdzamy, że dane doświadczalne wykluczaja̧ to aby rozkÃlad prawdopodobieństwa populacji byÃl rozkÃladem normalnym z parametrami E(x) = x0 i σ(x) = σ, przy czym nasz wniosek może być bÃlȩdny z prawdopodobieństwem α. UWAGA: 1. Statystyka Dn powinna być liczona ze szczegóÃlowego szeregu statystycznego ( tj. z indywidualnych pomiarów ) a nie może być liczona z szeregu rozdzielczego (danych pogrupowanych)!! 2. Statystyka Dn testu KoÃlmogorowa - Smirnowa ma dla n da̧ża̧cego do nieskończoności rozkÃlad niezależny od postaci porównywanych rozkÃladów: To jest wielka̧ zaleta̧ testu ale jest również pewna̧ sÃlabościa̧ bo przez to jest stosunkowo maÃlo czuÃly na postać ogonów rozkÃladu. Aby to poprawić stosuje siȩ specjalna̧ odmianȩ tego testu tzw. test Andersona - Darlinga, który przy liczeniu wartości krytycznych testu wykorzystuje specyfikȩ badanych rozkÃladów. Te wartości liczone sa̧ przy pomocy specjalnych programów komputerowych. 3. Dla poprawnego stosowania testu KoÃlmogorowa - Smirnowa niezbȩdna jest znajomość wartości parametrów teoretycznego rozkÃladu. Jeżeli nie znamy tych parametrów - musimy je wcześniej oszacować, np. przy pomocy metody najwiȩkszej wiarygodności. Istnieja̧ programy, które dokonuja̧ automatycznie takiego oszacowania (np. w pakiecie STATISTICA ta wersja testu nazywa siȩ testem KoÃlmogorowa -Smirnowa z poprawka̧ Lillieforsa . 12.2.3 Test zgodności Andersona-Darlinga Jak to wspomniano wyżej ten test jest modyfikacja̧ testu KoÃlmogorowa-Smirnowa wykorzystuja̧ca̧ do liczenia wartości krytycznych wÃlasności badanego rozkÃladu (tu - rozkÃladu normalnego). Test ten jest bardziej czuÃly na ksztaÃlt ”ogonów” rozkÃladu. • Hipoteza zerowa Dystrybuanta obserwowanej zmiennej losowej jest dystrybuanta̧ rozkÃladu normalnego. • Hipoteza alternatywna Zaprzeczenie hipotezy zerowej. B.Kamys: Fiz. Komp. 2003/04 87 • Statystyka testowa A2 = −n − S gdzie S= n (2i 1) n P ln F (xi ) + ln[1 − F (xn+1 i )] n i=1 F (xi ) − dystrybuanta danego x − statystyka pozycyjna o rozkladu normalnego i • Obszar krytyczny Prawostronny (duże wartości statystyki testowej): A2 > A21 . Typowe wartości krytyczne testu: A20:9 = 1.062 A20:95 = 1.321 A20:975 = 1.591 A20:99 = 1.959 UWAGA: Te kwantyle sa̧ policzone przy zaÃlożeniu, że badany rozkÃlad jest normalny. Nie moga̧ wiȩc być stosowane dla testowania czy dane maja̧ inny rozkÃlad. 12.2.4 Test zgodności χ2 - Pearsona Podobnie jak test λ KoÃlmogorowa tak i ten test stosowany jest do porównania rozkÃladu prawdopodobieństwa z próby ze znanym (teoretycznym) rozkÃladem. Tu wykorzystujemy go do testowania normalności rozkÃladu ale można go stosować do dowolnych teoretycznych rozkÃladów cia̧gÃlej lub dyskretnej zmiennej losowej ale pomiary musza̧ być pogrupowane (szereg rozdzielczy) - wprost przeciwnie niż w przypadku testu KoÃlmogorowa. • Hipoteza zerowa Dystrybuanta obserwowanej zmiennej losowej jest dystrybuanta̧ rozkÃladu normalnego: Z x (x − x0 )2 1 · exp(− ) E(F n(x)) = dx · √ 1 2σ 2 2πσ • Statystyka testowa: X2 = k (n − n · π )2 X i i i=1 nπi B.Kamys: Fiz. Komp. 2003/04 88 gdzie – k to liczba przedziaÃlów w szeregu rozdzielczym (przynajmniej kilka), – ni to liczebność i − tego przedziaÃlu (ni ≥ 5), – πi to prawdopodobieństwo zaobserwowania pomiarów w przedziale i − tym jeżeli prawdziwa jest hipoteza zerowa, – n to liczba wszystkich pomiarów. Dowodzi siȩ, że asymptotycznie (tzn. dla n → ∞) statystyka X 2 ma rozkÃlad χ2k r 1 , gdzie r jest liczba̧ nieznanych parametrów teoretycznego rozkÃladu (dla rozkÃladu normalnego r = 2) oszacowywanych wstȩpnie z próby metoda̧ najwiȩkszej wiarygodności. • Obszar krytyczny to duże wartości X 2 (X 2 > χ2k r 1 (1 − α)), gdzie w naszym przypadku testowania normalności rozkÃladu χ2k r 1 (1 − α) jest kwantylem rzȩdu 1 − α rozkÃladu χ2k 1 (gdy znamy E(x) i σ(x) rozkÃladu normalnego) lub rozkÃladu χ2k 3 (gdy musimy oszacować przed testowaniem normalności E(x) i σ(x) ). Test χ2 również nie wymaga skomplikowanych obliczeń i dlatego może być przeprowadzony bez użycia komputera ale kwantyle tego rozkÃladu nie dadza̧ siȩ policzyć tak prosto jak dla testu KoÃlmogorowa. Musimy korzystać z tablic statystycznych. 12.2.5 Wykres normalny Wykres ten jest szczególnym przypadkiem wykresu kwantyl - kwantyl, na którym przedstawia siȩ estymatory kwantyli dla rozkÃladu zmiennej z próby w funkcji kwantyli teoretycznego rozkÃladu. Jako kwantyle teoretycznego rozkÃladu bierze siȩ kwantyle standardowego rozkÃladu normalnego. Jako kwantyle doświadczalne bierzemy kolejne wartości pozycyjnej statystyki z próby. Jeżeli hipoteza zerowa (normalność rozkÃladu mierzonej wielkości X) jest prawdziwa to tak otrzymany wykres powinien być linia̧ prosta̧. Odstȩpstwa od prostoliniowości sa̧ argumentem za odrzuceniem hipotezy zerowej. • Hipoteza zerowa Dystrybuanta obserwowanej zmiennej losowej jest dystrybuanta̧ rozkÃladu normalnego, przy czym dla tego testu nie jest wymagana znajomość parametrów rozkÃladu. • Statystyka testowa Jako statystykȩ testowa̧ można wzia̧ć estymator wspólczynnika korelacji r pomiȩdzy doświadczalnymi i teoretycznymi kwantylami. Postȩpujemy nastȩpuja̧co: 1. Porza̧dkujemy pomiary {xk } tak aby utworzyÃly cia̧g rosnacy {xk } czyli statystykȩ pozycyjna̧. Statystykȩ pozycyjna̧ rzȩdu k z n - elementowej próby traktujemy jako estymator kwantyla na poziomie k/(n + 1). 2. Szukamy zk , tj. teoretycznego kwantyla standardowego rozkÃladu normalnego na poziomie k/(n + 1) wykorzystuja̧c relacjȩ: B.Kamys: Fiz. Komp. 2003/04 F (zk ) = 89 à k ⇒ zk = F n+1 1 k ! n+1 3. Rysujemy pary {zk , xk }. Gdy wykres wyraźnie różni siȩ od linii prostej to odrzucamy H0 , w przeciwnym wypadku liczymy estymator wspóÃlczynnika korelacji r(zk , xk ) i przeprowadzamy bardziej ilościowe rozważania. • Obszar krytyczny to maÃle wartości estymatora r wspóÃlczynnika korelacji %(zk , xk ), tj. mniejsze od odpowiednich wartości krytycznych rn (α) zależnych od poziomu istotności α (test lewostronny). Wartości te można znaleźć w tablicach lub zastosować przybliżone wzory podane poniżej: rn (α = 0.05) ≈ 1 − 0.5669 n2=3 , rn (α = 0.01) ≈ 1 − 0.3867 n2=3 Wzory te daja̧ krytyczne wartości wspóÃlczynnika korelacji rn (α) dla dwu poziomów istotności α z dokÃladnościa̧ nie gorsza̧ niż 1% jeżeli rozmiar próby n leży w przedziale 5 < n < 1000. UWAGA: Jeżeli linia prosta jest dobrym przybliżeniem, to wspóÃlczynnik kierunkowy prostej {zk , xk } równy jest parametrowi skali (tj. odchyleniu standardowemu) a wspóÃlrzȩdna przeciȩcia prostej z osia̧ xk równa jest wspóÃlczynnikowi tendencji centralnej (wartości oczekiwanej X). W ten sposób można oszacować parametry rozkÃladu normalnego, rza̧dza̧cego wartościami zmiennej z próby. B.Kamys: Fiz. Komp. 2003/04 12.3 90 HIPOTEZY DOTYCZA̧CE WARTOŚCI OCZEKIWANEJ Zajmujemy siȩ zmiennymi o rozkÃladzie normalnym. Sa̧ dwie podstawowe hipotezy, które bada siȩ najczȩściej: • Porównanie E(X) z liczba̧: H0 : E(X) = x0 , oraz • Porównanie wartości oczekiwanych dwu populacji: H0 : E(X) = E(Y ) Każda z tych hipotez może oczywiście być formuÃlowana jako nierówność, np. H0 : E(X) > X0 ale wtedy hipoteza zerowa jest zÃlożona a wiȩc nie mamy jednoznacznie zdefiniowanego rozkÃladu X. Z tego powodu wygodniej jest zawsze brać jako hipotezȩ zerowa̧ równość E(X) z dana̧ liczba̧ lub E(Y) a interesuja̧ca̧ nas hipotezȩ traktować jako hipotezȩ alternatywna̧. 12.3.1 PORÓWNANIE E(X) Z LICZBA̧ (H0 : E(X)=X0 ) Musimy rozróżnić dwa przypadki: • gdy znamy σ(X), wtedy jako statystykȩ testowa̧ Tn (X) bierzemy poniższa̧ statystykȩ z o rozkÃladzie standardowym normalnym N(0,1): z= (x − E(X)) σ(X) • gdy nie znamy σ(X), to jako statystykȩ Tn (X) bierzemy analogiczna̧ funkcjȩ ”t”, w której σ zasta̧piona jest estymatorem S(X): t= (x − E(X)) S(X) . Statystyka t ma rozkÃlad Studenta o (n-1) stopniach swobody. Oczywiście odchylenie standardowe średniej arytmetycznej σ(X) podobnie jak jego estymator √ S(X) równe sa̧ odpowiednim wartościom dla samej zmiennej X podzielonym przez n: σ(X) σ(X) = √ n B.Kamys: Fiz. Komp. 2003/04 91 Tablica 2: Obszar krytyczny dla hipotez dotycza̧cych E(X) Hipoteza H1 Obszar krytyczny gdy znamy σ(X) E(X) 6= X0 | z | > z1 2 Obszar krytyczny gdy nie znamy σ(X) | t | > t1 2 E(X) > X0 z > z1 t > t1 E(X) < X0 z < z t < t Sposób określenia obszaru krytycznego dla poszczególnych hipotez alternatywnych podany jest w tabeli (2). z oraz t to odpowiednio fraktyle standardowego rozkÃladu normalnego N(0,1) i rozkÃladu Studenta o (n-1) stopniach swobody. Oba te rozkÃlady sa̧ symetryczne wzglȩdem zera a wiȩc można wykorzystać nastȩpuja̧ca̧ symetriȩ kwantyli: z = −z1 t = −t1 12.3.2 WARTOŚCI OCZEKIWANE DWU POPULACJI (H0 : E(X) = E(Y )) Tutaj trzeba odróżnić trzy sytuacje: 1.) σ(X) i σ(Y ) znane, 2.) σ(X) i σ(Y ) nieznane ale σ(X) = σ(Y ), 3.) σ(X) i σ(Y ) nieznane oraz σ(X) 6= σ(Y ), B.Kamys: Fiz. Komp. 2003/04 92 ad 1.) Jako statystykȩ testowa̧ bierze siȩ zmienna̧ z: z= r X −Y X) 2 (Y ) nx + ny 2( Zmienna ta ma rozkÃlad standardowy normalny N(0,1). ad 2.) Po stwierdzeniu (przy pomocy testu Fishera-Snedecora), że wariancje zmiennej X i zmiennej Y można uznać za równe, stosujemy test Studenta ze zmienna̧ t zdefiniowana̧ nastȩpuja̧co: t = X −Y r S(X, Y ) · S(X, Y ) = nx +ny nx ny v u u (nx − 1) ∗ S 2 (X) + (ny − 1) ∗ S 2 (Y ) t nx + ny − 2 Zmienna t ma rozkÃlad Studenta o (nx + ny − 2) stopniach swobody. ad 3.) Jeżeli test F pokazaÃl, że wariancje zmiennych X i Y sa̧ istotnie różne to jako statystykȩ testowa̧ używa siȩ zmodyfikowanej zmiennej t: t= r X −Y S X) S 2 (Y ) nx + ny 2( Zmienna t ma rozkÃlad, który można przybliżyć rozkÃladem Studenta o efektywnej liczbie stopni swobody nef : ( S n(xX ) + S n(yY ) )2 −2 nef = (S 2 (X )=nx )2 (S 2 (Y )=ny )2 + nx +1 ny +1 2 2 B.Kamys: Fiz. Komp. 2003/04 93 Ponieważ efektywna liczba stopni swobody nef zwykle nie jest liczba̧ caÃlkowita̧ to szukaja̧c w tablicach musimy zaokra̧glać ja̧ do liczby caÃlkowitej (bezpieczniej zaokra̧glać w dóÃl - wtedy efektywnie zwiȩkszamy nieco poziom istotności). W tabeli przytoczonej poniżej zdefiniowane sa̧ obszary krytyczne dla tych trzech przypadków przy zastosowaniu dwu różnych hipotez alternatywnych H1 . Hipoteza H1 E(X) 6= E(Y ) E(X) > E(Y ) Obszar krytyczny σ(X) i σ(Y ) znane Obszar krytyczny σ(X) = σ(Y ) nieznane Obszar krytyczny σ(X) 6= σ(Y ) nieznane | t | > tnx +ny 2 (1 − 2 ) | t | > tnef (1 − 2 ) z > z1 t > tnx +ny 2 (1 − α) t > tnef (1 − α) | z | > z1 2 Oczywiście statystyki testowe z i t to statystyki zdefiniowane powyżej a fraktyle należy brać odpowiednio dla rozkÃladu standardowego normalnego N(0,1) oraz rozkÃladów Studenta o odpowiedniej liczbie stopni swobody. B.Kamys: Fiz. Komp. 2003/04 12.4 94 HIPOTEZY DOTYCZA̧CE WARIANCJI Najważniejsze to hipotezy porównuja̧ce wariancjȩ zmiennej X z liczba̧ oraz hipoteza porównuja̧ca wariancje dwu populacji. ZakÃladamy, podobnie jak w przypadku hipotez odnosza̧cych siȩ do wartości oczekiwanych, że zmienne losowe pochodza̧ z populacji normalnych. 12.4.1 PORÓWNANIE WARIANCJI X Z LICZBA̧ (H0 : σ 2 (X) = σ02 ) Dla testowania takiej hipotezy używa siȩ statystyki testowej Q2 zdefiniowanej nastȩpuja̧co: 2 Q = (n − 1) · S 2 (X) σ02 Przy prawdziwości H0 ta statystyka ma rozkÃlad χ2n 1 , gdzie n to liczba pomiarów w próbie a S2 (X) to estymator wariancji. Obszary krytyczne dla różnych hipotez alternatywnych sa̧ wymienione w tabeli poniżej: Hipoteza H1 12.4.2 Obszar krytyczny σ 2 (X) 6= σ02 Q2 < χ2 lub Q2 > χ21 σ 2 (X) > σ02 Q2 > χ21 σ 2 (X) < σ02 Q2 < χ2 2 2 PORÓWNANIE WARIANCJI DWU POPULACJI Hipoteza zerowa H0 : σ 2 (X) = σ 2 (Y ) Dla testowania tej hipotezy używa siȩ testu F Fishera-Snedecora. Zarówno zmienna̧ jak i rozkÃlad prawdopodobieństwa oznacza siȩ litera̧ F z dwoma wskaźnikami n1 , n2 : F(n1 , n2 ). Zmienna F(n1 , n2 ) to stosunek dwu zmiennych o rozkÃladach chikwadrat podzielonych przez ich liczby stopni swobody , przy czym zmienna w liczniku ma n1 a zmienna w mianowniku n2 stopni swobody: B.Kamys: Fiz. Komp. 2003/04 95 2 ( n1 ) F (n1 , n2 ) ≡ n21 ( nn22 ) Zmienna ta przyjmuje, jako stosunek dwu nieujemnych liczb, tylko wartości nieujemne a ksztaÃlt jej rozkÃladu jest podobny do ksztaÃltu rozkÃladu χ2 . Jako statystykȩ testowa̧ F bierze siȩ iloraz estymatora S2 (X) i estymatora S2 (Y): F ≡ S 2 (X) S 2 (Y ) L à atwo pokazać, że statystyka F ma rozkÃlad F(nx − 1, ny − 1): Wiemy z rozważań dotycza̧cych porównania wariancji z liczba̧, że zmienna Q2 obliczona dla próby skÃladaja̧cej siȩ z n elementów ma rozkÃlad χ2n 1 . Po podzieleniu jej przez 2 liczbȩ stopni swobody (n − 1) otrzymujemy iloraz S2 . Jeżeli prawdziwa jest hipoteza zerowa gÃlosza̧ca, że wariancje licznika i mianownika sa̧ równe, to stosunek statystyk S 2 (X) 2 2 (licznika) i S 2 (Y ) (mianownika) jest równy stosunkowi Qnx(X1) i Qny(Y1) czyli równy jest zmiennej F (nx − 1, ny − 1). Jako hipotezȩ alternatywna̧ kÃladzie siȩ brak równości obu wariancji lub to, że wariancja licznika jest wiȩksza od wariancji mianownika: Hipoteza H1 Obszar krytyczny σ 2 (X) 6= σ 2 (Y ) F < F 2 (nx − 1, ny − 1) lub F > F1 σ 2 (X) > σ 2 (Y ) F > F1 (nx − 1, ny − 1) (nx 2 − 1, ny − 1) Jeżeli w tablicach podane sa̧ tylko kwantyle rozkÃladu F na dużym poziomie lub tylko na maÃlym poziomie, to korzysta siȩ z oczywistej równości: F=2 (n1 , n2 ) = 1/F1 =2 (n2 , n1 ) B.Kamys: Fiz. Komp. 2003/04 12.5 96 HIPOTEZA JEDNORODNOŚCI WARIANCJI (KILKU POPULACJI Zajmujemy siȩ zmiennymi o rozkÃladzie normalnym. Sprawdzamy czy wariancje kilku populacji sa̧ takie same (np. czy dokÃladność kilku różnych serii pomiarów jest taka sama). Ta wÃlasność - zwana jednorodnościa̧ wariancji - może być interesuja̧ca sama w sobie a dodatkowo jest niezbȩdna jeżeli chcemy badać równość wartości oczekiwanych kilku populacji przez zastosowanie tzw. analizy wariancji (ANOVA). 12.5.1 TEST BARTLETTA Badamy k populacji normalnych. Z każdej populacji i = 1, .., k bierzemy ni obserwacji P (w sumie n = n i=1 ni wyników). • Hipoteza zerowa H0 : Wszystkie wariancje sa̧ sobie równe: σ12 = σ22 = ·· = σk2 • Hipoteza alternatywna H1 : Przynajmniej jedna wariancja jest wiȩksza od pozostaÃlych: σj2 > σ12 = · · σj2 1 = σj2+1 = ·· = σk2 • Statystyka testowa: M = µ k P S2 − (ni − 1) · ln Si2 i=1 ¶ " # k P 1 1 1 − 1 + 3(k 1) n 1 n k i i=1 gdzie Si2 jest estymatorem wariancji dla i-tej próby: Si2 = ni1 ni P 1 j =1 (xji − x̄i )2 oraz k P S2 = n 1 k (ni − 1) · Si2 . i=1 Bartlett pokazaÃl, że zmienna M zdefiniowana powyżej ma rozkÃlad, który bardzo szybko da̧ży do rozkÃladu chi-kwadrat o k-1 stopniach swobody. Wystarcza już warunek ni > 3 dla wszystkich prób i. • Obszar krytyczny: prawostronny. B.Kamys: Fiz. Komp. 2003/04 12.5.2 97 TEST COCHRANA Można go stosować dla k populacji normalnych jeżeli liczebność wszystkich prób ni , i=1,..,k jest identyczna. • Hipoteza zerowa H0 : Wszystkie wariancje sa̧ sobie równe: σ12 = σ22 = ·· = σk2 • Hipoteza alternatywna H1 : Przynajmniej jedna wariancja jest wiȩksza od pozostaÃlych: σj2 > σ22 = · · σj2 1 = σj2+1 = ·· = σk2 • Statystyka testowa: G= max Si2 i k P i=1 Si2 gdzie Si2 jest estymatorem wariancji dla i-tej próby. • Obszar krytyczny: prawostronny. Należy korzystać ze specjalnych tablic testu Cochrana. B.Kamys: Fiz. Komp. 2003/04 12.6 98 ANALIZA WARIANCJI - klasyfikacja jednoczynnikowa Analiza wariancji - zaproponowana przez R. A. Fishera - to metoda sÃluża̧ca w swojej najprostszej wersji do porównania wartości oczekiwanych kilku populacji normalnych. Poniżej zostanie wyjaśniona idea tej metody na przykÃladzie tego zastosowania. Należy podkreślić, że analiza wariancji zwana czȩsto ANOVA (ANalysis Of VAriance) ma bardzo szerokie zastosowanie w naukach biologicznych i medycznych gdyż czynnik odróżniaja̧cy populacje może być zmienna̧ jakościowa̧. ZAÃLOŻENIA: 1. Badamy k populacji normalnych zmiennych X1 , ...Xk , 2. Wszystkie populacje maja̧ równe wariancje, Jeżeli nie mamy z góry zagwarantowanego speÃlnienia tych zaÃlożeń to musimy przeprowadzić odpowiednie testy statystyczne (np. Test λ-KoÃlmogorowa, test χ2 Pearsona lub inne dla sprawdzenia normalności populacji oraz test Bartletta lub Cochrana dla sprawdzenia identyczności wariancji - nazywanej jednorodnościa̧ wariancji - dla różnych populacji). • Hipoteza zerowa: H0 : E(X1 ) = E(X2 ) = ... = E(Xk ) • Hipoteza alternatywna: H1 : Niektóre E(Xi ) sa̧ różne. • Statystyka testowa: Wprowadzamy nastȩpuja̧ce oznaczenia: – xij to i-ty pomiar z j-tej próby (j-tej populacji) – nj to liczebność j-tej próby, przy czym k P j =1 nj = N – x̄j to średnia arytmetyczna dla j-tej próby: nj P nj P x̄j = n1j xij czyli xij = nj · x̄j i=1 i=1 – x̄ to średnia arytmetyczna wszystkich pomiarów: nj k P P k P 1 x̄ = N1 xij = N nj · x̄j j =1 i=1 j =1 – nj k P P k P (x̄j − x̄ )2 = (k 1 1) nj · (x̄j − x̄ )2 s2b ≡ (k 1 1) j =1 i=1 j =1 to estymator wariancji caÃlkowitego zbioru danych liczony z rozrzutu średnich arytmetycznych poszczególnych prób j = 1, .., k. Kwadrat odchylenia j-tej B.Kamys: Fiz. Komp. 2003/04 99 średniej x̄j od ogólnej średniej wchodzi do wzoru z waga̧ równa̧ liczebności jtej próby. Ponieważ ogólna średnia narzuca jeden warunek na zespóÃl k średnich grupowych to suma s2b ma (k − 1) stopni swobody . Wskaźnik ”b”pochodzi od angielskiego sÃlowa ”between”(pomiȩdzy) i s2b nazywany jest estymatorem ”wariancji miȩdzygrupowej”. – nj k P P s2w ≡ (N 1 k) (xij − x̄j )2 j =1 i=1 to estymator wariancji caÃlkowitego zbioru danych liczony z rozrzutu pomiarów wewna̧trz każdej próby j = 1, .., k. Liczba stopni swobody dla sumy kwadratów wewna̧trz j-tej grupy to (nj − 1). Liczba stopni swobody dla sumy kwadratów po wszystkich k grupach to: (n1 − 1) + (n2 − 1) + .. + (nk − 1) = k P j =1 nj − k = N − k. Sta̧d liczba stopni swobody tej sumy wynosi (N − k). Wskaźnik ”w” pochodzi od angielskiego sÃlowa ”within” (wewna̧trz) i dlatego estymator s2w nazywany jest estymatorem ”wariancji wewna̧trzgrupowej”. TWIERDZENIE: Można pokazać, że przy równości wariancji wszystkich populacji σ12 = σ22 = . . . = σk2 ≡ σ 2 zachodza̧ nastȩpuja̧ce relacje: E{s2w } = σ 2 E{s2b } = σ 2 + µ k P j =1 (E fxj g E fxg) k 1 ¶ µ 2 N · k n2j P ¶ j =1 N k 1 gdzie E{xj } i E{x} to wartość oczekiwana dla j -tej populacji i postulowana przez hipotezȩ zerowa̧ wspólna wartość oczekiwana wszystkich populacji. Jak widać, estymator s2w jest zawsze nieobcia̧żonym estymatorem wariancji (niezależnie od prawdziwości H0 ), natomiast estymator s2b jest nieobcia̧żony tylko wtedy, gdy H0 jest prawdziwa natomiast ma dodatnie obcia̧żenie, gdy tak nie jest (kwadrat sumy dodatnich liczb N 2 ≡ ( jest zawsze wiȩkszy od sumy ich kwadratów). k P j =1 nj )2 Jako statystykȩ testowa̧ bierzemy wielkość: s2b /s2w = F (k − 1, N − k) Powyższy wzór przedstawia stosunek dwu estymatorów wariancji, który przy prawdziwości hipotezy zerowej powinien być zmienna̧ o rozkÃladzie F Fishera - Snedecora. B.Kamys: Fiz. Komp. 2003/04 100 • Obszar krytyczny Jeżeli hipoteza zerowa nie jest prawdziwa to statystyka testowa powinna być wiȩksza niż przewiduje to rozkÃlad F (k − 1, N − k) bo wtedy s2b jest dodatnio obcia̧żony, a wiȩc obszar krytyczny odpowiada dużym wartościom statystyki testowej (test prawostronny). UWAGI: 1. Gdy odrzucamy hipotezȩ zerowa̧, czyli stwierdzamy że nie wszystkie populacje maja̧ równe wartości oczekiwane badanej wielkości X, pojawia siȩ problem oszacowania tych wartości oczekiwanych. Jako estymator wartości oczekiwanej j-tej populacji przyjmuje siȩ definiowana̧ wyżej wielkość x̄j . 2. Jednoczynnikowa analiza wariancji bierze swa̧ nazwȩ z faktu podziaÃlu caÃlej populacji wartości zmiennej X na k populacji różnia̧cych siȩ wartościa̧ lub poziomem jednego klasyfikuja̧cego czynnika. W szczególności ten czynnik może być zmienna̧ jakościowa̧ a wiȩc zamiast wartości czynnika klasyfikuja̧cego (zmiennej ilościowej) moga̧ to być kategorie lub poziomy czynnika jakościowego. Na przykÃlad, zmienna̧ X może być temperatura ciaÃla leczonych pacjentów a czynnikiem klasyfikuja̧cym rodzaj podanego lekarstwa. Dziȩki takim możliwościom analiza wariancji jest czȩsto stosowana w naukach biologicznych, medycznych i spoÃlecznych a wiȩc tam gdzie używa siȩ zmiennych jakościowych. 3. Warunkiem stosowalności analizy wariancji jest normalność analizowanej zmiennej oraz jednorodność wariancji (równość wariancji) dla wszystkich porównywanych populacji. Z doświadczenia wiadomo, że drugi warunek jest znacznie ważniejszy , tzn. niejednorodność wariancji wpÃlywa silniej na wyniki analizy wariancji niż niewielkie odstȩpstwa od normalności rozkÃladu zmiennej X. W przypadku, gdy wariancja zmienia siȩ regularnie wraz z wartościa̧ oczekiwana̧ (co stwierdzamy porównuja̧c średnie poszczególnych prób i estymatory s2 dla tych prób) można zastosować przeksztaÃlcenia zmiennych takie jak pierwiastkowanie lub logarytmowanie, a nastȩpnie przeprowadzić analizȩ wariancji dla tak przeksztaÃlconych danych. Taka̧ procedurȩ postȩpowania, nazywa siȩ stabilizacja̧ wariancji. 4. Rachunki zwia̧zane z analiza̧ wariancji należy prowadzić z możliwie duża̧ dokÃladnościa̧, gdyż pozornie niewielkie zaokra̧glenia moga̧ silnie znieksztaÃlcić wyniki. B.Kamys: Fiz. Komp. 2003/04 101 Sumy kwadratów wystȩpuja̧ce w definicjach s2b i s2w zaleca siȩ liczyć wg wzorów przytoczonych w prawej kolumnie poniżej: SSb ≡ (k − 1) · s2b = k P j =1 SSw ≡ (N − k) · s2w = SS ≡ (N − 1) · nj k P P j =1 i=1 nj x̄2:j − N x̄2:: nj k P P j =1 i=1 x2ij − k P j =1 (xij − x̄:: )2 = nj x̄2:j nj k P P j =1 i=1 x2ij − N x̄2:: gdzie suma kwadratów SS jest obliczana jako sprawdzian bo musi zachodzić: SS = SSb + SSw . Zwykle cza̧stkowe wyniki zapisuje siȩ w postaci tabeli analizy wariancji jednoczynnikowej: Rodzaj wariancji SS≡ sum of squares DF≡ degrees of freedom MS≡ mean square F - statystyka (suma kwadratów) (liczba stopni swobody) (średni kwadrat) testowa Pomiȩdzy grupami SSb k−1 s2b = SSb /(k − 1) Wewna̧trz grup SSw N −k s2w = SSw /(N − k) CaÃlkowita SS N −1 s2 = SS/(N − 1) F = s2b /s2w B.Kamys: Fiz. Komp. 2003/04 12.7 102 ANALIZA WARIANCJI - dla regresji liniowej Analiza wariancji polega na podziale sumy kwadratów odchyleń na czȩść wyjaśniona̧ przez regresjȩ i czȩść niewyjaśniona̧ (definicja tych pojȩć podana jest poniżej). Zapisuja̧c regresjȩ liniowa̧ w postaci R(x) = b + ax możemy przedstawić sumȩ kwadratów odchyleń poszczególnych pomiarów yi od wartości średniej ȳ jako sumȩ: X i (yi − ȳ)2 = X i 2 ((yi − R(xi )) + (R(xi ) − ȳ)) . Pierwszy z wewnȩtrznych nawiasów opisuje odchylenie pomiarów od prostej regresji a drugi odchylenie regresji od średniej arytmetycznej wszystkich pomiarów. Dalej bȩdziemy używać uproszczonego zapisu polegaja̧cego na opuszczaniu wskaźników przy symbolu sumy i przy sumowanych elementach oraz na opuszczaniu argumentu x w funkcji regresji liniowej. Wtedy powyższy wzór bȩdzie zapisany nastȩpuja̧co: X (y − ȳ)2 = X ((y − R) + (R − ȳ))2 . Sumȩ tȩ możemy rozpisać tak: X (y − ȳ)2 = X (y − R)2 + 2 X (y − R) (R − ȳ) + X (R − ȳ)2 , a wykorzystuja̧c fakt, że drugi wyraz jest równy zero przedstawić jako dwie sumy kwadratów: X (y − ȳ)2 = X (y − R)2 + X (R − ȳ)2 . Pierwsza z sum po prawej stronie równania nazywana jest niewyjaśniona̧ (przez regresjȩ) suma̧ kwadratów a druga wyjaśniona̧ (przez regresjȩ) suma̧ kwadratów . Nazwy te staja̧ siȩ oczywiste gdy zależność y od x jest liniowa̧ zależnościa̧ funkcyjna̧ a nie zależnościa̧ losowa̧. Wtedy pierwsza suma znika a caÃla zmienność y pojawiaja̧ca siȩ jako odchylenie od średniej wartości ȳ opisana jest przez regresjȩ. P Niewyjaśniona przez regresjȩ suma kwadratów (y − R)2 może być traktowana jako miara rozrzutu zmiennej y dokoÃla prostej regresji a wiȩc zwia̧zana jest bezpośrednio z estymatorem wariancji y dokoÃla regresji (która z definicji jest warunkowa̧ wartościa̧ oczekiwana̧ y; R = E{y|x} zmiennej y dla ustalonej zmiennej x): n P Sy=x = i=1 2 (yi − R(xi ))2 n−2 gdzie (n−2) jest liczba̧ stopni swobody (mniejsza̧ o 2 od n gdyż dla uzyskania parametrów prostej musieliśmy użyć dwu równań zwia̧zuja̧cych ze soba̧ wartości danych). P Wyjaśniona przez regresjȩ suma kwadratów (R − ȳ)2 może być wyrażona w inny sposób przy wykorzystaniu estymatora r wspóÃlczynnika korelacji ρ. B.Kamys: Fiz. Komp. 2003/04 103 P (x − x̄)(y − ȳ) r= qP . P [ (x − x̄)2 ][ (y − ȳ)2 ] Wprowadzimy teraz dodatkowa̧ konwencjȩ zapisu polegaja̧ca̧ na oznaczaniu odchylenia zmiennych od średniej arytmetycznej przez odpowiednie duże litery: X ≡ x − x̄, Y ≡ y − ȳ. Korzystaja̧c z tego, że wspóÃlczynnik a we wzorach R = ax + b oraz ȳ = ax̄ + b da siȩ zapisać jako X X a= XY / X2 (można to sprawdzić przeksztaÃlcaja̧c wzory na parametry linii prostej podane wcześniej w rozdziale o regresji liniowej) dostajemy: X (R − ȳ)2 = = a2 ≡ a2 = = ( X X P ( ( ( = r2 ≡ r2 X2 XY )2 ³X P P (x − x̄)2 X 2 )2 P X2 XY )2 X 2) ( ³X ³X P Y2 ´ ³X Y 2) (y − ȳ)2 ´ Y2 ´ ´ W ten sposób pokazano, że kwadrat estymatora wspóÃlczynnika korelacji równy jest stosunkowi sumy kwadratów odchyleń wyjaśnionych przez regresjȩ do caÃlkowitej sumy kwadratów odchyleń: P 2 r = P (R − ȳ)2 (y − ȳ)2 . Daje to nam prosta̧ interpretacjȩ kwadratu wspóÃlczynnika korelacji: gdy r 2 bliskie jest jedności to regresja odpowiada za prawie caÃly rozrzut obserwowanych wartości yi (dla wszystkich xi ) a caÃla reszta rozrzutu może być przypisana istnieniu bÃlȩdów yi . B.Kamys: Fiz. Komp. 2003/04 104 Sumȩ kwadratów wyjaśniona̧ przez regresjȩ i niewyjaśniona̧ przez regresjȩ można zwia̧zać z odpowiednimi estymatorami wariancji. Jeżeli zmienna y i x sa̧ niezależne liniowo to obie te wariancje powinny być sobie równe (liczenie regresji nie wnosi nic nowego). A wiȩc sprawdzenie metoda̧ analizy wariancji hipotezy, że obie wariancje sa̧ równe możemy uznać za równoważne do testowania hipotezy gÃlosza̧cej, że zmienne x i y sa̧ liniowo niezależne tzn. H0 : ρ(x, y) = 0. Uporza̧dkujmy dotychczasowe informacje w tabeli analizy wariancji: Suma Kwadratów CaÃlkowita Wyjaśniona przez regresjȩ P r2 Stopnie Estymator swobody wariancji (y − ȳ) X 2 Statystyka testowa N −1 (y − ȳ)2 1 r2 P (y − ȳ)2 1 Niewyjaśniona przez regresjȩ (1 − r 2 ) X (y − ȳ) 2 N −2 (1 − r 2 ) P (y − ȳ)2 N −2 F(1,N −2) = r 2 (N − 2) (1 − r 2 ) Liczby stopni swobody skojarzone z odpowiednimi sumami kwadratów wynosza̧ odpowiednio: • N − 1 dla caÃlkowitej wariancji (liczba pomiarów minus jeden zwia̧zek wykorzystany na liczenie średniej arytmetycznej ȳ), P • 1 dla sumy (R − ȳ)2 (bo równanie regresji jednoznacznie określa jaki jest rozrzut punktów leża̧cych na prostej wzglȩdem średniej arytmetycznej) i P • N − 2 dla sumy (y − R)2 (bo dwa równania na parametry prostej ograniczaja̧ swobodȩ zmiany N wartości yi ). Dla sprawdzenia czy wariancja wyjaśniona przez regresjȩ jest taka sama jak wariancja niewyjaśniona przez regresjȩ stosuje siȩ test F Fishera, używaja̧c jako statystyki testowej ilorazu estymatorów tych wariancji a wiȩc dwu zmiennych o rozkÃladach chi-kwadrat χ21 i χ2N 2 podzielonych przez odpowiednie liczby stopni swobody a wiȩc zmiennej: F (1, N − 2), analogicznie jak robi siȩ przy porównaniu wariancji dwu populacji normalnych. Obszar krytyczny jest obszarem prawostronnym (wartości statystyki testowej wiȩksze od krytycznej wartości tj. kwantyla F1 (1, N − 2) ). B.Kamys: Fiz. Komp. 2003/04 12.8 105 TESTY NIEPARAMETRYCZNE HIPOTEZ PORÓWNUJA̧CYCH POPULACJE Do tej pory rozważaliśmy testy sprawdzaja̧ce hipotezy gÃlosza̧ce równość wartości oczekiwanych dwu zmiennych a także równość wariancji dwu zmiennych. Testy te dotyczyÃly jedynie zmiennych o rozkÃladach normalnych. Teraz omówimy testy odnosza̧ce siȩ do hipotez gÃlosza̧cych identyczność dystrybuant dwu populacji; H0 : F (X) = G(X) niezależnie od postaci rozkÃladu. Dystrybuanty oznaczono różnymi literami aby podkreślić, że odnosza̧ siȩ do dwu różnych populacji ale badamy tȩ sama̧ zmienna̧ losowa̧ X dla obu populacji biora̧c próbȩ liczebności n1 z pierwszej populacji i liczebności n2 z drugiej populacji. 12.8.1 TEST SMIRNOWA • Hipoteza zerowa H0 : F (X) ≡ G(X) gdzie zmienna X jest zmienna̧ cia̧gÃla̧. F (X) i G(X) sa̧ odpowiednio dystrybuantami zmiennej X dla pierwszej i drugiej populacji . • Hipoteza alternatywna H1 : zaprzeczenie H0 • Statystyka testowa Dn1 ;n2 : Dn1 ;n2 = sup | Fn1 (x) − Gn2 (x) | x gdzie Fn1 (x) i Gn2 (x) to empiryczne dystrybuanty zbudowane na podstawie prób o liczebności odpowiednio n1 i n2 , zdefiniowane tak jak dla rozkÃladu KoÃlmogorowa. Należy zauważyć, że obie dystrybuanty sa̧ od tej samej wartości argumentu. Ponieważ speÃlniona jest relacja: Dn1 ;n2 = Dn2 ;n1 wiȩc bez ograniczenia ogólności wniosków można rozważać tylko Dn1 ;n2 zakÃladaja̧c, że n1 ≤ n2 . B.Kamys: Fiz. Komp. 2003/04 106 W praktycznych rachunkach używa siȩ nastȩpuja̧cych wzorów na Dn1 ;n2 , gdzie obliczenia wykonuje siȩ tylko dla wartości argumentów zaobserwowanych w obu próbach i dla rozróżnienia prób stosuje siȩ symbole x1 ...xn1 i y1 ....yn 2 na statystyki pozycyjne odpowiednio z pierwszej i drugiej próby: Dn+1 ;n2 = Dn1 ;n2 = Dn1 ;n2 = ³ max in 1 1 ³ max in 1 1 ´ i n1 − Gn2 (xi ) = j n 1 ´ Gn2 (xi ) − in11 = max j n 1 ³ max Dn+1 ;n2 , Dn1 ;n2 ´ ³ max 2 2 Fn1 (yj ) − jn21 ³ j n2 − Fn1 (yj ) ´ ´ TWIERDZENIE (Smirnow): Gdy H0 jest prawdziwa oraz liczby pomiarów n1 i n2 da̧ża̧ do nieskończoności to zmienna s n1 · n2 Dn1 ;n2 · n1 + n2 da̧ży do rozkÃladu λ (KoÃlmogorowa). ♦ Dystrybuanta rozkÃladu KoÃlmogorowa wyraża siȩ nastȩpuja̧cym wzorem: K(y) = 1 X k= 1 (−1)k exp[−2k2 y 2 ] Sta̧d można znaleźć kwantyle tego rozkÃladu. Przytoczymy tylko trzy najczȩściej stosowane: y0;95 = 1, 36, y0;99 = 1, 63 i y0;999 = 1, 95. Jeżeli obie próby sa̧ odpowiednio duże (ni > 150) to można już z rozsa̧dnym przybliżeniem stosować asymptotyczne wzory, tj. s Dn1 ;n2 (1 − α) ≈ n1 + n2 n1 · n2 · y1 B.Kamys: Fiz. Komp. 2003/04 107 Gdy n1 i n2 sa̧ maÃle, trzeba stosować dokÃladny rozkÃlad statystyki Dn1 ;n2 znaleziony przez Masseya (F.J.Massey, AMS 23 (1952) 435-441). • Obszar krytyczny: prawostronny (duże wartości statystyki testowej) B.Kamys: Fiz. Komp. 2003/04 12.8.2 108 TEST ZNAKÓW Test znaków sÃluży do sprawdzenia hipotezy zerowej gÃlosza̧cej, że dystrybuanty dwu cia̧gÃlych zmiennych losowych X i Y sa̧ identyczne: • Hipoteza zerowa H0 : G(X) = F (Y ). Przy prawdziwości H0 prawdopodobieństwo P (X > Y ) tego, że zajdzie zdarzenie losowe X > Y , jest równe prawdopodobieństwu P (X < Y ) tego, że X < Y . Ze wzglȩdu na zaÃlożenie cia̧gÃlości zmiennych prawdopodobieństwo równości X i Y jest równe zero; P (X = Y ) = 0 a ponieważ te trzy zdarzenia sa̧ rozÃla̧czne i wyczerpuja̧ wszystkie możliwości wiȩc ostatecznie: P (X < Y ) = P (X > Y ) = 1/2 • Hipoteza alternatywna H1 : G(X) 6= F (Y ). • Statystyka testowa to liczba k takich par, że xi > yi wśród n niezależnych par (xi , yi ). RozkÃlad prawdopodobieństwa tej statystyki przy prawdziwości H0 to rozkÃlad Bernoulliego z parametrem p = 1/2 : 1 1 1 n P (k) = (n k ) · 2k · 2(n k) = (k ) · 2n • Obszar krytyczny to bardzo maÃla (k ≈ 0) i bardzo duża (k ≈ n) liczba par (xi , yi ), takich że xi > yi (obszar dwustronny). Jeżeli mamy wskazówki, że prawdopodobieństwo pojawienia siȩ wartości X wiȩkszych od Y jest wiȩksze niż 1/2 to należy przyja̧ć prawostronny obszar krytyczny (k > kp ) a gdy prawdopodobieństwo X wiȩkszych od Y jest mniejsze od 1/2 to lewostronny obszar krytyczny (k < kl ). Brzeg prawostronnego obszaru krytycznego kp szukamy z warunku: n X P (k ≥ kp ) = 2 n · (n i)=α i=kp B.Kamys: Fiz. Komp. 2003/04 109 Brzeg lewostronnego obszaru krytycznego kl szukamy z warunku: kl X P (k ≤ kl ) = 2 n · (n i)=α i=0 a brzegi dwustronnego obszaru krytycznego z obu powyższych wzorów, w których zasta̧pi siȩ α przez α/2. UWAGA: Tu zakÃladaliśmy milcza̧co, że nie bȩda̧ siȩ pojawiaÃly pary (xi = yi ) ponieważ obie zmienne sa̧ cia̧gÃle a wiȩc prawdopodobieństwo takich par wynosi zero. W praktyce obliczenia wykonywane sa̧ zawsze ze skończona̧ dokÃladnościa̧ a to powoduje pojawianie siȩ powyższych par. Jeżeli ich liczba jest niewielka w porównaniu do liczby wszystkich par to można je po prostu pomina̧ć. W przeciwnym wypadku stosuje siȩ losowanie , które (z prawdopodobieństwem 0,5 ) określa czy dana̧ parȩ zaliczyć do par, w których xi > yi czy odwrotnie. 12.8.3 TEST SERII WALDA - WOLFOWITZA Seria̧ nazywamy każdy podcia̧g cia̧gu zÃlożonego z elementów A i B maja̧cy tȩ wÃlasność, że należa̧ do niego elementy tego samego typu (A lub B). Liczba serii ns speÃlnia warunek: 2 ≤ ns ≤ 2 · min(nA , nB ) + 1 gdzie nA i nB to odpowiednio liczby elementów typu A i typu B w caÃlym cia̧gu. Test serii Walda-Wolfowitza sÃluży do sprawdzania hipotezy gÃlosza̧cej, że dystrybuanty dwu zmiennych cia̧gÃlych X i Y sa̧ identyczne: • Hipoteza zerowa H0 : F1 (X) = F2 (Y ) • Hipoteza alternatywna H1 : F1 (X) 6= F2 (Y ) B.Kamys: Fiz. Komp. 2003/04 110 • Statystyka testowa ns (liczba serii ). Mamy próbȩ skÃladaja̧ca̧ siȩ z nA wartości zmiennej X oraz z nB wartości zmiennej Y . Zapisujemy te nA + nB wartości w jeden niemaleja̧cy cia̧g i sprawdzamy ile jest serii typu A (tzn. skÃladaja̧cych siȩ z elementów X) i ile jest serii typu B (tzn. skÃladaja̧cych siȩ z elementów Y ). Jeżeli zdarzy siȩ, że dwie wartości sa̧ identyczne to musimy losować (z prawdopodobieństwem 0,5), która z nich ma być pierwsza w cia̧gu. • Obszar krytyczny - lewostronny : ns ≤ ns (α) Gdy hipoteza zerowa jest sÃluszna to możemy siȩ spodziewać, że wartości X sa̧ przemieszane z wartościami Y a wiȩc liczba serii bȩdzie duża. Jeżeli dystrybuanty zmiennych X i Y sa̧ różne to spodziewamy siȩ, że systematycznie jedna z tych zmiennych bȩdzie wiȩksza od drugiej (przynajmniej na pewnym odcinku wartości) a wiȩc liczba serii bȩdzie maÃla. Sta̧d maÃla liczba serii w próbie bȩdzie świadczyć przeciw hipotezie zerowej. RozkÃlad liczby serii ns jest znany przy prawdziwości H0 i wyraża siȩ analitycznym wzorem: nA − 1 n nB − 1 n 2 s −1 2 s −1 2 nA + nB nA p(ns ) = nB − 1 n s − 3 2 2 2 nA − 1 n s − 1 2 dla ns parzystego nA − 1 + n s − 3 2 2 nB − 1 n s − 1 nA + nB nA 2 2 dla ns nieparzystego a wiȩc można znaleźć (numerycznie) wartości krytyczne statystyki testowej. UWAGA: Warto zauważyć, że w przypadku odrzucenia hipotezy zerowej, tj. zaobserwowania maÃlej liczby serii, można próbować uzyskać informacjȩ o relacji pomiȩdzy wartościami oczekiwanymi E(X) i E(Y ) sprawdzaja̧c czy na pocza̧tku caÃlego cia̧gu przeważaja̧ wartości typu A (tj. wartości zmiennej X) czy typu B(wartości zmiennej Y ). Jeżeli na pocza̧tku mamy przewagȩ wartości typu A a potem typu B to możemy uważać, że E(X) < E(Y ). W przypadku odwrotnym spodziewamy siȩ, że E(X) > E(Y ). B.Kamys: Fiz. Komp. 2003/04 12.8.4 111 TEST SUMY RANG WILCOXONA - MANNA - WHITNEYA Test ten zostaÃl opracowany przez F. Wilcoxona dla dwu równie licznych prób a później uogólniony przez H.B. Manna i D.R. Whitneya na dwie próby o dowolnej liczebności. Można wiȩc spotkać siȩ z nazwa̧ test Wilcoxona lub test Wilcoxona-Manna-Whitneya. Przez rangȩ obserwacji rozumie siȩ liczbȩ naturalna̧ równa̧ numerowi miejsca, który ta obserwacja zajmuje w uporza̧dkowanym cia̧gu niemaleja̧cym obserwacji w próbie (numer danej statystyki pozycyjnej). Jeżeli dwie lub wiȩcej obserwacji ma tȩ sama̧ wartość to ich rangi sa̧ równe średniej arytmetycznej rang, które posiadaÃlyby gdyby siȩ minimalnie różniÃly (tzn. różniÃlyby siȩ tak maÃlo, że nie zmieniÃlyby poÃlożenia w cia̧gu w stosunku do innych obserwacji). • Hipoteza zerowa H0 : F1 (X) = F2 (Y ) • Hipoteza alternatywna H1 : F1 (X) 6= F2 (Y ) Można jednak postawić inne hipotezy alternatywne: – H1 : P (X > Y ) > 0, 5 lub – H1 : P (X > Y ) < 0, 5 • Statystyka testowa: w= nX min i=1 ranga(i) nmin oznacza liczebność mniejszej próby a ranga(i) to ranga kolejnej obserwacji z mniej licznej próby ale w cia̧gu utworzonym z obserwacji obu prób. • Obszar krytyczny: Dla prostego zaprzeczenia - obustronny, a dla dwu pozostaÃlych hipotez alternatywnych jest odpowiednio prawo- i lewostronny (przy zaÃlożeniu, że próba̧ mniej liczna̧ jest próba ’X’). Wartości krytyczne trzeba brać z odpowiednich tablic.