Biometria i statystyki kursy
Transkrypt
Biometria i statystyki kursy
Testowanie hipotez związanych ze składowymi głównymi 1 Oznaczenia i załoŜenia [ X = X 1 , X 2 , K, X p ] T - wektor losowy (wektor cech) X ma rozkład N p ( µ, Σ), Σ > 0 X 1 , ..., X N , gdzie N > p – próba z rozkładu tego wektora S – nieobciąŜony estymator macierzy kowariancji Σ 1 T (X i − X )(X i − X ) S= ∑ N − 1 i =1 N 2 Oznaczenia i załoŜenia cd. λ1 ≥ K ≥ λ p wartości własnych macierzy Σ l 1 > l 2 > .. > l p – wartości własne macierzy S 3 Testowanie hipotez związanych ze składowymi głównymi Test sferyczności macierzy kowariancji Σ słuŜy do weryfikacji hipotezy, Ŝe wszystkie wartości własne macierzy kowariancji Σ są równe H 0 : λ1 = K = λ p Przyjęcie tej hipotezy oznacza, Ŝe wszystkie składowe główne mają tę samą wariancję i równy wkład do zmienności całkowitej. Nie moŜna wówczas zredukować wymiaru przez przejście do składowych głównych. 4 Równość wszystkich p wartości własnych? (= λ ) λ1 = K = λ p TAK ? NIE Wszystkie składowe główne mają tę samą wariancję, zatem równy wkład do zmienności całkowitej; nie moŜna zredukować wymiaru przez przejście do składowych głównych. Równość p-1 najmniejszych wartości własnych? I są one znacząco mniejsze od pierwszej wartości własnej? (= λ ) λ2 = K = λ p i jeszcze λ 1 >> λ ? ? 5 Równość p-1 najmniejszych wartości własnych? I są one znacząco mniejsze od pierwszej wartości własnej? (= λ ) λ2 = K = λ p λ 1 >> λ i jeszcze ? ? TAK NIE Ostatnich p-1 składowych głównych ma tę samą wariancję, zatem równy wkład do zmienności całkowitej i wkład kaŜdej z nich jest znacząco mniejszy od wkładu pierwszej; moŜna zredukować wymiar, bo większość zmienności w próbie jest wyjaśniona przez pierwszą składową główną. Równość p-2 najmniejszych wartości własnych? λ3 = K = λ p (= λ ) ? itd. 6 Objaśnienie oznaczeń λ1 λ2 ... „odcięte” waw λk λ k+1 ... λ p-1 λp waw porównywane w hipotezie Hk k W hipotezie: H 0 porównujemy H 1 porównujemy H 2 porównujemy ... H k porównujemy p-0 = p (wszystkie) waw; p-1 najmniejszych wartości własnych, p-2 najmniejszych wartości własnych, itd. p-k najmniejszych wartości własnych 7 Sekwencyjne testowanie hipotez H k : λk +1 = K = λ p , dla gdzie λ1 ≥ λ2 ≥ K ≥ λ p > 0 k = 0, 1, , K , p − 2 , są wartościami własnymi Σ. 8 Test hipotezy H 0 H 0 : λ1 = K = λ p jest oparty na statystyce V0 = l1 ⋅ l 2 ⋅ K ⋅ l p 1 p ∑ li i =1 p p gdzie l1 > l 2 > K > l p - wartości własne macierzy S 9 Test hipotezy H 0 cd. H 0 : λ1 = K = λ p Test asymptotyczny odrzuca hipotezę H 0 na poziomie istotności α, gdy 2 2p + p +2 lnV0 > c ( α; r − N − 1 − 6p ) gdzie: r= 1 2 ( p + 2)( p − 1) c ( α; r ) takie, Ŝe P { χ ≥ c( α; r ) }= α 2 r 10 Test hipotezy H k - wynik Bartletta (1954) Test asymptotyczny hipotezy (= λ, H k : λ k +1 = K = λ p nieznane ) jest oparty na statystyce 2q + q + 2 lnVk − N − 1 − k − 6q 2 która ma rozkład χ 2 (q+2)(q-1)/2 , q = p-k, k = 0, 1, ..., p-2. Vk = l k +1 ⋅ K ⋅ l p 1 p − k ∑ li i =k +1 p p−k 11 Test hipotezy H k – wynik Lawleya (1956) z dodatkową informacją o dokładności aproksymacji rozkładem chi-kwadrat pochodzącą od Jamesa (1969) Test asymptotyczny hipotezy H k : λ k +1 = K = λ p (= λ, nieznane ) oparty jest na statystyce 2 k l 2 q q 2 + + q lnV Pk = − N − 1 − k − +∑ k 2 6q i =1 (l i − l q ) 12 Test hipotezy H k – wynik Lawleya (1956) cd. Statystyka testowa 2 k l 2 q + q + 2 q Pk = − N − 1 − k − +∑ 6q i =1 li − l q ( gdzie: p 1 l q = ∑ li , q = p − k , q i =k +1 Vk = lnV k 2 ) l k +1 ⋅ K ⋅ l p 1 p − k ∑ li i =k +1 p p−k 13 Test hipotezy H k – wynik Lawleya (1956) cd. Statystyka testowa 2 k l 2 q + q + 2 q Pk = − N − 1 − k − +∑ 6q i =1 li − l q ( lnV k 2 ) odrzuca hipotezę H k na poziomie istotności α, gdy Pk > c ( α; r ) gdzie: (q + 2)(q − 1), q = p − k 2 c ( α; r ) takie, Ŝe P { χ r ≥ c( α; r ) } = α r= 1 2 14 Zakończenie sekwencyjnego testowania hipotez Przypuśćmy, Ŝe dla pewnego k hipoteza H k została przyjęta. Zatem moŜemy przyjąć, Ŝe q = p-k najmniejszych wartości własnych macierzy Σ ma tę samą wartość λ. JeŜeli wartość λ jest znacząco mniejsza od pozostałych wartości własnych, to moŜna pominąć ostatnich q składowych głównych i zostawić tylko k pierwszych, tym samym redukując wymiar przestrzeni danych. Na jakiej podstawie zdecydować, o małej wartości λ? 15 Podstawa decyzji o małej wartości λ - przedział ufności Jednostronny przedział ufności dla λ (Anderson, 1963) Asymptotycznie na poziomie ufności 1-α lq λ≤ 1 - zα 2 (N − 1) q gdzie: p 1 l q = ∑ li , q = p − k q i =k +1 z α takie, Ŝe F(z α ) = 1- α, gdzie F jest dystrybuantą rozkładu N (0,1). 16 Inne kryterium redukcji liczby składowych JeŜeli nie moŜna podjąć decyzji, Ŝe pewna liczba wartości własnych ma tę samą wartość, moŜna sprawdzić, czy zmienność wyjaśniana przez ostatnich q = p-k składowych głównych p ∑λ i i = k +1 jest mała w porównaniu ze zmiennością całkowitą p ∑λ i =1 i co pozwoliłoby pominąć ostatnich q = p-k składowych głównych. 17 Hipoteza o udziale wyjaśnionej zmienności p ∑λ * k H : i = k +1 p i ∑λ i =1 =h i gdzie h (0 < h < 1) – wartość ustalona przez eksperymentatora Do weryfikacji tej hipotezy słuŜy statystyka Mk = p ∑l i = k +1 i p k p i =1 i =1 i = k +1 − h∑ li = − h∑ li + (1 − h) ∑ li 18 Wskazówka Przy załoŜeniu, Ŝe λ 1 , λ 2 , ..., λ p są róŜne i N → ∞ ,statystyka p k N − 1 M k + h∑ λi − (1 − h) ∑ λi i =1 i = k +1 ma asymptotycznie rozkład N (0, τ 2 ), gdzie p k 2 2 2 2 2 i i . i =1 i = k +1 Po zastąpieniu λ i przez l i (i = 1, 2, ..., p) w wyraŜeniu τ 2 , wynik moŜna τ = 2h ∑λ + 2(1 − h ) ∑λ * wykorzystać do konstrukcji przybliŜonego testu weryfikującego hipotezę H k p oraz do konstrukcji przedziałów ufności dla p ∑ λ − h∑ λ . i = k +1 i i =1 i 19 Przykład Dane pochodzą z doświadczeń przeprowadzonych w 7 miejscowościach w jednym roku dla 62 odmian pszenicy ozimej. Wartości liczbowe przedstwiają średnie plony z powtórzeń. N=62, p=7 Macierz korelacji M1 M2 M1 1,00 0,32 M2 0,32 1,00 M3 0,42 0,22 M4 0,31 0,60 M5 0,41 0,42 M6 0,28 0,61 M7 0,34 0,29 M3 0,42 0,22 1,00 0,17 0,40 0,13 0,31 M4 0,31 0,60 0,17 1,00 0,41 0,56 0,44 M5 0,41 0,42 0,40 0,41 1,00 0,42 0,49 M6 0,28 0,61 0,13 0,56 0,42 1,00 0,48 M7 0,34 0,29 0,31 0,44 0,49 0,48 1,00 20 Przykład Wartości własne macierzy kowariancji lambda 1 lambda 2 lambda 3 lambda 4 lambda 5 lambda 6 lambda 7 lambda 143,61 51,92 32,00 25,98 19,05 16,13 11,97 % ogółu wariancji 47,77 17,27 10,64 8,64 6,34 5,36 3,98 skumulowany % ogółu wariancji 47,77 65,04 75,68 84,32 90,66 96,02 100,00 21 Przykład Wartości w łasne (kow ariancje) Tylko zmienne aktyw ne 160 143,6 140 120 Wartość własna 100 80 60 51,9 40 32,0 26,0 19,0 20 16,1 12,0 0 -20 -1 0 1 2 3 4 5 6 7 8 9 Numer w art. w łasnej 22 Przykład Hipoteza H0 k= q= Vk= Pk= st sw= wart kryt Hipoteza H1 k= q= Vk= Pk= st sw= wart kryt odrzucamy 0 7 0,085 144,430 27 40,11 odrzucamy 1 6 0,494 40,796 20 31,41 23 Przykład Hipoteza H2 k= q= Vk= Pk= st sw= wart kryt przyjmujemy 2 5 0,744 16,885 14 23,68 przedział ufności dla lambda lambda średnia q= 21,02 z 0,05= 1,64 lambda<= 24,243 24 Literatura ∗ Krzyśko Mirosław, Wielowymiarowa analiza statystyczna, Wyd. UAM, Poznań 2000 • Morrison Donald Franklin, Wielowymiarowa analiza statystyczna, tłum. Wojciech Zieliński, PWN,Warszawa 1990 • Stanisz Andrzej, Przystępny kurs statystyki z zastosowaniem STATISTICA PL na przykładach z medycyny. Tom 3. Analizy wielowymiarowe, Wyd. Statsoft, Kraków 2007 25