Biometria i statystyki kursy

Transkrypt

Biometria i statystyki kursy
Testowanie hipotez
związanych ze składowymi głównymi
1
Oznaczenia i załoŜenia
[
X = X 1 , X 2 , K, X p
]
T
- wektor losowy (wektor cech)
X ma rozkład N p ( µ, Σ), Σ > 0
X 1 , ..., X N , gdzie N > p – próba z rozkładu tego wektora
S – nieobciąŜony estymator macierzy kowariancji Σ
1
T
(X i − X )(X i − X )
S=
∑
N − 1 i =1
N
2
Oznaczenia i załoŜenia cd.
λ1 ≥ K ≥ λ p
wartości własnych macierzy Σ
l 1 > l 2 > .. > l p – wartości własne macierzy S
3
Testowanie hipotez związanych ze składowymi głównymi
Test sferyczności macierzy kowariancji Σ słuŜy do
weryfikacji hipotezy, Ŝe wszystkie wartości własne
macierzy kowariancji Σ są równe
H 0 : λ1 = K = λ p
Przyjęcie tej hipotezy oznacza, Ŝe wszystkie składowe
główne mają tę samą wariancję i równy wkład do
zmienności całkowitej. Nie moŜna wówczas zredukować
wymiaru przez przejście do składowych głównych.
4
Równość wszystkich p wartości własnych?
(= λ )
λ1 = K = λ p
TAK
?
NIE
Wszystkie składowe główne mają tę samą
wariancję,
zatem równy wkład do zmienności całkowitej;
nie moŜna zredukować wymiaru przez
przejście do składowych głównych.
Równość p-1 najmniejszych wartości własnych?
I są one znacząco mniejsze od pierwszej wartości własnej?
(= λ )
λ2 = K = λ p
i jeszcze
λ 1 >> λ
?
?
5
Równość p-1 najmniejszych wartości własnych?
I są one znacząco mniejsze od pierwszej wartości własnej?
(= λ )
λ2 = K = λ p
λ 1 >> λ
i jeszcze
?
?
TAK
NIE
Ostatnich p-1 składowych głównych ma tę samą wariancję,
zatem równy wkład do zmienności całkowitej i wkład kaŜdej z nich
jest znacząco mniejszy od wkładu pierwszej; moŜna zredukować
wymiar, bo większość zmienności w próbie jest wyjaśniona
przez pierwszą składową główną.
Równość p-2 najmniejszych wartości własnych?
λ3 = K = λ p
(= λ )
?
itd.
6
Objaśnienie oznaczeń
λ1
λ2 ...
„odcięte” waw
λk
λ k+1 ... λ p-1 λp
waw porównywane
w hipotezie Hk
k
W hipotezie:
H 0 porównujemy
H 1 porównujemy
H 2 porównujemy
...
H k porównujemy
p-0 = p (wszystkie) waw;
p-1 najmniejszych wartości własnych,
p-2 najmniejszych wartości własnych, itd.
p-k najmniejszych wartości własnych
7
Sekwencyjne testowanie hipotez
H k : λk +1 = K = λ p , dla
gdzie
λ1 ≥ λ2 ≥ K ≥ λ p > 0
k = 0, 1, , K , p − 2 ,
są wartościami własnymi Σ.
8
Test hipotezy H 0
H 0 : λ1 = K = λ p
jest oparty na statystyce
V0 =
l1 ⋅ l 2 ⋅ K ⋅ l p
1

 p ∑ li 
 i =1 
p
p
gdzie
l1 > l 2 > K > l p
- wartości własne macierzy S
9
Test hipotezy H 0 cd.
H 0 : λ1 = K = λ p
Test asymptotyczny odrzuca hipotezę H 0 na poziomie
istotności α, gdy
2

2p + p +2
 lnV0 > c ( α; r
−  N − 1 −
6p


)
gdzie:
r=
1
2
( p + 2)( p − 1)
c ( α; r
) takie, Ŝe P { χ ≥ c( α; r ) }= α
2
r
10
Test hipotezy H k - wynik Bartletta (1954)
Test asymptotyczny hipotezy
(= λ,
H k : λ k +1 = K = λ p
nieznane )
jest oparty na statystyce

2q + q + 2 
 lnVk
−  N − 1 − k −
6q


2
która ma rozkład χ 2 (q+2)(q-1)/2 , q = p-k, k = 0, 1, ..., p-2.
Vk =
l k +1 ⋅ K ⋅ l p
 1

 p − k ∑ li 
 i =k +1 
p
p−k
11
Test hipotezy H k – wynik Lawleya (1956)
z dodatkową informacją o dokładności aproksymacji
rozkładem chi-kwadrat pochodzącą od Jamesa (1969)
Test asymptotyczny hipotezy
H k : λ k +1 = K = λ p
(= λ,
nieznane )
oparty jest na statystyce
2
k


l
2
q
q
2
+
+
q

 lnV
Pk = − N − 1 − k −
+∑
k
2 

6q
i =1 (l i − l q )


12
Test hipotezy H k – wynik Lawleya (1956) cd.
Statystyka testowa
2

k
l
2
q
+
q
+
2
q

Pk = − N − 1 − k −
+∑

6q
i =1 li − l q

(
gdzie:
p
1
l q = ∑ li , q = p − k
,
q i =k +1
Vk =

 lnV
k
2 

)
l k +1 ⋅ K ⋅ l p
 1

 p − k ∑ li 
 i =k +1 
p
p−k
13
Test hipotezy H k – wynik Lawleya (1956) cd.
Statystyka testowa
2

k
l
2
q
+
q
+
2
q

Pk = − N − 1 − k −
+∑

6q
i =1 li − l q

(

 lnV
k
2 

)
odrzuca hipotezę H k na poziomie istotności α, gdy
Pk > c ( α; r
)
gdzie:
(q + 2)(q − 1), q = p − k
2
c ( α; r ) takie, Ŝe P { χ r ≥ c( α; r ) } = α
r=
1
2
14
Zakończenie sekwencyjnego testowania hipotez
Przypuśćmy, Ŝe dla pewnego k hipoteza H k została
przyjęta.
Zatem moŜemy przyjąć, Ŝe q = p-k najmniejszych wartości
własnych macierzy Σ ma tę samą wartość λ. JeŜeli wartość
λ jest znacząco mniejsza od pozostałych wartości
własnych, to moŜna pominąć ostatnich q składowych
głównych i zostawić tylko k pierwszych, tym samym
redukując wymiar przestrzeni danych.
Na jakiej podstawie zdecydować, o małej wartości λ?
15
Podstawa decyzji o małej wartości λ - przedział ufności
Jednostronny przedział ufności dla λ (Anderson, 1963)
Asymptotycznie na poziomie ufności 1-α
lq
λ≤
1 - zα
2
(N − 1) q
gdzie:
p
1
l q = ∑ li , q = p − k
q i =k +1
z α takie, Ŝe F(z α ) = 1- α, gdzie F jest dystrybuantą rozkładu
N (0,1).
16
Inne kryterium redukcji liczby składowych
JeŜeli nie moŜna podjąć decyzji, Ŝe pewna liczba wartości
własnych ma tę samą wartość, moŜna sprawdzić, czy
zmienność wyjaśniana przez ostatnich q = p-k składowych
głównych
p
∑λ
i
i = k +1
jest mała w porównaniu ze zmiennością całkowitą
p
∑λ
i =1
i
co pozwoliłoby pominąć ostatnich q = p-k składowych
głównych.
17
Hipoteza o udziale wyjaśnionej zmienności
p
∑λ
*
k
H :
i = k +1
p
i
∑λ
i =1
=h
i
gdzie
h (0 < h < 1) – wartość ustalona przez eksperymentatora
Do weryfikacji tej hipotezy słuŜy statystyka
Mk =
p
∑l
i = k +1
i
p
k
p
i =1
i =1
i = k +1
− h∑ li = − h∑ li + (1 − h) ∑ li
18
Wskazówka
Przy załoŜeniu, Ŝe λ 1 , λ 2 , ..., λ p są róŜne i N → ∞ ,statystyka
p
k


N − 1  M k + h∑ λi − (1 − h) ∑ λi 
i =1
i = k +1 

ma asymptotycznie rozkład N (0, τ 2 ), gdzie
p
k
2
2
2
2
2
i
i
.
i =1
i = k +1
Po zastąpieniu λ i przez l i (i = 1, 2, ..., p) w wyraŜeniu τ 2 , wynik moŜna
τ = 2h
∑λ
+ 2(1 − h )
∑λ
*
wykorzystać do konstrukcji przybliŜonego testu weryfikującego hipotezę H k
p
oraz do konstrukcji przedziałów ufności dla
p
∑ λ − h∑ λ .
i = k +1
i
i =1
i
19
Przykład
Dane pochodzą z doświadczeń przeprowadzonych w 7
miejscowościach w jednym roku dla 62 odmian pszenicy
ozimej. Wartości liczbowe przedstwiają średnie plony
z powtórzeń.
N=62, p=7
Macierz korelacji
M1 M2
M1 1,00 0,32
M2 0,32 1,00
M3 0,42 0,22
M4 0,31 0,60
M5 0,41 0,42
M6 0,28 0,61
M7 0,34 0,29
M3
0,42
0,22
1,00
0,17
0,40
0,13
0,31
M4
0,31
0,60
0,17
1,00
0,41
0,56
0,44
M5
0,41
0,42
0,40
0,41
1,00
0,42
0,49
M6
0,28
0,61
0,13
0,56
0,42
1,00
0,48
M7
0,34
0,29
0,31
0,44
0,49
0,48
1,00
20
Przykład
Wartości własne macierzy kowariancji
lambda 1
lambda 2
lambda 3
lambda 4
lambda 5
lambda 6
lambda 7
lambda
143,61
51,92
32,00
25,98
19,05
16,13
11,97
%
ogółu wariancji
47,77
17,27
10,64
8,64
6,34
5,36
3,98
skumulowany %
ogółu wariancji
47,77
65,04
75,68
84,32
90,66
96,02
100,00
21
Przykład
Wartości w łasne (kow ariancje)
Tylko zmienne aktyw ne
160
143,6
140
120
Wartość własna
100
80
60
51,9
40
32,0
26,0
19,0
20
16,1
12,0
0
-20
-1
0
1
2
3
4
5
6
7
8
9
Numer w art. w łasnej
22
Przykład
Hipoteza H0
k=
q=
Vk=
Pk=
st sw=
wart kryt
Hipoteza H1
k=
q=
Vk=
Pk=
st sw=
wart kryt
odrzucamy
0
7
0,085
144,430
27
40,11
odrzucamy
1
6
0,494
40,796
20
31,41
23
Przykład
Hipoteza H2
k=
q=
Vk=
Pk=
st sw=
wart kryt
przyjmujemy
2
5
0,744
16,885
14
23,68
przedział ufności
dla lambda
lambda średnia q= 21,02
z 0,05=
1,64
lambda<=
24,243
24
Literatura
∗ Krzyśko Mirosław, Wielowymiarowa analiza
statystyczna, Wyd. UAM, Poznań 2000
• Morrison Donald Franklin, Wielowymiarowa analiza
statystyczna, tłum. Wojciech Zieliński,
PWN,Warszawa 1990
• Stanisz Andrzej, Przystępny kurs statystyki
z zastosowaniem STATISTICA PL na przykładach
z medycyny. Tom 3. Analizy wielowymiarowe, Wyd.
Statsoft, Kraków 2007
25