Analiza kanoniczna w pigułce

Transkrypt

Analiza kanoniczna w pigułce
Analiza kanoniczna w pigułce
Przemysław Biecek
Seminarium „Statystyka w medycynie”
Propozycje tematów prac dyplomowych
1/14
Plan
1
Słów kilka o podobnych metodach (PCA, regresja)
2
Motywacja, czyli jakiego wyniku oczekujemy
3
Wyprowadzenie podstawowych wzorów
4
Przykład użycia w R (pakiet CCA)
5
Przykładowe zastosowanie
Propozycje tematów prac dyplomowych
2/14
Podobne metody
Analiza kanoniczna jest ogólną metodą analizy danych, którą
można zredukować lub którą można przedstawić podobnie do
PCA (Principal component analysis),
Regresji wielokrotnej,
ANOVA i MANOVA,
modeli strukturalnych.
Propozycje tematów prac dyplomowych
3/14
Słów kilka o historii
Podstawowe problemy i wyniki analizy kanonicznej zostały
sformułowane przez Harolda Hotellinga (wybitny ekonomista,
matematyk, statystyk) w latach 1935-36.
Powstała jako metoda do badania zależności pomiędzy dwoma
zbiorami zmiennych.
Do dziś doczekała się wielu uogólnień i rozszerzeń, np. na badanie
relacji pomiędzy wieloma zbiorami zmiennych, na badane relacji w
obecności współliniowych zmiennych (przez regularyzację) itp.
Propozycje tematów prac dyplomowych
4/14
Problem
Mamy dwa zbiory zmiennych {X1 , ..., Xp } i {Y1 , ..., Yq }.
Chcemy znaleźć taką kombinację liniową zmiennych z pierwszego
zbioru, aby korelowała ona możliwie najsilniej ze zmiennymi z
drugiego zbioru.
Innymi słowy, szukamy wektorów współczynników a i b, takich, że
cor (a0 X , b 0 Y )
jest możliwie największa.
Propozycje tematów prac dyplomowych
5/14
Rozwiązanie
Wektor współczynników a to wektor własny odpowiadający
największej wartości własnej macierzy
−1
−1
S22
S21 S11
S12
(1)
a wektor współczynników b to wektor własny odpowiadający
największej wartości własnej macierzy
−1
−1
S11
S12 S22
S21 .
(2)
Korelacja cor (a0 X , b 0 Y ) to wartość największa wartość własna z
powyższych macierzy.
[Wyprowadzenie na tablicy]
Propozycje tematów prac dyplomowych
6/14
Kontynuacja
Nowe zmienne u1 = a0 X i v1 = b 0 Y wyjaśniają największą część
korelacji pomiędzy zbiorami wektorów X i Y , ale nie całą.
Kolejnym krokiem jest znalezienie kolejnych zmiennych ui = ai X i
vi = bi Y , tak by:
wektory ui są nieskorelowane pomiędzy sobą,
wektory vi są nieskorelowane pomiędzy sobą,
korelacje cor (ui , vi ) tworzą nierosnący ciąg odpowiadający
możliwie największym cząstkowym korelacjom.
Propozycje tematów prac dyplomowych
7/14
Testowanie (1/2)
Jeżeli obserwacje pochodzą z wielowymiarowego modelu
normalnego N (µ, Σ) to możemy testować:
H0 : Ri = 0∀i
Statystyka testowa dla testu ilorazu wiarogodności
LRT = −n
s
X
log(1 − Ri2 )
i=1
ma asymptotyczny rozkład χ2pq .
Propozycje tematów prac dyplomowych
8/14
Testowanie (2/2)
H0 : Ri = 0∀i>k
Statystyka testowa dla testu ilorazu wiarogodności
LRT = −n
s
X
log(1 − Ri2 )
i=k+1
ma asymptotyczny rozkład χ2(p−k)(q−k) .
Wartość n w statystykach testowych zamienia się czasem na
n − 12 (p + q + 3), co poprawia test.
Propozycje tematów prac dyplomowych
9/14
Uwagi praktyczne
Założenia
wielowymiarowa normalność,
brak obserwacji odstających (miara Cooka, Leverage, test
Grubbsa, test Dixona)
brak współliniowości (reguła kciuka, wyznacznik > 10−5 )
Liczba obserwacji powinna być większa od około 20∗liczba
zmiennych.
Propozycje tematów prac dyplomowych
10/14
Jak to zrobić w R
Analiza kanoniczna jest zaimplementowana między innymi w
pakiecie CCA w funkcji cc().
Prześledźmy poniższy kod
R-kod
> library(CCA)
> dane = read.table("dane.csv",header=T,sep=";")
> X = dane[,c(9:10)]
# kolumny z waga
> Y = dane[,c(11:17)]
# kolumny z MDRD
> wynik = cc(X,Y)
> wynik$cor
[1] 0.3754946 0.1907164
Propozycje tematów prac dyplomowych
11/14
Jak to zrobić w R
R-kod
> wynik$xcoef
[,1]
[,2]
wagastart 0.1047822 -0.09276486
wagaend
-0.1154909 0.01404359
> wynik$ycoef
[,1]
[,2]
MDRD7
0.056059823 0.05799373
MDRD30 -0.059196976 -0.03981322
MDRD6m -0.006987328 0.02870234
MDRD12m -0.094082377 0.07732582
MDRD24m 0.119735985 -0.09688825
MDRD36m -0.024980200 -0.01744831
MDRD60m -0.007345604 0.04083270
> plot(wynik$cor,type="b")
> plt.cc(wynik,var.label=T)
Propozycje tematów prac dyplomowych
12/14
Przykładowe wyniki
0.5
●
0.3
0.2
●
●
0.1
wynik$cor
0.4
●
1.0
1.5
2.0
2.5
3.0
3.5
4.0
Index
Propozycje tematów prac dyplomowych
13/14
1.0
4
Przykładowe wyniki
3
101
wiek.biorcy
2
0.5
85
103
MDRD12m
MDRD30
MDRD6m
1
0
Dimension 2
0.0
wagastart
−1
−0.5
wiek.dawcy
−2
wagaend
117
79 134
113
95
27
3413
19
69
94 3097
12
74 136
88
1 59
80
96
105
9
116 53
35
57 93
2949
47
22
7
99
108
107 25
62
126 86
41
2170
23 43
127
111
71
90
2 89 76
33
32 63
55
18
61 50125 129
38
64
92
31 58
83
46 40
48
133
119
112
82
45
2854 26
6851109
77 81
17
66
118
8
1184
5
132
72 75 67
102
10
20
100
6
115
121
24
78 15
44122 135
11465 52 1044
3
37
39
56
73
14
42
120 16
91 130
106
131
128
110
123
−3
−1.0
Dimension 2
60
MDRD7
MDRD60m
MDRD24m
MDRD36m
98
124
87
36
−1.0
−0.5
0.0
0.5
1.0
−2
Dimension 1
Propozycje tematów prac dyplomowych
−1
0
1
2
Dimension 1
14/14