Analiza kanoniczna w pigułce
Transkrypt
Analiza kanoniczna w pigułce
Analiza kanoniczna w pigułce Przemysław Biecek Seminarium „Statystyka w medycynie” Propozycje tematów prac dyplomowych 1/14 Plan 1 Słów kilka o podobnych metodach (PCA, regresja) 2 Motywacja, czyli jakiego wyniku oczekujemy 3 Wyprowadzenie podstawowych wzorów 4 Przykład użycia w R (pakiet CCA) 5 Przykładowe zastosowanie Propozycje tematów prac dyplomowych 2/14 Podobne metody Analiza kanoniczna jest ogólną metodą analizy danych, którą można zredukować lub którą można przedstawić podobnie do PCA (Principal component analysis), Regresji wielokrotnej, ANOVA i MANOVA, modeli strukturalnych. Propozycje tematów prac dyplomowych 3/14 Słów kilka o historii Podstawowe problemy i wyniki analizy kanonicznej zostały sformułowane przez Harolda Hotellinga (wybitny ekonomista, matematyk, statystyk) w latach 1935-36. Powstała jako metoda do badania zależności pomiędzy dwoma zbiorami zmiennych. Do dziś doczekała się wielu uogólnień i rozszerzeń, np. na badanie relacji pomiędzy wieloma zbiorami zmiennych, na badane relacji w obecności współliniowych zmiennych (przez regularyzację) itp. Propozycje tematów prac dyplomowych 4/14 Problem Mamy dwa zbiory zmiennych {X1 , ..., Xp } i {Y1 , ..., Yq }. Chcemy znaleźć taką kombinację liniową zmiennych z pierwszego zbioru, aby korelowała ona możliwie najsilniej ze zmiennymi z drugiego zbioru. Innymi słowy, szukamy wektorów współczynników a i b, takich, że cor (a0 X , b 0 Y ) jest możliwie największa. Propozycje tematów prac dyplomowych 5/14 Rozwiązanie Wektor współczynników a to wektor własny odpowiadający największej wartości własnej macierzy −1 −1 S22 S21 S11 S12 (1) a wektor współczynników b to wektor własny odpowiadający największej wartości własnej macierzy −1 −1 S11 S12 S22 S21 . (2) Korelacja cor (a0 X , b 0 Y ) to wartość największa wartość własna z powyższych macierzy. [Wyprowadzenie na tablicy] Propozycje tematów prac dyplomowych 6/14 Kontynuacja Nowe zmienne u1 = a0 X i v1 = b 0 Y wyjaśniają największą część korelacji pomiędzy zbiorami wektorów X i Y , ale nie całą. Kolejnym krokiem jest znalezienie kolejnych zmiennych ui = ai X i vi = bi Y , tak by: wektory ui są nieskorelowane pomiędzy sobą, wektory vi są nieskorelowane pomiędzy sobą, korelacje cor (ui , vi ) tworzą nierosnący ciąg odpowiadający możliwie największym cząstkowym korelacjom. Propozycje tematów prac dyplomowych 7/14 Testowanie (1/2) Jeżeli obserwacje pochodzą z wielowymiarowego modelu normalnego N (µ, Σ) to możemy testować: H0 : Ri = 0∀i Statystyka testowa dla testu ilorazu wiarogodności LRT = −n s X log(1 − Ri2 ) i=1 ma asymptotyczny rozkład χ2pq . Propozycje tematów prac dyplomowych 8/14 Testowanie (2/2) H0 : Ri = 0∀i>k Statystyka testowa dla testu ilorazu wiarogodności LRT = −n s X log(1 − Ri2 ) i=k+1 ma asymptotyczny rozkład χ2(p−k)(q−k) . Wartość n w statystykach testowych zamienia się czasem na n − 12 (p + q + 3), co poprawia test. Propozycje tematów prac dyplomowych 9/14 Uwagi praktyczne Założenia wielowymiarowa normalność, brak obserwacji odstających (miara Cooka, Leverage, test Grubbsa, test Dixona) brak współliniowości (reguła kciuka, wyznacznik > 10−5 ) Liczba obserwacji powinna być większa od około 20∗liczba zmiennych. Propozycje tematów prac dyplomowych 10/14 Jak to zrobić w R Analiza kanoniczna jest zaimplementowana między innymi w pakiecie CCA w funkcji cc(). Prześledźmy poniższy kod R-kod > library(CCA) > dane = read.table("dane.csv",header=T,sep=";") > X = dane[,c(9:10)] # kolumny z waga > Y = dane[,c(11:17)] # kolumny z MDRD > wynik = cc(X,Y) > wynik$cor [1] 0.3754946 0.1907164 Propozycje tematów prac dyplomowych 11/14 Jak to zrobić w R R-kod > wynik$xcoef [,1] [,2] wagastart 0.1047822 -0.09276486 wagaend -0.1154909 0.01404359 > wynik$ycoef [,1] [,2] MDRD7 0.056059823 0.05799373 MDRD30 -0.059196976 -0.03981322 MDRD6m -0.006987328 0.02870234 MDRD12m -0.094082377 0.07732582 MDRD24m 0.119735985 -0.09688825 MDRD36m -0.024980200 -0.01744831 MDRD60m -0.007345604 0.04083270 > plot(wynik$cor,type="b") > plt.cc(wynik,var.label=T) Propozycje tematów prac dyplomowych 12/14 Przykładowe wyniki 0.5 ● 0.3 0.2 ● ● 0.1 wynik$cor 0.4 ● 1.0 1.5 2.0 2.5 3.0 3.5 4.0 Index Propozycje tematów prac dyplomowych 13/14 1.0 4 Przykładowe wyniki 3 101 wiek.biorcy 2 0.5 85 103 MDRD12m MDRD30 MDRD6m 1 0 Dimension 2 0.0 wagastart −1 −0.5 wiek.dawcy −2 wagaend 117 79 134 113 95 27 3413 19 69 94 3097 12 74 136 88 1 59 80 96 105 9 116 53 35 57 93 2949 47 22 7 99 108 107 25 62 126 86 41 2170 23 43 127 111 71 90 2 89 76 33 32 63 55 18 61 50125 129 38 64 92 31 58 83 46 40 48 133 119 112 82 45 2854 26 6851109 77 81 17 66 118 8 1184 5 132 72 75 67 102 10 20 100 6 115 121 24 78 15 44122 135 11465 52 1044 3 37 39 56 73 14 42 120 16 91 130 106 131 128 110 123 −3 −1.0 Dimension 2 60 MDRD7 MDRD60m MDRD24m MDRD36m 98 124 87 36 −1.0 −0.5 0.0 0.5 1.0 −2 Dimension 1 Propozycje tematów prac dyplomowych −1 0 1 2 Dimension 1 14/14