Korelacja kanoniczna

Transkrypt

Korelacja kanoniczna
KORELACJA KANONICZNA
oraz analiza głównych składowych
Marek Styczeń
Dany jest zbiór zmiennych Z składający się z dwu rozłącznych podzbiorów. Średnia każdej z tych zmiennych
jest równa 0. Zapiszemy macierz wartości zmiennych Z jako macierz blokową:
Z =   X   Y  


Macierz „kowariancji” (sum iloczynów wartości zmiennych ZTZ) zapisać można jako macierz blokową:
 T 
  X X 
Z Z= 
  YT X 
 

T
 XT Y 

 

 YT Y 

 
Zmienne będące liniowymi funkcja mi zmiennych X zapiszemy jako:
A i = X α Ti
a zmienne będące liniowymi funkcja mi zmiennych X zapiszemy jako:
B j= X β
T
j
poszukujemy układu k par zmiennych (Ai, Bj) spełniających następujące warunki:
dla każdego i:
T
T
T
(1) A i A i = α i X X α i = 1
(2)
B
T
i
B i = β iY
T
Y β
T
i
=1
dla każdej pary (i, j), w której j nie jest równe i:
(3)
A Ti A j = α i X T X α Tj = 0
(4)
B Ti B j = β i Y T Y β Tj = 0
(5)
A Ti B j = α i X T Y β Tj = 0
dla każdej pary zmiennych Ai, Bj, dla której i = j: ich iloczyn skalarny ma wartość maksymalną przy założeniu,
że spełnione są wcześniejsze warunki:
A Ti B i = α i X T Y β Ti = m a x
Korelacjami kanonicznymi nazywamy współczynniki korelacji między parami zmiennych Ai, Bi
spełniającymi wymienione warunki; przy czym pary te są uporządkowane malejąco wedle wartości kwadratu
tego współczynnika korelacji. Parę zmiennych Ai, Bi nazywamy i.tą parą zmiennych kanonicznych, a
współczynnik korelacji liniowej między nimi i-tą korelacją kanoniczną.
Liczba różnych liniowych funkcji zmiennych X, które spełniają warunki (1) i (3) jest równa rzędowi
macierzy ich „kowariancji” ( XTX ). Podobnie, liczba różnych liniowych funkcji zmiennych Y, które spełniają
warunki (2) i (4) jest równa rzędowi macierzy ich „kowariancji” ( YTY ). W konsekwencji liczba par
zmiennych kanonicznych spełniających ponadto warunek (5) jest równa mniejszej z dwu liczb: rząd macierzy
XTX i : rząd macierzy YTY.
Największy współczynnik korelacji kanonicznej znajdujemy przyrównując do zera cząstkowe pochodne
funkcji Lagrange’a:
α 1 X T Y β 1T -0 .5 × λ ( α i X T X α iT -1 ) -0 .5 × µ ( β i Y T Y β iT -1 )
Na tej podstawie wnioskujemy, że kwadraty współczynników korelacji kanonicznych są wartościami
własnymi macierzy
( Y T Y ) -1 (Y T X ) (X T X ) -1 (X T Y )
Można obliczyć średnią miarę zależności między dwoma zbiorami zmiennych X, Y jako sumę
kwadratów korelacji kanonicznych podzieloną przez liczbę par zmiennych kanonicznych będących funkcjami
zmiennych z obu zbiorów. Średnia ta może przyjmować wartości z przedziału <0, 1>.
Jeżeli zmienne X są parami liniowo nieskorelowane, zmienne Y są parami liniowo nieskorelowane
i każda zmienna ze zbioru X jest liniowo nieskorelowana z każdą zmienną ze zbioru Y, to
Każda zmienna z zbioru X po przemnożeniu przez odpowiednią stałą spełniać będzie warunki (1) (3).
Podobnie, każda zmienna z zbioru Y po przemnożeniu przez odpowiednią stałą spełniać będzie warunki (2) (4).
Liczba par zmiennych kanonicznych będzie równa liczebności mniejszego ze zbiorów X i Y i każda para
zmiennych kanonicznych będzie parą zmiennych nieskorelowanych. W konsekwencji średnią miarę zależności
między zbiorami zmiennych X i Y będzie równa 0.
Jeżeli każda zmienna ze zbioru X jest liniową funkcją zmiennych ze zbioru Y, to kwadrat każdego
współczynnika korelacji kanonicznej będzie równy 1 i w konsekwencji średnią miarę zależności między
zbiorami zmiennych X i Y będzie równa 1.
Jeżeli w jednym ze zbiorów zmiennych X albo Y jest jedna tylko zmienna, to będziemy mieli jedną
tylko parę zmiennych kanonicznych ( nie znajdziemy dwu nieskorelowanych ze sobą liniowych funkcji jednej
zmiennej) i jeden tylko współczynnik korelacji kanonicznej i będzie on równy współczynnikowi korelacji
wielokrotnej.
Jeżeli w każdym ze zbiorów zmiennych X oraz Y jest jedna tylko zmienna, to będziemy mieli jedną
tylko parę zmiennych kanonicznych ( nie znajdziemy dwu nieskorelowanych ze sobą liniowych funkcji jednej
zmiennej) i jeden tylko współczynnik korelacji kanonicznej i będzie on równy (co do wartości bezwzględnej)
współczynnikowi korelacji liniowej między tymi dwiema zmiennymi.
ANALIZA GŁÓWNYCH SKŁADOWYCH
Jeżeli tylko jeden ze zbiorów zmiennych X, Y jest niepusty, przyjmijmy,że jest nim zbiór zmiennych X, to
poszukiwanie korelacji kanonicznych pozbawione jest sensu. Nadal można się jednak interesować zmiennymi Ai
będącymi liniowymi funkcjami zmiennych X, które spełniałyby np znane warunki:
dla każdego i
T
T
T
(1) A i A i = α i X X α i = 1
dla każdej pary (i, j), w której j nie jest równe i:
(3)
A Ti A j = α i X T X α Tj = 0
lub podobne.
Zbiór takich nieskorelowanych zmiennych będących liniowymi funkcjami zmiennych X zasługuje na miano
głównych składowych jeżeli spełnia warunki należące do jednego z dwu zespołów:
Główne składowe w ujęciu „nowoczesnym” (np. wg Morrisona).
Głównymi składowymi zmiennych X są zmienne będące ich liniowymi funkcjami spełniającymi następujące
warunki:
(1) dla każdego i wierszowy wektor parametrów liniowego przekształcenia zmiennych X w i-tą główną
składową:
α i α Ti = 1
(2) i-ty wierszowy wektor αi jest tak dobrany, że
A Ti A i = α i X T X α Ti = m a x α
(3) jednocześnie dla każdego j < i:
α i α Tj = 0
Inaczej mówiąc, głównymi składowymi zmiennych X są liniowe funkcje tych zmiennych, między sobą
nieskorelowane, o możliwie największych wariancjach, przy ograniczeniu, że suma kwadratów współczynnikach
przekształcenia każdej z nich jest równa 1. Główne składowe są uporządkowane wg ich wariancji, malejąco.
Wariancję pierwszej głównej składowe, tej o największej wariancji, znajdujemy przyrównując do zera
pochodną względem α1 funkcji Lagrange’a:
α 1 X T X α 1T -λ 1 ( α 1 α 1T -1 )
Jest nią największa wartość własna macierzy XTX, zaś wektorem α1 okazuje się wektor własny
macierzy XTX odpowiadający tej największej wartości własnej.
Wariancje następnych głównych składowych i wyznaczające je wektory współczynników
przekształcenia αj dla j=2,3,... znajdujemy przyrównując do zera pochodną względem αj funkcji Lagrange’a:
α j X T X α Tj - λ j (α jα Tj -1 ) + µ α j-1 α Tj
Są nimi kolejne wartości własne macierzy XTX, zaś wektorami αj okazuje się wektory własne
macierzy XTX odpowiadający tym wartościom własnym.
Główne składowe w ujęciu „tradycyjnym” (np. wg Theila).
Zmienna p1 jest pierwszą główną składową zmiennych X jeżeli użyta do przewidywania przy pomocy
odpowiednich regresji liniowych wartości wszystkich zmiennych X zapewnia minimalną wartość sumy
kwadratów wszystkich popełnianych błędów.
Niech p1α1 będzie macierzą aproksymacji wartości wyrazów macierzy X (wartości wszystkich zmiennych X
w całej zbiorowości). Chcąc wyznaczyć pierwszą główną składową poszukujemy takiej pary wektorów p1α1,
która minimalizowałaby sumę kwadratów różnic:
k
tr ( ( X -p α ) T ( X -p α ) )=
n
∑ ∑ (x
j= 1
ij - p i a j
)
2
i= 1
gdzie
k jest liczbą wszystkich zmiennych X a zarazem liczą wyrazów wektora α,
n jest liczbą obserwacji czyli wierszy macierzy X i jednocześnie wyrazów wektora p,
Ewentualne rozwiązanie w postaci iloczynu p1α1 nie jest unikalne, gdyż mnożąc p1 przez c różne od 0 i mnożąc
α1 przez odwrotność c uzyskamy inną parę wektorów, których iloczyn będzie równie dobrą w sensie
najmniejszych kwadratów aproksymacją X. Rozwiązanie możemy ujednoznacznić nakładając dodatkowe
ograniczenie na iloczyn skalarny pTp :
p Tp = 1
Rozwiązanie znajdujemy przyrównując do zera pochodną względem α funkcji Lagrange’a:
p T X X T p -λ ( p T p -1 )
Jest nim wektor α1 będący wektorem własnym macierzy XTX odpowiadającym największej (λ1) wartości własnej
tej macierzy. Wektor p1 znajdujemy jako:
(
)
p1 = 1/λ 1 Xα1
Następną główną składową uzyskujemy tworząc nową macierz wartości zmiennych oznaczoną X(1) będącą
macierzą różnic:
X
(1 )
= X -p 1α
1
a następnie wyznaczając znanym już sposobem parę wektorów p2α2, których iloczyn byłby macierzą
aproksymacji wartości wyrazów macierzy X(1) gwarantującą minimalną sumę kwadratów błędów tej
aproksymacji;
Operację tę można powtarzać tworząc kolejne macierze wartości zmiennych będących błędami poprzednich
aproksymacji:
X
(k )
= X -p k α
k
aż do uzyskania aproksymacji bezbłędnej.
Gdyby np. liczba wszystkich głównych składowych k była równa 3, to zachodziłaby równość:
0 = ( ( X - p 1α 1 ) - p 2 α
2
) - p 3α
3
(nawiasy wyodrębniają kolejne macierze błędów o aproksymacji z użyciem 1,2 i 3 głównej składowej)
Porównanie głównych składowych „tradycyjnych” i „nowoczesnych”