Analiza głównych składowych

Transkrypt

Analiza głównych składowych
ANALIZA GŁÓWNYCH SKŁADOWYCH
Procedura wyznaczania głównych składowych:
1. Umieszczenie danych w macierzy (o wymiarach n × k), gdzie k oznacza liczbę zmiennych.
2. Oszacowanie macierzy korelacji (bądź kowariancji) między zmiennymi (o wymiarach k ×
k).
3. Wyznaczenie wartości i wektorów własnych macierzy korelacji (bądź kowariancji).
4. Uszeregowanie wartości własnych od największej do najmniejszej.
5. Przestawienie kolumn w macierzy wektorów własnych, tak żeby pierwsza kolumna
zawierała wektor własny odpowiadający największej wartości własnej, druga kolumna wektor
odpowiadający drugiej co do wielkości wartości własnej itd.
6. Wybór liczby czynników dokonuje się na podstawie udziału sumy m pierwszych wartości
własnych w sumie wszystkich wartości własnych.
7. Utworzenie macierzy gamma (macierz ładunków) polegającej na pozostawieniu m
pierwszych kolumn w macierzy wektorów własnych i skreśleniu pozostałych kolumn –
dostajemy, więc macierz o wymiarach k × m.
8. Pomnożenie macierzy danych wejściowych (o wymiarach n × k) przez macierz gamma (o
wymiarach k × m) - dostajemy macierz z wartościami czynników (głównych składowych).
Wartość własna macierzy A to każdy taki skalar λ, że dla pewnego wektora niezerowego x,
zwanego wektorem własnym, zachodzi:
Ax = λx.
Wartości własne są rozwiązaniami równania charakterystycznego macierzy:
det(A − λI) = 0,
gdzie I oznacza macierz jednostkową.
Znając wartości własne λ1, λ2,…, λk można obliczyć odpowiadające im wektory własne x1,
x2,…, xk rozwiązując następujące równania:
(A − λiI)xi = 0
ze względu na wektor xi.
Własności głównych składowych
1.
2.
3.
4.
Suma kwadratów ładunków głównej składowej ajl równa się jedności.
Wariancja l-tej głównej składowej równa się wartości własnej λl.
Główne składowe są nieskorelowane między sobą.
Suma wariancji składowych wyprowadzonych z macierzy korelacji (czyli suma wartości
własnych tej macierzy) jest równa sumie wariancji zmiennych pierwotnych.
5. Miarą względnej zmienności przypadającej na l-tą główną składową jest wyrażenie:
γl =
λl
.
k
∑λ
i
i =1
Ilustracja metody. Załóżmy, że mamy zbiór danych zawierający 100 przypadków (100 osób)
charakteryzowanych przez 5 zmiennych (np. wzrost, waga, wiek, dochód, powierzchnia
mieszkania). Można przypuszczać, że zmienne "wzrost" i "waga" będą ze sobą silnie dodatnio
skorelowane (im kto wyższy, tym więcej waży). Po to żeby uzyskać większą przejrzystość
danych lub uniknąć powielania się danych (np. przy segmentacji klientów) czasami warto jest
zastąpić dwie zmienne jedną zmienną - tak zwaną składową, którą można nazwać na przykład
"wielkość". Podobnie skorelowane będą ze sobą zmienne "dochód" i "powierzchnia
mieszkania", które być może można zastąpić czynnikiem "zamożność". Należy stworzyć
macierz korelacji (5×5) i wyznaczyć jej wartości własne oraz wektory własne. Szeregujemy
wartości własne od największej do najmniejszej i jeżeli np. 3 pierwsze wartości własne
stanowią odpowiednio duży udział w sumie wszystkich pięciu wartości własnych (np.
powyżej 70%) oznacza to, że możemy rozpatrywać model 3-czynnikowy. Tworzymy macierz
gamma (o wymiarach 5×3 - bierzemy 3 "kolumny-wektory własne" odpowiadające
odpowiednio uszeregowanym wartościom własnym) i mnożymy macierz danych
wejściowych (100×5) przez macierz gamma (5×3) dostając macierz 100×3. Otrzymana
macierz zawiera wartości poszczególnych składowych dla poszczególnych przypadków.
Teraz należy zbadać korelacje poszczególnych składowych (mamy ich 3) ze zmiennymi
wejściowymi (mieliśmy ich 5). Na przykład pierwsza składowa jest mocno skorelowana z
"wagą" i "wzrostem", druga z "wiekiem", a trzecia z "dochodem" i "powierzchnią
mieszkania".
Polecana literatura:
Morrison D., Wielowymiarowa analiza statystyczna.