Analiza głównych składowych
Transkrypt
Analiza głównych składowych
ANALIZA GŁÓWNYCH SKŁADOWYCH Procedura wyznaczania głównych składowych: 1. Umieszczenie danych w macierzy (o wymiarach n × k), gdzie k oznacza liczbę zmiennych. 2. Oszacowanie macierzy korelacji (bądź kowariancji) między zmiennymi (o wymiarach k × k). 3. Wyznaczenie wartości i wektorów własnych macierzy korelacji (bądź kowariancji). 4. Uszeregowanie wartości własnych od największej do najmniejszej. 5. Przestawienie kolumn w macierzy wektorów własnych, tak żeby pierwsza kolumna zawierała wektor własny odpowiadający największej wartości własnej, druga kolumna wektor odpowiadający drugiej co do wielkości wartości własnej itd. 6. Wybór liczby czynników dokonuje się na podstawie udziału sumy m pierwszych wartości własnych w sumie wszystkich wartości własnych. 7. Utworzenie macierzy gamma (macierz ładunków) polegającej na pozostawieniu m pierwszych kolumn w macierzy wektorów własnych i skreśleniu pozostałych kolumn – dostajemy, więc macierz o wymiarach k × m. 8. Pomnożenie macierzy danych wejściowych (o wymiarach n × k) przez macierz gamma (o wymiarach k × m) - dostajemy macierz z wartościami czynników (głównych składowych). Wartość własna macierzy A to każdy taki skalar λ, że dla pewnego wektora niezerowego x, zwanego wektorem własnym, zachodzi: Ax = λx. Wartości własne są rozwiązaniami równania charakterystycznego macierzy: det(A − λI) = 0, gdzie I oznacza macierz jednostkową. Znając wartości własne λ1, λ2,…, λk można obliczyć odpowiadające im wektory własne x1, x2,…, xk rozwiązując następujące równania: (A − λiI)xi = 0 ze względu na wektor xi. Własności głównych składowych 1. 2. 3. 4. Suma kwadratów ładunków głównej składowej ajl równa się jedności. Wariancja l-tej głównej składowej równa się wartości własnej λl. Główne składowe są nieskorelowane między sobą. Suma wariancji składowych wyprowadzonych z macierzy korelacji (czyli suma wartości własnych tej macierzy) jest równa sumie wariancji zmiennych pierwotnych. 5. Miarą względnej zmienności przypadającej na l-tą główną składową jest wyrażenie: γl = λl . k ∑λ i i =1 Ilustracja metody. Załóżmy, że mamy zbiór danych zawierający 100 przypadków (100 osób) charakteryzowanych przez 5 zmiennych (np. wzrost, waga, wiek, dochód, powierzchnia mieszkania). Można przypuszczać, że zmienne "wzrost" i "waga" będą ze sobą silnie dodatnio skorelowane (im kto wyższy, tym więcej waży). Po to żeby uzyskać większą przejrzystość danych lub uniknąć powielania się danych (np. przy segmentacji klientów) czasami warto jest zastąpić dwie zmienne jedną zmienną - tak zwaną składową, którą można nazwać na przykład "wielkość". Podobnie skorelowane będą ze sobą zmienne "dochód" i "powierzchnia mieszkania", które być może można zastąpić czynnikiem "zamożność". Należy stworzyć macierz korelacji (5×5) i wyznaczyć jej wartości własne oraz wektory własne. Szeregujemy wartości własne od największej do najmniejszej i jeżeli np. 3 pierwsze wartości własne stanowią odpowiednio duży udział w sumie wszystkich pięciu wartości własnych (np. powyżej 70%) oznacza to, że możemy rozpatrywać model 3-czynnikowy. Tworzymy macierz gamma (o wymiarach 5×3 - bierzemy 3 "kolumny-wektory własne" odpowiadające odpowiednio uszeregowanym wartościom własnym) i mnożymy macierz danych wejściowych (100×5) przez macierz gamma (5×3) dostając macierz 100×3. Otrzymana macierz zawiera wartości poszczególnych składowych dla poszczególnych przypadków. Teraz należy zbadać korelacje poszczególnych składowych (mamy ich 3) ze zmiennymi wejściowymi (mieliśmy ich 5). Na przykład pierwsza składowa jest mocno skorelowana z "wagą" i "wzrostem", druga z "wiekiem", a trzecia z "dochodem" i "powierzchnią mieszkania". Polecana literatura: Morrison D., Wielowymiarowa analiza statystyczna.