{ }T - Microarray

Transkrypt

{ }T - Microarray
Dodatek D. Analiza składowych głównych (PCA).
Celem analizy składowych głównych jest znalezienie linowej transformacji A takiej,
która zastosowana do n-wymiarowego wektora cech x, da w rezultacie nowy, nieskorelowany
wektor cech y.
Oznaczmy przez Cx macierz kowariancji określoną wzorem:
{
C x = E ( x − m )( x − m )
T
}
gdzie: m – wartość średnia wektora cech x
Ponieważ macierz Cx jest rzeczywista i symetryczna, zawsze możliwe jest znalezienie zbioru
n ortonormalnych wektorów własnych, stąd można zapisać:
AC x AT = Λ
gdzie: A – macierz o wymiarach n x n, której rzędy są wektorami własnymi Cx
Λ - diagonalna macierz zawierająca na przekątnej głównej wartości własne
Teraz transformatę możemy zapisać jako:
y = A( x − m)
Wartość średnia wektora y jest równa 0 natomiast macierz kowariancji
{
C y = E A( x − m )( A( x − m ))
T
{
}
} = E{A(x − m)(x − m) A }
T
T
= AE ( x − m )( x − m ) AT = AC x AT = Λ
T
jest diagonalna z wartościami własnymi oryginalnej macierzy kowariancji Cx na głównej
przekątnej.
Ponadto, jeśli Λ2 jest diagonalną macierzą, której elementy są równe pierwiastkom
kwadratowym wartości własnych macierzy Cx, przekształcony wektor
−
1
2
Y = Λ A( x − m )
zawiera nieskorelowane elementy z jednostkową wariancją:
T
1
−
 −1   −1 
C y =  Λ 2 A C x  Λ 2 A  = Λ 2 AC x AT

 

(
T
1
1
−
−
 − 12 
 Λ  = Λ 2 ΛΛ 2 = I




)
Biorąc m komponentów głównych, którym odpowiada m największych wartości własnych
xˆ = Am ( x − m )
otrzymujemy aproksymację wektora x, który jest rzutowany na podprzestrzeń rozpiętą na m
ortonormalnych wektorach własnych. Projekcja ta jest optymalna w sensie minimalizacji
błędu średniokwadratowego (MSE). Przy redukcji z n do m błąd MSE równy jest sumie n-m
najmniejszych wartości własnych
E { x − xˆ }= ∑ λ
2
n
i = m +1
i

Podobne dokumenty