{ }T - Microarray
Transkrypt
{ }T - Microarray
Dodatek D. Analiza składowych głównych (PCA). Celem analizy składowych głównych jest znalezienie linowej transformacji A takiej, która zastosowana do n-wymiarowego wektora cech x, da w rezultacie nowy, nieskorelowany wektor cech y. Oznaczmy przez Cx macierz kowariancji określoną wzorem: { C x = E ( x − m )( x − m ) T } gdzie: m – wartość średnia wektora cech x Ponieważ macierz Cx jest rzeczywista i symetryczna, zawsze możliwe jest znalezienie zbioru n ortonormalnych wektorów własnych, stąd można zapisać: AC x AT = Λ gdzie: A – macierz o wymiarach n x n, której rzędy są wektorami własnymi Cx Λ - diagonalna macierz zawierająca na przekątnej głównej wartości własne Teraz transformatę możemy zapisać jako: y = A( x − m) Wartość średnia wektora y jest równa 0 natomiast macierz kowariancji { C y = E A( x − m )( A( x − m )) T { } } = E{A(x − m)(x − m) A } T T = AE ( x − m )( x − m ) AT = AC x AT = Λ T jest diagonalna z wartościami własnymi oryginalnej macierzy kowariancji Cx na głównej przekątnej. Ponadto, jeśli Λ2 jest diagonalną macierzą, której elementy są równe pierwiastkom kwadratowym wartości własnych macierzy Cx, przekształcony wektor − 1 2 Y = Λ A( x − m ) zawiera nieskorelowane elementy z jednostkową wariancją: T 1 − −1 −1 C y = Λ 2 A C x Λ 2 A = Λ 2 AC x AT ( T 1 1 − − − 12 Λ = Λ 2 ΛΛ 2 = I ) Biorąc m komponentów głównych, którym odpowiada m największych wartości własnych xˆ = Am ( x − m ) otrzymujemy aproksymację wektora x, który jest rzutowany na podprzestrzeń rozpiętą na m ortonormalnych wektorach własnych. Projekcja ta jest optymalna w sensie minimalizacji błędu średniokwadratowego (MSE). Przy redukcji z n do m błąd MSE równy jest sumie n-m najmniejszych wartości własnych E { x − xˆ }= ∑ λ 2 n i = m +1 i