Prawdopodobienstwo i statystyka

Transkrypt

Prawdopodobienstwo i statystyka
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Prawdopodobieństwo i statystyka
Wykład XV:
Zagadnienia redukcji wymiaru danych
2 lutego 2015 r.
Prawdopodobieństwo i statystyka
Wykład XV: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Standaryzacja danych
Własności macierzy korelacji
Standaryzacja danych
Definicja
Niech X będzie zmienną losową o skończonym drugim momencie.
Standaryzacją zmiennej X nazywamy zmienną losową
X − EX
Z=p
.
Var (X )
Uwaga: EZ = 0, Var (Z ) = 1.
~ = (X1 , X2 , . . . , Xd )T jest wektorem losowym o
Uwaga: Jeżeli X
macierzy kowariancji Σ, to wektor standaryzowany (po
~ ma wartość oczekiwaną E Z
~ = 0 i macierz
współrzędnych) Z
~ , tj.
kowariancji R = [rij ] równą macierzy KORELACJI wektora X
rij = ρij = q
cov (Xi , Xj )
.
Var (Xi )Var (Xj )
Prawdopodobieństwo i statystyka
Wykład XV: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Standaryzacja danych
Własności macierzy korelacji
Standaryzacja danych - cd.
Uwaga: prosta baza danych + ewentualna liczbowa etykietyzacja
~ n (rekordów), których
niektórych pól = ciąg wartości wektorów X
składowe mierzone są na ogół w różnych jednostkach.
Empiryczna standaryzacja ciągu wektorów losowych
~ n = (Xn1 , Xn2 , . . . , Xnd )T , n = 1, 2, . . . , N będzie ciągiem
Niech X
wektorów losowych. Niech
N
1 X
X̄j =
Xnj , Sj =
N n=1
sP
N
n=1 (Xnj
− X̄j )2
.
N −1
~ n } nazywamy ciąg wektorów losowych Z
~n o
Standaryzacją ciągu {X
składowych
(Xnj − X̄j )
Znj =
.
Sj
Prawdopodobieństwo i statystyka
Wykład XV: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Standaryzacja danych
Własności macierzy korelacji
Standaryzacja danych - cd.
Empiryczna macierz korelacji ciągu wektorów losowych
~ n } nazywamy macierz
Empiryczną macierzą korelacji ciągu {X
losową
ρ̂ij =
ρ̂N
ij
PN
= qP
N
n=1 (Xni
− X̄i )(Xnj − X̄j )
2
n=1 (Xni − X̄i )
qP
N
n=1 (Xnj
.
− X̄j )2
~ n } jest próbą prostą z rozkładu µ.
Uwaga: Przypuśćmy, że ciąg {X
ρ̂N
ij
=
1 PN
n=1 (Xni − X̄i )(Xnj − X̄j )
N−1
q
q
P
N
1
1 PN
2
(X
−
X̄
)
ni
i
n=1
n=1 (Xnj
N−1
N−1
.
− X̄j )2
ρ̂N
ij jest mocno zgodnym ciągiem estymatorów.
Jednak ρ̂N
ij nie jest estymatorem nieobciążonym elementu ρij
macierzy korelacji R.
Prawdopodobieństwo i statystyka
Wykład XV: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Standaryzacja danych
Własności macierzy korelacji
Własności macierzy korelacji
~ 1 (ω), X
~ 2 (ω), . . . , X
~ N (ω) empiryczna macierz
Dla każdej realizacji X
N
korelacji ρ̂ (ω) jest macierzą korelacji, tzn. jest
symetryczna,
nieujemnie określona,
na przekątnej ma wartości 1, a więc jej ślad wynosi d (wymiar
wektora danych).
W szczególności, dla ρ̂N (ω) istnieją wartości własne
λ1 ­ λ2 ­ . . . ­ λd ­ 0 oraz odpowiadające im wektory własne
{e1 , e2 , . . . , ed } tworzące bazę ortonormalną w Rd .
Uwaga: i wartości własne i wektory zależą od całej realizacji
~ 1 (ω), X
~ 2 (ω), . . . , X
~ N (ω)!
X
Prawdopodobieństwo i statystyka
Wykład XV: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza składowych głównych
Analiza składowych głównych
Składowe główne
~ będzie d-wymiarowym wektorem standaryzowanym (tzn.
Niech Z
~
~ ) = Corr (Z
~ )). Niech λ1 ­ λ2 ­ . . . ­ λd ­ 0
E Z = 0 i Cov (Z
~ ) a {e1 , e2 , . . . , ed }
będą wartościami własnymi macierzy Corr (Z
odpowiadającymi im wektorami własnymi, które tworzą bazę
ortonormalną w Rd .
~ (w istocie: macierzy Corr (Z
~ ))
Składowymi głównymi wektora Z
nazywamy zmienne losowe
~ , i = 1, 2, . . . , d.
Yi = eiT Z
Prawdopodobieństwo i statystyka
Wykład XV: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza składowych głównych
Analiza składowych głównych - cd.
~ ) = Var (hei , Z
~ i) = hei , Cov (Z
~ )ei i
Var (Yi ) = Var (eiT Z
~ )ei i = hei , λi ei i = λi .
= hei , Corr (Z
Mówimy, że zmienna Yi „wyjaśnia” część λi /d całkowitej
~.
zmienności („wariancji”) wektora Z
Analiza składowych głównych (ang. „Principal Components
Analysis”)
Analiza składowych głównych polega na wyborze i właściwej
interpretacji zmiennych Y1 , Y2 , . . . , Yk w taki sposób, aby wyjaśnić
zadaną część α ∈ (0, 1) całkowitej wariancji.
Prawdopodobieństwo i statystyka
Wykład XV: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza składowych głównych
Analiza składowych głównych - cd.
Innymi słowy, w analizie składowych głównych (PCA) szukamy:
k możliwie małego (w stosunku do d), które spełnia warunek
λi /d + λ2 /d + . . . + λk /d > α,
i dla którego odpowiednie kombinacje liniowe zmiennych
wyjściowych posiadają sensowną interpretację.
Prawdopodobieństwo i statystyka
Wykład XV: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza czynnikowa
Model dla analizy czynnikowej
Postuluje się istnienie nieobserwowanych czynników (ang.
„factors”), które przejawiają się w rezultacie działania mechanizmu
liniowego
~ − EX
~ = LF
~ + ~ε,
X
~ ma wymiar d, wektor czynników F
~ ma
gdzie „wektor obserwacji” X
wymiar k < d (znacznie!), „wektor czynników specyficznych” ~ε ma
wymiar d, a „macierz ładunków czynników” L ma wymiar d × k.
~ i ~ε są nieskorelowane, E F
~ = 0, Cov (F ) = 1I k ,
Zakłada się, że F
E ~ε = 0 i Cov (~ε) = Λ~ε jest macierzą diagonalną,
Prawdopodobieństwo i statystyka
Wykład XV: Redukcja wymiaru danych
Standaryzacja danych
Analiza składowych głównych
Analiza czynnikowa
Analiza czynnikowa
Analiza czynnikowa (ang. „Factor Analysis”)
W szczególności:
~ − EX
~ )(X
~ − EX
~ )T = E (LF
~ + ~ε)(LF
~ + ~ε)T
Σ = E (X
~F
~ T LT ) + E (LF
~ ~εT ) + E (~εF
~ T LT ) + E (~ε~εT )
= E (LF
= LLT + Λε .
~
Rozwiązanie powyższego równania oraz poszukiwanie czynników F
przeprowadza się numerycznie.
~ , L) będzie rozwiązaniem dla modelu analizy czynnikowej.
Niech (F
Nich B będzie dowolnym odwzorowaniem ortogonalnym. Wówczas
~ , LB T ) tez jest rozwiązaniem i konieczna jest dodatkowa
(B F
analiza i wybór odpowiedniej „rotacji czynników”.
Analiza czynnikowa, mimo bogatej literatury i mnogosci
algorytmów pozostaje zawsze narzędziem bardzo kontrowersyjnym.
Prawdopodobieństwo i statystyka
Wykład XV: Redukcja wymiaru danych