ANALIZA SKŁADOWYCH GŁÓWNYCH

Transkrypt

ANALIZA SKŁADOWYCH GŁÓWNYCH
ANALIZA SKŁADOWYCH GŁÓWNYCH
Wczytanie danych
> dane=read.table("cities.txt",header=TRUE, sep="\t")
> print(dane)
Standaryzacja zmiennych
>
>
>
>
>
dane.mean = apply(dane[2:4],2, mean)
dane.std = sqrt(apply(dane[2:4],2, var))
dane.stand = sweep(dane[2:4], 2, dane.mean)
dane.stand = sweep(dane.stand, 2,dane.std, FUN="/")
rownames(dane.stand) = dane[,1]
Analiza składowych głównych na podstawie macierzy kowariancji
> dane.pcomp = princomp(~ Work + Price + Salary, cor=FALSE, data=dane.stand)
> print(summary(dane.pcomp))
Wartości własne
> print((dane.pcomp$sdev)^2)
Analiza składowych głównych na podstawie macierzy korelacji
> dane.pcomp = princomp(~ Work + Price + Salary, cor=TRUE, data=dane[,2:4])
> print(summary(dane.pcomp))
> print((dane.pcomp$sdev)^2)
Wykres słupkowy wariancji składowych głównych
> plot(dane.pcomp)
Struktura kierunków głównych, ładunki
> dane.pcomp$loadings
Wartości składowych głównych
> dane.pcomp$scores
Maksymalna wartość pierwszej składowej
> which.max(dane.pcomp$scores[,1])
> dane.pcomp$scores[which.max(dane.pcomp$scores[,1]),]
> dane.stand[which.max(dane.pcomp$scores[,1]),]
Dwuwykres
> biplot(dane.pcomp, choices=1:2, pc.biplot=TRUE, cex=0.6)
Na dwuwykresie przedstawionych jest n+3 punktów odpowiadających n obserwacjom i 3 zmiennym (punkty
dla zmiennych reprezentowane są jako wektory). Punkty odpowiadające obserwacjom to (przekształcone) dwie
pierwsze składowe główne.
Eksploracja danych. Składowe główne. | PS 4
Minimane drzewo spinające
Wykorzystanie funkcji mst pakietu ape.
>
>
>
>
library(ape)
distance=dist(dane.stand)
m=mst(distance)
plot(m, x1=dane.pcomp$scores[,1], x2=dane.pcomp$scores[,2])
Otrzymujemy minimalne drzewo spinające dla danych cities, naniesione na wykres względem pierwszych
dwóch składowych. Liczba w kółku oznacza numer miasta, tj. numer wiersza danych, odpowiadającego
danemu miastu.
Zad. 1
Dane wrecord.dat zawierają rekordy krajowe w wybranych konkurencjach biegowych - są to zmienne 100m,
200m, 400m, 800m, 1500m, 3000m, marathon. Czasy dla trzech najkrótszych biegów podane są w sekundach,
pozostałe czasy w minutach.
1. Dokonać analizy składowych głównych dla zmiennych standaryzowanych. Dlaczego standaryzujemy
zmienne?
2. Jaki jest procent wariancji tłumaczony przez poszczególne składowe?
3. Dokonać interpretacji wszystkich wektorów ładunków.
4. Wypisać wektor średnich dla poszczególnych zmiennych.
5. Przedstawić państwa na wykresach zależności par składowych głównych: 1-2, 1-3, 2-3.
6. Co oznacza duża wartość dodatnia pierwszej składowej?
7. Zinterpretować położenie na wykresie trzech wybranych państw.
Zad. 2
Dane protein.txt zawierają informacje o spożyciu protein dla dziewięciu różnych kategorii produktów w 25
państwach. Kategorie te, to: RdMeat: czerwone mięso, WhMeat: białe mięso, Eggs: jajka, Milk: mleko, Fish:
ryby, Cereal: zbożowe, Starch: skrobia, Nuts: orzechy, strączkowe, Fr&Veg: owoce i warzywa.
1. Dokonać analizy składowych głównych dla zmiennych oryginalnych i standaryzowanych.
2. Sporządzić dwuwykresy w obu przypadkach. Porównać je.
3. Sporządzić wykresy minimalnych drzew spinających dla par składowych 1-2, 2-3, 1-3.
4. Zinterpretować naturalne skupienia na wykresie dla zmiennych standaryzowanych.
W sprawozdaniu należy umieścić także wstęp teoretyczny - odpowiedni do każdego z zadań.
Eksploracja danych. Składowe główne. | PS 4

Podobne dokumenty