Wykład 10 - theta.edu.pl

Transkrypt

Wykład 10 - theta.edu.pl
PAKIETY STATYSTYCZNE
1. Wykład wstępny
2. Statistica wprowadzenie
3. Statistica elementy analizy danych
4. Statistica wykresy
5. SAS wprowadzenie - środowisko Windows
6. SAS wprowadzenie - środowisko Linux
7. SAS elementy analizy danych
8. SAS wykresy
9. SAS tworzenie zaawansowanych programów
10. R wprowadzenie
11. R elementy analizy danych
12. R wykresy
13. R zaawansowane elementy programowania
14. Manipulowanie dużymi zbiorami danych
15. Podsumowanie materiału
WSTĘP
1. Regresja liniowa
•
lm
•
glm
2. Analiza wariancji
•
aov
•
anova
Copyright ©2011, Joanna Szyda
REGRESJA LINIOWA
REGRESJA LINIOWA → lm, glm
# reading data
komentarz
>gaw=read.table("c:/gaw.txt",header=T,sep="\t")
sczytywanie danych
>colnames(gaw)=c("FAMID","IID","FID","MID","SEX","AGE_INTERVI
EW","ETHNICITY","ALCDEPEND","AGE_ONSET","MAXDRINK","MAXCIGAR"
)
nadanie nazw kolumnom
>gaw$SEX
odwołanie do danej zmiennej
>lregression1=lm(MAXDRINK~AGE_ONSET,data=gaw)
regresja liniowa
>lregression1
>summary(lregression1)
wizualizacja wyników
>lregression2=glm(MAXDRINK~AGE_ONSET,data=gaw)
maxdrinks   0  1age _ of _ onset
y   0  1 x
Copyrigt ©2011, Joanna Szyda
REGRESJA LINIOWA → WYNIKI
> lregression1
Call:
lm(formula = MAXDRINK ~ AGE_ONSET, data = gaw)
równanie regresji
Coefficients:
(Intercept)
AGE_ONSET
36.0066
-0.3845
maxdrinks   0  1age _ of _ onset
y   0  1 x
y  36.00663  0.38452 x
Copyrigt ©2011, Joanna Szyda
REGRESJA LINIOWA → WYNIKI
> summary(lregression1)
Call:
lm(formula = MAXDRINK ~ AGE_ONSET, data = gaw)
równanie regresji
Residuals:
wartości błędów
Min
1Q Median
3Q
Max
-29.854 -10.240 -4.471
6.107 68.068
Coefficients:
współczynniki równania regresji
Estimate Std. Error t value Pr(>|t|)
(Intercept) 36.00663
1.99706 18.030 < 2e-16 ***
AGE_ONSET
-0.38452
0.08303 -4.631 4.46e-06 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 16.91 on 600 degrees of freedom
(957 observations deleted due to missingness)
Multiple R-squared: 0.03451,
Adjusted R-squared: 0.0329
F-statistic: 21.45 on 1 and 600 DF, p-value: 4.459e-06
wartość testu F, st. Swobody, poziom istotności
Copyrigt ©2011, Joanna Szyda
REGRESJA LINIOWA → WYNIKI
wartości błędu
> lregression1$residuals
1
2
5
-5.8543333 -12.4710746 10.1456667

8
2.6050732
10
45.9147036


wartości przewidziane przez równanie regresji
> lregression1$fitted.values
1
2
5
8
10

29.85433 24.47107 29.85433 21.39493 29.08530


30
zaw. tłuszczu
29
28
27
26
25
24
23
22
50
60
70
80
masa ciała
90
100
Copyrigt ©2011, Joanna Szyda
ANALIZA WARIANCJI
ANALIZA WARIANCJI → aov, anova
> anova1 <- aov(MAXDRINK ~ SEX, data=gaw)
> anova2 <- lm(MAXDRINK ~ SEX, data=gaw)
> anovaFINAL <- anova(anova2)
Copyrigt ©2011, Joanna Szyda
ANALIZA WARIANCJI → WYNIKI
> summary(anova1)
Df
Sum Sq
SEX
1
72285
Residuals
1337 272662
Mean Sq
72285
204
F value
354.45
źródło
stopnie suma
średni
Zmienności swobody kwadratów kwadrat
wartość
testu
Ng
Pomiędzy gr.
(płeć)
 n y
i 1
i
ni
i 1 j1
N
Całkowita
 y
i 1
 y
 yi 
2
ij
 y
2
i
Ng 1
2
 y
Ng
Wewnątrz gr.
błąd
i
Ng
 n y
i 1
2
Ng 1
ni
i 1 j1
ij  y i 
2
N  Ng
N
N 1
poziom
istot.
 y
i
 y
Ng
N  Ng
i
Pr(>F)
<2.2e-16 ***
 y
i 1
 y
2
i
N 1
Copyrigt ©2011, Joanna Szyda
POMOC
> help(lm)
> help(aov)
Copyrigt ©2011, Joanna Szyda

Podobne dokumenty