Wykład 10 - theta.edu.pl
Transkrypt
Wykład 10 - theta.edu.pl
PAKIETY STATYSTYCZNE 1. Wykład wstępny 2. Statistica wprowadzenie 3. Statistica elementy analizy danych 4. Statistica wykresy 5. SAS wprowadzenie - środowisko Windows 6. SAS wprowadzenie - środowisko Linux 7. SAS elementy analizy danych 8. SAS wykresy 9. SAS tworzenie zaawansowanych programów 10. R wprowadzenie 11. R elementy analizy danych 12. R wykresy 13. R zaawansowane elementy programowania 14. Manipulowanie dużymi zbiorami danych 15. Podsumowanie materiału WSTĘP 1. Regresja liniowa • lm • glm 2. Analiza wariancji • aov • anova Copyright ©2011, Joanna Szyda REGRESJA LINIOWA REGRESJA LINIOWA → lm, glm # reading data komentarz >gaw=read.table("c:/gaw.txt",header=T,sep="\t") sczytywanie danych >colnames(gaw)=c("FAMID","IID","FID","MID","SEX","AGE_INTERVI EW","ETHNICITY","ALCDEPEND","AGE_ONSET","MAXDRINK","MAXCIGAR" ) nadanie nazw kolumnom >gaw$SEX odwołanie do danej zmiennej >lregression1=lm(MAXDRINK~AGE_ONSET,data=gaw) regresja liniowa >lregression1 >summary(lregression1) wizualizacja wyników >lregression2=glm(MAXDRINK~AGE_ONSET,data=gaw) maxdrinks 0 1age _ of _ onset y 0 1 x Copyrigt ©2011, Joanna Szyda REGRESJA LINIOWA → WYNIKI > lregression1 Call: lm(formula = MAXDRINK ~ AGE_ONSET, data = gaw) równanie regresji Coefficients: (Intercept) AGE_ONSET 36.0066 -0.3845 maxdrinks 0 1age _ of _ onset y 0 1 x y 36.00663 0.38452 x Copyrigt ©2011, Joanna Szyda REGRESJA LINIOWA → WYNIKI > summary(lregression1) Call: lm(formula = MAXDRINK ~ AGE_ONSET, data = gaw) równanie regresji Residuals: wartości błędów Min 1Q Median 3Q Max -29.854 -10.240 -4.471 6.107 68.068 Coefficients: współczynniki równania regresji Estimate Std. Error t value Pr(>|t|) (Intercept) 36.00663 1.99706 18.030 < 2e-16 *** AGE_ONSET -0.38452 0.08303 -4.631 4.46e-06 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 16.91 on 600 degrees of freedom (957 observations deleted due to missingness) Multiple R-squared: 0.03451, Adjusted R-squared: 0.0329 F-statistic: 21.45 on 1 and 600 DF, p-value: 4.459e-06 wartość testu F, st. Swobody, poziom istotności Copyrigt ©2011, Joanna Szyda REGRESJA LINIOWA → WYNIKI wartości błędu > lregression1$residuals 1 2 5 -5.8543333 -12.4710746 10.1456667 8 2.6050732 10 45.9147036 wartości przewidziane przez równanie regresji > lregression1$fitted.values 1 2 5 8 10 29.85433 24.47107 29.85433 21.39493 29.08530 30 zaw. tłuszczu 29 28 27 26 25 24 23 22 50 60 70 80 masa ciała 90 100 Copyrigt ©2011, Joanna Szyda ANALIZA WARIANCJI ANALIZA WARIANCJI → aov, anova > anova1 <- aov(MAXDRINK ~ SEX, data=gaw) > anova2 <- lm(MAXDRINK ~ SEX, data=gaw) > anovaFINAL <- anova(anova2) Copyrigt ©2011, Joanna Szyda ANALIZA WARIANCJI → WYNIKI > summary(anova1) Df Sum Sq SEX 1 72285 Residuals 1337 272662 Mean Sq 72285 204 F value 354.45 źródło stopnie suma średni Zmienności swobody kwadratów kwadrat wartość testu Ng Pomiędzy gr. (płeć) n y i 1 i ni i 1 j1 N Całkowita y i 1 y yi 2 ij y 2 i Ng 1 2 y Ng Wewnątrz gr. błąd i Ng n y i 1 2 Ng 1 ni i 1 j1 ij y i 2 N Ng N N 1 poziom istot. y i y Ng N Ng i Pr(>F) <2.2e-16 *** y i 1 y 2 i N 1 Copyrigt ©2011, Joanna Szyda POMOC > help(lm) > help(aov) Copyrigt ©2011, Joanna Szyda