Diagnostyka (2) Środki zaradcze Wykresy rozrzutu Uogólnione
Transkrypt
Diagnostyka (2) Środki zaradcze Wykresy rozrzutu Uogólnione
Wykład 18 Diagnostyka i ogólne testy liniowe • Oceniamy rozkład każdej ze zmiennych • Oceniamy zależności między zmiennymi • Wykreślamy reszty w funkcji - Każdej zmiennej objaśniającej - Czasu Środki zaradcze Diagnostyka (2) • Czy reszty mają rozkład w przybliżeniu normalny ? – histogram, wykres kwantylowy • Czy wariancje jest stała ? – Wykreślamy reszty w funkcji zmiennych od których może ona zależeć i przewidywanych wartości Y Wykresy rozrzutu 4.00 gpa 0.12 800 • Transformacje, np. Box-Cox • Wyłączenie obserwacji odstających • Regresja ważona satm 300 760 satv 285 Uogólnione Testy Liniowe Uogólnione testy liniowe (2) • Porównujemy modele zagnieżdżone • Patrzymy na różnicę – w SSE – w SSM • Ponieważ SSM+SSE=SST, oba te podejścia są równoważne • Określimy test F porównujący dwa modele • Testujemy hipotezę, że współczynniki przy dodatkowych zmiennych są równe 0 • Dla X1, X2, X3, X4, X5 vs X1 , X2 , X3 – H0: β4 = β5 = 0 – H1: β4 ≠ 0 lub β5 ≠ 0 1 Uogólnione testy liniowe (3) • F=((SSE(R) - SSE(F))/(dfE(R) - dfE(F)))/ MSE(F) • R-model zredukowany, F-model pełny • Niech n=100 i porównujemy • X1, X2, X3, X4, X5 vs X1 , X2 , X3 • W liczniku df= 2 • W mianowniku df = n-6 = 94 Test F • • • • • W liczniku mamy (SSE(X4, X5 | X1, X2, X3))/2 W mianowniku mamy MSE(X1, X2, X3, X4, X5) F ~ F(2, n-6) Odrzucamy H0 gdy P-wartość ≤ 0.05 i stwierdzamy , że X4 lub X5 wnoszą dodatkową informację do modelu w którym mamy już X1, X2 i X3 SAS Type I SS • Dodajemy zmienne po kolei – SSM (X1) – SSM (X2 | X1) – SSM (X3 |X1, X2) – SSM (X4 |X1, X2, X3) Notacja dla dodatkowych SS • SSE(X4, X5 | X1, X2, X3) = • SSE(X1, X2, X3) - SSE(X1, X2, X3, X4, X5), lub • SSM(X1, X2, X3, X4, X5) - SSM(X1, X2, X3) Dodatkowe SS Specjalne Przypadki • Porównujemy modele różniące się jedną zmienną, F(1,n-p)=t2(n-p) • Test Studenta dla hipotezy bi=0 jest równoważny testowi liniowemu opartemu na statystyce SSM(Xi|X1,…, Xi-1, Xi+1 ,…, Xp-1) – SAS Type II SS Dodajemy jedną zmienną • SSM (X1), SSM (X2 | X1), SSM (X3 |X1, X2), SSM (X4 |X1, X2, X3) • Df = 1 (w liczniku) • F = (SS/1) / MSE(F) ~ F(1, n-k) • SAS Type I SS • SSM (X1) +SSM (X2 | X1) + SSM (X3 |X1, X2) + SSM (X4 |X1, X2, X3) =SSM(X1, X2, X3, X4) 2 Przykład Proc reg • 20 zdrowych kobiet • Y – ilość tkanki tłuszczowej (fat) • X1 – grubość fałdów skórnotłuszczowych przy mięśniu trójgłowym (skinfold) • X2 – obwód uda (thigh) • X3 – obwód śródramienia (midarm) • Alternatywą jest ważenie pod wodą proc reg data=a1; model fat= skinfold thigh midarm; run; Wynik testu F Source DF Model Error C Tot 3 16 19 F 21.52 Testy Studenta Pr > F Var <.0001 Int skinfold thigh midarm Interpretacja • P wartość dla testu F jest <.0001 • Ale P-wartości dla indywidualnych współczynników regresji wynoszą 0.1699, 0.2849, and 0.1896 • i wszystkie są zdecydowanie większe od 0.05 • Jak to wyjaśnić ? DF t Pr > |t| 1 1.17 1 1.44 1 -1.11 1 -1.37 0.2578 0.1699 0.2849 0.1896 Popatrzmy na sumy kwadratów typu I i typu II proc reg data=a1; model fat= skinfold thigh midarm/ss1 ss2; run; 3 Wynik Var Type I SS skinfold thigh midarm 352.26 33.16 11.54 Total 495.38 Interpretacja Type II SS 12.70 7.52 11.54 • Sumy kwadratów Typu I i Typu II bardzo się różnią • Jeżeli zmienimy kolejność zmiennych specyfikując ``model’’ to dostaniemy – Inne wartość SS Typu I – Te same wartość SS Typu II Inne modele • Prosta regresja liniowa . Zmienna objaśniająca – skinfold. proc reg data=a1; model fat=skinfold; run; Wynik Var DF skinfold 1 Var skinfold Polecenie test w Proc Reg Est SE 0.85 0.12 t 6.66 P <.0001 Wynik Test thimid proc reg data=a1; model fat= skinfold thigh midarm; thimid: test thigh, midarm; run; Mean Source DF Square Num Den 2 16 22.35 6.15 F Pr > F 3.64 0.0500 4 Inne zastosowania • Polecenia test można użyć do testowania dowolnej hipotezy o pewnych liniowych kombinacjach współczynników • Przykłady – H0: β4 = β5 – H0: β4 - 3β5 = 12 5