Diagnostyka (2) Środki zaradcze Wykresy rozrzutu Uogólnione

Transkrypt

Diagnostyka (2) Środki zaradcze Wykresy rozrzutu Uogólnione
Wykład 18
Diagnostyka i ogólne testy
liniowe
• Oceniamy rozkład każdej ze
zmiennych
• Oceniamy zależności między
zmiennymi
• Wykreślamy reszty w funkcji
- Każdej zmiennej objaśniającej
- Czasu
Środki zaradcze
Diagnostyka (2)
• Czy reszty mają rozkład w przybliżeniu
normalny ?
– histogram, wykres kwantylowy
• Czy wariancje jest stała ?
– Wykreślamy reszty w funkcji zmiennych
od których może ona zależeć i
przewidywanych wartości Y
Wykresy rozrzutu
4.00
gpa
0.12
800
• Transformacje, np. Box-Cox
• Wyłączenie obserwacji odstających
• Regresja ważona
satm
300
760
satv
285
Uogólnione Testy Liniowe
Uogólnione testy liniowe (2)
• Porównujemy modele zagnieżdżone
• Patrzymy na różnicę
– w SSE
– w SSM
• Ponieważ SSM+SSE=SST, oba te
podejścia są równoważne
• Określimy test F porównujący dwa
modele
• Testujemy hipotezę, że
współczynniki przy dodatkowych
zmiennych są równe 0
• Dla X1, X2, X3, X4, X5 vs X1 , X2 , X3
– H0: β4 = β5 = 0
– H1: β4 ≠ 0 lub β5 ≠ 0
1
Uogólnione testy liniowe (3)
• F=((SSE(R) - SSE(F))/(dfE(R) - dfE(F)))/
MSE(F)
• R-model zredukowany, F-model pełny
• Niech n=100 i porównujemy
• X1, X2, X3, X4, X5 vs X1 , X2 , X3
• W liczniku df= 2
• W mianowniku df = n-6 = 94
Test F
•
•
•
•
•
W liczniku mamy (SSE(X4, X5 | X1, X2, X3))/2
W mianowniku mamy MSE(X1, X2, X3, X4, X5)
F ~ F(2, n-6)
Odrzucamy H0 gdy P-wartość ≤ 0.05
i stwierdzamy , że X4 lub X5 wnoszą
dodatkową informację do modelu w którym
mamy już X1, X2 i X3
SAS Type I SS
• Dodajemy zmienne po kolei
– SSM (X1)
– SSM (X2 | X1)
– SSM (X3 |X1, X2)
– SSM (X4 |X1, X2, X3)
Notacja dla dodatkowych
SS
• SSE(X4, X5 | X1, X2, X3) =
• SSE(X1, X2, X3) - SSE(X1, X2, X3, X4, X5), lub
• SSM(X1, X2, X3, X4, X5) - SSM(X1, X2, X3)
Dodatkowe SS Specjalne
Przypadki
• Porównujemy modele różniące się
jedną zmienną, F(1,n-p)=t2(n-p)
• Test Studenta dla hipotezy bi=0 jest
równoważny testowi liniowemu
opartemu na statystyce
SSM(Xi|X1,…, Xi-1, Xi+1 ,…, Xp-1) – SAS
Type II SS
Dodajemy jedną zmienną
• SSM (X1), SSM (X2 | X1), SSM (X3 |X1, X2), SSM
(X4 |X1, X2, X3)
• Df = 1 (w liczniku)
• F = (SS/1) / MSE(F) ~ F(1, n-k)
• SAS Type I SS
• SSM (X1) +SSM (X2 | X1) + SSM (X3 |X1, X2) +
SSM (X4 |X1, X2, X3) =SSM(X1, X2, X3, X4)
2
Przykład
Proc reg
• 20 zdrowych kobiet
• Y – ilość tkanki tłuszczowej (fat)
• X1 – grubość fałdów skórnotłuszczowych przy mięśniu trójgłowym
(skinfold)
• X2 – obwód uda (thigh)
• X3 – obwód śródramienia (midarm)
• Alternatywą jest ważenie pod wodą
proc reg data=a1;
model fat=
skinfold thigh midarm;
run;
Wynik testu F
Source DF
Model
Error
C Tot
3
16
19
F
21.52
Testy Studenta
Pr > F
Var
<.0001
Int
skinfold
thigh
midarm
Interpretacja
• P wartość dla testu F jest <.0001
• Ale P-wartości dla indywidualnych
współczynników regresji wynoszą
0.1699, 0.2849, and 0.1896
• i wszystkie są zdecydowanie większe
od 0.05
• Jak to wyjaśnić ?
DF
t
Pr > |t|
1 1.17
1 1.44
1 -1.11
1 -1.37
0.2578
0.1699
0.2849
0.1896
Popatrzmy na sumy
kwadratów typu I i typu II
proc reg data=a1;
model fat=
skinfold thigh midarm/ss1 ss2;
run;
3
Wynik
Var
Type I SS
skinfold
thigh
midarm
352.26
33.16
11.54
Total
495.38
Interpretacja
Type II SS
12.70
7.52
11.54
• Sumy kwadratów Typu I i Typu II
bardzo się różnią
• Jeżeli zmienimy kolejność
zmiennych specyfikując ``model’’ to
dostaniemy
– Inne wartość SS Typu I
– Te same wartość SS Typu II
Inne modele
• Prosta regresja liniowa . Zmienna
objaśniająca – skinfold.
proc reg data=a1;
model fat=skinfold;
run;
Wynik
Var
DF
skinfold 1
Var
skinfold
Polecenie test w Proc
Reg
Est
SE
0.85 0.12
t
6.66
P
<.0001
Wynik
Test thimid
proc reg data=a1;
model fat=
skinfold thigh midarm;
thimid: test thigh, midarm;
run;
Mean
Source DF Square
Num
Den
2
16
22.35
6.15
F
Pr > F
3.64
0.0500
4
Inne zastosowania
• Polecenia test można użyć do
testowania dowolnej hipotezy o
pewnych liniowych kombinacjach
współczynników
• Przykłady
– H0: β4 = β5
– H0: β4 - 3β5 = 12
5