Wykład 15 Inne wykresy Testy normalności Testy normalności (2)

Transkrypt

Wykład 15 Inne wykresy Testy normalności Testy normalności (2)
Wykład 15
• Diagnostyka dla reszt - kontynuacja
• Środki zaradcze
Testy normalności
• H0: obserwacje w próbie prostej
pochodzą z rozkładu normalnego
• H1: obserwacje nie pochodzą z
rozkładu normalnego
Inne wykresy
•
•
•
•
Można również wykonać
Diagram pnia i liścia
Wykres pudełkowy
Wykres reszt w funkcji czasu lub
innych potencjalnych zmiennych
wyjaśniających
Testy normalności (2)
Jest wiele testów normalności
• Proc univariate z opcją normal
(proc univariate
normal;)proponuje cztery testy
• (test Shapiro-Wilka jest uznawany za
najlepszy)
Testy normalności (3)
• Moc testu wzrasta wraz z
rozmiarem próby
• Dla dużych rozmiarów prób test
``wyłapuje’’ odchylenia od
normalności, które nie są
niebezpieczne.
Test
(Shapiro-Wilk
Kolmogorov-Smirnov
Cramer-von Mises
Anderson-Darling
statistic
(0.978
0.095
0.033
0.207
W )
D
W-Sq
A-Sq
-----p Value-----Pr < W
0.8626)
Pr > D
>0.1500
Pr > W-Sq >0.2500
Pr > A-Sq >0.2500
1
Zależności nieliniowe (2)
Relacje nieliniowe
• Do opisu wielu relacji nieliniowych
można stosować regresję liniową.
Zwykle wymaga to zamiany, a
czasami zwiększenia liczby,
zmiennych niezależnych
Y = β0 + β1X + β2X2 + ξ
–Y = β0 + β1log(X) + ξ
• Czasami można przekształcić zależność
nieliniową w zależność liniową
•
•
•
•
Np. jeżeli Y ≈ β0exp(β1X)
To można rozważyć model liniowy
log(Y) ≈ log(β0) + β1X
Uwaga – zmieniają się założenia o
błędzie losowym
Zmienność wariancji
składnika losowego
Zależności nieliniowe (3)
• Można analizować dane za
pomocą regresji nieliniowej
• SAS PROC NLIN
• Czasami można zamodelować w jaki
sposób zmienia się wariancja błędu
(np. może ona być liniowo związana z
X)
• Można użyć regresji ważonej
• Używamy opcji weight w PROC REG
Rozkład składnika losowego
nie jest normalny
• Można próbować transformacji
• Można stosować procedury
które radzą sobie z błędami z
innych rozkładów
• SAS PROC GENMOD
GENMOD (1)
•
•
•
•
•
•
•
Możliwe rozkłady Y:
Dwumianowy (dane binarne)
Poissona
Gamma (wykładniczy)
Odwrotny Gaussowski
Ujemny dwumianowy
wielomianowy
2
GENMOD (2)
• Można wyspecyfikować funkcję g w
równaniu
• g(µ)=b0+ b1x1+ …+bkxk
• gdzie µ=E(Y).
Koło transformacji
X w dół,
Y w górę
Y
X w górę,
Y w górę
X
X w dół,
X w górę,
Y w dół
Y w dół
Ważne przypadki specjalne
•
•
•
•
•
λ = 1, Y’ = Y1, brak transformacji
λ = .5, Y’ = Y1/2
λ = -.5, Y’ = Y-1/2
λ = -1, Y’ = Y-1 = 1/Y
λ = 0, Y’ = log(Y)
Transformacje potęgowe
p
1.5
1.0
0.5
0.0
-0.5
-1.0
Transformacja
to xp
Transformacja Boxa-Coxa
• Y’ = Yλ
• albo Y’ = (Yλ - 1)/λ
λ
• λ=0 - naturalny logarytm
Transformacja Boxa-Coxa
(2)
• Można wyestymować λ włączając ten
parametr do modelu
• Yλ = β0 + β1X + ξ
• i stosując metodę największej
wiarogodności
3
data a1; input age plasma @@;
cards;
0
1
2
3
4
;
13.44 0 12.84
10.11 1 11.38
9.83 2 9.00 2
7.94 3 6.01 3
4.86 4 5.10 4
0 11.91 0 20.09 0 15.60
1 10.28 1 8.96 1 8.59
8.65 2 7.85 2 8.88
5.14 3 6.90 3 6.77
5.67 4 5.75 4 6.23
•
PROC TRANSREG
proc transreg data=a1;
model Box(plasma)=identity(width) /alpha=0.05;
run;
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Lambda
R-Square
-3.00
-2.75
-2.50
-2.25
-2.00
-1.75
-1.50
-1.25
-1.00
-0.75
-0.50
-0.25
0.00 +
0.25
0.50
0.75
1.00
1.25
1.50
1.75
2.00
2.25
2.50
2.75
3.00
0.71
0.73
0.76
0.78
0.80
0.82
0.83
0.85
0.86
0.86
0.87
0.86
0.85
0.84
0.82
0.79
0.75
0.72
0.67
0.63
0.59
0.54
0.50
0.46
0.42
Log Like
-21.8996
-19.4576
-17.0444
-14.6732
-12.3665
-10.1608
-8.1127
-6.3056
-4.8523 *
-3.8891 *
-3.5523 <
-3.9399 *
-5.0754 *
-6.8988
-9.2925
-12.1209
-15.2625
-18.6233
-22.1378
-25.7629
-29.4720
-33.2490
-37.0844
-40.9728
-44.9109
< - Best Lambda
* - Confidence Interval
+ - Convenient Lambda
•
BOX-COX - Przykład
data a2; set a1;
ynew=1/sqrt(plasma);
proc gplot data=a2;
plot ynew*age;
run;
4

Podobne dokumenty