Wykład 15 Inne wykresy Testy normalności Testy normalności (2)
Transkrypt
Wykład 15 Inne wykresy Testy normalności Testy normalności (2)
Wykład 15 • Diagnostyka dla reszt - kontynuacja • Środki zaradcze Testy normalności • H0: obserwacje w próbie prostej pochodzą z rozkładu normalnego • H1: obserwacje nie pochodzą z rozkładu normalnego Inne wykresy • • • • Można również wykonać Diagram pnia i liścia Wykres pudełkowy Wykres reszt w funkcji czasu lub innych potencjalnych zmiennych wyjaśniających Testy normalności (2) Jest wiele testów normalności • Proc univariate z opcją normal (proc univariate normal;)proponuje cztery testy • (test Shapiro-Wilka jest uznawany za najlepszy) Testy normalności (3) • Moc testu wzrasta wraz z rozmiarem próby • Dla dużych rozmiarów prób test ``wyłapuje’’ odchylenia od normalności, które nie są niebezpieczne. Test (Shapiro-Wilk Kolmogorov-Smirnov Cramer-von Mises Anderson-Darling statistic (0.978 0.095 0.033 0.207 W ) D W-Sq A-Sq -----p Value-----Pr < W 0.8626) Pr > D >0.1500 Pr > W-Sq >0.2500 Pr > A-Sq >0.2500 1 Zależności nieliniowe (2) Relacje nieliniowe • Do opisu wielu relacji nieliniowych można stosować regresję liniową. Zwykle wymaga to zamiany, a czasami zwiększenia liczby, zmiennych niezależnych Y = β0 + β1X + β2X2 + ξ –Y = β0 + β1log(X) + ξ • Czasami można przekształcić zależność nieliniową w zależność liniową • • • • Np. jeżeli Y ≈ β0exp(β1X) To można rozważyć model liniowy log(Y) ≈ log(β0) + β1X Uwaga – zmieniają się założenia o błędzie losowym Zmienność wariancji składnika losowego Zależności nieliniowe (3) • Można analizować dane za pomocą regresji nieliniowej • SAS PROC NLIN • Czasami można zamodelować w jaki sposób zmienia się wariancja błędu (np. może ona być liniowo związana z X) • Można użyć regresji ważonej • Używamy opcji weight w PROC REG Rozkład składnika losowego nie jest normalny • Można próbować transformacji • Można stosować procedury które radzą sobie z błędami z innych rozkładów • SAS PROC GENMOD GENMOD (1) • • • • • • • Możliwe rozkłady Y: Dwumianowy (dane binarne) Poissona Gamma (wykładniczy) Odwrotny Gaussowski Ujemny dwumianowy wielomianowy 2 GENMOD (2) • Można wyspecyfikować funkcję g w równaniu • g(µ)=b0+ b1x1+ …+bkxk • gdzie µ=E(Y). Koło transformacji X w dół, Y w górę Y X w górę, Y w górę X X w dół, X w górę, Y w dół Y w dół Ważne przypadki specjalne • • • • • λ = 1, Y’ = Y1, brak transformacji λ = .5, Y’ = Y1/2 λ = -.5, Y’ = Y-1/2 λ = -1, Y’ = Y-1 = 1/Y λ = 0, Y’ = log(Y) Transformacje potęgowe p 1.5 1.0 0.5 0.0 -0.5 -1.0 Transformacja to xp Transformacja Boxa-Coxa • Y’ = Yλ • albo Y’ = (Yλ - 1)/λ λ • λ=0 - naturalny logarytm Transformacja Boxa-Coxa (2) • Można wyestymować λ włączając ten parametr do modelu • Yλ = β0 + β1X + ξ • i stosując metodę największej wiarogodności 3 data a1; input age plasma @@; cards; 0 1 2 3 4 ; 13.44 0 12.84 10.11 1 11.38 9.83 2 9.00 2 7.94 3 6.01 3 4.86 4 5.10 4 0 11.91 0 20.09 0 15.60 1 10.28 1 8.96 1 8.59 8.65 2 7.85 2 8.88 5.14 3 6.90 3 6.77 5.67 4 5.75 4 6.23 • PROC TRANSREG proc transreg data=a1; model Box(plasma)=identity(width) /alpha=0.05; run; • • • • • • • • • • • • • • • • • • • • • • • • • • • • Lambda R-Square -3.00 -2.75 -2.50 -2.25 -2.00 -1.75 -1.50 -1.25 -1.00 -0.75 -0.50 -0.25 0.00 + 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00 2.25 2.50 2.75 3.00 0.71 0.73 0.76 0.78 0.80 0.82 0.83 0.85 0.86 0.86 0.87 0.86 0.85 0.84 0.82 0.79 0.75 0.72 0.67 0.63 0.59 0.54 0.50 0.46 0.42 Log Like -21.8996 -19.4576 -17.0444 -14.6732 -12.3665 -10.1608 -8.1127 -6.3056 -4.8523 * -3.8891 * -3.5523 < -3.9399 * -5.0754 * -6.8988 -9.2925 -12.1209 -15.2625 -18.6233 -22.1378 -25.7629 -29.4720 -33.2490 -37.0844 -40.9728 -44.9109 < - Best Lambda * - Confidence Interval + - Convenient Lambda • BOX-COX - Przykład data a2; set a1; ynew=1/sqrt(plasma); proc gplot data=a2; plot ynew*age; run; 4