Model statystyczny Format danych Przedziały ufności i testy
Transkrypt
Model statystyczny Format danych Przedziały ufności i testy
Wykład 13: (prosta) regresja liniowa Model statystyczny Format danych Przedziały ufności i testy istotności dla parametrów modelu • Przypomnienie: wykłady i zadania kursu były zaczerpnięte z podręczników: – Statystyka dla studentów kierunków technicznych i przyrodniczych, J. Koronacki, J. Mielniczuk, WNT 2004, wyd. II – Introduction to the Practice of Statistics, D. Moore, G. McCabe, Freeman 2003, wyd. IV – Statistics for the Life Sciences, M. Samuels, J. Witmer, 2003, wyd. III – H. Jasiulewicz i W. Kordecki \Rachunek prawdopodobieństwa i statystyka matematyczna. Przykłady i zadania", wyd. II Słownictwo: • Zmienna odpowiedzi jest głównym przedmiotem zainteresowania. • Zmienne objaśniające są pomocnicze— wyjaśniają, a czasem wręcz wpływają na zmienną odpowiedzi. • Interesuje nas związek tych zmiennych. Ćwiczenie. W następujących przykładach wskaż: • obserwowane jednostki/osobniki, • zmienne. Scatterplot (wykres punktowy): punkty (xi, yi). Tu: wysokość i wiek dzieci w Kalama. Przedyskutuj źródło zmienności zmiennej Age... Example 1: Średni wzrost pewnej grupy dzieci w miejscowości Kalama (Egipt) obserwowanych w wieku 18--29 miesięcy: Przykład 2: Średni wynik SAT z matematyki w stanie (USA) i procent absolwentów szkoły średniej (HS) przystępujących do SAT 1 Dodatnia czy ujemna „korelacja”? Mamy tu .......................... korelację. Mamy tu .......................... korelację. Współczynnik korelacji • Oznaczamy r. Obliczamy dla n (par) obserwacji: r xi x y i y 1 n 1 s x s y • Uwagi: -1≤r≤1. Nie zależy od jednostek pomiaru. Wskazuje na liniowy związek, gdy bliski ±1. Nieodporny na obserwacje odstające. Nie zależy od tego, która zmienna jest uważana za zmienną odpowiedzi, a która za objaśniającą. Prosta regresji (najmniejszych kwadratów): Przykład 1 cd.: Prosta regresji dla danych z Kamala i predykcja dla wieku 32 miesięcy. • Linia prosta, która „najlepiej” opisuje przybliża scatterplot. • Opisuje liniową odpowiedź zmiennej y na zmiany zmiennej objaśniająca x. • Równanie prostej (b-nachylenie/slope, astała/intercept): y=a+bx • Najlepsze a i b są obliczane z danych. • Predykcja dla danej wartości zmiennej objaśniającej: ŷi=a+bxi 2 Wzór dla prostej regresji (najmniejszych kwadratów) (X-zmienna objaśniająca, Y-zmienna odpowiedzi) Dane: sy sx and intercept x 2 3 .5 m o n th s , y 7 9 .8 5 cm , s x 3 .6 0 6 m o n th s , s y 2 .3 0 2 c m , r= 0 .9 9 4 4 x, y, sx , s y , r. Calculate: slope b r Przykład1 cd. (dane z Kamala) a y bx y a bx Wartości resztowe (residuals) • Oblicz przewidywany wzrost dla wieku 25 miesięcy. Ile wynosi różnica względem zaobserwowanego wzrostu? • A dla wieku 250 miesięcy?? Residual plot (wykres resztowy): Scatterplot (wykres punktowy) reszt i zmiennej objaśniającej. Pomaga ocenić dokładność przybliżenia przez prostą regresji. Wartość resztowa (w/dla xi) to (obserwowane y)-(przewidywane y): ri = yi-ŷi Np. dla danych z Kamala i x=25, wartość resztowa wynosi: Model statystyczny (prostej) regresji liniowej yi 0 1 xi i • Dane: n obserwacji postaci (x1, y1), (x2, y2), … (xn, yn). • Odchylenia i są z założenia niezależne o tym samym rozkładzie ze średnią 0 i odchyleniem standardowym . • Parametry modelu to: 0, 1, . 3 Motywacja: dwie grupy/populacje z tym samym odchyleniem standardowym i różnymi średnimi: Regresja liniowa: wiele grup z tym samym odchyleniem standardowym i średnią zmieniającą się liniowo wraz z x. Wzory (x x) y, s Myślimy o prostej regresji obliczonej dla danych jako estymatorze prostej regresji dla populacji. linia równanie nachylenie stała (intercept) (slope) Ogólnie ŷabx b a Dla próby yˆ b0bx 1 b1 b0 Dane: r i 2 x n, x , n 1 ( x x )( yi y ) i 2 (x x) ( y i i 2 , s 2y ( y y) 2 i n 1 , y)2 Statystyki wynikowe: Dla populacji y 01x 1 0 b b1 r s2 sy sx (y SEb1 i a b0 y bx , , yˆ i ) 2 n2 s (x x) i Przedziały ufności i testy istotności dla nachylenia i stałej (slope oraz intercept) s 2y (1 r 2 ) 2 yˆ i b0 b1 yi , n 1 , n2 sy 1 r 2 , sx n 2 t b1 r n2 SEb1 1 r2 Przykład: 92 mężczyzn w wieku 20-29 lat. Mierzymy skin-fold thickness oraz body density: • Na poziomie ufności C przedział ufności dla 0: b0 t * SEb0 • Na poziomie C przedział ufności dla 1 to: b1 t * SEb1 t* znajdujemy z (tabeli) rozkładu Studenta z n-2 stopniami swobody. ID 1 2 3 4 5 Iskin Den 1.27 1.093 1.56 1.063 1.45 1.078 1.52 1.056 1.51 1.073 … 4 Wyniki SASa: Scatterplot i prosta najmniejszych kwadratów: The SAS System 17:47 Thursday, July 22, 2004 5 The REG Procedure Model: MODEL1 Dependent Variable: Den Root MSE Dependent Mean Coeff Var 0.00854 1.06403 0.80252 R-Square Adj R-Sq 0.7204 0.7173 Parameter Estimates Variable DF Parameter Estimate Intercept Iskin 1 1 1.16300 -0.06312 Standard Error t Value Pr > |t| 0.00656 0.00414 177.30 -15.23 <.0001 <.0001 99% Confidence Limits 1.14574 -0.07403 1.18026 -0.05221 Excel, dla tych samych danych: SPSS, dla tych samych danych: Ćwiczenie: Znajdź przedział ufności dla średniej zmiany body density na jednostkę skinfold thickness. Testowanie hipotezy H0: 1=0 • Statystyka: t b1 SEb1 To jest test Studenta z df = n – 2. • Jeżeli 1=0, to y = 0, tj. średnia y nie zmienia się z x w modelu liniowym. W przeciwnym razie mówimy o “liniowym wpływie/zależnościi” (niezerowym nachyleniu w populacji). • Zwykle oprogramowanie podaje wartość statystyki i (dwustronną) P-wartość. Wystarczy zinterpretować. 5 P-wartości dla H0: 1=0 Ćwiczenie: Czy jest „liniowa zależność” pomiędzy body density oraz skinfold thickness? • Statystyka testowa: t b1 SEb1 df = n – 2. Założenia dla regresji liniowej: • Wartości zmiennej odpowiedzi są niezależne. (Można wykryć ew. problemy obserwując wartości resztowe jako funkcję numeru obserwacji/czasu.) • Dla każdej ustalonej wartości zmiennej x, zmienna y zachowuje się jak zmienna normalna. (Aby wykryć problemy można narysować histogram wartości resztowych.) Założenia dla regresji liniowej cd.: • Odchylenie standardowe zmiennej y jest takie samo dla wszystkich x. (Aby wykryć problemy można spojrzeć na wykres resztowy.) • Należy wyszukać/usunąć wartości odstające i tzw. obserwacje „wpływowe”. • Zależność pomiędzy x i y jest liniowa (a nie krzywoliniowa; ew. problemy można wykryć obserwując scatterplot). Reszty i czas/numer obserwacji. Wykres resztowy 6