ˆ - E-SGH
Transkrypt
ˆ - E-SGH
Wykład 5 Klasyczny model regresji liniowej Regresja I rodzaju • pokazuje jak zmieniają się warunkowe wartości oczekiwane zmiennej zależnej w zależności od wartości zmiennej niezależnej. E(Y X x ) m( x) i • Obraz geometryczny tej funkcji to krzywa regresji I rodzaju czyli zbiór punktów płaszczyzny ( xi , E (Y X x )) i E(Y/X) Regresja II rodzaju W praktyce nieliniowe krzywe regresji można zastąpić liniami prostymi, jeśli tylko uzyskane przybliżenie jest wystarczające. ~ Prosta Y= αy X+ βy spełniająca warunek: E{[Y-αy X+ βy )²}=min nazywamy prostą regresji II rodzaju zmiennej losowej Y względem zmiennej losowej X Y - zmienna zależna (objaśniana) X - zmienna niezależna (objaśniająca) αy – współczynnik regresji liniowej zmiennej Y względem X βy – wyraz wolny liniowej funkcji regresji • Wykres empirycznych linii regresji pozwala na postawienie hipotezy na temat typu funkcji matematycznej (liniowa, wykładnicza, parabola itp.) opisującej powiązania pomiędzy badanymi zmiennymi. Jest ona głównym składnikiem modelu regresji. • Spośród wielu postaci modeli regresji można wyróżnić klasyczny model regresji liniowej, który opiera się na założeniu o liniowym kształcie związku pomiędzy zmiennymi w populacji generalnej czyli zakładamy, że funkcja regresji I rodzaju jest funkcją liniową Klasyczny model regresji liniowej Y względem X E(Y X x) x D2 (Y | X x ) 2 MODEL składnik losowy Yi E(Y X x ) xi i i i wpływ x na y założenia: E(i ) = 0 D2 (i ) = E(i²) = ² cov (i , j ) = 0 dla i≠j dla i = 1, 2, ..., n Założenia regresji liniowej • i N(0, ) Składnik losowy ε ma rozkład normalny o średniej równej 0 i odchyleniu standardowym σ N(0,σ) • D2 (i ) = E(i²) = ² Wartość σ jest stała (homoscedastyczność) • cov (i , j ) = 0 Nie występuje autokorelacja składnika losowego (reszty nie zależą od siebie i od zmiennych objaśniających) Klasyczny model regresji liniowej Y względem X •Głównym składnikiem każdego modelu jest funkcja regresji, której parametry są oszacowane na podstawie wyników z próby losowej. Jest to funkcja najlepiej dopasowana do danych empirycznych w próbie losowej. •Przyjmując założenie o liniowości związku pomiędzy zmiennymi funkcja regresji (Y względem X) to prosta o równaniu: yˆ i ˆ xi ˆ dla której średni kwadrat odchyleń wartości zmiennej Y od tej prostej jest najmniejszy, 2 S [Y (ˆ x ˆ )]2 min i i i Estymacja parametrów modelu (MNK) • Funkcja S jest funkcją dwóch niewiadomych (α i β), aby znaleźć minimum tej funkcji musimy wyznaczyć pochodne cząstkowe funkcji S względem obu niewiadomych: S 2 xi (Yi axi ) i 1 n S 2 (Yi xi ) i 1 n Estymacja parametrów modelu (MNK) • Przyrównując te pochodne do zera otrzymujemy tzw. układ równań (w układzie tym, w miejsce α i β wstawiamy ich oszacowania z próby, czyli ̂ i ˆ ). Układ równań ma postać: n ˆ) 0 ˆ x ( Y x i i i i 1 n (Yi ˆxi ˆ ) 0 i 1 gdzie - ˆ , ˆ - to estymatory parametrów , regresji II rodzaju wyznaczone MNK funkcji Parametry strukturalne modelu (szacowane MNK): Funkcja regresji Y względem X Współczynnik regresji ˆ yˆ i ˆ xi ˆ ( x x )( y y ) n x y x y c xy i i i i i i ( xi x ) 2 2 n x ( x )2 i i Metoda pośrednia ̂ rxy s 2x sy sx INTERPRETACJA: Przyrost średniej wartości zmiennej zależnej wywołany przyrostem zmiennej niezależnej o jednostkę. Innymi słowy: jak zmienia się wartość zmiennej zależnej, jeżeli cecha niezależna wzrośnie o jednostkę Parametry strukturalne modelu (szacowane MNK): Funkcja regresji Y względem X yˆ i ˆ xi ˆ Wyraz wolny y ˆ x i i y ˆ x ˆ n INTERPRETACJA: może być tylko formalna – jaka będzie wartość zmiennej zależnej, jeżeli zmienna niezależna = 0 Wyraz wolny wyznacza punkt przecięcia prostej regresji z osią rzędnych (osią Y) Własności liniowej funkcji regresji • suma wartości teoretycznych zmiennej zależnej jest równa sumie wartości empirycznych tej zmiennej jeżeli, Y –zależna, X – niezależna n n yˆ y i i 1 i i 1 • suma odchyleń wartości empirycznych od wartości teoretycznych jest równa zero n ( y yˆ ) 0 i i i 1 • prosta regresji przechodzi przez punkt o współrzędnych ( x, y) PARAMETRY STOCHASTYCZNE (MNK) Podstawą do określenia dokładności dopasowania funkcji regresji do danych empirycznych są różnice między wartościami ŷi empirycznymi a teoretycznymi czyli reszty ei yi yˆi 2 2 ˆ ( y y ) e i i se 2 n 2 n 2 Wariancja reszt Odchylenie standardowe reszt se se 2 Jest to średni efekt oddziaływania na zmienną zależną innych czynników, poza oddziaływaniem zmiennej niezależnej Standardowe błędy szacunku (w wyrażeniu absolutnym): se współczynnika regresji liniowej s ˆ wyrazu wolnego s ˆ ( xi x )2 se 2 xi2 n ( xi x )2 se xi2 nx 2 se 2 xi2 n( xi2 nx 2 ) Są to odchylenia standardowe estymatorów ˆ i ˆ tzn. błędy losowe popełniane przy estymacji parametrów i na podstawie n - elementowych prób. Względne błędy szacunku sˆ sˆ ˆ ˆ , powierzchnia m2 cena w tys. zł 27 29 30 30 31 35 36 40 46 46 46 47 52 53 55 215 240 295 285 270 225 260 425 389 297 405 420 467 525 342 75 85 510 540 111 111 116 135 920 1130 845 915 Funkcja regresji cen mieszkań względem ich powierzchni w Warszawie w październiku 2008r. ˆy ˆ x ˆ i i Model regresji cen mieszkań względem ich powierzchni w Warszawie w październiku 2008r. ˆ ˆ x e y i [ ] i [ ] [ s ]i e s ̂ sˆ powierzchnia m2 cena w tys. zł 27 29 30 30 31 35 36 40 46 46 46 47 52 53 55 215 240 295 285 270 225 260 425 389 297 405 420 467 525 342 75 85 510 540 111 111 116 135 920 1130 845 915 Funkcja regresji cen mieszkań względem ich powierzchni w Warszawie w październiku 2008r. yˆi 7,42 xi 35,77 Model regresji cen mieszkań względem ich powierzchni w Warszawie w październiku 2008r. yi 7,42 xi 35,77 ei [0,63] [42,29] [93,34] Ocena stopnia dopasowania funkcji regresji do danych empirycznych R² 2 2 ˆ ˆ 2 ( yi SST SST stopień ogólnego zróżnicowania zmiennej zależnej y) ( yi y) ( yi yi ) = SSR + SSR część ogólnego zróżnicowania zmiennej zależnej wyjaśniona funkcją regresji SSE SSE część ogólnego zróżnicowania zmiennej zależnej NIE wyjaśniona funkcją regresji Współczynnik determinacji liniowej: R2 0 ; 1 2 ˆ ) ˆ y) (y y (y i i i R2 1 2 2 ( y y ) ( y y) i i 2 2 ˆ cov s cov xy xy 1 e s2 s2 s2 s2 x y y y 2 Ocena stopnia dopasowania funkcji regresji do danych empirycznych R² 2 2 ˆ ˆ 2 ( yi SST SST stopień ogólnego zróżnicowania zmiennej zależnej y) ( yi y) ( yi yi ) = SSR + SSR część ogólnego zróżnicowania zmiennej zależnej wyjaśniona funkcją regresji SSE SSE część ogólnego zróżnicowania zmiennej zależnej NIE wyjaśniona funkcją regresji Współczynnik indeterminacji liniowej: 2 0.1 2 2 ˆ e ( y y ) 2 2 i i i 1 R 2 2 ( yi y ) ( yi y ) R2 2 1 WNIOSKOWANIE STATYSTYCZNE W ANALIZIE REGRESJI I KORELACJI – ESTYMACJA PRZEDZIAŁOWA ŷ = 7,42x + 35,77 [0,63] [42,29] Przedziały ufności dla parametrów funkcji regresji liniowej: dla współczynnika regresji P (ˆ t ,n 2 sˆ ˆ t ,n 2 sˆ ) 1 INTERPRETACJA: na poziomie ufności 1- wyznaczony przedział liczbowy obejmuje wartość szacowanego parametru α w populacji generalnej UWAGA: to szacowany parametr funkcji regresji II rodzaju w populacji generalnej, a 1- to prawdopodobieństwo (czyli w tym przypadku poziom ufności) dla wyrazu wolnego P ( ˆ t ,n 2 sˆ ˆ t ,n 2 sˆ ) 1 WERYFIKACJA HIPOTEZ dotyczących wartości parametrów regresji liniowej w populacji generalnej •Weryfikacja hipotezy dotyczącej wartości współczynnika regresji liniowej w populacji generalnej •Obliczanie empirycznej wartości testu H0: α 0 H1 : 0 ŷ = 7,4182x + 35,766 [0,6297] [42,291] t= 11,78 ˆ ts ˆ t0,05;19 =2,093 •Wybór obszaru krytycznego Odczytujemy wartość krytyczną t, n-2 z tablic rozkładu t-Studenta i konstruujemy dwustronny obszar krytyczny (; t ,n 2 t ,n 2 ; ) Wnioski: Jeżeli wartość empiryczna testu wpada do obszaru λ to na poziomie istotności odrzucamy Ho Jeżeli wartość empiryczna testu nie wpada do obszaru λ to na poziomie istotności nie mamy podstaw do odrzucenia Ho Predykcja na podstawie regresji liniowej Prognoza warunkowej wartości średniej Oszacowany model regresji można wykorzystać do przewidywania, jakie wartości przyjmie zmienna Y przy ustalonych wartościach zmiennej niezależnej X. Zagadnienie to nosi nazwę predykcji lub prognozowania. Estymatorem E(Y/X=x) (warunkowej wartości średniej) jest zmienna losowa Yˆ ˆ x ˆ x wariancja tego estymatora to (najlepszy nieobciążony estymator) 2 1 x x 2 ˆ 2 D Yx n 2 n xi x i 1 Standardowy błąd prognozy warunkowej wartości oczekiwanej wariancja estymatora wyraża Yˆx się wzorem 2 1 x x D 2 Yˆx 2 n 2 n x x i i 1 estymatorem średniego błędu predykcji D(Yˆk ) jest s(Yˆk ) s Yˆk se 1 n xk x 2 n 2 xi x i 1 Predykcja na podstawie regresji liniowej Przedział ufności warunkowej wartości oczekiwanej Przy założeniu, że rozważany model jest klasycznym modelem normalnej regresji liniowej statystyka: Yˆx E (Y | X x ) t s(Yˆx ) ma rozkład t Studenta z liczbą stopni swobody v = n - 2. Na tej podstawie możemy wyznaczyć przedział ufności dla wartości oczekiwanej: P (Yˆx t ,n 2 s(Yˆx ) E (Y | X x ) Yˆx t ,n 2 s(Yˆx )) 1 Predykcja na podstawie regresji liniowej Prognoza pojedynczej realizacji Zbudowany model regresji liniowej może stanowić podstawę do przewidywania, jakie wartości przyjmie zmienna zależna przy zadanych wartościach zmiennej niezależnej, MNK daje najlepszy estymator nieobciążony pojedynczej realizacji, Y xp x x podobnie jak przy estymacji E(Y|X=x) jest : Yˆ xp ˆ x ˆ Standardowy błąd prognozy Błąd predykcji pojedynczej realizacji zmiennej losowej jest sumą dwóch nieskorelowanych błędów: •błędu estymacji warunkowej wartości oczekiwanej zmiennej losowej Y, •odchyleń pojedynczych realizacji zmiennej w rozkładzie warunkowym od średniej tego rozkładu, D 2 Y xp 2 1 x x 2 2 ˆ 2 D Y x 1 n 2 n xi x i 1 estymator średniego błędu predykcji określamy jako: ( x x )2 1 p s(Y x ) se 1 n ( x x )2 i gdzie ( x x )2 (n 1)s 2x i Predykcja na podstawie regresji liniowej Przedział ufności pojedynczej realizacji Przy założeniu, że rozważany model jest klasycznym modelem normalnej regresji liniowej statystyka: Yˆx Yxp t s(Yxp ) ma rozkład t Studenta z liczbą stopni swobody v = n - 2. Na tej podstawie możemy wyznaczyć przedział ufności dla pojedynczej realizacji: P (Yˆx t ,n 2 s(Yxp ) Yxp Yˆx t ,n 2 s(Yxp )) 1 Przedziały ufności dla warunkowej wartości oczekiwanej i pojedynczej realizacji (prognozy) Przedział ufności dla Y p x Y Przedział ufności dla E(Y|X=xi) i Yˆ ˆ x ˆ x X xi X Interpolacja i ekstrapolacja Y Ekstrapolacja Interpolacja X Ekstrapolacja