MODEL REGRESJI LINIOWEJ służy - E-SGH
Transkrypt
MODEL REGRESJI LINIOWEJ służy - E-SGH
MODEL REGRESJI LINIOWEJ służy: – analizie zależności między zmienną objaśnianą Y a zmiennymi objaśniającymi – predykcji zmiennej Y na podstawie zmiennych X. Głównym składnikiem modelu regresji jest funkcja regresji, której postać analityczną ą określa się na podstawie wyników losowej próby lub innych pozanalitycznych przesłanek (np. przypadku zjawisk ekonomicznych na podstawie teorii ekonomii). Parametry tej funkcji podlegają estymacji na podstawie danych empirycznych pochodzących z próby losowej. Spośród wielu modeli regresji podstawowe znacznie ma klasyczny model regresji liniowej, w którym zależność pomiędzy zmienną objaśnianą a zmiennymi objaśniającymi jest opisywana za pomocą funkcji liniowej: Yi = α 0 + α1 X 1i + α 2 X 2i + ... + α k X ki + ξi gdzie α j dla j=0,1,...,k – nieznane parametry strukturalne modelu ξi - dla i=1,...n - składnik losowy. Estymacja parametrów modelu regresji Najlepiej znaną i najczęściej stosowaną w praktyce metodą estymacji nieznanych parametrów strukturalnych modelu regresji jest metoda najmniejszych kwadratów (MNK). Warunki stosowania MNK: 1) zmienne objaśniające Xj są nieskorelowane ze składnikiem losowym 2) E (ξ ) = 0 3) D 2 (ξ ) = σ 2 , σ 2 < ∞ Oznaczmy estymatory parametrów α i jako αˆi . Wartości zmiennej objaśnianej otrzymane przy ocenach αˆi to wartości teoretyczne zmiennej objaśnianej yˆi : yˆi = αˆ 0 + αˆ1 x1 + αˆ 2 x2 + ... + αˆ k xk Resztą w modelu regresji nazywamy różnicę między wartością empiryczną a teoretyczną zmiennej objaśnianej: ei = yi − yˆi , i=1,...,n Idea MNK polega na minimalizacji kwadratów reszt: n ∑e i =1 i 2 → min Dla modelu regresji z jedną zmienną objaśnianą estymatory parametrów strukturalnych oblicza się ze wzorów: n αˆ1 = n n n ∑ x y − ∑ x ∑ y / n ∑ ( x − x )( y − y ) i i =1 i i =1 i i =1 2 i n 2 x − ∑ i ∑ xi / n i =1 i =1 αˆ 0 = y − αˆ1 x - wyraz wolny n = i i =1 i n ∑ (x − x ) i =1 2 i = Sy cov( xy ) - wsp. regresji =r 2 Sx Sx Estymator wyznaczony MNK jest estymatorem zgodnym (tj. dąży stochastycznie do α), nieobciążonym (tj. E (αˆ ) = α ) i najefektywniejszym w klasie liniowych i nieobciążonych estymatorów (tj. o najmniejszej wariancji w tej klasie estymatorów). Przy estymacji parametru popełnia się błąd losowy. Miara jego wielkości jest odchylenie standardowe estymatora, którego estymatorem jest: Se2 Sαˆ1 = n ∑ (x − x ) 2 i i =1 n Se2 ⋅ ∑ xi2 Sαˆ0 = i =1 n n∑ ( xi − x ) 2 i =1 gdzie: n Se 2 = ∑e i =1 2 i n−2 Sαˆ1 , Sα 0 to estymatory parametrów stochastycznych modelu regresji. Współczynnik determinacji n R2 = ∑ ( yˆi − y )2 i =1 n ∑ (y − y) i =1 i 2 n = 1− ∑ ( yi − yˆi )2 i =1 n ∑ ( y − y) i =1 i 2 n = 1− ∑e i =1 n 2 i ∑ ( y − y) i =1 i gdzie ϑ 2 - współczynnik indeterminacji. = 1−ϑ2 , 2 Współczynnik determinacji R2 ∈ <0,1> i określa stopień dopasowania modelu do danych. Mówi nam w jakim stopniu zmienność zmiennej Y jest objaśniana przez model (zmienne objaśniające). Współczynnik determinacji można inaczej zapisać jako: R2 = SSE SSR = 1− SSY SSY gdzie: n SSY = ∑ ( yi − y ) 2 - całkowita zmienność zmiennej Y i =1 n SSE = ∑ ( yˆi − y ) 2 - zmienność zmiennej Y wyjaśniana przez model i =1 n SSR = ∑ ( yi − yˆi ) 2 - zmienność resztkowa, zmienność zmiennej Y nie wyjaśniana i =1 przez model SSY = SSE + SSR Estymacja przedziałowa parametrów strukturalnych } P {αˆ i − tα ,n − 2 ⋅ S αˆ ≤ α i ≤ αˆ i + tα ,n − 2 ⋅ Sαˆi = 1 − α i Istotność parametrów strukturalnych Badamy czy parametr jest istotnie różny (większy / mniejszy) od zera. H0: α i = 0 H1: α i ≠ 0 (‘>’, ‘<’) Statystyka testująca: t = αˆi Sαˆi Jeśli prawdziwa jest hipoteza zerowa, to statystyka t ma rozkład t-Studenta z n-2 stopniami swobody. Obszar krytyczny: P( t ≥ tα ,n− 2 ) = α Predykcja na podstawie modelu regresji liniowej a) wartości oczekiwanej E (Yˆ / X = x) E (Yˆ / X = x) = αˆ 0 + αˆ1 x - estymacja punktowa Standardowy błąd predykcji : 2 1 (x − x ) S 2 ( E (Yˆ | X = x)) = Se2 + n 2 n ( xi − x ) ∑ i =1 Estymacja przedziałowa wartości oczekiwanej Y: { } P E (Yˆ | X = x) − tα ,n − 2 S ( E (Yˆ | X = x)) ≤ E (Y / X = x) ≤ E (Yˆ | X = x) + tα ,n − 2 S ( E (Yˆ | X = x)) = 1 − α b) pojedynczej realizacji zmiennej Yx Yˆx = αˆ 0 + αˆ1 x - estymacja punktowa Standardowy błąd predykcji : 2 1 (x − x ) S 2 (Yˆx ) = Se2 1 + + n 2 n ( xi − x ) ∑ i =1 Estymacja przedziałowa wartości oczekiwanej Y: { } P Yˆx − tα ,n − 2 S (Yˆx ) ≤ Yx ≤ Yˆx + tα ,n − 2 S (Yˆx ) = 1 − α