MODEL REGRESJI LINIOWEJ służy - E-SGH

Transkrypt

MODEL REGRESJI LINIOWEJ
służy:
– analizie zależności między zmienną objaśnianą Y a zmiennymi
objaśniającymi
– predykcji zmiennej Y na podstawie zmiennych X.
Głównym składnikiem modelu regresji jest funkcja regresji, której postać
analityczną ą określa się na podstawie wyników losowej próby lub innych
pozanalitycznych przesłanek (np. przypadku zjawisk ekonomicznych na
podstawie teorii ekonomii). Parametry tej funkcji podlegają estymacji na
podstawie danych empirycznych pochodzących z próby losowej.
Spośród wielu modeli regresji podstawowe znacznie ma klasyczny model
regresji liniowej, w którym zależność pomiędzy zmienną objaśnianą a
zmiennymi objaśniającymi jest opisywana za pomocą funkcji liniowej:
Yi = α 0 + α1 X 1i + α 2 X 2i + ... + α k X ki + ξi
gdzie
α j dla j=0,1,...,k – nieznane parametry strukturalne modelu
ξi - dla i=1,...n - składnik losowy.
Estymacja parametrów modelu regresji
Najlepiej znaną i najczęściej stosowaną w praktyce metodą estymacji
nieznanych parametrów strukturalnych modelu regresji jest metoda
najmniejszych kwadratów (MNK).
Warunki stosowania MNK:
1) zmienne objaśniające Xj są nieskorelowane ze składnikiem losowym
2) E (ξ ) = 0
3) D 2 (ξ ) = σ 2 , σ 2 < ∞
Oznaczmy estymatory parametrów α i jako αî . Wartości zmiennej objaśnianej
otrzymane przy ocenach αî to wartości teoretyczne zmiennej objaśnianej yî :
yî = αˆ 0 + αˆ1 x1 + αˆ 2 x2 + ... + αˆ k xk
Resztą w modelu regresji nazywamy różnicę między wartością empiryczną a
teoretyczną zmiennej objaśnianej:
ei = yi − yî , i=1,...,n
Idea MNK polega na minimalizacji kwadratów reszt:
n
∑e
i =1
i
2
→ min
Dla modelu regresji z jedną zmienną objaśnianą estymatory parametrów
strukturalnych oblicza się ze wzorów:

n
αˆ1 =

n

n
n
∑ x y −  ∑ x   ∑ y  / n ∑ ( x − x )( y − y )


i
i =1
i
i =1
i
i =1
2
i
 n 
2
x
−
∑
i
 ∑ xi  / n
i =1
 i =1 
αˆ 0 = y − αˆ1 x - wyraz wolny
n
=
i
i =1
i
n
∑ (x − x )
i =1
2
i
=
Sy
cov( xy )
- wsp. regresji
=r
2
Sx
Sx
Estymator wyznaczony MNK jest estymatorem zgodnym (tj. dąży
stochastycznie do α), nieobciążonym (tj. E (αˆ ) = α ) i najefektywniejszym w
klasie liniowych i nieobciążonych estymatorów (tj. o najmniejszej wariancji w
tej klasie estymatorów).
Przy estymacji parametru popełnia się błąd losowy. Miara jego wielkości jest
odchylenie standardowe estymatora, którego estymatorem jest:
Se2
Sαˆ1 =
n
∑ (x − x )
2
i
i =1
n
Se2 ⋅ ∑ xi2
Sαˆ0 =
i =1
n
n∑ ( xi − x ) 2
i =1
gdzie:
n
Se 2 =
∑e
i =1
2
i
n−2
Sαˆ1 , Sα 0 to estymatory parametrów stochastycznych modelu regresji.
Współczynnik determinacji
n
R2 =
∑ ( yî − y )2
i =1
n
∑ (y − y)
i =1
i
2
n
= 1−
∑ ( yi − yî )2
i =1
n
∑ ( y − y)
i =1
i
2
n
= 1−
∑e
i =1
n
2
i
∑ ( y − y)
i =1
i
gdzie ϑ 2 - współczynnik indeterminacji.
= 1−ϑ2 ,
2
Współczynnik determinacji R2 ∈ <0,1> i określa stopień dopasowania modelu do
danych. Mówi nam w jakim stopniu zmienność zmiennej Y jest objaśniana
przez model (zmienne objaśniające).
Współczynnik determinacji można inaczej zapisać jako:
R2 =
SSE
SSR
= 1−
SSY
SSY
gdzie:
n
SSY = ∑ ( yi − y ) 2 - całkowita zmienność zmiennej Y
i =1
n
SSE = ∑ ( yî − y ) 2 - zmienność zmiennej Y wyjaśniana przez model
i =1
n
SSR = ∑ ( yi − yî ) 2 - zmienność resztkowa, zmienność zmiennej Y nie wyjaśniana
i =1
przez model
SSY = SSE + SSR
Estymacja przedziałowa parametrów strukturalnych
}
P {αˆ i − tα ,n − 2 ⋅ S αˆ ≤ α i ≤ αˆ i + tα ,n − 2 ⋅ Sαî = 1 − α
i
Istotność parametrów strukturalnych
Badamy czy parametr jest istotnie różny (większy / mniejszy) od zera.
H0: α i = 0
H1: α i ≠ 0 (‘>’, ‘<’)
Statystyka testująca: t =
αî
Sαî
Jeśli prawdziwa jest hipoteza zerowa, to statystyka t ma rozkład t-Studenta z n-2
stopniami swobody.
Obszar krytyczny: P( t ≥ tα ,n− 2 ) = α
Predykcja na podstawie modelu regresji liniowej
a)
wartości oczekiwanej E (Yˆ / X = x)
E (Yˆ / X = x) = αˆ 0 + αˆ1 x
- estymacja punktowa
Standardowy błąd predykcji :


2
1
(x − x ) 

S 2 ( E (Yˆ | X = x)) = Se2  + n
2 
n
( xi − x )
∑


i =1
Estymacja przedziałowa wartości oczekiwanej Y:
{
}
P E (Yˆ | X = x) − tα ,n − 2 S ( E (Yˆ | X = x)) ≤ E (Y / X = x) ≤ E (Yˆ | X = x) + tα ,n − 2 S ( E (Yˆ | X = x)) = 1 − α
b) pojedynczej realizacji zmiennej Yx
Yˆx = αˆ 0 + αˆ1 x
- estymacja punktowa
Standardowy błąd predykcji :


2
 1
(x − x ) 

S 2 (Yˆx ) = Se2 1 + + n
2
 n
( xi − x )
∑


i =1
Estymacja przedziałowa wartości oczekiwanej Y:
{
}
P Yˆx − tα ,n − 2 S (Yˆx ) ≤ Yx ≤ Yˆx + tα ,n − 2 S (Yˆx ) = 1 − α

MODEL REGRESJI LINIOWEJ służy - E-SGH

Transkrypt

Podobne dokumenty

Podstawy statystyki

Piotr Jadwiszczak „Zrozumieć statystykę”

ĆWICZENIA nr 12

Laboratorium 3 - Model regresji wielokrotnej 3.1 Plik realest.txt

1. Badanie płacy (x1 - w zł) oraz stażu pracy (x2

wyklady – zestaw zadan 3

STATYSTYKA ćw 7

Model statystyczny Format danych Przedziały ufności i testy