ˆ - E-SGH

Transkrypt

ˆ - E-SGH
Wykład 5
Klasyczny model regresji
liniowej
Regresja I rodzaju
• pokazuje jak zmieniają się warunkowe wartości oczekiwane
zmiennej zależnej w zależności od wartości zmiennej
niezależnej.
E(Y X  x )  m( x)
i
• Obraz geometryczny tej funkcji to krzywa regresji I rodzaju
czyli zbiór punktów płaszczyzny
( xi , E (Y X  x ))
i
E(Y/X)
Regresja II rodzaju
W praktyce nieliniowe krzywe regresji można zastąpić liniami
prostymi, jeśli tylko uzyskane przybliżenie jest wystarczające.
~
Prosta Y= αy X+ βy spełniająca warunek:
E{[Y-αy X+ βy )²}=min
nazywamy prostą regresji II rodzaju zmiennej losowej Y
względem zmiennej losowej X
Y - zmienna zależna (objaśniana)
X - zmienna niezależna (objaśniająca)
αy – współczynnik regresji liniowej zmiennej Y względem X
βy – wyraz wolny liniowej funkcji regresji
• Wykres empirycznych linii regresji pozwala na postawienie
hipotezy na temat typu funkcji matematycznej (liniowa,
wykładnicza, parabola itp.) opisującej powiązania pomiędzy
badanymi zmiennymi. Jest ona głównym składnikiem modelu
regresji.
• Spośród wielu postaci modeli regresji można wyróżnić klasyczny
model regresji liniowej, który opiera się na założeniu o liniowym
kształcie związku pomiędzy zmiennymi w populacji generalnej czyli
zakładamy, że funkcja regresji I rodzaju jest funkcją liniową
Klasyczny model regresji liniowej Y względem X
E(Y X  x)   x  
D2 (Y | X  x )   2
MODEL
składnik losowy
Yi  E(Y X  x )     xi     i
i
i
wpływ x na y
założenia:
E(i ) = 0
D2 (i ) = E(i²) = ²
cov (i , j ) = 0 dla i≠j
dla
i = 1, 2, ..., n
Założenia regresji liniowej
• i  N(0, )
Składnik losowy ε ma rozkład normalny o
średniej równej 0 i odchyleniu standardowym σ
N(0,σ)
• D2 (i ) = E(i²) = ²
Wartość σ jest stała (homoscedastyczność)
• cov (i , j ) = 0
Nie występuje autokorelacja składnika losowego
(reszty nie zależą od siebie i od zmiennych
objaśniających)
Klasyczny model regresji liniowej Y względem X
•Głównym składnikiem każdego modelu jest funkcja regresji, której
parametry są oszacowane na podstawie wyników z próby losowej.
Jest to funkcja najlepiej dopasowana do danych empirycznych w
próbie losowej.
•Przyjmując założenie o liniowości związku pomiędzy zmiennymi
funkcja regresji (Y względem X) to prosta o równaniu:
yˆ i  ˆ  xi  ˆ
dla której średni kwadrat odchyleń wartości zmiennej Y od tej prostej
jest najmniejszy,
2
S     [Y  (ˆ  x  ˆ )]2  min
i
i
i
Estymacja parametrów modelu (MNK)
• Funkcja S jest funkcją dwóch niewiadomych
(α i β), aby znaleźć minimum tej funkcji
musimy wyznaczyć pochodne cząstkowe
funkcji S względem obu niewiadomych:
S
 2 xi (Yi  axi   )

i 1
n
S
 2 (Yi  xi   )

i 1
n
Estymacja parametrów modelu (MNK)
• Przyrównując te pochodne do zera otrzymujemy tzw.
układ równań (w układzie tym, w miejsce α i β
wstawiamy ich oszacowania z próby, czyli ̂ i ˆ ).
Układ równań ma postać:
 n
ˆ)  0
ˆ
x
(
Y


x


i
i
i

i 1
 n
 (Yi  ˆxi  ˆ )  0
 i 1
gdzie - ˆ , ˆ - to estymatory parametrów  , 
regresji II rodzaju wyznaczone MNK
funkcji
Parametry strukturalne modelu (szacowane MNK):
Funkcja regresji Y względem X
Współczynnik regresji
ˆ
yˆ i  ˆ  xi  ˆ
( x  x )( y  y ) n x y   x  y c xy

i
i 
i
i
i i


 ( xi  x )
2
2
n x  ( x )2
i
i
Metoda pośrednia
̂  rxy
s 2x
sy
sx
INTERPRETACJA: Przyrost średniej wartości zmiennej
zależnej wywołany przyrostem zmiennej niezależnej o
jednostkę. Innymi słowy: jak zmienia się wartość zmiennej
zależnej, jeżeli cecha niezależna wzrośnie o jednostkę
Parametry strukturalne modelu (szacowane MNK):
Funkcja regresji Y względem X
yˆ i  ˆ  xi  ˆ
Wyraz wolny
y
 ˆ  x

i
i  y  ˆ  x
ˆ 
n
INTERPRETACJA: może być tylko formalna – jaka będzie
wartość zmiennej zależnej, jeżeli zmienna niezależna = 0
Wyraz wolny wyznacza punkt przecięcia prostej regresji z
osią rzędnych (osią Y)
Własności liniowej funkcji regresji
• suma wartości teoretycznych zmiennej zależnej jest równa
sumie wartości empirycznych tej zmiennej
jeżeli, Y –zależna, X – niezależna
n
n
 yˆ   y
i
i 1
i
i 1
• suma odchyleń wartości empirycznych od wartości
teoretycznych jest równa zero
n
 ( y  yˆ )  0
i
i
i 1
• prosta regresji przechodzi przez
punkt o współrzędnych
( x, y)
PARAMETRY STOCHASTYCZNE (MNK)
Podstawą do określenia dokładności dopasowania funkcji regresji
do danych empirycznych są różnice między wartościami
ŷi
empirycznymi a teoretycznymi czyli reszty
ei  yi  yˆi
2
2
ˆ
(
y

y
)
e
 i
 i
se 2 

n 2
n 2
Wariancja reszt
Odchylenie standardowe reszt
se  se 2
Jest to średni efekt oddziaływania na zmienną zależną innych
czynników, poza oddziaływaniem zmiennej niezależnej
Standardowe błędy szacunku (w wyrażeniu absolutnym):
se
współczynnika regresji liniowej s ˆ 

wyrazu wolnego s 
ˆ
 ( xi  x )2
se 2  xi2
n ( xi  x )2


se
 xi2  nx 2
se 2  xi2
n( xi2  nx 2 )
Są to odchylenia standardowe estymatorów ˆ i ˆ tzn.
błędy losowe popełniane przy estymacji parametrów  i 
na podstawie n - elementowych prób.
Względne błędy szacunku
sˆ
sˆ
ˆ
ˆ
 ,

powierzchnia m2
cena w tys. zł
27
29
30
30
31
35
36
40
46
46
46
47
52
53
55
215 240 295 285 270 225 260 425 389 297 405 420 467 525
342
75
85
510 540
111
111
116
135
920 1130
845
915
Funkcja regresji cen mieszkań względem ich
powierzchni w Warszawie w październiku 2008r.
ˆy  ˆ  x  ˆ
i
i
Model regresji cen mieszkań względem ich powierzchni w
Warszawie w październiku 2008r.
ˆ
ˆ  x  e
y 
i [ ]
i [ ] [ s ]i
e
s
̂
sˆ

powierzchnia m2
cena w tys. zł
27
29
30
30
31
35
36
40
46
46
46
47
52
53
55
215 240 295 285 270 225 260 425 389 297 405 420 467 525
342
75
85
510 540
111
111
116
135
920 1130
845
915
Funkcja regresji cen mieszkań względem ich
powierzchni w Warszawie w październiku 2008r.
yˆi  7,42 xi  35,77
Model regresji cen mieszkań względem ich powierzchni w
Warszawie w październiku 2008r.
yi  7,42 xi  35,77  ei
[0,63]
[42,29]
[93,34]
Ocena stopnia dopasowania funkcji regresji
do danych empirycznych R²
2
2
ˆ
ˆ 2
 ( yi 
SST
SST
stopień ogólnego
zróżnicowania
zmiennej zależnej
y)   ( yi  y)   ( yi  yi )
=
SSR
+
SSR
część ogólnego zróżnicowania
zmiennej zależnej
wyjaśniona funkcją regresji
SSE
SSE
część ogólnego zróżnicowania
zmiennej zależnej NIE
wyjaśniona funkcją regresji
Współczynnik determinacji liniowej: R2  0 ; 1
2
ˆ )
ˆ  y)
(y  y
(y

i
i
i
R2 
 1

2
2
(
y

y
)
 ( y  y)

i
i
2
2
ˆ
cov


s
cov xy
xy


 1 e
s2  s2
s2
s2
x
y
y
y
2


Ocena stopnia dopasowania funkcji regresji
do danych empirycznych R²
2
2
ˆ
ˆ 2
 ( yi 
SST
SST
stopień ogólnego
zróżnicowania
zmiennej zależnej
y)   ( yi  y)   ( yi  yi )
=
SSR
+
SSR
część ogólnego zróżnicowania
zmiennej zależnej
wyjaśniona funkcją regresji
SSE
SSE
część ogólnego zróżnicowania
zmiennej zależnej NIE
wyjaśniona funkcją regresji
Współczynnik indeterminacji liniowej:  2  0.1
2
2
ˆ
e
(
y

y
)


2
2
i
i i 
1 R  
2
2
 ( yi  y )
 ( yi  y )
R2   2  1
WNIOSKOWANIE STATYSTYCZNE W ANALIZIE REGRESJI I
KORELACJI – ESTYMACJA PRZEDZIAŁOWA
ŷ = 7,42x + 35,77
[0,63] [42,29]
Przedziały ufności dla parametrów funkcji regresji liniowej:
dla współczynnika regresji
P (ˆ  t ,n 2  sˆ    ˆ  t ,n 2  sˆ )  1  
INTERPRETACJA: na poziomie ufności 1- wyznaczony przedział liczbowy obejmuje wartość
szacowanego parametru α w populacji generalnej
UWAGA:  to szacowany parametr funkcji regresji II rodzaju w populacji generalnej,
a 1- to prawdopodobieństwo (czyli w tym przypadku poziom ufności)
dla wyrazu wolnego
P ( ˆ  t ,n 2  sˆ    ˆ  t ,n 2  sˆ )  1  
WERYFIKACJA HIPOTEZ dotyczących wartości parametrów regresji
liniowej w populacji generalnej
•Weryfikacja hipotezy dotyczącej
wartości współczynnika regresji liniowej
w populacji generalnej
•Obliczanie empirycznej wartości testu
H0: α  0
H1 :   0
ŷ = 7,4182x + 35,766
[0,6297] [42,291]
t= 11,78
ˆ

ts
ˆ
t0,05;19
=2,093
•Wybór obszaru krytycznego
Odczytujemy wartość krytyczną t, n-2 z tablic rozkładu t-Studenta i konstruujemy
dwustronny obszar krytyczny
  (; t ,n 2    t ,n 2 ; )
Wnioski:
Jeżeli wartość empiryczna testu wpada do obszaru λ to na poziomie istotności 
odrzucamy Ho
Jeżeli wartość empiryczna testu nie wpada do obszaru λ to na poziomie istotności
 nie mamy podstaw do odrzucenia Ho
Predykcja na podstawie regresji liniowej
Prognoza warunkowej wartości średniej
Oszacowany model regresji można wykorzystać do przewidywania,
jakie wartości przyjmie zmienna Y przy ustalonych wartościach
zmiennej niezależnej X. Zagadnienie to nosi nazwę predykcji lub
prognozowania.
Estymatorem E(Y/X=x) (warunkowej wartości średniej) jest zmienna
losowa
Yˆ  ˆ  x  ˆ
x
wariancja tego estymatora to
(najlepszy nieobciążony estymator)


2 
1

x  x
2 ˆ
2

D Yx     n
2
n

xi  x 



i 1
 
Standardowy błąd prognozy warunkowej wartości
oczekiwanej
wariancja estymatora wyraża Yˆx się wzorem


2 
1


x

x

D 2 Yˆx   2   n
2
n


x

x
i



i 1
 
estymatorem średniego błędu predykcji D(Yˆk ) jest s(Yˆk )
 
s Yˆk  se
1

n
 xk  x 2
n
2


 xi  x
i 1
Predykcja na podstawie regresji liniowej
Przedział ufności warunkowej wartości oczekiwanej
Przy założeniu, że rozważany model jest klasycznym modelem
normalnej regresji liniowej statystyka:
Yˆx  E (Y | X  x )
t
s(Yˆx )
ma rozkład t Studenta z liczbą stopni swobody v = n - 2.
Na tej podstawie możemy wyznaczyć przedział ufności dla
wartości oczekiwanej:
P (Yˆx  t ,n 2 s(Yˆx )  E (Y | X  x )  Yˆx  t ,n 2 s(Yˆx ))  1  
Predykcja na podstawie regresji liniowej
Prognoza pojedynczej realizacji
Zbudowany model regresji liniowej może stanowić podstawę do
przewidywania, jakie wartości przyjmie zmienna zależna przy
zadanych wartościach zmiennej niezależnej,
MNK daje najlepszy estymator nieobciążony pojedynczej realizacji,
Y xp    x     x
podobnie jak przy estymacji E(Y|X=x) jest :
Yˆ xp  ˆ  x  ˆ
Standardowy błąd prognozy
Błąd predykcji pojedynczej realizacji zmiennej losowej jest sumą
dwóch nieskorelowanych błędów:
•błędu estymacji warunkowej wartości oczekiwanej zmiennej
losowej Y,
•odchyleń pojedynczych realizacji zmiennej w rozkładzie
warunkowym od średniej tego rozkładu,
 
D 2 Y xp


2

1
x  x 
2
2 ˆ
2
   D Y x    1   n

2
n

  xi  x  


i 1
estymator średniego błędu predykcji określamy jako:
( x  x )2
1
p
s(Y x )  se 1  
n  ( x  x )2
i
gdzie  ( x  x )2  (n  1)s 2x
i
Predykcja na podstawie regresji liniowej
Przedział ufności pojedynczej realizacji
Przy założeniu, że rozważany model jest klasycznym modelem
normalnej regresji liniowej statystyka:
Yˆx  Yxp
t
s(Yxp )
ma rozkład t Studenta z liczbą stopni swobody v = n - 2.
Na tej podstawie możemy wyznaczyć przedział ufności dla
pojedynczej realizacji:
P (Yˆx  t ,n 2 s(Yxp )  Yxp  Yˆx  t ,n 2 s(Yxp ))  1  
Przedziały ufności dla warunkowej wartości
oczekiwanej i pojedynczej realizacji (prognozy)
Przedział ufności
dla Y p
x
Y
Przedział ufności
dla E(Y|X=xi)
i
Yˆ  ˆ  x  ˆ
x
X
xi
X
Interpolacja i ekstrapolacja
Y
Ekstrapolacja
Interpolacja
X
Ekstrapolacja