Modele regresji

Transkrypt

Modele regresji
Modele regresji - wstęp
"Regresja" - o co chodzi?
E(Y | X1= x1, X2 = x2, ... , Xk = xk)= fβ (x1, x2, ... , xk)
Szczególna postać modeli zjawiska
Y =fβ (X1, X2, ... , Xk) + Z
fβ (., ., ... , .) - postać modelu
β - (wielowymiarowy) parametr regresji
Y
- zmienna wyjaśniana ( objaśniana)
X1, X2, ... , Xk
- deterministyczne zmienne objaśniające
Z
- składnik losowy (zakłócenie modelu)
1
Model liniowy
Model:
Y = β1X1+ β2X2+ ...+ βkXk+Z
Zmienne w modelu:
Y
X1
X2 … Xk
pierwsza obserwacja:
y1
y2
y3
x11
x21
x31
x12 … x1k
x22 … x2k
x32 … x3k
druga obserwacja:
trzecia obserwacja:
…
yn
n-ta obserwacja:
xn1
xn2 …
xnk
Y = β1X1+ β2X2+ ...+ βkXk+Z
Model:
Zmienne w modelu:
Y=
Y
X1
X2 … Xk
y1
y2
y3
x11
x21
x31
x12 … x1k
x22 … x2k
x32 … x3k
X=
…
yn
Wektor obserwacji
zmiennej wyjaśnianej
…
xn1
xn2 …
xnk
Macierz obserwacji
zmiennych objaśniających
2
Model moŜemy teraz zapisać w postaci :
Y=Xβ
β+Z
gdzie
Y=
y1
y2
X=
yn
x11
x21
x12 … x1k
x22 … x2k
xn1
xn2 …
β= …
…
ZałoŜenie obowiązujące w dalszej części wykładu:
Z1
Z2
Z= …
Zn
β1
β2
βk
xnk
E(Z)= 0, Cov(Z) = Σ
Ilustracja: model 2D zjawiska o postaci Y = αX + β + Z
(y1,x1)
(y2,x2)
...
Y
y2
(yn,xn)
yn
y1
x1
xn
x2
X
Diagram korelacyjny
3
Optymalna prosta Y = aX + b przybliŜającą związek Y = αX + β . Κtóra ?
(y1,x1)
(y2,x2)
Y
...
(yn,xn)
y
x
=a
+b
X
Optymalna prosta Y = aX + b przybliŜającą związek Y = αX + β . Κtóra ?
(y1,x1)
(y2,x2)
Y
...
(yn,xn)
y
x
=a
+b
X
4
Optymalna prosta Y = aX + b przybliŜającą związek Y = αX + β . Κtóra ?
(y1,x1)
(y2,x2)
Y
...
(yn,xn)
x+b
y=a
X
Reszty
Dla danej prostej y=ax+b i zbioru danych definiujemy ciąg reszt e1, e2,... en
w następujący sposób:
ei=yi - (axi+b)
Y
x+b
y=a
X
e1=y1-(ax1+b)
5
Reszty
Dla danej prostej y=ax+b i zbioru danych definiujemy ciąg reszt e1, e2,... en
w następujący sposób:
ei=yi - (axi+b)
Y
x+b
y=a
X
e2=y2-(ax2+b)
Reszty
Dla danej prostej y=ax+b i zbioru danych definiujemy ciąg reszt e1, e2,... en
w następujący sposób:
ei=yi - (axi+b)
Y
x+b
y=a
X
en=yn-(axn+b)
6
Metoda Najmniejszych Kwadratów
Y
b*
*xx++b
yy == aa
X
Suma Kwadratów Reszt zaleŜy od współczynników danej prostej
SKR(a, b) = e12 + e22 + ... + en2 = ∑ ei2
i
Szukamy takich liczb a* i b* , Ŝeby SKR(a*,b*) było najmniejsze
Metoda Najmniejszych Kwadratów (ogólniej)
Określenie
Suma Kwadratów Reszt (SKR) (ang. sum of squared errors SSE)
2
SKR (b) = Y − Xb = e
gdzie e to reszty
2
e = Y − Xb
k
czyli:
ei = yi − ∑bj xij
j =1
7
Suma Kwadratów Reszt moŜna przekształcić do postaci:
2
SKR (b ) = Y − Xb = (Y − Xb )T (Y − Xb ) = Y T Y − 2Y T Xb + b T XT Xb
Warunek na ekstremum takiej formy kwadratowej:
∂SKR (b)
=0
∂b
Czyli
∂SKR (b)
= −2Y T X + 2 XT Xb
∂b
Zatem warunkiem koniecznym dla osiągnięcia minimum tej formy, jest by
wektor b spełniał warunek
X T Xb = X T Y
Jest to równanie normalne w problemie regresji liniowej
Stwierdzenie 1
Rozwiązanie równania normalnego
X T Xb = X T Y
zawsze istnieje
Stwierdzenie 2
Dla dowolnego wektora b ∈ Rk , jeśli b* spełnia równanie normalne, to
2
Y − Xb ≥ Y − Xb*
2
czyli b* minimalizuje sumę kwadratów reszt SKR
Określenie
Estymatorem otrzymanym metodą najmniejszych kwadratów (estymatorem MNK)
parametru β nazywamy (dowolny) wektor b* spełniający równanie normalne
X T Xb * = X T Y
Uwaga: Estymator MNK jest wyznaczony jednoznacznie, gdy rząd macierzy X jest
równy k . Oznaczamy go wtedy jako bLS . WyraŜa się on wzorem:
bLS = (XTX)-1XTY
8
Stwierdzenie 3
Estymator bLS jest estymatorem nieobciąŜonym parametru regresji β .
Dowód:
E (( XT X) −1 XT Y) = E[(XT X) −1 XT ( Xβ + Z)] = β + E[( X T X) −1 X T Z)] = β
Stwierdzenie 4
Jeśli
Cov ( Υ ) = Σ = σ 2 I n , to
Cov(b LS ) = σ 2 ( XT X) −1
Dowód:
σ b = σ 2 Aii
Cov (b LS ) = Cov (( XT X) −1 XT Y ) = ( XT X) −1 XT ΣX( XT X) −1 =
i
σ 2 ( XT X) −1 XT X( XT X) −1 = σ 2 ( XT X) −1
Wniosek: Odchylenie standardowe oszacowania i-tego współczynnika βi wynosi
σ b = σ 2 Aii
i
gdzie
A = ( XT X) −1
Niech w ∈ Rn i f (w) = w1β1 + w2β2 +…+wnβn = wT β .
Problem: estymacja wartości funkcji f dla określonej wartości wektora w.
Twierdzenie Gaussa-Markowa
Estymator wTbLS jest estymatorem nieobciąŜonym wartości wTβ .
Estymator ten ma minimalną wariancję wśród wszystkich estymatorów
liniowych (tzn. postaci g(Y) = vT Y, gdzie v ∈ Rn ).
Uwaga. Estymator ten często określamy akronimem BLUE, (Best Linear Unbiased Estimator)
Twierdzenie
Estymator wTbLS jest estymatorem zgodnym wartości wTβ
Twierdzenie
JeŜeli zakłócenia w modelu regresji mają wielowymiarowy rozkład
normalny to estymator wTbLS jest najlepszym estymatorem
nieobciąŜonym wartości wTβ (wśród wszystkich estymatorów).
9
Analiza reszt
Stwierdzenie 5
Wartość oczekiwana reszt otrzymanych w MNK jest równa zero, tj: E(Y-XbLS) = 0
Stwierdzenie 6
Jeśli
Cov ( Υ ) = Σ = σ 2 I n
to
E ( SKR (b LS )) = σ 2 (n − k )
Wykorzystujemy tu Fakty:
1. Jeśli istnieje macierz kowariancji Σ wektora Y, to dla dowolnej macierzy A dla której
istnieje iloczyn YTAY zachodzi:
E(YTAY)= EYTAEY + trAΣ
Σ
2. Ślad macierzy idempotentnej jest równy jej rzędowi
T
T
−1
T
3. SKR = Z (I n − X( X X) X )Z
Analiza reszt
Wniosek
NieobciąŜonym estymatorem wariancji σ2 zakłóceń w rozpatrywanym przypadku jest
statystyka
S Z2 =
SKR (b LS )
n−k
Nazewnictwo:
Wielkość SZ będącą oszacowaniem odchylenia standardowego zakłóceń często
nazywamy standardowym błędem modelu.
Liczba n-k (róŜnica liczby obserwacji i liczby estymowanych parametrów) to liczba
stopni swobody modelu (ang. degrees of freedom).
10
Wnioski: Wybrane wskaźniki jakości modelu:
1. Współczynnik determinacji:
R2 = 1−
SKR
CSK
n
CSK = ∑ (Yi − Y ) 2
gdzie
i =1
Sensownie moŜna go stosować tylko dla modelu z wyrazem wolnym!
2. Standardowy błąd modelu:
3. Wskaźnik wyrazistości:
SZ
V=
SZ
__
Y
4. Standardowe błędy oszacowań współczynników regresji:
Sbi = S Z Aii
gdzie A=(XTX)-1
i=1,…,k
5. Skorygowany współczynnik determinacji:
R2 = 1−
n −1
(1 − R 2 )
n−k
Wskaźnik ten moŜna wykorzystać przy selekcji modeli
zbudowanych w oparciu o róŜne układy zmiennych objaśniających
11
Weryfikacja hipotez i estymacja przedziałowa przy załoŜeniu normalności
zakłóceń
W tym fragmencie wykładu zakładać będziemy, Ŝe wektor Z ma n wymiarowy rozkład
normalny. Rozpatrzmy w takim przypadku problem estymacji wartości γ = wTβ
Niech, jak zwykle, estymator g = wTb będzie estymatorem MNK tej wartości
(opuszczamy "LS" dla krótkości zapisu).
Oczywiście przy przyjętych załoŜeniach estymator g ma rozkład normalny a jego
wartość oczekiwana jest równa E(g) = E(wTb)=γ
(dlaczego?)
g = w T ( XT X) −1 XT Y = w T ( XT X) −1 XT ( Xβ + Z)
Natomiast wariancja wynosi:
Var ( g ) = Var (w T ( XT X) −1 XT Y ) =
= σ 2 w T ( XT X) −1 XT X( XT X) −1 w = σ 2 w T ( XT X) −1 w = σ 2c 2
Zatem przy naszych załoŜeniach statystyka
U =
g −γ
cσ
ma rozkład normalny N(0,1)
Kilka interesujących faktów:
Twierdzenie Fishera-Cochrana
ZałóŜmy, Ŝe wektor Z ma rozkład normalny N(0, I). Warunkiem koniecznym i
wystarczającym na to, aby forma kwadratowa ZTAZ miała rozkład χ2 jest, by macierz A
była idempotentna. Liczba stopni swobody tego rozkładu jest równa rzędowi macierzy A.
Twierdzenie (wersja twierdzenia Fishera)
Niech wektor Z ma rozkład normalny N(0, σ2I). Jeśli BA=0, to forma liniowa BZ i
forma kwadratowa ZTAZ są stochastycznie niezaleŜne.
Fakt. Niech Z oznacza wektor zakłóceń w modelu liniowym. Wtedy
SKR = Z T (I n − X( X T X) −1 X T )Z
Fakt. Macierz B = (I n − X( X T X) −1 X T ) jest idempotentna.
Jej ślad wynosi : trB = trI n + trX( X T X) −1 X T = n − tr ( X T X) −1 X T X = n − k
Okazuje się więc, Ŝe jeśli Cov ( Υ ) = σ 2I n
1
to
SKR ~ χ 2 (n − k )
σ2
12
Pamiętamy, Ŝe jeśli U ma rozkład normalny standaryzowany, a T ma rozkład χ2(n) oraz U
i T są niezaleŜne, to
t=
U
~ St (n)
T
n
Wykorzystując powyŜszy fakt i podane twierdzenia łatwo moŜna pokazać, Ŝe statystyka
g −γ
t=
SKR
cσ
=
wT b − wT β
cS Z
σ 2 (n − k )
ma rozkład Studenta o n-k stopniach swobody.
W szczególnym przypadku przyjmując za w wektor zer z jedynką na i-tej współrzędnej
otrzymamy:
ti =
bi − β i
~ St (n − k )
cSbi
2
T
T
−1
Pamiętamy: c = w ( X X) w
Prognoza wartości oczekiwanej zmiennej Y,
ZauwaŜmy, Ŝe
E(Y )=E(wTβ+Z )=wTβ
W oparciu o poprzednie rezultaty łatwo pokazać, Ŝe przedział
[w T b − t p cS Z , w T b + t p cS Z ]
jest przedziałem ufności dla E(Y) przy współczynniku ufności równym q
Oczywiście tp jest kwantylem rzędu (1+q)/2 z rozkładu St(n-k).
W szczególnym przypadku (jakim?)
otrzymujemy przedział ufności dla i-tego współczynniki regresji βi:
[bi − t p S bi , bi + t p S bi ]
13
Prognoza wartości zmiennej Y
Nietrudno teŜ udowodnić, Ŝe - przy przyjetych załoŜeniach o Z - poniŜsza statystka ma
równieŜ rozkład Studenta o (n-k) stopniach swobody
t=
w T b − (w T β + Z )
=
SZ c2 +1
wT b − Y
SZ c2 + 1
W konsekwencji otrzymamy przedział ufności dla wartości Y:
[ w T b − t p S Z c 2 + 1, w T b + t p S Z c 2 + 1]
UWAGA: Wielkość S Z c 2 + 1 bywa nazywana
standardowym błędem predykcji ex ante.
Wykorzystanie znalezionych rozkładów w testowaniu hipotez o modelu
Najczęściej wyprowadzone rozkłady wykorzystujemy do testowania hipotezy o
wartościach współczynników regresji.
Hipotezę zerową i alternatywną formułujemy w następujący sposób:
H 0 : βi = βi
0
H k : βi ≠ βi
0
Statystką testową jest oczywiście w tym przypadku statystyka
ti =
bi − β i
Sbi
0
Zbiorem krytycznym na poziomie istotności α jest W=(-∞ , - tp) ∪ (tp,∞),
gdzie tp jest kwantylem rzędu p= 1-α/2
Na ogół testuje się hipotezę zerową βi = 0, przy alternatywie βi ≠ 0 .
Często nazywa się to testowaniem "istotności i-tej zmiennej objaśniającej"
W praktyce moŜna uwaŜać, Ŝe sprawdzamy czy ma ona w modelu pozostać, czy teŜ, o ile
pozostałe zostaną, moŜna ją usunąć.
14
Etapy modelowania regresyjnego
Etap I – Propozycja hipotetycznej postaci modelu
(wstępna decyzja o zmiennych objaśniających oraz o postaci funkcji f )
Etap II – Estymacja parametrów strukturalnych
- wybór metody estymacji
Etap III – Sprawdzanie poprawności (uŜyteczności) modelu
Etap A. Dobór zmiennych objaśniających (testy istotności )
Etap B. Obliczanie i analiza wskaźników jakości modelu
Etap C. Sprawdzanie załoŜeń przyjętych do wnioskowania
Na kaŜdym z podetapów III moŜliwe podjęcie decyzji o
nieuŜyteczności modelu i powrót do Etapu I.
15

Podobne dokumenty