Modele regresji
Transkrypt
Modele regresji
Modele regresji - wstęp "Regresja" - o co chodzi? E(Y | X1= x1, X2 = x2, ... , Xk = xk)= fβ (x1, x2, ... , xk) Szczególna postać modeli zjawiska Y =fβ (X1, X2, ... , Xk) + Z fβ (., ., ... , .) - postać modelu β - (wielowymiarowy) parametr regresji Y - zmienna wyjaśniana ( objaśniana) X1, X2, ... , Xk - deterministyczne zmienne objaśniające Z - składnik losowy (zakłócenie modelu) 1 Model liniowy Model: Y = β1X1+ β2X2+ ...+ βkXk+Z Zmienne w modelu: Y X1 X2 … Xk pierwsza obserwacja: y1 y2 y3 x11 x21 x31 x12 … x1k x22 … x2k x32 … x3k druga obserwacja: trzecia obserwacja: … yn n-ta obserwacja: xn1 xn2 … xnk Y = β1X1+ β2X2+ ...+ βkXk+Z Model: Zmienne w modelu: Y= Y X1 X2 … Xk y1 y2 y3 x11 x21 x31 x12 … x1k x22 … x2k x32 … x3k X= … yn Wektor obserwacji zmiennej wyjaśnianej … xn1 xn2 … xnk Macierz obserwacji zmiennych objaśniających 2 Model moŜemy teraz zapisać w postaci : Y=Xβ β+Z gdzie Y= y1 y2 X= yn x11 x21 x12 … x1k x22 … x2k xn1 xn2 … β= … … ZałoŜenie obowiązujące w dalszej części wykładu: Z1 Z2 Z= … Zn β1 β2 βk xnk E(Z)= 0, Cov(Z) = Σ Ilustracja: model 2D zjawiska o postaci Y = αX + β + Z (y1,x1) (y2,x2) ... Y y2 (yn,xn) yn y1 x1 xn x2 X Diagram korelacyjny 3 Optymalna prosta Y = aX + b przybliŜającą związek Y = αX + β . Κtóra ? (y1,x1) (y2,x2) Y ... (yn,xn) y x =a +b X Optymalna prosta Y = aX + b przybliŜającą związek Y = αX + β . Κtóra ? (y1,x1) (y2,x2) Y ... (yn,xn) y x =a +b X 4 Optymalna prosta Y = aX + b przybliŜającą związek Y = αX + β . Κtóra ? (y1,x1) (y2,x2) Y ... (yn,xn) x+b y=a X Reszty Dla danej prostej y=ax+b i zbioru danych definiujemy ciąg reszt e1, e2,... en w następujący sposób: ei=yi - (axi+b) Y x+b y=a X e1=y1-(ax1+b) 5 Reszty Dla danej prostej y=ax+b i zbioru danych definiujemy ciąg reszt e1, e2,... en w następujący sposób: ei=yi - (axi+b) Y x+b y=a X e2=y2-(ax2+b) Reszty Dla danej prostej y=ax+b i zbioru danych definiujemy ciąg reszt e1, e2,... en w następujący sposób: ei=yi - (axi+b) Y x+b y=a X en=yn-(axn+b) 6 Metoda Najmniejszych Kwadratów Y b* *xx++b yy == aa X Suma Kwadratów Reszt zaleŜy od współczynników danej prostej SKR(a, b) = e12 + e22 + ... + en2 = ∑ ei2 i Szukamy takich liczb a* i b* , Ŝeby SKR(a*,b*) było najmniejsze Metoda Najmniejszych Kwadratów (ogólniej) Określenie Suma Kwadratów Reszt (SKR) (ang. sum of squared errors SSE) 2 SKR (b) = Y − Xb = e gdzie e to reszty 2 e = Y − Xb k czyli: ei = yi − ∑bj xij j =1 7 Suma Kwadratów Reszt moŜna przekształcić do postaci: 2 SKR (b ) = Y − Xb = (Y − Xb )T (Y − Xb ) = Y T Y − 2Y T Xb + b T XT Xb Warunek na ekstremum takiej formy kwadratowej: ∂SKR (b) =0 ∂b Czyli ∂SKR (b) = −2Y T X + 2 XT Xb ∂b Zatem warunkiem koniecznym dla osiągnięcia minimum tej formy, jest by wektor b spełniał warunek X T Xb = X T Y Jest to równanie normalne w problemie regresji liniowej Stwierdzenie 1 Rozwiązanie równania normalnego X T Xb = X T Y zawsze istnieje Stwierdzenie 2 Dla dowolnego wektora b ∈ Rk , jeśli b* spełnia równanie normalne, to 2 Y − Xb ≥ Y − Xb* 2 czyli b* minimalizuje sumę kwadratów reszt SKR Określenie Estymatorem otrzymanym metodą najmniejszych kwadratów (estymatorem MNK) parametru β nazywamy (dowolny) wektor b* spełniający równanie normalne X T Xb * = X T Y Uwaga: Estymator MNK jest wyznaczony jednoznacznie, gdy rząd macierzy X jest równy k . Oznaczamy go wtedy jako bLS . WyraŜa się on wzorem: bLS = (XTX)-1XTY 8 Stwierdzenie 3 Estymator bLS jest estymatorem nieobciąŜonym parametru regresji β . Dowód: E (( XT X) −1 XT Y) = E[(XT X) −1 XT ( Xβ + Z)] = β + E[( X T X) −1 X T Z)] = β Stwierdzenie 4 Jeśli Cov ( Υ ) = Σ = σ 2 I n , to Cov(b LS ) = σ 2 ( XT X) −1 Dowód: σ b = σ 2 Aii Cov (b LS ) = Cov (( XT X) −1 XT Y ) = ( XT X) −1 XT ΣX( XT X) −1 = i σ 2 ( XT X) −1 XT X( XT X) −1 = σ 2 ( XT X) −1 Wniosek: Odchylenie standardowe oszacowania i-tego współczynnika βi wynosi σ b = σ 2 Aii i gdzie A = ( XT X) −1 Niech w ∈ Rn i f (w) = w1β1 + w2β2 +…+wnβn = wT β . Problem: estymacja wartości funkcji f dla określonej wartości wektora w. Twierdzenie Gaussa-Markowa Estymator wTbLS jest estymatorem nieobciąŜonym wartości wTβ . Estymator ten ma minimalną wariancję wśród wszystkich estymatorów liniowych (tzn. postaci g(Y) = vT Y, gdzie v ∈ Rn ). Uwaga. Estymator ten często określamy akronimem BLUE, (Best Linear Unbiased Estimator) Twierdzenie Estymator wTbLS jest estymatorem zgodnym wartości wTβ Twierdzenie JeŜeli zakłócenia w modelu regresji mają wielowymiarowy rozkład normalny to estymator wTbLS jest najlepszym estymatorem nieobciąŜonym wartości wTβ (wśród wszystkich estymatorów). 9 Analiza reszt Stwierdzenie 5 Wartość oczekiwana reszt otrzymanych w MNK jest równa zero, tj: E(Y-XbLS) = 0 Stwierdzenie 6 Jeśli Cov ( Υ ) = Σ = σ 2 I n to E ( SKR (b LS )) = σ 2 (n − k ) Wykorzystujemy tu Fakty: 1. Jeśli istnieje macierz kowariancji Σ wektora Y, to dla dowolnej macierzy A dla której istnieje iloczyn YTAY zachodzi: E(YTAY)= EYTAEY + trAΣ Σ 2. Ślad macierzy idempotentnej jest równy jej rzędowi T T −1 T 3. SKR = Z (I n − X( X X) X )Z Analiza reszt Wniosek NieobciąŜonym estymatorem wariancji σ2 zakłóceń w rozpatrywanym przypadku jest statystyka S Z2 = SKR (b LS ) n−k Nazewnictwo: Wielkość SZ będącą oszacowaniem odchylenia standardowego zakłóceń często nazywamy standardowym błędem modelu. Liczba n-k (róŜnica liczby obserwacji i liczby estymowanych parametrów) to liczba stopni swobody modelu (ang. degrees of freedom). 10 Wnioski: Wybrane wskaźniki jakości modelu: 1. Współczynnik determinacji: R2 = 1− SKR CSK n CSK = ∑ (Yi − Y ) 2 gdzie i =1 Sensownie moŜna go stosować tylko dla modelu z wyrazem wolnym! 2. Standardowy błąd modelu: 3. Wskaźnik wyrazistości: SZ V= SZ __ Y 4. Standardowe błędy oszacowań współczynników regresji: Sbi = S Z Aii gdzie A=(XTX)-1 i=1,…,k 5. Skorygowany współczynnik determinacji: R2 = 1− n −1 (1 − R 2 ) n−k Wskaźnik ten moŜna wykorzystać przy selekcji modeli zbudowanych w oparciu o róŜne układy zmiennych objaśniających 11 Weryfikacja hipotez i estymacja przedziałowa przy załoŜeniu normalności zakłóceń W tym fragmencie wykładu zakładać będziemy, Ŝe wektor Z ma n wymiarowy rozkład normalny. Rozpatrzmy w takim przypadku problem estymacji wartości γ = wTβ Niech, jak zwykle, estymator g = wTb będzie estymatorem MNK tej wartości (opuszczamy "LS" dla krótkości zapisu). Oczywiście przy przyjętych załoŜeniach estymator g ma rozkład normalny a jego wartość oczekiwana jest równa E(g) = E(wTb)=γ (dlaczego?) g = w T ( XT X) −1 XT Y = w T ( XT X) −1 XT ( Xβ + Z) Natomiast wariancja wynosi: Var ( g ) = Var (w T ( XT X) −1 XT Y ) = = σ 2 w T ( XT X) −1 XT X( XT X) −1 w = σ 2 w T ( XT X) −1 w = σ 2c 2 Zatem przy naszych załoŜeniach statystyka U = g −γ cσ ma rozkład normalny N(0,1) Kilka interesujących faktów: Twierdzenie Fishera-Cochrana ZałóŜmy, Ŝe wektor Z ma rozkład normalny N(0, I). Warunkiem koniecznym i wystarczającym na to, aby forma kwadratowa ZTAZ miała rozkład χ2 jest, by macierz A była idempotentna. Liczba stopni swobody tego rozkładu jest równa rzędowi macierzy A. Twierdzenie (wersja twierdzenia Fishera) Niech wektor Z ma rozkład normalny N(0, σ2I). Jeśli BA=0, to forma liniowa BZ i forma kwadratowa ZTAZ są stochastycznie niezaleŜne. Fakt. Niech Z oznacza wektor zakłóceń w modelu liniowym. Wtedy SKR = Z T (I n − X( X T X) −1 X T )Z Fakt. Macierz B = (I n − X( X T X) −1 X T ) jest idempotentna. Jej ślad wynosi : trB = trI n + trX( X T X) −1 X T = n − tr ( X T X) −1 X T X = n − k Okazuje się więc, Ŝe jeśli Cov ( Υ ) = σ 2I n 1 to SKR ~ χ 2 (n − k ) σ2 12 Pamiętamy, Ŝe jeśli U ma rozkład normalny standaryzowany, a T ma rozkład χ2(n) oraz U i T są niezaleŜne, to t= U ~ St (n) T n Wykorzystując powyŜszy fakt i podane twierdzenia łatwo moŜna pokazać, Ŝe statystyka g −γ t= SKR cσ = wT b − wT β cS Z σ 2 (n − k ) ma rozkład Studenta o n-k stopniach swobody. W szczególnym przypadku przyjmując za w wektor zer z jedynką na i-tej współrzędnej otrzymamy: ti = bi − β i ~ St (n − k ) cSbi 2 T T −1 Pamiętamy: c = w ( X X) w Prognoza wartości oczekiwanej zmiennej Y, ZauwaŜmy, Ŝe E(Y )=E(wTβ+Z )=wTβ W oparciu o poprzednie rezultaty łatwo pokazać, Ŝe przedział [w T b − t p cS Z , w T b + t p cS Z ] jest przedziałem ufności dla E(Y) przy współczynniku ufności równym q Oczywiście tp jest kwantylem rzędu (1+q)/2 z rozkładu St(n-k). W szczególnym przypadku (jakim?) otrzymujemy przedział ufności dla i-tego współczynniki regresji βi: [bi − t p S bi , bi + t p S bi ] 13 Prognoza wartości zmiennej Y Nietrudno teŜ udowodnić, Ŝe - przy przyjetych załoŜeniach o Z - poniŜsza statystka ma równieŜ rozkład Studenta o (n-k) stopniach swobody t= w T b − (w T β + Z ) = SZ c2 +1 wT b − Y SZ c2 + 1 W konsekwencji otrzymamy przedział ufności dla wartości Y: [ w T b − t p S Z c 2 + 1, w T b + t p S Z c 2 + 1] UWAGA: Wielkość S Z c 2 + 1 bywa nazywana standardowym błędem predykcji ex ante. Wykorzystanie znalezionych rozkładów w testowaniu hipotez o modelu Najczęściej wyprowadzone rozkłady wykorzystujemy do testowania hipotezy o wartościach współczynników regresji. Hipotezę zerową i alternatywną formułujemy w następujący sposób: H 0 : βi = βi 0 H k : βi ≠ βi 0 Statystką testową jest oczywiście w tym przypadku statystyka ti = bi − β i Sbi 0 Zbiorem krytycznym na poziomie istotności α jest W=(-∞ , - tp) ∪ (tp,∞), gdzie tp jest kwantylem rzędu p= 1-α/2 Na ogół testuje się hipotezę zerową βi = 0, przy alternatywie βi ≠ 0 . Często nazywa się to testowaniem "istotności i-tej zmiennej objaśniającej" W praktyce moŜna uwaŜać, Ŝe sprawdzamy czy ma ona w modelu pozostać, czy teŜ, o ile pozostałe zostaną, moŜna ją usunąć. 14 Etapy modelowania regresyjnego Etap I – Propozycja hipotetycznej postaci modelu (wstępna decyzja o zmiennych objaśniających oraz o postaci funkcji f ) Etap II – Estymacja parametrów strukturalnych - wybór metody estymacji Etap III – Sprawdzanie poprawności (uŜyteczności) modelu Etap A. Dobór zmiennych objaśniających (testy istotności ) Etap B. Obliczanie i analiza wskaźników jakości modelu Etap C. Sprawdzanie załoŜeń przyjętych do wnioskowania Na kaŜdym z podetapów III moŜliwe podjęcie decyzji o nieuŜyteczności modelu i powrót do Etapu I. 15