Uogólniona miara dopasowania w modelu
Transkrypt
Uogólniona miara dopasowania w modelu
UOGÓLNIONA MIARA DOPASOWANIA W MODELU LINIOWYM Wojciech Zieliński Katedra Ekonometrii i Statystyki, SGGW Nowoursynowska 159, PL-02-767 Warszawa [email protected] Streszczenie: W modelu regresji liniowej stosowane są dwie miary wpływu zmiennych niezależnych na zmienna zależną: współczynnik determinacji oraz współczynnik korelacji cząstkowej. W pracy zaproponowane jest uogólnienie tych miar i skonstruowana jest miara wpływu grupy zmiennych niezależnych z wyłączeniem wpływu pozostałych zmiennych niezależnych. Słowa kluczowe: miara dopasowania, współczynnik determinacji, korelacja cząstkowa, analiza regresji Załóżmy, że obserwacje Yi pewnej zmiennej losowej możemy przedstawić w postaci Yi = β1 x1i + · · · + βp xpi + εi , i = 1, . . . , n, (∗) gdzie xki , k = 1, . . . , p, i = 1, . . . , n, są znane, β1 , . . . , βp są nieznanymi współczynnikami regresji, natomiast εi , i = 1, . . . , n są zmiennymi losowymi o rozkładach normalnych o zerowej wartości oczekiwanej i wariancji σ 2 . Jednym z pytań stawianych w analizie modeli (∗) jest pytanie o wpływ zmiennych niezależnych na cechę Y . W zastosowaniach wykorzystuje się w zasadzie dwie miary: mirę łącznego wpływu wszystkich zmiennych niezależnych oraz miarę wpływu pojedynczych zmiennych (z eliminacją wpływu pozostałych). Jest to powszechnie znany współczynnik determinacji oraz współczynnik korelacji cząstkowej. Ścisłe określenia tych pojęć można znaleźć w bardzo bogatej literaturze poświęconej analizie regresji (w spisie literatury podanych znaleźć kilka takich książek). Podane miary niestety nie udzielają odpowiedzi na pytania o wpływ grup wybranych zmiennych niezależnych na zmienną zależną, np. jak zmierzyć wpływ zmiennej x1 oraz x2 z wyłączeniem pozostałych zmiennych? W dalszym ciągu zaproponowana jest taka miara. Pokazano również, że współczynnik determinacji oraz współczynnik korelacji cząstkowej sa szczególnymi przypadkami tej ogólniejszej miary. W dalszych rozważaniach znacznie wygodniej jest się posługiwać zapisami macierzowymi. Model liniowy (∗) w zapisie macierzowym ma postać Y = Xβ + ε, gdzie Y0 = [Y1 , . . . , Yn ] jest wektorem obserwacji, β0 = [β1 , . . . βp ] jest wektorem nieznanych 1 parametrów, ε0 = [ε1 , . . . , εn ] jest wektorem błędów losowych oraz x ... ... 11 x12 X= .. . x1n ... ... xp1 xp2 .. . xpn jest macierzą eksperymentu. Zgodnie z poczynionymi założeniami wektor losowy Y ma n-wymiarowy rozkład normalny: Y ∼ Nn (Xβ, σ 2 In ). . Niech teraz X = [X1 ..X2 ], gdzie macierze X1 oraz X2 są macierzami o wymiarach odpowiednio n×(p−q) i n×q. Niech wektor parametrów β będzie podzielony odpowiednio na dwa podwektory β1 i β2 zgodnie z podziałem macierzy X. Interesuje nas zmierzenie b oznacza estywpływu na zmienną zależną zmiennych zawartych w macierzy X2 . Niech β mator wektora β w modelu z macierzą X b = (X0 X)−1 X0 Y, β b będzie estymatorem najmniejszych kwadratów wektora β w modelu z natomiast niech β 1 ograniczeniami β2 = 0 (Zieliński 2007): b =β b − (X0 X)−1 A0 [A(X0 X)−1 A0 ]−1 Aβ. b β 1 Tutaj A = [0q×(p−q) |Iq ] jest macierzą ograniczeń, tzn. β2 = 0 jest równoważne temu, że Aβ = 0 (0 oznacza, w zależności od kontekstu, wektor lub macierz zerową, Iq oznacza macierz jednostkową wymiaru q). Wektor obserwacji Y możemy zapisać jako b = (Xβ b − Xβ b ) + (Y − Xβ b + Xβ b ). Y − Xβ 1 1 1 b − Xβ b i Y − Xβ b + Xβ b są ortogonalne. A zatem Zauważmy, że wektory Xβ 1 1 b k2 = kXβ b − Xβ b k2 + kY − Xβ b + Xβ b k2 , kY − Xβ 1 1 1 gdzie k · k2 oznacza kwadrat długości wektora (w normie euklidesowej). Jako miarę wpływu zmiennych zawartych w macierzy X2 przyjmujemy R2 (X2 ) = b − Xβ b k2 kXβ 1 . b k2 kY − Xβ 1 Twierdzenie. Zmienna losowa n−q R2 (X2 ) · 2 1 − R (X2 ) q 2 ma niecentralny rozkład F z (q, n − q) stopniami swobody i parametrem niecentralności β0 A0 [A(X0 X)−1 A0 ]−1 Aβ, gdzie A = [0q×(p−q) |Iq ]. Dowód. W dowodzie korzystamy z dobrze znanych faktów dotyczących rozkładów prawdopodobieństwa form liniowych i kwadratowych wektorów losowych o wielowymiarowym rozkładzie normalnym. Łatwo sprawdzić, że b − Xβ b k2 b 0 A0 [A(X0 X)−1 A0 ]−1 Aβ b R2 (X2 ) kXβ β 1 = = . b − Xβ b )k2 1 − R2 (X2 ) Y0 (In − A0 [A(X0 X)−1 A0 ]−1 A)Y kY − (Xβ 1 Macierz In −A0 [A(X0 X)−1 A0 ]−1 A jest idempotentna, więc w mianowniku mamy zmienną losową o centralnym rozkładzie chi-kwadrat z (n − q) stopniami swobody. Ponieważ wektor b ma rozkład Np (β, σ 2 (X0 X)−1 ), więc w liczniku mamy zmienną losową o nielosowy β centralnym rozkładzie chi-kwadrat z q stopniami swobody i parametrem niecentralności β0 A0 [A(X0 X)−1 A0 ]−1 Aβ. Licznik i mianownik są niezależnymi zmiennymi losowymi i stąd wynika teza twierdzenia. Pokażemy teraz, że współczynnik determinacji oraz współczynnik korelacji cząstkowej sa szczególnym przypadkami miary R2 (X2 ). Współczynnik determinacji jest miarą wpływu wszystkich zmiennych niezależnych x1 , . . . , xm na zmienną Y w modelu Yi = β0 + β1 x1i + · · · + βm xmi + εi , i = 1, . . . , n. W zapisie macierzowym 1 1 X= ... x11 x12 .. . 1 x1n ... ... ... ... xm1 xm2 , .. . β0 β1 β= .. . . xmn βm Macierz X i wektor parametrów można podzielić na x11 x12 X1 = 1n , X2 = ... x1n ... ... ... ... xm1 xm2 , β1 = [β0 ], β2 = .. . xmn β1 .. . . βm W tym modelu mamy p = m + 1, q = m oraz n XX= 0 X2 1n 0 10n X2 , X02 X2 3 0 (X X) −1 M = k k0 L gdzie L−1 = X02 X2 − n1 X02 1n 10n X2 , k0 = − n1 10n X2 L oraz M = n1 + k0 Lk (ogólny wzór na odwrotność blokowej macierzy 2 × 2 można znaleźć w np. Rao 1982, Zieliński 2007). Estymator najmniejszych kwadratów wektora β w pełnym modelu ma postać k0 L b= M β k 10n M 10n + k0 X02 Y= Y, X02 k10n + LX02 tzn. βb0 = (M 10n + k0 X02 )Y oraz b = (k10 + LX0 )Y. β 2 n 2 Estymator wektora β1 w modelu z ograniczeniami określonymi macierzą A = [0m |Im ] wyraża się wzorem ! 0 −1 0 M k 0m b = Im+1 − M k b β [0m |Im ] [0m |Im ] β 1 k L Im k L Im 1 0 b 1 −k0 L−1 b Ȳ 1n Y βb0 − k0 L−1 β 2 n β= = = = , 0m 0m×m 0m 0m 0m gdzie Ȳ = 1 n Pn i=1 0 00m b = Ȳ 1n , więc (Yb = Xβ) b Yi . Ponieważ Xβ 1 b − Xβ b k2 = (Y b − Ȳ 1n )0 (Y b − Ȳ 1n ) = kXβ 1 n X (Ybi − Ȳ )2 i=1 oraz b k2 = (Y − Ȳ 1n )0 (Y − Ȳ 1n ) = kY − Xβ 1 n X (Yi − Ȳ )2 i=1 Współczynnik determinacji, wyrażany zwyczajowo w procentach, określony jest więc w następujący sposób P b (Yi − Ȳ )2 2 D = R (X2 ) · 100% = P · 100%. (Yi − Ȳ )2 Z twierdzenia otrzymujemy Wniosek. Zmienna losowa D n−m · 100 − D m ma niecentralny rozkład F z (m, n − m) stopniami swobody i parametrem niecentralności β02 X02 (In − n1 1n 10n )X2 β2 . 4 Współczynnik korelacji cząstkowej jest miarą wpływu jednej ze zmiennych niezależnych na zmienną Y w modelu Yi = β0 + β1 x1i + · · · + βm xmi + εi , i = 1, . . . , n. Wyprowadzimy odpowiedni wzór dla zmiennej x1 . Dla uproszczenia zapisu model zapisujemy w postaci Yi = β0 + β2 x2i + · · · + βm xmi + β1 x1i + εi , i = 1, . . . , n. W zapisie macierzowym 1 1 X= ... x21 x22 .. . 1 x2n ... ... ... ... xm1 xm2 .. . x11 x12 , .. . xmn x1n β= β0 β2 .. . βm β1 . Macierz X i wektor parametrów można podzielić na β0 1 x21 . . . xm1 x11 1 x22 . . . xm2 x β2 , x2 = .12 , β1 = . , β2 = [β1 ]. X1 = . . . .. .. . .. .. ... . 1 x2n . . . xmn x1n βm W tym modelu X01 X1 XX= x02 X1 0 X01 x2 , x02 x2 gdzie 0 −1 (X X) M k = k0 L 1 , x02 x2 − x02 X1 (X01 X1 )−1 X01 x2 k0 = −L(X01 X1 )−1 x02 X1 , M = (X01 X1 )−1 − Lkk0 . opisane są za pomocą wektora [00m |1]. Po wykonaniu odpowiednich L= Ograniczenia otrzymujemy, że miarą wpływu zmiennej x1 na Y jest obliczeń (x02 (In − X1 (X01 X1 )−1 X01 )Y)2 . (Y0 (In−X1 (X01 X1 )−1 X01 )Y)(x02 (In−X1 (X01 X1 )−1 X01 )x2 ) p Współczynnik korelacji cząstkowej między Y a x1 określony jest jako R2 (x2 ) i oznaczany RY (x1 )(x2 ,...,xm ) . Znak tego współczynnika jest oczywiście zgodny ze znakiem x02 (In − X1 (X01 X1 )−1 X01 )Y. Z twierdzenia 1.8 otrzymujemy następujący R2 (x2 ) = Wniosek. Zmienna losowa RY2 (x1 )(x2 ,...,xm ) 1 − RY2 (x1 )(x2 ,...,xm ) · (n − m − 1) ma niecentralny rozkład F z (1, n−m−1) stopniami swobody i parametrem niecentralności β22 x02 (In − X1 (X01 X1 )−1 X01 )x2 . 5 Dodatkowa zmienna. Niech Y = Xβ + ε. Przypuśćmy, że do modelu włączamy jeszcze jedną zmienną niezależną, tzn. Y = Xβ+zγ+η = Wδ+η, gdzie W = [X|z], δ = [β|γ]0 oraz η jest wektorem błędów losowych. Tutaj z jest wektorem n-wymiarowym reprezentującym włączaną zmienną, natomiast γ jest nieznanym współczynnikiem regresji. Wyznaczymy współczynnik R2 (W) i porównamy go z R2 (X). Estymatorem najmniejszych kwadratów wektora δ jest oczywiście δ̃ = (W0 W)−1 W0 Y. Mamy 0 X X X0 z 0 WW= z0 X z 0 z oraz 0 −1 (W W) 1 b(X0 X)−1 + aa0 = −a0 b −a . 1 gdzie a = (X0 X)−1 X0 z oraz b = z0 (In − X(X0 X)−1 X0 )z. Zatem " δ̃ = Ponieważ b− β z0 (In −X(X0 X)−1 X0 )Y 0 −1 0 Xz z0 (In −X(X0 X)−1 X0 )z (X X) 0 0 −1 0 z (In −X(X X) X )Y z0 (In −X(X0 X)−1 X0 )z # . 0 0 −1 0 b + z (In − X(X X) X )Y (In − X(X0 X)−1 X0 )z, Wδ̃ = Xβ z0 (In − X(X0 X)−1 X0 )z więc b 2+ kWδ̃k2 = kXβk (z0 (In − X(X0 X)−1 X0 )Y)2 . z0 (In − X(X0 X)−1 X0 )z Zatem R2 (W) ≥ R2 (X), tzn. model z dodatkową zmienną nie gorzej odtwarza zmienną zależną niż model bez niej. Literatura BORKOWSKI B., DUDEK H., SZCZESNY W. 2003: Ekonometria, wybrane zagadnienia, PWN, Warszawa. DRAPER N. R., SMITH H. 1973: Analiza regresji stosowana, PWN, Warszawa. RAO C. R. 1982: Modele liniowe statystyki matematycznej, PWN, Warszawa. SEBER G. A. F. 1977: Linear Regression Analysis, Wiley, New York. ZIELIŃSKI W. 2007: Teoretyczne podstawy ekonometrycznych jednorównaniowych modeli liniowych, Wydawnictwo SGGW, Warszawa. 6