Uogólniona miara dopasowania w modelu

Transkrypt

Uogólniona miara dopasowania w modelu
UOGÓLNIONA MIARA DOPASOWANIA
W MODELU LINIOWYM
Wojciech Zieliński
Katedra Ekonometrii i Statystyki, SGGW
Nowoursynowska 159, PL-02-767 Warszawa
[email protected]
Streszczenie: W modelu regresji liniowej stosowane są dwie miary wpływu zmiennych niezależnych na zmienna zależną: współczynnik determinacji oraz współczynnik korelacji cząstkowej. W pracy zaproponowane jest uogólnienie tych miar i skonstruowana jest miara wpływu
grupy zmiennych niezależnych z wyłączeniem wpływu pozostałych zmiennych niezależnych.
Słowa kluczowe: miara dopasowania, współczynnik determinacji, korelacja cząstkowa, analiza regresji
Załóżmy, że obserwacje Yi pewnej zmiennej losowej możemy przedstawić w postaci
Yi = β1 x1i + · · · + βp xpi + εi , i = 1, . . . , n,
(∗)
gdzie xki , k = 1, . . . , p, i = 1, . . . , n, są znane, β1 , . . . , βp są nieznanymi współczynnikami
regresji, natomiast εi , i = 1, . . . , n są zmiennymi losowymi o rozkładach normalnych o
zerowej wartości oczekiwanej i wariancji σ 2 .
Jednym z pytań stawianych w analizie modeli (∗) jest pytanie o wpływ zmiennych
niezależnych na cechę Y . W zastosowaniach wykorzystuje się w zasadzie dwie miary: mirę
łącznego wpływu wszystkich zmiennych niezależnych oraz miarę wpływu pojedynczych
zmiennych (z eliminacją wpływu pozostałych). Jest to powszechnie znany współczynnik
determinacji oraz współczynnik korelacji cząstkowej. Ścisłe określenia tych pojęć można
znaleźć w bardzo bogatej literaturze poświęconej analizie regresji (w spisie literatury podanych znaleźć kilka takich książek). Podane miary niestety nie udzielają odpowiedzi na
pytania o wpływ grup wybranych zmiennych niezależnych na zmienną zależną, np. jak
zmierzyć wpływ zmiennej x1 oraz x2 z wyłączeniem pozostałych zmiennych? W dalszym
ciągu zaproponowana jest taka miara. Pokazano również, że współczynnik determinacji
oraz współczynnik korelacji cząstkowej sa szczególnymi przypadkami tej ogólniejszej miary.
W dalszych rozważaniach znacznie wygodniej jest się posługiwać zapisami macierzowymi. Model liniowy (∗) w zapisie macierzowym ma postać
Y = Xβ + ε,
gdzie Y0 = [Y1 , . . . , Yn ] jest wektorem obserwacji, β0 = [β1 , . . . βp ] jest wektorem nieznanych
1
parametrów, ε0 = [ε1 , . . . , εn ] jest wektorem błędów losowych oraz
x
...
...
11
 x12
X=
 ..
.
x1n
...
...
xp1 
xp2 
.. 

.
xpn
jest macierzą eksperymentu. Zgodnie z poczynionymi założeniami wektor losowy Y ma
n-wymiarowy rozkład normalny:
Y ∼ Nn (Xβ, σ 2 In ).
.
Niech teraz X = [X1 ..X2 ], gdzie macierze X1 oraz X2 są macierzami o wymiarach
odpowiednio n×(p−q) i n×q. Niech wektor parametrów β będzie podzielony odpowiednio
na dwa podwektory β1 i β2 zgodnie z podziałem macierzy X. Interesuje nas zmierzenie
b oznacza estywpływu na zmienną zależną zmiennych zawartych w macierzy X2 . Niech β
mator wektora β w modelu z macierzą X
b = (X0 X)−1 X0 Y,
β
b będzie estymatorem najmniejszych kwadratów wektora β w modelu z
natomiast niech β
1
ograniczeniami β2 = 0 (Zieliński 2007):
b =β
b − (X0 X)−1 A0 [A(X0 X)−1 A0 ]−1 Aβ.
b
β
1
Tutaj A = [0q×(p−q) |Iq ] jest macierzą ograniczeń, tzn. β2 = 0 jest równoważne temu, że
Aβ = 0 (0 oznacza, w zależności od kontekstu, wektor lub macierz zerową, Iq oznacza
macierz jednostkową wymiaru q).
Wektor obserwacji Y możemy zapisać jako
b = (Xβ
b − Xβ
b ) + (Y − Xβ
b + Xβ
b ).
Y − Xβ
1
1
1
b − Xβ
b i Y − Xβ
b + Xβ
b są ortogonalne. A zatem
Zauważmy, że wektory Xβ
1
1
b k2 = kXβ
b − Xβ
b k2 + kY − Xβ
b + Xβ
b k2 ,
kY − Xβ
1
1
1
gdzie k · k2 oznacza kwadrat długości wektora (w normie euklidesowej).
Jako miarę wpływu zmiennych zawartych w macierzy X2 przyjmujemy
R2 (X2 ) =
b − Xβ
b k2
kXβ
1
.
b k2
kY − Xβ
1
Twierdzenie. Zmienna losowa
n−q
R2 (X2 )
·
2
1 − R (X2 )
q
2
ma niecentralny rozkład F z (q, n − q) stopniami swobody i parametrem niecentralności
β0 A0 [A(X0 X)−1 A0 ]−1 Aβ, gdzie A = [0q×(p−q) |Iq ].
Dowód. W dowodzie korzystamy z dobrze znanych faktów dotyczących rozkładów prawdopodobieństwa form liniowych i kwadratowych wektorów losowych o wielowymiarowym
rozkładzie normalnym.
Łatwo sprawdzić, że
b − Xβ
b k2
b 0 A0 [A(X0 X)−1 A0 ]−1 Aβ
b
R2 (X2 )
kXβ
β
1
=
=
.
b − Xβ
b )k2
1 − R2 (X2 )
Y0 (In − A0 [A(X0 X)−1 A0 ]−1 A)Y
kY − (Xβ
1
Macierz In −A0 [A(X0 X)−1 A0 ]−1 A jest idempotentna, więc w mianowniku mamy zmienną
losową o centralnym rozkładzie chi-kwadrat z (n − q) stopniami swobody. Ponieważ wektor
b ma rozkład Np (β, σ 2 (X0 X)−1 ), więc w liczniku mamy zmienną losową o nielosowy β
centralnym rozkładzie chi-kwadrat z q stopniami swobody i parametrem niecentralności
β0 A0 [A(X0 X)−1 A0 ]−1 Aβ. Licznik i mianownik są niezależnymi zmiennymi losowymi i stąd
wynika teza twierdzenia.
Pokażemy teraz, że współczynnik determinacji oraz współczynnik korelacji cząstkowej
sa szczególnym przypadkami miary R2 (X2 ).
Współczynnik determinacji jest miarą wpływu wszystkich zmiennych niezależnych
x1 , . . . , xm na zmienną Y w modelu
Yi = β0 + β1 x1i + · · · + βm xmi + εi , i = 1, . . . , n.
W zapisie macierzowym

1
1
X=
 ...
x11
x12
..
.
1 x1n
...
...
...
...

xm1
xm2 
,
.. 
. 


β0
 β1 

β=
 ..  .
.
xmn
βm
Macierz X i wektor parametrów można podzielić na

x11
 x12
X1 = 1n , X2 = 
 ...
x1n
...
...
...
...


xm1
xm2 

, β1 = [β0 ], β2 = 
.. 

.
xmn

β1
.. 
. .
βm
W tym modelu mamy p = m + 1, q = m oraz
n
XX=
0
X2 1n
0
10n X2
,
X02 X2
3
0
(X X)
−1
M
=
k
k0
L
gdzie L−1 = X02 X2 − n1 X02 1n 10n X2 , k0 = − n1 10n X2 L oraz M = n1 + k0 Lk (ogólny wzór
na odwrotność blokowej macierzy 2 × 2 można znaleźć w np. Rao 1982, Zieliński 2007).
Estymator najmniejszych kwadratów wektora β w pełnym modelu ma postać
k0
L
b= M
β
k
10n
M 10n + k0 X02
Y=
Y,
X02
k10n + LX02
tzn.
βb0 = (M 10n + k0 X02 )Y
oraz
b = (k10 + LX0 )Y.
β
2
n
2
Estymator wektora β1 w modelu z ograniczeniami określonymi macierzą A = [0m |Im ]
wyraża się wzorem
!
0 −1
0
M k
0m
b = Im+1 − M k
b
β
[0m |Im ]
[0m |Im ] β
1
k L
Im
k L
Im
1 0 b
1 −k0 L−1 b
Ȳ
1n Y
βb0 − k0 L−1 β
2
n
β=
=
=
=
,
0m 0m×m
0m
0m
0m
gdzie Ȳ =
1
n
Pn
i=1
0
00m
b = Ȳ 1n , więc (Yb = Xβ)
b
Yi . Ponieważ Xβ
1
b − Xβ
b k2 = (Y
b − Ȳ 1n )0 (Y
b − Ȳ 1n ) =
kXβ
1
n
X
(Ybi − Ȳ )2
i=1
oraz
b k2 = (Y − Ȳ 1n )0 (Y − Ȳ 1n ) =
kY − Xβ
1
n
X
(Yi − Ȳ )2
i=1
Współczynnik determinacji, wyrażany zwyczajowo w procentach, określony jest więc w następujący sposób
P b
(Yi − Ȳ )2
2
D = R (X2 ) · 100% = P
· 100%.
(Yi − Ȳ )2
Z twierdzenia otrzymujemy
Wniosek. Zmienna losowa
D
n−m
·
100 − D
m
ma niecentralny rozkład F z (m, n − m) stopniami swobody i parametrem niecentralności
β02 X02 (In − n1 1n 10n )X2 β2 .
4
Współczynnik korelacji cząstkowej jest miarą wpływu jednej ze zmiennych niezależnych na zmienną Y w modelu
Yi = β0 + β1 x1i + · · · + βm xmi + εi , i = 1, . . . , n.
Wyprowadzimy odpowiedni wzór dla zmiennej x1 . Dla uproszczenia zapisu model zapisujemy w postaci
Yi = β0 + β2 x2i + · · · + βm xmi + β1 x1i + εi , i = 1, . . . , n.
W zapisie macierzowym

1
1
X=
 ...
x21
x22
..
.
1
x2n
...
...
...
...


xm1
xm2
..
.
x11
x12 
,
.. 
. 
xmn
x1n


β=


β0
β2
..
.
βm
β1



.


Macierz X i wektor parametrów można podzielić na






β0
1 x21 . . . xm1
x11
 1 x22 . . . xm2 
x 
 β2 
 , x2 =  .12  , β1 =  .  , β2 = [β1 ].
X1 = 
.
.
.
 ..
 .. 
 . 
..
.. 
...
.
1 x2n . . . xmn
x1n
βm
W tym modelu
X01 X1
XX=
x02 X1
0
X01 x2
,
x02 x2
gdzie
0
−1
(X X)
M k
=
k0 L
1
,
x02 x2 − x02 X1 (X01 X1 )−1 X01 x2
k0 = −L(X01 X1 )−1 x02 X1 , M = (X01 X1 )−1 − Lkk0 .
opisane są za pomocą wektora [00m |1]. Po wykonaniu odpowiednich
L=
Ograniczenia
otrzymujemy, że miarą wpływu zmiennej x1 na Y jest
obliczeń
(x02 (In − X1 (X01 X1 )−1 X01 )Y)2
.
(Y0 (In−X1 (X01 X1 )−1 X01 )Y)(x02 (In−X1 (X01 X1 )−1 X01 )x2 )
p
Współczynnik korelacji cząstkowej między Y a x1 określony jest jako R2 (x2 ) i oznaczany RY (x1 )(x2 ,...,xm ) . Znak tego współczynnika jest oczywiście zgodny ze znakiem x02 (In −
X1 (X01 X1 )−1 X01 )Y. Z twierdzenia 1.8 otrzymujemy następujący
R2 (x2 ) =
Wniosek. Zmienna losowa
RY2 (x1 )(x2 ,...,xm )
1 − RY2 (x1 )(x2 ,...,xm )
· (n − m − 1)
ma niecentralny rozkład F z (1, n−m−1) stopniami swobody i parametrem niecentralności
β22 x02 (In − X1 (X01 X1 )−1 X01 )x2 .
5
Dodatkowa zmienna. Niech Y = Xβ + ε. Przypuśćmy, że do modelu włączamy jeszcze
jedną zmienną niezależną, tzn. Y = Xβ+zγ+η = Wδ+η, gdzie W = [X|z], δ = [β|γ]0 oraz
η jest wektorem błędów losowych. Tutaj z jest wektorem n-wymiarowym reprezentującym
włączaną zmienną, natomiast γ jest nieznanym współczynnikiem regresji. Wyznaczymy
współczynnik R2 (W) i porównamy go z R2 (X).
Estymatorem najmniejszych kwadratów wektora δ jest oczywiście δ̃ = (W0 W)−1 W0 Y.
Mamy
0
X X X0 z
0
WW=
z0 X z 0 z
oraz
0
−1
(W W)
1 b(X0 X)−1 + aa0
=
−a0
b
−a
.
1
gdzie a = (X0 X)−1 X0 z oraz b = z0 (In − X(X0 X)−1 X0 )z. Zatem
"
δ̃ =
Ponieważ
b−
β
z0 (In −X(X0 X)−1 X0 )Y
0
−1 0
Xz
z0 (In −X(X0 X)−1 X0 )z (X X)
0
0
−1
0
z (In −X(X X) X )Y
z0 (In −X(X0 X)−1 X0 )z
#
.
0
0
−1 0
b + z (In − X(X X) X )Y (In − X(X0 X)−1 X0 )z,
Wδ̃ = Xβ
z0 (In − X(X0 X)−1 X0 )z
więc
b 2+
kWδ̃k2 = kXβk
(z0 (In − X(X0 X)−1 X0 )Y)2
.
z0 (In − X(X0 X)−1 X0 )z
Zatem R2 (W) ≥ R2 (X), tzn. model z dodatkową zmienną nie gorzej odtwarza zmienną
zależną niż model bez niej.
Literatura
BORKOWSKI B., DUDEK H., SZCZESNY W. 2003: Ekonometria, wybrane zagadnienia,
PWN, Warszawa.
DRAPER N. R., SMITH H. 1973: Analiza regresji stosowana, PWN, Warszawa.
RAO C. R. 1982: Modele liniowe statystyki matematycznej, PWN, Warszawa.
SEBER G. A. F. 1977: Linear Regression Analysis, Wiley, New York.
ZIELIŃSKI W. 2007: Teoretyczne podstawy ekonometrycznych jednorównaniowych modeli
liniowych, Wydawnictwo SGGW, Warszawa.
6