Regresja liniowa z zakłóconymi zmiennymi objaśniającymi

Transkrypt

Regresja liniowa z zakłóconymi zmiennymi objaśniającymi
Regresja liniowa z zak÷
óconymi
zmiennymi objaśniajacymi
¾
Krystyna Maciag
¾ i Czes÷
aw Stepniak
¾
UMCS i Uniwersytet Rzeszowski
XXXV Konferencja
Statystyka Matematyczna Wis÷
a 2009
7-11.12.2009
1
Motywacja
Dane (x1; y1); :::; (xn; yn)
I grupa
Wyznaczyć regresje¾ (II rodzaju) zmiennej y wzgle¾
dem x
II grupa
Wyznaczyć regresje¾ (II rodzaju) zmiennej x wzgle¾
dem y
Student z grupy II:
y = x+
Po przekszta÷
ceniu:
x = 1y
potraktowa÷jako regresje¾ zmiennej x wzgledem
¾
y:
Pytanie: Kiedy takie postepowanie
¾
jest uzasadnione?
Odpowiedź: Wtedy i tylko wtedy gdy punkty
(x1; y1); :::; (xn; yn) lez·a¾ na prostej.
Prosta regresji y wzgledem x metoda NK
Prosta regresji x wzgledem y metoda NK
Prosta regresji metoda TNK
2
T÷
o
y - zmienna objaśniana (response variable)
x1; :::; xk - zmienne objaśniajace,
¾ regresyjne (explanatory
variables)
y = f (x1; :::; xk )
f =?
Wiedzac,
¾ z·e f 2 C
Wyznaczyć f w sposób eksperymentalny.
W modelu eksperymentalnym uwzglednić
¾
b÷
edy
¾ pomiaru wartości zmiennych.
2.1
Model I
f 2 L (klasa funkcji liniowych)
n zestawów wartości zmiennych x1; :::; xk :
(1)
(1)
x(1) = (x1 ; :::; xk )
.............................
(n)
(bez b÷
edów
¾
pomiarowych)
(n)
x(n) = (x1 ; :::; xk )
y = (y1; :::; yn)T
2
X
x(1)
6
6 .
6
=6
6 .
6 ..
4
x(n)
3
7
7
7
7;
7
7
5
2
y
y
6 1
6 .
6
=6
6 .
6 ..
4
yn
3
7
7
7
7
7
7
5
Uk÷
ad równań liniowych
X
=y
y 2 R(X) i r(X) = k
+
uk÷
ad (1) zgodny i oznaczony
Równanie (1) prowadzi do rozwiazania
¾
Pk
f (x1; :::; xk ) = i=1
ixi
(xi- i-ta kolumna macierzy X)
(1)
2.2
Model II
f 2L
wartości x1; :::; xk mierzone bez bledu
¾
wartości y obarczone b÷
edem
¾
(niesystematycznym, jednorodnym)
Zwykle n > k
Na ogó÷uk÷
ad X
= y nie jest zgodny
Zamiast tego rozwiazujemy
¾
X
e taki aby
gdzie y
e
=y
(2)
1 uk÷
ad (2) zgodny
e
2 jjy
yjj2 minimalna
Zasada najmniejszych kwadratów
[ordinary least squares (OLS)]
Problem sprowadza sie¾ do uk÷
adu
X
= PX y
(3)
PX : Rn 7! Rn
"
Operator rzutu ortogonalnego na R(X)
Jeśli uk÷
ad (3) oznaczony to jego rozwiazanie
¾
jest JNLN estymatorem wektora
:
2.3
Model III
x1; :::; xk - mierzone z b÷
edem
¾
(niesystem. jednor.)
y - mierzona z b÷
edem
¾
(niesystem. jednor.)
np. x - temp. C
y - poziom opadów atm. ml 2
·
Zeby
wyznaczyć zalez·ność y od x1; :::; xk
rozwiazujemy
¾
uk÷
ad
f
X
e
=y
fiy
e dobieramy tak aby
gdzie X
(4)
1 Uk÷
ad (4) zgodny
2
f
X
e
X;y
jjAjjF :=
y
F
minimalna
q
tr(AT A)
- norma Frobeniusa
Zasada totalnie najmniejszych kwadratów
[total least squares (TLS)]
Pytanie: Po co deformować macierz X skoro wystarczy
zdeformować wektor y z·eby otrzymać uk÷
ad zgodny?
min
e ye:ye2R(X)
e
X;
f
X
e
X;y
y
f = X).
(wystarczy po÷
oz·yć X
F
min
ye:ye2R(X)
e
jjy
Uwaga: Problem TLS moz·e nie mieć rozwiazania
¾
yjj2
Przyk÷
ad
X=
f =
X
"
f
X
"
"
#
e
X;y
#
y
e ye:ye2R(X)
e
X;
" #
1 0
0
, y=
0 0
1
1 0
:
0 "
min
Ale
"
F
f
X
"
=
1 0
0 "
"
#
=
" #
# " #
0 0
0
;
0 "
0
e
X;y
0
1
y
F
="
F
=0
jjA; bjjF = 0 () A = 0 i b = 0
f=X i y
e = y: Jednak
czyli X
X
= y sprzeczny.
Dotad:
¾
Numeryczna algebra liniowa:
Sabine Van Hu¤el
Jaki model statystyczny dla problemu III?
X
= y : X i y nieobserwowalne
(5)
obserwowalne:
f = X+E:
X
e = y+e:
y
E (E) = 0; Cox(D ) = Ink
E (e ) = 0 ;
Cov (e) = In
Interesuje nas estymacja wektora parametrycznego
modelu (5).
w
3
Narzedzia
¾
algebraiczne
Rozk÷
ad spektralny macierzy C 2 Rm n [spectral
decomposition]
UT CV =
1
:::
=diag ( 1; :::; p)
p
0;
p = min(m; n)
U = [u1; :::; um]
ortogonalna
V = [v1; :::; vn]
ortogonalna
i
- i-ta wartość spektralna, i = 1; :::; p
vi - prawostronny wektor w÷
asny: Cvi =
ui - lewostronny wektor w÷
asny:
( i; ui; vi) - trójka spektralna,
CT ui =
iui
ivi
zawiera ca÷
a¾ informacje¾ o C (w dogodnej formie)
Dekompozycja dwójkowa [dyadic decomposition]
Wprowadzamy r :
1
:::
C = Ur
r >
r+1
T
r Vr =
= ::: = p = 0
Pr
T
u
v
i
i
i=1
i
gdzie
Ur = [u1; :::; ur ]
r = diag ( 1 ; :::;
Vr = [v1; :::; vr ]
jjCjj2F =
m X
n
X
c2ij = 21 + ::: + 2r
i=1 j=1
jjCyjj
jjCjj2 = sup jjyjj 2 = 1:
2
y6=0
r)
Przeformu÷
owanie problemu (4) TLS:
X
X
ty
yt0
[X; y][ T ;
1]T t 0
Pr
Twierdzenie (Eckart-Young-Mirsky). Niech C = i=1 iuiviT
bedzie
¾
dekompozycja¾ dwójkowa¾ macierzy C a Ck :=
Pk
T dla k < r: Wówczas
u
v
i
i
i=1
i
min
fD:r(D)=kg
min
fD:r(D)=kg
jjC
jjC
Djj2 = jjC
DjjF = jjC
Eckart&Young (1936) dla jj jjF
Mirsky (1960) dla normy jj jj2 :
Ck jj2 =
Ck jjF =
r
k+1 ,
Xr
i=1
2.
i
4
Model regresji stochastycznej
i
- zmienne losowe zwiazane
¾
zalez·nościa¾
=
Za÷
oz·enie:
i
+
dla pewnego
; :
(6)
podlegaja¾ zak÷
óceniom. Obserwujemy
X=
+U
Y =
+ V , gdzie U i V pe÷
nia¾ role¾ b÷
edów
¾
losowych.
(X1; Y1); :::; (Xn; Yn) - próba dwuwymiarowa prosta
Xi =
+ Ui
Yi =
+
(7)
+ Vi
(Ui; Vi) - niezalez·ne wektory losowe z w. ocz. zero
U;V =
"
2
u
uv
uv
2
v
#
2
u
2
v
Parametry bed
¾ a¾ identy…kowalne jeśli uv = 0 a
np. = 1:
znane,
Warunki (6)-(7) prowadza¾ do modelu
"
Xi
Yi
#
0"
N@
# 2 2
+
4
;
+
2
u
2
2
2 2
+
2
u
31
5A
(8)
i = 1; :::; n:
Uwaga: Wnioskowanie w modelu (8), nie jest ÷
atwe.
Interesuje nas
(inne parametry zak÷
ócajace)
¾
Elementarne podejście 7 !Fuller (1987). Metoda NW.
Ortogonalna transformacja parametrów w celu eliminacji
parametrów zak÷
ócajacych:
¾
Barnett (1967), Wong (1989).
Rozwiazanie:
¾
sXY 6= 0:
b =
s2Y
s2X +
q
(s2X s2Y )2 +4sXY
;
2sXY
o ile
5
Regresja liniowa ze zmiennymi deterministycznymi przy zak÷
óceniach gaussowskich
x i y - deterministyczne, zwiazane
¾
relacja¾
y=
+ x, dla pewnych
;
2 R:
(9)
Obserwujemy
X = x + U;
Y
(10)
= y + V:
(U; V ) - jak wyz·ej (niezalez·ne, o standaryzowanych rozk÷
adach
normalnych)
(X1; Y1); :::; (Xn; Yn) - próba prosta z rozk÷
adu (10),
zalez·nego od nieobserwowalnych (xi; yi), i = 1; :::; n
Zadanie: Estymacja (xi; yi); i = 1; :::; n:
Rozwiazanie:
¾
b
b
=
s2Y
= Y
s2X +
q
(s2X
s2Y )2 + 4sXY
2sXY
b X;
2
Xi + b X + b (Yi
bi =
x
2
1+ b
b i, i = 1; :::; n:
ybi = b x
0
X+
b
@
yb = Y +
b2
Y)
, i = 1; :::; n:
X + b (Y
1+
, o ile sXY 6= 0:
b2
Y)
1
XA :
Uwaga: Rozwiazania
¾
otrzymane dla regresji stochastycznej i deterministycznej pokrywaja¾ sie¾ prosta¾ y = + x
dobrana¾ do punktów obserwacji metoda¾ totalnie najmniejszych kwadratów (TLS).
Literatura:
Adcock, R.J. (1987). Note on the method of least squares,
Analyst 4, 183-184.
Adcock, R.J. (1878). A problem of least squares, Analyst
5, 53-54.
Anderson, T.W. (1951). Estimating linear restrictions on
regression coe¢ cient for multivariate normal distribution,
nn. Math. Statist. 22, 327-351.
Barnett, V.D. (1967). A note on linear structural relationships when both residual variances are known, Biometrika 54, 670-672.
Bolfarine, H., Cordani, L.K. (1993). Estimation of structural regression model with known reliability ratio, Ann.
Inst. Math. Statist. 45, 531-540.
Caroll, J.R., Gallo, P., Gleser, L.J. (1985). Comparison of
least squares and error-in-variable regression, with special
reference to randomized analysis of covariance, J. Amer.
Statist. Assoc. 80, 929-932.
Eckart, G., Yung, G. (1936). The approximation of one
matrix by another of lower rank, Psychometrics 1, 211218.
Fuller, M.Y. (1987). Measurement Error Models, J. Wiley, New York.
Golub, G.H., Van Loan, C.F. (1996). Matrix Computations, 3th ed. Johns Hopkins Uni. Press, baltimore, MD.
Hocking, R.R. (1983). developments in linear regression
methodology 1959-1982, Technometrics 25, 219=230.
Kendall, M.G., Stuart, A. (1979). The Advanced Theory
of Statistics, Vol. 2, 4th ed. , Hafner, New York.
Ketellapper, R.H. (1983). On estimating parameters in a
simple linear error-in-variable model, Technometrics 25,
43-47.
Koopmans, T.C. (1937). Linear Regression Analysis of
Economic Time Series, DeErven F. Bohr, Haarlem, The
Netherlands.
Kummel, C.H. (1879). Reduction of observed equations
which contain more than one observed quantity, Analyst
6, 97-105.
Lindley, D.V. (1947). Regression lines and the linear functional relationship, J. Roy. Statist. Soc. Suppl. 9, 218244.
Markovsky, I., Van Hu¤el, S. (20070. Overview of total
least-squares methods, Signal Processing 87, 2283-2302.
Madansky, A. (1959). The …tting of straight lines when
both variables are subject to error, J. Amer. Statist. Assoc. 54, 173-205.
Mirsky, L. 91960). Symmetric gauge functions and unitarily invariant norms, Quart. J. Math. Oxford 11,
50-59.
Moran, P.A.P. (1971). Estimatind structural and functional relationships, J. Multivariate Anal. 1, 232-255.
Pearson, K. (1901). On lines and planes of closest …t to
systems of points in space, Philos. Mag. 2, 559=572.
Tintner, G. (1945). A note on rank, multicollinearity, and
multiple regression, Ann. Math. Statist. 16, 304-308.
Van Hu¤el, S., vandewalle, j. (1991). The Total Least
Squres Problem: Computational Aspects and Analysis,
SIAM, Philadelphia.
Van Hu¤el, S., Lammerling, P. (Eds). (2002). Total
Least squares and Error-in-variables modeling; Analysis,
algorithms and Applications, Kluwer Academic publishers, Dordrecht.
Vidal, I., Iglesias, P. (2008). Comparison between a measurement error model and a linear model wthout measurament error, Comput. Statist. data Anal. 55, 92-202.
Wellman, M.J., Gunst, R.F. (1991). Inference diagnostics
for linear measurement error models, Biometrika 78, 373380.
Wong, M.Y. (1989). Likelihood estimation of a simple
linear regression model when both variables have error,
Biometrika 76, 141-148.

Podobne dokumenty