Regresja liniowa z zakłóconymi zmiennymi objaśniającymi

Transkrypt

Regresja liniowa z zak÷
óconymi
zmiennymi objaśniajacymi
¾
Krystyna Maciag
¾ i Czes÷
aw Stepniak
¾
UMCS i Uniwersytet Rzeszowski
XXXV Konferencja
Statystyka Matematyczna Wis÷
a 2009
7-11.12.2009
1
Motywacja
Dane (x1; y1); :::; (xn; yn)
I grupa
Wyznaczyć regresje¾ (II rodzaju) zmiennej y wzgle¾
dem x
II grupa
Wyznaczyć regresje¾ (II rodzaju) zmiennej x wzgle¾
dem y
Student z grupy II:
y = x+
Po przekszta÷
ceniu:
x = 1y
potraktowa÷jako regresje¾ zmiennej x wzgledem
¾
y:
Pytanie: Kiedy takie postepowanie
¾
jest uzasadnione?
Odpowiedź: Wtedy i tylko wtedy gdy punkty
(x1; y1); :::; (xn; yn) lez·a¾ na prostej.
Prosta regresji y wzgledem x metoda NK
Prosta regresji x wzgledem y metoda NK
Prosta regresji metoda TNK
2
T÷
o
y - zmienna objaśniana (response variable)
x1; :::; xk - zmienne objaśniajace,
¾ regresyjne (explanatory
variables)
y = f (x1; :::; xk )
f =?
Wiedzac,
¾ z·e f 2 C
Wyznaczyć f w sposób eksperymentalny.
W modelu eksperymentalnym uwzglednić
¾
b÷
edy
¾ pomiaru wartości zmiennych.
2.1
Model I
f 2 L (klasa funkcji liniowych)
n zestawów wartości zmiennych x1; :::; xk :
(1)
(1)
x(1) = (x1 ; :::; xk )
.............................
(n)
(bez b÷
edów
¾
pomiarowych)
(n)
x(n) = (x1 ; :::; xk )
y = (y1; :::; yn)T
2
X
x(1)
6
6 .
6
=6
6 .
6 ..
4
x(n)
3
7
7
7
7;
7
7
5
2
y
y
6 1
6 .
6
=6
6 .
6 ..
4
yn
3
7
7
7
7
7
7
5
Uk÷
ad równań liniowych
X
=y
y 2 R(X) i r(X) = k
+
uk÷
ad (1) zgodny i oznaczony
Równanie (1) prowadzi do rozwiazania
¾
Pk
f (x1; :::; xk ) = i=1
ixi
(xi- i-ta kolumna macierzy X)
(1)
2.2
Model II
f 2L
wartości x1; :::; xk mierzone bez bledu
¾
wartości y obarczone b÷
edem
¾
(niesystematycznym, jednorodnym)
Zwykle n > k
Na ogó÷uk÷
ad X
= y nie jest zgodny
Zamiast tego rozwiazujemy
¾
X
e taki aby
gdzie y
e
=y
(2)
1 uk÷
ad (2) zgodny
e
2 jjy
yjj2 minimalna
Zasada najmniejszych kwadratów
[ordinary least squares (OLS)]
Problem sprowadza sie¾ do uk÷
adu
X
= PX y
(3)
PX : Rn 7! Rn
"
Operator rzutu ortogonalnego na R(X)
Jeśli uk÷
ad (3) oznaczony to jego rozwiazanie
¾
jest JNLN estymatorem wektora
:
2.3
Model III
x1; :::; xk - mierzone z b÷
edem
¾
(niesystem. jednor.)
y - mierzona z b÷
edem
¾
(niesystem. jednor.)
np. x - temp. C
y - poziom opadów atm. ml 2
·
Zeby
wyznaczyć zalez·ność y od x1; :::; xk
rozwiazujemy
¾
uk÷
ad
f
X
e
=y
fiy
e dobieramy tak aby
gdzie X
(4)
1 Uk÷
ad (4) zgodny
2
f
X
e
X;y
jjAjjF :=
y
F
minimalna
q
tr(AT A)
- norma Frobeniusa
Zasada totalnie najmniejszych kwadratów
[total least squares (TLS)]
Pytanie: Po co deformować macierz X skoro wystarczy
zdeformować wektor y z·eby otrzymać uk÷
ad zgodny?
min
e ye:ye2R(X)
e
X;
f
X
e
X;y
y
f = X).
(wystarczy po÷
oz·yć X
F
min
ye:ye2R(X)
e
jjy
Uwaga: Problem TLS moz·e nie mieć rozwiazania
¾
yjj2
Przyk÷
ad
X=
f =
X
"
f
X
"
"
#
e
X;y
#
y
e ye:ye2R(X)
e
X;
" #
1 0
0
, y=
0 0
1
1 0
:
0 "
min
Ale
"
F
f
X
"
=
1 0
0 "
"
#
=
" #
# " #
0 0
0
;
0 "
0
e
X;y
0
1
y
F
="
F
=0
jjA; bjjF = 0 () A = 0 i b = 0
f=X i y
e = y: Jednak
czyli X
X
= y sprzeczny.
Dotad:
¾
Numeryczna algebra liniowa:
Sabine Van Hu¤el
Jaki model statystyczny dla problemu III?
X
= y : X i y nieobserwowalne
(5)
obserwowalne:
f = X+E:
X
e = y+e:
y
E (E) = 0; Cox(D ) = Ink
E (e ) = 0 ;
Cov (e) = In
Interesuje nas estymacja wektora parametrycznego
modelu (5).
w
3
Narzedzia
¾
algebraiczne
Rozk÷
ad spektralny macierzy C 2 Rm n [spectral
decomposition]
UT CV =
1
:::
=diag ( 1; :::; p)
p
0;
p = min(m; n)
U = [u1; :::; um]
ortogonalna
V = [v1; :::; vn]
ortogonalna
i
- i-ta wartość spektralna, i = 1; :::; p
vi - prawostronny wektor w÷
asny: Cvi =
ui - lewostronny wektor w÷
asny:
( i; ui; vi) - trójka spektralna,
CT ui =
iui
ivi
zawiera ca÷
a¾ informacje¾ o C (w dogodnej formie)
Dekompozycja dwójkowa [dyadic decomposition]
Wprowadzamy r :
1
:::
C = Ur
r >
r+1
T
r Vr =
= ::: = p = 0
Pr
T
u
v
i
i
i=1
i
gdzie
Ur = [u1; :::; ur ]
r = diag ( 1 ; :::;
Vr = [v1; :::; vr ]
jjCjj2F =
m X
n
X
c2ij = 21 + ::: + 2r
i=1 j=1
jjCyjj
jjCjj2 = sup jjyjj 2 = 1:
2
y6=0
r)
Przeformu÷
owanie problemu (4) TLS:
X
X
ty
yt0
[X; y][ T ;
1]T t 0
Pr
Twierdzenie (Eckart-Young-Mirsky). Niech C = i=1 iuiviT
bedzie
¾
dekompozycja¾ dwójkowa¾ macierzy C a Ck :=
Pk
T dla k < r: Wówczas
u
v
i
i
i=1
i
min
fD:r(D)=kg
min
fD:r(D)=kg
jjC
jjC
Djj2 = jjC
DjjF = jjC
Eckart&Young (1936) dla jj jjF
Mirsky (1960) dla normy jj jj2 :
Ck jj2 =
Ck jjF =
r
k+1 ,
Xr
i=1
2.
i
4
Model regresji stochastycznej
i
- zmienne losowe zwiazane
¾
zalez·nościa¾
=
Za÷
oz·enie:
i
+
dla pewnego
; :
(6)
podlegaja¾ zak÷
óceniom. Obserwujemy
X=
+U
Y =
+ V , gdzie U i V pe÷
nia¾ role¾ b÷
edów
¾
losowych.
(X1; Y1); :::; (Xn; Yn) - próba dwuwymiarowa prosta
Xi =
+ Ui
Yi =
+
(7)
+ Vi
(Ui; Vi) - niezalez·ne wektory losowe z w. ocz. zero
U;V =
"
2
u
uv
uv
2
v
#
2
u
2
v
Parametry bed
¾ a¾ identy…kowalne jeśli uv = 0 a
np. = 1:
znane,
Warunki (6)-(7) prowadza¾ do modelu
"
Xi
Yi
#
0"
N@
# 2 2
+
4
;
+
2
u
2
2
2 2
+
2
u
31
5A
(8)
i = 1; :::; n:
Uwaga: Wnioskowanie w modelu (8), nie jest ÷
atwe.
Interesuje nas
(inne parametry zak÷
ócajace)
¾
Elementarne podejście 7 !Fuller (1987). Metoda NW.
Ortogonalna transformacja parametrów w celu eliminacji
parametrów zak÷
ócajacych:
¾
Barnett (1967), Wong (1989).
Rozwiazanie:
¾
sXY 6= 0:
b =
s2Y
s2X +
q
(s2X s2Y )2 +4sXY
;
2sXY
o ile
5
Regresja liniowa ze zmiennymi deterministycznymi przy zak÷
óceniach gaussowskich
x i y - deterministyczne, zwiazane
¾
relacja¾
y=
+ x, dla pewnych
;
2 R:
(9)
Obserwujemy
X = x + U;
Y
(10)
= y + V:
(U; V ) - jak wyz·ej (niezalez·ne, o standaryzowanych rozk÷
adach
normalnych)
(X1; Y1); :::; (Xn; Yn) - próba prosta z rozk÷
adu (10),
zalez·nego od nieobserwowalnych (xi; yi), i = 1; :::; n
Zadanie: Estymacja (xi; yi); i = 1; :::; n:
Rozwiazanie:
¾
b
b
=
s2Y
= Y
s2X +
q
(s2X
s2Y )2 + 4sXY
2sXY
b X;
2
Xi + b X + b (Yi
bi =
x
2
1+ b
b i, i = 1; :::; n:
ybi = b x
0
X+
b
@
yb = Y +
b2
Y)
, i = 1; :::; n:
X + b (Y
1+
, o ile sXY 6= 0:
b2
Y)
1
XA :
Uwaga: Rozwiazania
¾
otrzymane dla regresji stochastycznej i deterministycznej pokrywaja¾ sie¾ prosta¾ y = + x
dobrana¾ do punktów obserwacji metoda¾ totalnie najmniejszych kwadratów (TLS).
Literatura:
Adcock, R.J. (1987). Note on the method of least squares,
Analyst 4, 183-184.
Adcock, R.J. (1878). A problem of least squares, Analyst
5, 53-54.
Anderson, T.W. (1951). Estimating linear restrictions on
regression coe¢ cient for multivariate normal distribution,
nn. Math. Statist. 22, 327-351.
Barnett, V.D. (1967). A note on linear structural relationships when both residual variances are known, Biometrika 54, 670-672.
Bolfarine, H., Cordani, L.K. (1993). Estimation of structural regression model with known reliability ratio, Ann.
Inst. Math. Statist. 45, 531-540.
Caroll, J.R., Gallo, P., Gleser, L.J. (1985). Comparison of
least squares and error-in-variable regression, with special
reference to randomized analysis of covariance, J. Amer.
Statist. Assoc. 80, 929-932.
Eckart, G., Yung, G. (1936). The approximation of one
matrix by another of lower rank, Psychometrics 1, 211218.
Fuller, M.Y. (1987). Measurement Error Models, J. Wiley, New York.
Golub, G.H., Van Loan, C.F. (1996). Matrix Computations, 3th ed. Johns Hopkins Uni. Press, baltimore, MD.
Hocking, R.R. (1983). developments in linear regression
methodology 1959-1982, Technometrics 25, 219=230.
Kendall, M.G., Stuart, A. (1979). The Advanced Theory
of Statistics, Vol. 2, 4th ed. , Hafner, New York.
Ketellapper, R.H. (1983). On estimating parameters in a
simple linear error-in-variable model, Technometrics 25,
43-47.
Koopmans, T.C. (1937). Linear Regression Analysis of
Economic Time Series, DeErven F. Bohr, Haarlem, The
Netherlands.
Kummel, C.H. (1879). Reduction of observed equations
which contain more than one observed quantity, Analyst
6, 97-105.
Lindley, D.V. (1947). Regression lines and the linear functional relationship, J. Roy. Statist. Soc. Suppl. 9, 218244.
Markovsky, I., Van Hu¤el, S. (20070. Overview of total
least-squares methods, Signal Processing 87, 2283-2302.
Madansky, A. (1959). The …tting of straight lines when
both variables are subject to error, J. Amer. Statist. Assoc. 54, 173-205.
Mirsky, L. 91960). Symmetric gauge functions and unitarily invariant norms, Quart. J. Math. Oxford 11,
50-59.
Moran, P.A.P. (1971). Estimatind structural and functional relationships, J. Multivariate Anal. 1, 232-255.
Pearson, K. (1901). On lines and planes of closest …t to
systems of points in space, Philos. Mag. 2, 559=572.
Tintner, G. (1945). A note on rank, multicollinearity, and
multiple regression, Ann. Math. Statist. 16, 304-308.
Van Hu¤el, S., vandewalle, j. (1991). The Total Least
Squres Problem: Computational Aspects and Analysis,
SIAM, Philadelphia.
Van Hu¤el, S., Lammerling, P. (Eds). (2002). Total
Least squares and Error-in-variables modeling; Analysis,
algorithms and Applications, Kluwer Academic publishers, Dordrecht.
Vidal, I., Iglesias, P. (2008). Comparison between a measurement error model and a linear model wthout measurament error, Comput. Statist. data Anal. 55, 92-202.
Wellman, M.J., Gunst, R.F. (1991). Inference diagnostics
for linear measurement error models, Biometrika 78, 373380.
Wong, M.Y. (1989). Likelihood estimation of a simple
linear regression model when both variables have error,
Biometrika 76, 141-148.

Regresja liniowa z zakłóconymi zmiennymi objaśniającymi

Transkrypt

Podobne dokumenty

Spis treści

streszczenie

Programowanie matematyczne

Przedstawi´c równanie oscylatora harmonicznego x + ω x = 0 w

forecasting stock index movement direction with cpl linear classifier

zadania