Regresja liniowa z zakłóconymi zmiennymi objaśniającymi
Transkrypt
Regresja liniowa z zakłóconymi zmiennymi objaśniającymi
Regresja liniowa z zak÷ óconymi zmiennymi objaśniajacymi ¾ Krystyna Maciag ¾ i Czes÷ aw Stepniak ¾ UMCS i Uniwersytet Rzeszowski XXXV Konferencja Statystyka Matematyczna Wis÷ a 2009 7-11.12.2009 1 Motywacja Dane (x1; y1); :::; (xn; yn) I grupa Wyznaczyć regresje¾ (II rodzaju) zmiennej y wzgle¾ dem x II grupa Wyznaczyć regresje¾ (II rodzaju) zmiennej x wzgle¾ dem y Student z grupy II: y = x+ Po przekszta÷ ceniu: x = 1y potraktowa÷jako regresje¾ zmiennej x wzgledem ¾ y: Pytanie: Kiedy takie postepowanie ¾ jest uzasadnione? Odpowiedź: Wtedy i tylko wtedy gdy punkty (x1; y1); :::; (xn; yn) lez·a¾ na prostej. Prosta regresji y wzgledem x metoda NK Prosta regresji x wzgledem y metoda NK Prosta regresji metoda TNK 2 T÷ o y - zmienna objaśniana (response variable) x1; :::; xk - zmienne objaśniajace, ¾ regresyjne (explanatory variables) y = f (x1; :::; xk ) f =? Wiedzac, ¾ z·e f 2 C Wyznaczyć f w sposób eksperymentalny. W modelu eksperymentalnym uwzglednić ¾ b÷ edy ¾ pomiaru wartości zmiennych. 2.1 Model I f 2 L (klasa funkcji liniowych) n zestawów wartości zmiennych x1; :::; xk : (1) (1) x(1) = (x1 ; :::; xk ) ............................. (n) (bez b÷ edów ¾ pomiarowych) (n) x(n) = (x1 ; :::; xk ) y = (y1; :::; yn)T 2 X x(1) 6 6 . 6 =6 6 . 6 .. 4 x(n) 3 7 7 7 7; 7 7 5 2 y y 6 1 6 . 6 =6 6 . 6 .. 4 yn 3 7 7 7 7 7 7 5 Uk÷ ad równań liniowych X =y y 2 R(X) i r(X) = k + uk÷ ad (1) zgodny i oznaczony Równanie (1) prowadzi do rozwiazania ¾ Pk f (x1; :::; xk ) = i=1 ixi (xi- i-ta kolumna macierzy X) (1) 2.2 Model II f 2L wartości x1; :::; xk mierzone bez bledu ¾ wartości y obarczone b÷ edem ¾ (niesystematycznym, jednorodnym) Zwykle n > k Na ogó÷uk÷ ad X = y nie jest zgodny Zamiast tego rozwiazujemy ¾ X e taki aby gdzie y e =y (2) 1 uk÷ ad (2) zgodny e 2 jjy yjj2 minimalna Zasada najmniejszych kwadratów [ordinary least squares (OLS)] Problem sprowadza sie¾ do uk÷ adu X = PX y (3) PX : Rn 7! Rn " Operator rzutu ortogonalnego na R(X) Jeśli uk÷ ad (3) oznaczony to jego rozwiazanie ¾ jest JNLN estymatorem wektora : 2.3 Model III x1; :::; xk - mierzone z b÷ edem ¾ (niesystem. jednor.) y - mierzona z b÷ edem ¾ (niesystem. jednor.) np. x - temp. C y - poziom opadów atm. ml 2 · Zeby wyznaczyć zalez·ność y od x1; :::; xk rozwiazujemy ¾ uk÷ ad f X e =y fiy e dobieramy tak aby gdzie X (4) 1 Uk÷ ad (4) zgodny 2 f X e X;y jjAjjF := y F minimalna q tr(AT A) - norma Frobeniusa Zasada totalnie najmniejszych kwadratów [total least squares (TLS)] Pytanie: Po co deformować macierz X skoro wystarczy zdeformować wektor y z·eby otrzymać uk÷ ad zgodny? min e ye:ye2R(X) e X; f X e X;y y f = X). (wystarczy po÷ oz·yć X F min ye:ye2R(X) e jjy Uwaga: Problem TLS moz·e nie mieć rozwiazania ¾ yjj2 Przyk÷ ad X= f = X " f X " " # e X;y # y e ye:ye2R(X) e X; " # 1 0 0 , y= 0 0 1 1 0 : 0 " min Ale " F f X " = 1 0 0 " " # = " # # " # 0 0 0 ; 0 " 0 e X;y 0 1 y F =" F =0 jjA; bjjF = 0 () A = 0 i b = 0 f=X i y e = y: Jednak czyli X X = y sprzeczny. Dotad: ¾ Numeryczna algebra liniowa: Sabine Van Hu¤el Jaki model statystyczny dla problemu III? X = y : X i y nieobserwowalne (5) obserwowalne: f = X+E: X e = y+e: y E (E) = 0; Cox(D ) = Ink E (e ) = 0 ; Cov (e) = In Interesuje nas estymacja wektora parametrycznego modelu (5). w 3 Narzedzia ¾ algebraiczne Rozk÷ ad spektralny macierzy C 2 Rm n [spectral decomposition] UT CV = 1 ::: =diag ( 1; :::; p) p 0; p = min(m; n) U = [u1; :::; um] ortogonalna V = [v1; :::; vn] ortogonalna i - i-ta wartość spektralna, i = 1; :::; p vi - prawostronny wektor w÷ asny: Cvi = ui - lewostronny wektor w÷ asny: ( i; ui; vi) - trójka spektralna, CT ui = iui ivi zawiera ca÷ a¾ informacje¾ o C (w dogodnej formie) Dekompozycja dwójkowa [dyadic decomposition] Wprowadzamy r : 1 ::: C = Ur r > r+1 T r Vr = = ::: = p = 0 Pr T u v i i i=1 i gdzie Ur = [u1; :::; ur ] r = diag ( 1 ; :::; Vr = [v1; :::; vr ] jjCjj2F = m X n X c2ij = 21 + ::: + 2r i=1 j=1 jjCyjj jjCjj2 = sup jjyjj 2 = 1: 2 y6=0 r) Przeformu÷ owanie problemu (4) TLS: X X ty yt0 [X; y][ T ; 1]T t 0 Pr Twierdzenie (Eckart-Young-Mirsky). Niech C = i=1 iuiviT bedzie ¾ dekompozycja¾ dwójkowa¾ macierzy C a Ck := Pk T dla k < r: Wówczas u v i i i=1 i min fD:r(D)=kg min fD:r(D)=kg jjC jjC Djj2 = jjC DjjF = jjC Eckart&Young (1936) dla jj jjF Mirsky (1960) dla normy jj jj2 : Ck jj2 = Ck jjF = r k+1 , Xr i=1 2. i 4 Model regresji stochastycznej i - zmienne losowe zwiazane ¾ zalez·nościa¾ = Za÷ oz·enie: i + dla pewnego ; : (6) podlegaja¾ zak÷ óceniom. Obserwujemy X= +U Y = + V , gdzie U i V pe÷ nia¾ role¾ b÷ edów ¾ losowych. (X1; Y1); :::; (Xn; Yn) - próba dwuwymiarowa prosta Xi = + Ui Yi = + (7) + Vi (Ui; Vi) - niezalez·ne wektory losowe z w. ocz. zero U;V = " 2 u uv uv 2 v # 2 u 2 v Parametry bed ¾ a¾ identy…kowalne jeśli uv = 0 a np. = 1: znane, Warunki (6)-(7) prowadza¾ do modelu " Xi Yi # 0" N@ # 2 2 + 4 ; + 2 u 2 2 2 2 + 2 u 31 5A (8) i = 1; :::; n: Uwaga: Wnioskowanie w modelu (8), nie jest ÷ atwe. Interesuje nas (inne parametry zak÷ ócajace) ¾ Elementarne podejście 7 !Fuller (1987). Metoda NW. Ortogonalna transformacja parametrów w celu eliminacji parametrów zak÷ ócajacych: ¾ Barnett (1967), Wong (1989). Rozwiazanie: ¾ sXY 6= 0: b = s2Y s2X + q (s2X s2Y )2 +4sXY ; 2sXY o ile 5 Regresja liniowa ze zmiennymi deterministycznymi przy zak÷ óceniach gaussowskich x i y - deterministyczne, zwiazane ¾ relacja¾ y= + x, dla pewnych ; 2 R: (9) Obserwujemy X = x + U; Y (10) = y + V: (U; V ) - jak wyz·ej (niezalez·ne, o standaryzowanych rozk÷ adach normalnych) (X1; Y1); :::; (Xn; Yn) - próba prosta z rozk÷ adu (10), zalez·nego od nieobserwowalnych (xi; yi), i = 1; :::; n Zadanie: Estymacja (xi; yi); i = 1; :::; n: Rozwiazanie: ¾ b b = s2Y = Y s2X + q (s2X s2Y )2 + 4sXY 2sXY b X; 2 Xi + b X + b (Yi bi = x 2 1+ b b i, i = 1; :::; n: ybi = b x 0 X+ b @ yb = Y + b2 Y) , i = 1; :::; n: X + b (Y 1+ , o ile sXY 6= 0: b2 Y) 1 XA : Uwaga: Rozwiazania ¾ otrzymane dla regresji stochastycznej i deterministycznej pokrywaja¾ sie¾ prosta¾ y = + x dobrana¾ do punktów obserwacji metoda¾ totalnie najmniejszych kwadratów (TLS). Literatura: Adcock, R.J. (1987). Note on the method of least squares, Analyst 4, 183-184. Adcock, R.J. (1878). A problem of least squares, Analyst 5, 53-54. Anderson, T.W. (1951). Estimating linear restrictions on regression coe¢ cient for multivariate normal distribution, nn. Math. Statist. 22, 327-351. Barnett, V.D. (1967). A note on linear structural relationships when both residual variances are known, Biometrika 54, 670-672. Bolfarine, H., Cordani, L.K. (1993). Estimation of structural regression model with known reliability ratio, Ann. Inst. Math. Statist. 45, 531-540. Caroll, J.R., Gallo, P., Gleser, L.J. (1985). Comparison of least squares and error-in-variable regression, with special reference to randomized analysis of covariance, J. Amer. Statist. Assoc. 80, 929-932. Eckart, G., Yung, G. (1936). The approximation of one matrix by another of lower rank, Psychometrics 1, 211218. Fuller, M.Y. (1987). Measurement Error Models, J. Wiley, New York. Golub, G.H., Van Loan, C.F. (1996). Matrix Computations, 3th ed. Johns Hopkins Uni. Press, baltimore, MD. Hocking, R.R. (1983). developments in linear regression methodology 1959-1982, Technometrics 25, 219=230. Kendall, M.G., Stuart, A. (1979). The Advanced Theory of Statistics, Vol. 2, 4th ed. , Hafner, New York. Ketellapper, R.H. (1983). On estimating parameters in a simple linear error-in-variable model, Technometrics 25, 43-47. Koopmans, T.C. (1937). Linear Regression Analysis of Economic Time Series, DeErven F. Bohr, Haarlem, The Netherlands. Kummel, C.H. (1879). Reduction of observed equations which contain more than one observed quantity, Analyst 6, 97-105. Lindley, D.V. (1947). Regression lines and the linear functional relationship, J. Roy. Statist. Soc. Suppl. 9, 218244. Markovsky, I., Van Hu¤el, S. (20070. Overview of total least-squares methods, Signal Processing 87, 2283-2302. Madansky, A. (1959). The …tting of straight lines when both variables are subject to error, J. Amer. Statist. Assoc. 54, 173-205. Mirsky, L. 91960). Symmetric gauge functions and unitarily invariant norms, Quart. J. Math. Oxford 11, 50-59. Moran, P.A.P. (1971). Estimatind structural and functional relationships, J. Multivariate Anal. 1, 232-255. Pearson, K. (1901). On lines and planes of closest …t to systems of points in space, Philos. Mag. 2, 559=572. Tintner, G. (1945). A note on rank, multicollinearity, and multiple regression, Ann. Math. Statist. 16, 304-308. Van Hu¤el, S., vandewalle, j. (1991). The Total Least Squres Problem: Computational Aspects and Analysis, SIAM, Philadelphia. Van Hu¤el, S., Lammerling, P. (Eds). (2002). Total Least squares and Error-in-variables modeling; Analysis, algorithms and Applications, Kluwer Academic publishers, Dordrecht. Vidal, I., Iglesias, P. (2008). Comparison between a measurement error model and a linear model wthout measurament error, Comput. Statist. data Anal. 55, 92-202. Wellman, M.J., Gunst, R.F. (1991). Inference diagnostics for linear measurement error models, Biometrika 78, 373380. Wong, M.Y. (1989). Likelihood estimation of a simple linear regression model when both variables have error, Biometrika 76, 141-148.