11. REGRESJA 11.1. Regresja pierwszego rodzaju
Transkrypt
11. REGRESJA 11.1. Regresja pierwszego rodzaju
Regresja 11 139 11. REGRESJA 11.1. Regresja pierwszego rodzaju Niech ( X , Y ) będzie dwuwymiarową zmienną losową, dla które istnieje kowariancja. Niech E ( X | y ) oznacza warunkową wartość oczekiwaną zdefiniowaną dla przypadku zmiennych losowych typu skokowego oraz ciągłego. Zbiór punktów na płaszczyźnie OXY o współrzędnych (x , E (Y , x )) nazywa się linią regresji zmiennej losowej Y względem zmiennej losowej X. I analogicznie zbiór punktów na płaszczyźnie OXY o współrzędnych (E ( X | y ), y ) nazywamy linią regresji zmiennej losowej X względem Y. Z własności rozkładu normalnego (patrz np. Plucińscy, 1990) wynika, że dla dwuwymiarowego rozkładu normalnego zdefiniowane wyżej linie regresji są liniami prostymi. Prosta regresji X względem Y ma równanie x = mX + ρ σX ( y − mY ) . σY (11.1) σY (x − mX ) . σX (11.2) Prosta regresji Y względem X ma równanie y = mY + ρ Dla przypadku dwuwymiarowej zmiennej losowe typu skokowego linie regresji są przeliczalnymi zbiorami punktów. PRZYKŁAD 11.1 (Plucińscy, 1990). Obwód elektryczny składa się z idealnego źródła napięciowego (tzn. źródła, na którego zaciskach panuje stałe napięcie niezależne od obciążenia) oraz podłączonego do jego zacisków mikrofonu. Opór R mikrofonu zależy od Regresja 11 140 natężenia dźwięków w otoczeniu i oczywiście jest zmienną losową. Iloczyn RJ, gdzie J jest natężeniem prądu w obwodzie, jest stały i równy sile elektromotorycznej źródła. Oznaczmy RJ=c=const. Niech gęstością prawdopodobieństwa f R zmiennej losowej R będzie f R (r ) = 1 2πσ − e ( r − m) 2 2σ 2 , gdzie m σ >> 0 . Znaleźć: a) linię regresji zmiennej losowej J względem zmiennej losowej R; b) wartość oczekiwaną E ( J ) . Ponieważ dla r ≠ 0 dystrybuanta warunkowa jest postaci F ( j| r ) = 0 ~~~~~~ dla ~~~~~~~ j ≤ c r , 1 ~~~~~~ dla ~~~~~~~ j > c r , więc E ( J | r ) = c r dla r ≠ 0 . Rozwiązanie przypadku r = 0 jest nieinteresujące, bowiem P (R = 0) = 0 . Linia regresji dla r ≠ 0 jest więc gałęzią hiperboli. Zauważmy, że do rozwiązania tej części przykładu nie potrzebna była informacja o postaci gęstości prawdopodobieństwa zmiennej losowej R. Wartość oczekiwana E ( J ) nie istnieje, bowiem ∞ 1 (r − m) 2 ∫ exp(− 2σ 2 )dr = +∞ . 2πσ −∞ | r | 1 W rozwiązywanym przykładzie mamy do czynienia z przypadkiem, gdy nie istnieje wartość oczekiwana E ( J | r ) , natomiast dla wszystkich r ≠ 0 istnieje warunkowa wartość oczekiwana E ( J r ) . Ogólnie można udowodnić, że jeżeli istnieje wartość oczekiwana E ( Y ) zmiennej losowej Y, to istnieje warunkowa wartość oczekiwana E ( Y x) zmiennej losowej Y względem dowolnej zmiennej losowej X dla prawie wszystkich x. Regresja 11 141 PRZYKŁAD 11.2. Niech gęstością prawdopodobieństwa f dwuwymiarowej zmiennej losowej (X, Y) będzie [ ] (1 + ax)(1 + ay) − a e − x − y − axy x > 0, y > 0 f ( x , y) = 0 dla pozosta ³ych x , y gdzie 0 < a < 1 . Znaleźć linie regresji. Ponieważ e − x dla x > 0 , f X ( x) = dla x ≤ 0 0 więc [ ] f ( y x) = (1 + ax)(1 + ay) − a e − y − ay , dla x > 0, y > 0 . I wobec tego ∞ E (Y x) = ∫ yf ( y x)dy = 0 1 + a + ax (1 + ax) 2 , analogicznie ( ) E Xy = 1 + a + ay (1 + ay) 2 . Linia regresji zmiennej losowej Y względem zmiennej losowej X ma równanie ϕ 1 ( x) = 1 + a + ax (1 + ax) 2 , Regresja 11 142 a zmiennej losowej X względem Y równanie ϕ2 = 1 + a + ay (1 + ay) 2 . Jest oczywiste, że jeżeli zmienne losowe X, Y są niezależne i mają wartości oczekiwane odpowiednio równe E ( X ) , E ( Y ) , to ( ) E X y = E ( X ) , E (Y x) = E ( Y ) , czyli linie regresji są prostymi równoległymi odpowiednio do os OX oraz OY. Linie regresji mają następującą własność minimalności dotyczącą minimalizowania ze względu na dobór funkcji ϕ kwadratu różnicy pomiędzy zmienną losową Y a zmienną losową ϕ( X ) . Twierdzenie 11.1. Niech dana będzie dwuwymiarowa zmienna losowa (X, Y). ( Wyrażenie E (Y − ϕ ( X )) 2 ) przyjmuje wartość najmniejszą, czyli ( E (Y − ϕ ( X )) 2 ) = min (11.3) wtedy, gdy z prawdopodobieństwem 1 funkcja ϕ dana jest wzorem ϕ ( x) = E (Y x) czyli ({ }) PX x: ϕ ( x) = E (Y x) = 1. Twierdzenie 11.1 możemy wykorzystać do celów praktycznych w następujący sposób. Regresja 11 143 Przypuśćmy, że zaobserwowano wiele wartości (punktów na płaszczyźnie) dwuwymiarowej zmiennej losowej (X, Y) .Oznaczmy je przez ( x , y ), i i i = 1,2,.., n . Przypuśćmy, że prawdopodobieństwo każdej z tych wartości jest równe 1 n . Na podstawie tych obserwacji chcemy znaleźć taką funkcję ϕ , która będzie najlepszym obrazem zależności pomiędzy zmiennymi losowymi X, Y. Rozpatrywany zbiór obserwacji (zbiór punktów na płaszczyźnie) może sugerować, że należy szukać funkcji ϕ w określonym zbiorze funkcji, np. w zbiorze funkcji liniowych, wielomianów stopnia n, gdzie n niekoniecznie jest 1, funkcji wykładniczych, hiperbol itd. Dla zadanej postaci funkcji problem sprowadza się do wyznaczenia współczynników tej funkcji. Sugestia o postaci funkcji opiera się na tym, że względy wizualne mówią o koncentracji punktów w „bliskim otoczeniu” tej hipotetycznej linii. Na Rys. 11.1 przedstawiono zbiór punktów i przykładowo dwie linie, o których jesteśmy skłonni powiedzieć, że wokół nich koncentrują się punkty. Są to sformułowania nieprecyzyjne, można wyczuć jedynie ich sens intuicyjny. Możemy przyjmować różne kryteria tego, aby linię l Y X Rys. 11.1 Różne obrazy koncentracji obserwowanych zależności. uznać za taką, wokół której koncentrują się punkty. Na przykład żądać, aby n ∑d i =1 n i = min lub ∑d i =1 2 i = min , Regresja 11 144 gdzie d i jest odległością punktu ( x i , y i ) od linii l. Jeżeli równaniem linii l jest x = ϕ ( y) , to możemy żądać, aby n ∑x i − ϕ ( y i ) = min lub i =1 n ∑ (x i − ϕ ( yi ) ) 2 = min i =1 (suma odległości lub kwadratów odległości mierzonych równolegle do osi OX). Jeżeli równaniem linii l jest y = ϕ ( x) , to możemy żądać, aby n ∑y i − ϕ ( x i ) = min i − ϕ ( xi ) i =1 lub n ∑(y ) 2 = min (11.4) i =1 (suma odległości lub kwadratów odległości mierzonych równolegle do osi OY). Można zastanowić się nad poszczególnymi miarami dopasowania i dojść ponownie za poprzednikami do wniosku, że najlepszym kryterium dopasowania jest ostatnie (11.4). Dla dwuwymiarowej zmiennej losowej (X, Y) typu skokowego warunki (11.3) i (11.4) są równoważne. Z twierdzenia 11.1 wynika, że warunek (11.3) jest spełniony, jeżeli jako ϕ weźmiemy warunkową wartość oczekiwaną. Jeżeli więc jako kryterium doboru najlepszej funkcji przyjmiemy warunek (11.4), to jako ϕ należy wziąć warunkową wartość oczekiwaną zmiennej losowej Y względem X. . 11.2 Regresja drugiego rodzaju Linie regresji pierwszego rodzaju tylko w szczególnych przypadkach są liniami prostymi. Z drugiej strony zależność liniowa jest najprostszym rodzajem zależności funkcyjnej. Jest to na ogół najwygodniejsza postać do dalszych badań. Mając nawet świadomość popełniania pewnych błędów przyjmujemy, że zależność pomiędzy rozważanymi zmiennymi jest liniowa i Regresja 11 145 wskazujemy jedynie metody najlepszego (w określonym sensie) doboru współczynników funkcji liniowej. Prostą regresji (drugiego rodzaju) zmiennej losowej Y względem zmiennej losowej X nazywamy prostą y = αx + β , gdzie α i β są liczbami, dla których spełniona jest zależność E ((Y − αX − β ) 2 ) = min . (11.5) Wykażemy, że (11.5) jest spełnione, jeśli α=ρ σY σX β = mY − ρ (11.6) σY mX σX (11.7) Zauważmy, że E ((Y − αX − β ) 2 ) = E ((Y − mY − α ( X − m X ) + mY − αm X − β ) 2 ) = E ((Y − mY ) 2 ) + α 2 E (( X − m X ) 2 ) + (mY − αm X − β ) 2 − 2αE ((Y − mY )( X − m X )) = = σ Y2 + α 2σ X2 − 2αρσ X σ Y + (mY − αm X − β ) 2 = ϕ (α , β ) Aby znaleźć minimum funkcji ϕ ‚ znajdujemy jej pochodne cząstkowe, przyrównujemy je do zera i otrzymujemy wówczas równania 2ασ X2 − 2 ρσ X σ Y − 2m X (mY − αm X − β ) = 0 , mY − αm X − β = 0 Rozwiązaniem tego układu równań są α=ρ σY σ , β = mY − ρ Y m X σX σX Jest oczywiste, że dla wyznaczonych α i β jest spełniony warunek (11.5). Prosta regresji (drugiego rodzaju) zmiennej losowej Y względem zmiennej losowej X ma więc postać y − mY = ρ σY (x − mX ) σX (11.8) Prosta regresji (drugiego rodzaju) Zmiennej losowej X względem zmiennej losowej Y ma równanie x − mX = ρ σX ( y − mY ) σY (11.9) Współczynniki kierunkowe tych prostych zwane współczynnikami regresji są odpowiednio równe αY ,X = ρ σY σX α ,,Y = 1 σY ρ σX (11.10) Regresja 11 146 Proste regresji pokrywają się, gdy ρ 2 = 1 . Porównując równania (11.1) i (11.2) z (11.9) i (11.8) widzimy, że w przypadku rozkładu normalnego linie regresji pierwszego rodzaju pokrywają się z prostymi regresji drugiego rodzaju. Wprowadzone pojęcia linii regresji pierwszego rodzaju i prostych regresji drugiego rodzaju uogólnia się na przypadek zmiennej losowej n-wymiarowej, gdzie n ≥ 2. Rozważa się wtedy powierzchnie regresji. Temat ten przedstawiony jest np. w [6]. PRZYKŁAD 11.3. Dwuwymiarowa zmienna losowa (X, Y) ma rozkład prawdopo- dobieństwa podany w tabelce: Y/X 0 2 4 6 0 1/6 0 0 0 1 0 1/6 1/6 0 2 0 1/6 1/6 0 3 0 0 0 1/6 Znaleźć linie regresji E (Y Ix), E (X Iy) oraz proste regresji drugiego rodzaju. Zamiast E (Y Ix) pisać będziemy E (YIX = x). Ponieważ E (Y X = 0) = 3 1 y k P( X = 0, Y = y k ) = 0 ∑ P( X = 0) k =0 E (Y X = 2) = 3 / 2, E (Y X = 4) = 3 / 2 E (Y X = 6) = 3 więc linią regresji Y względem X jest zbiór {(0, 0), (2, 3/2), (4, 3/2), (6,3)} . (11.11) Analogicznie linią regresji X względem Y jest zbiór (3.100) {(0, 0), (3,1), (3,2), (6,3)} . (11.12) Następnie obliczamy E (X)=3, V(X)=22/6 , E(Y)=3/2 , V(Y)=11/12 , E(XY)=6 , ρ X ,Y = 9 11 Prostą regresji drugiego rodzaju Y względem X jest . y− 3 9 = ( x − 3) 2 12 y− 3 11 = ( x − 3) 2 8 a X względem Y jest Proste te pokazane są na Rys 11.2. Na tym samym rysunku krzyżykami zaznaczono punkty Regresja 11 147 zbioru (11.11),a kółeczkami punkty zbioru (11.12). y 4 3 2 1 1 2 3 4 5 6 7 x Rys. 11.2 Linie regresji pierwszego oraz drugiego rodzaju. 148 Regresja 11 Problemy rozdziału 11 1. Linie regresji pierwszego rodzaju. 2. Różne kryteria dopasowania linii do chmury obserwacji. 3. Prosta regresji drugiego rodzaju. 4. Proste regresji liniowo zależnych zmiennych. 5. Proste regresji dla niezleżnych zmiennych.