11. REGRESJA 11.1. Regresja pierwszego rodzaju

Transkrypt

11. REGRESJA 11.1. Regresja pierwszego rodzaju
Regresja 11
139
11. REGRESJA
11.1. Regresja pierwszego rodzaju
Niech ( X , Y ) będzie dwuwymiarową zmienną losową, dla które istnieje kowariancja.
Niech E ( X | y ) oznacza warunkową wartość oczekiwaną zdefiniowaną dla przypadku
zmiennych losowych typu skokowego oraz ciągłego.
Zbiór punktów na płaszczyźnie OXY o współrzędnych (x , E (Y , x )) nazywa się linią
regresji zmiennej losowej Y względem zmiennej losowej X.
I analogicznie zbiór punktów na płaszczyźnie OXY o współrzędnych (E ( X | y ), y )
nazywamy linią regresji zmiennej losowej X względem Y.
Z własności rozkładu normalnego (patrz np. Plucińscy, 1990) wynika, że dla
dwuwymiarowego rozkładu normalnego zdefiniowane wyżej linie regresji są liniami
prostymi. Prosta regresji X względem Y ma równanie
x = mX + ρ
σX
( y − mY ) .
σY
(11.1)
σY
(x − mX ) .
σX
(11.2)
Prosta regresji Y względem X ma równanie
y = mY + ρ
Dla przypadku dwuwymiarowej zmiennej losowe typu skokowego linie regresji są
przeliczalnymi zbiorami punktów.
PRZYKŁAD 11.1 (Plucińscy, 1990). Obwód elektryczny składa się z idealnego źródła
napięciowego (tzn. źródła, na którego zaciskach panuje stałe napięcie niezależne od
obciążenia) oraz podłączonego do jego zacisków mikrofonu. Opór R mikrofonu zależy od
Regresja 11
140
natężenia dźwięków w otoczeniu i oczywiście jest zmienną losową. Iloczyn RJ, gdzie J jest
natężeniem prądu w obwodzie, jest stały i równy sile elektromotorycznej źródła. Oznaczmy
RJ=c=const.
Niech gęstością prawdopodobieństwa f R zmiennej losowej R będzie
f R (r ) =
1
2πσ
−
e
( r − m) 2
2σ 2
,
gdzie
m
σ
>> 0 .
Znaleźć:
a) linię regresji zmiennej losowej J względem zmiennej losowej R;
b) wartość oczekiwaną E ( J ) .
Ponieważ dla r ≠ 0 dystrybuanta warunkowa jest postaci
F ( j| r ) =
0 ~~~~~~ dla ~~~~~~~ j ≤ c r ,
1 ~~~~~~ dla ~~~~~~~ j > c r ,
więc E ( J | r ) = c r dla r ≠ 0 . Rozwiązanie przypadku r = 0 jest nieinteresujące, bowiem
P (R = 0) = 0 . Linia regresji dla r ≠ 0 jest więc gałęzią hiperboli. Zauważmy, że do
rozwiązania tej części przykładu nie potrzebna była informacja o postaci gęstości
prawdopodobieństwa zmiennej losowej R.
Wartość oczekiwana E ( J ) nie istnieje, bowiem
∞
1
(r − m) 2
∫ exp(− 2σ 2 )dr = +∞ .
2πσ −∞ | r |
1
W rozwiązywanym przykładzie mamy do czynienia z przypadkiem, gdy nie istnieje
wartość oczekiwana E ( J | r ) , natomiast dla wszystkich r ≠ 0 istnieje warunkowa wartość
oczekiwana E ( J r ) .
Ogólnie można udowodnić, że jeżeli istnieje wartość oczekiwana E ( Y ) zmiennej
losowej Y, to istnieje warunkowa wartość oczekiwana E ( Y x) zmiennej losowej Y względem
dowolnej zmiennej losowej X dla prawie wszystkich x.
Regresja 11
141
PRZYKŁAD 11.2. Niech gęstością prawdopodobieństwa f dwuwymiarowej zmiennej
losowej (X, Y) będzie
[
]
 (1 + ax)(1 + ay) − a e − x − y − axy x > 0, y > 0
f ( x , y) = 
0
dla pozosta ³ych x , y
gdzie 0 < a < 1 . Znaleźć linie regresji.
Ponieważ
e − x dla x > 0
,
f X ( x) = 
dla x ≤ 0
0
więc
[
]
f ( y x) = (1 + ax)(1 + ay) − a e − y − ay ,
dla x > 0, y > 0 .
I wobec tego
∞
E (Y x) = ∫ yf ( y x)dy =
0
1 + a + ax
(1 + ax) 2
,
analogicznie
( )
E Xy =
1 + a + ay
(1 + ay)
2
.
Linia regresji zmiennej losowej Y względem zmiennej losowej X ma równanie
ϕ 1 ( x) =
1 + a + ax
(1 + ax) 2
,
Regresja 11
142
a zmiennej losowej X względem Y równanie
ϕ2 =
1 + a + ay
(1 + ay) 2
.
Jest oczywiste, że jeżeli zmienne losowe X, Y są niezależne i mają wartości
oczekiwane odpowiednio równe E ( X ) , E ( Y ) , to
( )
E X y = E ( X ) , E (Y x) = E ( Y ) ,
czyli linie regresji są prostymi równoległymi odpowiednio do os OX oraz OY.
Linie regresji mają następującą własność minimalności dotyczącą minimalizowania ze
względu na dobór funkcji ϕ kwadratu różnicy pomiędzy zmienną losową Y a zmienną losową
ϕ( X ) .
Twierdzenie 11.1. Niech dana będzie dwuwymiarowa zmienna losowa (X, Y).
(
Wyrażenie E (Y − ϕ ( X ))
2
) przyjmuje wartość najmniejszą, czyli
(
E (Y − ϕ ( X ))
2
) = min
(11.3)
wtedy, gdy z prawdopodobieństwem 1 funkcja ϕ dana jest wzorem
ϕ ( x) = E (Y x)
czyli
({
})
PX x: ϕ ( x) = E (Y x) = 1.
Twierdzenie 11.1 możemy wykorzystać do celów praktycznych w następujący sposób.
Regresja 11
143
Przypuśćmy, że zaobserwowano wiele wartości (punktów na płaszczyźnie) dwuwymiarowej
zmiennej losowej (X, Y) .Oznaczmy je przez
( x , y ),
i
i
i = 1,2,.., n . Przypuśćmy, że
prawdopodobieństwo każdej z tych wartości jest równe 1 n . Na podstawie tych obserwacji
chcemy znaleźć taką funkcję ϕ , która będzie najlepszym obrazem zależności pomiędzy
zmiennymi losowymi X, Y. Rozpatrywany zbiór obserwacji (zbiór punktów na płaszczyźnie)
może sugerować, że należy szukać funkcji ϕ w określonym zbiorze funkcji, np. w zbiorze
funkcji liniowych, wielomianów stopnia n, gdzie n niekoniecznie jest 1, funkcji
wykładniczych, hiperbol itd. Dla zadanej postaci funkcji problem sprowadza się do
wyznaczenia współczynników tej funkcji. Sugestia o postaci funkcji opiera się na tym, że
względy wizualne mówią o koncentracji punktów w „bliskim otoczeniu” tej hipotetycznej
linii. Na Rys. 11.1 przedstawiono zbiór punktów i przykładowo dwie linie, o których jesteśmy
skłonni powiedzieć, że wokół
nich koncentrują się punkty. Są to sformułowania
nieprecyzyjne, można wyczuć jedynie ich sens intuicyjny. Możemy przyjmować różne
kryteria tego, aby linię l
Y
X
Rys. 11.1 Różne obrazy koncentracji obserwowanych zależności.
uznać za taką, wokół której koncentrują się punkty. Na przykład żądać, aby
n
∑d
i =1
n
i
= min
lub
∑d
i =1
2
i
= min ,
Regresja 11
144
gdzie d i jest odległością punktu ( x i , y i ) od linii l. Jeżeli równaniem linii l jest x = ϕ ( y) ,
to możemy żądać, aby
n
∑x
i
− ϕ ( y i ) = min lub
i =1
n
∑ (x
i
− ϕ ( yi )
)
2
= min
i =1
(suma odległości lub kwadratów odległości mierzonych równolegle do osi OX).
Jeżeli równaniem linii l jest y = ϕ ( x) , to możemy żądać, aby
n
∑y
i
− ϕ ( x i ) = min
i
− ϕ ( xi )
i =1
lub
n
∑(y
)
2
= min
(11.4)
i =1
(suma odległości lub kwadratów odległości mierzonych równolegle do osi OY).
Można zastanowić się nad poszczególnymi miarami dopasowania i dojść ponownie za
poprzednikami do wniosku, że najlepszym kryterium dopasowania jest ostatnie (11.4).
Dla dwuwymiarowej zmiennej losowej (X, Y) typu skokowego warunki (11.3) i (11.4)
są równoważne. Z twierdzenia 11.1 wynika, że warunek (11.3) jest spełniony, jeżeli jako ϕ
weźmiemy warunkową wartość oczekiwaną.
Jeżeli więc jako kryterium doboru najlepszej funkcji przyjmiemy warunek (11.4), to
jako ϕ należy wziąć warunkową wartość oczekiwaną zmiennej losowej Y względem X.
.
11.2 Regresja drugiego rodzaju
Linie regresji pierwszego rodzaju tylko w szczególnych przypadkach są liniami prostymi.
Z drugiej strony zależność liniowa jest najprostszym rodzajem zależności funkcyjnej. Jest to
na ogół najwygodniejsza postać do dalszych badań. Mając nawet świadomość popełniania
pewnych błędów przyjmujemy, że zależność pomiędzy rozważanymi zmiennymi jest liniowa i
Regresja 11
145
wskazujemy jedynie metody najlepszego (w określonym sensie) doboru współczynników
funkcji liniowej.
Prostą regresji (drugiego rodzaju) zmiennej losowej Y względem zmiennej losowej X
nazywamy prostą y = αx + β , gdzie α
i β są liczbami, dla których spełniona jest zależność
E ((Y − αX − β ) 2 ) = min .
(11.5)
Wykażemy, że (11.5) jest spełnione, jeśli
α=ρ
σY
σX
β = mY − ρ
(11.6)
σY
mX
σX
(11.7)
Zauważmy, że
E ((Y − αX − β ) 2 ) = E ((Y − mY − α ( X − m X ) + mY − αm X − β ) 2 ) =
E ((Y − mY ) 2 ) + α 2 E (( X − m X ) 2 ) + (mY − αm X − β ) 2 − 2αE ((Y − mY )( X − m X )) =
= σ Y2 + α 2σ X2 − 2αρσ X σ Y + (mY − αm X − β ) 2 = ϕ (α , β )
Aby znaleźć minimum funkcji ϕ ‚ znajdujemy jej pochodne cząstkowe, przyrównujemy je do
zera i otrzymujemy wówczas równania
2ασ X2 − 2 ρσ X σ
Y
− 2m X (mY − αm X − β ) = 0 , mY − αm X − β = 0
Rozwiązaniem tego układu równań są
α=ρ
σY
σ
, β = mY − ρ Y m X
σX
σX
Jest oczywiste, że dla wyznaczonych α i β jest spełniony warunek (11.5).
Prosta regresji (drugiego rodzaju) zmiennej losowej Y względem zmiennej losowej X ma więc
postać
y − mY = ρ
σY
(x − mX )
σX
(11.8)
Prosta regresji (drugiego rodzaju) Zmiennej losowej X względem zmiennej losowej Y ma
równanie
x − mX = ρ
σX
( y − mY )
σY
(11.9)
Współczynniki kierunkowe tych prostych zwane współczynnikami regresji są odpowiednio
równe
αY ,X = ρ
σY
σX
α ,,Y =
1 σY
ρ σX
(11.10)
Regresja 11
146
Proste regresji pokrywają się, gdy ρ 2 = 1 .
Porównując równania (11.1) i (11.2) z (11.9) i (11.8) widzimy, że w przypadku rozkładu
normalnego linie regresji pierwszego rodzaju pokrywają się z prostymi regresji drugiego
rodzaju.
Wprowadzone pojęcia linii regresji pierwszego rodzaju i prostych regresji drugiego
rodzaju uogólnia się na przypadek zmiennej losowej n-wymiarowej, gdzie n ≥ 2. Rozważa się
wtedy powierzchnie regresji. Temat ten przedstawiony jest np. w [6].
PRZYKŁAD 11.3. Dwuwymiarowa zmienna losowa (X, Y) ma rozkład prawdopo-
dobieństwa podany w tabelce:
Y/X
0
2
4
6
0
1/6
0
0
0
1
0
1/6
1/6
0
2
0
1/6
1/6
0
3
0
0
0
1/6
Znaleźć linie regresji E (Y Ix), E (X Iy) oraz proste regresji drugiego rodzaju. Zamiast E (Y
Ix) pisać będziemy E (YIX = x). Ponieważ
E (Y X = 0) =
3
1
y k P( X = 0, Y = y k ) = 0
∑
P( X = 0) k =0
E (Y X = 2) = 3 / 2,
E (Y X = 4) = 3 / 2
E (Y X = 6) = 3
więc linią regresji Y względem X jest zbiór
{(0, 0), (2, 3/2), (4, 3/2), (6,3)} .
(11.11)
Analogicznie linią regresji X względem Y jest zbiór
(3.100) {(0, 0), (3,1), (3,2), (6,3)} .
(11.12)
Następnie obliczamy E (X)=3, V(X)=22/6 , E(Y)=3/2 , V(Y)=11/12 , E(XY)=6 ,
ρ X ,Y =
9
11
Prostą regresji drugiego rodzaju Y względem X jest .
y−
3 9
= ( x − 3)
2 12
y−
3 11
= ( x − 3)
2 8
a X względem Y jest
Proste te pokazane są na Rys 11.2. Na tym samym rysunku krzyżykami zaznaczono punkty
Regresja 11
147
zbioru (11.11),a kółeczkami punkty zbioru (11.12).
y
4
3
2
1
1
2
3
4
5
6
7
x
Rys. 11.2 Linie regresji pierwszego oraz drugiego rodzaju.
148
Regresja 11
Problemy rozdziału 11
1. Linie regresji pierwszego rodzaju.
2. Różne kryteria dopasowania linii do chmury obserwacji.
3. Prosta regresji drugiego rodzaju.
4. Proste regresji liniowo zależnych zmiennych.
5. Proste regresji dla niezleżnych zmiennych.