zmienną zależną

Transkrypt

zmienną zależną
MODEL REGRESJI LINIOWEJ. METODA
NAJMNIEJSZYCH KWADRATÓW
Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi),
mające na celu konstrukcję modelu, który dobrze odzwierciedla tę zależność. Takiego badania dokonujemy
na podstawie przeprowadzenia doświadczeń i analizy
ich wyników.
Przykłady: zależność wydajności ziemi od różnych nawozów mineralnych; zależność poziomu zysku banku
od liczby klientów, wysokości inwestycji, wielkości wydanych kredytów itd.
Warto zaznaczyć, że słowo regresja w tłumaczeniu z
łaciny oznacza cofanie. Stosowanie w nazwie tej dziedziny słowa regresja jest historyczne i raczej niefortunne. Nazwa ta została, prawdopodobnie, po raz pierwszy użyta w 1885 r. przez angielskiego naukowca Sir
F. Galtona (ucznia K. Darwina) pod czas badania zależności wzrostu potomstwa od wzrostu rodziców. Wykazał on bowiem, że niezwykle wysocy rodzice (znacznie wyżsi od przeciętności), mają dzieci niższego wzrostu, natomiast rodzice o wzroście znacznie niższym, niż
przeciętny, mają dzieci wyższe od nich. Galton nazwał
to zjawisko cofaniem w kierunku przeciętności. Ale w
1
istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele
starsza: tak na przykład matematycy francuscy (szczególnie P.-S. Laplace) w XVIII wieku przeprowadzały
analizy, które nazwalibyśmy regresją.
Niech więc interesuje nas zależność zmiennej Y od zmiennych X (1), . . . , X (m), m ≥ 1. Zmienna Y jest nazywana
zmienną zależną, zaś zmienne X (1), . . . , X (m) zmiennymi niezależnymi. Pytanie, na które chcielibyśmy dostać odpowiedź, to: czy ta zależność istnieje, i jeżeli
tak, to chcielibyśmy wyrazić ją za pomocą pewnego
modelu (równania).
Warto zaznaczyć, iż zmienne mogą być powiązane między sobą zależnością funkcyjną lub statystyczną. Związek funkcyjny Y = f (X (1), . . . , X (m)) odznacza się
tym, że każdemu naboru wartości zmiennych X (1), . . . ,
X (m) odpowiada tylko jedna, jednoznacznie określona
wartość zmiennej Y (np. pole kwadratu jest funkcją
jego boku). W statystyce prawie nigdy nie mamy do
czynienia z danymi, które dokładnie opisują się podobną zależnością. Mamy natomiast do czynienia z
tzw.zależnością statystyczną. Związek statystyczny polega na tym, że określonemu naboru wartości zmiennych X (1), . . . , X (m) odpowiada pewna średnia wartość
2
zmiennej Y. W przypadku zależności statystycznej naturalnie jest zakładać, że wartości zmiennej zależnej są
losowe, wartości zaś zmiennych niezależnych są nielosowe.
Załóżmy, że możemy przeprowadzić n pomiarów wartości zmiennej Y w zależności od pomiarów wartości
zmiennych X (1), . . . , X (m). Wartości powyższych zmiennych, uzyskane w trakcie doświadczeń, będziemy oznaczać odpowiednimi malymi literami. Więc punktem
wyjścia w naszych rozumowaniach będą obserwacje
1)
(m)
(xi , . . . , xi , yi), i = 1, . . . , n.
Przykład. Rozpatrzmy rezultaty kolokwium (skala od
0 do 25 punktów) i egzaminu koncowego (skala od 0 do
50 punktów) ze statystyki matematycznej. W kolokwium i egzaminie brało udział 19 studentów pewnej
szkoły technicznej. Wyniki kolokwium i egzaminu:
Numer stud.
Kolokwium
Egzamin
Numer stud.
Kolokwium
Egzamin
1
7
20
12
12
27
2
11
24
13
16
35
3
12
25
14
14
28
4
14
30
15
21
42
5
17
35
16
20
40
6
15
30
17
17
34
7
21
43
18
10
23
8 9 10 11
22 19 13 5
42 41 24 14
19
17
40
Zależność pomiędzy wynikiem egzaminu końcowego (zmien3
40
35
30
25
20
15
0
5
10
15
20
kolokwium
Rysunek 1: Wykres rozrzutu.
na zależna) a kolokwium (zmienna niezależna) przedstawiono na Rysunku 1. Rysunek taki nazywa się wykresem rozrzutu i jest użytecznym graficznym przedstawieniem zależności między zmiennymi. Tworzy się
on za pomocą par punktów (xi, yi), i = 1, . . . , 19. Zaznaczmy, że w przypadku, gdy mamy do czynienia z
jedną zmienną niezależną, zagadnienie konstrukcji modelu należy zawsze zaczynać od sporządzenia wykresu
rozrzutu. Widzimy, że istotnie mamy tutaj do czynienia z zależnością statystyczna, a nie funkcyjną, bowiem
mamy studentów, których wynik kolokwium jest taki
sam, ale wynik egzaminu różni się (np. studenci o numerach 5, 17 i 19 mają ten sam wynik kolokwium 17 punktów, lecz różny wynik egzaminu - odpowiednio
35, 34 i 40 punktów). Wykres rozrzutu sugeruje istnie4
nie prostej, wokół której koncentrują się obserwacje.
Ogólnie proces konstrukcji modelu przebiega następujące etapy.
Etap 1. Specyfikacja modelu. Wybieramy typ modelu
(liniowy, wielomianowy, nieliniowy itd), który będziemy
rozważać. Wyboru tego dokonujemy na podstawie wykresu rozrzutu, bądź jakiejś wiedzy o możliwym charakterze zależności. Możemy też sugerować się poszukiwaniem rozwiązania jak najprostszego.
Etap 2. Estymacja modelu. Stosując odpowiednie metody statystyczne i w oparciu o dane, które posiadamy,
dokonujemy estymacji parametrów modelu, czyli wyboru takiej funkcji opisującej model, która najlepiej
pasuje do danych.
Etap 3. Weryfikacja modelu. Sprawdzamy, czy skonstruowany na poprzednim etapie model dobrze pasuje
do posiadanych danych oraz czy spełnione są założenia modelu. Jeśli model nie spełnia stawianych mu
wymagań, formułujemy nowy model i wracamy do poprzedniego etapu.
Etap 4. Używanie modelu. Jeżeli stworzony model uznajemy za poprawny, to możemy wykorzystać go, np. dla
prognozowania wartości zmiennej zależnej w przypadku
innych, aniżeli uzyskane dotychczas, wartości zmiennych niezależnych, lub do sterowania - czyli wyznacze5
nia wartości zmiennych niezależnych dla uzyskania odpowiedniej wartości zmiennej zależnej.
Zgodnie z etapem 1, zawężamy krąg rozważanych funkcji, opisujących zależność, do pewnej parametrycznej
klasy funkcji H, tzn. zakładamy, że model opisuje się
funkcją z klasy
H = {h(x, θ), θ ∈ Θ ⊂ Rk , x = (x(1), . . . , x(m)) ∈ Rm},
gdzie h : Rm × Rk → R jest zadaną funkcją ciągłą.
Funkcja h jest nazywana funkcją regresji. W tej sytuacji problem poszukiwania dobrego modelu opisującego
zależność sprowadza się do poszukiwania (szacowania)
wektora parametrów θ.
Jeśli funkcja h jest liniowa względem θ, to regresja (i
odpowiedni model) nazywa się liniową, w przeciwnym
przypadku - nieliniową.∑Ogólna postać funkcji regresji
liniowej, to: h(x, θ) = kj=1 θj fj (x), gdzie fj : Rm →
R są zadanymi funkcjami ciągłymi, j = 1, . . . , k.
Rozważmy najprostszą sytuację, gdy mamy jedną zmienną niezależną, a funkcją regresji jest postaci h(x, θ0, θ1) =
θ0 + θ1x. Przy poszukiwaniu odpowiednich (”najlepszych”) wartości parametrów θ0, θ1 zazwyczaj stosujemy tzw. metodę najmniejszych kwadratów (MNK),
wprowadzoną jeszcze na początku XIX wieku przez
6
5
4
y 3
2
1
2
4
6
8
10
x
Rysunek 2: Metoda najmniejszych kwadratów.
A.-M. Legendre’a i C. F. Gaussa. Polega ona na tym,
że mając obserwacje (xi, yi), i = 1, . . . , n, rozwiązujemy następujący problem matematyczny:
n
∑
(yi − (θ0 + θ1xi))2 → min .
θ0 ,θ1
i=1
Wartości θb0, θb1, które określają rozwiązanie tego problemu, uważamy za poszukiwane. Powyższy problem
jest równoważny do problemu:
θ12
n
∑
i=1
n
∑
x2i +2θ1θ0
n
∑
xi+nθ02−2θ1
i=1
i=1
7
n
∑
yixi−2θ0
i=1
yi → min .
θ0 ,θ1
Przyrównujemy do zera pochodne po θ1 i θ0:
 ∑n 2
∑n
∑n
 θ1 i=1 xi + θ0 i=1 xi = i=1 yixi

θ1
∑n
i=1 xi
+ nθ0 =
∑n
i=1 yi
skąd, rozwiązując ten układ równań liniowych, dostajemy:
∑n
(x − x̄)(yi − ȳ)
∑n i
θb1 = i=1
,
θb0 = ȳ − θb1x̄.
2
i=1 (xi − x̄)
Rozwiązanie to jest jednoznaczne pod warunkiem, że
nie wszystkie {xi} są jednakowe.
8

Podobne dokumenty