zmienną zależną
Transkrypt
zmienną zależną
MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze odzwierciedla tę zależność. Takiego badania dokonujemy na podstawie przeprowadzenia doświadczeń i analizy ich wyników. Przykłady: zależność wydajności ziemi od różnych nawozów mineralnych; zależność poziomu zysku banku od liczby klientów, wysokości inwestycji, wielkości wydanych kredytów itd. Warto zaznaczyć, że słowo regresja w tłumaczeniu z łaciny oznacza cofanie. Stosowanie w nazwie tej dziedziny słowa regresja jest historyczne i raczej niefortunne. Nazwa ta została, prawdopodobnie, po raz pierwszy użyta w 1885 r. przez angielskiego naukowca Sir F. Galtona (ucznia K. Darwina) pod czas badania zależności wzrostu potomstwa od wzrostu rodziców. Wykazał on bowiem, że niezwykle wysocy rodzice (znacznie wyżsi od przeciętności), mają dzieci niższego wzrostu, natomiast rodzice o wzroście znacznie niższym, niż przeciętny, mają dzieci wyższe od nich. Galton nazwał to zjawisko cofaniem w kierunku przeciętności. Ale w 1 istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy francuscy (szczególnie P.-S. Laplace) w XVIII wieku przeprowadzały analizy, które nazwalibyśmy regresją. Niech więc interesuje nas zależność zmiennej Y od zmiennych X (1), . . . , X (m), m ≥ 1. Zmienna Y jest nazywana zmienną zależną, zaś zmienne X (1), . . . , X (m) zmiennymi niezależnymi. Pytanie, na które chcielibyśmy dostać odpowiedź, to: czy ta zależność istnieje, i jeżeli tak, to chcielibyśmy wyrazić ją za pomocą pewnego modelu (równania). Warto zaznaczyć, iż zmienne mogą być powiązane między sobą zależnością funkcyjną lub statystyczną. Związek funkcyjny Y = f (X (1), . . . , X (m)) odznacza się tym, że każdemu naboru wartości zmiennych X (1), . . . , X (m) odpowiada tylko jedna, jednoznacznie określona wartość zmiennej Y (np. pole kwadratu jest funkcją jego boku). W statystyce prawie nigdy nie mamy do czynienia z danymi, które dokładnie opisują się podobną zależnością. Mamy natomiast do czynienia z tzw.zależnością statystyczną. Związek statystyczny polega na tym, że określonemu naboru wartości zmiennych X (1), . . . , X (m) odpowiada pewna średnia wartość 2 zmiennej Y. W przypadku zależności statystycznej naturalnie jest zakładać, że wartości zmiennej zależnej są losowe, wartości zaś zmiennych niezależnych są nielosowe. Załóżmy, że możemy przeprowadzić n pomiarów wartości zmiennej Y w zależności od pomiarów wartości zmiennych X (1), . . . , X (m). Wartości powyższych zmiennych, uzyskane w trakcie doświadczeń, będziemy oznaczać odpowiednimi malymi literami. Więc punktem wyjścia w naszych rozumowaniach będą obserwacje 1) (m) (xi , . . . , xi , yi), i = 1, . . . , n. Przykład. Rozpatrzmy rezultaty kolokwium (skala od 0 do 25 punktów) i egzaminu koncowego (skala od 0 do 50 punktów) ze statystyki matematycznej. W kolokwium i egzaminie brało udział 19 studentów pewnej szkoły technicznej. Wyniki kolokwium i egzaminu: Numer stud. Kolokwium Egzamin Numer stud. Kolokwium Egzamin 1 7 20 12 12 27 2 11 24 13 16 35 3 12 25 14 14 28 4 14 30 15 21 42 5 17 35 16 20 40 6 15 30 17 17 34 7 21 43 18 10 23 8 9 10 11 22 19 13 5 42 41 24 14 19 17 40 Zależność pomiędzy wynikiem egzaminu końcowego (zmien3 40 35 30 25 20 15 0 5 10 15 20 kolokwium Rysunek 1: Wykres rozrzutu. na zależna) a kolokwium (zmienna niezależna) przedstawiono na Rysunku 1. Rysunek taki nazywa się wykresem rozrzutu i jest użytecznym graficznym przedstawieniem zależności między zmiennymi. Tworzy się on za pomocą par punktów (xi, yi), i = 1, . . . , 19. Zaznaczmy, że w przypadku, gdy mamy do czynienia z jedną zmienną niezależną, zagadnienie konstrukcji modelu należy zawsze zaczynać od sporządzenia wykresu rozrzutu. Widzimy, że istotnie mamy tutaj do czynienia z zależnością statystyczna, a nie funkcyjną, bowiem mamy studentów, których wynik kolokwium jest taki sam, ale wynik egzaminu różni się (np. studenci o numerach 5, 17 i 19 mają ten sam wynik kolokwium 17 punktów, lecz różny wynik egzaminu - odpowiednio 35, 34 i 40 punktów). Wykres rozrzutu sugeruje istnie4 nie prostej, wokół której koncentrują się obserwacje. Ogólnie proces konstrukcji modelu przebiega następujące etapy. Etap 1. Specyfikacja modelu. Wybieramy typ modelu (liniowy, wielomianowy, nieliniowy itd), który będziemy rozważać. Wyboru tego dokonujemy na podstawie wykresu rozrzutu, bądź jakiejś wiedzy o możliwym charakterze zależności. Możemy też sugerować się poszukiwaniem rozwiązania jak najprostszego. Etap 2. Estymacja modelu. Stosując odpowiednie metody statystyczne i w oparciu o dane, które posiadamy, dokonujemy estymacji parametrów modelu, czyli wyboru takiej funkcji opisującej model, która najlepiej pasuje do danych. Etap 3. Weryfikacja modelu. Sprawdzamy, czy skonstruowany na poprzednim etapie model dobrze pasuje do posiadanych danych oraz czy spełnione są założenia modelu. Jeśli model nie spełnia stawianych mu wymagań, formułujemy nowy model i wracamy do poprzedniego etapu. Etap 4. Używanie modelu. Jeżeli stworzony model uznajemy za poprawny, to możemy wykorzystać go, np. dla prognozowania wartości zmiennej zależnej w przypadku innych, aniżeli uzyskane dotychczas, wartości zmiennych niezależnych, lub do sterowania - czyli wyznacze5 nia wartości zmiennych niezależnych dla uzyskania odpowiedniej wartości zmiennej zależnej. Zgodnie z etapem 1, zawężamy krąg rozważanych funkcji, opisujących zależność, do pewnej parametrycznej klasy funkcji H, tzn. zakładamy, że model opisuje się funkcją z klasy H = {h(x, θ), θ ∈ Θ ⊂ Rk , x = (x(1), . . . , x(m)) ∈ Rm}, gdzie h : Rm × Rk → R jest zadaną funkcją ciągłą. Funkcja h jest nazywana funkcją regresji. W tej sytuacji problem poszukiwania dobrego modelu opisującego zależność sprowadza się do poszukiwania (szacowania) wektora parametrów θ. Jeśli funkcja h jest liniowa względem θ, to regresja (i odpowiedni model) nazywa się liniową, w przeciwnym przypadku - nieliniową.∑Ogólna postać funkcji regresji liniowej, to: h(x, θ) = kj=1 θj fj (x), gdzie fj : Rm → R są zadanymi funkcjami ciągłymi, j = 1, . . . , k. Rozważmy najprostszą sytuację, gdy mamy jedną zmienną niezależną, a funkcją regresji jest postaci h(x, θ0, θ1) = θ0 + θ1x. Przy poszukiwaniu odpowiednich (”najlepszych”) wartości parametrów θ0, θ1 zazwyczaj stosujemy tzw. metodę najmniejszych kwadratów (MNK), wprowadzoną jeszcze na początku XIX wieku przez 6 5 4 y 3 2 1 2 4 6 8 10 x Rysunek 2: Metoda najmniejszych kwadratów. A.-M. Legendre’a i C. F. Gaussa. Polega ona na tym, że mając obserwacje (xi, yi), i = 1, . . . , n, rozwiązujemy następujący problem matematyczny: n ∑ (yi − (θ0 + θ1xi))2 → min . θ0 ,θ1 i=1 Wartości θb0, θb1, które określają rozwiązanie tego problemu, uważamy za poszukiwane. Powyższy problem jest równoważny do problemu: θ12 n ∑ i=1 n ∑ x2i +2θ1θ0 n ∑ xi+nθ02−2θ1 i=1 i=1 7 n ∑ yixi−2θ0 i=1 yi → min . θ0 ,θ1 Przyrównujemy do zera pochodne po θ1 i θ0: ∑n 2 ∑n ∑n θ1 i=1 xi + θ0 i=1 xi = i=1 yixi θ1 ∑n i=1 xi + nθ0 = ∑n i=1 yi skąd, rozwiązując ten układ równań liniowych, dostajemy: ∑n (x − x̄)(yi − ȳ) ∑n i θb1 = i=1 , θb0 = ȳ − θb1x̄. 2 i=1 (xi − x̄) Rozwiązanie to jest jednoznaczne pod warunkiem, że nie wszystkie {xi} są jednakowe. 8