Wykład 11. Metoda najmniejszych kwadratów Szukamy zależności
Transkrypt
Wykład 11. Metoda najmniejszych kwadratów Szukamy zależności
Wykład 11. Metoda najmniejszych kwadratów Szukamy zależności Dane są wyniki pomiarów dwóch wielkości x i y: (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ). Przypuśćmy, że nanieśliśmy je na wykres w układzie współrzędnych i okazało się, że • w przybliżeniu układają się one na pewnej prostej. • To znaczy, że w przybliżeniu y = ax + b. • Ale takich prostych „przybliżajacych” może być wiele. • Jak znaleźć najlepsze przybliżenie? • Co to znaczy „najlepsze”? Jak zmierzyć, które przybliżenie jest lepsze? Różne sposoby porównywania przybliżeń Za miarę jakości przybliżenia możnaby wziąć na przykład • sumę różnic „wartość dokładnia − wartość przybliżona”. • Ale taka suma różnic może się zerować nawet, gdy składniki są duże! • A może wziąć |wartość dokładna − wartość przybliżona|? • Każdy, kto badał funkcję, w której występują wartości bezwzględne wie, że takie badanie może być trudne. • Dobrym miernikiem jest suma wyrażeń typu (wartość dokładnia − wartość przybliżona)2 . Metoda najmniejszych kwadratów Przypuśćmy, że dane są punkty (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ). Chcemy znaleźć prostą y = ax + b, której wykres najlepiej w sensie najmniejszych kwadratów przybliża dane punkty. Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji f (a, b) = n X (axi + b − yi )2 . i=1 Jak szukać minimum funkcji dwóch (lub więcej) zmiennych? Dana jest f (a, b), różniczkowalna wszędzie (bo to suma kwadratów!). Szukamy takich a i b, dla których ta funkcja osiaga wartość najmniejszą. • Albo taka wartość osiągana jest na brzegu zbioru, • albo w takim punkcie (a, b), w którym ( ∂f ∂a = 0 ∂f ∂b =0 Przykład Metodą najmniejszych kwadratów znaleźć równanie prostej, która najlepiej przybliża poniższe dane: xi 1 2 3 4 yi 2 4 5 7 Rozwiązanie Szukamy takiego równania prostej y = ax + b, czyli współczynników a, b, aby funkcja f (a, b) = ((a · 1 + b) − 2)2 + ((a · 2 + b) − 4)2 + osiągnęła wartość najmniejszą. Zastosujemy pochodne. Rozwiązanie c.d. Jak łatwo obliczyć 1 ((a · 3 + b) − 5)2 + ((a · 4 + b) − 7)2 • ∂f = 2(a + b − 2) + 2(2a + b − 4) · 2 + 2(3a + b − 5) · 3+ ∂a + 2(4a + b − 7) · 4 = 2(30a + 10b − 53). • ∂f = 2(a + b − 2) + 2(2a + b − 4) + 2(3a + b − 5) + 2(4a + b − 7) = ∂b = 2(10a + 4b − 18). • Obie pochodne należy przyrównać do zera. Rozwiązanie c.d. Z układu ( 30a + 10b = 53 10a + 4b = 18 • otrzymujemy • a = 1, 6, • b = 0, 5. • Odpowiedź: szukaną prostą jest y = 1, 6x + 0, 5. • Można obliczyć wartości y dla x = 1, 2, 3, 4 i porównać z danymi z tabelki. Co to za krzywa? Metodą najmniejszych kwadratów znaleźć równanie krzywej, która najlepiej przybliża poniższe dane: xi 0 1 2 3 yi 0, 2 0, 8 2, 4 4, 6 • Nanieśmy dane na wykres. • Może taka krzywą jest parabola? • Szukamy krzywej o równaniu y = ax2 + c. Rozwiązanie Układamy funkcję f (a, c) = 4 X (ax2i + c − yi )2 = i=1 = (a · 0 + c − 0, 2)2 + (a · 1 + c − 0, 8)2 + (a · 2 + c − 2, 4)2 + (a · 3 + c − 4, 6)2 . • Obliczamy jej pochodne cząstkowe. • ∂f ∂a = 2(97a + 14c − 51, 8). • ∂f ∂c = 2(14a + 4c − 10) • I rozwiązujemy układ równań liniowych. Rozwiązanie Z drugiego równania • c = 2, 5 − 3, 5a, zatem 2 • a = 0, 35, • c = 1, 275. Prawo Keplera Kepler dysponował takimi danymi Planeta Odl. od Sł. Czas obiegu Merkury 0,39 0,24 Wenus 0,72 0,62 Ziemia 1 1 Mars 1,52 1,88 Jowisz 5,20 11,86 Saturn 9,59 29,46 Na wykresie jakiej funkcji leżą punkty o tych współrzędnych? Jaka to funkcja? Znalezienie wzoru linii wydaje się bardzo trudne, ponieważ TO NIE JEST wykres prostej! Pomysł: przejdźmy do logarytmów liczb z tabelki (log x lub ln x). Planeta Odl. od Sł. Czas obiegu Merkury −0, 41 −0, 62 Wenus −0, 14 −0, 21 Ziemia 0 0 Mars 0,18 0,27 Jowisz 0,72 1,07 Saturn 0,98 1,47 Na wykresie jakiej funkcji leżą punkty o tych współrzędnych? Rozwiązanie Teraz odpowiedź można odgadnąć w pamięci, bez wykonywania jakichkolwiek obliczeń. • Policzmy jednak: szukamy prostej y = ax + b metodą najmniejszych kwadratów. • Ponieważ prosta przechodzi przez punkt (0, 0), więc ma równanie y = ax. • Metoda najmniejszych kwadratów: szukamy minimum funkcji f (a) = (−0, 41a − (−062))2 + (−0, 14a − (−0, 21))2 + + (0, 18a − 0, 27)2 + (0, 72a − 1, 07)2 + (0, 98a − 1, 47)2 . • Obliczamy pochodną: Rozwiązanie • Pochodna f 0 (a) = 2 [(−0, 41a − (−062)) · (−0, 41)+ +(−0, 14a − (−0, 21)) · (−0, 14) + (0, 18a − 0, 27) · 0, 18+ +(0, 72a − 1, 07) · 0, 72 + (0, 98a − 1, 47) · 0, 98] . • Po uproszczeniu • f 0 (a) = 0, gdy 1, 6989a = 2, 5432, skąd • a = 1, 4969... Odpowiedź Wszystkie dane astronomiczne w tabelce są zaokrąglone, więc tutaj też możemy przyjąć (z całkiem dobrym przybliżeniem) • 3 a= . 2 • Mamy zatem dla logarytmów zależność log y = 3 3 log x, 2 • a stąd prawo Keplera y = x3/2 . Metoda największej wiarygodności Zadanie: Wiadomo, że liczba wypadków drogowych ma rozkład Poissona z pewnym parametrem λ. • W pewnym mieście zaobserwowano w kolejnych n tygodniach następujące liczby wypadków: x1 , x2 , x3 , x4 , ..., xn • Dla jakiej wartości parametru λ otrzymane wyniki są najbardziej prawdopodobne? Rozwiązanie Prawdopodobieństwo tego, że zmienna o rozkładzie Poissona z parametrem λ przyjmie wartość xk , dane jest wzorem λxk −λ e . p(xk , λ) = xk ! Szukamy takiej wartości parametru λ, zależnej od wartości otrzymanych wyników, dla której funkcja L(x1 , ..., xn , λ) = p(x1 , λ)p(x2 , λ)...p(xn , λ) przyjmie maksimum. • Stosujemy rachunek różniczkowy. • W celu zmiany iloczynu w sumę, logarytmujemy iloczyn. • Fakt: Jeśli log L(λ) ma w λ0 ekstremum, to L(λ) też. Rozwiązanie log L(x1 , ..., xn , λ) = log • A ponieważ log xk λ xk ! −λ x1 λ x1 ! e−λ · λx2 −λ λxn −λ e · ... · e x2 ! xn ! e = xk log λ − log(xk !) − λ • więc log L(x1 , ..., xn , λ) = (x1 + x2 + ... + xn ) log λ − nλ − X log(xk !) • skąd ∂ log L x1 + ... + xn = −n=0 ∂λ λ . Rozwiązanie Wniosek: Gdy λ= n 1X xk , n k=1 to zaobserwowane wartości są najbardziej prawdopodobne. Funkcję (statystykę) X̄ = 1 n Pn k=1 Xk nazywamy estymatorem wartości nieznanego parametru λ. A gdy rozkład ma gęstość? Wtedy zamiast prawdopodobieństw mnożymy gęstości, np. dla rozkładu normalnego z gęstością g(x, m, σ) = √ −(x−m)2 1 e 2σ2 2π σ mamy L(x1 , ..., xn , m) = g(x1 , m, σ)g(x2 , m, σ)...g(xn , m, σ). • Dalej jak poprzednio: 4 • Logarytmujemy, liczymy pochodną • po m (gdy badamy średnią) i przyrównujemy do zera, • po σ (gdy badamy wariancję) i przyrównujemy do zera. Czym różnią się S i Ŝ? Estymator Zn parametru θ nazywa się nieobciążony, gdy E(Zn ) = θ. • Na przykład X̄ = 1 n Pn i=1 Xi jest nieobciążonym estymatorem średniej m, bo n 1X 1 E( Xi ) = (E(X1 ) + ... + E(Xn )) = m. n i=1 n • Mamy E(S 2 ) = E( n1 Pn i=1 (Xi − X̄)2 ) = n−1 2 n σ i ten estymatror jest obciążony. n 1 2 2 2 • Natomiast E(Ŝ 2 ) = E( n−1 i=1 (Xi − X̄) ) = σ , więc Ŝ jest nieobciążonym estymatorem wariancji i dlatego stosuje się go częściej. P 5