Wykład 11. Metoda najmniejszych kwadratów Szukamy zależności

Transkrypt

Wykład 11. Metoda najmniejszych kwadratów Szukamy zależności
Wykład 11. Metoda najmniejszych kwadratów
Szukamy zależności
Dane są wyniki pomiarów dwóch wielkości x i y: (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ).
Przypuśćmy, że nanieśliśmy je na wykres w układzie współrzędnych i okazało się, że
• w przybliżeniu układają się one na pewnej prostej.
• To znaczy, że w przybliżeniu y = ax + b.
• Ale takich prostych „przybliżajacych” może być wiele.
• Jak znaleźć najlepsze przybliżenie?
• Co to znaczy „najlepsze”? Jak zmierzyć, które przybliżenie jest lepsze?
Różne sposoby porównywania przybliżeń
Za miarę jakości przybliżenia możnaby wziąć na przykład
• sumę różnic „wartość dokładnia − wartość przybliżona”.
• Ale taka suma różnic może się zerować nawet, gdy składniki są duże!
• A może wziąć |wartość dokładna − wartość przybliżona|?
• Każdy, kto badał funkcję, w której występują wartości bezwzględne wie, że takie badanie może być
trudne.
• Dobrym miernikiem jest suma wyrażeń typu (wartość dokładnia − wartość przybliżona)2 .
Metoda najmniejszych kwadratów
Przypuśćmy, że dane są punkty (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ). Chcemy znaleźć prostą y = ax + b, której
wykres najlepiej w sensie najmniejszych kwadratów przybliża dane punkty.
Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji
f (a, b) =
n
X
(axi + b − yi )2 .
i=1
Jak szukać minimum funkcji dwóch (lub więcej) zmiennych?
Dana jest f (a, b), różniczkowalna wszędzie (bo to suma kwadratów!). Szukamy takich a i b, dla których ta
funkcja osiaga wartość najmniejszą.
• Albo taka wartość osiągana jest na brzegu zbioru,
• albo w takim punkcie (a, b), w którym
( ∂f
∂a = 0
∂f
∂b
=0
Przykład
Metodą najmniejszych kwadratów znaleźć równanie prostej, która najlepiej przybliża poniższe dane:
xi 1 2 3 4
yi 2 4 5 7
Rozwiązanie
Szukamy takiego równania prostej y = ax + b, czyli współczynników a, b, aby funkcja
f (a, b) = ((a · 1 + b) − 2)2 + ((a · 2 + b) − 4)2 +
osiągnęła wartość najmniejszą.
Zastosujemy pochodne.
Rozwiązanie c.d.
Jak łatwo obliczyć
1
((a · 3 + b) − 5)2 + ((a · 4 + b) − 7)2
•
∂f
= 2(a + b − 2) + 2(2a + b − 4) · 2 + 2(3a + b − 5) · 3+
∂a
+ 2(4a + b − 7) · 4 = 2(30a + 10b − 53).
•
∂f
= 2(a + b − 2) + 2(2a + b − 4) + 2(3a + b − 5) + 2(4a + b − 7) =
∂b
= 2(10a + 4b − 18).
• Obie pochodne należy przyrównać do zera.
Rozwiązanie c.d.
Z układu
(
30a + 10b = 53
10a + 4b = 18
• otrzymujemy
• a = 1, 6,
• b = 0, 5.
• Odpowiedź: szukaną prostą jest y = 1, 6x + 0, 5.
• Można obliczyć wartości y dla x = 1, 2, 3, 4 i porównać z danymi z tabelki.
Co to za krzywa?
Metodą najmniejszych kwadratów znaleźć równanie krzywej, która najlepiej przybliża poniższe dane:
xi 0
1
2
3
yi 0, 2 0, 8 2, 4 4, 6
• Nanieśmy dane na wykres.
• Może taka krzywą jest parabola?
• Szukamy krzywej o równaniu y = ax2 + c.
Rozwiązanie
Układamy funkcję
f (a, c) =
4
X
(ax2i + c − yi )2 =
i=1
= (a · 0 + c − 0, 2)2 + (a · 1 + c − 0, 8)2 + (a · 2 + c − 2, 4)2 + (a · 3 + c − 4, 6)2 .
• Obliczamy jej pochodne cząstkowe.
•
∂f
∂a
= 2(97a + 14c − 51, 8).
•
∂f
∂c
= 2(14a + 4c − 10)
• I rozwiązujemy układ równań liniowych.
Rozwiązanie
Z drugiego równania
• c = 2, 5 − 3, 5a, zatem
2
• a = 0, 35,
• c = 1, 275.
Prawo Keplera
Kepler dysponował takimi danymi
Planeta
Odl. od Sł.
Czas obiegu
Merkury
0,39
0,24
Wenus
0,72
0,62
Ziemia
1
1
Mars
1,52
1,88
Jowisz
5,20
11,86
Saturn
9,59
29,46
Na wykresie jakiej funkcji leżą punkty o tych współrzędnych?
Jaka to funkcja?
Znalezienie wzoru linii wydaje się bardzo trudne, ponieważ TO NIE JEST wykres prostej!
Pomysł: przejdźmy do logarytmów liczb z tabelki (log x lub ln x).
Planeta
Odl. od Sł.
Czas obiegu
Merkury
−0, 41
−0, 62
Wenus
−0, 14
−0, 21
Ziemia
0
0
Mars
0,18
0,27
Jowisz
0,72
1,07
Saturn
0,98
1,47
Na wykresie jakiej funkcji leżą punkty o tych współrzędnych?
Rozwiązanie
Teraz odpowiedź można odgadnąć w pamięci, bez wykonywania jakichkolwiek obliczeń.
• Policzmy jednak: szukamy prostej y = ax + b metodą najmniejszych kwadratów.
• Ponieważ prosta przechodzi przez punkt (0, 0), więc ma równanie y = ax.
• Metoda najmniejszych kwadratów: szukamy minimum funkcji
f (a) = (−0, 41a − (−062))2 + (−0, 14a − (−0, 21))2 +
+ (0, 18a − 0, 27)2 + (0, 72a − 1, 07)2 + (0, 98a − 1, 47)2 .
• Obliczamy pochodną:
Rozwiązanie
• Pochodna f 0 (a) = 2 [(−0, 41a − (−062)) · (−0, 41)+
+(−0, 14a − (−0, 21)) · (−0, 14) + (0, 18a − 0, 27) · 0, 18+
+(0, 72a − 1, 07) · 0, 72 + (0, 98a − 1, 47) · 0, 98] .
• Po uproszczeniu
• f 0 (a) = 0, gdy 1, 6989a = 2, 5432, skąd
• a = 1, 4969...
Odpowiedź
Wszystkie dane astronomiczne w tabelce są zaokrąglone, więc tutaj też możemy przyjąć (z całkiem dobrym
przybliżeniem)
•
3
a= .
2
• Mamy zatem dla logarytmów zależność
log y =
3
3
log x,
2
• a stąd prawo Keplera
y = x3/2 .
Metoda największej wiarygodności
Zadanie: Wiadomo, że liczba wypadków drogowych ma rozkład Poissona z pewnym parametrem λ.
• W pewnym mieście zaobserwowano w kolejnych n tygodniach następujące liczby wypadków: x1 , x2 , x3 , x4 , ..., xn
• Dla jakiej wartości parametru λ otrzymane wyniki są najbardziej prawdopodobne?
Rozwiązanie Prawdopodobieństwo tego, że zmienna o rozkładzie Poissona z parametrem λ przyjmie wartość xk , dane jest wzorem
λxk −λ
e .
p(xk , λ) =
xk !
Szukamy takiej wartości parametru λ, zależnej od wartości otrzymanych wyników, dla której funkcja
L(x1 , ..., xn , λ) = p(x1 , λ)p(x2 , λ)...p(xn , λ)
przyjmie maksimum.
• Stosujemy rachunek różniczkowy.
• W celu zmiany iloczynu w sumę, logarytmujemy iloczyn.
• Fakt: Jeśli log L(λ) ma w λ0 ekstremum, to L(λ) też.
Rozwiązanie
log L(x1 , ..., xn , λ) = log
• A ponieważ
log
xk
λ
xk !
−λ
x1
λ
x1 !
e−λ ·
λx2 −λ
λxn −λ
e · ... ·
e
x2 !
xn !
e
= xk log λ − log(xk !) − λ
• więc
log L(x1 , ..., xn , λ) = (x1 + x2 + ... + xn ) log λ − nλ −
X
log(xk !)
• skąd
∂ log L
x1 + ... + xn
=
−n=0
∂λ
λ
.
Rozwiązanie
Wniosek: Gdy
λ=
n
1X
xk ,
n k=1
to zaobserwowane wartości są najbardziej prawdopodobne.
Funkcję (statystykę) X̄ =
1
n
Pn
k=1 Xk
nazywamy estymatorem wartości nieznanego parametru λ.
A gdy rozkład ma gęstość?
Wtedy zamiast prawdopodobieństw mnożymy gęstości, np. dla rozkładu normalnego z gęstością
g(x, m, σ) = √
−(x−m)2
1
e 2σ2
2π σ
mamy
L(x1 , ..., xn , m) = g(x1 , m, σ)g(x2 , m, σ)...g(xn , m, σ).
• Dalej jak poprzednio:
4
• Logarytmujemy, liczymy pochodną
• po m (gdy badamy średnią) i przyrównujemy do zera,
• po σ (gdy badamy wariancję) i przyrównujemy do zera.
Czym różnią się S i Ŝ?
Estymator Zn parametru θ nazywa się nieobciążony, gdy E(Zn ) = θ.
• Na przykład X̄ =
1
n
Pn
i=1 Xi
jest nieobciążonym estymatorem średniej m, bo
n
1X
1
E(
Xi ) = (E(X1 ) + ... + E(Xn )) = m.
n i=1
n
• Mamy E(S 2 ) = E( n1
Pn
i=1 (Xi
− X̄)2 ) =
n−1 2
n σ
i ten estymatror jest obciążony.
n
1
2
2
2
• Natomiast E(Ŝ 2 ) = E( n−1
i=1 (Xi − X̄) ) = σ , więc Ŝ jest nieobciążonym estymatorem wariancji
i dlatego stosuje się go częściej.
P
5