Statystyka i eksploracja danych

Transkrypt

Statystyka i eksploracja danych
Metoda najmniejszych kwadratów
Statystyka i eksploracja danych
Wykład XI:
Metoda najmniejszych kwadratów i regresja liniowa
5 maja 2014
Statystyka i eksploracja danych
Wykład XI: Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów
Model liniowy
Szereg czasowy Yt = 16t + Yt , Yt ∼ N (0, 1)
Statystyka i eksploracja danych
Wykład XI: Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów
Model liniowy
Estymacja zależnosci liniowej
Statystyka i eksploracja danych
Wykład XI: Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów
Model liniowy
Szereg czasowy Yt = 6 − 2t + Yt , Yt ∼ N (0, 1)
Statystyka i eksploracja danych
Wykład XI: Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów
Model liniowy
Est. param.: b = 5, 654, a = −1, 923, s 2 = 0, 9727
Statystyka i eksploracja danych
Wykład XI: Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów
Model liniowy
Krzywa wyestymowana i krzywa rzeczywista
Statystyka i eksploracja danych
Wykład XI: Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów
Model liniowy
Szereg czasowy Yt = 6 − 2t + 3t 2 + Yt , Yt ∼ N (0, 1)
Statystyka i eksploracja danych
Wykład XI: Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów
Model liniowy
Est. param.: c = 5, 702, b = −2, 186, a = 3, 258,
s 2 = 0, 9727
Statystyka i eksploracja danych
Wykład XI: Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów
Model liniowy
Krzywa wyestymowana i krzywa rzeczywista
Statystyka i eksploracja danych
Wykład XI: Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów
Model liniowy
Model liniowy
Statystyka i eksploracja danych
Wykład XI: Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów
Model liniowy
Model liniowy
W modelu liniowym przyjmujemy, że d-wymiarowy wektor
~ ma postać
obserwacji Y
~ = X β~ + ~ε,
Y
gdzie X = [xij ] jest macierzą danych (być może losowych) wymiaru
d × k, β~ jest k-wymiarowym wektorem (nieznanych) parametrów,
a ~ε jest d-wymiarowym wektorem błędów (o nieskorelowanych
współrzędnych).
Statystyka i eksploracja danych
Wykład XI: Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów
Model liniowy
Model liniowy
W modelu liniowym przyjmujemy, że d-wymiarowy wektor
~ ma postać
obserwacji Y
~ = X β~ + ~ε,
Y
gdzie X = [xij ] jest macierzą danych (być może losowych) wymiaru
d × k, β~ jest k-wymiarowym wektorem (nieznanych) parametrów,
a ~ε jest d-wymiarowym wektorem błędów (o nieskorelowanych
współrzędnych). Problem: regresja liniowa, czyli estymacja
~ i X.
wektora parametrów β~ w oparciu o konkretną realizację Y
Statystyka i eksploracja danych
Wykład XI: Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów
Model liniowy
Metoda najmniejszych kwadratów (ang. „Least Squares
Method”)
Statystyka i eksploracja danych
Wykład XI: Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów
Model liniowy
Metoda najmniejszych kwadratów (ang. „Least Squares
Method”)
Rozwiązanie problemu: Postuluje się minimalny wpływ błędu,
poszukując minimum funkcjonału
~ = kY
~ − X βk
~ 2 = (Y
~ − X β)
~ T (Y
~ − X β).
~
S(β)
Statystyka i eksploracja danych
Wykład XI: Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów
Model liniowy
Metoda najmniejszych kwadratów (ang. „Least Squares
Method”)
Rozwiązanie problemu: Postuluje się minimalny wpływ błędu,
poszukując minimum funkcjonału
~ = kY
~ − X βk
~ 2 = (Y
~ − X β)
~ T (Y
~ − X β).
~
S(β)
~ nazywamy estymatorem
Rozwiązanie β̂ minimalizujące S(β)
(uzyskanym) metodą najmniejszych kwadratów (ang. LSE =
„Least Square Estimation”). W skrócie piszemy: EMNK.
Statystyka i eksploracja danych
Wykład XI: Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów
Model liniowy
Metoda najmniejszych kwadratów - cd.
Statystyka i eksploracja danych
Wykład XI: Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów
Model liniowy
Metoda najmniejszych kwadratów - cd.
Twierdzenie
~ zawsze posiada minimalizator β̂, który spełnia
Funkcjonał S(β)
równanie
~ = X T X β̂.
XTY
Statystyka i eksploracja danych
Wykład XI: Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów
Model liniowy
Metoda najmniejszych kwadratów - cd.
Twierdzenie
~ zawsze posiada minimalizator β̂, który spełnia
Funkcjonał S(β)
równanie
~ = X T X β̂.
XTY
Wniosek
Jeżeli macierz X T X jest nieosobliwa, to estymatorem MNK jest
~.
β̂ = (X T X )−1 X T Y
Statystyka i eksploracja danych
Wykład XI: Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów
Model liniowy
Metoda najmniejszych kwadratów - cd.
Twierdzenie
~ zawsze posiada minimalizator β̂, który spełnia
Funkcjonał S(β)
równanie
~ = X T X β̂.
XTY
Wniosek
Jeżeli macierz X T X jest nieosobliwa, to estymatorem MNK jest
~.
β̂ = (X T X )−1 X T Y
~
Estymator ten jest nieobciążony, tzn. E β̂ = β.
Statystyka i eksploracja danych
Wykład XI: Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów
Model liniowy
Metoda najmniejszych kwadratów - cd.
Twierdzenie
~ zawsze posiada minimalizator β̂, który spełnia
Funkcjonał S(β)
równanie
~ = X T X β̂.
XTY
Wniosek
Jeżeli macierz X T X jest nieosobliwa, to estymatorem MNK jest
~.
β̂ = (X T X )−1 X T Y
~ W szczególności
Estymator ten jest nieobciążony, tzn. E β̂ = β.
jego macierz kowariancji ma postać
~ β̂ − β)
~ T.
Cov (β̂) = E (β̂ − β)(
Statystyka i eksploracja danych
Wykład XI: Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów
Model liniowy
Metoda najmniejszych kwadratów - przypadek ogólny
Statystyka i eksploracja danych
Wykład XI: Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów
Model liniowy
Metoda najmniejszych kwadratów - przypadek ogólny
Twierdzenie (Gaussa-Markowa)
Jeżeli składowe ε1 , ε2 , . . . , εd wektora błędów ~ε są białym szumem
(tzn. E εi = 0, Var (εi ) = σ 2 i są nieskorelowane) i jeżeli estymator
~ jest estymatorem nieobciążonym parametru ~c T β,
~
liniowy ~b T Y
T
gdzie X ~b = ~c , to
~ ) ­ Var (~c T β̂).
Var (~b T Y
Statystyka i eksploracja danych
Wykład XI: Metoda najmniejszych kwadratów
Metoda najmniejszych kwadratów
Model liniowy
Metoda najmniejszych kwadratów - przypadek ogólny
Twierdzenie (Gaussa-Markowa)
Jeżeli składowe ε1 , ε2 , . . . , εd wektora błędów ~ε są białym szumem
(tzn. E εi = 0, Var (εi ) = σ 2 i są nieskorelowane) i jeżeli estymator
~ jest estymatorem nieobciążonym parametru ~c T β,
~
liniowy ~b T Y
T
gdzie X ~b = ~c , to
~ ) ­ Var (~c T β̂).
Var (~b T Y
Twierdzenie
W założeniach tw. Gaussa-Markowa wielkość
s2 =
1
~ − X β̂)T (Y
~ − X β̂)
(Y
d −k
jest estymatorem nieobciążonym wariancji błędu:
Eβ~ s 2 = σ 2 .
Statystyka i eksploracja danych
Wykład XI: Metoda najmniejszych kwadratów

Podobne dokumenty