Statystyka i eksploracja danych
Transkrypt
Statystyka i eksploracja danych
Metoda najmniejszych kwadratów Statystyka i eksploracja danych Wykład XI: Metoda najmniejszych kwadratów i regresja liniowa 5 maja 2014 Statystyka i eksploracja danych Wykład XI: Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Model liniowy Szereg czasowy Yt = 16t + Yt , Yt ∼ N (0, 1) Statystyka i eksploracja danych Wykład XI: Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Model liniowy Estymacja zależnosci liniowej Statystyka i eksploracja danych Wykład XI: Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Model liniowy Szereg czasowy Yt = 6 − 2t + Yt , Yt ∼ N (0, 1) Statystyka i eksploracja danych Wykład XI: Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Model liniowy Est. param.: b = 5, 654, a = −1, 923, s 2 = 0, 9727 Statystyka i eksploracja danych Wykład XI: Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Model liniowy Krzywa wyestymowana i krzywa rzeczywista Statystyka i eksploracja danych Wykład XI: Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Model liniowy Szereg czasowy Yt = 6 − 2t + 3t 2 + Yt , Yt ∼ N (0, 1) Statystyka i eksploracja danych Wykład XI: Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Model liniowy Est. param.: c = 5, 702, b = −2, 186, a = 3, 258, s 2 = 0, 9727 Statystyka i eksploracja danych Wykład XI: Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Model liniowy Krzywa wyestymowana i krzywa rzeczywista Statystyka i eksploracja danych Wykład XI: Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Model liniowy Model liniowy Statystyka i eksploracja danych Wykład XI: Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Model liniowy Model liniowy W modelu liniowym przyjmujemy, że d-wymiarowy wektor ~ ma postać obserwacji Y ~ = X β~ + ~ε, Y gdzie X = [xij ] jest macierzą danych (być może losowych) wymiaru d × k, β~ jest k-wymiarowym wektorem (nieznanych) parametrów, a ~ε jest d-wymiarowym wektorem błędów (o nieskorelowanych współrzędnych). Statystyka i eksploracja danych Wykład XI: Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Model liniowy Model liniowy W modelu liniowym przyjmujemy, że d-wymiarowy wektor ~ ma postać obserwacji Y ~ = X β~ + ~ε, Y gdzie X = [xij ] jest macierzą danych (być może losowych) wymiaru d × k, β~ jest k-wymiarowym wektorem (nieznanych) parametrów, a ~ε jest d-wymiarowym wektorem błędów (o nieskorelowanych współrzędnych). Problem: regresja liniowa, czyli estymacja ~ i X. wektora parametrów β~ w oparciu o konkretną realizację Y Statystyka i eksploracja danych Wykład XI: Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Model liniowy Metoda najmniejszych kwadratów (ang. „Least Squares Method”) Statystyka i eksploracja danych Wykład XI: Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Model liniowy Metoda najmniejszych kwadratów (ang. „Least Squares Method”) Rozwiązanie problemu: Postuluje się minimalny wpływ błędu, poszukując minimum funkcjonału ~ = kY ~ − X βk ~ 2 = (Y ~ − X β) ~ T (Y ~ − X β). ~ S(β) Statystyka i eksploracja danych Wykład XI: Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Model liniowy Metoda najmniejszych kwadratów (ang. „Least Squares Method”) Rozwiązanie problemu: Postuluje się minimalny wpływ błędu, poszukując minimum funkcjonału ~ = kY ~ − X βk ~ 2 = (Y ~ − X β) ~ T (Y ~ − X β). ~ S(β) ~ nazywamy estymatorem Rozwiązanie β̂ minimalizujące S(β) (uzyskanym) metodą najmniejszych kwadratów (ang. LSE = „Least Square Estimation”). W skrócie piszemy: EMNK. Statystyka i eksploracja danych Wykład XI: Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Model liniowy Metoda najmniejszych kwadratów - cd. Statystyka i eksploracja danych Wykład XI: Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Model liniowy Metoda najmniejszych kwadratów - cd. Twierdzenie ~ zawsze posiada minimalizator β̂, który spełnia Funkcjonał S(β) równanie ~ = X T X β̂. XTY Statystyka i eksploracja danych Wykład XI: Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Model liniowy Metoda najmniejszych kwadratów - cd. Twierdzenie ~ zawsze posiada minimalizator β̂, który spełnia Funkcjonał S(β) równanie ~ = X T X β̂. XTY Wniosek Jeżeli macierz X T X jest nieosobliwa, to estymatorem MNK jest ~. β̂ = (X T X )−1 X T Y Statystyka i eksploracja danych Wykład XI: Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Model liniowy Metoda najmniejszych kwadratów - cd. Twierdzenie ~ zawsze posiada minimalizator β̂, który spełnia Funkcjonał S(β) równanie ~ = X T X β̂. XTY Wniosek Jeżeli macierz X T X jest nieosobliwa, to estymatorem MNK jest ~. β̂ = (X T X )−1 X T Y ~ Estymator ten jest nieobciążony, tzn. E β̂ = β. Statystyka i eksploracja danych Wykład XI: Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Model liniowy Metoda najmniejszych kwadratów - cd. Twierdzenie ~ zawsze posiada minimalizator β̂, który spełnia Funkcjonał S(β) równanie ~ = X T X β̂. XTY Wniosek Jeżeli macierz X T X jest nieosobliwa, to estymatorem MNK jest ~. β̂ = (X T X )−1 X T Y ~ W szczególności Estymator ten jest nieobciążony, tzn. E β̂ = β. jego macierz kowariancji ma postać ~ β̂ − β) ~ T. Cov (β̂) = E (β̂ − β)( Statystyka i eksploracja danych Wykład XI: Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Model liniowy Metoda najmniejszych kwadratów - przypadek ogólny Statystyka i eksploracja danych Wykład XI: Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Model liniowy Metoda najmniejszych kwadratów - przypadek ogólny Twierdzenie (Gaussa-Markowa) Jeżeli składowe ε1 , ε2 , . . . , εd wektora błędów ~ε są białym szumem (tzn. E εi = 0, Var (εi ) = σ 2 i są nieskorelowane) i jeżeli estymator ~ jest estymatorem nieobciążonym parametru ~c T β, ~ liniowy ~b T Y T gdzie X ~b = ~c , to ~ ) Var (~c T β̂). Var (~b T Y Statystyka i eksploracja danych Wykład XI: Metoda najmniejszych kwadratów Metoda najmniejszych kwadratów Model liniowy Metoda najmniejszych kwadratów - przypadek ogólny Twierdzenie (Gaussa-Markowa) Jeżeli składowe ε1 , ε2 , . . . , εd wektora błędów ~ε są białym szumem (tzn. E εi = 0, Var (εi ) = σ 2 i są nieskorelowane) i jeżeli estymator ~ jest estymatorem nieobciążonym parametru ~c T β, ~ liniowy ~b T Y T gdzie X ~b = ~c , to ~ ) Var (~c T β̂). Var (~b T Y Twierdzenie W założeniach tw. Gaussa-Markowa wielkość s2 = 1 ~ − X β̂)T (Y ~ − X β̂) (Y d −k jest estymatorem nieobciążonym wariancji błędu: Eβ~ s 2 = σ 2 . Statystyka i eksploracja danych Wykład XI: Metoda najmniejszych kwadratów