Metody systemowe i decyzyjne w informatyce
Transkrypt
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia – lista zadań nr 3 autorzy: A. Gonczarek, J.M. Tomczak Przykładowy problem Klient pewnego baru przy pierwszej wizycie wypił x litrów piwa, natomiast przy następnej – y litrów piwa. Zebrano następujące dane dotyczące trzech klientów: x 1 2 3 y 1 1 3 Tabela 1: Dane dla trzech klientów. Chcemy przewidywać ile litrów y wypije klient przy następnej wizycie, jeżeli przy pierwszej wizycie wypił x. Model regresji liniowej Ekstrakcja cech Wyznacz macierz Φ = [φ(x1 ) φ(x2 ) . . . φ(xN )]T (ang. design matrix ) przyjmując następującą definicję cech: φ(x) = (1 x x2 )T ; 2 φ(x) = 1 e−(x−2) e−(x−3) 2 T ; oraz dane jak w przykładowym problemie (patrz tabela 1). Model Model regresji liniowej przyjmuje następującą postać: y(x) = φ(x)T w, gdzie w ∈ RD jest wektorem parametrów. Wyznacz (symbolicznie): wektor odpowiedzi y modelu dla ciągu obserwacji X = [x1 x2 . . . xN ]. 1 Uczenie 1. Dla błędu średniokwadratowego: 1 E(w) = ky − yk22 2 wyznacz: gradient ∇w E(w); wartości parametrów minimalizujące błąd E(w); wartości parametrów dla danych z tabeli 1 i wybranych cech. 2. Dla błędu średniokwadratowego z regularyzacją `2 : 1 Eλ (w) = ky − yk22 + λkwk22 2 gdzie λ > 0 jest współczynnikiem regularyzacji, wyznacz: gradient ∇w Eλ (w); wartości parametrów minimalizujące błąd Eλ (w); wartości parametrów dla danych z tabeli 1 i wybranych cech. Odpowiedz na następujące pytania: Czy zawsze istnieje rozwiązanie dla błędu E(w) i Eλ (w)? Odpowiedź uzasadnić. Które kryterium stosujemy w przypadku małej liczby obserwacji i dlaczego? W jaki sposób ustalić parametr λ? Predykcja Dla cech φ(x) = (1 x x2 )T oraz wektora parametrów w = (1 2 1)T , wyznaczyć odpowiedź modelu dla przykładowego wejścia x = 4. 2 Probabilistyczny model regresji liniowej Ekstrakcja cech Ekstrakcja cech analogiczna jak dla przypadku modelu regresji liniowej. Model Przyjmijmy następujący model: y = φ(x)T w + ε, gdzie ε ∼ N (ε|0, σ 2 ) oznacza zakłócenie. Wyznacz: rozkład warunkowy p(y|x, w, σ 2 ). Uczenie Dla ciągu obserwacji D = {(xn , yn )}N n=1 wyznacz i odpowiedz: funkcję wiarygodności; kryterium uczenia `M L (w) (ujemny logarytm funkcji wiarygodności); gradient względem w z kryterium uczenia `M L (w); wartości parametrów w minimalizujące kryterium uczenia; Jaki jest związek między rozwiązaniem minimalizującym kryterium E(w) i `M L (w)? Jak policzyć estymator σ 2 ? Jaką informację wnosi ten parametr? Predykcja Dla rozkładu warunkowego p(y|x) wyznaczyć optymalny model y(x) minimalizujący ryzyko (średnią stratę) w podejmowaniu decyzji. Przyjąć kwadratową funkcję straty 1 L(y, y) = (y − y)2 . 2 Podaj: ile wynosi y(x) dla modelu p(y|x, wM L , σ 2 ). 3 Probabilistyczny model regresji liniowej z rozkładem a priori na w Ekstrakcja cech Ekstrakcja cech analogiczna jak dla przypadku modelu regresji liniowej. Model Przyjmijmy następujący model: p(y|x, w) = N (y|φ(x)T w, σ 2 ) oraz zakładamy rozkład a priori na w: p(w) = N (w|0, α2 I), gdzie α2 i σ 2 są znane. Uczenie Dla danych D = {(xn , yn )}N n=1 wyznacz i odpowiedz: korzystając z wzoru Bayesa, rozkład a posteriori p(w|D); kryterium uczenia `M AP (w) (ujemny logarytm z rozkładu a posteriori ); gradient względem w z kryterium uczenia `M AP (w); wartości parametrów w maksymalizujące kryterium uczenia; Jaki jest związek między rozwiązaniem minimalizującym kryterium Eλ (w) i `M AP (w)? Ile wynosi parametr regularyzacji λ w tym przypadku? Jak zmienia się, gdy rośnie σ 2 , a jak, gdy rośnie α2 ? Predykcja Predykcja jest analogiczna jak w przypadku poprzednim, ale dla modelu p(y|x, wM AP ). Podaj: ile wynosi y(x). 4 DODATEK Rozkład dwupunktowy: B(x|θ) = θx (1 − θ)1−x , gdzie x ∈ {0, 1} i θ ∈ [0, 1] E[x] = θ Var[x] = θ(1 − θ) Rozkład wielopunktowy: M(x|θ) = D Y xd θd , gdzie xd ∈ {0, 1} i θd ∈ [0, 1] dla każdego d = 1, 2, . . . , D, d=1 D X θd = 1 d=1 E[xd ] = θd Var[xd ] = θd (1 − θd ) Rozkład normalny: (x − µ)2 1 exp − N (x|µ, σ 2 ) = √ 2σ 2 2π σ E[x] = µ Var[x] = σ 2 Rozkład normalny wielowymiarowy: 1 1 1 T −1 N (x|µ, Σ) = exp − (x − µ) Σ (x − µ) , (2π)D/2 |Σ|1/2 2 gdzie x jest wektorem D-wymiarowym, µ – D-wymiarowy wektor średnich, Σ – macierz D × D kowariancji E[x] = µ Cov[x] = Σ Rozkład beta: Γ(a + b) a−1 x (1 − x)b−1 , Beta(x|a, b) = Γ(a)Γ(b) gdzie x ∈ [0, 1] oraz a > 0 i b > 0, Γ(x) = E[x] = a a+b Var[x] = Z ∞ tx−1 e−t dt 0 ab (a+b)2 (a+b+1) Rozkład brzegowy: Dla rozkładu ciągłego: p(x) = Z p(x, y)dy i dla rozładu dyskretnego: p(x) = X y 5 p(x, y) Rozkład warunkowy: p(y|x) = p(x, y) p(x) Rozkład brzegowy i warunkowy dla wielowymiarowego rozkładu normalnego: Załóżmy, że x ∼ N (x|µ, Σ), gdzie x= xa xb , µ= µa µb Σ= , Σa Σc ΣTc Σb , wtedy mamy następujące zależności: p(xa ) = N (xa |µa , Σa ), p(xa |xb ) = N (xa |µ̂a , Σ̂a ), gdzie µ̂a = µa + Σc Σ−1 b (xb − µb ), T Σ̂a = Σa − Σc Σ−1 b Σc . Twierdzenie Bayesa: p(y|x) = p(x|y)p(y) p(x) Estymator największej wiarygodności: Danych jest N niezależnych realizacji D = {x1 . . . xN } wektora losowego x o rozkładzie p(x|θ). Funkcją wiarygodności nazywamy następującą funkcję: p(D|θ) = N Y p(xn |θ). n=1 Zlogarytmowaną funkcję p(D|θ) możemy określić zależnością: log p(D|θ) = N X log p(xn |θ). n=1 Estymatorem największej wiarygodności nazywamy θM L takie, że p(D|θM L ) = max p(D|θ). θ Estymator maksymalnego a posteriori : Dane są rozkład a priori p(θ) parametru θ oraz N niezależnych realizacji D = {x1 . . . xN } wektora losowego x o rozkładzie p(x|θ). Estymatorem maksymalnego a posteriori (MAP) nazywamy θM AP maksymalizujący rozkład a posteriori : p(θM AP |D) = max p(θ|D). θ 6 Ryzyko w podejmowaniu decyzji: Ryzyko (średnią stratę) definiujemy jako następujący funkcjonał: R[y] = ZZ L(y, y(x)) p(x, y)dxdy, gdzie L(·, ·) oznacza funkcję straty. Wybrane własności wektorów i macierzy: Dane są wektory x, y i macierz A symetryczna i dodatnio określona. Zachodzą wtedy następujące własności: ∂ (x − y)T A(x − y) = −2A(x − y) ∂y ∂(x − y)T A−1 (x − y) = −A−1 (x − y)(x − y)T A−1 ∂A ∂ ln det(A) = A−1 ∂A 7