Metody systemowe i decyzyjne w informatyce

Transkrypt

Metody systemowe i decyzyjne w informatyce
Ćwiczenia – lista zadań nr 3
autorzy: A. Gonczarek, J.M. Tomczak
Przykładowy problem
Klient pewnego baru przy pierwszej wizycie wypił x litrów piwa, natomiast przy następnej – y
litrów piwa. Zebrano następujące dane dotyczące trzech klientów:
x
1
2
3
y
1
1
3
Tabela 1: Dane dla trzech klientów.
Chcemy przewidywać ile litrów y wypije klient przy następnej wizycie, jeżeli przy pierwszej wizycie
wypił x.
Model regresji liniowej
Ekstrakcja cech
Wyznacz macierz Φ = [φ(x1 ) φ(x2 ) . . . φ(xN )]T (ang. design matrix ) przyjmując następującą definicję cech:
φ(x) = (1 x x2 )T ;
2
φ(x) = 1 e−(x−2) e−(x−3)
2
T
;
oraz dane jak w przykładowym problemie (patrz tabela 1).
Model
Model regresji liniowej przyjmuje następującą postać:
y(x) = φ(x)T w,
gdzie w ∈ RD jest wektorem parametrów.
Wyznacz (symbolicznie):
wektor odpowiedzi y modelu dla ciągu obserwacji X = [x1 x2 . . . xN ].
1
Uczenie
1. Dla błędu średniokwadratowego:
1
E(w) = ky − yk22
2
wyznacz:
gradient ∇w E(w);
wartości parametrów minimalizujące błąd E(w);
wartości parametrów dla danych z tabeli 1 i wybranych cech.
2. Dla błędu średniokwadratowego z regularyzacją `2 :
1
Eλ (w) = ky − yk22 + λkwk22
2
gdzie λ > 0 jest współczynnikiem regularyzacji, wyznacz:
gradient ∇w Eλ (w);
wartości parametrów minimalizujące błąd Eλ (w);
wartości parametrów dla danych z tabeli 1 i wybranych cech.
Odpowiedz na następujące pytania:
Czy zawsze istnieje rozwiązanie dla błędu E(w) i Eλ (w)? Odpowiedź uzasadnić.
Które kryterium stosujemy w przypadku małej liczby obserwacji i dlaczego?
W jaki sposób ustalić parametr λ?
Predykcja
Dla cech φ(x) = (1 x x2 )T oraz wektora parametrów w = (1 2 1)T , wyznaczyć odpowiedź modelu
dla przykładowego wejścia x = 4.
2
Probabilistyczny model regresji liniowej
Ekstrakcja cech
Ekstrakcja cech analogiczna jak dla przypadku modelu regresji liniowej.
Model
Przyjmijmy następujący model:
y = φ(x)T w + ε,
gdzie ε ∼ N (ε|0, σ 2 ) oznacza zakłócenie.
Wyznacz:
rozkład warunkowy p(y|x, w, σ 2 ).
Uczenie
Dla ciągu obserwacji D = {(xn , yn )}N
n=1 wyznacz i odpowiedz:
funkcję wiarygodności;
kryterium uczenia `M L (w) (ujemny logarytm funkcji wiarygodności);
gradient względem w z kryterium uczenia `M L (w);
wartości parametrów w minimalizujące kryterium uczenia;
Jaki jest związek między rozwiązaniem minimalizującym kryterium E(w) i `M L (w)?
Jak policzyć estymator σ 2 ? Jaką informację wnosi ten parametr?
Predykcja
Dla rozkładu warunkowego p(y|x) wyznaczyć optymalny model y(x) minimalizujący ryzyko (średnią stratę) w podejmowaniu decyzji. Przyjąć kwadratową funkcję straty
1
L(y, y) = (y − y)2 .
2
Podaj:
ile wynosi y(x) dla modelu p(y|x, wM L , σ 2 ).
3
Probabilistyczny model regresji liniowej z rozkładem a priori na w
Ekstrakcja cech
Ekstrakcja cech analogiczna jak dla przypadku modelu regresji liniowej.
Model
Przyjmijmy następujący model:
p(y|x, w) = N (y|φ(x)T w, σ 2 )
oraz zakładamy rozkład a priori na w:
p(w) = N (w|0, α2 I),
gdzie α2 i σ 2 są znane.
Uczenie
Dla danych D = {(xn , yn )}N
n=1 wyznacz i odpowiedz:
korzystając z wzoru Bayesa, rozkład a posteriori p(w|D);
kryterium uczenia `M AP (w) (ujemny logarytm z rozkładu a posteriori );
gradient względem w z kryterium uczenia `M AP (w);
wartości parametrów w maksymalizujące kryterium uczenia;
Jaki jest związek między rozwiązaniem minimalizującym kryterium Eλ (w) i `M AP (w)?
Ile wynosi parametr regularyzacji λ w tym przypadku? Jak zmienia się, gdy rośnie σ 2 , a jak,
gdy rośnie α2 ?
Predykcja
Predykcja jest analogiczna jak w przypadku poprzednim, ale dla modelu p(y|x, wM AP ).
Podaj:
ile wynosi y(x).
4
DODATEK
Rozkład dwupunktowy:
B(x|θ) = θx (1 − θ)1−x ,
gdzie x ∈ {0, 1} i θ ∈ [0, 1]
E[x] = θ
Var[x] = θ(1 − θ)
Rozkład wielopunktowy:
M(x|θ) =
D
Y
xd
θd ,
gdzie xd ∈ {0, 1} i θd ∈ [0, 1] dla każdego d = 1, 2, . . . , D,
d=1
D
X
θd = 1
d=1
E[xd ] = θd
Var[xd ] = θd (1 − θd )
Rozkład normalny:
(x − µ)2
1
exp −
N (x|µ, σ 2 ) = √
2σ 2
2π σ
E[x] = µ
Var[x] = σ 2
Rozkład normalny wielowymiarowy:
1
1
1
T −1
N (x|µ, Σ) =
exp − (x − µ) Σ (x − µ) ,
(2π)D/2 |Σ|1/2
2
gdzie x jest wektorem D-wymiarowym, µ – D-wymiarowy wektor średnich, Σ – macierz D × D
kowariancji
E[x] = µ
Cov[x] = Σ
Rozkład beta:
Γ(a + b) a−1
x (1 − x)b−1 ,
Beta(x|a, b) =
Γ(a)Γ(b)
gdzie x ∈ [0, 1] oraz a > 0 i b > 0, Γ(x) =
E[x] =
a
a+b
Var[x] =
Z ∞
tx−1 e−t dt
0
ab
(a+b)2 (a+b+1)
Rozkład brzegowy:
Dla rozkładu ciągłego:
p(x) =
Z
p(x, y)dy
i dla rozładu dyskretnego:
p(x) =
X
y
5
p(x, y)
Rozkład warunkowy:
p(y|x) =
p(x, y)
p(x)
Rozkład brzegowy i warunkowy dla wielowymiarowego rozkładu normalnego:
Załóżmy, że x ∼ N (x|µ, Σ), gdzie

x=
xa
xb

,

µ=
µa
µb


Σ=
,
Σa Σc
ΣTc Σb

,
wtedy mamy następujące zależności:
p(xa ) = N (xa |µa , Σa ),
p(xa |xb ) = N (xa |µ̂a , Σ̂a ), gdzie
µ̂a = µa + Σc Σ−1
b (xb − µb ),
T
Σ̂a = Σa − Σc Σ−1
b Σc .
Twierdzenie Bayesa:
p(y|x) =
p(x|y)p(y)
p(x)
Estymator największej wiarygodności:
Danych jest N niezależnych realizacji D = {x1 . . . xN } wektora losowego x o rozkładzie p(x|θ).
Funkcją wiarygodności nazywamy następującą funkcję:
p(D|θ) =
N
Y
p(xn |θ).
n=1
Zlogarytmowaną funkcję p(D|θ) możemy określić zależnością:
log p(D|θ) =
N
X
log p(xn |θ).
n=1
Estymatorem największej wiarygodności nazywamy θM L takie, że
p(D|θM L ) = max p(D|θ).
θ
Estymator maksymalnego a posteriori :
Dane są rozkład a priori p(θ) parametru θ oraz N niezależnych realizacji D = {x1 . . . xN } wektora
losowego x o rozkładzie p(x|θ). Estymatorem maksymalnego a posteriori (MAP) nazywamy θM AP
maksymalizujący rozkład a posteriori :
p(θM AP |D) = max p(θ|D).
θ
6
Ryzyko w podejmowaniu decyzji:
Ryzyko (średnią stratę) definiujemy jako następujący funkcjonał:
R[y] =
ZZ
L(y, y(x)) p(x, y)dxdy,
gdzie L(·, ·) oznacza funkcję straty.
Wybrane własności wektorów i macierzy:
Dane są wektory x, y i macierz A symetryczna i dodatnio określona. Zachodzą wtedy następujące
własności:

∂
(x − y)T A(x − y) = −2A(x − y)
∂y

∂(x − y)T A−1 (x − y)
= −A−1 (x − y)(x − y)T A−1
∂A

∂ ln det(A)
= A−1
∂A
7