tutaj

Transkrypt

tutaj
Metody systemowe i decyzyjne w informatyce
Ćwiczenia – lista zadań nr 3
Metody estymacji. Estymator największej wiarygodności
Zad. 1
Pojawianie się spamu opisane jest zmienną losową y o rozkładzie zero-jedynkowym z parametrem
θ ∈ [0, 1], gdzie zmienna y przyjmuje wartość 1, jeśli pojawiająca się wiadomość jest spamem.
Pewien użytkownik otagował N wiadomości, które przyszły do niego na pocztę. Korzystając z
metody największej wiarygodności wyliczyć estymator parametru θ.
Zad. 2
Populacja studentów Politechniki Wrocławskiej została podzielona na trzy grupy:
1. Studenci osiągający średnią do 3.5.
2. Studenci osiągający średnią od 3.5 do 4.5.
3. Studenci osiągający średnią powyżej 4.5.
Populacja studentów opisana jest wektorem losowym y = (y 1 y 2 y 3 )T , przyjmującym trzy wartości (1 0 0), gdy student należy do pierwszej grupy, (0 1 0), gdy student należy do drugiej grupy
i (0 0 1), gdy student należy do trzeciej grupy. Rozkład zmiennej y wyraża się za pomocą rozkładu wielomianowego o wektorze parametrów θ = (θ1 θ2 θ3 )T . Z populacji studentów wybrano N
obserwacji. Korzystając z metody największej wiarygodności wyliczyć estymator parametrów θ.
Zad. 3
Alarm samochodowy uzależnia swoje działanie od czujnika badającego poziom ultradźwięków w kabinie. Czujnik przed rozpoczęciem działania wymaga kalibracji. Przyjęto, że pomiary dokonywane
przez czujnik są realizacjami zmiennej losowej y o rozkładzie normalnym N (y|µ, σ 2 ). Dokonano
N pomiarów, gdy w kabinie nie występował żaden ruch. Korzystając z metody największej wiarygodności wyznaczyć estymatory parametrów µ i σ 2 . System alarmowy podejmuje decyzję o
uruchomieniu alarmu, jeśli dla pomiaru y F (y) > 1 − α, gdzie F (y) oznacza dystrybuantę rozkładu N (y|µ, σ 2 ), zaś α ∈ [0, 1] oznacza poziom istotności. Dla α = 0.05 wyznaczyć wartość ymax ,
powyżej której alarm się włącza.
1
Zad. 4
Charakterystyka wybranego słowa wypowiadanego przez człowieka opisana jest wektorem losowym cech y = (y 1 . . . y D )T przyjmującym wartości z wielowymiarowego rozkładu normalnego
N (y|µ, Σ). Pobrano N próbek danego słowa wypowiadanego przez różne osoby. Korzystając z
metody największej wiarygodności wyznaczyć estymatory µ i Σ. Jaka przykładowa metoda może
być zastosowana do wyodrębnienia (ekstrakcji) wektora cech y z fali dźwiękowej?
Zad. 5
Odsetek zdjęć z oznaczonymi tagami na wybranym koncie użytkownika pewnego portalu społecznościowego opisany jest zmienną losową y o rozkładzie Beta(y|a, b). Dla celów statystycznych
wybrano N użytkowników. Korzystając z metody momentów wyznaczyć estymatory parametrów
a i b.
Krzywa regresji. Model regresji liniowej
Zad. 6
W pewnej populacji ludzi znaleźć zależność wzrostu u i wagi y. Zmienne opisane są dwuwymiarowym rozkładem normalnym N (u, y|µ, Σ). Wyznaczyć warunkowy rozkład wagi w zależności od
wzrostu, a następnie wyznaczyć krzywą regresji (regresja I rodzaju).
Zad. 7
Zależność utargu w barze y zależy od liczby klientów u i kontekstu w oznaczającego, czy jest
weekend, czy nie (w ∈ {0, 1}), możemy wyrazić w następujący sposób
y = (1 − w)(k0 u + z0 ) + w(k1 u + z1 ),
gdzie z0 ∼ N (z0 |0, σ02 ), z1 ∼ N (z1 |0, σ12 ), oraz p(w = 1) =
3
.
7
Przyjmując k0 = 10 i k1 = 50
wyznaczyć rozkład warunkowy p(y|u), a następnie wyznaczyć krzywą regresji.
Zad. 8
Na przełomie roku zebrano N obserwacji {(un , yn )}N
n=1 , gdzie un oznacza cenę euro, a yn cenę dolara. Przyjmując model y = φ(u)T a + z, gdzie a = (a0 . . . aM −1 )T , φ(u) = (φ0 (u) . . . φM −1 (u))T ,
z ∼ N (z|0, σ 2 ). Korzystając z metody największej wiarygodności dopasować model regresji liniowej (regresja II rodzaju) do ciągu obserwacji – wyznaczyć estymatory a i σ 2 . Jaką dodatkową
informację wnosi ten model w porównaniu do modelu z zadania 4 (lista nr 2)?
Zad. 9
Dla problemu jak w zadaniu 8 dodatkowo przyjąć, że znany jest rozkład a priori wektora parametrów a, p(a) = N (a|0, α2 I), gdzie α jest znane. Ponadto znamy wartość σ 2 . Korzystając ze
2
wzoru Bayesa wyznaczyć rozkład a posteriori p(a|y, u), a następnie wyznaczyć estymator wektora
parametrów maksymalizujący ten rozkład (estymator MAP, tzn. maksymalnego a posteriori ).
Jaką należy przyjąć funkcję straty w funkcjonale ryzyka, aby otrzymać estymator MAP ? Jaki jest
związek podanego podejścia z zadaniem najmniejszych kwadratów z regularyzacją Tichonowa?
Zadanie klasyfikacji
Zad. 10
Dany jest słownik wyrazów W = {w1 , . . . , wD }. Każda wiadomość kodowana jest jako wektor zerojedynkowy u = (u1 . . . uD ), gdzie ud = 1, jeśli wyraz wd występuje w wiadomości. Ponadto, każdy
wyraz opisany jest następującym rozkładem warunkowym p(ud |y) = Bern(ud |θd0 )1−y Bern(ud |θd1 )y ,
gdzie y ∈ {0, 1} oraz y = 1 oznacza, że wiadomość jest spamem. Zmienna y jest zmienną losową
o rozkładzie Bern(y|θ). Przyjmujemy, że wszystkie zmienne losowe są niezależne. Zebrano N
otagowanych wiadomości e-mail. Korzystając z metody największej wiarygodności wyznaczyć
estymatory θdj dla d = 1, 2, . . . , D oraz j = 0, 1, i estymator θ. Następnie korzystając ze wzoru
Bayesa wyznaczyć rozkład p(y|u) i podać regułę decyzyjną czy nowo pojawiająca się wiadomość
u zostanie zaklasyfikowana jako spam.
Zad. 11
Dany jest alfabet L = {l1 . . . lK }, gdzie każda litera opisana jest wektorem cech u = (u1 . . . uD ) o
rozkładzie normalnym wielowymiarowym N (u|µk , Σk ), gdzie y = (y 1 . . . y K ) jest wektorem złożonym z samych zer i jednej jedynki – yk = 1, jeśli wektor cech u opisuje literę lk . Wektor y opisany
jest rozkładem wielomianowym Multi(y|θ). Dysponujemy ciągiem treningowym {(un , yn )}N
n=1 .
Korzystając z metody największej wiarygodności wyznaczyć estymatory parametrów µk , Σk i θk ,
dla k = 1, 2, . . . , K. Następnie korzystając ze wzoru Bayesa wyznaczyć rozkład p(y|u) i podać
regułę klasyfikacji nowo pojawiającej się litery.
Zad. 12
W problemie jak w zadaniu nr 10 przyjmujemy dodatkowo, że parametry θdj dla d = 1, 2, . . . , D,
j = 0, 1, oraz θ są zmiennymi losowymi o rozkładach a priori Beta(θdj |ajd , bjd ) i Beta(θ|a, b). Zebrano
N otagowanych wiadomości e-mail. Korzystając z metody MAP wyznaczyć estymatory θdj dla
d = 1, 2, . . . , D oraz j = 0, 1, i estymator θ.
3
Zadanie domowe (5 pkt.)
Dane mamy wartości estymatorów:
N
1 X
xn
µN =
N n=1
oraz
2
σN
N
1 X
=
(xn − µN )2 .
N n=1
2
Wykorzystując nową obserwację xN +1 wyznaczyć zależności rekurencyjne na µN +1 i σN
+1 .
4
DODATEK
Rozkład zero-jedynkowy:
Bern(x|θ) = θx (1 − θ)1−x ,
gdzie x ∈ {0, 1} i θ ∈ [0, 1]
E[x] = θ
Var[x] = θ(1 − θ)
Rozkład wielomianowy:
D
D
Y
X
xd
Multi(x|θ) =
θd , gdzie xd ∈ {0, 1} i θd ∈ [0, 1] dla każdego d = 1, 2, . . . , D,
θd = 1
d=1
d=1
E[xd ] = θd
Var[xd ] = θd (1 − θd )
Rozkład normalny:
n (x − µ)2 o
1
2
√
exp −
N (x|µ, σ ) =
2σ 2
2π σ
E[x] = µ
Var[x] = σ 2
Rozkład normalny wielowymiarowy:
n 1
o
1
1
T −1
N (x|µ, Σ) =
exp
−
(x
−
µ)
Σ
(x
−
µ)
,
(2π)D/2 |Σ|1/2
2
gdzie x jest wektorem D-wymiarowym, µ – D-wymiarowy wektor średnich, Σ – macierz D × D
kowariancji
E[x] = µ
Cov[x] = Σ
Rozkład beta:
Γ(a + b) a−1
Beta(x|a, b) =
x (1 − x)b−1 ,
Γ(a)Γ(b)
Z
∞
gdzie x ∈ [0, 1] oraz a > 0 i b > 0, Γ(x) =
E[x] =
a
a+b
Var[x] =
tx−1 e−t dt
0
ab
(a+b)2 (a+b+1)
Rozkład brzegowy:
Dla rozkładu ciągłego:
Z
p(x) =
p(x, y)dy
i dla rozładu dyskretnego:
p(x) =
X
y
5
p(x, y)
Rozkład warunkowy:
p(y|x) =
p(x, y)
p(x)
Rozkład brzegowy i warunkowy dla wielowymiarowego rozkładu normalnego:
Załóżmy, że x ∼ N (x|µ, Σ), gdzie
"
x=
xa
xb
#
"
,
µ=
µa
µb
#
"
Σa Σc
Σ=
,
ΣTc Σb
#
,
wtedy mamy następujące zależności:
p(xa ) = N (xa |µa , Σa ),
p(xa |xb ) = N (xa |µ̂a , Σ̂a ), gdzie
µ̂a = µa + Σc Σ−1
b (xb − µb ),
T
Σ̂a = Σa − Σc Σ−1
b Σc .
Twierdzenie Bayesa:
p(y|x) =
p(x|y)p(y)
p(x)
Estymator największej wiarygodności:
Danych jest N niezależnych realizacji x1 . . . xN wektora losowego x o rozkładzie p(x|θ). Funkcją
wiarygodności nazywamy następującą funkcję:
L(θ) =
N
Y
p(xn |θ).
n=1
Zlogarytmowaną funkcję L(θ) możemy określić zależnością:
l(θ) =
N
X
log p(xn |θ).
n=1
Estymatorem największej wiarygodności nazywamy θM L takie, że
l(θM L ) = max l(θ).
θ
Estymator maksymalnego a posteriori :
Dane są rozkład a priori p(θ) parametru θ oraz N niezależnych realizacji X = [x1 . . . xN ] wektora
losowego x o rozkładzie p(x|θ). Estymatorem maksymalnego a posteriori (MAP) nazywamy θM AP
maksymalizujący rozkład a posteriori :
p(θM AP |X) = max p(θ|X).
θ
6
Estymator ten jest równoważny minimalizacji funkcjonału ryzyka:
h
i
R(θ) = Eθ|X − δ(θ − θ) .
Wybrane własności wektorów i macierzy:
Dane są wektory x, y i macierz A symetryczna i dodatnio określona. Zachodzą wtedy następujące
własności:
•
∂
(x − y)T A(x − y) = −2A(x − y)
∂y
•
∂(x − y)T A−1 (x − y)
= −A−1 (x − y)(x − y)T A−1
∂A
•
∂ ln det(A)
= A−1
∂A
7