tutaj
Transkrypt
tutaj
Metody systemowe i decyzyjne w informatyce Ćwiczenia – lista zadań nr 3 Metody estymacji. Estymator największej wiarygodności Zad. 1 Pojawianie się spamu opisane jest zmienną losową y o rozkładzie zero-jedynkowym z parametrem θ ∈ [0, 1], gdzie zmienna y przyjmuje wartość 1, jeśli pojawiająca się wiadomość jest spamem. Pewien użytkownik otagował N wiadomości, które przyszły do niego na pocztę. Korzystając z metody największej wiarygodności wyliczyć estymator parametru θ. Zad. 2 Populacja studentów Politechniki Wrocławskiej została podzielona na trzy grupy: 1. Studenci osiągający średnią do 3.5. 2. Studenci osiągający średnią od 3.5 do 4.5. 3. Studenci osiągający średnią powyżej 4.5. Populacja studentów opisana jest wektorem losowym y = (y 1 y 2 y 3 )T , przyjmującym trzy wartości (1 0 0), gdy student należy do pierwszej grupy, (0 1 0), gdy student należy do drugiej grupy i (0 0 1), gdy student należy do trzeciej grupy. Rozkład zmiennej y wyraża się za pomocą rozkładu wielomianowego o wektorze parametrów θ = (θ1 θ2 θ3 )T . Z populacji studentów wybrano N obserwacji. Korzystając z metody największej wiarygodności wyliczyć estymator parametrów θ. Zad. 3 Alarm samochodowy uzależnia swoje działanie od czujnika badającego poziom ultradźwięków w kabinie. Czujnik przed rozpoczęciem działania wymaga kalibracji. Przyjęto, że pomiary dokonywane przez czujnik są realizacjami zmiennej losowej y o rozkładzie normalnym N (y|µ, σ 2 ). Dokonano N pomiarów, gdy w kabinie nie występował żaden ruch. Korzystając z metody największej wiarygodności wyznaczyć estymatory parametrów µ i σ 2 . System alarmowy podejmuje decyzję o uruchomieniu alarmu, jeśli dla pomiaru y F (y) > 1 − α, gdzie F (y) oznacza dystrybuantę rozkładu N (y|µ, σ 2 ), zaś α ∈ [0, 1] oznacza poziom istotności. Dla α = 0.05 wyznaczyć wartość ymax , powyżej której alarm się włącza. 1 Zad. 4 Charakterystyka wybranego słowa wypowiadanego przez człowieka opisana jest wektorem losowym cech y = (y 1 . . . y D )T przyjmującym wartości z wielowymiarowego rozkładu normalnego N (y|µ, Σ). Pobrano N próbek danego słowa wypowiadanego przez różne osoby. Korzystając z metody największej wiarygodności wyznaczyć estymatory µ i Σ. Jaka przykładowa metoda może być zastosowana do wyodrębnienia (ekstrakcji) wektora cech y z fali dźwiękowej? Zad. 5 Odsetek zdjęć z oznaczonymi tagami na wybranym koncie użytkownika pewnego portalu społecznościowego opisany jest zmienną losową y o rozkładzie Beta(y|a, b). Dla celów statystycznych wybrano N użytkowników. Korzystając z metody momentów wyznaczyć estymatory parametrów a i b. Krzywa regresji. Model regresji liniowej Zad. 6 W pewnej populacji ludzi znaleźć zależność wzrostu u i wagi y. Zmienne opisane są dwuwymiarowym rozkładem normalnym N (u, y|µ, Σ). Wyznaczyć warunkowy rozkład wagi w zależności od wzrostu, a następnie wyznaczyć krzywą regresji (regresja I rodzaju). Zad. 7 Zależność utargu w barze y zależy od liczby klientów u i kontekstu w oznaczającego, czy jest weekend, czy nie (w ∈ {0, 1}), możemy wyrazić w następujący sposób y = (1 − w)(k0 u + z0 ) + w(k1 u + z1 ), gdzie z0 ∼ N (z0 |0, σ02 ), z1 ∼ N (z1 |0, σ12 ), oraz p(w = 1) = 3 . 7 Przyjmując k0 = 10 i k1 = 50 wyznaczyć rozkład warunkowy p(y|u), a następnie wyznaczyć krzywą regresji. Zad. 8 Na przełomie roku zebrano N obserwacji {(un , yn )}N n=1 , gdzie un oznacza cenę euro, a yn cenę dolara. Przyjmując model y = φ(u)T a + z, gdzie a = (a0 . . . aM −1 )T , φ(u) = (φ0 (u) . . . φM −1 (u))T , z ∼ N (z|0, σ 2 ). Korzystając z metody największej wiarygodności dopasować model regresji liniowej (regresja II rodzaju) do ciągu obserwacji – wyznaczyć estymatory a i σ 2 . Jaką dodatkową informację wnosi ten model w porównaniu do modelu z zadania 4 (lista nr 2)? Zad. 9 Dla problemu jak w zadaniu 8 dodatkowo przyjąć, że znany jest rozkład a priori wektora parametrów a, p(a) = N (a|0, α2 I), gdzie α jest znane. Ponadto znamy wartość σ 2 . Korzystając ze 2 wzoru Bayesa wyznaczyć rozkład a posteriori p(a|y, u), a następnie wyznaczyć estymator wektora parametrów maksymalizujący ten rozkład (estymator MAP, tzn. maksymalnego a posteriori ). Jaką należy przyjąć funkcję straty w funkcjonale ryzyka, aby otrzymać estymator MAP ? Jaki jest związek podanego podejścia z zadaniem najmniejszych kwadratów z regularyzacją Tichonowa? Zadanie klasyfikacji Zad. 10 Dany jest słownik wyrazów W = {w1 , . . . , wD }. Każda wiadomość kodowana jest jako wektor zerojedynkowy u = (u1 . . . uD ), gdzie ud = 1, jeśli wyraz wd występuje w wiadomości. Ponadto, każdy wyraz opisany jest następującym rozkładem warunkowym p(ud |y) = Bern(ud |θd0 )1−y Bern(ud |θd1 )y , gdzie y ∈ {0, 1} oraz y = 1 oznacza, że wiadomość jest spamem. Zmienna y jest zmienną losową o rozkładzie Bern(y|θ). Przyjmujemy, że wszystkie zmienne losowe są niezależne. Zebrano N otagowanych wiadomości e-mail. Korzystając z metody największej wiarygodności wyznaczyć estymatory θdj dla d = 1, 2, . . . , D oraz j = 0, 1, i estymator θ. Następnie korzystając ze wzoru Bayesa wyznaczyć rozkład p(y|u) i podać regułę decyzyjną czy nowo pojawiająca się wiadomość u zostanie zaklasyfikowana jako spam. Zad. 11 Dany jest alfabet L = {l1 . . . lK }, gdzie każda litera opisana jest wektorem cech u = (u1 . . . uD ) o rozkładzie normalnym wielowymiarowym N (u|µk , Σk ), gdzie y = (y 1 . . . y K ) jest wektorem złożonym z samych zer i jednej jedynki – yk = 1, jeśli wektor cech u opisuje literę lk . Wektor y opisany jest rozkładem wielomianowym Multi(y|θ). Dysponujemy ciągiem treningowym {(un , yn )}N n=1 . Korzystając z metody największej wiarygodności wyznaczyć estymatory parametrów µk , Σk i θk , dla k = 1, 2, . . . , K. Następnie korzystając ze wzoru Bayesa wyznaczyć rozkład p(y|u) i podać regułę klasyfikacji nowo pojawiającej się litery. Zad. 12 W problemie jak w zadaniu nr 10 przyjmujemy dodatkowo, że parametry θdj dla d = 1, 2, . . . , D, j = 0, 1, oraz θ są zmiennymi losowymi o rozkładach a priori Beta(θdj |ajd , bjd ) i Beta(θ|a, b). Zebrano N otagowanych wiadomości e-mail. Korzystając z metody MAP wyznaczyć estymatory θdj dla d = 1, 2, . . . , D oraz j = 0, 1, i estymator θ. 3 Zadanie domowe (5 pkt.) Dane mamy wartości estymatorów: N 1 X xn µN = N n=1 oraz 2 σN N 1 X = (xn − µN )2 . N n=1 2 Wykorzystując nową obserwację xN +1 wyznaczyć zależności rekurencyjne na µN +1 i σN +1 . 4 DODATEK Rozkład zero-jedynkowy: Bern(x|θ) = θx (1 − θ)1−x , gdzie x ∈ {0, 1} i θ ∈ [0, 1] E[x] = θ Var[x] = θ(1 − θ) Rozkład wielomianowy: D D Y X xd Multi(x|θ) = θd , gdzie xd ∈ {0, 1} i θd ∈ [0, 1] dla każdego d = 1, 2, . . . , D, θd = 1 d=1 d=1 E[xd ] = θd Var[xd ] = θd (1 − θd ) Rozkład normalny: n (x − µ)2 o 1 2 √ exp − N (x|µ, σ ) = 2σ 2 2π σ E[x] = µ Var[x] = σ 2 Rozkład normalny wielowymiarowy: n 1 o 1 1 T −1 N (x|µ, Σ) = exp − (x − µ) Σ (x − µ) , (2π)D/2 |Σ|1/2 2 gdzie x jest wektorem D-wymiarowym, µ – D-wymiarowy wektor średnich, Σ – macierz D × D kowariancji E[x] = µ Cov[x] = Σ Rozkład beta: Γ(a + b) a−1 Beta(x|a, b) = x (1 − x)b−1 , Γ(a)Γ(b) Z ∞ gdzie x ∈ [0, 1] oraz a > 0 i b > 0, Γ(x) = E[x] = a a+b Var[x] = tx−1 e−t dt 0 ab (a+b)2 (a+b+1) Rozkład brzegowy: Dla rozkładu ciągłego: Z p(x) = p(x, y)dy i dla rozładu dyskretnego: p(x) = X y 5 p(x, y) Rozkład warunkowy: p(y|x) = p(x, y) p(x) Rozkład brzegowy i warunkowy dla wielowymiarowego rozkładu normalnego: Załóżmy, że x ∼ N (x|µ, Σ), gdzie " x= xa xb # " , µ= µa µb # " Σa Σc Σ= , ΣTc Σb # , wtedy mamy następujące zależności: p(xa ) = N (xa |µa , Σa ), p(xa |xb ) = N (xa |µ̂a , Σ̂a ), gdzie µ̂a = µa + Σc Σ−1 b (xb − µb ), T Σ̂a = Σa − Σc Σ−1 b Σc . Twierdzenie Bayesa: p(y|x) = p(x|y)p(y) p(x) Estymator największej wiarygodności: Danych jest N niezależnych realizacji x1 . . . xN wektora losowego x o rozkładzie p(x|θ). Funkcją wiarygodności nazywamy następującą funkcję: L(θ) = N Y p(xn |θ). n=1 Zlogarytmowaną funkcję L(θ) możemy określić zależnością: l(θ) = N X log p(xn |θ). n=1 Estymatorem największej wiarygodności nazywamy θM L takie, że l(θM L ) = max l(θ). θ Estymator maksymalnego a posteriori : Dane są rozkład a priori p(θ) parametru θ oraz N niezależnych realizacji X = [x1 . . . xN ] wektora losowego x o rozkładzie p(x|θ). Estymatorem maksymalnego a posteriori (MAP) nazywamy θM AP maksymalizujący rozkład a posteriori : p(θM AP |X) = max p(θ|X). θ 6 Estymator ten jest równoważny minimalizacji funkcjonału ryzyka: h i R(θ) = Eθ|X − δ(θ − θ) . Wybrane własności wektorów i macierzy: Dane są wektory x, y i macierz A symetryczna i dodatnio określona. Zachodzą wtedy następujące własności: • ∂ (x − y)T A(x − y) = −2A(x − y) ∂y • ∂(x − y)T A−1 (x − y) = −A−1 (x − y)(x − y)T A−1 ∂A • ∂ ln det(A) = A−1 ∂A 7