Filtracja sygnałów dźwiękowych jako metoda znakowania
Transkrypt
Filtracja sygnałów dźwiękowych jako metoda znakowania
Ukryte Modele Markowa w rozpoznawaniu słów Parametryzacja sygnału mowy X (k ) G(k ) H (k ) log X (k ) log G(k ) log H (k ) c(n) 1 log X (k ) 1 log G(k ) 1 log H (k ) Widmo Widmo ampl. [dB] cepstrum Parametryzacja sygnału mowy - cepstrum Parametryzacja sygnału mowy – mel-cepstrum „przepróbkowanie” widma: X(k) -> S(k) (skala melowa) S X Mel-cepstrum: MFCC(n) = F-1 [log |S(k)|] Co 5-10 ms mierzymy kilkanaście współczynników MFCC: Tworzą one wektory obserwacji o1,o2,…,oT Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy wyniki obserwacji (kwantyzator wektorowy) i podajemy prawdopodobieństwa wystąpienia każdego z nich: bi (o j ) „i” jest indeksem modelu (np. określoną głoską), a „j” identyfikuje jeden ze skwantowanych wektorów obserwacji HMM – dynamiczny model ciągu obserwacji Np. „lalalalala…” „l” „a” Kolejne obserwacje dokonane podczas wypowiadania danej frazy są przypisywane określonym stanom, tworząc ukryty ciąg stanów: Q = [ q(1), q(2), ... , q(t), ..., q(T)] gdzie q(t) jest jednym z N stanów: S1, S2 lub SN Np. Dla „lalala”, T=6, N=2, Q=[S1,S2,S1,S2,S1,S2] HMM l jest opisany następująco: l [A,B,p], gdzie A – macierz przejść między stanami, B – modele (po jednym dla każdego stanu), p – prawdopodobieństwa startu (po jednym dla każdego stanu) Topologie HMM Bakisa Sk stan aij przejście ergodyczny równoległo-szeregowy Opis HMM ergodyczny 1 3 2 4 A – macierz prawdopodobieństw przejść między stanami B – macierz prawdopodobieństw wystąpienia zdarzenia w danym w stanie Π – wektor prawdopodobieństwa inicjalizacji a11 a12 a 21 a 22 A a31 a32 a41 a42 b11 b 21 B b31 b41 b51 a13 a23 a33 a43 b12 b13 b22 b23 b32 b33 b42 b43 b52 b53 a14 a24 a34 a44 b14 b24 b34 b44 b54 [p 1 p 2 p 3 p 4 ] 1 1 1 HMM szeregowy (Bakisa 1-go rzędu) a11 a12 0 a 22 A 0 0 0 0 1 2 3 4 b11 b 21 B b31 b41 b51 0 a23 a33 0 b12 b13 b22 b23 b32 b33 b42 b43 b52 b53 [1 0 0 0] 0 0 a34 a44 b14 b24 b34 b44 b54 HMM w rozpoznawaniu słów - ciągłe modele gaussowskie X - ciąg obserwacji Wpływ struktury HMM na rozpoznawanie słów Dobre właściwości dyskryminacyjne ma struktura szeregowa z wymuszeniem dojścia do ostatniego węzła Projektowanie HMM – kryterium ML (maximum likelihood) Właściwości dyskryminacyjne HMM Dyskryminacyjne metody projektowania HMM Minimum błędów klasyfikacji Dyskryminacyjne metody projektowania HMM Maksimum prawdopodobieństwa warunkowego Dyskryminacyjne metody projektowania HMM Maksimum odstępu (LM – large margin) Porównanie metod ML i LM Wypowiedzi słowa „pięć”, uporządkowane rosnąco względem d(i,j), i = ‘pięć’, j=‘dziewięć’ LM LM ML ML Porównanie metod ML i LM Wypowiedzi słowa „dziewięć”, uporządkowane rosnąco względem d(i,j), i = ‘dziewięć’, j=‘pięć’ ML LM LM ML Porównanie metod ML i LM Wypowiedzi słowa „osiem”, uporządkowane rosnąco względem d(i,j), i = ‘osiem’, j=‘oś’ LM LM ML ML Porównanie metod ML i LM Wypowiedzi słowa „oś”, uporządkowane rosnąco względem d(i,j), i = ‘oś’, j=‘osiem’ LM LM ML ML Rozpoznawanie wypowiadanych cyfr baza ucząca testowana liczba: Cztery, zbiór uczacy 0 -1000 -2000 loglik -3000 -4000 -5000 -6000 -7000 -8000 0 10 20 30 40 50 60 numer probki glosu 70 80 90 Praca mgr. Łukasz Marasek Rozpoznawanie wypowiadanych cyfr test testowana liczba: Cztery, zbiór testowy 0 -1000 -2000 loglik -3000 -4000 -5000 -6000 -7000 -8000 0 10 20 30 40 numer probki glosu 50 60 Praca mgr. Łukasz Marasek Rozpoznawanie mówców wypowiedzi mówcy M3 baza ucząca test HMM(M3) ML HMM 18 CC HMM(M3) LM HMM 18 CC HMM(M3) LM HMM 18 CC +T0 Praca mgr. Marta Korbin CC - wsp. cepstralne, T0 – ton krtaniowy, ML – max likelihood, LM – Large Margin