Filtracja sygnałów dźwiękowych jako metoda znakowania

Transkrypt

Filtracja sygnałów dźwiękowych jako metoda znakowania
Ukryte Modele Markowa w rozpoznawaniu
słów
Parametryzacja sygnału mowy
X (k )  G(k )  H (k )
log X (k )  log G(k )  log H (k )
c(n)  1 log X (k )  1 log G(k )  1 log H (k )
Widmo
Widmo ampl. [dB]
cepstrum
Parametryzacja sygnału mowy - cepstrum
Parametryzacja sygnału mowy – mel-cepstrum
„przepróbkowanie” widma: X(k) -> S(k) (skala melowa)
S
X
Mel-cepstrum: MFCC(n) = F-1 [log |S(k)|]
Co 5-10 ms mierzymy kilkanaście
współczynników MFCC:
Tworzą one wektory obserwacji
o1,o2,…,oT
Modele obserwacji
Model ciągły (np. gaussowski)
Model dyskretny: kwantujemy wyniki obserwacji (kwantyzator
wektorowy) i podajemy prawdopodobieństwa wystąpienia każdego z
nich:
bi (o j )
„i” jest indeksem modelu (np. określoną głoską), a „j” identyfikuje jeden ze
skwantowanych wektorów obserwacji
HMM – dynamiczny model ciągu obserwacji
Np. „lalalalala…”
„l”
„a”
Kolejne obserwacje dokonane podczas wypowiadania danej frazy są przypisywane
określonym stanom, tworząc ukryty ciąg stanów:
Q = [ q(1), q(2), ... , q(t), ..., q(T)]
gdzie q(t) jest jednym z N stanów: S1, S2 lub SN
Np. Dla „lalala”, T=6, N=2, Q=[S1,S2,S1,S2,S1,S2]
HMM l jest opisany następująco: l  [A,B,p], gdzie A – macierz przejść między stanami,
B – modele (po jednym dla każdego stanu), p – prawdopodobieństwa startu (po jednym dla
każdego stanu)
Topologie HMM
Bakisa
Sk
stan
aij
przejście
ergodyczny
równoległo-szeregowy
Opis HMM
ergodyczny
1
3
2
4
A – macierz prawdopodobieństw
przejść między stanami
B – macierz prawdopodobieństw
wystąpienia zdarzenia w danym
w stanie
Π – wektor prawdopodobieństwa
inicjalizacji
 a11 a12
a
21 a 22
A
 a31 a32

a41 a42
 b11
b
 21
B  b31

b41
b51

a13
a23
a33
a43
b12
b13
b22
b23
b32
b33
b42
b43
b52
b53
a14 
a24 
a34 

a44 
b14 
b24 
b34 

b44 
b54 
  [p 1 p 2 p 3 p 4 ]
 1
 1
 1
HMM szeregowy (Bakisa 1-go rzędu)
a11 a12
 0 a
22
A
 0
0

0
 0
1
2
3
4
 b11
b
 21
B  b31

b41
b51

0
a23
a33
0
b12
b13
b22
b23
b32
b33
b42
b43
b52
b53
  [1 0 0
0]
0 
0 
a34 

a44 
b14 
b24 
b34 

b44 
b54 
HMM w rozpoznawaniu słów
- ciągłe modele gaussowskie
X - ciąg obserwacji
Wpływ struktury HMM na rozpoznawanie
słów
Dobre właściwości dyskryminacyjne ma struktura
szeregowa z wymuszeniem dojścia do ostatniego węzła
Projektowanie HMM – kryterium ML
(maximum likelihood)
Właściwości dyskryminacyjne HMM
Dyskryminacyjne metody projektowania
HMM
Minimum błędów klasyfikacji
Dyskryminacyjne metody projektowania
HMM
Maksimum prawdopodobieństwa warunkowego
Dyskryminacyjne metody projektowania
HMM
Maksimum odstępu (LM – large margin)
Porównanie metod ML i LM
Wypowiedzi słowa „pięć”, uporządkowane rosnąco względem d(i,j),
i = ‘pięć’, j=‘dziewięć’
LM
LM
ML
ML
Porównanie metod ML i LM
Wypowiedzi słowa „dziewięć”, uporządkowane rosnąco względem d(i,j),
i = ‘dziewięć’, j=‘pięć’
ML
LM
LM
ML
Porównanie metod ML i LM
Wypowiedzi słowa „osiem”, uporządkowane rosnąco względem d(i,j),
i = ‘osiem’, j=‘oś’
LM
LM
ML
ML
Porównanie metod ML i LM
Wypowiedzi słowa „oś”, uporządkowane rosnąco względem d(i,j),
i = ‘oś’, j=‘osiem’
LM
LM
ML
ML
Rozpoznawanie wypowiadanych cyfr
baza ucząca
testowana liczba: Cztery, zbiór uczacy
0
-1000
-2000
loglik
-3000
-4000
-5000
-6000
-7000
-8000
0
10
20
30
40
50
60
numer probki glosu
70
80
90
Praca mgr. Łukasz Marasek
Rozpoznawanie wypowiadanych cyfr
test
testowana liczba: Cztery, zbiór testowy
0
-1000
-2000
loglik
-3000
-4000
-5000
-6000
-7000
-8000
0
10
20
30
40
numer probki glosu
50
60
Praca mgr. Łukasz Marasek
Rozpoznawanie mówców
wypowiedzi mówcy M3
baza ucząca
test
HMM(M3)
ML HMM
18 CC
HMM(M3)
LM HMM
18 CC
HMM(M3)
LM HMM
18 CC +T0
Praca mgr. Marta Korbin
CC - wsp. cepstralne, T0 – ton krtaniowy, ML – max likelihood, LM – Large Margin

Podobne dokumenty