Modelowanie mowy

Transkrypt

Modelowanie mowy
HTK
138
Czym jest HTK
• Zbiór programów implementujących Niejawne
Łańcuchy Markowa - Hidden Markov Models
(HMMs)
• ASR, synteza mowa, rozpoznawanie liter, badania
nad sekwencjami DNA
• Analiza mowy, wyćwiczenie HMM, testowanie i
analiza rezultatów
• HTK dopasowuje hipotezę każdego rozpoznania
do
jednego
z
elementów
słownika
przygotowanego przez użytkownika
• Porównanie transkrypcji fonetycznych słów
139
Schemat HTK
140
Sekwencja symboli
141
Rozpoznanie pojedynczego słowa
142
Łańcuch Markowa
143
Ćwiczenie
144
Rozpoznawanie
145
Reprezentowanie mikstur
146
Reestymacja
• Najpierw
robi
się
zgrubne
przybliżenie wartości parametrów
HMM
• Następnie dokładniejsze parametry
można znaleźć stosując reestymację
Baum-Welcha
• Według kryterium
maksymalnego
podobieństwa (maximum likelihood)
147
Algorytm Viterbiego dla rozpoznawania
izolowanych słów
148
Sieć rozpoznawania dla mowy ciągłej
149
Tokeny wykrywające granice słów
150
Używanie HTK
• System można wykonać korzystając z
tutoriala HTK Book, jednakże niektóre
kroki będą inne, a niektóre można pominąć
– Step 7 - 8 Fixing the Silence Models
– Step 9 - 10 Making Triphones from
Monophones
• Różnice i niedopatrzenia
– Przygotuj plik config1 i codetr.scp (config
jak w tutorialu ale z SOURCEFORMAT =
WAV)
– Utwórz katalogi hmm0, hmm1, ...
151
Rzeczy o których należy pamiętać
• Dokumentuj używane komendy i inne
czynności
• Dbaj o porządek w swoich plikach
• Nagrywaj mowę w dobrej jakości (głośno,
poprawnie wymowa, jak najmniej zakłóceń i
szumu, bez przesterowania)
• Nagrania muszą idealnie pasować do
transkrypcji
• Niczego nie kasuj
• Aby otrzymać ocenę wyślij sprawozdanie,
152
nagrania, transkrypcję i cały system
Modelowanie mowy
Bartosz Ziółko
153
HMM
154
155
156
157
Probability density function
158
Maximum A Posteriori
(MAP) Estimation
Maximising the posterior pdf
159
Maximum-Likelihood (ML)
Estimation
Maximising the likelihood function
160
Common problems with using statistics
161
162
Klasyfikowanie i dekodowanie w
ASR poza HMM
• Klasyfikator k-NN
• Artificial Neural Networks (ANN),
Sztuczne sieci neuronowe
• Support Vector Machine (SVM), Maszyna
wektorów nośnych
• Dynamic Bayesian Networks (DBN),
Dynamiczne sieci Bayesa
• Graphical Model Toolkit (GMTK)
• Maximum Entropy Direct Model
163
• Conditional Random Fields (CRF)
Modyfikacja AGH klasyfikatora k-NN
1
c1
0.8
c2
Wartość cechy 2 (x[2])
0.6
0.4
0.2
0
-0.2
x
-0.4
-0.6
-0.8
J. Gałka
0
0.2
0.4
0.6
0.8
1
1.2
Wartość cechy 1 (x[1])
1.4
1.6
1.8
164
Artificial Neural Networks (ANN, NN)
165
Modelowanie czasu i kontekstu w ANN
166
Hosom, Cole, Fanty, CSLU at Oregon Institute of Science and Technology
167
168
169
„EVALUATION AND INTEGRATION OF NEURALNETWORK TRAINING TECHNIQUES FOR
CONTINUOUS DIGIT RECOGNITION„
J.-P. Hosom, R. A. Cole, and P. Cosi
Features:
•13th-order MFCC with delta values (as
in the baseline system, referred to as
MFCC13D),
•13th-order MFCC with no delta values
(MFCC13),
•9th-order MFCC with and without delta
values (MFCC9D and MFCC9),
•13th-order and 9th-order PLP with and
without delta values (PLP13D, PLP13,
PLP9D, PLP9),
•a combination of 13th-order PLP and
13th-order MFCC (PM13),
•a combination of 9th-order PLP and
9th-order MFCC (PM9).
•All PLP features were computed using
RASTA pre-processing, and all MFCC
Grammars:
features were computed using CMS
•allowing optional silence between digits (SIL),
pre-processing.
•allowing an optional “garbage” word as well as
170
optional silence between digits (GAR).
Metodologia empirycznego oceniania
• Wyniki testów niczego nie dowodzą, mogą jedynie
wskazywać itp.
• Konieczne jest rozdzielenie danych treningowych i
testowych, aczkolwiek można „crossować”
• Prawo wielkich liczb, ale
• Niektóre systemy statystyczne mogą się przećwiczyć
• Oceniamy na raz wyłącznie jedną zmienną, reszta
systemu musi być całkowicie stabilna
• Należy podać jak najwięcej szczegółów dotyczących
danych testowych, a w miarę możliwości używać
ogólnodostępnych testów
• Wyniki naukowe powinny być falsyfikowalne –
171
otwarcie na krytykę
Support Vector Machine (SVM)
172
173
Ganapathiraju, Hamaker, Picone:
„Applications of Support Vector
Machines to Speech Recognition”
• SVM nie może modelować wprost struktur
czasowych
• Stosuje się rozwiązania hybrydowe SVM/HMM
• SVM zapewnia miarę i dyskryminant
umożliwiający porównywanie klasyfikatorów
• Brak jasnych relacji między dystansem
klastrów i prawdopodobieństw a posteriori
• Projektowanie klasyfikatora: jeden przeciwko
wszystkim lub jeden na jeden
• Model segmentowy ze stałą liczbą regionów
174
Ganapathiraju, Hamaker, Picone:
„Applications of Support Vector
Machines to Speech Recognition”
175
Ganapathiraju, Hamaker, Picone:
„Applications of Support Vector
Machines to Speech Recognition”
176
Nieliniowe klasyfikacje SVM
• http://www.youtube.com/watch?v=3liCbR
ZPrZA
177
Rezultaty stosowania SVM z różnymi
ustawieniami w rozpoznawaniu mowy
178
Sieć Bayesowska
Skierowany
acykliczny graf
reprezentujący
zbiór zmiennych
losowych i
zależności
warunkowych
między nimi.
183
Sieć Bayesowska
184
185
Dynamiczne sieci Bayesowskie
Wyrażenie s ozna
cza wystąpienia
stanów
koncepcyjnych z
dyskretnymi
wartościami
opisującymi
fizyczny system o
wartościach
ciągłych ze
stanami x i
obserwacjami y
186
187
HMM a DBN
• HMM jest podklasą DBN
• DBN reprezentuje wprost właściwości
rozkładu na czynniki
• Rozkład na czynniki określony przez DBN
narzuca warunki które model musi spełnić
• DBNy przekazują informację strukturalną
o ukrytym problemie
188
Edinburgh articulatory DBN model
manner,
place,
voicing,
rounding,
front-back,
static
189
Graphical Model Toolkit
extension of DBN
• Dopuszcza krawędzie ukierunkowane
przeciwnie do upływu czasu
• Płaszczyzny sieci mogą obejmować wiele
ramek czasowych
• Łamie założenia Markowa
• Mechanizm do przełączania dziedziczenia
• Dziedziczenie zmiennej może być
wielokrotne a także ulokowane w przyszłości
• Dopuszcza różne wieloramkowe struktury
pojawiające się zarówno na początku jak i
na końcu sieci
Bilmes, Bartels: Graphical Model Architecture for Speech Recognition
190
GMTK
191
Maximum Entropy Markov Model
Kuo, Gao: Maximum Entropy Direct Models for Speech Recognition
192
Conditional Random Fields
• DBNy modelują dystrybucję
prawdopodobieństw wielu zmiennych p(y,x)
• CRFy modelują dystrybucję
prawdopodobieństw warunkowych p(y|x)
193
Deep Neural Networks
• Zwykle więcej warstw
• Wysokopoziomowe cechy są definiowane w
oparciu o niskopoziomowe
194
Dynamic Time Warping
195
196
197
198
Podsumowanie
• W ASR stosuje się rozwiązania
konkurencyjne do HMM (kNN, ANN, SVM,
DBN, MEDM, GMTK, CRF, DNN).
• We wspomnianych metodach są problemy
z modelowaniem czasu i kontekstu
koartykulacyjnego, dlatego często stosuje
się hybrydy z HMM.
• Metodologia testowania i oceny ASR
• Przeszukiwanie grafów szerokie i dogłębne
199