Modelowanie mowy
Transkrypt
Modelowanie mowy
HTK 138 Czym jest HTK • Zbiór programów implementujących Niejawne Łańcuchy Markowa - Hidden Markov Models (HMMs) • ASR, synteza mowa, rozpoznawanie liter, badania nad sekwencjami DNA • Analiza mowy, wyćwiczenie HMM, testowanie i analiza rezultatów • HTK dopasowuje hipotezę każdego rozpoznania do jednego z elementów słownika przygotowanego przez użytkownika • Porównanie transkrypcji fonetycznych słów 139 Schemat HTK 140 Sekwencja symboli 141 Rozpoznanie pojedynczego słowa 142 Łańcuch Markowa 143 Ćwiczenie 144 Rozpoznawanie 145 Reprezentowanie mikstur 146 Reestymacja • Najpierw robi się zgrubne przybliżenie wartości parametrów HMM • Następnie dokładniejsze parametry można znaleźć stosując reestymację Baum-Welcha • Według kryterium maksymalnego podobieństwa (maximum likelihood) 147 Algorytm Viterbiego dla rozpoznawania izolowanych słów 148 Sieć rozpoznawania dla mowy ciągłej 149 Tokeny wykrywające granice słów 150 Używanie HTK • System można wykonać korzystając z tutoriala HTK Book, jednakże niektóre kroki będą inne, a niektóre można pominąć – Step 7 - 8 Fixing the Silence Models – Step 9 - 10 Making Triphones from Monophones • Różnice i niedopatrzenia – Przygotuj plik config1 i codetr.scp (config jak w tutorialu ale z SOURCEFORMAT = WAV) – Utwórz katalogi hmm0, hmm1, ... 151 Rzeczy o których należy pamiętać • Dokumentuj używane komendy i inne czynności • Dbaj o porządek w swoich plikach • Nagrywaj mowę w dobrej jakości (głośno, poprawnie wymowa, jak najmniej zakłóceń i szumu, bez przesterowania) • Nagrania muszą idealnie pasować do transkrypcji • Niczego nie kasuj • Aby otrzymać ocenę wyślij sprawozdanie, 152 nagrania, transkrypcję i cały system Modelowanie mowy Bartosz Ziółko 153 HMM 154 155 156 157 Probability density function 158 Maximum A Posteriori (MAP) Estimation Maximising the posterior pdf 159 Maximum-Likelihood (ML) Estimation Maximising the likelihood function 160 Common problems with using statistics 161 162 Klasyfikowanie i dekodowanie w ASR poza HMM • Klasyfikator k-NN • Artificial Neural Networks (ANN), Sztuczne sieci neuronowe • Support Vector Machine (SVM), Maszyna wektorów nośnych • Dynamic Bayesian Networks (DBN), Dynamiczne sieci Bayesa • Graphical Model Toolkit (GMTK) • Maximum Entropy Direct Model 163 • Conditional Random Fields (CRF) Modyfikacja AGH klasyfikatora k-NN 1 c1 0.8 c2 Wartość cechy 2 (x[2]) 0.6 0.4 0.2 0 -0.2 x -0.4 -0.6 -0.8 J. Gałka 0 0.2 0.4 0.6 0.8 1 1.2 Wartość cechy 1 (x[1]) 1.4 1.6 1.8 164 Artificial Neural Networks (ANN, NN) 165 Modelowanie czasu i kontekstu w ANN 166 Hosom, Cole, Fanty, CSLU at Oregon Institute of Science and Technology 167 168 169 „EVALUATION AND INTEGRATION OF NEURALNETWORK TRAINING TECHNIQUES FOR CONTINUOUS DIGIT RECOGNITION„ J.-P. Hosom, R. A. Cole, and P. Cosi Features: •13th-order MFCC with delta values (as in the baseline system, referred to as MFCC13D), •13th-order MFCC with no delta values (MFCC13), •9th-order MFCC with and without delta values (MFCC9D and MFCC9), •13th-order and 9th-order PLP with and without delta values (PLP13D, PLP13, PLP9D, PLP9), •a combination of 13th-order PLP and 13th-order MFCC (PM13), •a combination of 9th-order PLP and 9th-order MFCC (PM9). •All PLP features were computed using RASTA pre-processing, and all MFCC Grammars: features were computed using CMS •allowing optional silence between digits (SIL), pre-processing. •allowing an optional “garbage” word as well as 170 optional silence between digits (GAR). Metodologia empirycznego oceniania • Wyniki testów niczego nie dowodzą, mogą jedynie wskazywać itp. • Konieczne jest rozdzielenie danych treningowych i testowych, aczkolwiek można „crossować” • Prawo wielkich liczb, ale • Niektóre systemy statystyczne mogą się przećwiczyć • Oceniamy na raz wyłącznie jedną zmienną, reszta systemu musi być całkowicie stabilna • Należy podać jak najwięcej szczegółów dotyczących danych testowych, a w miarę możliwości używać ogólnodostępnych testów • Wyniki naukowe powinny być falsyfikowalne – 171 otwarcie na krytykę Support Vector Machine (SVM) 172 173 Ganapathiraju, Hamaker, Picone: „Applications of Support Vector Machines to Speech Recognition” • SVM nie może modelować wprost struktur czasowych • Stosuje się rozwiązania hybrydowe SVM/HMM • SVM zapewnia miarę i dyskryminant umożliwiający porównywanie klasyfikatorów • Brak jasnych relacji między dystansem klastrów i prawdopodobieństw a posteriori • Projektowanie klasyfikatora: jeden przeciwko wszystkim lub jeden na jeden • Model segmentowy ze stałą liczbą regionów 174 Ganapathiraju, Hamaker, Picone: „Applications of Support Vector Machines to Speech Recognition” 175 Ganapathiraju, Hamaker, Picone: „Applications of Support Vector Machines to Speech Recognition” 176 Nieliniowe klasyfikacje SVM • http://www.youtube.com/watch?v=3liCbR ZPrZA 177 Rezultaty stosowania SVM z różnymi ustawieniami w rozpoznawaniu mowy 178 Sieć Bayesowska Skierowany acykliczny graf reprezentujący zbiór zmiennych losowych i zależności warunkowych między nimi. 183 Sieć Bayesowska 184 185 Dynamiczne sieci Bayesowskie Wyrażenie s ozna cza wystąpienia stanów koncepcyjnych z dyskretnymi wartościami opisującymi fizyczny system o wartościach ciągłych ze stanami x i obserwacjami y 186 187 HMM a DBN • HMM jest podklasą DBN • DBN reprezentuje wprost właściwości rozkładu na czynniki • Rozkład na czynniki określony przez DBN narzuca warunki które model musi spełnić • DBNy przekazują informację strukturalną o ukrytym problemie 188 Edinburgh articulatory DBN model manner, place, voicing, rounding, front-back, static 189 Graphical Model Toolkit extension of DBN • Dopuszcza krawędzie ukierunkowane przeciwnie do upływu czasu • Płaszczyzny sieci mogą obejmować wiele ramek czasowych • Łamie założenia Markowa • Mechanizm do przełączania dziedziczenia • Dziedziczenie zmiennej może być wielokrotne a także ulokowane w przyszłości • Dopuszcza różne wieloramkowe struktury pojawiające się zarówno na początku jak i na końcu sieci Bilmes, Bartels: Graphical Model Architecture for Speech Recognition 190 GMTK 191 Maximum Entropy Markov Model Kuo, Gao: Maximum Entropy Direct Models for Speech Recognition 192 Conditional Random Fields • DBNy modelują dystrybucję prawdopodobieństw wielu zmiennych p(y,x) • CRFy modelują dystrybucję prawdopodobieństw warunkowych p(y|x) 193 Deep Neural Networks • Zwykle więcej warstw • Wysokopoziomowe cechy są definiowane w oparciu o niskopoziomowe 194 Dynamic Time Warping 195 196 197 198 Podsumowanie • W ASR stosuje się rozwiązania konkurencyjne do HMM (kNN, ANN, SVM, DBN, MEDM, GMTK, CRF, DNN). • We wspomnianych metodach są problemy z modelowaniem czasu i kontekstu koartykulacyjnego, dlatego często stosuje się hybrydy z HMM. • Metodologia testowania i oceny ASR • Przeszukiwanie grafów szerokie i dogłębne 199