Komputerowe przetwarzanie sygnału mowy
Transkrypt
Komputerowe przetwarzanie sygnału mowy
”Komputerowe przetwarzanie sygnału mowy” Prof. dr hab. inż. Bożena Kostek Katedra Systemów Multimedialnych Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska Komputerowe przetwarzanie sygnału mowy Plan wykładu 1. Wprowadzenie – zagadnienia podstawowe 2. Podział systemów rozpoznawania mowy i mówców 3. Charakterystyka metod analizy i rozpoznawania mowy 4. Model fizyczny traktu głosowego 5. Ekstrakcja parametrów sygnału mowy - mikrofonemy 6. Przykładowe algorytmy rozpoznawania mowy 7. Podsumowanie Komputerowe przetwarzanie sygnału mowy Cyfrowe techniki przetwarzania sygnału mowy Transmisja i Rejestracja Rozpoznawanie i weryfikacja mówcy Ułatwienia dla osób niewidomych i niesłyszących Synteza mowy Poprawa jakości sygnału Rozpoznawanie mowy Wprowadzenie – komunikacja werbalna kora ruchowa tworzenie form wyrazowych i zdań pojęcia kolorów zwoje podstawne lewej pólkuli Struktura systemu wytwarzania mowy Wyższe czynniki psychiczne (proces myślowy) Nadrzędne sterowanie ruchów artykulacyjnych Kora Koramózgowa mózgowa Koordynacja i synchronizacja ruchów artykulacyjnych Sterowanie i regulacja czynności mięśni artykulacyjnych Pień Pieńmózgu mózgu Mięśnie, stawy i więzadła organów artykulacji Efektory Efektory Mowa i proces jej wytwarzania ja ma nos owa podnie bie nie re zonans no s o wy ja m a g a rd ło wa ja ma us tna artykulac ja fo nac ja krta ń tcha wica o ddyc hanie na głoś nia prze łyk Przekrój Przekrój narządów narządów mowy mowy Wytwarzanie mowy Generator tonu krtaniowego Transmitancja modulująca Impedancja emisji mowy Generator szumu Schemat Schematzastępczy zastępczysystemu systemuartykulacyjnego artykulacyjnego Modelowanie fizyczne - model falowodowy System złożony z N cylindrów o długości Li i powierzchni Ai (i = 1, 2, ..., N) Model fizyczny Zbiór rezonatorów cylindrycznych Input „Cyfrowy” model falowodowy z 1+r1 –d1 r0 z –r1 z –d1 r1 1–r1 z –r2 z –d2 Output 1+r2 –d2 –dN –rN r2 1–r2 z –dN Cechy widma sygnału mowy Przykład Przykładanalizy analizyspektrograficznej spektrograficznej-- wyraz wyraz„jeden” „jeden” Czas Czasanalizy analizy==0,56 0,56ss(STFT (STFT––short shorttime timeFourier Fouriertransform) transform) Cechy widma mowy – przykład cech dystynktywnych • nosowy-ustny - jeżeli widmo mowy wykazuje więcej niż dwa formanty poniżej 2 kHz, to jest to fonem nosowy. W przeciwnym przypadku fonem jest ustny • dźwięczny-bezdźwięczny – fonemy dźwięczne charakteryzuje obecność składowej periodycznej, której z kolei brak w fonemach bezdźwięcznych Najprostszy system rozpoznawania fonemów: cechy dystynktywne Spółgłoskowe Spółgłoskowe Ponadkrtaniowe Ponadkrtaniowe Nosowe Nosowe Łagodne Łagodne Skupione Skupione Jasne Jasne Niskotonowe Niskotonowe Krótkie Krótkie Dźwięczne Dźwięczne Podział systemów ARM Rozpoznawanie mowy Rozpoznawanie mowy ciągłej Rozpoznawanie mowy - zależnie od mówcy Rozpoznawanie izolowanych wyrazów Rozpoznawanie mowy niezależnie od mówcy Rozpoznawanie mowy niezależnie od mówcy w warunkach zakłóceń bądź ograniczonego pasma Wielkość słownika Podział systemów rozpoznawania mówców ze względu na cel rozpoznawania weryfikacja mówcy potwierdzenie deklarowanej przez mówcę tożsamości identyfikacja mówcy określenie, który z mówców się wypowiada, na podstawie zbioru modeli odniesienia Podział systemów rozpoznawania mówców ze względu na zależność od tekstu niezależne od treści skuteczne dla dowolnej wypowiedzi, wykorzystywane gdy nie można liczyć na współpracę mówcy zależne od treści skuteczne tylko dla niektórych wypowiedzi, wykorzystywane gdy można się spodziewać, że mówca wymówi hasło, numer identyfikacyjny lub podpowiedziany przez system tekst Podział systemów rozpoznawania mówców ze względu na charakter zbioru modeli mówców z zamkniętym zbiorem każdemu mówcy musi odpowiadać jakiś model odniesienia, wybierany jest najbliższy spośród wszystkich modeli mówców z otwartym zbiorem możliwe jest uznanie, że żaden z modeli odniesienia nie jest wystarczająco podobny do danej wypowiedzi, wybierany jest najbliższy spośród wszystkich modeli, pod warunkiem, że jego podobieństwo przekracza określony próg Proces rozpoznawania sygnału mowy Analiza i przetwarzanie wstępne sygnału Ekstrakcja parametrów Identyfikacja elementów fonetycznych Analiza leksykalna, gramatyczna, semantyczna "Rozumienie" Analiza mowy – przetwarzanie wstępne • Normalizacja energetyczna, preemfaza • Segmentacja sygnału (detekcja granic wyrazów, fonemów) Przykładowo: • Segmentacja poprzez analizę obwiedni amplitudowej pi − pi −1 > k ∨ pi − pi +1 > k gdzie: pi - i-ta próbka sygnału k - arbitralnie przyjęta wartość progowa t2 t2 ∫ ts(t )dt c= t1 t2 ∫ s(t )dt t1 d= ∫ (t −c) 2 s(t )dt t1 t2 ∫ s(t )dt k1 ≅ c − wd k2 ≅ c + wd t1 gdzie: c - środek ciężkości, d – dyspersja, t1, t2 – dowolna próbka „przed” i „za” wyrazem, s(t) – rozkład czasowy funkcji gęstości p, k1, k2 – granice wyrazu (numer próbki), Ekstrakcja parametrów - fonemy samogłoskowe Formanty FormantyFF11iiFF22 Momenty Momentycentralne centralneM Mc1 c1ii M Mcu2 cu2 Fonemy samogłoskowe Rozmieszczenie Rozmieszczeniena na płaszczyźnie polskich płaszczyźnieFF11iiFF22polskich samogłosek samogłosek––kilkunastu kilkunastu mówców mówców Analiza mowy – parametryzacja • współczynniki cepstralne (MFCC) w skali nieliniowej (melowej) M i = ∑ X k cos[i (k − 0.5)π / 20] 20 k =1 gdzie: i - numer współczynnika cepstralnego; k - liczba pasm częstotliwości logarytm energii w danym paśmie X k - częstotliwości k • proste parametry, np. liczba przejść przez zero lub przez inną wartość (w celu ograniczenia wpływu składowej stałej) • analiza LPC – współczynniki LPC Analiza mowy – parametryzacja Skala Koeniga służąca do obliczania mel-cepstum Wykresy cepstrum Słowo Słowo„zero” „zero”-trzech trzechmówców mówców Współczynniki cepstralne - cepstrogramy Słowo Słowo„cztery” „cztery”--dwóch dwóchmówców mówców Analiza czasowo-częstotliwościowa - spektrogramy Słowo Słowo„cztery” „cztery”--dwóch dwóchmówców mówców Współczynniki mel-cepstralne – mel-cepstrogramy Słowo Słowo„cztery” „cztery”--dwóch dwóchmówców mówców Automatyczna klasyfikacja Segmentacja Segmentacja redukcja redukcja danych danych 64kbit/s 64kbit/s Analiza i parametryzacja 64÷ ÷÷500bit/słowo 64÷ 500bit/słowo Badanie Badanieodległości odległości ciągów ciągówbinarnych binarnych rozpoznawanie rozpoznawanie Kalkulacja podobieństwa uczenie uczenie Pamięć referencyjna Osąd 200÷ ÷÷500ms 200÷ 500ms ARM – systemy decyzyjne Metody rozpoznawania izolowanych wyrazów: • • • • • • • • nieliniowa normalizacja czasowa NN - nearest neighbour kNN - k nearest neighbours centroid kwantyzacja wektorowa VQ (Vector Quantization) niejawne modele Markowa (HMM) sztuczne sieci neuronowe metoda zbiorów przybliżonych Algorytm nieliniowego dopasowania czasowego m M2 Proces Proces nieliniowego nieliniowego dopasowania dopasowania czasowego czasowego T(m) m = w(n) M1 R(n) N1 N2 n Algorytm nieliniowego dopasowania czasowego O R E Z Z E E R O O Ilustracja Ilustracjaprocesu procesunieliniowego nieliniowegodopasowania dopasowaniaczasowego czasowegoww przypadku przypadkuizolowanych izolowanychwyrazów wyrazów Algorytm nieliniowego dopasowania czasowego • Dopasowanie można przedstawić jako funkcję:m przy spełnionych warunkach brzegowych: = w(n) M 1 = w( N1 ) M 2 = w( N 2 ) oraz warunków ciągłości (następstwo segmentów) w(n + 1) − w(n) = 0,1,2 ( w(n) ≠ w(n − 1)) w(n + 1) − w(n) = 1,2 • ( w( n) = w(n − 1)) Dystans skumulowany jest miarą wskazującą na podobieństwo obiektu do wzorca: N DT = min ∑ D ( R(n),T ( w(n))) { w ( n )} n =1 DA (n, m) = D(n, m) + min D ( n − 1 , q ) A q≤m gdzie: D A ( n, m ) - minimalny dystans skumulowany względem punktu ( n, m) siatki HMM • Dane słowo Sm w słowniku M możliwych słów jest reprezentowane ciągiem m zdarzeń O • Każde słowo w słowniku jest opisane Łańcuchem Markowa (HMM), dla M słów ⇒ M⋅HMM {L1, L2,...., LM} • procedura dopasowania polega na obliczeniu sumarycznego prawdopodobieństwa (zdarzeń i przejść), że dany ciąg zdarzeń O został wygenerowany przez dany model L • Prawdopodobieństwo to dane jest wzorem: Pm=Pr(O|Lm) HMM aa121 121 aa1111 S1 aa2222 S2 aa211 211 aa321 321 aa231 231 aa131 131 S3 aa311 311 aa3333 Ilustracja Ilustracjastanów stanówiiprawdopodobieństwa prawdopodobieństwazdarzeń zdarzeńprocesu procesu Markowa Markowa HMM Określa się trzy elementy procesów Markowa dla wszystkich modeli 1≤m≤M: - N - liczba stanów w modelu S={S1, S2,...,SN} - M - liczba dyskretnych wartości, jakie może przybierać obserwacja zdarzeń - macierz przejścia - dyskretne obserwacje a11 . A= . . a1 N , ... , a1 N . . . . . . . . . . . . , ... , a NM b11 . B= . . b1 N , ... , b1 N . . . . . . . . . . . . , ... , bMN HMM Ilustracja Ilustracja wyboru wyboru optymalnej optymalnej drogi drogi przejścia przejścia Model Modelsłowa słowa Metoda zbiorów przybliżonych Rozpoznawanie Rozpoznawaniemowy mowyniezależnie niezależnieod odmówcy mówcyww oparciu oparciuoosystem systemdecyzyjny decyzyjnywykorzystujący wykorzystującymetodę metodę zbiorów zbiorówprzybliżonych przybliżonych Parametry Parametrymel-cepstralne mel-cepstralne Słownik: Słownik:40 40wyrazów, wyrazów,33mówców mówców . SYSTEM POPRAWNA BŁĘDNA BŁĄD DECYZYJNY KLASYFIKACJA KLASYFIKACJA [%] 1 dł. reguł = 1 114 6 5.0 2 dł. reguł = 2 116 4 3.3 3 dł. reguł = 3 113 7 5.8 4 dł. reguł = 4 110 10 8.3 Metoda zbiorów przybliżonych Skuteczność Skuteczność rozpoznawania rozpoznawania 100 [%] 90 80 r = c ⋅ ( µ RS − nµ ) nµ ∈< 0,1) gdzie: r – moc reguły c µ RS nµ 70 0,1 0,3 0,5 0,7 0,9 1 Punkt Punktneutralny neutralny miary miary przynależnści przynależnści-- - liczba przypadków potwierdzająca regułę - miara przynależności - punkt neutralny Inne systemy decyzyjne Y = [Y1 , Y2 ,..., Y10 ] Zapis Zapiswektora wektoracech cechii reguły: reguły: (Y1=1 ∧ Y2=0 ∧ Y3=0 ∧... ∧ Y10=0) ⇒ cyfra = ”jeden" (Y1=0 ∧ Y2=1 ∧ Y3=0 ∧... ∧ Y10=0) ⇒ cyfra = ”dwa" ................................................................................... (Y1=0 ∧ Y2=0 ∧ Y3=0 ∧... ∧ Y10=1) ⇒ cyfra =" zero" 1 2 3 METODA NN NN wspomagany wnioskow. rozmytym zbiory przybliżone POPRAWNA BŁĘDNA BŁĄD KLASYFIKACJA KLASYFIKACJA [%] 6 (+ 8 bez 86 decyzji) 6 (14) 93 7 7 92 8 8 Podsumowanie Tematyka komputerowego rozpoznawania sygnału mowy obejmuje trzy główne dziedziny: – podstawy akustyki – cyfrowe przetwarzanie sygnału – informatykę (uczące się systemy decyzyjne) Obok ograniczeń technologicznych automatyczne rozpoznawanie mowy wciąż napotyka na ograniczenia natury koncepcyjnej Dziękuję za uwagę