Audio-wizualne rozpoznawanie mowy.
Transkrypt
Audio-wizualne rozpoznawanie mowy.
Audio-wizualne rozpoznawanie mowy. Poprawa efektywności rozpoznawania mowy. Katarzyna Sochaczewska, inżynieria akustyczna “Languages are the colours we use on our canvases of speech” Dlaczego? Naturalne rozszerzenie w rozpoznawaniu mowy Obraz nie zakłócany przez hałas 2 główne problemy: - algorytmy które mogą ekstraktować informacje o ruchu ust w czasie rzeczywistym - integracja audio i video AVISPIRE MODALITY Adaboost Audiowizualne rozpoznawanie mowy AVSR Transformacja Hough’a w lokalizacji ust Obraz (np z kamery) jest reprezentowany przez piksele o współrzędnych kartezjańskich x, y. Prostą można zapisać jako kąt nachylenia FI I odległość od początku układu współrzędnych. Powstaje w ten sposób zbiór punktów które można ograniczyć, Transformata polega na kumulowaniu wiarygodności. Każdy punkt ‘głosuje’. Transformata Hough’a. Izofoty. Dla każdego punktu p obrazu. Obliczamy pochodne wzdłuż osi X I Y. punkty które są kandydatami na środek, pochodzące od najbardziej zakrzywionych izofot dają wyższe wartości. Tęczówki I źrenice są dużo ciemniejsze od reszty oka. Metoda ta zawodzi w przypadku zamkniętych oczu lub okularów na których powstają załamania światła (w trakcie śledzenia obraz na gle ‘ucieka’ w bok) Aby tego uniknąć stosuje się filtry Kalmana (predykcyjny, LQE) Działa, ale… Wady i zalety opracowanie • wykorzystanie kamer metod stereo, parametryzacji termowizyjnych oraz obrazu na Time-of-Flight; potrzeby rozpoznawania mowy; analiza sygnałów z kamer o wysokim współczynniku klatek na sekundę (ponad 100 fps); nagrania multimodalnej audiowizualnej bazy sygnałów mowy dla języka angielskiego; V-mike visio-microphone 0.35um CMOS On-Chip: - czujnik obrazu działający w osiach XY - przetwarzający dane w czasie rzeczywistym (oparte na algorytmie zaprojektowanym przez użytkownika) - równoległe przetwarzanie na wielu warstwach (w tym przypadku na 2 osiach) Schemat działania Architektura urządzenia: Korelacja między zamkniętymi i otwartymi ustami, Zalety Prostota Aplikacje PC in-line Sensor na środku mikrofonu Naturalna synchronizacja Podsumowanie AVSR jest dobrym rozwiązaniem w zaszumionych środowiskach, oraz w przypadku wszelkich odstępstw od ‘czystego języka’ (akcenty, wady wymowy) Innowacyjne podejście twórców V-Mike’a pozwala na rozpowszechnienie metody AVSR przy minimalnym nakładzie obliczeniowym I pieniężnym Literatura Yang Ni, Khaoula Sebri, A Smart-Visio Microphone for Audio-Visual Speech Recognition "Vmike“ CMOS vision systems anafocus technology G. Fanelli Hough Transform-based mouth localization for Audio-Visual Speech Recognition