Audio-wizualne rozpoznawanie mowy.

Transkrypt

Audio-wizualne rozpoznawanie mowy.
Audio-wizualne
rozpoznawanie mowy.
Poprawa efektywności rozpoznawania mowy.
Katarzyna Sochaczewska, inżynieria akustyczna
“Languages are the colours we use on
our canvases of speech”
Dlaczego?
 Naturalne rozszerzenie w rozpoznawaniu mowy
 Obraz nie zakłócany przez hałas
 2 główne problemy:
- algorytmy które mogą ekstraktować informacje o ruchu ust w czasie
rzeczywistym
- integracja audio i video
 AVISPIRE
 MODALITY
Adaboost
Audiowizualne rozpoznawanie mowy
AVSR
Transformacja Hough’a w lokalizacji ust
Obraz (np z kamery) jest reprezentowany przez piksele o współrzędnych
kartezjańskich x, y. Prostą można zapisać jako kąt nachylenia FI I odległość od
początku układu współrzędnych. Powstaje w ten sposób zbiór punktów które
można ograniczyć, Transformata polega na kumulowaniu wiarygodności. Każdy
punkt ‘głosuje’.
Transformata Hough’a. Izofoty.
Dla każdego punktu p obrazu. Obliczamy pochodne
wzdłuż osi X I Y. punkty które są kandydatami na środek,
pochodzące od najbardziej zakrzywionych izofot dają
wyższe wartości. Tęczówki I źrenice są dużo ciemniejsze od
reszty oka. Metoda ta zawodzi w przypadku zamkniętych
oczu lub okularów na których powstają załamania światła
(w trakcie śledzenia obraz na gle ‘ucieka’ w bok) Aby
tego uniknąć stosuje się filtry Kalmana (predykcyjny, LQE)
Działa, ale…
Wady i zalety
opracowanie • wykorzystanie kamer
metod
stereo,
parametryzacji
termowizyjnych oraz
obrazu na
Time-of-Flight;
potrzeby
rozpoznawania
mowy;
analiza sygnałów
z kamer o
wysokim
współczynniku
klatek na
sekundę (ponad
100 fps);
nagrania multimodalnej
audiowizualnej bazy
sygnałów mowy dla
języka angielskiego;
V-mike
visio-microphone
 0.35um CMOS On-Chip:
- czujnik obrazu działający w osiach XY
- przetwarzający dane w czasie rzeczywistym (oparte na algorytmie
zaprojektowanym przez użytkownika)
- równoległe przetwarzanie na wielu warstwach (w tym przypadku na 2
osiach)
Schemat działania
Architektura urządzenia:
Korelacja między zamkniętymi i
otwartymi ustami,
Zalety
Prostota
Aplikacje
PC
in-line
Sensor na
środku
mikrofonu
Naturalna
synchronizacja
Podsumowanie
 AVSR jest dobrym rozwiązaniem w zaszumionych środowiskach, oraz w
przypadku wszelkich odstępstw od ‘czystego języka’ (akcenty, wady
wymowy)
 Innowacyjne podejście twórców V-Mike’a pozwala na rozpowszechnienie
metody AVSR przy minimalnym nakładzie obliczeniowym I pieniężnym
Literatura
 Yang Ni, Khaoula Sebri, A Smart-Visio Microphone for Audio-Visual Speech
Recognition "Vmike“
 CMOS vision systems anafocus technology
 G. Fanelli Hough Transform-based mouth localization for Audio-Visual
Speech Recognition