tworzenie modelu akustycznego na potrzeby weryfikacji mówcy przy

Transkrypt

tworzenie modelu akustycznego na potrzeby weryfikacji mówcy przy
MODELOWANIE INŻYNIERSKIE
40, s. 249-256, Gliwice 2010
ISSN 1896-771X
TWORZENIE MODELU AKUSTYCZNEGO
NA POTRZEBY WERYFIKACJI MÓWCY
PRZY UŻYCIU UKRYTYCH MODELI MARKOWA
IWONA WANAT
MAREK IWANIEC
Katedra Automatyzacji Procesów, Wydział Inżynierii Mechanicznej i Robotyki
Akademia Górniczo-Hutnicza im. St. Staszica w Krakowie
e-mail: [email protected], [email protected]
Streszczenie. Artykuł porusza zagadnienia związane z wykorzystaniem głosu
w celu weryfikacji mówców. Przedstawiono w nim poszczególne etapy
konstrukcji systemu informatycznego, a w szczególności wstępną obróbkę
danych, ekstraktor cech osobniczych oraz klasyfikator. Ponadto z danych
głosowych zostały wyodrębnione współczynniki MFCC (ang. Mel Frequency
Cepstrum Coefficients), obliczono również ich pierwszą i drugą pochodną.
W ostatnim - trzecim etapie, jako narzędzie klasyfikujące, wykorzystano ukryte
modele Markowa. Uzyskano bardzo wysoki współczynnik pozytywnej
weryfikacji mówcy na poziomie 98%.
1. WSTĘP
Biometria jest techniką pomiarową, w której źródłem danych są istoty żywe. Znajduje ona
głównie zastosowanie w automatycznym rozpoznawaniu ludzi na podstawie ich cech
behawioralnych (np. akcent, podpis odręczny, pisanie na klawiaturze) oraz cech
fizjologicznych (np. linie papilarne, DNA, kształt ucha).
Wypowiedź słowna, oprócz informacji o treści wypowiedzi, zawiera w sobie także
informacje związane z wewnętrzną strukturą jej źródła. Biometrię głosową, której
charakterystyką jest sygnał mowy, można wykorzystywać do identyfikacji danej osoby.
Wymieniony rodzaj rozpoznawania mówcy jest podobny do procedury biometrycznej
związanej z odciskami palców, gdyż głos każdego człowieka, podobnie jak linie papilarne,
jest unikalny [6].
Sygnał mowy jest nośnikiem zarówno cech fizjologicznych, takich jak trakt głosowy lub
częstotliwość tonu podstawowego, jak również cech behawioralnych, do których zalicza się
akcent lub sposób wypowiadania określonych słów. Powyższe cechy, wyodrębniane z głosu,
związane są przede wszystkim z budową organów artykulacyjnych, pewnymi
przyzwyczajeniami nabytymi w trakcie nauki mówienia, a także z umiejętnością posługiwania
się danym językiem. Dodatkowymi parametrami jakie mają wpływ na charakterystyki
biometryczne mówców są: płeć, stan zdrowia, pora dnia, wiek, pochodzenie regionalne, język
narodowy, itp.[1].
Rozpoznawanie znanych nam osób na podstawie głosu jest czynnością, która nie sprawia
żadnych problemów w kontaktach międzyludzkich. Powszechność i naturalność tego
250
I. WANAT, M. IWANIEC
zjawiska powoduje, iż nie zdajemy sobie sprawy jakie cechy wypowiedzi są wyodrębniane
w tym naturalnym procesie. Obecnie, za pomocą metod numerycznych jesteśmy w stanie
zautomatyzować ekstrakcję cech osobniczych i w bardzo krótkim czasie rozpoznać głos
mówcy wśród tysięcy innych głosów. Zastosowanie takich systemów jest bardzo szerokie,
począwszy od weryfikacji naszej tożsamości podczas przeprowadzania transakcji
finansowych za pomocą telefonu, umożliwiania dostępu do zabezpieczonych obszarów,
a skończywszy na potwierdzeniu tożsamości w systemach kryminalistyki. Analiza głosu jest
przedmiotem badań specjalistów z wielu dziedzin: fonetyków, foniatrów, logopedów
i specjalistów od telekomunikacji, ale pomimo trwających już dziesiątki lat badań, sygnał
mowy wciąż uznawany jest za bardzo złożony i trudny do pełnej interpretacji [7][8].
Prezentowany w artykule system weryfikacji mówcy wykorzystuje biometrię głosu, która
może być zastosowana w praktyce. W opisywanym programie zaimplementowano szereg
znanych procedur ekstrakcji cech, a ich odpowiednie połączenie i przystosowanie do procesu
weryfikacji pozwoliło osiągnąć bardzo dużą skuteczność systemu. Dodatkowo zastosowano,
omawiane często w literaturze [1][4][5], ukryte modele Markowa, których parametry zostały
zmodyfikowane tak, aby jakość weryfikacji była jak największa. W dalszej części artykułu
opisane zostaną poszczególne etapy procesu weryfikacji, zaimplementowane w utworzonym
przez autorów programie.
2. RODZAJE SYSTEMÓW ROZPOZNAWANIA MÓWCÓW
Wyróżnić można różne rodzaje systemów rozpoznawania mówcy (rys. 1). W istniejących
systemach rozpoznawania mówcy wyróżnia się dwa główne typy: weryfikację oraz
identyfikację mówcy [1][4]. Oba powyższe typy różnią się od siebie przede wszystkim
stosowaną teorią i techniką przetwarzania, jak również nakładem obliczeniowym.
Rys.1 Podział przetwarzania mowy [2]
Identyfikacja mówcy jest procesem decyzyjnym, w którym na wejście wprowadzamy tylko
wektor cech wyekstrahowany z sygnału mowy, natomiast na wyjściu otrzymujemy tożsamość
przypisaną do danych wejściowych. System ma za zadanie zaklasyfikowanie głosu danej
osoby do jednego z N elementowego zbioru mówców. Należy zaznaczyć, iż istnieje
możliwość identyfikacji w zbiorze zamkniętym lub w zbiorze otwartym. Przy zastosowaniu
TWORZENIE MODELU AKUSTYCZNEGO NA POTRZEBY WERYFIKACJI MÓWCY PRZY … 251
identyfikacji w zbiorze zamkniętym system przypisuje głosowi wejściowemu jedną z N
dopuszczalnych tożsamości. Tymczasem w przypadku identyfikacji w zbiorze otwartym
możliwe jest podjęcie dodatkowej decyzji, jaką jest odrzucenie danego głosu i nieprzypisanie
mu żadnej tożsamości.
Weryfikacja mówcy jest także procesem decyzyjnym, w którym na wejściu wprowadzamy
wektor cech, a rozpoznawana osoba podaje swoją tożsamość. W tym przypadku system ma
podjąć binarną decyzję, czy nieoznaczony głos należy do deklarowanego mówcy czy też nie.
Weryfikacja mówcy jest jednym z przypadków identyfikacji w zbiorze otwartym, gdzie zbiór
mówców jest jednoelementowy.
Należy zwrócić uwagę na jedną z ważnych charakterystyk systemów rozpoznawania
mówców, jaką jest zależność od treści wypowiedzi, na podstawie której następuje proces
decyzyjny. Rozróżnia się systemy zależne (ang. text-dependent) i niezależne od tekstu (ang.
text-independent). W pierwszym przypadku skład lingwistyczny ciągu uczącego
i wypowiedzi, za pomocą której dana osoba jest weryfikowana, są takie same. Natomiast gdy
te dwie wypowiedzi różnią się od siebie (np. kolejnością), mówimy o systemie weryfikacji
niezależnym od tekstu.
Zaprezentowany w artykule system weryfikacji mówcy jest zależny od tekstu. Działanie
systemu polega na stworzeniu modeli Markowa dla wszystkich dziesięciu cyfr, które
w procesie decyzyjnym stanowią wzorzec głosu osoby weryfikowanej. W procesie
weryfikacji użytkownik systemu wypowiada pięć losowo wybranych cyfr. Ogólną akceptację
uzyskuje się, gdy trzy z pięciu cyfr zostaną zaakceptowane przez system, w przeciwnym
wypadku użytkownik nie zostaje pozytywnie zweryfikowany.
3. PRZEBIEG PROCESU WERYFIKACJI MÓWCY
Procedurę weryfikacji mówców można ogólnie podzielić na trzy etapy. Pierwszy etap
obejmuje próbkowanie i wstępne przetwarzanie sygnału mowy. W drugim etapie następuje
ekstrakcja cech osobniczych głosu, które stanowią ciąg uczący w procesie klasyfikacji,
następujący w trzecim etapie [1][3][5]. Klasyfikacji dokonuje się na podstawie podobieństwa
uzyskanych wartości cech próbek sygnału do ich odpowiedników określonych wcześniej
(w tzw. procesie nauczania) dla poszczególnych osób. Schemat procedury weryfikacji mówcy
przedstawiono na rys.2.
Rys.2 Schemat procedury weryfikacji mówcy [2]
252
I. WANAT, M. IWANIEC
3.1 Przetwarzanie wstępne
Wstępne przetwarzanie sygnału mowy jest bardzo ważnym etapem obróbki danych, gdyż
poprzedza wprowadzenie sygnału na ekstraktor cech i ma fundamentalne znaczenie dla
jakości procesu weryfikacji mówcy.
Głównym celem obróbki wstępnej sygnału mowy jest uniezależnienie weryfikacji mówcy
od ustawień sprzętu nagrywającego, czyli mikrofonu. Na tym etapie przeprowadzana jest
filtracja, a także normalizacja, gdyż te dwie procedury w dużym stopniu niwelują różnice
wynikające z różnych poziomów głośności oraz poziomu podawania sygnału mowy przez
mikrofon.
W przedstawianym systemie zastosowano standardowy proces preemfazy. W programie
spełnia on ważną rolę, która polega na skalowaniu mocy sygnału, aby różne częstotliwości
były na podobnym poziomie. Dodatkowo proces ten wzmacnia wysokie częstotliwości
sygnału mowy o ponad 20 dB, co skutkuje dużą odpornością na zakłócenia otoczenia.
Jak już wspomniano, sygnał mowy jest poddawany procesowi filtracji. W aplikacji
zastosowano cyfrowy filtr górnoprzepustowy o skończonej odpowiedzi impulsowej. Drugim
krokiem wstępnego przetwarzania jest normalizacja, której zadaniem jest wzmocnienie
użytecznej składowej sygnału poprzez wprowadzenie niewielkiego zniekształcenia
nieliniowego.
3.2 Ekstraktor cech osobniczych
Etap ekstrakcji cech osobniczych mówcy podzielono na dwa etapy. W pierwszym kroku
obliczany jest ton krtaniowy danej osoby, a następnie, gdy przejdzie on weryfikację
częstotliwości podstawowej, mówca przechodzi do drugiego etapu rozpoznawania. Ton
krtaniowy jest związany z wibracjami więzadeł głosowych, czyli z budową narządu
artykulacyjnego. Początkowo głośnia jest zamknięta, jednak przepływający strumień
powietrza wymusza periodyczne otwieranie i zamykanie narządu. W zależności od cech danej
osoby ton krtaniowy znajduje się w przedziale 80 – 450 Hz.
W trakcie drugiego etapu weryfikacji z sygnału mowy wyodrębniane są współczynniki
MFCC (ang. Mel Frequency Cepstrum Coefficients). Powodem, dla którego wybrano
powyższe współczynniki, jest potrzeba odzwierciedlania procesu percepcji przez ucho
ludzkie, które postrzega częstotliwość sygnału dźwiękowego nieliniowo–logarytmicznie.
Wówczas, gdy zwiększymy częstotliwość sygnału dwukrotnie, ludzkie ucho postrzega to jako
podniesienie tonu o oktawę do góry.
Rys.3 Bank filtrów w częstotliwościowej skali mel
W wyniku tego niskie częstotliwości powinny być oddalone od siebie o kilkanaście Hz,
a wraz ze wzrostem częstotliwości ta odległość musi wzrastać. Przy zastosowaniu samej
TWORZENIE MODELU AKUSTYCZNEGO NA POTRZEBY WERYFIKACJI MÓWCY PRZY … 253
transformaty Fouriera otrzymane widmo próbki jest liniowo rozłożone na osi częstotliwości.
Jednak gdy dane widmo przemnożymy przez bank filtrów, w częstotliwościowej skali mel
(rys.3) spowodujemy dodatkowe nieliniowe przekształcenie skali częstotliwości. Całość
procedury obliczania współczynników MFCC przedstawiono na rys. 4.
Rys. 4 Procedura obliczania współczynników Mel cepstrum
W trakcie badania wpływu liczby współczynników na efektywność procesu weryfikacji
stwierdzono, iż wykorzystanie 12 współczynników MFCC jest niesatysfakcjonujące.
W związku z tym, po wyznaczeniu dla każdej ramki sygnału Q współczynników MFCC
dodatkowo obliczono dla m-tej ramki parametr delta:
Dc m (q) = c m+t (q ) - cm -t (q )
(1)
oraz parametr delta-delta:
DDc m (q) = Dc m+t (q ) - Dcm -t (q )
(2)
gdzie q = 0, 1, …, Q-1.
Proces ten spowodował zwiększenie wektora cech do 36 parametrów. Delta oraz deltadelta współczynników MFCC przedstawiają ich dynamiczne zmiany, które dobrze
identyfikują poszczególne jednostki mowy. Należy pamiętać, iż wspomniane dwa parametry
liczone są dla odstępów czasowych równych dwóm chwilom czasowych. Zbyt małe odstępy
mogą nie wychwycić wyraźnych zmian współczynników MFCC, natomiast duże mogą
wyznaczyć różnicę między zbyt różnymi stanami.
3.3 Klasyfikator
W niektórych przypadkach, metody dopasowania wzorców zapewniają w sposób
wystarczający realizację zadania weryfikacji mówcy przy stosunkowo małych nakładach
obliczeniowych. Wraz z pojawieniem się komputerów pojawiła się możliwość zastosowania
złożonych algorytmów obliczeniowych. Szeroko stosowane metody oparte na funkcjach
podobieństwa (np. metoda najbliższych sąsiadów) ustępują miejsca metodom analizy
stochastycznej. Zamiast określania stopnia dopasowania wypowiedzi do wzorca mówcy
obliczane jest prawdopodobieństwo uzyskania danej wypowiedzi przez opracowane modele
akustyczne mówcy [4]. Przykładem opisanej metody jest modelowanie i rozpoznawanie
mówcy za pomocą ukrytych modeli Markowa (ang. Hidden Markov Models – HMM),
należących do grupy stochastycznych modeli akustycznych sygnału mowy.
Główną ideą ukrytych modeli Markowa jest traktowanie sygnału mowy jako sekwencji
wektorów obserwacji, które z jednej strony stanowią ciąg uczący w tzw. procesie uczenia,
gdy tworzony jest model akustyczny mówcy, a z drugiej strony są wyjściem modeli
w tworzonym procesie weryfikacji. Dużą zaletą stosowanych modeli jest odporność
systemów weryfikacji na zewnętrzne zakłócenia. Dzięki temu unika się stosowania
skomplikowanych filtrów, które nie tylko zmniejszają wpływ zakłóceń, ale także w pewnym
stopniu zniekształcają składowe sygnału niosące informacje o cechach osobniczych mówcy.
254
I. WANAT, M. IWANIEC
Z punktu widzenia rozpoznawania mówcy najistotniejszą cechą modeli HMM jest możliwość
modelowania sygnału mowy dla konkretnego mówcy.
Realizację systemu weryfikacji mówcy podzielono na dwie fazy:
1) trening (tzw. proces uczenia), którego zadaniem jest estymacja parametrów zbioru modeli
HMM za pomocą wypowiedzi uczących;
2) rozpoznawanie, w którym następuje obliczenie prawdopodobieństwa wygenerowania danej
wypowiedzi przez konkretnego mówcę.
W metodzie tej sygnał mowy traktowany jest jako ciąg kolejnych wektorów
współczynników wyznaczanych w krótkich odcinkach czasu (tzw. ramkach), ponieważ
zakłada się, iż sygnał mowy jest stacjonarny w czasie trwania jednej ramki. Dla konkretnej
rozpoznawanej osoby, podane hasło przedstawiane jest jako ciąg T obserwacji
O = {O1,O2,…,OT}. W aplikacji dla każdej z cyfr tworzony jest oddzielny model. Model
stanowi skończony automat, posiadający N stanów Q = {q1,q2,…,qN}. HMM, reprezentowany
przez automat skończony, definiowany jest jako tzw. trójka λ = <π, A, B>, gdzie:
- π = [π1, π2, …, πN] – stanowi opis rozkładu prawdopodobieństwa znalezienia się
w stanie qk w chwili t =0,
- A = [aij], i,j = 1, …, N, – jest macierzą obrazującą prawdopodobieństwo przejścia
między stanami,
- B = [bi(oj)], i = 1,…, N, j = 1, …, M (M – liczba możliwych zdarzeń generowanych przez
dany stan) – jest macierzą obrazującą prawdopodobieństwo pojawienia się w j-tej obserwacji
w stanie qi [4]:
bi (o j ) = P(o j | qi )
(3)
Rys.5 przedstawia przykładowy automat o trzech stanach reprezentujący model pewnego
słowa.
Rys. 5 Przykład modelu HMM, składającego się z trzech stanów wraz z określonymi
prawdopodobieństwami przejść między poszczególnymi stanami
4. OPIS EKSPERYMENTÓW I UZYSKANE WYNIKI
W stworzonej aplikacji pierwszą wykonywaną czynnością jest rejestracja użytkowników,
polegająca na akwizycji sygnału mowy. Cyfrowy sygnał próbkowany jest z częstotliwością
22050 Hz. W następnym kroku obliczany jest ton krtaniowy. Jeżeli mówca uzyska pozytywną
weryfikację tonu krtaniowego, ekstrahowane są obserwacje w postaci współczynników
MFCC. Obserwacje stanowią ciąg uczący w trakcie procesu treningu, gdy tworzony jest
model akustyczny dla konkretnego słowa danej osoby. Oznacza to, iż po każdym procesie
uczenia, dla jednej osoby otrzymujemy 10 modeli akustycznych wszystkich cyfr.
W początkowej fazie budowania systemu wykonano wiele badań związanych
z ustawieniem odpowiednich parametrów (współczynników MFCC wraz z ich pierwszą
i drugą pochodną oraz tonu krtaniowego). W eksperymentach wykorzystano bazę złożoną
z 80 osób (30 kobiet, 50 mężczyzn). Pierwszym problemem było określenie liczby
współczynników w wektorze cech osobniczych sygnału mowy. Na rys. 6 przedstawiono
TWORZENIE MODELU AKUSTYCZNEGO NA POTRZEBY WERYFIKACJI MÓWCY PRZY … 255
krzywe weryfikacji trzech użytkowników, na którym kolejno zaznaczono sumaryczną
odległość prawdopodobieństwa uzyskanego z modelu HMM dla cyfry jeden, po
wyekstrahowaniu 12 współczynników MFCC oraz po dodaniu pierwszej i drugiej pochodnej
współczynników MFCC do wektora obserwacji. W trakcie eksperymentów, do oceny
opisywanego systemu wykorzystano stopę błędnych akceptacji FAR (ang. False Acceptance
Rate) i błędnych odrzuceń FRR (ang. False Rejection Rate). Po analizie otrzymanych
wyników okazało się, iż najlepszym rozwiązaniem jest zastosowanie 36 współczynników.
Rys. 6 Sumaryczne odległości prawdopodobieństwa uzyskane na wyjściu z modelu HMM
cyfry „1” dla każdego z trzech mówców przy zmiennej liczbie współczynników znajdujących
się w wektorze cech
Rys. 7 Wykres przedstawia sumaryczne odległości prawdopodobieństwa uzyskane na
wyjściu z modelu HMM cyfry „1” dla zmiennej liczby próbek uczących. Zwiększenie liczby
próbek do 10 spowodowało uzyskanie powtarzających się wyników weryfikacji dla danej
osoby
Ważnym parametrem programu, który należało zbadać, było określenie liczby próbek
uczących. Na rys. 7 przedstawiono krzywe weryfikacji dla jednego użytkownika w zależności
od liczby próbek uczących. Stwierdzono, iż optymalną wartością jest dziesięć próbek.
Podczas eksperymentów wykazano znaczący wpływ pory dnia na jakość weryfikacji mówcy.
Dlatego założono, że sygnały mowy, wykorzystywane do tworzenia modeli akustycznych,
muszą być nagrywane w trzech porach dnia (rano, po południu i wieczorem).
256
I. WANAT, M. IWANIEC
Po zakończeniu testów uzyskano średnią stopę niepoprawnej weryfikacji na poziomie 2%,
natomiast średnia stopa poprawnej akceptacji wyniosła 98%. Należy zaznaczyć, iż nagrania
były wykonywane w warunkach domowych oraz biurowych.
5. WNIOSKI
Przedstawiony eksperyment miał na celu przede wszystkim dokonanie oceny przydatności
i poprawności zaprezentowanych procedur weryfikacji mówcy. Uzyskana wysoka
skuteczność w pełni potwierdza efektywność metody wyznaczania modeli akustycznych za
pomocą ukrytych modeli Markowa. W przypadku przedstawionego systemu można mówić
o przydatności stworzonej aplikacji w zastosowaniach praktycznych (np. potwierdzanie
tożsamości w celu wykonania transakcji finansowych) jako dodatkowy moduł dla innych
systemów weryfikacji osoby (np. rozpoznawanie na podstawie rysów twarzy użytkownika lub
za pomocą karty tzw. chipowej).
LITERATURA
1. Tadeusiewicz R.: Sygnał mowy. Warszawa: WKiŁ, 1988.
2. Joseph P. Campbell: Speaker Recognition: a tutorial. In: Proceedings of the IEEE Vol.
85, No. 9, 1997, p. 1437-1462.
3. Wolf J.J.: Efficient acoustic parameters for speaker recognition. “J. Acoust. Soc. Amer.”
1972, Vol. 51 No. 6 (part 2), p. 2044-2056.
4. Furui S.: Recent advances in speaker recognition. Elselvier Science B.V., No. 18, 1997,
p. 859-872
5.
Doddington G.: Speaker recognition-identifying people by their voices. In: Proc. IEEE
1985, 73(11), p. 1651-1664.
6. Jain, A. K., Ross, Arun; Prabhakar, Salil: An introduction to biometric recognition. In:
IEEE “Transactions on Circuits and Systems for Video Technology” 2004, 14, p.4–20.
7. Niebudek-Bogusz E., Fiszer M., Kotyło P., Just M., Śliwińska-Kowalska M.: Ocena
parametrów analizy akustycznej głosu u zdrowych kobiet. „Otolaryngologia” 2004, s.3339.
8. Martin D.,Fitch J., Wolfe V.: Pathologic voice type and the acoustic prediction of
severity. “Journal of Speech and Hearing Research” 1995, p. 756-771.
CREATING THE SOUND MODEL FOR SPEAKER VERIFICATION
USING HIDDEN MARKOV MODELS
Summary. The article discusses issues related to the use of voice characteristics
to verify the speakers. The various stages of system design are presented, in
particular preliminary signal processing, extractor of individuals characteristics
and classifier. MFCC coefficients are extracted from the voice data and then are
calculated the first and second derivative of this coefficients. In the third stage, as
a tool for classification, used hidden Markov models. A very high rate of positive
verification of the speaker, at 98%, is achieved.

Podobne dokumenty