tworzenie modelu akustycznego w weryfikacji mówcy przy użyciu

Transkrypt

tworzenie modelu akustycznego w weryfikacji mówcy przy użyciu
MODELOWANIE INśYNIERSKIE
Gliwice 2010
TWORZENIE MODELU AKUSTYCZNEGO W WERYFIKACJI MÓWCY
PRZY UŻYCIU UKRYTYCH MODELI MARKOWA.
IWONA WANAT, MAREK IWANIEC
Katedra Automatyzacji Procesów, Akademia Górniczo-Hutnicza im.Stanisława Staczica w Krakowie
e-mail: [email protected]
Sygnał biometryczny jakim jest głos, niesie ze sobą wiele cech fizjologicznych i
behawioralnych danej osoby. Rozpoznawanie mówcy, które dzieli się na
weryfikację i identyfikację mówcy, jest procesem automatycznego rozpoznawania
osoby mówiącej na podstawie indywidualnych informacji, wyekstrahowanych z
sygnału mowy. Technika ta pozwala na weryfikację toŜsamości mówcy i
kontrolowanie dostępu do serwisów jak np. bankowych, baz danych itp.
Identyfikacja mówcy jest procesem ustalania, który z mówców jest autorem danej
wypowiedzi. Z drugiej strony, w czasie weryfikacji uŜytkownik podaje swoją
toŜsamość, a system twierdzi czy osoba jest tym za kogo się podaje.
Systemy weryfikacji i identyfikacji mówcy dzieli się równieŜ na zaleŜne i
niezaleŜne od tekstu. W pierwszym przypadku istotne jest co mówi uŜytkownik,
czyli program jest w stanie rozpoznać daną osobę tylko wtedy, gdy wypowie
odpowiednią frazę. Drugim rodzajem są systemy niezaleŜne od tekstu, w których
wypowiedzi wykorzystywane w procesie uczenia róŜnią się od słów
wypowiadanych w czasie weryfikacji czy identyfikacji mówcy.
Opracowany program składa się z trzech głównych etapów. Pierwszymi
wykonywanymi operacjami są filtracja zakłóceń pochodzących z otoczenia,
normalizacja sygnału oraz ekstrakcja wypowiadanego słowa z ciszy.
Następnym działaniem jest wyodrębnianie cech charakterystycznych dla danego
uŜytkownika. W tym przypadku wykorzystano współczynniki mel cepstralne w
skali mel (ang. MFCC). Aby uzyskać współczynniki mel cepstralne naleŜy widmo
sygnału przemnoŜyć przez bank filtrów melowych. Następnie wynik mnoŜenia
widma przez kaŜdy z trójkątów sumuje się.
Trzecim etapem jest klasyfikacja, czyli mechanizm, który będzie decydował czy
podany wektor cech pasuje do wzorca. W opracowanym systemie zastosowano
ukryte modele Markowa, które są stochastycznymi modelami akustycznymi
sygnału mowy. Metoda polega na analizowaniu sygnału mowy jako sekwencji
wektorów obserwacji. Ciąg tych wektorów jest zarówno ciągiem uczącym, na
podstawie którego obliczany jest model, a z drugiej strony stanowi wyjście tego
modelu w procesie rozpoznawania. WaŜną zaletą tej metody jest mała wraŜliwość
na zakłócenia pochodzące z otoczenia, w którym nagrywane są próbki głosu.
Opracowany program, zaleŜny od tekstu, polega na obliczeniu modeli dziesięciu
cyfr dla osoby rozpoznawanej. W procesie weryfikacji uŜytkownik wypowiada
cztery losowo wybrane cyfry. Ogólną akceptację uzyskuje się, gdy trzy na cztery
cyfry zostaną zaakceptowane przez system, w przeciwnym wypadku uŜytkownik
nie zostaje pozytywnie zweryfikowany.
MODELOWANIE INśYNIERSKIE
Gliwice 2010
CREATING THE SOUND MODEL FOR SPEAKER VERIFICATION
USING HIDDEN MARKOV MODELS
IWONA WANAT, MAREK IWANIEC
Katedra Automatyzacji Procesów, Akademia Górniczo-Hutnicza im. St .Sztaszica w Krakowie
e-mail: [email protected] [email protected]
Biometric signal which is voice, brings many physiological and behavioral
characteristics of a person. Speaker recognition, which is divided into speaker
verification and identification, is a process of automatic recognition of a speaking
person on the basis of individual information extracted from the speech signal.
This technique allows to verify the identity of the speaker and to control access to
services such as bank, databases, etc. Speaker identification is a process of
determining which of the speakers is the author of apiece of speech. On the other
hand, during the verification a user gives her/his identity and the system verifies
it.
Speaker recognition systems are also divided into dependent on and independent
from the text. In the first case, it is important what you say, in the other words
program is able to recognize a person only if she/he utters an appropriate phrase.
The second type of systems is text-independent, where the expressions used in the
learning process differ from the words uttered during the speaker verification or
identification.
The developed program consists of three main stages. The first operations are
filtration of interference from the environment, signal normalization and
extraction of the spoken words from silence.
The next action is to single out the characteristics of a user. In this case, Melfrequency cepstral coefficients (MFCCs) are used. To obtain the coefficients it is
necessary to multiply spectrum signal by a bank of mel filters.
The third stage is classification which is a mechanism determining whether a
given vector of characteristics matches the pattern. The developed system applies
hidden Markov models, which are stochastic acoustic models of speech signal.
The method bases on analyzing the speech signal as a sequence of observation
vectors. The train of these vectors is both studying the series on which a model is
calculated, and on the other hand, is the output of the model in the recognition
process. An important advantage of this method is low sensitivity to interference
from the environment in which samples of voice are recorded.
The elaborated text-dependent program relies on calculating models of ten digits
for recognized person. In the verification process, user speaks out four randomly
selected digits. General acceptance is achieved when three out of four digits are
accepted by the system, otherwise the user is not positively verified.

Podobne dokumenty