tworzenie modelu akustycznego w weryfikacji mówcy przy użyciu
Transkrypt
tworzenie modelu akustycznego w weryfikacji mówcy przy użyciu
MODELOWANIE INśYNIERSKIE Gliwice 2010 TWORZENIE MODELU AKUSTYCZNEGO W WERYFIKACJI MÓWCY PRZY UŻYCIU UKRYTYCH MODELI MARKOWA. IWONA WANAT, MAREK IWANIEC Katedra Automatyzacji Procesów, Akademia Górniczo-Hutnicza im.Stanisława Staczica w Krakowie e-mail: [email protected] Sygnał biometryczny jakim jest głos, niesie ze sobą wiele cech fizjologicznych i behawioralnych danej osoby. Rozpoznawanie mówcy, które dzieli się na weryfikację i identyfikację mówcy, jest procesem automatycznego rozpoznawania osoby mówiącej na podstawie indywidualnych informacji, wyekstrahowanych z sygnału mowy. Technika ta pozwala na weryfikację toŜsamości mówcy i kontrolowanie dostępu do serwisów jak np. bankowych, baz danych itp. Identyfikacja mówcy jest procesem ustalania, który z mówców jest autorem danej wypowiedzi. Z drugiej strony, w czasie weryfikacji uŜytkownik podaje swoją toŜsamość, a system twierdzi czy osoba jest tym za kogo się podaje. Systemy weryfikacji i identyfikacji mówcy dzieli się równieŜ na zaleŜne i niezaleŜne od tekstu. W pierwszym przypadku istotne jest co mówi uŜytkownik, czyli program jest w stanie rozpoznać daną osobę tylko wtedy, gdy wypowie odpowiednią frazę. Drugim rodzajem są systemy niezaleŜne od tekstu, w których wypowiedzi wykorzystywane w procesie uczenia róŜnią się od słów wypowiadanych w czasie weryfikacji czy identyfikacji mówcy. Opracowany program składa się z trzech głównych etapów. Pierwszymi wykonywanymi operacjami są filtracja zakłóceń pochodzących z otoczenia, normalizacja sygnału oraz ekstrakcja wypowiadanego słowa z ciszy. Następnym działaniem jest wyodrębnianie cech charakterystycznych dla danego uŜytkownika. W tym przypadku wykorzystano współczynniki mel cepstralne w skali mel (ang. MFCC). Aby uzyskać współczynniki mel cepstralne naleŜy widmo sygnału przemnoŜyć przez bank filtrów melowych. Następnie wynik mnoŜenia widma przez kaŜdy z trójkątów sumuje się. Trzecim etapem jest klasyfikacja, czyli mechanizm, który będzie decydował czy podany wektor cech pasuje do wzorca. W opracowanym systemie zastosowano ukryte modele Markowa, które są stochastycznymi modelami akustycznymi sygnału mowy. Metoda polega na analizowaniu sygnału mowy jako sekwencji wektorów obserwacji. Ciąg tych wektorów jest zarówno ciągiem uczącym, na podstawie którego obliczany jest model, a z drugiej strony stanowi wyjście tego modelu w procesie rozpoznawania. WaŜną zaletą tej metody jest mała wraŜliwość na zakłócenia pochodzące z otoczenia, w którym nagrywane są próbki głosu. Opracowany program, zaleŜny od tekstu, polega na obliczeniu modeli dziesięciu cyfr dla osoby rozpoznawanej. W procesie weryfikacji uŜytkownik wypowiada cztery losowo wybrane cyfry. Ogólną akceptację uzyskuje się, gdy trzy na cztery cyfry zostaną zaakceptowane przez system, w przeciwnym wypadku uŜytkownik nie zostaje pozytywnie zweryfikowany. MODELOWANIE INśYNIERSKIE Gliwice 2010 CREATING THE SOUND MODEL FOR SPEAKER VERIFICATION USING HIDDEN MARKOV MODELS IWONA WANAT, MAREK IWANIEC Katedra Automatyzacji Procesów, Akademia Górniczo-Hutnicza im. St .Sztaszica w Krakowie e-mail: [email protected] [email protected] Biometric signal which is voice, brings many physiological and behavioral characteristics of a person. Speaker recognition, which is divided into speaker verification and identification, is a process of automatic recognition of a speaking person on the basis of individual information extracted from the speech signal. This technique allows to verify the identity of the speaker and to control access to services such as bank, databases, etc. Speaker identification is a process of determining which of the speakers is the author of apiece of speech. On the other hand, during the verification a user gives her/his identity and the system verifies it. Speaker recognition systems are also divided into dependent on and independent from the text. In the first case, it is important what you say, in the other words program is able to recognize a person only if she/he utters an appropriate phrase. The second type of systems is text-independent, where the expressions used in the learning process differ from the words uttered during the speaker verification or identification. The developed program consists of three main stages. The first operations are filtration of interference from the environment, signal normalization and extraction of the spoken words from silence. The next action is to single out the characteristics of a user. In this case, Melfrequency cepstral coefficients (MFCCs) are used. To obtain the coefficients it is necessary to multiply spectrum signal by a bank of mel filters. The third stage is classification which is a mechanism determining whether a given vector of characteristics matches the pattern. The developed system applies hidden Markov models, which are stochastic acoustic models of speech signal. The method bases on analyzing the speech signal as a sequence of observation vectors. The train of these vectors is both studying the series on which a model is calculated, and on the other hand, is the output of the model in the recognition process. An important advantage of this method is low sensitivity to interference from the environment in which samples of voice are recorded. The elaborated text-dependent program relies on calculating models of ten digits for recognized person. In the verification process, user speaks out four randomly selected digits. General acceptance is achieved when three out of four digits are accepted by the system, otherwise the user is not positively verified.