Nowy eliptyczny model traktu głosowego Adam Kobus , Wiesława
Transkrypt
Nowy eliptyczny model traktu głosowego Adam Kobus , Wiesława
Nowy eliptyczny model traktu głosowego Adam Kobus∗ , Wiesława Kuniszyk-Jóźkowiak, Elżbieta Smołka, Ireneusz Codello Institute of Computer Science, Marie Curie-Skłodowska University, Pl. M. Curie-Skłodowskiej 1, 20-031 Lublin, Poland Abstrakt W artykule zaproponowano nowy model toru głosowego oparty na cylindrach eliptycznych. Korzysta on z modelu toru głosowego, uzyskanego ze współczynników PARCOR oraz pomiarów śródstrzałkowych szerokości traktu głosowego. Współczynniki PARCOR zostały wyliczone na podstawie współczynników liniowej predykcji, które zostały uzyskane metodą Levinsona-Durbina. Szerokości śródstrzałkowe, rozumiane jako wysokość rzeczywistego traktu głosowego, uzyskano ze zdjęć rentgenowskich i uśredniono z traktów kilku osób wypowiadających te same głoski. Artykuł bazuje na samogłoskach polskich: a,e,o,u,i,y. 1. Wprowadzenie Sygnał mowy jest to sygnał powstający poprzez przejście strumienia powietrza przez trakt głosowy. Na trakt składają się płuca, które dostarczają strumień powietrza, później oskrzela i tchawica, które prowadzą go do krtani, w której drgają struny głosowe, będące źródłem dźwięku dla dżwięcznych fragmentów mowy. Jest on następnie modulowany we wnękach rezonansowych tworzonych przez język, podniebienie, zęby i wargi. Dużą rolę odgrywają także ruchy żuchwy i policzków. Całość wnęk rezonansowych nazywa się rezonatorem. Przy głoskach nosowych jama ustna staje się bocznikiem akustycznym, zaś fala dźwiękowa emitowana jest - dzięki odpowiedniemu ustawieniu języczka - przez jamę nosową i nozdrza. Otwór ust i/lub nozdrza stanowią ostatni fragment traktu głosowego, który pełni rolę obciążenia, mającego swoją impedancję [14]. Przepływ powietrza po przejściu przez struny głosowe powoduje powstanie dźwięku zwanego tonem podstawowym lub krtaniowym. Cechuje się on bogatym widmem. Dla głosek szumowych dźwięcznych obok tonu podstawowego pojawia się generowany szum, zaś w głoskach szumowych bezdźwięcznych szum zastępuje całkowicie ów ton. Widmo wynikowe głoski powstaje poprzez nałożenie na ton krtaniowy i/lub szum charakterystyki traktu głosowego, w której rezonanse to maksima charakterystyki częstotliwościowej, zwane formantami, co powoduje powstanie widma o kształcie zależnym od konfiguracji narządów mowy w czasie wypowiadania danej głoski. Każda głoska ma inną konfigurację, co pozwala na jej identyfikację[7, 15, 10]. Aby wygenerować głoskę, fragment mowy, należy wyznaczyć związany z nią ton podstawowy i/lub szum oraz obliczyć parametry toru, które jej odpowiadają. Celem modelowania traktu głosowego jest znalezienie analogii pomiędzy mierzalnymi cechami akustycznymi sygnału mowy, w tym przypadku współczynników liniowej ∗ Corresponding author: e-mail address: [email protected] predykcji[1, 8, 9], a konfiguracją traktu głosowego w procesie wytwarzania mowy. Analogia ta może być pomocna w wykrywaniu nieprawidłowości w ustawieniu artykulatorów przy mowie zdeformowanej[12, ?]. Dotychczasowy model w postaci cylindrów o stałym przekroju kołowym nie odpowiada rzeczywistym przekrojom traktu głosowego. W związku z tym, w oparciu o dotychczasowe doświadczenia, zaproponowano model złożony z cylindrów o przekrojach eliptycznych. Pomiary rzeczywistych przekrojów traktu głosowego prowadzono przy pomocy zdjęć rentgenowskich i w związku z tym nie mogą być podstawą do badań zaburzeń mowy. W diagnostyce mowy patologicznej jest nie tylko możliwe ustalenie istnienia zaburzenia, ale również powiązanie go z aktualną konfiguracją traktu głosowego. Autorzy zamierzają rozpoznawać niepłynności w mowie osób jąkających się przy wykorzystaniu współczynników liniowej predykcji i sztucznych sieci neuronowych. Sztuczne sieci neuronowe znajdują obecnie zastosowanie w wielu dziedzinach badań [3, 4, 5, 13]. Będą one również elementem rozpoznawania niepłynności mowy, przy czym planowane jest łączenie informacji akustycznej z informacjami pochodzącymi z modelu. 2. Podstawy teoretyczne Bazą do rozważań o modelowaniu traktu głosowego jest spostrzeżenie, że istnieje podobieństwo traktu głosowego do szeregu cylindrów o różnym przekroju. Fala głosowa, która przechodzi przez ten szereg cylindrów, ulega częściowemu odbiciu na połączeniach cylindrów i interferuje z nadchodzącą falą. Fig. 1: Schemat styku dwóch bezstratnych cylindrów traktu głosowego Na granicy dwóch cylindrów falę biegnącą i odbitą przedstawia rys. 1[11]. Przechodzenie dźwięku na granicy dwóch cylindrów można zapisać równaniami: + − u+ i+1 (t) = (1 + ri ) ui (t − l/c) + ri ui+1 (t) + − u− i (t + l/c) = −ri ui (t − l/c) + (1 − ri )ui+1 (t) 2 , (1) gdzie współczynnik odbicia fali dźwiękowej ri wyraża się wzorem: ri = Ai+1 − Ai Ai+1 + Ai (2) Trakt głosowy może być przedstawiony w postaci filtru cyfrowego. Transmitancja takiego (przykładowego) filtru w notacji Z-transformaty wyraża się wzorem: N Y H(z) = (1 + ri )z −N/2 k=1 D(z) , (3) gdzie D(z) odpowiada rekursji wielomianowej: D0 (z) = 1 Di (z) = Di−1 (z) + ri z −i Di−1 (z −1 ) . D(z) = DN (z) (4) Fig. 2: Model nieskończonej bezstratnej tuby traktu głosowego Współczynniki odbicia w i-tej rurze przedstawione wzorem 2 pozwalają na połączenie tego układu z przekrojami traktu głosowego. Na tej podstawie po i-tej sekcji funkcja przekroju wyraża się wzorem: A(z) = 1 − p X αi z −i , (5) i=1 która obliczana w wyniku analizy rekursję[11]: A(0) (z) = A(i) (z) = A(z) = metodą liniowej predykcji, może być uzyskana przez 1 A(i−1) (z) − ki z −i A(i−1) (z −1 ) , A(p) (z) (6) zaś ki są nazywane współczynnikami PARCOR i ich relacja względem współczynników odbicia, to ri = −ki . Mamy zatem zdefiniowany współczynnik częściowej korelacji (PARCOR2 ) wyrażony wzorem: ! 1 − ki Ai , 1 ¬ i ¬ p, (7) Ai+1 = 1 + ki 2 Partial Correlation 3 gdzie Ai to pola sąsiadujących ze sobą członów modelu bezstratnej tuby traktu głosowego, a ki to współczynniki PARCOR. Średnica każdego z członów wyznaczana jest ze wzoru na pole podstawy cylindra, będącego członem takiego modelu. 3. Model cylindryczny o przekrojach eliptycznych Przekrój traktu głosowego w dowolnym miejscu bardziej przypomina elipsę, dlatego też w pracy zaproponowano model składający się z cylindrów o przekrojach eliptycznych. Dla takiego modelu pole powierzchni przekroju i-tego segmentu wyraża się wzorem: Ai = πai bi , (8) gdzie ai i bi to osie elipsy. Osi ai i bi zostały wyznaczone z poprzecznych przekrojów traktu głosowego przy artykulacji samogłosek polskich a,e,i,o,u,y. Przekroje Ai kolejnych sekcji obliczano drogą analizy predykcyjnej plików dźwiękowych zawierających wypowiedź poszczególnych samogłosek. Zastosowany algorytm Levinsona-Durbina pozwolił na bezpośrednie wyznaczenie współczynników PARCOR. Zaproponowano model traktu głosowego składający się z cylindrów o przekrojach eliptycznych. Otrzymane ze współczynników PARCOR przekroje Ai znormalizowano biorąc za równy 1 przekrój przy ustach Ap . A0p = πa0p b0p = 1. (9) Każdy i-ty przekrój jest więc równy A0i = Ai /Ap . Następnie dokonano pomiarów ap i bp z labiogramów[6] i znormalizowano przekroje. Ponieważ A0p = πap ωbp ω = 1, więc ω=q 1 , (10) πap bp czyli a0i = ai ω. Kolejne szerokości traktu głosowego obliczono według zależności: a0i = A0i . πb0i (11) Wartości bi uzyskano z pomiarów rzeczywistej wysokości toru głosowego, zaś pola Ai z modelu toru głosowego bazującego na współczynnikach PARCOR. 4. Wyniki badań W eksperymencie analizowane były modelowe samogłoski a,e,i,o,u,y wypowiedziane przez dwie kobiety i mężczyznę. Dla plików dźwiękowych w formacie wave zostały wykonane wyliczenia metodą LevinsonaDurbina współczynników PARCOR przy rzędach predykcji 15, 30 i 80 na oknie 512 próbek przemnożonym przez okno Hanna, a na ich podstawie został zbudowany model traktu głosowego. Złożony on jest odpowiednio z 15, 30 i 80 sekcji dla każdego z 15, 30 i 80 współczynników. 4 Fig. 3: Model cylindryczny traktu głosowego o podstawie eliptycznej dla głoski “a” Pomiary rzeczywistego modelu zostały wykonane poprzez nakreślenie ścieżki środków przekrojów rzeczywistych, następnie wyznaczenie wzdłuż niej kolejnych kroków co 20 pikseli, by później zmierzyć szerokość przekroju traktu głosowego w danym miejscu pomiaru. Uzyskano w ten sposób ok. 80 pomiarów szerokości dla każdego rzeczywistego traktu głosowego. Taki pomiar umożliwił zniwelowanie różnic w długości traktu głosowego dla różnych ścian, spowodowanych zagięciem toru. Na rysunku 4 przedstawiono przekrój traktu głosowego przy artykulacji głoski “u”. Fig. 4: Przekrój poprzeczny traktu głosowego dla głoski “a” W celu znormalizowania wyników pomiarów do poziomu pól uzyskanych ze współczynników PARCOR wzięto stosunki wysokości do szerokości rozchylenia ust z labiogramów dla samogłosek. W literaturze znane są wzorcowe ustawienia ust przy arktykulacji pojedynczych samogłosek. W opracowanym modelu będzie to przekrój ostatniej sekcji. W opraciu o wzorcowe labiogramy [6] przy wypowiedziach samogłosek polskich a,e,i,o,u,y, porównano stosunki 5 Fig. 5: Labiogram dla głoski “u” osi przekrojów wyznaczone na podstawie opracowanego modelu ze zmierzonymi z obrazów ust. Głoska Wys./szer. wyznaczona z labiogramu a 0.5043 e 0.4314 i 0.1792 o 0.5000 u 0.2353 y 0.2760 Na kolejnych rysunkach przedstawiono względne pola, wysokości i szerokości traktu głosowego dla poszczególnych sekcji dla głoski “a” dla jednego mówcy. Na osi poziomej są numery kolejnych sekcji od krtani do ust. Fig. 6: Pole (górny wykres), wysokość (środkowy) i szerokość półosi (dolny) przekroju poprzecznego traktu głosowego dla głoski “a” dla 15 współczynników PARCOR. Podsumowanie Biorąc pod uwagę rzeczywisty kształt traktu głosowego można zauważyć, iż jest on bliższy kształtowi eliptycznemu niż kołowemu. Uproszczenie modelu traktu głosowego do zestawu cylindrów o podstawie kołowej jest słuszne, jednak model eliptyczny, który jest bliższy rzeczywistemu, jest dokładniejszy. Przyglądając się eliptycznym przekrojom głosek można zauważyć pojawianie się oczekiwanych, widocznych w ułożeniu języka, zmian w trakcie głosowym, tj. podobieństwo traktu głoski “o” do traktu o przekrojach kołowych, czy też dla głosek “e”, “i” zmniejszanie się stosunku wysokości do szerokości traktu głosowego. W szczególności przewężenie dla głoski “i” jest silnie zauważalne. 6 Fig. 7: Pole (górny wykres), wysokość (środkowy) i szerokość półosi (dolny) przekroju poprzecznego traktu głosowego dla głoski “a” dla 30 współczynników PARCOR. Fig. 8: Pole (górny wykres), wysokość (środkowy) i szerokość półosi (dolny) przekroju poprzecznego traktu głosowego dla głoski “a” dla 80 współczynników PARCOR. Oczekuje się, że przyszłe badania pozwolą na określenie dla tego modelu punktów kluczowych konfiguracji traktu głosowego, co pozwoli na lepsze wykrywanie niepłynności mowy u osób jąkających się. Podziękowania The scientific work co-financed from the means of the European Social Fund and national budget within the framework of the Human Capital Operational Programme. Measure 4.1. “Strengthening and development of didactic potential of universities and increasing the number of graduates from faculties of key importance for knowledge-based economy”. Submeasure 4.1.1: “Strengthening and development of didactic potential of universities”. Project “Programmatic and structural teaching system reform on Faculty of Mathematics, Physics and Computer Science”. The authors thank Natalia Fedak for language corrections. 7 Bibliografia [1] Codello I., Kuniszyk-Jóźkowiak W., Digital signals analysis with the LPC method. Annales UMCS Informatica, Vol. 5, pp. 315n, Lublin, 2006. [2] Izworski A., Tadeusiewicz R., Wszołek W.Artificial intelligence methods in diagnostics of the pathological speech signals. Lecture Notes in Computer Science, Volume 3215/2004, 740-748, DOI: 10.1007/978-3-540-30134-9 99, 2004. [3] Izworski A., Tadeusiewicz R.System for intelligent processing and recognition of auditory brainstem response (ABR) signals. Lecture Notes in Computer Science, Volume 2690/2003, 482-489, DOI: 10.1007/978-3-540-45080-1 67, 2003. [4] Horzyk A., Tadeusiewicz R., Self-optimizing neural networks. Lecture Notes in Computer Science, Volume 3173/2004, 150-155, DOI: 10.1007/978-3-540-28647-9 26, 2004. [5] Karczmarczuk B.: Wymowa polska z ćwiczeniami. Wydawnictwo Polonia, Lublin, 1986. [6] Lyons R.G.: Wprowadzenie do cyfrowego przetwarzania sygnałów. WKŁ, Warszawa, 2003. [7] Makhoul J.: Stable and effitient lattice methods for linear prediction. Proceedings of IEEE, 1970. [8] Markel J.D., Gray A.H.: Linear Prediction of Speech. Springer Verlag, Berlin, 1976. [9] Proksa R., Visualization of stages of determining cepstral factors in speech recognition systems, Journal of Medical Informatics & Technologies. Vol. 13, pp. MIT-121 – MIT128. ISSN 1642-6037, 2009. [10] Rabiner L. R., Schafer R.W., Digital Processing of Speech Signals. Prentice Hall, pp. 396-461, New Jersey, 1978. [11] Szczurowska I., Kuniszyk-Jóźkowiak W., Smołka E., Speech nonfluency detection using Kohonen networks. Neural Computing & Applications, London, 2009. [12] Tadeusiewicz R., About usefulness of neural networks in electrical engineering problems. Electrical Review (Przegląd Elektrotechniczny), ISSN 0033-2097, Vol. 85, Nr. 2, pp. 200-211, 2009. [13] Tadeusiewicz R., Sieci neuronowe. Akademicka Oficyna Wydawnicza RM,. Warszawa, 1993. 8 BIBLIOGRAFIA [14] Wiśniewski M., Kuniszyk-Jóźkowiak W., Smołka E., Suszyński W., Improved Approach to automatic detection of speech disorders based on the hidden Markov Models Approach, Journal of Medical Informatics & Technologies. Vol. 15, pp. MIT-145 – MIT-152, 2010. [15] Zieliński A.: Teoria przetwarzania sygnałów. Wydział EAIiE AGH, Kraków, 2000. 9