Nowy eliptyczny model traktu głosowego Adam Kobus , Wiesława

Transkrypt

Nowy eliptyczny model traktu głosowego Adam Kobus , Wiesława
Nowy eliptyczny model traktu głosowego
Adam Kobus∗ , Wiesława Kuniszyk-Jóźkowiak, Elżbieta Smołka, Ireneusz
Codello
Institute of Computer Science, Marie Curie-Skłodowska University,
Pl. M. Curie-Skłodowskiej 1, 20-031 Lublin, Poland
Abstrakt
W artykule zaproponowano nowy model toru głosowego oparty na cylindrach eliptycznych. Korzysta on z modelu toru głosowego, uzyskanego ze współczynników PARCOR
oraz pomiarów śródstrzałkowych szerokości traktu głosowego. Współczynniki PARCOR
zostały wyliczone na podstawie współczynników liniowej predykcji, które zostały uzyskane metodą Levinsona-Durbina. Szerokości śródstrzałkowe, rozumiane jako wysokość
rzeczywistego traktu głosowego, uzyskano ze zdjęć rentgenowskich i uśredniono z traktów
kilku osób wypowiadających te same głoski. Artykuł bazuje na samogłoskach polskich:
a,e,o,u,i,y.
1. Wprowadzenie
Sygnał mowy jest to sygnał powstający poprzez przejście strumienia powietrza przez
trakt głosowy. Na trakt składają się płuca, które dostarczają strumień powietrza, później
oskrzela i tchawica, które prowadzą go do krtani, w której drgają struny głosowe, będące źródłem dźwięku dla dżwięcznych fragmentów mowy. Jest on następnie modulowany
we wnękach rezonansowych tworzonych przez język, podniebienie, zęby i wargi. Dużą rolę
odgrywają także ruchy żuchwy i policzków. Całość wnęk rezonansowych nazywa się rezonatorem. Przy głoskach nosowych jama ustna staje się bocznikiem akustycznym, zaś
fala dźwiękowa emitowana jest - dzięki odpowiedniemu ustawieniu języczka - przez jamę
nosową i nozdrza. Otwór ust i/lub nozdrza stanowią ostatni fragment traktu głosowego,
który pełni rolę obciążenia, mającego swoją impedancję [14].
Przepływ powietrza po przejściu przez struny głosowe powoduje powstanie dźwięku
zwanego tonem podstawowym lub krtaniowym. Cechuje się on bogatym widmem. Dla głosek szumowych dźwięcznych obok tonu podstawowego pojawia się generowany szum, zaś
w głoskach szumowych bezdźwięcznych szum zastępuje całkowicie ów ton. Widmo wynikowe głoski powstaje poprzez nałożenie na ton krtaniowy i/lub szum charakterystyki traktu
głosowego, w której rezonanse to maksima charakterystyki częstotliwościowej, zwane formantami, co powoduje powstanie widma o kształcie zależnym od konfiguracji narządów
mowy w czasie wypowiadania danej głoski. Każda głoska ma inną konfigurację, co pozwala
na jej identyfikację[7, 15, 10].
Aby wygenerować głoskę, fragment mowy, należy wyznaczyć związany z nią ton podstawowy i/lub szum oraz obliczyć parametry toru, które jej odpowiadają.
Celem modelowania traktu głosowego jest znalezienie analogii pomiędzy mierzalnymi cechami akustycznymi sygnału mowy, w tym przypadku współczynników liniowej
∗
Corresponding author: e-mail address: [email protected]
predykcji[1, 8, 9], a konfiguracją traktu głosowego w procesie wytwarzania mowy. Analogia ta może być pomocna w wykrywaniu nieprawidłowości w ustawieniu artykulatorów
przy mowie zdeformowanej[12, ?].
Dotychczasowy model w postaci cylindrów o stałym przekroju kołowym nie odpowiada
rzeczywistym przekrojom traktu głosowego. W związku z tym, w oparciu o dotychczasowe doświadczenia, zaproponowano model złożony z cylindrów o przekrojach eliptycznych.
Pomiary rzeczywistych przekrojów traktu głosowego prowadzono przy pomocy zdjęć rentgenowskich i w związku z tym nie mogą być podstawą do badań zaburzeń mowy.
W diagnostyce mowy patologicznej jest nie tylko możliwe ustalenie istnienia zaburzenia, ale również powiązanie go z aktualną konfiguracją traktu głosowego. Autorzy
zamierzają rozpoznawać niepłynności w mowie osób jąkających się przy wykorzystaniu
współczynników liniowej predykcji i sztucznych sieci neuronowych. Sztuczne sieci neuronowe znajdują obecnie zastosowanie w wielu dziedzinach badań [3, 4, 5, 13]. Będą one
również elementem rozpoznawania niepłynności mowy, przy czym planowane jest łączenie
informacji akustycznej z informacjami pochodzącymi z modelu.
2. Podstawy teoretyczne
Bazą do rozważań o modelowaniu traktu głosowego jest spostrzeżenie, że istnieje podobieństwo traktu głosowego do szeregu cylindrów o różnym przekroju. Fala głosowa,
która przechodzi przez ten szereg cylindrów, ulega częściowemu odbiciu na połączeniach
cylindrów i interferuje z nadchodzącą falą.
Fig. 1: Schemat styku dwóch bezstratnych cylindrów traktu głosowego
Na granicy dwóch cylindrów falę biegnącą i odbitą przedstawia rys. 1[11].
Przechodzenie dźwięku na granicy dwóch cylindrów można zapisać równaniami:
+
−
u+
i+1 (t) = (1 + ri ) ui (t − l/c) + ri ui+1 (t)
+
−
u−
i (t + l/c) = −ri ui (t − l/c) + (1 − ri )ui+1 (t)
2
,
(1)
gdzie współczynnik odbicia fali dźwiękowej ri wyraża się wzorem:
ri =
Ai+1 − Ai
Ai+1 + Ai
(2)
Trakt głosowy może być przedstawiony w postaci filtru cyfrowego. Transmitancja takiego (przykładowego) filtru w notacji Z-transformaty wyraża się wzorem:
N
Y
H(z) =
(1 + ri )z −N/2
k=1
D(z)
,
(3)
gdzie D(z) odpowiada rekursji wielomianowej:
D0 (z) = 1
Di (z) = Di−1 (z) + ri z −i Di−1 (z −1 ) .
D(z) = DN (z)
(4)
Fig. 2: Model nieskończonej bezstratnej tuby traktu głosowego
Współczynniki odbicia w i-tej rurze przedstawione wzorem 2 pozwalają na połączenie
tego układu z przekrojami traktu głosowego.
Na tej podstawie po i-tej sekcji funkcja przekroju wyraża się wzorem:
A(z) = 1 −
p
X
αi z −i ,
(5)
i=1
która obliczana w wyniku analizy
rekursję[11]:
A(0) (z) =
A(i) (z) =
A(z) =
metodą liniowej predykcji, może być uzyskana przez
1
A(i−1) (z) − ki z −i A(i−1) (z −1 ) ,
A(p) (z)
(6)
zaś ki są nazywane współczynnikami PARCOR i ich relacja względem współczynników
odbicia, to ri = −ki .
Mamy zatem zdefiniowany współczynnik częściowej korelacji (PARCOR2 ) wyrażony
wzorem:
!
1 − ki
Ai , 1 ¬ i ¬ p,
(7)
Ai+1 =
1 + ki
2
Partial Correlation
3
gdzie Ai to pola sąsiadujących ze sobą członów modelu bezstratnej tuby traktu głosowego,
a ki to współczynniki PARCOR.
Średnica każdego z członów wyznaczana jest ze wzoru na pole podstawy cylindra,
będącego członem takiego modelu.
3. Model cylindryczny o przekrojach eliptycznych
Przekrój traktu głosowego w dowolnym miejscu bardziej przypomina elipsę, dlatego
też w pracy zaproponowano model składający się z cylindrów o przekrojach eliptycznych.
Dla takiego modelu pole powierzchni przekroju i-tego segmentu wyraża się wzorem:
Ai = πai bi ,
(8)
gdzie ai i bi to osie elipsy. Osi ai i bi zostały wyznaczone z poprzecznych przekrojów
traktu głosowego przy artykulacji samogłosek polskich a,e,i,o,u,y. Przekroje Ai kolejnych
sekcji obliczano drogą analizy predykcyjnej plików dźwiękowych zawierających wypowiedź
poszczególnych samogłosek. Zastosowany algorytm Levinsona-Durbina pozwolił na bezpośrednie wyznaczenie współczynników PARCOR. Zaproponowano model traktu głosowego
składający się z cylindrów o przekrojach eliptycznych.
Otrzymane ze współczynników PARCOR przekroje Ai znormalizowano biorąc za równy 1 przekrój przy ustach Ap .
A0p = πa0p b0p = 1.
(9)
Każdy i-ty przekrój jest więc równy A0i = Ai /Ap .
Następnie dokonano pomiarów ap i bp z labiogramów[6] i znormalizowano przekroje.
Ponieważ A0p = πap ωbp ω = 1, więc
ω=q
1
,
(10)
πap bp
czyli a0i = ai ω.
Kolejne szerokości traktu głosowego obliczono według zależności:
a0i =
A0i
.
πb0i
(11)
Wartości bi uzyskano z pomiarów rzeczywistej wysokości toru głosowego, zaś pola Ai
z modelu toru głosowego bazującego na współczynnikach PARCOR.
4. Wyniki badań
W eksperymencie analizowane były modelowe samogłoski a,e,i,o,u,y wypowiedziane
przez dwie kobiety i mężczyznę.
Dla plików dźwiękowych w formacie wave zostały wykonane wyliczenia metodą LevinsonaDurbina współczynników PARCOR przy rzędach predykcji 15, 30 i 80 na oknie 512 próbek
przemnożonym przez okno Hanna, a na ich podstawie został zbudowany model traktu
głosowego. Złożony on jest odpowiednio z 15, 30 i 80 sekcji dla każdego z 15, 30 i 80
współczynników.
4
Fig. 3: Model cylindryczny traktu głosowego o podstawie eliptycznej dla głoski “a”
Pomiary rzeczywistego modelu zostały wykonane poprzez nakreślenie ścieżki środków przekrojów rzeczywistych, następnie wyznaczenie wzdłuż niej kolejnych kroków co
20 pikseli, by później zmierzyć szerokość przekroju traktu głosowego w danym miejscu
pomiaru. Uzyskano w ten sposób ok. 80 pomiarów szerokości dla każdego rzeczywistego
traktu głosowego. Taki pomiar umożliwił zniwelowanie różnic w długości traktu głosowego
dla różnych ścian, spowodowanych zagięciem toru. Na rysunku 4 przedstawiono przekrój
traktu głosowego przy artykulacji głoski “u”.
Fig. 4: Przekrój poprzeczny traktu głosowego dla głoski “a”
W celu znormalizowania wyników pomiarów do poziomu pól uzyskanych ze współczynników PARCOR wzięto stosunki wysokości do szerokości rozchylenia ust z labiogramów
dla samogłosek.
W literaturze znane są wzorcowe ustawienia ust przy arktykulacji pojedynczych samogłosek. W opracowanym modelu będzie to przekrój ostatniej sekcji. W opraciu o wzorcowe
labiogramy [6] przy wypowiedziach samogłosek polskich a,e,i,o,u,y, porównano stosunki
5
Fig. 5: Labiogram dla głoski “u”
osi przekrojów wyznaczone na podstawie opracowanego modelu ze zmierzonymi z obrazów
ust.
Głoska Wys./szer. wyznaczona z labiogramu
a
0.5043
e
0.4314
i
0.1792
o
0.5000
u
0.2353
y
0.2760
Na kolejnych rysunkach przedstawiono względne pola, wysokości i szerokości traktu
głosowego dla poszczególnych sekcji dla głoski “a” dla jednego mówcy. Na osi poziomej
są numery kolejnych sekcji od krtani do ust.
Fig. 6: Pole (górny wykres), wysokość (środkowy) i szerokość półosi (dolny) przekroju
poprzecznego traktu głosowego dla głoski “a” dla 15 współczynników PARCOR.
Podsumowanie
Biorąc pod uwagę rzeczywisty kształt traktu głosowego można zauważyć, iż jest on
bliższy kształtowi eliptycznemu niż kołowemu. Uproszczenie modelu traktu głosowego do
zestawu cylindrów o podstawie kołowej jest słuszne, jednak model eliptyczny, który jest
bliższy rzeczywistemu, jest dokładniejszy.
Przyglądając się eliptycznym przekrojom głosek można zauważyć pojawianie się oczekiwanych, widocznych w ułożeniu języka, zmian w trakcie głosowym, tj. podobieństwo
traktu głoski “o” do traktu o przekrojach kołowych, czy też dla głosek “e”, “i” zmniejszanie się stosunku wysokości do szerokości traktu głosowego. W szczególności przewężenie
dla głoski “i” jest silnie zauważalne.
6
Fig. 7: Pole (górny wykres), wysokość (środkowy) i szerokość półosi (dolny) przekroju
poprzecznego traktu głosowego dla głoski “a” dla 30 współczynników PARCOR.
Fig. 8: Pole (górny wykres), wysokość (środkowy) i szerokość półosi (dolny) przekroju
poprzecznego traktu głosowego dla głoski “a” dla 80 współczynników PARCOR.
Oczekuje się, że przyszłe badania pozwolą na określenie dla tego modelu punktów
kluczowych konfiguracji traktu głosowego, co pozwoli na lepsze wykrywanie niepłynności
mowy u osób jąkających się.
Podziękowania
The scientific work co-financed from the means of the European Social Fund and
national budget within the framework of the Human Capital Operational Programme.
Measure 4.1. “Strengthening and development of didactic potential of universities and
increasing the number of graduates from faculties of key importance for knowledge-based
economy”. Submeasure 4.1.1: “Strengthening and development of didactic potential of
universities”. Project “Programmatic and structural teaching system reform on Faculty
of Mathematics, Physics and Computer Science”.
The authors thank Natalia Fedak for language corrections.
7
Bibliografia
[1] Codello I., Kuniszyk-Jóźkowiak W., Digital signals analysis with the LPC method.
Annales UMCS Informatica, Vol. 5, pp. 315n, Lublin, 2006.
[2] Izworski A., Tadeusiewicz R., Wszołek W.Artificial intelligence methods in diagnostics of the pathological speech signals. Lecture Notes in Computer Science, Volume
3215/2004, 740-748, DOI: 10.1007/978-3-540-30134-9 99, 2004.
[3] Izworski A., Tadeusiewicz R.System for intelligent processing and recognition of auditory brainstem response (ABR) signals. Lecture Notes in Computer Science, Volume
2690/2003, 482-489, DOI: 10.1007/978-3-540-45080-1 67, 2003.
[4] Horzyk A., Tadeusiewicz R., Self-optimizing neural networks. Lecture Notes in Computer Science, Volume 3173/2004, 150-155, DOI: 10.1007/978-3-540-28647-9 26, 2004.
[5] Karczmarczuk B.: Wymowa polska z ćwiczeniami. Wydawnictwo Polonia, Lublin,
1986.
[6] Lyons R.G.: Wprowadzenie do cyfrowego przetwarzania sygnałów. WKŁ, Warszawa,
2003.
[7] Makhoul J.: Stable and effitient lattice methods for linear prediction. Proceedings of
IEEE, 1970.
[8] Markel J.D., Gray A.H.: Linear Prediction of Speech. Springer Verlag, Berlin, 1976.
[9] Proksa R., Visualization of stages of determining cepstral factors in speech recognition
systems, Journal of Medical Informatics & Technologies. Vol. 13, pp. MIT-121 – MIT128. ISSN 1642-6037, 2009.
[10] Rabiner L. R., Schafer R.W., Digital Processing of Speech Signals. Prentice Hall, pp.
396-461, New Jersey, 1978.
[11] Szczurowska I., Kuniszyk-Jóźkowiak W., Smołka E., Speech nonfluency detection
using Kohonen networks. Neural Computing & Applications, London, 2009.
[12] Tadeusiewicz R., About usefulness of neural networks in electrical engineering problems. Electrical Review (Przegląd Elektrotechniczny), ISSN 0033-2097, Vol. 85, Nr.
2, pp. 200-211, 2009.
[13] Tadeusiewicz R., Sieci neuronowe. Akademicka Oficyna Wydawnicza RM,. Warszawa,
1993.
8
BIBLIOGRAFIA
[14] Wiśniewski M., Kuniszyk-Jóźkowiak W., Smołka E., Suszyński W., Improved Approach to automatic detection of speech disorders based on the hidden Markov Models
Approach, Journal of Medical Informatics & Technologies. Vol. 15, pp. MIT-145 –
MIT-152, 2010.
[15] Zieliński A.: Teoria przetwarzania sygnałów. Wydział EAIiE AGH, Kraków, 2000.
9

Podobne dokumenty