Analiza i modelowanie procesów fizjologicznych

Transkrypt

Analiza i modelowanie procesów fizjologicznych
Analiza i modelowanie procesów
fizjologicznych
Laboratorium – ćwiczenie 4: Słuch i mowa
wersja 11/2008
Część I. Słuch
Prof. dr hab. inż. Antoni Grzanka
Dźwięki i analiza Fouriera (Sound and hearing)
W tym ćwiczeniu badamy związek między kształtem fali dźwiękowej a jej widmem.
Na komputerze z kartą dźwiękową można odsłuchać stworzone fale poprzez naciśnięcie
przycisku Listen. Niestety, zainstalowana wersja oprogramowania nie umożliwia
prezentacji dźwięków. Po prawej stronie znajduje się lista przycisków wyłącznego wyboru,
za pomocą, których wybieramy różne ustawione kształty fali począwszy od fali
sinusoidalnej, aż do bardzo złożonego dźwięku z wieloma składowymi widmowymi. Po
kolei sprawdź każdy z nich i porównaj kształty fali oraz widma wyświetlane w oknie na
dole po lewej. Widmo można zmieniać poprzez wybór harmonicznych za pomocą
poziomego suwaka na dole i zmianę amplitudy za pomocą pionowego suwaka po prawej
stronie. Istnieje też rząd przycisków wyłącznego wyboru na dole dla wyboru różnych faz.
Gdy widmo jest gotowe, naciśnij Make new wave i odpowiedni kształt fali pokaże się w
oknie przebiegu.
Błona podstawna (Basilar membrane)
To ćwiczenie bardzo schematycznie pokazuje, w jaki sposób fala wędrująca
przechodzi wzdłuż błony podstawnej dla różnych częstotliwości. Wybierz częstotliwość za
pomocą przycisków wyłącznego wyboru po prawej stronie. W oknie pokaże się
odpowiadająca obwiednia (zauważ, że nie uwzględnione jest tu działanie drugiego filtru,
który w żywym organizmie znacznie wyostrza szczyty obwiedni). Naciśnij Start i
zobaczysz sekwencję klatek obrazujących ugięcie błony podstawnej (oczywiście w
znacznie powiększonej skali) w równych odstępach czasu. Cykl ukazuje falę wędrującą tak
jak przechodzi ona wzdłuż błony. Przez Stapes, na diagramie rozwiniętego ślimaka
oznaczono jego podstawę (wejście), a słowo Helicotrema oznacza szczyt ślimaka.
Synchronizacja fazowa (Phase locking)
Ćwiczenie to ilustruje zasadę synchronizację fazowej lub ogni cyrkowych we
włóknach nerwu słuchowego. Naciśnij Sweep i pokaże się dźwiękowa fala sinusoidalna
(czerwona u góry), a poniżej pokazuje się wzorzec potencjałów czynnościowych ośmiu
pojedynczych włókien razem z ich całkowitą aktywnością na dole (kolor jasno niebieski).
Choć istnieje pewna doza dowolności w zachowaniu się każdego z włókien z osobna, a –
szczególnie dla dużych częstotliwości – włókna mogą być odpalone średnio tylko w
różnych okresach lub rzadziej, tym niemniej z powodu tego, że prawdopodobieństwo
odpalenia zależy od ciśnienia akustycznego to aktywność wiązki nerwowej jako całość
oddaje częstotliwość pobudzenia. Jest tak nawet wtedy, gdy częstotliwość jest tak duża, że
żadne z włókien nie jest w stanie nadążyć na bodźcem. Możesz zmieniać amplitudę i
częstotliwość dźwięku za pomocą dwóch suwaków.
Dla trzech częstotliwości (małych, średnich i dużych) i trzech intensywności
(przynajmniej dla skrajnych ustawień) oceń następujące zjawiska. Jakie jest
prawdopodobieństwo wyładowania w pojedynczym neuronie w każdym okresie (ile
wyładowań jest zgubionych)? Na jakiej części okresu rozłożone są wyładowania w wiązce
neuronu? W odpowiedzi na drugie pytanie określ swego rodzaju współczynnik
wypełnienia.
Opóźnienie między uszami (Interaural delay)
Ćwiczenie pokazuje jak para linii opóźniających przewodzących w przeciwnych
kierunkach z rzędem neuronów wykrywających koincydencję może zamienić opóźnienie
między uszami we wzór przestrzenny lokalizujący źródło dźwięku. Kliknij w dowolny
punkt głównego okna: pokaże się krótki impuls dźwiękowy, a potem zobaczysz czoło fali
rozchodzącej się z tego punktu. Dwa dolne narożniki pola reprezentują dwoje uszu. Gdy
fala do nich dojdzie przekształcana jest w aktywność neuronalną i przesuwa się ze stałą
szybkością wzdłuż odpowiednich, poziomych linii opóźniających. Gdy aktywności na obu
liniach spotkają się, odpowiedni neuron zapala się na czerwono sygnalizując wykrycie
koincydencji. Jeśli klikniecie w środku, w końcu zapali się neuron środkowy. Jeśli
klikniecie po jednej stronie to uaktywni się neuron przeciwstronny. Generalnie, opóźnienie
międzyuszne jest zamieniane na pozycję przestrzenną.
Opracowano na podstawie książki: R.H.S. Carpenter. Neurophysiology. Arnold, London-SydneyAuckland, 1996, str. 119-120.
Część II. Mowa
mgr inż. Rafał Pietruch
Wstęp
Ćwiczenie ma na celu zapoznanie studentów z metodami analiz głosu u pacjentów po
resekcji krtani. W tym celu zaprezentowany będzie program komputerowy wizualizujący
widmo czasowo-częstotliwościowe sygnału mowy oraz trajektorie formantów głosu.
Teoria
W celu wyznaczania charakterystyki częstotliwościowej sygnału akustycznego mowy
naturalnej oraz patologicznej wyznaczane są parametry modelu traktu głosowego. W obu
przypadkach, używany jest ten sam model. W mowie naturalnej źródłem fali akustycznej
jest krtań. U pacjentów po wycięciu krtani źródłem głosu są najczęściej usta przełyku. Do
identyfikacji nieznanego filtru zastosowany został układ liniowej predykcji oraz
adaptacyjny algorytm wyznaczania jego parametrów.
Model
Trakt głosowy został podzielony na równej długości komory rezonacyjne o kołowym
przekroju. Źródło fali akustycznej umieszcza się na początku traktu głosowego. Do
zastosowania algorytmów adaptacyjnych zakłada się, iż źródło fali dźwiękowej ma
charakter szumu białego. Fala akustyczna wędruje przez trakt głosowy, napotykając na
granice między komorami o różnej średnicy. Ulega odbiciom wskutek zmiany impedancji
falowej ośrodka. Zjawisko odbicia fal następuje także na początku traktu oraz u jego
ujścia. Model opisany dokładnie przez Saito [2] poddawany jest dyskretyzacji za pomocą
transformaty Z. Haykin [1] prezentuje w jaki sposób przekształcić równania fali wędrującej
do równań filtru kratowego. Zieliński [3] pokazuje równoważność modelu z filtrem o
nieskończonej odpowiedzi impulsowej. Zaniedbywany jest w tym przypadku wpływ jamy
nosowej.
Algorytm
W celu wyznaczenia parametrów modelu traktu głosowego tworzy się odwrotny filtr
transwersalny, którego zera odpowiadają biegunom modelu traktu głosowego. Jego
zadaniem jest predykcja aktualnej wartości sygnału z próbek poprzedzających. Błąd
predykcji jest wykorzystany do korekcji parametrów filtru. W programie zastosowano
algorytm RLS (Recursive Least Square) zaprezentowany przez Haykin'a [1]. Algorytm
uaktualnia macierz autokorelacji sygnału mowy ze współczynnikiem zapominania równym
0.995. Znając aktualne wartości współczynników filtru traktu głosowego, można
wyznaczyć jego charakterystykę częstotliwościową. Aktualne wartości formantów
wyznacza się szukając lokalnych minimów drugiej pochodnej obwiedni widma.
Możliwości programu
Widmo jest wyznaczane i wyświetlane w oknie aplikacji w czasie rzeczywistym dla
zapisów audio o częstotliwości próbkowania 8kHz. Ilość współczynników filtru jest stała i
wynosi 10. Ilość par biegunów filtru głosowego (najczęściej zespolonych sprzężonych)
wynosi 5, co stanowi maksymalną liczbę formantów w przedziale do 4 kHz. Program
umożliwia zatrzymanie ścieżki dźwiękowej w dowolnym momencie odtwarzania i
zaznaczenie wybranego fragmentu. Posiada możliwość automatycznego ustawiania
przedziału analiz na początek i koniec samogłoski izolowanej. Następnie obliczane są
cztery formanty F1-F4, ich rozstęp kwartylowy oraz mediana. Ewentualnie piąte,
nadmiarowe maksimum lokalne widma jest odrzucane. Do śledzenia formantów
wykorzystuje się algorytmu najmniejszego kosztu przejścia między kolejnymi
wartościami maksimów lokalnych. Wyniki kilku pomiarów można zapisać do pliku w celu
ponownego odczytania i odtwarzania jedynie wybranych fragmentów.
Zadanie
Przed rozpoczęciem ćwiczenia należy zapoznać się z instrukcją obsługi programu
AVW udostępnionej na stronie internetowej [4] oraz, jeśli zajdzie potrzeba, uaktualnić
oprogramowanie zgodnie z instrukcją. Lokalnie na komputerach w katalogu wskazanym
przez prowadzącego znajdują się nagrania audio głosu ludzi zdrowych i pacjentów. Pliki
zapisane są w formacie WAV 8kHz i ponumerowane zgodnie z kolejnością nagrań. Każde
nagranie zawiera jednakową treść i zaczyna się od recytacji sześciu polskich samogłosek.
Zadaniem studentów jest odtworzenie w programie wskazanych zapisów nagrań głosu
naturalnego i mowy zastępczej. Na początku ustawiamy wyświetlanie widma czasowoczęstotliwościowego o amplitudzie oznaczanej stopniami szarości lub kolorami. Następnie
wybieramy opcję wyświetlania ścieżek formantów oraz dokonujemy oceny skuteczności
ich wyznaczania oraz śledzenia. Zatrzymujemy odtwarzanie w dogodnej chwili, aby
zaznaczyć wybrany fragment, wybieramy z listy nowo utworzony rekord i odczytujemy
wartość dwóch pierwszych formantów. Program wyposażony jest w funkcję
automatycznego rozpoznawania samogłosek na podstawie wyznaczonych formantów F1 i
F2 (Rys. 1). Należy zwrócić uwagę na skuteczność tej metody.
Rys. 1. Eksperymentalne rozmieszczenie formantów samogłosek polskich dla mowy naturalnej
wraz z zaznaczonymi liniami dzielącymi poszczególne klasy, wykorzystane w algorytmie
rozpoznawania.
Po wyznaczeniu przedziałów wartości formantów F1 i F2 dla sześciu polskich
samogłosek, należy umieścić otrzymane wyniki na wykresie o osiach F1-F2. Należy
przedyskutować rozmieszczenie na płaszczyźnie oraz wariancje poszczególnych
samogłosek. Porównać wyniki dla mowy naturalnej i zastępczej. Słuchając nagrań oraz
analizując widmo głosu należy odpowiedzieć na pytanie, jakie są charakterystyczne
właściwości głosu bezkrtaniowców.
Literatura:
[1] Haykin. S., Adaptive filter theory, Prentice Hall, Inc., Upper Saddle River 1991,
s. 299-333, 480-485, 692-698
[2] Saito S., Speech Science and Technology, Ohmsha, Ltd., IOS Press, 1992, s. 51-61
http://books.google.pl/books?id=NW9p6suh9mMC
[3] Zieliński T., Od teorii do cyfrowego przetwarzania sygnałów, WEAIiE AGH, Kraków 2002, s. 543-557
[4] Pietruch R., Instrukcja obsługi programu AudioVideoWorks,
http://rpietruc.w.interia.pl/instruct.doc