Analiza i modelowanie procesów fizjologicznych
Transkrypt
Analiza i modelowanie procesów fizjologicznych
Analiza i modelowanie procesów fizjologicznych Laboratorium – ćwiczenie 4: Słuch i mowa wersja 11/2008 Część I. Słuch Prof. dr hab. inż. Antoni Grzanka Dźwięki i analiza Fouriera (Sound and hearing) W tym ćwiczeniu badamy związek między kształtem fali dźwiękowej a jej widmem. Na komputerze z kartą dźwiękową można odsłuchać stworzone fale poprzez naciśnięcie przycisku Listen. Niestety, zainstalowana wersja oprogramowania nie umożliwia prezentacji dźwięków. Po prawej stronie znajduje się lista przycisków wyłącznego wyboru, za pomocą, których wybieramy różne ustawione kształty fali począwszy od fali sinusoidalnej, aż do bardzo złożonego dźwięku z wieloma składowymi widmowymi. Po kolei sprawdź każdy z nich i porównaj kształty fali oraz widma wyświetlane w oknie na dole po lewej. Widmo można zmieniać poprzez wybór harmonicznych za pomocą poziomego suwaka na dole i zmianę amplitudy za pomocą pionowego suwaka po prawej stronie. Istnieje też rząd przycisków wyłącznego wyboru na dole dla wyboru różnych faz. Gdy widmo jest gotowe, naciśnij Make new wave i odpowiedni kształt fali pokaże się w oknie przebiegu. Błona podstawna (Basilar membrane) To ćwiczenie bardzo schematycznie pokazuje, w jaki sposób fala wędrująca przechodzi wzdłuż błony podstawnej dla różnych częstotliwości. Wybierz częstotliwość za pomocą przycisków wyłącznego wyboru po prawej stronie. W oknie pokaże się odpowiadająca obwiednia (zauważ, że nie uwzględnione jest tu działanie drugiego filtru, który w żywym organizmie znacznie wyostrza szczyty obwiedni). Naciśnij Start i zobaczysz sekwencję klatek obrazujących ugięcie błony podstawnej (oczywiście w znacznie powiększonej skali) w równych odstępach czasu. Cykl ukazuje falę wędrującą tak jak przechodzi ona wzdłuż błony. Przez Stapes, na diagramie rozwiniętego ślimaka oznaczono jego podstawę (wejście), a słowo Helicotrema oznacza szczyt ślimaka. Synchronizacja fazowa (Phase locking) Ćwiczenie to ilustruje zasadę synchronizację fazowej lub ogni cyrkowych we włóknach nerwu słuchowego. Naciśnij Sweep i pokaże się dźwiękowa fala sinusoidalna (czerwona u góry), a poniżej pokazuje się wzorzec potencjałów czynnościowych ośmiu pojedynczych włókien razem z ich całkowitą aktywnością na dole (kolor jasno niebieski). Choć istnieje pewna doza dowolności w zachowaniu się każdego z włókien z osobna, a – szczególnie dla dużych częstotliwości – włókna mogą być odpalone średnio tylko w różnych okresach lub rzadziej, tym niemniej z powodu tego, że prawdopodobieństwo odpalenia zależy od ciśnienia akustycznego to aktywność wiązki nerwowej jako całość oddaje częstotliwość pobudzenia. Jest tak nawet wtedy, gdy częstotliwość jest tak duża, że żadne z włókien nie jest w stanie nadążyć na bodźcem. Możesz zmieniać amplitudę i częstotliwość dźwięku za pomocą dwóch suwaków. Dla trzech częstotliwości (małych, średnich i dużych) i trzech intensywności (przynajmniej dla skrajnych ustawień) oceń następujące zjawiska. Jakie jest prawdopodobieństwo wyładowania w pojedynczym neuronie w każdym okresie (ile wyładowań jest zgubionych)? Na jakiej części okresu rozłożone są wyładowania w wiązce neuronu? W odpowiedzi na drugie pytanie określ swego rodzaju współczynnik wypełnienia. Opóźnienie między uszami (Interaural delay) Ćwiczenie pokazuje jak para linii opóźniających przewodzących w przeciwnych kierunkach z rzędem neuronów wykrywających koincydencję może zamienić opóźnienie między uszami we wzór przestrzenny lokalizujący źródło dźwięku. Kliknij w dowolny punkt głównego okna: pokaże się krótki impuls dźwiękowy, a potem zobaczysz czoło fali rozchodzącej się z tego punktu. Dwa dolne narożniki pola reprezentują dwoje uszu. Gdy fala do nich dojdzie przekształcana jest w aktywność neuronalną i przesuwa się ze stałą szybkością wzdłuż odpowiednich, poziomych linii opóźniających. Gdy aktywności na obu liniach spotkają się, odpowiedni neuron zapala się na czerwono sygnalizując wykrycie koincydencji. Jeśli klikniecie w środku, w końcu zapali się neuron środkowy. Jeśli klikniecie po jednej stronie to uaktywni się neuron przeciwstronny. Generalnie, opóźnienie międzyuszne jest zamieniane na pozycję przestrzenną. Opracowano na podstawie książki: R.H.S. Carpenter. Neurophysiology. Arnold, London-SydneyAuckland, 1996, str. 119-120. Część II. Mowa mgr inż. Rafał Pietruch Wstęp Ćwiczenie ma na celu zapoznanie studentów z metodami analiz głosu u pacjentów po resekcji krtani. W tym celu zaprezentowany będzie program komputerowy wizualizujący widmo czasowo-częstotliwościowe sygnału mowy oraz trajektorie formantów głosu. Teoria W celu wyznaczania charakterystyki częstotliwościowej sygnału akustycznego mowy naturalnej oraz patologicznej wyznaczane są parametry modelu traktu głosowego. W obu przypadkach, używany jest ten sam model. W mowie naturalnej źródłem fali akustycznej jest krtań. U pacjentów po wycięciu krtani źródłem głosu są najczęściej usta przełyku. Do identyfikacji nieznanego filtru zastosowany został układ liniowej predykcji oraz adaptacyjny algorytm wyznaczania jego parametrów. Model Trakt głosowy został podzielony na równej długości komory rezonacyjne o kołowym przekroju. Źródło fali akustycznej umieszcza się na początku traktu głosowego. Do zastosowania algorytmów adaptacyjnych zakłada się, iż źródło fali dźwiękowej ma charakter szumu białego. Fala akustyczna wędruje przez trakt głosowy, napotykając na granice między komorami o różnej średnicy. Ulega odbiciom wskutek zmiany impedancji falowej ośrodka. Zjawisko odbicia fal następuje także na początku traktu oraz u jego ujścia. Model opisany dokładnie przez Saito [2] poddawany jest dyskretyzacji za pomocą transformaty Z. Haykin [1] prezentuje w jaki sposób przekształcić równania fali wędrującej do równań filtru kratowego. Zieliński [3] pokazuje równoważność modelu z filtrem o nieskończonej odpowiedzi impulsowej. Zaniedbywany jest w tym przypadku wpływ jamy nosowej. Algorytm W celu wyznaczenia parametrów modelu traktu głosowego tworzy się odwrotny filtr transwersalny, którego zera odpowiadają biegunom modelu traktu głosowego. Jego zadaniem jest predykcja aktualnej wartości sygnału z próbek poprzedzających. Błąd predykcji jest wykorzystany do korekcji parametrów filtru. W programie zastosowano algorytm RLS (Recursive Least Square) zaprezentowany przez Haykin'a [1]. Algorytm uaktualnia macierz autokorelacji sygnału mowy ze współczynnikiem zapominania równym 0.995. Znając aktualne wartości współczynników filtru traktu głosowego, można wyznaczyć jego charakterystykę częstotliwościową. Aktualne wartości formantów wyznacza się szukając lokalnych minimów drugiej pochodnej obwiedni widma. Możliwości programu Widmo jest wyznaczane i wyświetlane w oknie aplikacji w czasie rzeczywistym dla zapisów audio o częstotliwości próbkowania 8kHz. Ilość współczynników filtru jest stała i wynosi 10. Ilość par biegunów filtru głosowego (najczęściej zespolonych sprzężonych) wynosi 5, co stanowi maksymalną liczbę formantów w przedziale do 4 kHz. Program umożliwia zatrzymanie ścieżki dźwiękowej w dowolnym momencie odtwarzania i zaznaczenie wybranego fragmentu. Posiada możliwość automatycznego ustawiania przedziału analiz na początek i koniec samogłoski izolowanej. Następnie obliczane są cztery formanty F1-F4, ich rozstęp kwartylowy oraz mediana. Ewentualnie piąte, nadmiarowe maksimum lokalne widma jest odrzucane. Do śledzenia formantów wykorzystuje się algorytmu najmniejszego kosztu przejścia między kolejnymi wartościami maksimów lokalnych. Wyniki kilku pomiarów można zapisać do pliku w celu ponownego odczytania i odtwarzania jedynie wybranych fragmentów. Zadanie Przed rozpoczęciem ćwiczenia należy zapoznać się z instrukcją obsługi programu AVW udostępnionej na stronie internetowej [4] oraz, jeśli zajdzie potrzeba, uaktualnić oprogramowanie zgodnie z instrukcją. Lokalnie na komputerach w katalogu wskazanym przez prowadzącego znajdują się nagrania audio głosu ludzi zdrowych i pacjentów. Pliki zapisane są w formacie WAV 8kHz i ponumerowane zgodnie z kolejnością nagrań. Każde nagranie zawiera jednakową treść i zaczyna się od recytacji sześciu polskich samogłosek. Zadaniem studentów jest odtworzenie w programie wskazanych zapisów nagrań głosu naturalnego i mowy zastępczej. Na początku ustawiamy wyświetlanie widma czasowoczęstotliwościowego o amplitudzie oznaczanej stopniami szarości lub kolorami. Następnie wybieramy opcję wyświetlania ścieżek formantów oraz dokonujemy oceny skuteczności ich wyznaczania oraz śledzenia. Zatrzymujemy odtwarzanie w dogodnej chwili, aby zaznaczyć wybrany fragment, wybieramy z listy nowo utworzony rekord i odczytujemy wartość dwóch pierwszych formantów. Program wyposażony jest w funkcję automatycznego rozpoznawania samogłosek na podstawie wyznaczonych formantów F1 i F2 (Rys. 1). Należy zwrócić uwagę na skuteczność tej metody. Rys. 1. Eksperymentalne rozmieszczenie formantów samogłosek polskich dla mowy naturalnej wraz z zaznaczonymi liniami dzielącymi poszczególne klasy, wykorzystane w algorytmie rozpoznawania. Po wyznaczeniu przedziałów wartości formantów F1 i F2 dla sześciu polskich samogłosek, należy umieścić otrzymane wyniki na wykresie o osiach F1-F2. Należy przedyskutować rozmieszczenie na płaszczyźnie oraz wariancje poszczególnych samogłosek. Porównać wyniki dla mowy naturalnej i zastępczej. Słuchając nagrań oraz analizując widmo głosu należy odpowiedzieć na pytanie, jakie są charakterystyczne właściwości głosu bezkrtaniowców. Literatura: [1] Haykin. S., Adaptive filter theory, Prentice Hall, Inc., Upper Saddle River 1991, s. 299-333, 480-485, 692-698 [2] Saito S., Speech Science and Technology, Ohmsha, Ltd., IOS Press, 1992, s. 51-61 http://books.google.pl/books?id=NW9p6suh9mMC [3] Zieliński T., Od teorii do cyfrowego przetwarzania sygnałów, WEAIiE AGH, Kraków 2002, s. 543-557 [4] Pietruch R., Instrukcja obsługi programu AudioVideoWorks, http://rpietruc.w.interia.pl/instruct.doc