Rozpoznawanie emocji na podstawie mowy naturalnej

Transkrypt

POLITECHNIKA ŁÓDZKA
Wydział Elektrotechniki, Elektroniki,
Informatyki i Automatyki
mgr inż. Dorota Kamińska
Streszczenie rozprawy doktorskiej na temat:
Rozpoznawanie emocji na podstawie mowy naturalnej
Promotor
dr hab. inż. Adam Pelikant
Łódź 2014
1. Wprowadzenie
Komunikacja interpersonalna to nieodzowny element ludzkiego życia. Rozmowa dostarcza
słuchaczowi zarówno informacji lingwistycznych, jak i określa charakterystyk˛e biologiczno psychologiczna˛ mówcy. Wydobycie obu rodzajów informacji poprawia jakość komunikacji.
Ważnym elementem konwersacji jest ocena stanu emocjonalnego rozmówcy, który możemy
również z niej odczytać.
W dzisiejszych czasach, kiedy komputery sa˛ cz˛eścia˛ naszego życia, poszukuje si˛e rozwiazań
˛
majacych
˛
na celu polepszenie komunikacji człowiek-komputer/człowiek-robot (HCI/HRI).
Dlatego też powstaja˛ nowoczesne technologie rozpoznawania ludzkiej mowy.
Systemy,
które dodatkowo rozpoznawałyby stany emocjonalne użytkownika, byłyby bardziej naturalne
i wiarygodne.
Toteż komputerowe rozpoznawanie emocji stało si˛e istotnym trendem
badawczym.
Odczucia wyrażane sa˛ zarówno poprzez procesy werbalne jak i niewerbalne. Sygnały
takie jak mowa [1], mimika twarzy [2], kontakt wzrokowy, gesty [3] oraz stan fizjologiczny
organizmu (elektroencefalografia EEG, elektromiografia EMG, reakcja skórno-galwaniczna
GSR, temperatura skóry, rytm i długości wydechów czy ciśnienie t˛etnicze) [4] stanowia˛ wejście
systemów rozpoznawania emocji. Ludzki głos, najłatwiej dost˛epny z wyżej wymienionych
sygnałów, jest również szeroko stosowany jako źródło informacji na temat stanu emocjonalnego
mówcy.
Niniejsze rozważania dotycza˛ rozpoznawania stanów emocjonalnych wyrażanych głosem.
Autorka skupiła si˛e głównie na mowie spontanicznej, dotychczas powszechnie zast˛epowanej
mowa˛ odegrana.˛ Na potrzeby zrealizowanych badań zgromadzone zostały nagrania audio
z nośnikiem emocjonalnym, stanowiace
˛ kompleksowa˛ baz˛e wejściowa.˛
Opierajac
˛ si˛e na
kole Roberta Plutchika stworzono modele emocji podstawowych oraz wtórnych, b˛edacych
˛
wariacjami stanów podstawowych.
Autorka przedstawiła nowatorski sposób klasyfikacji
emocji spontanicznych stosujac
˛ przy tym zarówno powszechnie znane deskryptory sygnału
1
mowy jak i percepcyjne współczynniki hybrydowe, dotychczas nie wykorzystywane do opisu
emocji. Poniżej przedstawione tezy badawcze, ściśle powiazane
˛
z zagadnieniami klasyfikacji
mowy emocjonalnej, zostana˛ zweryfikowane w toku pracy.
Teza 1:
Wykorzystanie hybrydowych współczynników percepcyjnych w procesie
klasyfikacji dokonywanym przy użyciu komitetu klasyfikatorów pozwala na uzyskanie
wysokiej skuteczności rozpoznawania emocji na podstawie mowy naturalnej.
Teza 2: Opierajac
˛ si˛e na teorii emocji Plutchika można dokonać klasyfikacji emocji
wtórnych.
Teza 3: Istnieje możliwość zwi˛ekszenie dokładności rozpoznawania emocji zawartych w
głosie poprzez minimalizacj˛e cech osobniczych mówcy.
2. Psychoewolucyjna teoria Roberta Plutchika
W latach 1960-1980 amerykański psycholog Robert Plutchik [5] opracował teori˛e, w
której wyodr˛ebnił osiem pierwotnych emocji stanowiacych
˛
prototyp: radość, akceptacja,
strach, zdziwienie, smutek, gniew, obrzydzenie oraz oczekiwanie. Stany te sa˛ wrodzone,
odnosza˛ si˛e do zachowań adaptacyjnych, które maja˛ na celu pomoc w przetrwaniu. Stanowia˛
one hipotetyczne konstrukty, swojego rodzaju stany idealne, których właściwości i cechy sa˛
wnioskowane intuicyjnie. Wszystkie inne emocje sa˛ stanami pochodnymi, wyst˛epuja˛ jako
kombinacje, mieszaniny lub zwiazki
˛
stanów podstawowych. Swoje przemyślenia Plutchik
zobrazował przy pomocy koła emocji, przedstawionego na rysunku 1.
Diagram reprezentuje stopień podobieństwa pomi˛edzy poszczególnymi stanami. Emocje
podstawowe rozmieszczone sa˛ na kole jako pary biegunów przeciwstawnych, których nie
można doświadczyć w tym samym czasie, gdyż si˛e wzajemnie wykluczaja.˛ Przykładowo
radość stanowi przeciwieństwo smutku. Emocje sasiaduj
˛
ace
˛ na diagramie, gdy sa˛ odczuwane
jednocześnie, mieszajac
˛ si˛e tworza˛ nowe stany. Mieszanina dwóch pierwotnych emocji jest
nazywana przez Plutchika diada.˛ Na przykład, diada radości i zaufania to miłość. Diady z
2
Rysunek 1. Koło emocji Plutchika
przeciwstawnych emocji nie wyst˛epuja,˛ gdyż zachodzi mi˛edzy nimi konflikt. Poparcie tego
strukturalnego modelu stanowia˛ badania empiryczne [5].
3. Paraj˛ezyk
Już Arystoteles twierdził, że poszczególny stan emocjonalny wia˛że si˛e z określonym
tonem głosu. Jednakże to dopiero Darwin dokonał pierwszego opisu dźwi˛eków zwiazanych
˛
z stanami emocjonalnymi mówcy. Na podstawie badań różnych gatunków zwierzat
˛ oraz
ludzi, doszedł do wniosku, że istnieje bezpośredni zwiazek
˛
mi˛edzy sygnałem akustycznym,
a stanem wewn˛etrznym jednostki, natomiast zmiana tonu, głośności czy intonacji sygnalizuje
zmian˛e nastroju. Zaobserwował również, że sygnały akustyczne moga˛ wywoływać reakcje
emocjonalne u słuchacza.
Aby lepiej zobrazować wpływ emocji na ludzka˛ mow˛e, należy przyjrzeć si˛e modelowi
narzadu
˛ głosu, na który składaja˛ si˛e: przestrzenie rezonacyjne (nagłośnia, gardło, jama nosowa,
jama ustna), generator energii akustycznej (głośnia) oraz zbiornik powietrza (płuca i oskrzela).
Strumień powietrza, konieczny do fonacji, wytwarzany jest w płucach z drzewem
oskrzelowym.
Głośnia jest generatorem tonu podstawowego (krtaniowego),
3
zaś
precyzyjne drgania fałdów głosowych przekształcaja˛ energi˛e wyrażona˛ wektorem ciśnienia
podgłośniowego w energi˛e akustyczna˛ [6]. Cz˛estotliwość tych drgań tzw. cz˛estotliwość
podstawowa (F0) jest cecha˛ osobnicza,˛ wynika z rozmiaru krtani oraz napi˛ecia i rozmiaru
strun głosowych, jest zależna od płci oraz wieku. Przykładowo dla m˛eżczyzn zawiera si˛e w
przedziale od 80 do 480 Hz, natomiast dla kobiet w przedziale od 160 do 960 Hz. Jest zatem
odpowiedzialna za skal˛e głosu. Podczas rozmowy, zakres jej zmian zwiazany
˛
jest głównie
z intonacja,˛ która odgrywa ogromna˛ rol˛e w ekspresji emocji, dlatego też deskryptory źródła
dźwi˛eku sa˛ powszechnie stosowane w badaniach nad tym zagadnieniem.
Struktura harmoniczna dźwi˛eku podstawowego zmienia kształt pod wpływem działania
rezonatorów (filtrów akustycznych) traktu głosowego. Określone składowe pierwotnego tonu
ulegaja˛ wzmocnieniu, inne natomiast osłabieniu.
nazywane sa˛ formantami.
Maksima wzmocnionych cz˛estotliwości
Ich wartości zależa˛ od cech osobniczych (długość przewodu
głosowego), ale również od sposobu artykulacji (ułożenie j˛ezyka i ust, ruchomość żuchwy)
[6]. Deskryptory traktu głosowego sa˛ rzadziej stosowane w badaniach, aczkolwiek niosa˛ ze
soba˛ istotne informacje emocjonalne, majace
˛ swoje odzwierciedlenie w mimice np. ułożenie
ust. Jest bowiem oczywiste, że zdanie wypowiadane z uśmiechem brzmi inaczej, niż to samo
zdanie wypowiadane z odmiennym wyrazem twarzy.
Podejście teoretyczne oraz praktyczne do rozpoznawania stanów emocjonalnych sugeruje,
że określone wzorce wyrażeń wokalnych sa˛ specyficzne dla konkretnego stanu. Emocje moga˛
powodować zmiany w sposobie oddychania, fonacji czy artykulacji, co z kolei ma swoje
odzwierciedlenie w sygnale mowy. Poza wyżej wymienionymi deskryptorami źródła oraz
traktu głosowego, inne cechy takie jak postrzegana głośność czy tempo wypowiedzi maja˛
wpływ na percepcj˛e emocji.
Przykładowo stany takie jak gniew i strach charakteryzuja˛
si˛e szybkim tempem mowy, wysokimi wartościami F0, szerokim zakresem intonacji, co
spowodowane jest pobudzeniem układu współczulnego, nagłym przyspieszeniem akcji serca,
zwi˛ekszeniem ciśnienia krwi, czemu czasem może towarzyszyć suchość w ustach i drżenie
mi˛eśni. Zupełnie odwrotnie jest w przypadku smutku oraz znudzenia, kiedy to mowa jest wolna,
monotonna, F0 obniżone, bez wi˛ekszych zmian intonacji. Spowodowane jest to mi˛edzy innymi
pobudzeniem układu przywspółczulnego, zwolnieniem rytmu serca, spadkiem ciśnienia krwi,
zwi˛ekszeniem ilości wydzielanej śliny.
4
Istnieja˛ przesłanki wskazujace
˛ na niezależność prozodiów od rasy, kultury, religii, a także
od j˛ezyka natywnego mówcy. Liczne badania wskazuja,˛ że korelaty emocji podstawowych
w różnych kulturach sa˛ podobne ze wzgl˛edu na uniwersalne zjawiska fizjologiczne [7].
Aczkolwiek wielu naukowców neguje tez˛e uniwersalności mowy emocjonalnej. W badaniach
[8] przeprowadzonych na grupie wolontariuszy z Hiszpanii i Szwecji udowodniono, jak trudno
jest rozpoznać emocje w głosie mówcy innej narodowości. Najlepsze wyniki osiagni˛
˛ eto dla
smutku i wyniosły one zaledwie 53%, inne emocje rozpoznawane były z dokładnościa˛ niższa˛
niż 30%. Należy przy tym podkreślić, że wyniki badań tego samego spektrum emocji u
osób tej samej narodowości, średnio wahaja˛ si˛e w granicach 55 - 60% [8]. Stosunkowo
niska rozpoznawalność wia˛że si˛e z wyst˛epowaniem podobnych zjawisk fizjologicznych dla
danych stanów, co prowadzi do podobieństw cech akustycznych. Należy dodatkowo wziać
˛
pod uwag˛e, że na ludzka˛ ocen˛e wypływa również kontekst wypowiedzi. Dlatego, przy analizie
komputerowej dokonywanej wyłacznie
˛
na podstawie cech akustycznych, nie należy oczekiwać
lepszych rezultatów. Mimo to, w zwiazku
˛
z szeroka˛ dost˛epnościa˛ sygnału mowy również przy
dużej odległości oraz przy komunikacji za pomoca˛ urzadzeń
˛
teleinformatycznych, jest to ważny
element tego typu rozważań.
4. Projekt systemu rozpoznawania stanów emocjonalnych
Automatyczne rozpoznawanie to proces klasyfikacji analizowanych danych (wzorców),
w oparciu o wiedz˛e zgromadzona˛ w systemie informatycznym, bazujac
˛ na narzuconych lub
odkrytych przez ten system regułach [9]. Wspólnym mianownikiem problemów tej dziedziny
jest algorytm obejmujacy
˛ pewne zasadnicze fazy (rys. 2). Ponieważ rozpoznawanie emocji
jest tematem wpisujacym
˛
si˛e w schemat ogólnej metodologii automatycznego rozpoznawania,
algorytm ten jest wykorzystywany w podj˛etych badaniach.
Rysunek 2. Algorytm rozpoznawania wzorców
Pierwszy krok algorytmu to akwizycja danych, która˛ w przypadku niniejszej pracy stanowi
baza mowy emocjonalnej. Nast˛epny krok to przygotowanie danych do dalszej analizy, czyli tzw.
5
wst˛epna obróbka. Trzecia˛ faz˛e rozpoznawania stanowi ilościowy opis przedmiotu. Obejmuje
on identyfikacj˛e takich właściwości obiektu, które niosa˛ informacje wystarczajace
˛ do realizacji
zadania. Ostatni etap stanowi proces klasyfikacji, czyli kategoryzowanie przedmiotu badań,
na podstawie wcześniej utworzonego opisu ilościowego. Poniższy opisano kolejne kroki
algorytmu.
4.1. Korpus mowy emocjonalnej
Percepcja naturalnych emocji jest procesem złożonym, subiektywnym i bardzo cz˛esto
zdarza si˛e, że człowiek jedna˛ sytuacj˛e potrafi ocenić na kilka sposobów. Dlatego też poszukuje
si˛e rozwiazań,
˛
w których można uniknać
˛ zdeterminowanego etykietowania, wskazujac
˛ jedynie
wyst˛epowanie lub absencj˛e konkretnych stanów podstawowych (np. tworzac
˛ tzw. profil
emocjonalny), a nast˛epnie pomiar stopnia nasilenia każdego z nich [10]. Podejście to może
okazać si˛e pomocne w rozpoznawaniu niejednoznacznie określonych emocji, które pojawiaja˛
si˛e w spontanicznych dialogach.
Aby dokładniej zrozumieć problem niejednoznaczności emocji, przytoczona zostanie
poniższa definicja: emocje prototypowe (podstawowe) to stany majace
˛ znaczenie adaptacyjne
do walki o przetrwanie jednostki gatunku. Według Plutchika wyróżnia si˛e osiem stanów
podstawowych: gniew, wyczekiwanie, radość, ufność, strach, zaskoczenie, smutek oraz odraza.
Oprócz prototypowych można wyróżnić szereg emocji wtórnych, b˛edacych
˛
kombinacjami
tych podstawowych. W 2009 roku na konferencji ACII (Affective Computing and Intelligent
Interaction) odbyła si˛e specjalna sesja poświ˛econa rozpoznawaniu emocji z niejednoznacznie
określonych wypowiedzi.
Konferencja ta rozpocz˛eła lawin˛e pytań dotyczacych
˛
badań
mowy spontanicznej, a naukowcy zacz˛eli porzucać analiz˛e nagrań odgrywanych. Poniżej
przedstawiono główne zjawiska składajace
˛ si˛e na niejednoznaczność stanu psychicznego
mówcy oraz percepcji słuchaczy:
• mieszanina emocji – dwa lub wi˛ecej stanów emocjonalnych wyst˛epuje w tym samym
momencie; według teorii Plutchika możemy przeżywać mieszanin˛e pierwotnych emocji;
polega to na łaczeniu
˛
poszczególnych stanów pierwotnych w jeden stan wtórny (emocje
leżace
˛ obok siebie na kole Plutchika rys. 1);
6
• maskowanie emocji – ukrywanie przez mówc˛e przeżywanego stanu emocjonalnego innym
stanem (np. maskowanie smutku radościa);
˛
• przyczynowo-skutkowy konflikt ekspresji – konkretny stan emocjonalny okazywany jest w
ten sam sposób, jak stan całkowicie przeciwny (np. płacz ze szcz˛eścia);
• podobieństwo stanów emocjonalnych – granice pomi˛edzy poszczególnymi stanami sa˛
niejednoznacznie określone, nakładaja˛ si˛e wzajemnie (emocje leżace
˛ obok siebie na kole
Plutchika rys. 1);
• sekwencja emocji – konsekutywnie okazywanie kolejnych stanów w trakcie wypowiedzi.
Zastosowanie techniki tworzenia profili jest pomocne w określeniu najbardziej
prawdopodobnego stanu psychicznego mówcy, zbadaniu ewolucji tego stanu trakcie
wypowiedzi (wzrost lub spadek nat˛eżenia) oraz interpretacji wypowiedzi, na które nakłada si˛e
kilka emocji na raz.
Zadanie
rozpoznawania
wzorców
wymaga
zgromadzona
odpowiednich
danych
wejściowych (zbiór treningowy i testowy). W przypadku niniejszych badań dane te stanowia˛
próbki mowy nacechowanej emocjonalnie.
Biorac
˛ pod uwag˛e teori˛e Roberta Plutchika,
stworzono korpus emocji podstawowych, lecz w szerszym zakresie niż przedstawiaja˛ to
dotychczasowe badania. Pierwszym krokiem było zgromadzenie próbek mowy w siedmiu
podstawowych (według Plutchika) stanach emocjonalnych: gniew, wyczekiwanie, radość,
strach, zaskoczenie, smutek oraz odraza. Z powodu niedostatecznej ilości próbek ze zbioru
wykluczono ufność. Wszystkie próbki zostały ocenione przez grup˛e ekspertów oraz nadano
im etykiety odpowiadajace
˛ wyżej opisanym stanom emocjonalnym. Nast˛epnie najbardziej
charakterystyczne emocje (gniew, zadowolenie, starach i smutek) zostały poddane badaniu
intensywności. W ten sposób otrzymano pi˛etnaście stanów emocjonalnych, których zestawienie
przedstawiono w tabeli 3.
Metodyka doboru źródeł nagrań
Badania statystyczne, które stanowia˛ integralna˛ cz˛eść tworzenia korpusu mowy
emocjonalnej, powinny spełniać określone kryteria.
Jednym z nich jest zachowanie
prawidłowego rozkładu parametrów (cech) podmiotu badań, majacych
˛
znaczenie dla
wnioskowania, a wpływajacych
˛
na jego wiarygodność.
Wykorzystywany w niniejszych
badaniach korpus stanowi zbiór wypowiedzi emocjonalnych w j˛ezyku polskim, jedynym
7
Rysunek 3. Zestawienie materiału badawczego
ograniczeniem próby jest natywna znajomość j˛ezyka polskiego. Zakres przestrzenny, czas,
miejsce oraz cechy personalne próby nie stanowiły obostrzeń.
Dobór próby reprezentatywnej w trakcie gromadzenia nagrań jest jednym z kluczowych
elementów badań wpływajac
˛ na ich wiarygodność. Zakłada si˛e, że próba jest reprezentatywna,
kiedy wyst˛epuja˛ w niej wszystkie wartości zmiennej, mogace
˛ mieć wpływ na wyniki badań.
Ponieważ proces ekspresji emocji jest subiektywny, zależny przede wszystkim od płci, wieku
oraz pochodzenia osoby badanej, to właśnie te zmienne społeczno-demograficzne zostały
wzi˛ete pod uwag˛e w procesie tworzenia korpusu.
Przy wyborze źródeł kierowano si˛e
zatem dost˛epem do wyżej wymienionych informacji, a przy tworzeniu korpusu zachowano
odpowiednie proporcje tych zmiennych.
Założenie to w znacznym stopniu ograniczyło
8
możliwości gromadzenia materiału (brak danych personalnych w nagraniach radiowych).
Najistotniejsza˛ cecha˛ próbek miała być autentyczność prezentowanych emocji, co również
zaw˛eża obszar poszukiwań. Autorka głównie skupiła si˛e na materiałach prezentowanych
na żywo oraz programach typu reality show. Prezentowane tam uczucia wydaja˛ si˛e być
spontaniczne, prowokowane wydarzeniami oraz dyskusja.˛ Przykładowo do prezentacji złości
wybrano programy prezentujace
˛ problemy polityczne i społeczne (np. Państwo w Państwie
telewizji Polsat).
Założenie autentyczności okazywanych uczuć może być bł˛edne i jest
zwiazane
˛
z subiektywna˛ ocena˛ autorki oraz wolontariuszy bioracych
˛
udział w ocenie próbek.
Należy również wspomnieć, że zgromadzone nagrania cz˛esto zawierały zakłócenia, co również
może mieć wpływ na ocen˛e.
Stan emocjonalny mówcy może zostać rozpoznany już na podstawie krótkich wypowiedzi
typu Tak lub Nie. Dzi˛eki temu krótkie zdania, a także same słowa sa˛ także odpowiednie do
analizy. Czasem o stanie emocjonalnym mówcy informuja˛ dodatkowe dźwi˛eki takie, jak krzyk,
pisk, śmiech czy płacz. Dlatego też oprócz pełnych wypowiedzi, na baz˛e emocji składaja˛ si˛e
również pojedyncze słowa i dźwi˛eki, takie, które pojawiaja˛ si˛e w codziennej komunikacji.
Dodatkowo do celów badawczych stworzono model mowy neutralnej (bez zabarwienia
emocjonalnego).
Został on złożony z wypowiedzi z bazy opisanej w podrozdziale ??
uzupełnionej wypowiedziami dziennikarzy zazwyczaj neutralnie komentujacych
˛
wydarzenia.
Model ten składa si˛e z 235 wypowiedzi i nie został poddany etykietowaniu przez wolontariuszy.
Etykietowanie mowy emocjonalnej
Proces etykietowania zgromadzonych nagrań podzielono na dwie cz˛eści. Pierwsza z nich
została przeprowadzona przez autork˛e oraz studentów psychologii Uniwersytetu Łódzkiego. Na
podstawie pełnych nagrań wideo, a wi˛ec majac
˛ do dyspozycji zarówno głos, semantyk˛e, jak i
obraz, nagrania zostały podzielone na osiem grup (emocje podstawowe). Biorac
˛ pod uwag˛e,
że w pierwszym kroku eksperci mogli korzystać z dodatkowych bodźców (gesty, mimika),
etykietowanie nagrań, pomijajac
˛ czasochłonność, nie stanowiło wi˛ekszego wyzwania. Dopiero
krok drugi, w którym nagrania etykietowane były przez wolontariuszy wyłacznie
˛
na podstawie
głosu, pokazał jak subiektywnym procesem jest percepcja emocji.
Odsłuch wst˛epnie zakwalifikowanych próbek przeprowadzono w celu przetestowania, czy
słuchacz jest w stanie zidentyfikować emocjonalna˛ zawartość nagrania.
9
W badaniu tym
brało udział pi˛etnaście prawidłowo słyszacych
˛
osób różnej płci, w wieku od 21 do 58 lat.
Zadaniem uczestników badania było dokonanie oceny nagrania i zakwalifikowanie do jednej
z wybranych grup (klas).
Proces ten odbywał przy pomocy stworzonego do tego celu
oprogramowania. Osoba oceniajaca
˛ odsłuchiwała nagrania jedno po drugim i dokonywała
wyboru, który kolejno zapisywany był w bazie danych. Każda˛ z próbek można było odtworzyć
dowolna˛ ilość razy przed dokonaniem ostatecznej oceny, jednakże po dokonaniu wyboru,
nie było możliwości powrotu do danego nagrania. Na tej podstawie sporzadzono
˛
wyniki
rozpoznawania poszczególnych emocji przez każda˛ z osób. Średnie rozpoznawanie wyniosło
82,6% w zakresie od 63% do 93%. Należy jednak podkreślić, że wzór stanowiły próby ocenione
przez autork˛e i studentów psychologii, a ocena ta również jest subiektywna. Dlatego też próbki,
które wielokrotnie etykietowano niezgodnie z ocena˛ ekspertów, zostały właczone
˛
do zbioru
stanowiacego
˛
niejednoznacznie określone stany. Emocje ocenione zgodnie przez co najmniej
dziesi˛eć osób, zostały sklasyfikowane jako czyste stany prototypowe. Cz˛eść z nich stanowi
zbiór treningowy, cz˛eść zbiór testowy niniejszych badań. Podczas procesu etykietowania
wolontariusze zostali poproszeni dodatkowo o oznaczenie intensywności (nat˛eżenia) czterech
podstawowych stanów emocjonalnych (gniew, radość, strach i smutek) w skali od jednego
(najniższe nat˛eżenie) do 3 (najwyższe nat˛eżenie). W ten sposób uzyskano etykiety diad
emocjonalnych.
4.2. Deskryptory sygnału mowy
Jednym z najistotniejszych kroków jest ilościowy opis przedmiotu badań, czyli identyfikacja
cech obiektu, które niosa˛ informacje, wystarczajace
˛ do efektywnej klasyfikacji.
W
poniższej tabeli dokonano zestawienia deskryptorów sygnału mowy wykorzystanych podczas
prowadzonych badań.
Zestawienie deskryptorów mowy wykorzystanych w niniejszych badaniach
Grupa cech
Opis cechy
Średnia wartość F0
Maksymalna wartość F0
Minimalna wartość F0
Mediana F0
Odchylenie standardowe F0
Zakres F0
10
Grupa cech
Opis cechy
Górny kwartyl F0
Dolny kwartyl F0
Rozst˛ep kwartylny F0
Kurtoza F0
Współczynnik skośności F0
Współczynnik wahania F0
Współczynnik monotoniczności F0
Maksymalna wartość wzrostu F0
Minimalna wartość wzrostu F0
Średnia wartość wzrostu F0
Maksymalna wartość spadku F0
Minimalna wartość spadku F0
Średnia wartość spadku F0
Maksymalny przedział wzrostu F0
Średni przedział wzrostu F0
Maksymalny przedział spadku F0
Średni przedział spadku F0
Średnia wartość energii sygnału
Maksymalna wartość energii sygnału
Minimalna wartość energii sygnału
Mediana energii sygnału
Odchylenie standardowe energii sygnału
Zakres energii sygnału
Górny kwartyl energii sygnału
Dolny kwartyl energii sygnału
Rozst˛ep kwartylny energii sygnału
Kurtoza energii sygnału
Współczynnik skośności obwiedni
Energia sygnału
Współczynnik wahania obwiedni
Współczynnik monotoniczności obwiedni
Maksymalna wartość wzrostu obwiedni
Minimalna wartość wzrostu energii sygnału
Średnia wartość wzrostu obwiedni
Maksymalna wartość spadku obwiedni
Minimalna wartość spadku obwiedni
Średnia wartość spadku obwiedni
Maksymalny przedział wzrostu obwiedni
Średni przedział wzrostu obwiedni
Maksymalny przedział spadku obwiedni
Średni przedział spadku obwiedni
Średnie F1
Mediana F1
Maksimum F1
Minimum F1
Formanty F1-F3
11
Grupa cech
Opis cechy
Średnie F2
Mediana F2
Maksimum F2
Minimum F2
Średnie F3
Mediana F3
Maksimum F3
Minimum F3
Średnia wartość współczynników LPC (1-13)
Odchylenie standardowe współczynników LPC (1-13)
Współczynniki LPC
Mediana współczynników LPC (1-13)
Maksymalna wartość współczynników LPC (1-13)
Minimalna wartość współczynników LPC (1-13)
Średnia wartość współczynników MFCC (1-13)
Odchylenie standardowe współczynników MFCC (1-13)
Współczynniki MFCC
Mediana współczynników MFCC (1-13)
Maksymalna wartość współczynników MFCC (1-13)
Minimalna wartość współczynników MFCC (1-13)
Średnia wartość współczynników BFCC (1-13)
Odchylenie standardowe współczynników BFCC (1-13)
BFCC
Mediana współczynników BFCC (1-13)
Maksymalna wartość współczynników BFCC (1-13)
Minimalna wartość współczynników BFCC (1-13)
Średnia wartość współczynników HFCC (1-13)
Odchylenie standardowe współczynników HFCC (1-13)
HFCC
Mediana współczynników HFCC (1-13)
Maksymalna wartość współczynników HFCC (1-13)
Minimalna wartość współczynników HFCC (1-13)
Średnia wartość współczynników PLP (1-13)
Odchylenie standardowe współczynników PLP (1-13)
PLP
Mediana współczynników PLP (1-13)
Maksymalna wartość współczynników PLP (1-13)
Minimalna wartość współczynników PLP (1-13)
Średnia wartość współczynników RPLP (1-13)
Odchylenie standardowe współczynników RPLP (1-13)
RPLP
Mediana współczynników RPLP (1-13)
Maksymalna wartość współczynników RPLP (1-13)
Minimalna wartość współczynników RPLP (1-13)
Średnia wartość współczynników RASTA PLP (1-13)
Odchylenie standardowe współczynników RASTA PLP (1-13)
RASTA PLP
Mediana współczynników RASTA PLP (1-13)
Maksymalna wartość współczynników RASTA PLP (1-13)
12
Grupa cech
Opis cechy
Minimalna wartość współczynników RASTA PLP (1-13)
4.3. Klasyfikacja hierarchiczna
Ostatni krok zadania rozpoznawania wzorców stanowi proces klasyfikacji. W procesie tym
określa si˛e przynależność nieznanego obiektu, opisanego za pomoca˛ wektora atrybutów, do
jednej ze zdefiniowanych wcześniej klas. Mimo, iż metody klasyfikacji to raczej standardowe
narz˛edzia automatycznego rozpoznawania, obejmujace
˛ szereg podejść (systemy ekspertowe,
drzewa decyzyjne, logika rozmyta, sieci neuronowe i inne) [11], to niejednokrotnie zdarza
si˛e, że narz˛edzia te nie daja˛ oczekiwanych rezultatów. Klasyfikacja emocji na podstawie
mowy, a w szczególności mowy spontanicznej, jest zadaniem trudnym, zależnym od wielu
czynników, i mimo szeroko eksploatowanych badań, wcia˛ż natrafia na poważne przeszkody.
Dlatego też poszukuje si˛e nowych rozwiazań,
˛
poprzez tworzenie innowacyjnych algorytmów
badź
˛ klasyfikatorów hybrydowych, bazujacych
˛
na współdziałaniu istniejacych
˛
rozwiazań.
˛
Jednym z obiecujacych
˛
podejść w uczeniu maszynowym wydaje si˛e być stosowanie
komitetów klasyfikujacych
˛
(ang. Ensemble, Committee, Multiple Classifier Systems - MCS),
bazujacych
˛
na zasadzie dziel i zwyci˛eżaj. W tym celu dokonuje si˛e dekompozycji złożonego
problemu na kilka mniej złożonych [12]. Tworzone w ten sposób rozwiazanie
˛
składa si˛e z
wielu prostych (łatwych do zbudowania) modeli (w˛ezłów) o relatywnie niskiej skuteczności, a
ich końcowe wyniki sa˛ łaczone
˛
(np. metoda˛ głosowania, przypisujac
˛ obiekt do klasy, na która˛
głosuje najwi˛ecej spośród klasyfikatorów bazowych).
Biorac
˛ pod uwag˛e wysokie rezultaty rozpoznawania emocji na podstawie mowy w
powyższych pracach oraz niejednoznaczność stanów oraz rozmycie granic mi˛edzy nimi w
mowie spontanicznej, niniejsze badania stanowia˛ prób˛e opracowania skutecznego klasyfikatora
hierarchicznego.
Proces jego tworzenia rozpoczyna si˛e od Podstawowego Algorytmu
Rozpoznawania Emocji PAKEmo, opartego na horyzontalnym podziale problemu na
podproblemy wzgl˛edem wektora cech.
Nast˛epnie algorytm rozbudowywany był poprzez
dodawanie kolejnych w˛ezłów, majacych
˛
za zadanie zwi˛ekszyć wydajność systemu. Ostateczny
algorytm stanowi wielopoziomowy, hierarchiczny klasyfikator, który na kolejnych poziomach
zawiera takie elementy jak: rozpoznawanie płci, budowa profili emocjonalnych, zależność
emocji od długości wypowiedzi oraz badanie nat˛eżenia emocji. Wszystkie wyżej wymienione
podproblemy zostały kolejno przedstawione w poniższych podrozdziałach.
13
Algorytm bazowy
Wektory cech opisujacych
˛
obiekty ze zbioru uczacego
˛
oraz wektor opisujacy
˛ nieznany
obiekt zostały podzielone na podwektory konkretnych grup cech (przedstawione w załaczniku
˛
A niniejszej pracy). W ten sposób otrzymano m oddzielnych podwektorów, przykładowo
wektor deskryptorów cz˛estotliwości podstawowej czy współczynników MFCC. Na poziomie
zerowym algorytmu PAKEmo (rys. 4) znajduje si˛e zespół m klasyfikatorów. W każdym z
nich podejmowana jest decyzja dm przy użyciu algorytmu k-NN. Każdy z m klasyfikatorów
dokonuje oddzielnej klasyfikacji na podstawie określonej grupy cech, a zatem wykonywanych
jest m testów.
Na poziomie pierwszym otrzymujemy m decyzji, gdzie liczby k, l..., s
reprezentuja˛ ilość głosów oddanych na konkretna˛ klas˛e. Na tej podstawie, wykorzystujac
˛
głosowanie równoprawne, wybierana jest ostateczna klasa nieznanego obiektu.
Rysunek 4. Schemat podstawowego algorytmu klasyfikacji emocji
Problemy pojawiaja˛ si˛e w przypadku, gdy na podstawie głosowania równoprawnego nie
da si˛e wyłonić jednego zwyci˛ezcy (jednej klasy). W takim przypadku sprawdzane zostaje
położenie obu klas na kole emocji Plutchika.
Jeśli obie zwyci˛eskie klasy leża˛ na kole
obok siebie, zachodzi podejrzenie, że granice mi˛edzy nimi sa˛ na tyle niejednoznaczne, że
nie jest możliwe podj˛ecie jednej, konkretnej decyzji. Wypowiedź klasyfikowana jest jako
niejednoznaczna i opatrzona dwoma etykietami. Jeśli jednak położenie zwyci˛eskich klas
na kole jest przeciwstawne, co dyskwalifikuje (wg Plutchika) możliwość wyst˛epowania obu
14
emocji jednocześnie, za zwyci˛eska˛ uznaje si˛e t˛e klas˛e, która˛ wskazywały grupy cech uznane za
najefektywniejsze według selekcji grupowej (tabela ??).
Minimalizacja cech osobniczych mówcy
Oczywistym jest fakt, że rozpoznawanie emocji uzależnione od mówcy daje dużo
lepsze rezultaty niż rozpoznawanie niezależne. Aczkolwiek system, który miałby działać
w naturalnych warunkach, powinien być uniwersalny, omijajac
˛ cechy osobnicze głosu w
klasyfikacji emocji. Dlatego też budujac
˛ tego typu systemy da˛ży si˛e do ich minimalizacji.
Powszechnie uważa si˛e, że kobiety lepiej niż m˛eżczyźni rozpoznaja˛ emocje w tonie głosu,
a przekonanie to potwierdzono badaniami. Samo okazywanie emocji również jest odmienne
dla obu płci. Ponadto cz˛estotliwość drgań fałdów głosowych, a zatem cz˛estotliwość krtaniowa
(podstawowa), zależy od masy, długości i napi˛ecia tych fałdów. Ponieważ u m˛eżczyzn długość
fałdów wynosi około 15-20 mm, zaś u kobiet 8-12 mm, głos kobiecy jest około oktaw˛e wyższy
od m˛eskiego [6]. Widoczny jest zatem wpływ płci na mow˛e, co może przekładać si˛e również
na proces rozpoznawania.
Widoczny jest również wpływ wieku na głos mówcy.
Mowa młodych chłopców
charakteryzuje si˛e znacznie wyższa˛ cz˛estotliwościa˛ podstawowa,˛ niż dorosłych m˛eżczyzn. Tej
różnicy nie widać w sposób tak istotny jak w przypadku kobiet. Można także zauważyć, że z
wiekiem głos staje si˛e coraz bardziej zachrypni˛ety, a mowa spowolniona.
Ponieważ elementy społeczno-demograficzne ci˛eżko określić na podstawie klasyfikacji
opartej o mow˛e, toteż sama konstrukcja korpusu powinna zakładać prawidłowy rozkład tych
parametrów. Przykładowo, w zbiorze treningowym powinny znajdować si˛e próbki mowy
osób wywodzacych
˛
si˛e z różnych cz˛eści Polski, a ich rozkład powinien być proporcjonalny.
W ten sposób, bazujac
˛ na odpowiednich przykładach, klasyfikator jest w stanie rozpoznać
odpowiednia˛ próbk˛e.
Pomimo, iż w korpusie zapewniono prawidłowy rozkład płci i wieku mówców,
zdecydowano si˛e na wprowadzenie dodatkowego elementu. Zbiór treningowy podzielono na
dwie grupy: m˛eska˛ i żeńska,˛ a do klasyfikatora dodano moduł rozpoznawania płci. W˛ezeł
odpowiedzialny za rozpoznawanie płci umieszczono tuż nad algorytmem PAKEmo.
W
zależności od płci badanego mówcy, zbiór treningowy PAKEmo stanowi teraz odpowiednio
zbiór wypowiedzi kobiet badź
˛ m˛eżczyzn. Rozpoznawanie płci dokonano na podstawie wartości
średniej cz˛estotliwości podstawowej F0.
Klasyfikacja w wykorzystaniem wag
Majac
˛ na uwadze nierównomierny wpływ deskryptorów mowy na rozpoznawanie
stanów emocjonalnych, zdecydowano si˛e na zastapienie
˛
metody głosowania równoprawnego
głosowaniem ważonym. W takim przypadku decyzja podejmowana jest również na zasadzie
15
głosowania, ale nie każdy głos jest liczony jednakowo. Dla każdego ucznia (klasyfikator
konkretnej grupy cech) określa si˛e wagi w1 , w2 , ..., wm , co pozwala nadać priorytet lepszym
uczniom. Decyzja podejmowana jest wtedy na podstawie równania ??.
ri =
m
X
wj dji
(1)
j=1
l
Z = arg max[ri ]
(2)
i=1
Problem stanowi sposób dobierania właściwych wag, podejście to wymaga umiej˛etności
ocenienia (albo przynajmniej porównania) klasyfikatorów bazowych. W niniejszej pracy wagi
zostały dobrane doświadczalnie, na podstawie bł˛edu poszczególnych klasyfikatorów.
Segmentacja mowy
Biorac
˛ pod uwag˛e założenie zmienności stanów emocjonalnych w trakcie wypowiedzi
zastosowano segmentacj˛e mowy. Założono bazowa˛ długość fragmentu 3 s - w tym czasie
stan nie powinien ulec zmianie.
Podobne podejście autorka zastosowała w [13], gdzie
wypowiedź dzielona była na trzy fragmenty o równej długości: poczatek,
˛
środek i koniec
wypowiedzi.
Nast˛epnie dokonywana była oddzielna klasyfikacja każdego z fragmentów,
a wynik rozpoznawania uzyskiwano za pomoca˛ głosowania równoprawnego. Ponieważ w
wykorzystywanym w niniejszej pracy korpusie mowy zdarzaja˛ si˛e również krótsze fragmenty
mowy (krótkie wypowiedzi, pojedyncze słowa), a niekiedy tylko dźwi˛eki (śmiech, krzyk, pisk),
tego typu segmentacja nie może zostać wykorzystana. Dlatego też zastosowano podział na
3-sekundowe fragmenty. W przypadku, gdy wypowiedź jest krótsza niż 3 s, pozostaje ona
niepodzielona. Jeśli jednak wypowiedź jest dłuższa, całość zostaje podzielona na fragmenty
3-sekundowe oraz fragment dopełniajacy
˛ (majacy
˛ co najmniej 500 ms). Jeśli fragment końcowy
jest krótszy niż 500 ms, zostaje on dodany do ostatniego fragmentu 3-sekundowego. Nast˛epnie
każdy z nich zostaje poddany indywidualnej klasyfikacji przy użyciu algorytmu k-NN.
Rozpoznawanie intensywności emocji podstawowych
Ostatni poziom klasyfikatora stanowi algorytm rozpoznawania intensywności emocji
podstawowych. Jak już wcześniej wspominano, według Plutchika każda z pierwotnych emocji
może być odczuwana w trzech stopniach nat˛eżenia (np.
gniew: irytacja, gniew, furia).
Intuicyjna zależność podobieństwa mowy neutralnej i emocjonalnej stanowi hipotez˛e, na
podstawie której opracowano algorytm rozpoznawania nat˛eżenia emocji. Można zauważyć, że
wraz ze wzrostem nat˛eżenia konkretnej emocji, podobieństwo głosu do mowy neutralnej spada.
Zależność t˛e autorka prezentowała mi˛edzy innymi w [1]. Zauważona została proporcjonalna
zmiana konturu cz˛estotliwości podstawowej wzgl˛edem mowy neutralnej.
16
Bazujac
˛ na tych obserwacjach stworzono algorytm rozpoznawania nat˛eżenia emocji
podstawowej. Wejście algorytmu stanowia:
˛ obiekty zbioru treningowego danej klasy CU k ,
model mowy neutralnej (centroid) Xn oraz nieznany obiekt z określona˛ klasa˛ podstawowa˛
xn . Nast˛epnie obliczane sa˛ odległości d pomi˛edzy centroidem mowy neutralnej, a każdym
obiektem ze zbioru treningowego CU k . Odległości te sa˛ sortowane malejaco.
˛ Bazujac
˛ na nich,
zbiór dzielony jest na trzy podzbiory intensywności. Podzbiór, którego odległość centroidu od
centroidu mowy neutralnej jest najwi˛eksza, uznawany jest za zbiór najwyższych intensywności,
podzbiór z najmniejsza˛ odległościa,˛ jako intensywność najniższa, zaś podzbiór przejściowy,
jako emocja podstawowa. Dla każdego podzbioru wyznaczany jest centroid według wzoru 3:
k
1
µk =
Nk
N
3 k
X
xi dla k = {1, 2, 3}
(3)
k−1
Nk +1
3
gdzie: µk - centroid podzbioru k, Nk - liczność podzbioru k.
Zastosowanie metody najbliższej średniej (ang. nearest mean), której istota˛ jest zastapienie
˛
wszystkich próbek konkretnej klasy ich wartościa˛ średnia˛ (centroidem), ogranicza przede
wszystkim czasochłonność obliczeń. Teraz nieznany obiekt xn porównywany jest tylko z
centroidami konkretnych podzbiorów, a zatem wykonywane sa˛ tylko trzy operacje obliczania
odległości.
Nieznany obiekt przypisywany jest do klasy intensywności na podstawie
najmniejszej odległości od centroidu.
Algorytm wyjściowy
W poprzednich podrozdziałach szczegółowo opisane zostały kolejne elementy finalnego
algorytmu rozpoznawania mowy emocjonalnej. Składa si˛e on z pi˛eciu modułów, tworzacych
˛
kolejne poziomy struktury hierarchicznej:
1. Poziom zerowy – wejście modułu stanowi wypowiedź emocjonalna (wektor cech), która
nast˛epnie podlega procesowi klasyfikacji określajacej
˛ płeć mówcy. Wyjście modułu stanowi
wypowiedź z określona˛ płcia˛ (m˛eska, żeńska).
2. Poziom pierwszy – wejście modułu stanowi wypowiedź określonej płci, która nast˛epnie
poddawana jest segmentacji. Każda wypowiedź trwajaca
˛ dłużej niż 3s dzielona jest na
3-sekundowe segmenty.
3. Poziom drugi – wejście modułu stanowia˛ fragmenty wypowiedzi, które nast˛epnie
poddawane sa˛ osobnej klasyfikacji z wykorzystaniem klasyfikatora k-NN, a dodatkowo
liczba klasyfikatorów, przypadajaca
˛ na jeden fragment uzależniona jest od liczby grup cech
wykorzystywanych w badaniach.
17
4. Poziom trzeci – stanowi głosowanie ważone na poziomie konkretnych grup cech (np. F0,
LPC, PLP). Wyjściem modułu sa˛ klasy, których liczność jest równa liczbie grup cech
wykorzystanych w badaniach.
5. Poziom czwarty – stanowi go głosowanie równoprawne na poziomie konkretnych
fragmentów. Wyjściem modułu sa˛ klasy, których liczność jest równa liczbie fragmentów,
na jakie została podzielona wypowiedź.
6. Poziom piaty
˛ – konkretna emocja jest badana pod katem
˛
jej nat˛eżenia. Na podstawie
autorskiego algorytmu porównujacego
˛
badana˛ wypowiedź z modelem mowy neutralnej,
określana jest jako emocja podstawowa, badź
˛ dwie jej diady (najwyższa intensywność,
najniższa intensywność). Krok ten kończy działanie algorytmu.
Profile emocjonalne
Aby lepiej zobrazować zagadnienie niejednoznaczności emocji autorka postanowiła
skorzystać z definicji profili emocjonalnych w celu przedstawienia zawartości danych stanów
w wypowiedzi.
Według [10] profil emocjonalny jest to sa˛ wektor wyrażajacy
˛ stopień
obecności lub nieobecności emocji podstawowych w danej wypowiedzi. Można w ten sposób
uniknać
˛ sztywnej klasyfikacji (ang. hard labeling), zast˛epujac
˛ ja˛ etykietowaniem wielokrotnym
(ang.
multiple labeling).
Tego typu klasyfikacja może wskazywać na zawartość kilku
stanów emocjonalnych w danej wypowiedzi, ich mieszanin˛e czy też ewolucj˛e emocjonalna˛
wypowiedzi.
Możliwe jest również zastosowanie etykietowania rozmytego, w którym
dodatkowo określa si˛e funkcj˛e przynależności do każdego ze stanów.
Algorytm podstawowy PAKEmo stanowi szereg klasyfikatorów tego samego poziomu,
uwzgl˛edniajacych
˛
rozkład grup deskryptorów mowy. Poszerzenie tego modułu o kolejny,
dokonujacy
˛ segmentacji mowy, tworzy hierarchiczna˛ struktur˛e klasyfikatorów k-NN, a na
podstawie ich odpowiedzi dokonuje si˛e głosowania. Zastapienie
˛
głosowania analiza˛ odpowiedzi
pozawala na stworzenie profilu emocjonalnego poszczególnych próbek mowy. Poprzez zliczane
kolejnych wyników dla danej emocji budowany jest histogram, przedstawiajacy
˛ zawartość
danych stanów w konkretnej wypowiedzi. Podejście to nie zast˛epuje klasyfikacji, a jest jedynie
jej rozszerzeniem, i w szczególności ma zadanie zobrazowanie wypowiedzi niejednoznacznie
określonych.
5. Podsumowanie
Głównym założeniem prezentowanych badań było stworzenie systemu pozwalajacego
˛
na
automatyczne rozpoznawanie stanów emocjonalnych na podstawie mowy naturalnej. W tym
celu stworzono polska˛ baz˛e emocji spontanicznych, na która˛ składa si˛e ponad siedemset próbek,
podzielonych na siedem podzbiorów reprezentujacych
˛
stany podstawowe. Ponadto w celach
18
porównawczych dokonano również analizy emocji odegranych przez profesjonalnych aktorów.
Ilościowy opis problemu stanowia˛ powszechnie używane w tego typu badaniach deskryptory
mowy, które zestawiono z hybrydowymi współczynnikami percepcyjnymi (używanymi w
rozpoznawaniu mowy, aczkolwiek pomijanymi w rozpoznawaniu emocji).
Jak wykazały
badania, atrybuty te okazały si˛e silnie dyskryminatywne, co uzasadnia ich użycie.
W
trakcie klasyfikacji porównano algorytm k-NN z autorskim podejściem opartym na zbiorze
klasyfikatorów (komitecie), majacym
˛
zapewnić lepsze wyniki rozpoznawania.
Analiza
wyników potwierdziła poczatkowe
˛
założenia autorki.
5.1. Korpus mowy spontanicznej i jego wpływ na rozpoznawanie emocji
Badania nad rozpoznawaniem emocji prowadzone sa˛ na całym świecie w wielu ośrodkach
badawczych. Niestety wi˛ekszość analiz prowadzona jest na prywatnych korpusach, których
z przyczyn prawnych autorzy zazwyczaj nie moga˛ udost˛epniać. W niniejszej pracy analiz˛e
przeprowadzono na dwóch bazach, porównujac
˛ emocje odegrane z naturalnymi. Badania
wykazały jak duży wpływ na wyniki klasyfikacji maja˛ korpusy tworzace
˛ wzorce, co istotnie
utrudnia porównywanie skuteczności różnych, zaproponowanych dotychczas podejść. Duże
znaczenie ma przede wszystkim liczność wzorców.
Odpowiednia liczba i różnorodność
przykładów może w znacznym stopniu zwi˛ekszyć jakość rozpoznawania. Liczba próbek obu
wykorzystanych korpusów różni si˛e zasadniczo, co odbija si˛e również na jakości klasyfikacji.
W przypadku bazy mowy odegranej dysponujemy 40 próbkami danej emocji, zaś w przypadku
mowy spontanicznej liczba ich jest co najmniej dwukrotnie wi˛eksza. Dodatkowo, w drugim
przypadku różnorodność próbek (płeć oraz wiek mówcy) może mieć wpływ na lepsze
wyniki klasyfikacji.
Poprzez wykorzystanie wypowiedzi różnego typu, ograniczany jest
wpływ cech osobniczych na rozpoznawanie. Dodatkowo, uwzgl˛edniajac
˛ różnice w sposobie
ekspresji emocji przez kobiety i m˛eżczyzn, wprowadzono moduł rozpoznawania płci. W
przypadku mowy spontanicznej spowodowało to popraw˛e wyników rozpoznawania. Obniżenie
wydajności klasyfikatora w przypadku mowy odegranej może wiazać
˛
si˛e z ograniczeniem
liczności wzorców po podziale na płeć.
W badaniach dokonano również klasyfikacji nat˛eżeń mowy emocjonalnej. Zaprezentowano
autorski algorytm określenia intensywności danej emocji na podstawie stopnia jej podobieństwa
do mowy neutralnej. Zadanie to również wydaje si˛e być istotnym: rozróżnienie, czy mówca jest
lekko podirytowany, czy też rozwścieczony, ma znaczenie, w szczególności w zastosowaniach
aplikacyjnych. Biorac
˛ pod uwag˛e rozmyte granice mi˛edzy konkretnymi nat˛eżeniami danej
emocji, w przyszłych badaniach należałoby przetestować różnego typu funkcje przynależności
do rozpoznania konkretnego nat˛eżenia.
19
Niewatpliwym
˛
atutem bazy mowy spontanicznej sa˛ próbki, których stan emocjonalny
jest niejednoznacznie określony. Przeprowadzona analiza pokazuje złożoność mechanizmów
powstawania emocji, ich percepcji i ekspresji.
W naturalnym środowisku mówca może
być targany różnymi emocjami w tym samym momencie, a słuchacz może różnie odbierać
wysyłane przez niego sygnały. Dlatego też wzorce mowy odegranej moga˛ nie sprawdzić si˛e
przy klasyfikacji emocji w warunkach naturalnych. Przeprowadzone badania wskazuja,˛ że
zaproponowany algorytm radzi sobie również z próbkami niejednoznacznie określonymi, co
może wskazywać na to, że niektórych parametrów głosu człowiek nie jest w stanie zmienić
nawet celowo.
5.2. Deskryptory mowy emocjonalnej
Proces wyznaczania odpowiednich atrybutów, które trafnie opisuja˛ przedmiot analizy, ma
ogromne znaczenie w zadaniach rozpoznawania wzorców. A zatem algorytm klasyfikacji musi
być poprzedzony procesem doboru wydajnych zestawów cech oraz procesem ich ewentualnej
selekcji.
Do ilościowego opisu problemu autorka posłużyła si˛e grupami deskryptorów
mowy powszechnie stosowanymi w badaniach nad rozpoznawaniem emocji: cz˛estotliwość
podstawowa, formanty, cechy energetyczne, współczynniki LPC, MFCC oraz PLP. Dodatkowo
zaproponowano użycie deskryptorów, które mimo istotnego wkładu w rozpoznawanie mowy,
pomijane sa˛ w zadaniach rozpoznawania emocji: współczynniki BFCC, HFCC, RPLP oraz
RASTA PLP. Wst˛epne badania przeprowadzone na konkretnych podzbiorach cech wskazuja,˛
że w przypadku obu korpusów najwyższe wyniki rozpoznawania osiagana
˛
sa˛ właśnie przy
użyciu zaproponowanych atrybutów. I tak dla bazy mowy odegranej najlepsze rozpoznawanie
uzyskano na zbiorze współczynników BFCC (64,4%), nieco niżej, aczkolwiek także wysoko
plasuja˛ si˛e współczynniki RPLP (58,6%).
Dla bazy mowy naturalnej najwyższe wyniki
otrzymano również przy użyciu współczynników BFCC (77,7%), tuż za nimi plasuja˛ si˛e
współczynniki MFCC (74%) i HFCC (72,9%).
Liczna reprezentacja tych atrybutów po
wykonaniu selekcji metoda˛ SFS na całym zbiorze cech dodatkowo potwierdza sił˛e owych
deskryptorów.
W trakcie badań dokonano również redukcji wymiarowości konkretnych
podzbiorów cech, dzi˛eki czemu udało si˛e zwi˛ekszyć wyniki rozpoznawania: przykładowo w
przypadku mowy odegranej dla całej puli współczynników BFCC osiagni˛
˛ eto 55,7%, tak po
selekcji 64,4%. W przypadku mowy naturalnej dokładność rozpoznawania po zastosowaniu
selekcji również uległa zwi˛ekszeniu na każdym podzbiorze cech.
5.3. Klasyfikacja
Mimo, iż proces klasyfikacji opiera si˛e na standardowych narz˛edziach rozpoznawania,
wraz z rosnac
˛ a˛ złożonościa˛ zadań pojawia si˛e potrzeba nowych rozwiazań,
˛
majacych
˛
na celu
20
zapewnienie lepszej skuteczności. W tym celu tworzone sa˛ całkowicie nowe klasyfikatory,
metody hybrydowe, łacz
˛ ace
˛ poszczególne algorytmy, a także metody usprawniajace
˛ istniejace
˛
rozwiazania.
˛
Zaproponowany w niniejszej pracy algorytm oparto o teori˛e tzw. komitetów,
które pracujac
˛ wspólnie, osiagaj
˛ a˛ wyniki lepsze niż pojedyncze modele. Podejście oparte
na komitetach było wcześniej zastosowane w kilku pracach poświ˛econych rozpoznawaniu
emocji na podstawie mowy.
Jednakże zaleta˛ tego typu klasyfikacji jest możliwość
stworzenia różnego rodzaju struktur dostosowanych do konkretnego problemu.
Dlatego
też przedstawione rozwiazanie
˛
jest całkowicie innowacyjnym podejściem w omawianym
zagadnieniu.
Zastosowanie komitetu do niniejszych rozważań wydawało si˛e być słuszne
z dwóch powodów.
Modele oparte na atrybutach wybranych do reprezentacji emocji
popełniaja˛ różne bł˛edy dla nowych danych, a zatem możemy mówić o różnorodności
komitetu. Dodatkowo w trakcie badań zauważono, że dla określonych podzbiorów najlepsze
wyniki osiagane
˛
sa˛ przy użyciu rożnych wartości liczby k algorytmu k-NN. A zatem
zastosowanie rozbicia pojedynczego modelu na zbiór klasyfikatorów, z którego każdy dokonuje
rozpoznawania na podstawie innego podzbioru atrybutów, a ostateczna decyzja podejmowana
jest na podstawie głosowania, powinno prowadzić do zwi˛ekszenia jakości rozpoznawania.
Badania udowodniły tez˛e postawiana˛ przez autork˛e. I tak w przypadku bazy mowy odegranej
wyniki wzrosły ponad 5%. W przypadku bazy mowy naturalnej wyniki również wzrosły,
aczkolwiek wzrost ten wynosi jedynie 2,7%. W zwiazku
˛
z tym, że każdy z podzbiorów
atrybutów ma inny wkład w rozpoznawanie, nast˛epnym krokiem było zastapienie
˛
głosowania
równoważnego ważonym. Wagi dobrano na podstawie bł˛edu konkretnego modelu, a ich
wprowadzenie do algorytmu głosowania ostatecznie uzasadnia użycie zaproponowanego
rozwiazania.
˛
6. Dalsze prace rozwojowe, potencjał zaprezentowanego rozwiazania
˛
Naturalnym kierunkiem kontynuacji przedstawionych w niniejszej rozprawie badań wydaje
si˛e być przede wszystkim sprawdzenie możliwości innych algorytmów klasyfikacji jako
modeli bazowych komitetu. Należy tutaj podkreślić, że możliwe jest zastosowanie komitetów
heterogenicznych, dopasowujac
˛ odpowiedni algorytm rozpoznawania do konkretnego
podzbioru cech. Dodatkowo należy przetestować inne kombinacje komitetu stosujac
˛ inne
warunki podziału modelu bazowego. Kolejnym kierunkiem rozwoju algorytmu jest określenie
dodatkowych cech opisujacych
˛
przedmiot analizy. Algorytm można poszerzyć o dodatkowe
modele, przykładowo bazujace
˛ na prozodiach sygnału (tempo, pauzy) czy też atrybutach
wyznaczanych na podstawie opisu sygnału metodami zaczerpni˛etymi z analizy układów
21
nieliniowych. A zatem zastosowane podejście daje szeroka˛ gam˛e możliwości dalszego rozwoju
i optymalizacji.
Potrzeba rozszerzenia korpusu mowy o dodatkowe próbki tworzace
˛
wzorce oraz
kolejne stany emocjonalne wydaje si˛e być oczywista. Jest to niezb˛edne w szczególności
do zastosowania algorytmu rozpoznawania nat˛eżenia również na pozostałych stanach
podstawowych, nie uwzgl˛ednionych w niniejszej analizie.
Można także pokusić si˛e
o poszerzenie korpusu o próbki wypowiedzi dzieci, których ekspresja emocji może
zaburzyć jakość rozpoznawania. Ważnym kierunkiem rozwoju jest rozpoznawanie stanów
niejednoznacznie określonych, a zaproponowana w niniejszej rozprawie metoda etykietowania
poprzez tworzenie profili może w znacznym stopniu to ułatwić.
Podsumowujac,
˛ powyżej zaprezentowane potencjalne możliwości rozwoju pozwalaja˛ na
dalsza˛ prac˛e nad rozpoznawaniem stanów emocjonalnych na podstawie sygnału mowy.
Obiecujacym
˛
zdaje si˛e także być tworzenie dodatkowych modeli bazujacych
˛
na innych
sygnałach: obraz (mimika oraz gesty), sygnały EEG czy analiza obrazu w podczerwieni.
Komitet stworzony na podstawie dodatkowych przesłanek może w znacznym stopniu poprawić
klasyfikacj˛e.
Analiza emocji znajduje zastosowanie w syntezatorach głosu oraz jako system
wspomagajacy
˛ rozpoznawanie mowy. Dodatkowo istotna˛ dziedzina˛ zastosowań jest medycyna,
a w szczególności diagnoza zaburzeń psychologicznych i neurologicznych, objawiajacych
˛
si˛e nieprawidłowa˛ percepcja˛ i ekspresja˛ emocji (autyzm, schizofrenia, depresja, stres) oraz
wspomaganie terapii behawioralnej.
Bibliografia
[1] Kamińska D. , Pelikant A. Recognition of Human Emotion from a Speech Signal Based on
Plutchik’s Model. International Journal of Electronics and Telecommunications, 58(2):165–171,
2012.
[2] Kaliouby R., Robinson P. Mind Reading Machines Automated Inference of Cognitive Mental
States from Video. IEEE International Conference on Systems, Man and Cybernetics, pages
682–688, The Hague, Netherlands, 2004.
[3] Silva P.R., Madurapperuma A.P., Marasinghe A., Osano M. A multi-agent based interactive system
towards childs emotion performances quantified through affective body gestures. International
Conference on Pattern Recognition, pages 1236–1239, 2006.
[4] Garay N., Cearreta I., López J.M., Fajardo I. Assistive Technology and Affective Mediation. An
Interdisciplinary Journal on Humans in ICT Environments, 2(1):55–83, 2006.
[5] Plutchik R. Emotion A Psychoevolutionary Synthesis. New York Harper and Row, 1980.
[6] Obr˛ebowski A. Narzad
˛ głosu i jego znaczenie w komunikacji społecznej. Uniwersytet Medyczny
im. Karola Marcinkowskiego w Poznaniu, 2008.
[7] Abelin A. Anger or Fear? Cross-Cultural Multimodal Interpretations of Emotional Expressions.
Plural Publishing, 2007.
[8] Izdebski K. Emotions in the Human Voice Volume I Foundations. Plural Publishing, 2007.
[9] Ślot K. Wybrane zagadnienia biometrii. Wydawnictwa Komunikacji i Łaczności
˛
WKŁ, 2008.
[10] Mower E., Mataric M.J., Narayanan S.S.
A Framework for Automatic Human Emotion
Classification Using Emotional Profiles. IEEE Transactions on Audio, Speech and Language
Processing, 19(5):1057 – 1070, 2011.
[11] Ślot K.
Rozpoznawanie biometryczne Nowe metody ilościowej reprezentacji obiektów.
Wydawnictwa Komunikacji i Łaczności
˛
WKŁ, 2010.
[12] Cichosz P. Systemy uczace
˛ si˛e. Wydawnictwa Naukowo-Techniczne, 2007.
[13] Kamińska D., Pelikant A. Rozpoznawanie Stanów Emocjonalnych na Podstawie Analizy Mowy
Spontanicznej. Informatyka, Automatyka Pomiary w Gospodarce i Ochronie Środowiska, 3, 2012.
23

Rozpoznawanie emocji na podstawie mowy naturalnej

Transkrypt

Podobne dokumenty

choroby somatyczne

WMag nr 5 1