Rozpoznawanie emocji na podstawie mowy naturalnej

Transkrypt

Rozpoznawanie emocji na podstawie mowy naturalnej
POLITECHNIKA ŁÓDZKA
Wydział Elektrotechniki, Elektroniki,
Informatyki i Automatyki
mgr inż. Dorota Kamińska
Streszczenie rozprawy doktorskiej na temat:
Rozpoznawanie emocji na podstawie mowy naturalnej
Promotor
dr hab. inż. Adam Pelikant
Łódź 2014
1. Wprowadzenie
Komunikacja interpersonalna to nieodzowny element ludzkiego życia. Rozmowa dostarcza
słuchaczowi zarówno informacji lingwistycznych, jak i określa charakterystyk˛e biologiczno psychologiczna˛ mówcy. Wydobycie obu rodzajów informacji poprawia jakość komunikacji.
Ważnym elementem konwersacji jest ocena stanu emocjonalnego rozmówcy, który możemy
również z niej odczytać.
W dzisiejszych czasach, kiedy komputery sa˛ cz˛eścia˛ naszego życia, poszukuje si˛e rozwiazań
˛
majacych
˛
na celu polepszenie komunikacji człowiek-komputer/człowiek-robot (HCI/HRI).
Dlatego też powstaja˛ nowoczesne technologie rozpoznawania ludzkiej mowy.
Systemy,
które dodatkowo rozpoznawałyby stany emocjonalne użytkownika, byłyby bardziej naturalne
i wiarygodne.
Toteż komputerowe rozpoznawanie emocji stało si˛e istotnym trendem
badawczym.
Odczucia wyrażane sa˛ zarówno poprzez procesy werbalne jak i niewerbalne. Sygnały
takie jak mowa [1], mimika twarzy [2], kontakt wzrokowy, gesty [3] oraz stan fizjologiczny
organizmu (elektroencefalografia EEG, elektromiografia EMG, reakcja skórno-galwaniczna
GSR, temperatura skóry, rytm i długości wydechów czy ciśnienie t˛etnicze) [4] stanowia˛ wejście
systemów rozpoznawania emocji. Ludzki głos, najłatwiej dost˛epny z wyżej wymienionych
sygnałów, jest również szeroko stosowany jako źródło informacji na temat stanu emocjonalnego
mówcy.
Niniejsze rozważania dotycza˛ rozpoznawania stanów emocjonalnych wyrażanych głosem.
Autorka skupiła si˛e głównie na mowie spontanicznej, dotychczas powszechnie zast˛epowanej
mowa˛ odegrana.˛ Na potrzeby zrealizowanych badań zgromadzone zostały nagrania audio
z nośnikiem emocjonalnym, stanowiace
˛ kompleksowa˛ baz˛e wejściowa.˛
Opierajac
˛ si˛e na
kole Roberta Plutchika stworzono modele emocji podstawowych oraz wtórnych, b˛edacych
˛
wariacjami stanów podstawowych.
Autorka przedstawiła nowatorski sposób klasyfikacji
emocji spontanicznych stosujac
˛ przy tym zarówno powszechnie znane deskryptory sygnału
1
mowy jak i percepcyjne współczynniki hybrydowe, dotychczas nie wykorzystywane do opisu
emocji. Poniżej przedstawione tezy badawcze, ściśle powiazane
˛
z zagadnieniami klasyfikacji
mowy emocjonalnej, zostana˛ zweryfikowane w toku pracy.
Teza 1:
Wykorzystanie hybrydowych współczynników percepcyjnych w procesie
klasyfikacji dokonywanym przy użyciu komitetu klasyfikatorów pozwala na uzyskanie
wysokiej skuteczności rozpoznawania emocji na podstawie mowy naturalnej.
Teza 2: Opierajac
˛ si˛e na teorii emocji Plutchika można dokonać klasyfikacji emocji
wtórnych.
Teza 3: Istnieje możliwość zwi˛ekszenie dokładności rozpoznawania emocji zawartych w
głosie poprzez minimalizacj˛e cech osobniczych mówcy.
2. Psychoewolucyjna teoria Roberta Plutchika
W latach 1960-1980 amerykański psycholog Robert Plutchik [5] opracował teori˛e, w
której wyodr˛ebnił osiem pierwotnych emocji stanowiacych
˛
prototyp: radość, akceptacja,
strach, zdziwienie, smutek, gniew, obrzydzenie oraz oczekiwanie. Stany te sa˛ wrodzone,
odnosza˛ si˛e do zachowań adaptacyjnych, które maja˛ na celu pomoc w przetrwaniu. Stanowia˛
one hipotetyczne konstrukty, swojego rodzaju stany idealne, których właściwości i cechy sa˛
wnioskowane intuicyjnie. Wszystkie inne emocje sa˛ stanami pochodnymi, wyst˛epuja˛ jako
kombinacje, mieszaniny lub zwiazki
˛
stanów podstawowych. Swoje przemyślenia Plutchik
zobrazował przy pomocy koła emocji, przedstawionego na rysunku 1.
Diagram reprezentuje stopień podobieństwa pomi˛edzy poszczególnymi stanami. Emocje
podstawowe rozmieszczone sa˛ na kole jako pary biegunów przeciwstawnych, których nie
można doświadczyć w tym samym czasie, gdyż si˛e wzajemnie wykluczaja.˛ Przykładowo
radość stanowi przeciwieństwo smutku. Emocje sasiaduj
˛
ace
˛ na diagramie, gdy sa˛ odczuwane
jednocześnie, mieszajac
˛ si˛e tworza˛ nowe stany. Mieszanina dwóch pierwotnych emocji jest
nazywana przez Plutchika diada.˛ Na przykład, diada radości i zaufania to miłość. Diady z
2
Rysunek 1. Koło emocji Plutchika
przeciwstawnych emocji nie wyst˛epuja,˛ gdyż zachodzi mi˛edzy nimi konflikt. Poparcie tego
strukturalnego modelu stanowia˛ badania empiryczne [5].
3. Paraj˛ezyk
Już Arystoteles twierdził, że poszczególny stan emocjonalny wia˛że si˛e z określonym
tonem głosu. Jednakże to dopiero Darwin dokonał pierwszego opisu dźwi˛eków zwiazanych
˛
z stanami emocjonalnymi mówcy. Na podstawie badań różnych gatunków zwierzat
˛ oraz
ludzi, doszedł do wniosku, że istnieje bezpośredni zwiazek
˛
mi˛edzy sygnałem akustycznym,
a stanem wewn˛etrznym jednostki, natomiast zmiana tonu, głośności czy intonacji sygnalizuje
zmian˛e nastroju. Zaobserwował również, że sygnały akustyczne moga˛ wywoływać reakcje
emocjonalne u słuchacza.
Aby lepiej zobrazować wpływ emocji na ludzka˛ mow˛e, należy przyjrzeć si˛e modelowi
narzadu
˛ głosu, na który składaja˛ si˛e: przestrzenie rezonacyjne (nagłośnia, gardło, jama nosowa,
jama ustna), generator energii akustycznej (głośnia) oraz zbiornik powietrza (płuca i oskrzela).
Strumień powietrza, konieczny do fonacji, wytwarzany jest w płucach z drzewem
oskrzelowym.
Głośnia jest generatorem tonu podstawowego (krtaniowego),
3
zaś
precyzyjne drgania fałdów głosowych przekształcaja˛ energi˛e wyrażona˛ wektorem ciśnienia
podgłośniowego w energi˛e akustyczna˛ [6]. Cz˛estotliwość tych drgań tzw. cz˛estotliwość
podstawowa (F0) jest cecha˛ osobnicza,˛ wynika z rozmiaru krtani oraz napi˛ecia i rozmiaru
strun głosowych, jest zależna od płci oraz wieku. Przykładowo dla m˛eżczyzn zawiera si˛e w
przedziale od 80 do 480 Hz, natomiast dla kobiet w przedziale od 160 do 960 Hz. Jest zatem
odpowiedzialna za skal˛e głosu. Podczas rozmowy, zakres jej zmian zwiazany
˛
jest głównie
z intonacja,˛ która odgrywa ogromna˛ rol˛e w ekspresji emocji, dlatego też deskryptory źródła
dźwi˛eku sa˛ powszechnie stosowane w badaniach nad tym zagadnieniem.
Struktura harmoniczna dźwi˛eku podstawowego zmienia kształt pod wpływem działania
rezonatorów (filtrów akustycznych) traktu głosowego. Określone składowe pierwotnego tonu
ulegaja˛ wzmocnieniu, inne natomiast osłabieniu.
nazywane sa˛ formantami.
Maksima wzmocnionych cz˛estotliwości
Ich wartości zależa˛ od cech osobniczych (długość przewodu
głosowego), ale również od sposobu artykulacji (ułożenie j˛ezyka i ust, ruchomość żuchwy)
[6]. Deskryptory traktu głosowego sa˛ rzadziej stosowane w badaniach, aczkolwiek niosa˛ ze
soba˛ istotne informacje emocjonalne, majace
˛ swoje odzwierciedlenie w mimice np. ułożenie
ust. Jest bowiem oczywiste, że zdanie wypowiadane z uśmiechem brzmi inaczej, niż to samo
zdanie wypowiadane z odmiennym wyrazem twarzy.
Podejście teoretyczne oraz praktyczne do rozpoznawania stanów emocjonalnych sugeruje,
że określone wzorce wyrażeń wokalnych sa˛ specyficzne dla konkretnego stanu. Emocje moga˛
powodować zmiany w sposobie oddychania, fonacji czy artykulacji, co z kolei ma swoje
odzwierciedlenie w sygnale mowy. Poza wyżej wymienionymi deskryptorami źródła oraz
traktu głosowego, inne cechy takie jak postrzegana głośność czy tempo wypowiedzi maja˛
wpływ na percepcj˛e emocji.
Przykładowo stany takie jak gniew i strach charakteryzuja˛
si˛e szybkim tempem mowy, wysokimi wartościami F0, szerokim zakresem intonacji, co
spowodowane jest pobudzeniem układu współczulnego, nagłym przyspieszeniem akcji serca,
zwi˛ekszeniem ciśnienia krwi, czemu czasem może towarzyszyć suchość w ustach i drżenie
mi˛eśni. Zupełnie odwrotnie jest w przypadku smutku oraz znudzenia, kiedy to mowa jest wolna,
monotonna, F0 obniżone, bez wi˛ekszych zmian intonacji. Spowodowane jest to mi˛edzy innymi
pobudzeniem układu przywspółczulnego, zwolnieniem rytmu serca, spadkiem ciśnienia krwi,
zwi˛ekszeniem ilości wydzielanej śliny.
4
Istnieja˛ przesłanki wskazujace
˛ na niezależność prozodiów od rasy, kultury, religii, a także
od j˛ezyka natywnego mówcy. Liczne badania wskazuja,˛ że korelaty emocji podstawowych
w różnych kulturach sa˛ podobne ze wzgl˛edu na uniwersalne zjawiska fizjologiczne [7].
Aczkolwiek wielu naukowców neguje tez˛e uniwersalności mowy emocjonalnej. W badaniach
[8] przeprowadzonych na grupie wolontariuszy z Hiszpanii i Szwecji udowodniono, jak trudno
jest rozpoznać emocje w głosie mówcy innej narodowości. Najlepsze wyniki osiagni˛
˛ eto dla
smutku i wyniosły one zaledwie 53%, inne emocje rozpoznawane były z dokładnościa˛ niższa˛
niż 30%. Należy przy tym podkreślić, że wyniki badań tego samego spektrum emocji u
osób tej samej narodowości, średnio wahaja˛ si˛e w granicach 55 - 60% [8]. Stosunkowo
niska rozpoznawalność wia˛że si˛e z wyst˛epowaniem podobnych zjawisk fizjologicznych dla
danych stanów, co prowadzi do podobieństw cech akustycznych. Należy dodatkowo wziać
˛
pod uwag˛e, że na ludzka˛ ocen˛e wypływa również kontekst wypowiedzi. Dlatego, przy analizie
komputerowej dokonywanej wyłacznie
˛
na podstawie cech akustycznych, nie należy oczekiwać
lepszych rezultatów. Mimo to, w zwiazku
˛
z szeroka˛ dost˛epnościa˛ sygnału mowy również przy
dużej odległości oraz przy komunikacji za pomoca˛ urzadzeń
˛
teleinformatycznych, jest to ważny
element tego typu rozważań.
4. Projekt systemu rozpoznawania stanów emocjonalnych
Automatyczne rozpoznawanie to proces klasyfikacji analizowanych danych (wzorców),
w oparciu o wiedz˛e zgromadzona˛ w systemie informatycznym, bazujac
˛ na narzuconych lub
odkrytych przez ten system regułach [9]. Wspólnym mianownikiem problemów tej dziedziny
jest algorytm obejmujacy
˛ pewne zasadnicze fazy (rys. 2). Ponieważ rozpoznawanie emocji
jest tematem wpisujacym
˛
si˛e w schemat ogólnej metodologii automatycznego rozpoznawania,
algorytm ten jest wykorzystywany w podj˛etych badaniach.
Rysunek 2. Algorytm rozpoznawania wzorców
Pierwszy krok algorytmu to akwizycja danych, która˛ w przypadku niniejszej pracy stanowi
baza mowy emocjonalnej. Nast˛epny krok to przygotowanie danych do dalszej analizy, czyli tzw.
5
wst˛epna obróbka. Trzecia˛ faz˛e rozpoznawania stanowi ilościowy opis przedmiotu. Obejmuje
on identyfikacj˛e takich właściwości obiektu, które niosa˛ informacje wystarczajace
˛ do realizacji
zadania. Ostatni etap stanowi proces klasyfikacji, czyli kategoryzowanie przedmiotu badań,
na podstawie wcześniej utworzonego opisu ilościowego. Poniższy opisano kolejne kroki
algorytmu.
4.1. Korpus mowy emocjonalnej
Percepcja naturalnych emocji jest procesem złożonym, subiektywnym i bardzo cz˛esto
zdarza si˛e, że człowiek jedna˛ sytuacj˛e potrafi ocenić na kilka sposobów. Dlatego też poszukuje
si˛e rozwiazań,
˛
w których można uniknać
˛ zdeterminowanego etykietowania, wskazujac
˛ jedynie
wyst˛epowanie lub absencj˛e konkretnych stanów podstawowych (np. tworzac
˛ tzw. profil
emocjonalny), a nast˛epnie pomiar stopnia nasilenia każdego z nich [10]. Podejście to może
okazać si˛e pomocne w rozpoznawaniu niejednoznacznie określonych emocji, które pojawiaja˛
si˛e w spontanicznych dialogach.
Aby dokładniej zrozumieć problem niejednoznaczności emocji, przytoczona zostanie
poniższa definicja: emocje prototypowe (podstawowe) to stany majace
˛ znaczenie adaptacyjne
do walki o przetrwanie jednostki gatunku. Według Plutchika wyróżnia si˛e osiem stanów
podstawowych: gniew, wyczekiwanie, radość, ufność, strach, zaskoczenie, smutek oraz odraza.
Oprócz prototypowych można wyróżnić szereg emocji wtórnych, b˛edacych
˛
kombinacjami
tych podstawowych. W 2009 roku na konferencji ACII (Affective Computing and Intelligent
Interaction) odbyła si˛e specjalna sesja poświ˛econa rozpoznawaniu emocji z niejednoznacznie
określonych wypowiedzi.
Konferencja ta rozpocz˛eła lawin˛e pytań dotyczacych
˛
badań
mowy spontanicznej, a naukowcy zacz˛eli porzucać analiz˛e nagrań odgrywanych. Poniżej
przedstawiono główne zjawiska składajace
˛ si˛e na niejednoznaczność stanu psychicznego
mówcy oraz percepcji słuchaczy:
• mieszanina emocji – dwa lub wi˛ecej stanów emocjonalnych wyst˛epuje w tym samym
momencie; według teorii Plutchika możemy przeżywać mieszanin˛e pierwotnych emocji;
polega to na łaczeniu
˛
poszczególnych stanów pierwotnych w jeden stan wtórny (emocje
leżace
˛ obok siebie na kole Plutchika rys. 1);
6
• maskowanie emocji – ukrywanie przez mówc˛e przeżywanego stanu emocjonalnego innym
stanem (np. maskowanie smutku radościa);
˛
• przyczynowo-skutkowy konflikt ekspresji – konkretny stan emocjonalny okazywany jest w
ten sam sposób, jak stan całkowicie przeciwny (np. płacz ze szcz˛eścia);
• podobieństwo stanów emocjonalnych – granice pomi˛edzy poszczególnymi stanami sa˛
niejednoznacznie określone, nakładaja˛ si˛e wzajemnie (emocje leżace
˛ obok siebie na kole
Plutchika rys. 1);
• sekwencja emocji – konsekutywnie okazywanie kolejnych stanów w trakcie wypowiedzi.
Zastosowanie techniki tworzenia profili jest pomocne w określeniu najbardziej
prawdopodobnego stanu psychicznego mówcy, zbadaniu ewolucji tego stanu trakcie
wypowiedzi (wzrost lub spadek nat˛eżenia) oraz interpretacji wypowiedzi, na które nakłada si˛e
kilka emocji na raz.
Zadanie
rozpoznawania
wzorców
wymaga
zgromadzona
odpowiednich
danych
wejściowych (zbiór treningowy i testowy). W przypadku niniejszych badań dane te stanowia˛
próbki mowy nacechowanej emocjonalnie.
Biorac
˛ pod uwag˛e teori˛e Roberta Plutchika,
stworzono korpus emocji podstawowych, lecz w szerszym zakresie niż przedstawiaja˛ to
dotychczasowe badania. Pierwszym krokiem było zgromadzenie próbek mowy w siedmiu
podstawowych (według Plutchika) stanach emocjonalnych: gniew, wyczekiwanie, radość,
strach, zaskoczenie, smutek oraz odraza. Z powodu niedostatecznej ilości próbek ze zbioru
wykluczono ufność. Wszystkie próbki zostały ocenione przez grup˛e ekspertów oraz nadano
im etykiety odpowiadajace
˛ wyżej opisanym stanom emocjonalnym. Nast˛epnie najbardziej
charakterystyczne emocje (gniew, zadowolenie, starach i smutek) zostały poddane badaniu
intensywności. W ten sposób otrzymano pi˛etnaście stanów emocjonalnych, których zestawienie
przedstawiono w tabeli 3.
Metodyka doboru źródeł nagrań
Badania statystyczne, które stanowia˛ integralna˛ cz˛eść tworzenia korpusu mowy
emocjonalnej, powinny spełniać określone kryteria.
Jednym z nich jest zachowanie
prawidłowego rozkładu parametrów (cech) podmiotu badań, majacych
˛
znaczenie dla
wnioskowania, a wpływajacych
˛
na jego wiarygodność.
Wykorzystywany w niniejszych
badaniach korpus stanowi zbiór wypowiedzi emocjonalnych w j˛ezyku polskim, jedynym
7
Rysunek 3. Zestawienie materiału badawczego
ograniczeniem próby jest natywna znajomość j˛ezyka polskiego. Zakres przestrzenny, czas,
miejsce oraz cechy personalne próby nie stanowiły obostrzeń.
Dobór próby reprezentatywnej w trakcie gromadzenia nagrań jest jednym z kluczowych
elementów badań wpływajac
˛ na ich wiarygodność. Zakłada si˛e, że próba jest reprezentatywna,
kiedy wyst˛epuja˛ w niej wszystkie wartości zmiennej, mogace
˛ mieć wpływ na wyniki badań.
Ponieważ proces ekspresji emocji jest subiektywny, zależny przede wszystkim od płci, wieku
oraz pochodzenia osoby badanej, to właśnie te zmienne społeczno-demograficzne zostały
wzi˛ete pod uwag˛e w procesie tworzenia korpusu.
Przy wyborze źródeł kierowano si˛e
zatem dost˛epem do wyżej wymienionych informacji, a przy tworzeniu korpusu zachowano
odpowiednie proporcje tych zmiennych.
Założenie to w znacznym stopniu ograniczyło
8
możliwości gromadzenia materiału (brak danych personalnych w nagraniach radiowych).
Najistotniejsza˛ cecha˛ próbek miała być autentyczność prezentowanych emocji, co również
zaw˛eża obszar poszukiwań. Autorka głównie skupiła si˛e na materiałach prezentowanych
na żywo oraz programach typu reality show. Prezentowane tam uczucia wydaja˛ si˛e być
spontaniczne, prowokowane wydarzeniami oraz dyskusja.˛ Przykładowo do prezentacji złości
wybrano programy prezentujace
˛ problemy polityczne i społeczne (np. Państwo w Państwie
telewizji Polsat).
Założenie autentyczności okazywanych uczuć może być bł˛edne i jest
zwiazane
˛
z subiektywna˛ ocena˛ autorki oraz wolontariuszy bioracych
˛
udział w ocenie próbek.
Należy również wspomnieć, że zgromadzone nagrania cz˛esto zawierały zakłócenia, co również
może mieć wpływ na ocen˛e.
Stan emocjonalny mówcy może zostać rozpoznany już na podstawie krótkich wypowiedzi
typu Tak lub Nie. Dzi˛eki temu krótkie zdania, a także same słowa sa˛ także odpowiednie do
analizy. Czasem o stanie emocjonalnym mówcy informuja˛ dodatkowe dźwi˛eki takie, jak krzyk,
pisk, śmiech czy płacz. Dlatego też oprócz pełnych wypowiedzi, na baz˛e emocji składaja˛ si˛e
również pojedyncze słowa i dźwi˛eki, takie, które pojawiaja˛ si˛e w codziennej komunikacji.
Dodatkowo do celów badawczych stworzono model mowy neutralnej (bez zabarwienia
emocjonalnego).
Został on złożony z wypowiedzi z bazy opisanej w podrozdziale ??
uzupełnionej wypowiedziami dziennikarzy zazwyczaj neutralnie komentujacych
˛
wydarzenia.
Model ten składa si˛e z 235 wypowiedzi i nie został poddany etykietowaniu przez wolontariuszy.
Etykietowanie mowy emocjonalnej
Proces etykietowania zgromadzonych nagrań podzielono na dwie cz˛eści. Pierwsza z nich
została przeprowadzona przez autork˛e oraz studentów psychologii Uniwersytetu Łódzkiego. Na
podstawie pełnych nagrań wideo, a wi˛ec majac
˛ do dyspozycji zarówno głos, semantyk˛e, jak i
obraz, nagrania zostały podzielone na osiem grup (emocje podstawowe). Biorac
˛ pod uwag˛e,
że w pierwszym kroku eksperci mogli korzystać z dodatkowych bodźców (gesty, mimika),
etykietowanie nagrań, pomijajac
˛ czasochłonność, nie stanowiło wi˛ekszego wyzwania. Dopiero
krok drugi, w którym nagrania etykietowane były przez wolontariuszy wyłacznie
˛
na podstawie
głosu, pokazał jak subiektywnym procesem jest percepcja emocji.
Odsłuch wst˛epnie zakwalifikowanych próbek przeprowadzono w celu przetestowania, czy
słuchacz jest w stanie zidentyfikować emocjonalna˛ zawartość nagrania.
9
W badaniu tym
brało udział pi˛etnaście prawidłowo słyszacych
˛
osób różnej płci, w wieku od 21 do 58 lat.
Zadaniem uczestników badania było dokonanie oceny nagrania i zakwalifikowanie do jednej
z wybranych grup (klas).
Proces ten odbywał przy pomocy stworzonego do tego celu
oprogramowania. Osoba oceniajaca
˛ odsłuchiwała nagrania jedno po drugim i dokonywała
wyboru, który kolejno zapisywany był w bazie danych. Każda˛ z próbek można było odtworzyć
dowolna˛ ilość razy przed dokonaniem ostatecznej oceny, jednakże po dokonaniu wyboru,
nie było możliwości powrotu do danego nagrania. Na tej podstawie sporzadzono
˛
wyniki
rozpoznawania poszczególnych emocji przez każda˛ z osób. Średnie rozpoznawanie wyniosło
82,6% w zakresie od 63% do 93%. Należy jednak podkreślić, że wzór stanowiły próby ocenione
przez autork˛e i studentów psychologii, a ocena ta również jest subiektywna. Dlatego też próbki,
które wielokrotnie etykietowano niezgodnie z ocena˛ ekspertów, zostały właczone
˛
do zbioru
stanowiacego
˛
niejednoznacznie określone stany. Emocje ocenione zgodnie przez co najmniej
dziesi˛eć osób, zostały sklasyfikowane jako czyste stany prototypowe. Cz˛eść z nich stanowi
zbiór treningowy, cz˛eść zbiór testowy niniejszych badań. Podczas procesu etykietowania
wolontariusze zostali poproszeni dodatkowo o oznaczenie intensywności (nat˛eżenia) czterech
podstawowych stanów emocjonalnych (gniew, radość, strach i smutek) w skali od jednego
(najniższe nat˛eżenie) do 3 (najwyższe nat˛eżenie). W ten sposób uzyskano etykiety diad
emocjonalnych.
4.2. Deskryptory sygnału mowy
Jednym z najistotniejszych kroków jest ilościowy opis przedmiotu badań, czyli identyfikacja
cech obiektu, które niosa˛ informacje, wystarczajace
˛ do efektywnej klasyfikacji.
W
poniższej tabeli dokonano zestawienia deskryptorów sygnału mowy wykorzystanych podczas
prowadzonych badań.
Zestawienie deskryptorów mowy wykorzystanych w niniejszych badaniach
Grupa cech
Opis cechy
Średnia wartość F0
Maksymalna wartość F0
Minimalna wartość F0
Mediana F0
Odchylenie standardowe F0
Zakres F0
10
Grupa cech
Opis cechy
Górny kwartyl F0
Dolny kwartyl F0
Rozst˛ep kwartylny F0
Kurtoza F0
Współczynnik skośności F0
Współczynnik wahania F0
Współczynnik monotoniczności F0
Maksymalna wartość wzrostu F0
Minimalna wartość wzrostu F0
Średnia wartość wzrostu F0
Maksymalna wartość spadku F0
Minimalna wartość spadku F0
Średnia wartość spadku F0
Maksymalny przedział wzrostu F0
Średni przedział wzrostu F0
Maksymalny przedział spadku F0
Średni przedział spadku F0
Średnia wartość energii sygnału
Maksymalna wartość energii sygnału
Minimalna wartość energii sygnału
Mediana energii sygnału
Odchylenie standardowe energii sygnału
Zakres energii sygnału
Górny kwartyl energii sygnału
Dolny kwartyl energii sygnału
Rozst˛ep kwartylny energii sygnału
Kurtoza energii sygnału
Współczynnik skośności obwiedni
Energia sygnału
Współczynnik wahania obwiedni
Współczynnik monotoniczności obwiedni
Maksymalna wartość wzrostu obwiedni
Minimalna wartość wzrostu energii sygnału
Średnia wartość wzrostu obwiedni
Maksymalna wartość spadku obwiedni
Minimalna wartość spadku obwiedni
Średnia wartość spadku obwiedni
Maksymalny przedział wzrostu obwiedni
Średni przedział wzrostu obwiedni
Maksymalny przedział spadku obwiedni
Średni przedział spadku obwiedni
Średnie F1
Odchylenie standardowe F1
Mediana F1
Maksimum F1
Minimum F1
Formanty F1-F3
11
Grupa cech
Opis cechy
Średnie F2
Odchylenie standardowe F2
Mediana F2
Maksimum F2
Minimum F2
Średnie F3
Odchylenie standardowe F3
Mediana F3
Maksimum F3
Minimum F3
Średnia wartość współczynników LPC (1-13)
Odchylenie standardowe współczynników LPC (1-13)
Współczynniki LPC
Mediana współczynników LPC (1-13)
Maksymalna wartość współczynników LPC (1-13)
Minimalna wartość współczynników LPC (1-13)
Średnia wartość współczynników MFCC (1-13)
Odchylenie standardowe współczynników MFCC (1-13)
Współczynniki MFCC
Mediana współczynników MFCC (1-13)
Maksymalna wartość współczynników MFCC (1-13)
Minimalna wartość współczynników MFCC (1-13)
Średnia wartość współczynników BFCC (1-13)
Odchylenie standardowe współczynników BFCC (1-13)
BFCC
Mediana współczynników BFCC (1-13)
Maksymalna wartość współczynników BFCC (1-13)
Minimalna wartość współczynników BFCC (1-13)
Średnia wartość współczynników HFCC (1-13)
Odchylenie standardowe współczynników HFCC (1-13)
HFCC
Mediana współczynników HFCC (1-13)
Maksymalna wartość współczynników HFCC (1-13)
Minimalna wartość współczynników HFCC (1-13)
Średnia wartość współczynników PLP (1-13)
Odchylenie standardowe współczynników PLP (1-13)
PLP
Mediana współczynników PLP (1-13)
Maksymalna wartość współczynników PLP (1-13)
Minimalna wartość współczynników PLP (1-13)
Średnia wartość współczynników RPLP (1-13)
Odchylenie standardowe współczynników RPLP (1-13)
RPLP
Mediana współczynników RPLP (1-13)
Maksymalna wartość współczynników RPLP (1-13)
Minimalna wartość współczynników RPLP (1-13)
Średnia wartość współczynników RASTA PLP (1-13)
Odchylenie standardowe współczynników RASTA PLP (1-13)
RASTA PLP
Mediana współczynników RASTA PLP (1-13)
Maksymalna wartość współczynników RASTA PLP (1-13)
12
Grupa cech
Opis cechy
Minimalna wartość współczynników RASTA PLP (1-13)
4.3. Klasyfikacja hierarchiczna
Ostatni krok zadania rozpoznawania wzorców stanowi proces klasyfikacji. W procesie tym
określa si˛e przynależność nieznanego obiektu, opisanego za pomoca˛ wektora atrybutów, do
jednej ze zdefiniowanych wcześniej klas. Mimo, iż metody klasyfikacji to raczej standardowe
narz˛edzia automatycznego rozpoznawania, obejmujace
˛ szereg podejść (systemy ekspertowe,
drzewa decyzyjne, logika rozmyta, sieci neuronowe i inne) [11], to niejednokrotnie zdarza
si˛e, że narz˛edzia te nie daja˛ oczekiwanych rezultatów. Klasyfikacja emocji na podstawie
mowy, a w szczególności mowy spontanicznej, jest zadaniem trudnym, zależnym od wielu
czynników, i mimo szeroko eksploatowanych badań, wcia˛ż natrafia na poważne przeszkody.
Dlatego też poszukuje si˛e nowych rozwiazań,
˛
poprzez tworzenie innowacyjnych algorytmów
badź
˛ klasyfikatorów hybrydowych, bazujacych
˛
na współdziałaniu istniejacych
˛
rozwiazań.
˛
Jednym z obiecujacych
˛
podejść w uczeniu maszynowym wydaje si˛e być stosowanie
komitetów klasyfikujacych
˛
(ang. Ensemble, Committee, Multiple Classifier Systems - MCS),
bazujacych
˛
na zasadzie dziel i zwyci˛eżaj. W tym celu dokonuje si˛e dekompozycji złożonego
problemu na kilka mniej złożonych [12]. Tworzone w ten sposób rozwiazanie
˛
składa si˛e z
wielu prostych (łatwych do zbudowania) modeli (w˛ezłów) o relatywnie niskiej skuteczności, a
ich końcowe wyniki sa˛ łaczone
˛
(np. metoda˛ głosowania, przypisujac
˛ obiekt do klasy, na która˛
głosuje najwi˛ecej spośród klasyfikatorów bazowych).
Biorac
˛ pod uwag˛e wysokie rezultaty rozpoznawania emocji na podstawie mowy w
powyższych pracach oraz niejednoznaczność stanów oraz rozmycie granic mi˛edzy nimi w
mowie spontanicznej, niniejsze badania stanowia˛ prób˛e opracowania skutecznego klasyfikatora
hierarchicznego.
Proces jego tworzenia rozpoczyna si˛e od Podstawowego Algorytmu
Rozpoznawania Emocji PAKEmo, opartego na horyzontalnym podziale problemu na
podproblemy wzgl˛edem wektora cech.
Nast˛epnie algorytm rozbudowywany był poprzez
dodawanie kolejnych w˛ezłów, majacych
˛
za zadanie zwi˛ekszyć wydajność systemu. Ostateczny
algorytm stanowi wielopoziomowy, hierarchiczny klasyfikator, który na kolejnych poziomach
zawiera takie elementy jak: rozpoznawanie płci, budowa profili emocjonalnych, zależność
emocji od długości wypowiedzi oraz badanie nat˛eżenia emocji. Wszystkie wyżej wymienione
podproblemy zostały kolejno przedstawione w poniższych podrozdziałach.
13
Algorytm bazowy
Wektory cech opisujacych
˛
obiekty ze zbioru uczacego
˛
oraz wektor opisujacy
˛ nieznany
obiekt zostały podzielone na podwektory konkretnych grup cech (przedstawione w załaczniku
˛
A niniejszej pracy). W ten sposób otrzymano m oddzielnych podwektorów, przykładowo
wektor deskryptorów cz˛estotliwości podstawowej czy współczynników MFCC. Na poziomie
zerowym algorytmu PAKEmo (rys. 4) znajduje si˛e zespół m klasyfikatorów. W każdym z
nich podejmowana jest decyzja dm przy użyciu algorytmu k-NN. Każdy z m klasyfikatorów
dokonuje oddzielnej klasyfikacji na podstawie określonej grupy cech, a zatem wykonywanych
jest m testów.
Na poziomie pierwszym otrzymujemy m decyzji, gdzie liczby k, l..., s
reprezentuja˛ ilość głosów oddanych na konkretna˛ klas˛e. Na tej podstawie, wykorzystujac
˛
głosowanie równoprawne, wybierana jest ostateczna klasa nieznanego obiektu.
Rysunek 4. Schemat podstawowego algorytmu klasyfikacji emocji
Problemy pojawiaja˛ si˛e w przypadku, gdy na podstawie głosowania równoprawnego nie
da si˛e wyłonić jednego zwyci˛ezcy (jednej klasy). W takim przypadku sprawdzane zostaje
położenie obu klas na kole emocji Plutchika.
Jeśli obie zwyci˛eskie klasy leża˛ na kole
obok siebie, zachodzi podejrzenie, że granice mi˛edzy nimi sa˛ na tyle niejednoznaczne, że
nie jest możliwe podj˛ecie jednej, konkretnej decyzji. Wypowiedź klasyfikowana jest jako
niejednoznaczna i opatrzona dwoma etykietami. Jeśli jednak położenie zwyci˛eskich klas
na kole jest przeciwstawne, co dyskwalifikuje (wg Plutchika) możliwość wyst˛epowania obu
14
emocji jednocześnie, za zwyci˛eska˛ uznaje si˛e t˛e klas˛e, która˛ wskazywały grupy cech uznane za
najefektywniejsze według selekcji grupowej (tabela ??).
Minimalizacja cech osobniczych mówcy
Oczywistym jest fakt, że rozpoznawanie emocji uzależnione od mówcy daje dużo
lepsze rezultaty niż rozpoznawanie niezależne. Aczkolwiek system, który miałby działać
w naturalnych warunkach, powinien być uniwersalny, omijajac
˛ cechy osobnicze głosu w
klasyfikacji emocji. Dlatego też budujac
˛ tego typu systemy da˛ży si˛e do ich minimalizacji.
Powszechnie uważa si˛e, że kobiety lepiej niż m˛eżczyźni rozpoznaja˛ emocje w tonie głosu,
a przekonanie to potwierdzono badaniami. Samo okazywanie emocji również jest odmienne
dla obu płci. Ponadto cz˛estotliwość drgań fałdów głosowych, a zatem cz˛estotliwość krtaniowa
(podstawowa), zależy od masy, długości i napi˛ecia tych fałdów. Ponieważ u m˛eżczyzn długość
fałdów wynosi około 15-20 mm, zaś u kobiet 8-12 mm, głos kobiecy jest około oktaw˛e wyższy
od m˛eskiego [6]. Widoczny jest zatem wpływ płci na mow˛e, co może przekładać si˛e również
na proces rozpoznawania.
Widoczny jest również wpływ wieku na głos mówcy.
Mowa młodych chłopców
charakteryzuje si˛e znacznie wyższa˛ cz˛estotliwościa˛ podstawowa,˛ niż dorosłych m˛eżczyzn. Tej
różnicy nie widać w sposób tak istotny jak w przypadku kobiet. Można także zauważyć, że z
wiekiem głos staje si˛e coraz bardziej zachrypni˛ety, a mowa spowolniona.
Ponieważ elementy społeczno-demograficzne ci˛eżko określić na podstawie klasyfikacji
opartej o mow˛e, toteż sama konstrukcja korpusu powinna zakładać prawidłowy rozkład tych
parametrów. Przykładowo, w zbiorze treningowym powinny znajdować si˛e próbki mowy
osób wywodzacych
˛
si˛e z różnych cz˛eści Polski, a ich rozkład powinien być proporcjonalny.
W ten sposób, bazujac
˛ na odpowiednich przykładach, klasyfikator jest w stanie rozpoznać
odpowiednia˛ próbk˛e.
Pomimo, iż w korpusie zapewniono prawidłowy rozkład płci i wieku mówców,
zdecydowano si˛e na wprowadzenie dodatkowego elementu. Zbiór treningowy podzielono na
dwie grupy: m˛eska˛ i żeńska,˛ a do klasyfikatora dodano moduł rozpoznawania płci. W˛ezeł
odpowiedzialny za rozpoznawanie płci umieszczono tuż nad algorytmem PAKEmo.
W
zależności od płci badanego mówcy, zbiór treningowy PAKEmo stanowi teraz odpowiednio
zbiór wypowiedzi kobiet badź
˛ m˛eżczyzn. Rozpoznawanie płci dokonano na podstawie wartości
średniej cz˛estotliwości podstawowej F0.
Klasyfikacja w wykorzystaniem wag
Majac
˛ na uwadze nierównomierny wpływ deskryptorów mowy na rozpoznawanie
stanów emocjonalnych, zdecydowano si˛e na zastapienie
˛
metody głosowania równoprawnego
głosowaniem ważonym. W takim przypadku decyzja podejmowana jest również na zasadzie
15
głosowania, ale nie każdy głos jest liczony jednakowo. Dla każdego ucznia (klasyfikator
konkretnej grupy cech) określa si˛e wagi w1 , w2 , ..., wm , co pozwala nadać priorytet lepszym
uczniom. Decyzja podejmowana jest wtedy na podstawie równania ??.
ri =
m
X
wj dji
(1)
j=1
l
Z = arg max[ri ]
(2)
i=1
Problem stanowi sposób dobierania właściwych wag, podejście to wymaga umiej˛etności
ocenienia (albo przynajmniej porównania) klasyfikatorów bazowych. W niniejszej pracy wagi
zostały dobrane doświadczalnie, na podstawie bł˛edu poszczególnych klasyfikatorów.
Segmentacja mowy
Biorac
˛ pod uwag˛e założenie zmienności stanów emocjonalnych w trakcie wypowiedzi
zastosowano segmentacj˛e mowy. Założono bazowa˛ długość fragmentu 3 s - w tym czasie
stan nie powinien ulec zmianie.
Podobne podejście autorka zastosowała w [13], gdzie
wypowiedź dzielona była na trzy fragmenty o równej długości: poczatek,
˛
środek i koniec
wypowiedzi.
Nast˛epnie dokonywana była oddzielna klasyfikacja każdego z fragmentów,
a wynik rozpoznawania uzyskiwano za pomoca˛ głosowania równoprawnego. Ponieważ w
wykorzystywanym w niniejszej pracy korpusie mowy zdarzaja˛ si˛e również krótsze fragmenty
mowy (krótkie wypowiedzi, pojedyncze słowa), a niekiedy tylko dźwi˛eki (śmiech, krzyk, pisk),
tego typu segmentacja nie może zostać wykorzystana. Dlatego też zastosowano podział na
3-sekundowe fragmenty. W przypadku, gdy wypowiedź jest krótsza niż 3 s, pozostaje ona
niepodzielona. Jeśli jednak wypowiedź jest dłuższa, całość zostaje podzielona na fragmenty
3-sekundowe oraz fragment dopełniajacy
˛ (majacy
˛ co najmniej 500 ms). Jeśli fragment końcowy
jest krótszy niż 500 ms, zostaje on dodany do ostatniego fragmentu 3-sekundowego. Nast˛epnie
każdy z nich zostaje poddany indywidualnej klasyfikacji przy użyciu algorytmu k-NN.
Rozpoznawanie intensywności emocji podstawowych
Ostatni poziom klasyfikatora stanowi algorytm rozpoznawania intensywności emocji
podstawowych. Jak już wcześniej wspominano, według Plutchika każda z pierwotnych emocji
może być odczuwana w trzech stopniach nat˛eżenia (np.
gniew: irytacja, gniew, furia).
Intuicyjna zależność podobieństwa mowy neutralnej i emocjonalnej stanowi hipotez˛e, na
podstawie której opracowano algorytm rozpoznawania nat˛eżenia emocji. Można zauważyć, że
wraz ze wzrostem nat˛eżenia konkretnej emocji, podobieństwo głosu do mowy neutralnej spada.
Zależność t˛e autorka prezentowała mi˛edzy innymi w [1]. Zauważona została proporcjonalna
zmiana konturu cz˛estotliwości podstawowej wzgl˛edem mowy neutralnej.
16
Bazujac
˛ na tych obserwacjach stworzono algorytm rozpoznawania nat˛eżenia emocji
podstawowej. Wejście algorytmu stanowia:
˛ obiekty zbioru treningowego danej klasy CU k ,
model mowy neutralnej (centroid) Xn oraz nieznany obiekt z określona˛ klasa˛ podstawowa˛
xn . Nast˛epnie obliczane sa˛ odległości d pomi˛edzy centroidem mowy neutralnej, a każdym
obiektem ze zbioru treningowego CU k . Odległości te sa˛ sortowane malejaco.
˛ Bazujac
˛ na nich,
zbiór dzielony jest na trzy podzbiory intensywności. Podzbiór, którego odległość centroidu od
centroidu mowy neutralnej jest najwi˛eksza, uznawany jest za zbiór najwyższych intensywności,
podzbiór z najmniejsza˛ odległościa,˛ jako intensywność najniższa, zaś podzbiór przejściowy,
jako emocja podstawowa. Dla każdego podzbioru wyznaczany jest centroid według wzoru 3:
k
1
µk =
Nk
N
3 k
X
xi dla k = {1, 2, 3}
(3)
k−1
Nk +1
3
gdzie: µk - centroid podzbioru k, Nk - liczność podzbioru k.
Zastosowanie metody najbliższej średniej (ang. nearest mean), której istota˛ jest zastapienie
˛
wszystkich próbek konkretnej klasy ich wartościa˛ średnia˛ (centroidem), ogranicza przede
wszystkim czasochłonność obliczeń. Teraz nieznany obiekt xn porównywany jest tylko z
centroidami konkretnych podzbiorów, a zatem wykonywane sa˛ tylko trzy operacje obliczania
odległości.
Nieznany obiekt przypisywany jest do klasy intensywności na podstawie
najmniejszej odległości od centroidu.
Algorytm wyjściowy
W poprzednich podrozdziałach szczegółowo opisane zostały kolejne elementy finalnego
algorytmu rozpoznawania mowy emocjonalnej. Składa si˛e on z pi˛eciu modułów, tworzacych
˛
kolejne poziomy struktury hierarchicznej:
1. Poziom zerowy – wejście modułu stanowi wypowiedź emocjonalna (wektor cech), która
nast˛epnie podlega procesowi klasyfikacji określajacej
˛ płeć mówcy. Wyjście modułu stanowi
wypowiedź z określona˛ płcia˛ (m˛eska, żeńska).
2. Poziom pierwszy – wejście modułu stanowi wypowiedź określonej płci, która nast˛epnie
poddawana jest segmentacji. Każda wypowiedź trwajaca
˛ dłużej niż 3s dzielona jest na
3-sekundowe segmenty.
3. Poziom drugi – wejście modułu stanowia˛ fragmenty wypowiedzi, które nast˛epnie
poddawane sa˛ osobnej klasyfikacji z wykorzystaniem klasyfikatora k-NN, a dodatkowo
liczba klasyfikatorów, przypadajaca
˛ na jeden fragment uzależniona jest od liczby grup cech
wykorzystywanych w badaniach.
17
4. Poziom trzeci – stanowi głosowanie ważone na poziomie konkretnych grup cech (np. F0,
LPC, PLP). Wyjściem modułu sa˛ klasy, których liczność jest równa liczbie grup cech
wykorzystanych w badaniach.
5. Poziom czwarty – stanowi go głosowanie równoprawne na poziomie konkretnych
fragmentów. Wyjściem modułu sa˛ klasy, których liczność jest równa liczbie fragmentów,
na jakie została podzielona wypowiedź.
6. Poziom piaty
˛ – konkretna emocja jest badana pod katem
˛
jej nat˛eżenia. Na podstawie
autorskiego algorytmu porównujacego
˛
badana˛ wypowiedź z modelem mowy neutralnej,
określana jest jako emocja podstawowa, badź
˛ dwie jej diady (najwyższa intensywność,
najniższa intensywność). Krok ten kończy działanie algorytmu.
Profile emocjonalne
Aby lepiej zobrazować zagadnienie niejednoznaczności emocji autorka postanowiła
skorzystać z definicji profili emocjonalnych w celu przedstawienia zawartości danych stanów
w wypowiedzi.
Według [10] profil emocjonalny jest to sa˛ wektor wyrażajacy
˛ stopień
obecności lub nieobecności emocji podstawowych w danej wypowiedzi. Można w ten sposób
uniknać
˛ sztywnej klasyfikacji (ang. hard labeling), zast˛epujac
˛ ja˛ etykietowaniem wielokrotnym
(ang.
multiple labeling).
Tego typu klasyfikacja może wskazywać na zawartość kilku
stanów emocjonalnych w danej wypowiedzi, ich mieszanin˛e czy też ewolucj˛e emocjonalna˛
wypowiedzi.
Możliwe jest również zastosowanie etykietowania rozmytego, w którym
dodatkowo określa si˛e funkcj˛e przynależności do każdego ze stanów.
Algorytm podstawowy PAKEmo stanowi szereg klasyfikatorów tego samego poziomu,
uwzgl˛edniajacych
˛
rozkład grup deskryptorów mowy. Poszerzenie tego modułu o kolejny,
dokonujacy
˛ segmentacji mowy, tworzy hierarchiczna˛ struktur˛e klasyfikatorów k-NN, a na
podstawie ich odpowiedzi dokonuje si˛e głosowania. Zastapienie
˛
głosowania analiza˛ odpowiedzi
pozawala na stworzenie profilu emocjonalnego poszczególnych próbek mowy. Poprzez zliczane
kolejnych wyników dla danej emocji budowany jest histogram, przedstawiajacy
˛ zawartość
danych stanów w konkretnej wypowiedzi. Podejście to nie zast˛epuje klasyfikacji, a jest jedynie
jej rozszerzeniem, i w szczególności ma zadanie zobrazowanie wypowiedzi niejednoznacznie
określonych.
5. Podsumowanie
Głównym założeniem prezentowanych badań było stworzenie systemu pozwalajacego
˛
na
automatyczne rozpoznawanie stanów emocjonalnych na podstawie mowy naturalnej. W tym
celu stworzono polska˛ baz˛e emocji spontanicznych, na która˛ składa si˛e ponad siedemset próbek,
podzielonych na siedem podzbiorów reprezentujacych
˛
stany podstawowe. Ponadto w celach
18
porównawczych dokonano również analizy emocji odegranych przez profesjonalnych aktorów.
Ilościowy opis problemu stanowia˛ powszechnie używane w tego typu badaniach deskryptory
mowy, które zestawiono z hybrydowymi współczynnikami percepcyjnymi (używanymi w
rozpoznawaniu mowy, aczkolwiek pomijanymi w rozpoznawaniu emocji).
Jak wykazały
badania, atrybuty te okazały si˛e silnie dyskryminatywne, co uzasadnia ich użycie.
W
trakcie klasyfikacji porównano algorytm k-NN z autorskim podejściem opartym na zbiorze
klasyfikatorów (komitecie), majacym
˛
zapewnić lepsze wyniki rozpoznawania.
Analiza
wyników potwierdziła poczatkowe
˛
założenia autorki.
5.1. Korpus mowy spontanicznej i jego wpływ na rozpoznawanie emocji
Badania nad rozpoznawaniem emocji prowadzone sa˛ na całym świecie w wielu ośrodkach
badawczych. Niestety wi˛ekszość analiz prowadzona jest na prywatnych korpusach, których
z przyczyn prawnych autorzy zazwyczaj nie moga˛ udost˛epniać. W niniejszej pracy analiz˛e
przeprowadzono na dwóch bazach, porównujac
˛ emocje odegrane z naturalnymi. Badania
wykazały jak duży wpływ na wyniki klasyfikacji maja˛ korpusy tworzace
˛ wzorce, co istotnie
utrudnia porównywanie skuteczności różnych, zaproponowanych dotychczas podejść. Duże
znaczenie ma przede wszystkim liczność wzorców.
Odpowiednia liczba i różnorodność
przykładów może w znacznym stopniu zwi˛ekszyć jakość rozpoznawania. Liczba próbek obu
wykorzystanych korpusów różni si˛e zasadniczo, co odbija si˛e również na jakości klasyfikacji.
W przypadku bazy mowy odegranej dysponujemy 40 próbkami danej emocji, zaś w przypadku
mowy spontanicznej liczba ich jest co najmniej dwukrotnie wi˛eksza. Dodatkowo, w drugim
przypadku różnorodność próbek (płeć oraz wiek mówcy) może mieć wpływ na lepsze
wyniki klasyfikacji.
Poprzez wykorzystanie wypowiedzi różnego typu, ograniczany jest
wpływ cech osobniczych na rozpoznawanie. Dodatkowo, uwzgl˛edniajac
˛ różnice w sposobie
ekspresji emocji przez kobiety i m˛eżczyzn, wprowadzono moduł rozpoznawania płci. W
przypadku mowy spontanicznej spowodowało to popraw˛e wyników rozpoznawania. Obniżenie
wydajności klasyfikatora w przypadku mowy odegranej może wiazać
˛
si˛e z ograniczeniem
liczności wzorców po podziale na płeć.
W badaniach dokonano również klasyfikacji nat˛eżeń mowy emocjonalnej. Zaprezentowano
autorski algorytm określenia intensywności danej emocji na podstawie stopnia jej podobieństwa
do mowy neutralnej. Zadanie to również wydaje si˛e być istotnym: rozróżnienie, czy mówca jest
lekko podirytowany, czy też rozwścieczony, ma znaczenie, w szczególności w zastosowaniach
aplikacyjnych. Biorac
˛ pod uwag˛e rozmyte granice mi˛edzy konkretnymi nat˛eżeniami danej
emocji, w przyszłych badaniach należałoby przetestować różnego typu funkcje przynależności
do rozpoznania konkretnego nat˛eżenia.
19
Niewatpliwym
˛
atutem bazy mowy spontanicznej sa˛ próbki, których stan emocjonalny
jest niejednoznacznie określony. Przeprowadzona analiza pokazuje złożoność mechanizmów
powstawania emocji, ich percepcji i ekspresji.
W naturalnym środowisku mówca może
być targany różnymi emocjami w tym samym momencie, a słuchacz może różnie odbierać
wysyłane przez niego sygnały. Dlatego też wzorce mowy odegranej moga˛ nie sprawdzić si˛e
przy klasyfikacji emocji w warunkach naturalnych. Przeprowadzone badania wskazuja,˛ że
zaproponowany algorytm radzi sobie również z próbkami niejednoznacznie określonymi, co
może wskazywać na to, że niektórych parametrów głosu człowiek nie jest w stanie zmienić
nawet celowo.
5.2. Deskryptory mowy emocjonalnej
Proces wyznaczania odpowiednich atrybutów, które trafnie opisuja˛ przedmiot analizy, ma
ogromne znaczenie w zadaniach rozpoznawania wzorców. A zatem algorytm klasyfikacji musi
być poprzedzony procesem doboru wydajnych zestawów cech oraz procesem ich ewentualnej
selekcji.
Do ilościowego opisu problemu autorka posłużyła si˛e grupami deskryptorów
mowy powszechnie stosowanymi w badaniach nad rozpoznawaniem emocji: cz˛estotliwość
podstawowa, formanty, cechy energetyczne, współczynniki LPC, MFCC oraz PLP. Dodatkowo
zaproponowano użycie deskryptorów, które mimo istotnego wkładu w rozpoznawanie mowy,
pomijane sa˛ w zadaniach rozpoznawania emocji: współczynniki BFCC, HFCC, RPLP oraz
RASTA PLP. Wst˛epne badania przeprowadzone na konkretnych podzbiorach cech wskazuja,˛
że w przypadku obu korpusów najwyższe wyniki rozpoznawania osiagana
˛
sa˛ właśnie przy
użyciu zaproponowanych atrybutów. I tak dla bazy mowy odegranej najlepsze rozpoznawanie
uzyskano na zbiorze współczynników BFCC (64,4%), nieco niżej, aczkolwiek także wysoko
plasuja˛ si˛e współczynniki RPLP (58,6%).
Dla bazy mowy naturalnej najwyższe wyniki
otrzymano również przy użyciu współczynników BFCC (77,7%), tuż za nimi plasuja˛ si˛e
współczynniki MFCC (74%) i HFCC (72,9%).
Liczna reprezentacja tych atrybutów po
wykonaniu selekcji metoda˛ SFS na całym zbiorze cech dodatkowo potwierdza sił˛e owych
deskryptorów.
W trakcie badań dokonano również redukcji wymiarowości konkretnych
podzbiorów cech, dzi˛eki czemu udało si˛e zwi˛ekszyć wyniki rozpoznawania: przykładowo w
przypadku mowy odegranej dla całej puli współczynników BFCC osiagni˛
˛ eto 55,7%, tak po
selekcji 64,4%. W przypadku mowy naturalnej dokładność rozpoznawania po zastosowaniu
selekcji również uległa zwi˛ekszeniu na każdym podzbiorze cech.
5.3. Klasyfikacja
Mimo, iż proces klasyfikacji opiera si˛e na standardowych narz˛edziach rozpoznawania,
wraz z rosnac
˛ a˛ złożonościa˛ zadań pojawia si˛e potrzeba nowych rozwiazań,
˛
majacych
˛
na celu
20
zapewnienie lepszej skuteczności. W tym celu tworzone sa˛ całkowicie nowe klasyfikatory,
metody hybrydowe, łacz
˛ ace
˛ poszczególne algorytmy, a także metody usprawniajace
˛ istniejace
˛
rozwiazania.
˛
Zaproponowany w niniejszej pracy algorytm oparto o teori˛e tzw. komitetów,
które pracujac
˛ wspólnie, osiagaj
˛ a˛ wyniki lepsze niż pojedyncze modele. Podejście oparte
na komitetach było wcześniej zastosowane w kilku pracach poświ˛econych rozpoznawaniu
emocji na podstawie mowy.
Jednakże zaleta˛ tego typu klasyfikacji jest możliwość
stworzenia różnego rodzaju struktur dostosowanych do konkretnego problemu.
Dlatego
też przedstawione rozwiazanie
˛
jest całkowicie innowacyjnym podejściem w omawianym
zagadnieniu.
Zastosowanie komitetu do niniejszych rozważań wydawało si˛e być słuszne
z dwóch powodów.
Modele oparte na atrybutach wybranych do reprezentacji emocji
popełniaja˛ różne bł˛edy dla nowych danych, a zatem możemy mówić o różnorodności
komitetu. Dodatkowo w trakcie badań zauważono, że dla określonych podzbiorów najlepsze
wyniki osiagane
˛
sa˛ przy użyciu rożnych wartości liczby k algorytmu k-NN. A zatem
zastosowanie rozbicia pojedynczego modelu na zbiór klasyfikatorów, z którego każdy dokonuje
rozpoznawania na podstawie innego podzbioru atrybutów, a ostateczna decyzja podejmowana
jest na podstawie głosowania, powinno prowadzić do zwi˛ekszenia jakości rozpoznawania.
Badania udowodniły tez˛e postawiana˛ przez autork˛e. I tak w przypadku bazy mowy odegranej
wyniki wzrosły ponad 5%. W przypadku bazy mowy naturalnej wyniki również wzrosły,
aczkolwiek wzrost ten wynosi jedynie 2,7%. W zwiazku
˛
z tym, że każdy z podzbiorów
atrybutów ma inny wkład w rozpoznawanie, nast˛epnym krokiem było zastapienie
˛
głosowania
równoważnego ważonym. Wagi dobrano na podstawie bł˛edu konkretnego modelu, a ich
wprowadzenie do algorytmu głosowania ostatecznie uzasadnia użycie zaproponowanego
rozwiazania.
˛
6. Dalsze prace rozwojowe, potencjał zaprezentowanego rozwiazania
˛
Naturalnym kierunkiem kontynuacji przedstawionych w niniejszej rozprawie badań wydaje
si˛e być przede wszystkim sprawdzenie możliwości innych algorytmów klasyfikacji jako
modeli bazowych komitetu. Należy tutaj podkreślić, że możliwe jest zastosowanie komitetów
heterogenicznych, dopasowujac
˛ odpowiedni algorytm rozpoznawania do konkretnego
podzbioru cech. Dodatkowo należy przetestować inne kombinacje komitetu stosujac
˛ inne
warunki podziału modelu bazowego. Kolejnym kierunkiem rozwoju algorytmu jest określenie
dodatkowych cech opisujacych
˛
przedmiot analizy. Algorytm można poszerzyć o dodatkowe
modele, przykładowo bazujace
˛ na prozodiach sygnału (tempo, pauzy) czy też atrybutach
wyznaczanych na podstawie opisu sygnału metodami zaczerpni˛etymi z analizy układów
21
nieliniowych. A zatem zastosowane podejście daje szeroka˛ gam˛e możliwości dalszego rozwoju
i optymalizacji.
Potrzeba rozszerzenia korpusu mowy o dodatkowe próbki tworzace
˛
wzorce oraz
kolejne stany emocjonalne wydaje si˛e być oczywista. Jest to niezb˛edne w szczególności
do zastosowania algorytmu rozpoznawania nat˛eżenia również na pozostałych stanach
podstawowych, nie uwzgl˛ednionych w niniejszej analizie.
Można także pokusić si˛e
o poszerzenie korpusu o próbki wypowiedzi dzieci, których ekspresja emocji może
zaburzyć jakość rozpoznawania. Ważnym kierunkiem rozwoju jest rozpoznawanie stanów
niejednoznacznie określonych, a zaproponowana w niniejszej rozprawie metoda etykietowania
poprzez tworzenie profili może w znacznym stopniu to ułatwić.
Podsumowujac,
˛ powyżej zaprezentowane potencjalne możliwości rozwoju pozwalaja˛ na
dalsza˛ prac˛e nad rozpoznawaniem stanów emocjonalnych na podstawie sygnału mowy.
Obiecujacym
˛
zdaje si˛e także być tworzenie dodatkowych modeli bazujacych
˛
na innych
sygnałach: obraz (mimika oraz gesty), sygnały EEG czy analiza obrazu w podczerwieni.
Komitet stworzony na podstawie dodatkowych przesłanek może w znacznym stopniu poprawić
klasyfikacj˛e.
Analiza emocji znajduje zastosowanie w syntezatorach głosu oraz jako system
wspomagajacy
˛ rozpoznawanie mowy. Dodatkowo istotna˛ dziedzina˛ zastosowań jest medycyna,
a w szczególności diagnoza zaburzeń psychologicznych i neurologicznych, objawiajacych
˛
si˛e nieprawidłowa˛ percepcja˛ i ekspresja˛ emocji (autyzm, schizofrenia, depresja, stres) oraz
wspomaganie terapii behawioralnej.
Bibliografia
[1] Kamińska D. , Pelikant A. Recognition of Human Emotion from a Speech Signal Based on
Plutchik’s Model. International Journal of Electronics and Telecommunications, 58(2):165–171,
2012.
[2] Kaliouby R., Robinson P. Mind Reading Machines Automated Inference of Cognitive Mental
States from Video. IEEE International Conference on Systems, Man and Cybernetics, pages
682–688, The Hague, Netherlands, 2004.
[3] Silva P.R., Madurapperuma A.P., Marasinghe A., Osano M. A multi-agent based interactive system
towards childs emotion performances quantified through affective body gestures. International
Conference on Pattern Recognition, pages 1236–1239, 2006.
[4] Garay N., Cearreta I., López J.M., Fajardo I. Assistive Technology and Affective Mediation. An
Interdisciplinary Journal on Humans in ICT Environments, 2(1):55–83, 2006.
[5] Plutchik R. Emotion A Psychoevolutionary Synthesis. New York Harper and Row, 1980.
[6] Obr˛ebowski A. Narzad
˛ głosu i jego znaczenie w komunikacji społecznej. Uniwersytet Medyczny
im. Karola Marcinkowskiego w Poznaniu, 2008.
[7] Abelin A. Anger or Fear? Cross-Cultural Multimodal Interpretations of Emotional Expressions.
Plural Publishing, 2007.
[8] Izdebski K. Emotions in the Human Voice Volume I Foundations. Plural Publishing, 2007.
[9] Ślot K. Wybrane zagadnienia biometrii. Wydawnictwa Komunikacji i Łaczności
˛
WKŁ, 2008.
[10] Mower E., Mataric M.J., Narayanan S.S.
A Framework for Automatic Human Emotion
Classification Using Emotional Profiles. IEEE Transactions on Audio, Speech and Language
Processing, 19(5):1057 – 1070, 2011.
[11] Ślot K.
Rozpoznawanie biometryczne Nowe metody ilościowej reprezentacji obiektów.
Wydawnictwa Komunikacji i Łaczności
˛
WKŁ, 2010.
[12] Cichosz P. Systemy uczace
˛ si˛e. Wydawnictwa Naukowo-Techniczne, 2007.
[13] Kamińska D., Pelikant A. Rozpoznawanie Stanów Emocjonalnych na Podstawie Analizy Mowy
Spontanicznej. Informatyka, Automatyka Pomiary w Gospodarce i Ochronie Środowiska, 3, 2012.
23

Podobne dokumenty