Rozpoznawanie emocji na podstawie mowy naturalnej
Transkrypt
Rozpoznawanie emocji na podstawie mowy naturalnej
POLITECHNIKA ŁÓDZKA Wydział Elektrotechniki, Elektroniki, Informatyki i Automatyki mgr inż. Dorota Kamińska Streszczenie rozprawy doktorskiej na temat: Rozpoznawanie emocji na podstawie mowy naturalnej Promotor dr hab. inż. Adam Pelikant Łódź 2014 1. Wprowadzenie Komunikacja interpersonalna to nieodzowny element ludzkiego życia. Rozmowa dostarcza słuchaczowi zarówno informacji lingwistycznych, jak i określa charakterystyk˛e biologiczno psychologiczna˛ mówcy. Wydobycie obu rodzajów informacji poprawia jakość komunikacji. Ważnym elementem konwersacji jest ocena stanu emocjonalnego rozmówcy, który możemy również z niej odczytać. W dzisiejszych czasach, kiedy komputery sa˛ cz˛eścia˛ naszego życia, poszukuje si˛e rozwiazań ˛ majacych ˛ na celu polepszenie komunikacji człowiek-komputer/człowiek-robot (HCI/HRI). Dlatego też powstaja˛ nowoczesne technologie rozpoznawania ludzkiej mowy. Systemy, które dodatkowo rozpoznawałyby stany emocjonalne użytkownika, byłyby bardziej naturalne i wiarygodne. Toteż komputerowe rozpoznawanie emocji stało si˛e istotnym trendem badawczym. Odczucia wyrażane sa˛ zarówno poprzez procesy werbalne jak i niewerbalne. Sygnały takie jak mowa [1], mimika twarzy [2], kontakt wzrokowy, gesty [3] oraz stan fizjologiczny organizmu (elektroencefalografia EEG, elektromiografia EMG, reakcja skórno-galwaniczna GSR, temperatura skóry, rytm i długości wydechów czy ciśnienie t˛etnicze) [4] stanowia˛ wejście systemów rozpoznawania emocji. Ludzki głos, najłatwiej dost˛epny z wyżej wymienionych sygnałów, jest również szeroko stosowany jako źródło informacji na temat stanu emocjonalnego mówcy. Niniejsze rozważania dotycza˛ rozpoznawania stanów emocjonalnych wyrażanych głosem. Autorka skupiła si˛e głównie na mowie spontanicznej, dotychczas powszechnie zast˛epowanej mowa˛ odegrana.˛ Na potrzeby zrealizowanych badań zgromadzone zostały nagrania audio z nośnikiem emocjonalnym, stanowiace ˛ kompleksowa˛ baz˛e wejściowa.˛ Opierajac ˛ si˛e na kole Roberta Plutchika stworzono modele emocji podstawowych oraz wtórnych, b˛edacych ˛ wariacjami stanów podstawowych. Autorka przedstawiła nowatorski sposób klasyfikacji emocji spontanicznych stosujac ˛ przy tym zarówno powszechnie znane deskryptory sygnału 1 mowy jak i percepcyjne współczynniki hybrydowe, dotychczas nie wykorzystywane do opisu emocji. Poniżej przedstawione tezy badawcze, ściśle powiazane ˛ z zagadnieniami klasyfikacji mowy emocjonalnej, zostana˛ zweryfikowane w toku pracy. Teza 1: Wykorzystanie hybrydowych współczynników percepcyjnych w procesie klasyfikacji dokonywanym przy użyciu komitetu klasyfikatorów pozwala na uzyskanie wysokiej skuteczności rozpoznawania emocji na podstawie mowy naturalnej. Teza 2: Opierajac ˛ si˛e na teorii emocji Plutchika można dokonać klasyfikacji emocji wtórnych. Teza 3: Istnieje możliwość zwi˛ekszenie dokładności rozpoznawania emocji zawartych w głosie poprzez minimalizacj˛e cech osobniczych mówcy. 2. Psychoewolucyjna teoria Roberta Plutchika W latach 1960-1980 amerykański psycholog Robert Plutchik [5] opracował teori˛e, w której wyodr˛ebnił osiem pierwotnych emocji stanowiacych ˛ prototyp: radość, akceptacja, strach, zdziwienie, smutek, gniew, obrzydzenie oraz oczekiwanie. Stany te sa˛ wrodzone, odnosza˛ si˛e do zachowań adaptacyjnych, które maja˛ na celu pomoc w przetrwaniu. Stanowia˛ one hipotetyczne konstrukty, swojego rodzaju stany idealne, których właściwości i cechy sa˛ wnioskowane intuicyjnie. Wszystkie inne emocje sa˛ stanami pochodnymi, wyst˛epuja˛ jako kombinacje, mieszaniny lub zwiazki ˛ stanów podstawowych. Swoje przemyślenia Plutchik zobrazował przy pomocy koła emocji, przedstawionego na rysunku 1. Diagram reprezentuje stopień podobieństwa pomi˛edzy poszczególnymi stanami. Emocje podstawowe rozmieszczone sa˛ na kole jako pary biegunów przeciwstawnych, których nie można doświadczyć w tym samym czasie, gdyż si˛e wzajemnie wykluczaja.˛ Przykładowo radość stanowi przeciwieństwo smutku. Emocje sasiaduj ˛ ace ˛ na diagramie, gdy sa˛ odczuwane jednocześnie, mieszajac ˛ si˛e tworza˛ nowe stany. Mieszanina dwóch pierwotnych emocji jest nazywana przez Plutchika diada.˛ Na przykład, diada radości i zaufania to miłość. Diady z 2 Rysunek 1. Koło emocji Plutchika przeciwstawnych emocji nie wyst˛epuja,˛ gdyż zachodzi mi˛edzy nimi konflikt. Poparcie tego strukturalnego modelu stanowia˛ badania empiryczne [5]. 3. Paraj˛ezyk Już Arystoteles twierdził, że poszczególny stan emocjonalny wia˛że si˛e z określonym tonem głosu. Jednakże to dopiero Darwin dokonał pierwszego opisu dźwi˛eków zwiazanych ˛ z stanami emocjonalnymi mówcy. Na podstawie badań różnych gatunków zwierzat ˛ oraz ludzi, doszedł do wniosku, że istnieje bezpośredni zwiazek ˛ mi˛edzy sygnałem akustycznym, a stanem wewn˛etrznym jednostki, natomiast zmiana tonu, głośności czy intonacji sygnalizuje zmian˛e nastroju. Zaobserwował również, że sygnały akustyczne moga˛ wywoływać reakcje emocjonalne u słuchacza. Aby lepiej zobrazować wpływ emocji na ludzka˛ mow˛e, należy przyjrzeć si˛e modelowi narzadu ˛ głosu, na który składaja˛ si˛e: przestrzenie rezonacyjne (nagłośnia, gardło, jama nosowa, jama ustna), generator energii akustycznej (głośnia) oraz zbiornik powietrza (płuca i oskrzela). Strumień powietrza, konieczny do fonacji, wytwarzany jest w płucach z drzewem oskrzelowym. Głośnia jest generatorem tonu podstawowego (krtaniowego), 3 zaś precyzyjne drgania fałdów głosowych przekształcaja˛ energi˛e wyrażona˛ wektorem ciśnienia podgłośniowego w energi˛e akustyczna˛ [6]. Cz˛estotliwość tych drgań tzw. cz˛estotliwość podstawowa (F0) jest cecha˛ osobnicza,˛ wynika z rozmiaru krtani oraz napi˛ecia i rozmiaru strun głosowych, jest zależna od płci oraz wieku. Przykładowo dla m˛eżczyzn zawiera si˛e w przedziale od 80 do 480 Hz, natomiast dla kobiet w przedziale od 160 do 960 Hz. Jest zatem odpowiedzialna za skal˛e głosu. Podczas rozmowy, zakres jej zmian zwiazany ˛ jest głównie z intonacja,˛ która odgrywa ogromna˛ rol˛e w ekspresji emocji, dlatego też deskryptory źródła dźwi˛eku sa˛ powszechnie stosowane w badaniach nad tym zagadnieniem. Struktura harmoniczna dźwi˛eku podstawowego zmienia kształt pod wpływem działania rezonatorów (filtrów akustycznych) traktu głosowego. Określone składowe pierwotnego tonu ulegaja˛ wzmocnieniu, inne natomiast osłabieniu. nazywane sa˛ formantami. Maksima wzmocnionych cz˛estotliwości Ich wartości zależa˛ od cech osobniczych (długość przewodu głosowego), ale również od sposobu artykulacji (ułożenie j˛ezyka i ust, ruchomość żuchwy) [6]. Deskryptory traktu głosowego sa˛ rzadziej stosowane w badaniach, aczkolwiek niosa˛ ze soba˛ istotne informacje emocjonalne, majace ˛ swoje odzwierciedlenie w mimice np. ułożenie ust. Jest bowiem oczywiste, że zdanie wypowiadane z uśmiechem brzmi inaczej, niż to samo zdanie wypowiadane z odmiennym wyrazem twarzy. Podejście teoretyczne oraz praktyczne do rozpoznawania stanów emocjonalnych sugeruje, że określone wzorce wyrażeń wokalnych sa˛ specyficzne dla konkretnego stanu. Emocje moga˛ powodować zmiany w sposobie oddychania, fonacji czy artykulacji, co z kolei ma swoje odzwierciedlenie w sygnale mowy. Poza wyżej wymienionymi deskryptorami źródła oraz traktu głosowego, inne cechy takie jak postrzegana głośność czy tempo wypowiedzi maja˛ wpływ na percepcj˛e emocji. Przykładowo stany takie jak gniew i strach charakteryzuja˛ si˛e szybkim tempem mowy, wysokimi wartościami F0, szerokim zakresem intonacji, co spowodowane jest pobudzeniem układu współczulnego, nagłym przyspieszeniem akcji serca, zwi˛ekszeniem ciśnienia krwi, czemu czasem może towarzyszyć suchość w ustach i drżenie mi˛eśni. Zupełnie odwrotnie jest w przypadku smutku oraz znudzenia, kiedy to mowa jest wolna, monotonna, F0 obniżone, bez wi˛ekszych zmian intonacji. Spowodowane jest to mi˛edzy innymi pobudzeniem układu przywspółczulnego, zwolnieniem rytmu serca, spadkiem ciśnienia krwi, zwi˛ekszeniem ilości wydzielanej śliny. 4 Istnieja˛ przesłanki wskazujace ˛ na niezależność prozodiów od rasy, kultury, religii, a także od j˛ezyka natywnego mówcy. Liczne badania wskazuja,˛ że korelaty emocji podstawowych w różnych kulturach sa˛ podobne ze wzgl˛edu na uniwersalne zjawiska fizjologiczne [7]. Aczkolwiek wielu naukowców neguje tez˛e uniwersalności mowy emocjonalnej. W badaniach [8] przeprowadzonych na grupie wolontariuszy z Hiszpanii i Szwecji udowodniono, jak trudno jest rozpoznać emocje w głosie mówcy innej narodowości. Najlepsze wyniki osiagni˛ ˛ eto dla smutku i wyniosły one zaledwie 53%, inne emocje rozpoznawane były z dokładnościa˛ niższa˛ niż 30%. Należy przy tym podkreślić, że wyniki badań tego samego spektrum emocji u osób tej samej narodowości, średnio wahaja˛ si˛e w granicach 55 - 60% [8]. Stosunkowo niska rozpoznawalność wia˛że si˛e z wyst˛epowaniem podobnych zjawisk fizjologicznych dla danych stanów, co prowadzi do podobieństw cech akustycznych. Należy dodatkowo wziać ˛ pod uwag˛e, że na ludzka˛ ocen˛e wypływa również kontekst wypowiedzi. Dlatego, przy analizie komputerowej dokonywanej wyłacznie ˛ na podstawie cech akustycznych, nie należy oczekiwać lepszych rezultatów. Mimo to, w zwiazku ˛ z szeroka˛ dost˛epnościa˛ sygnału mowy również przy dużej odległości oraz przy komunikacji za pomoca˛ urzadzeń ˛ teleinformatycznych, jest to ważny element tego typu rozważań. 4. Projekt systemu rozpoznawania stanów emocjonalnych Automatyczne rozpoznawanie to proces klasyfikacji analizowanych danych (wzorców), w oparciu o wiedz˛e zgromadzona˛ w systemie informatycznym, bazujac ˛ na narzuconych lub odkrytych przez ten system regułach [9]. Wspólnym mianownikiem problemów tej dziedziny jest algorytm obejmujacy ˛ pewne zasadnicze fazy (rys. 2). Ponieważ rozpoznawanie emocji jest tematem wpisujacym ˛ si˛e w schemat ogólnej metodologii automatycznego rozpoznawania, algorytm ten jest wykorzystywany w podj˛etych badaniach. Rysunek 2. Algorytm rozpoznawania wzorców Pierwszy krok algorytmu to akwizycja danych, która˛ w przypadku niniejszej pracy stanowi baza mowy emocjonalnej. Nast˛epny krok to przygotowanie danych do dalszej analizy, czyli tzw. 5 wst˛epna obróbka. Trzecia˛ faz˛e rozpoznawania stanowi ilościowy opis przedmiotu. Obejmuje on identyfikacj˛e takich właściwości obiektu, które niosa˛ informacje wystarczajace ˛ do realizacji zadania. Ostatni etap stanowi proces klasyfikacji, czyli kategoryzowanie przedmiotu badań, na podstawie wcześniej utworzonego opisu ilościowego. Poniższy opisano kolejne kroki algorytmu. 4.1. Korpus mowy emocjonalnej Percepcja naturalnych emocji jest procesem złożonym, subiektywnym i bardzo cz˛esto zdarza si˛e, że człowiek jedna˛ sytuacj˛e potrafi ocenić na kilka sposobów. Dlatego też poszukuje si˛e rozwiazań, ˛ w których można uniknać ˛ zdeterminowanego etykietowania, wskazujac ˛ jedynie wyst˛epowanie lub absencj˛e konkretnych stanów podstawowych (np. tworzac ˛ tzw. profil emocjonalny), a nast˛epnie pomiar stopnia nasilenia każdego z nich [10]. Podejście to może okazać si˛e pomocne w rozpoznawaniu niejednoznacznie określonych emocji, które pojawiaja˛ si˛e w spontanicznych dialogach. Aby dokładniej zrozumieć problem niejednoznaczności emocji, przytoczona zostanie poniższa definicja: emocje prototypowe (podstawowe) to stany majace ˛ znaczenie adaptacyjne do walki o przetrwanie jednostki gatunku. Według Plutchika wyróżnia si˛e osiem stanów podstawowych: gniew, wyczekiwanie, radość, ufność, strach, zaskoczenie, smutek oraz odraza. Oprócz prototypowych można wyróżnić szereg emocji wtórnych, b˛edacych ˛ kombinacjami tych podstawowych. W 2009 roku na konferencji ACII (Affective Computing and Intelligent Interaction) odbyła si˛e specjalna sesja poświ˛econa rozpoznawaniu emocji z niejednoznacznie określonych wypowiedzi. Konferencja ta rozpocz˛eła lawin˛e pytań dotyczacych ˛ badań mowy spontanicznej, a naukowcy zacz˛eli porzucać analiz˛e nagrań odgrywanych. Poniżej przedstawiono główne zjawiska składajace ˛ si˛e na niejednoznaczność stanu psychicznego mówcy oraz percepcji słuchaczy: • mieszanina emocji – dwa lub wi˛ecej stanów emocjonalnych wyst˛epuje w tym samym momencie; według teorii Plutchika możemy przeżywać mieszanin˛e pierwotnych emocji; polega to na łaczeniu ˛ poszczególnych stanów pierwotnych w jeden stan wtórny (emocje leżace ˛ obok siebie na kole Plutchika rys. 1); 6 • maskowanie emocji – ukrywanie przez mówc˛e przeżywanego stanu emocjonalnego innym stanem (np. maskowanie smutku radościa); ˛ • przyczynowo-skutkowy konflikt ekspresji – konkretny stan emocjonalny okazywany jest w ten sam sposób, jak stan całkowicie przeciwny (np. płacz ze szcz˛eścia); • podobieństwo stanów emocjonalnych – granice pomi˛edzy poszczególnymi stanami sa˛ niejednoznacznie określone, nakładaja˛ si˛e wzajemnie (emocje leżace ˛ obok siebie na kole Plutchika rys. 1); • sekwencja emocji – konsekutywnie okazywanie kolejnych stanów w trakcie wypowiedzi. Zastosowanie techniki tworzenia profili jest pomocne w określeniu najbardziej prawdopodobnego stanu psychicznego mówcy, zbadaniu ewolucji tego stanu trakcie wypowiedzi (wzrost lub spadek nat˛eżenia) oraz interpretacji wypowiedzi, na które nakłada si˛e kilka emocji na raz. Zadanie rozpoznawania wzorców wymaga zgromadzona odpowiednich danych wejściowych (zbiór treningowy i testowy). W przypadku niniejszych badań dane te stanowia˛ próbki mowy nacechowanej emocjonalnie. Biorac ˛ pod uwag˛e teori˛e Roberta Plutchika, stworzono korpus emocji podstawowych, lecz w szerszym zakresie niż przedstawiaja˛ to dotychczasowe badania. Pierwszym krokiem było zgromadzenie próbek mowy w siedmiu podstawowych (według Plutchika) stanach emocjonalnych: gniew, wyczekiwanie, radość, strach, zaskoczenie, smutek oraz odraza. Z powodu niedostatecznej ilości próbek ze zbioru wykluczono ufność. Wszystkie próbki zostały ocenione przez grup˛e ekspertów oraz nadano im etykiety odpowiadajace ˛ wyżej opisanym stanom emocjonalnym. Nast˛epnie najbardziej charakterystyczne emocje (gniew, zadowolenie, starach i smutek) zostały poddane badaniu intensywności. W ten sposób otrzymano pi˛etnaście stanów emocjonalnych, których zestawienie przedstawiono w tabeli 3. Metodyka doboru źródeł nagrań Badania statystyczne, które stanowia˛ integralna˛ cz˛eść tworzenia korpusu mowy emocjonalnej, powinny spełniać określone kryteria. Jednym z nich jest zachowanie prawidłowego rozkładu parametrów (cech) podmiotu badań, majacych ˛ znaczenie dla wnioskowania, a wpływajacych ˛ na jego wiarygodność. Wykorzystywany w niniejszych badaniach korpus stanowi zbiór wypowiedzi emocjonalnych w j˛ezyku polskim, jedynym 7 Rysunek 3. Zestawienie materiału badawczego ograniczeniem próby jest natywna znajomość j˛ezyka polskiego. Zakres przestrzenny, czas, miejsce oraz cechy personalne próby nie stanowiły obostrzeń. Dobór próby reprezentatywnej w trakcie gromadzenia nagrań jest jednym z kluczowych elementów badań wpływajac ˛ na ich wiarygodność. Zakłada si˛e, że próba jest reprezentatywna, kiedy wyst˛epuja˛ w niej wszystkie wartości zmiennej, mogace ˛ mieć wpływ na wyniki badań. Ponieważ proces ekspresji emocji jest subiektywny, zależny przede wszystkim od płci, wieku oraz pochodzenia osoby badanej, to właśnie te zmienne społeczno-demograficzne zostały wzi˛ete pod uwag˛e w procesie tworzenia korpusu. Przy wyborze źródeł kierowano si˛e zatem dost˛epem do wyżej wymienionych informacji, a przy tworzeniu korpusu zachowano odpowiednie proporcje tych zmiennych. Założenie to w znacznym stopniu ograniczyło 8 możliwości gromadzenia materiału (brak danych personalnych w nagraniach radiowych). Najistotniejsza˛ cecha˛ próbek miała być autentyczność prezentowanych emocji, co również zaw˛eża obszar poszukiwań. Autorka głównie skupiła si˛e na materiałach prezentowanych na żywo oraz programach typu reality show. Prezentowane tam uczucia wydaja˛ si˛e być spontaniczne, prowokowane wydarzeniami oraz dyskusja.˛ Przykładowo do prezentacji złości wybrano programy prezentujace ˛ problemy polityczne i społeczne (np. Państwo w Państwie telewizji Polsat). Założenie autentyczności okazywanych uczuć może być bł˛edne i jest zwiazane ˛ z subiektywna˛ ocena˛ autorki oraz wolontariuszy bioracych ˛ udział w ocenie próbek. Należy również wspomnieć, że zgromadzone nagrania cz˛esto zawierały zakłócenia, co również może mieć wpływ na ocen˛e. Stan emocjonalny mówcy może zostać rozpoznany już na podstawie krótkich wypowiedzi typu Tak lub Nie. Dzi˛eki temu krótkie zdania, a także same słowa sa˛ także odpowiednie do analizy. Czasem o stanie emocjonalnym mówcy informuja˛ dodatkowe dźwi˛eki takie, jak krzyk, pisk, śmiech czy płacz. Dlatego też oprócz pełnych wypowiedzi, na baz˛e emocji składaja˛ si˛e również pojedyncze słowa i dźwi˛eki, takie, które pojawiaja˛ si˛e w codziennej komunikacji. Dodatkowo do celów badawczych stworzono model mowy neutralnej (bez zabarwienia emocjonalnego). Został on złożony z wypowiedzi z bazy opisanej w podrozdziale ?? uzupełnionej wypowiedziami dziennikarzy zazwyczaj neutralnie komentujacych ˛ wydarzenia. Model ten składa si˛e z 235 wypowiedzi i nie został poddany etykietowaniu przez wolontariuszy. Etykietowanie mowy emocjonalnej Proces etykietowania zgromadzonych nagrań podzielono na dwie cz˛eści. Pierwsza z nich została przeprowadzona przez autork˛e oraz studentów psychologii Uniwersytetu Łódzkiego. Na podstawie pełnych nagrań wideo, a wi˛ec majac ˛ do dyspozycji zarówno głos, semantyk˛e, jak i obraz, nagrania zostały podzielone na osiem grup (emocje podstawowe). Biorac ˛ pod uwag˛e, że w pierwszym kroku eksperci mogli korzystać z dodatkowych bodźców (gesty, mimika), etykietowanie nagrań, pomijajac ˛ czasochłonność, nie stanowiło wi˛ekszego wyzwania. Dopiero krok drugi, w którym nagrania etykietowane były przez wolontariuszy wyłacznie ˛ na podstawie głosu, pokazał jak subiektywnym procesem jest percepcja emocji. Odsłuch wst˛epnie zakwalifikowanych próbek przeprowadzono w celu przetestowania, czy słuchacz jest w stanie zidentyfikować emocjonalna˛ zawartość nagrania. 9 W badaniu tym brało udział pi˛etnaście prawidłowo słyszacych ˛ osób różnej płci, w wieku od 21 do 58 lat. Zadaniem uczestników badania było dokonanie oceny nagrania i zakwalifikowanie do jednej z wybranych grup (klas). Proces ten odbywał przy pomocy stworzonego do tego celu oprogramowania. Osoba oceniajaca ˛ odsłuchiwała nagrania jedno po drugim i dokonywała wyboru, który kolejno zapisywany był w bazie danych. Każda˛ z próbek można było odtworzyć dowolna˛ ilość razy przed dokonaniem ostatecznej oceny, jednakże po dokonaniu wyboru, nie było możliwości powrotu do danego nagrania. Na tej podstawie sporzadzono ˛ wyniki rozpoznawania poszczególnych emocji przez każda˛ z osób. Średnie rozpoznawanie wyniosło 82,6% w zakresie od 63% do 93%. Należy jednak podkreślić, że wzór stanowiły próby ocenione przez autork˛e i studentów psychologii, a ocena ta również jest subiektywna. Dlatego też próbki, które wielokrotnie etykietowano niezgodnie z ocena˛ ekspertów, zostały właczone ˛ do zbioru stanowiacego ˛ niejednoznacznie określone stany. Emocje ocenione zgodnie przez co najmniej dziesi˛eć osób, zostały sklasyfikowane jako czyste stany prototypowe. Cz˛eść z nich stanowi zbiór treningowy, cz˛eść zbiór testowy niniejszych badań. Podczas procesu etykietowania wolontariusze zostali poproszeni dodatkowo o oznaczenie intensywności (nat˛eżenia) czterech podstawowych stanów emocjonalnych (gniew, radość, strach i smutek) w skali od jednego (najniższe nat˛eżenie) do 3 (najwyższe nat˛eżenie). W ten sposób uzyskano etykiety diad emocjonalnych. 4.2. Deskryptory sygnału mowy Jednym z najistotniejszych kroków jest ilościowy opis przedmiotu badań, czyli identyfikacja cech obiektu, które niosa˛ informacje, wystarczajace ˛ do efektywnej klasyfikacji. W poniższej tabeli dokonano zestawienia deskryptorów sygnału mowy wykorzystanych podczas prowadzonych badań. Zestawienie deskryptorów mowy wykorzystanych w niniejszych badaniach Grupa cech Opis cechy Średnia wartość F0 Maksymalna wartość F0 Minimalna wartość F0 Mediana F0 Odchylenie standardowe F0 Zakres F0 10 Grupa cech Opis cechy Górny kwartyl F0 Dolny kwartyl F0 Rozst˛ep kwartylny F0 Kurtoza F0 Współczynnik skośności F0 Współczynnik wahania F0 Współczynnik monotoniczności F0 Maksymalna wartość wzrostu F0 Minimalna wartość wzrostu F0 Średnia wartość wzrostu F0 Maksymalna wartość spadku F0 Minimalna wartość spadku F0 Średnia wartość spadku F0 Maksymalny przedział wzrostu F0 Średni przedział wzrostu F0 Maksymalny przedział spadku F0 Średni przedział spadku F0 Średnia wartość energii sygnału Maksymalna wartość energii sygnału Minimalna wartość energii sygnału Mediana energii sygnału Odchylenie standardowe energii sygnału Zakres energii sygnału Górny kwartyl energii sygnału Dolny kwartyl energii sygnału Rozst˛ep kwartylny energii sygnału Kurtoza energii sygnału Współczynnik skośności obwiedni Energia sygnału Współczynnik wahania obwiedni Współczynnik monotoniczności obwiedni Maksymalna wartość wzrostu obwiedni Minimalna wartość wzrostu energii sygnału Średnia wartość wzrostu obwiedni Maksymalna wartość spadku obwiedni Minimalna wartość spadku obwiedni Średnia wartość spadku obwiedni Maksymalny przedział wzrostu obwiedni Średni przedział wzrostu obwiedni Maksymalny przedział spadku obwiedni Średni przedział spadku obwiedni Średnie F1 Odchylenie standardowe F1 Mediana F1 Maksimum F1 Minimum F1 Formanty F1-F3 11 Grupa cech Opis cechy Średnie F2 Odchylenie standardowe F2 Mediana F2 Maksimum F2 Minimum F2 Średnie F3 Odchylenie standardowe F3 Mediana F3 Maksimum F3 Minimum F3 Średnia wartość współczynników LPC (1-13) Odchylenie standardowe współczynników LPC (1-13) Współczynniki LPC Mediana współczynników LPC (1-13) Maksymalna wartość współczynników LPC (1-13) Minimalna wartość współczynników LPC (1-13) Średnia wartość współczynników MFCC (1-13) Odchylenie standardowe współczynników MFCC (1-13) Współczynniki MFCC Mediana współczynników MFCC (1-13) Maksymalna wartość współczynników MFCC (1-13) Minimalna wartość współczynników MFCC (1-13) Średnia wartość współczynników BFCC (1-13) Odchylenie standardowe współczynników BFCC (1-13) BFCC Mediana współczynników BFCC (1-13) Maksymalna wartość współczynników BFCC (1-13) Minimalna wartość współczynników BFCC (1-13) Średnia wartość współczynników HFCC (1-13) Odchylenie standardowe współczynników HFCC (1-13) HFCC Mediana współczynników HFCC (1-13) Maksymalna wartość współczynników HFCC (1-13) Minimalna wartość współczynników HFCC (1-13) Średnia wartość współczynników PLP (1-13) Odchylenie standardowe współczynników PLP (1-13) PLP Mediana współczynników PLP (1-13) Maksymalna wartość współczynników PLP (1-13) Minimalna wartość współczynników PLP (1-13) Średnia wartość współczynników RPLP (1-13) Odchylenie standardowe współczynników RPLP (1-13) RPLP Mediana współczynników RPLP (1-13) Maksymalna wartość współczynników RPLP (1-13) Minimalna wartość współczynników RPLP (1-13) Średnia wartość współczynników RASTA PLP (1-13) Odchylenie standardowe współczynników RASTA PLP (1-13) RASTA PLP Mediana współczynników RASTA PLP (1-13) Maksymalna wartość współczynników RASTA PLP (1-13) 12 Grupa cech Opis cechy Minimalna wartość współczynników RASTA PLP (1-13) 4.3. Klasyfikacja hierarchiczna Ostatni krok zadania rozpoznawania wzorców stanowi proces klasyfikacji. W procesie tym określa si˛e przynależność nieznanego obiektu, opisanego za pomoca˛ wektora atrybutów, do jednej ze zdefiniowanych wcześniej klas. Mimo, iż metody klasyfikacji to raczej standardowe narz˛edzia automatycznego rozpoznawania, obejmujace ˛ szereg podejść (systemy ekspertowe, drzewa decyzyjne, logika rozmyta, sieci neuronowe i inne) [11], to niejednokrotnie zdarza si˛e, że narz˛edzia te nie daja˛ oczekiwanych rezultatów. Klasyfikacja emocji na podstawie mowy, a w szczególności mowy spontanicznej, jest zadaniem trudnym, zależnym od wielu czynników, i mimo szeroko eksploatowanych badań, wcia˛ż natrafia na poważne przeszkody. Dlatego też poszukuje si˛e nowych rozwiazań, ˛ poprzez tworzenie innowacyjnych algorytmów badź ˛ klasyfikatorów hybrydowych, bazujacych ˛ na współdziałaniu istniejacych ˛ rozwiazań. ˛ Jednym z obiecujacych ˛ podejść w uczeniu maszynowym wydaje si˛e być stosowanie komitetów klasyfikujacych ˛ (ang. Ensemble, Committee, Multiple Classifier Systems - MCS), bazujacych ˛ na zasadzie dziel i zwyci˛eżaj. W tym celu dokonuje si˛e dekompozycji złożonego problemu na kilka mniej złożonych [12]. Tworzone w ten sposób rozwiazanie ˛ składa si˛e z wielu prostych (łatwych do zbudowania) modeli (w˛ezłów) o relatywnie niskiej skuteczności, a ich końcowe wyniki sa˛ łaczone ˛ (np. metoda˛ głosowania, przypisujac ˛ obiekt do klasy, na która˛ głosuje najwi˛ecej spośród klasyfikatorów bazowych). Biorac ˛ pod uwag˛e wysokie rezultaty rozpoznawania emocji na podstawie mowy w powyższych pracach oraz niejednoznaczność stanów oraz rozmycie granic mi˛edzy nimi w mowie spontanicznej, niniejsze badania stanowia˛ prób˛e opracowania skutecznego klasyfikatora hierarchicznego. Proces jego tworzenia rozpoczyna si˛e od Podstawowego Algorytmu Rozpoznawania Emocji PAKEmo, opartego na horyzontalnym podziale problemu na podproblemy wzgl˛edem wektora cech. Nast˛epnie algorytm rozbudowywany był poprzez dodawanie kolejnych w˛ezłów, majacych ˛ za zadanie zwi˛ekszyć wydajność systemu. Ostateczny algorytm stanowi wielopoziomowy, hierarchiczny klasyfikator, który na kolejnych poziomach zawiera takie elementy jak: rozpoznawanie płci, budowa profili emocjonalnych, zależność emocji od długości wypowiedzi oraz badanie nat˛eżenia emocji. Wszystkie wyżej wymienione podproblemy zostały kolejno przedstawione w poniższych podrozdziałach. 13 Algorytm bazowy Wektory cech opisujacych ˛ obiekty ze zbioru uczacego ˛ oraz wektor opisujacy ˛ nieznany obiekt zostały podzielone na podwektory konkretnych grup cech (przedstawione w załaczniku ˛ A niniejszej pracy). W ten sposób otrzymano m oddzielnych podwektorów, przykładowo wektor deskryptorów cz˛estotliwości podstawowej czy współczynników MFCC. Na poziomie zerowym algorytmu PAKEmo (rys. 4) znajduje si˛e zespół m klasyfikatorów. W każdym z nich podejmowana jest decyzja dm przy użyciu algorytmu k-NN. Każdy z m klasyfikatorów dokonuje oddzielnej klasyfikacji na podstawie określonej grupy cech, a zatem wykonywanych jest m testów. Na poziomie pierwszym otrzymujemy m decyzji, gdzie liczby k, l..., s reprezentuja˛ ilość głosów oddanych na konkretna˛ klas˛e. Na tej podstawie, wykorzystujac ˛ głosowanie równoprawne, wybierana jest ostateczna klasa nieznanego obiektu. Rysunek 4. Schemat podstawowego algorytmu klasyfikacji emocji Problemy pojawiaja˛ si˛e w przypadku, gdy na podstawie głosowania równoprawnego nie da si˛e wyłonić jednego zwyci˛ezcy (jednej klasy). W takim przypadku sprawdzane zostaje położenie obu klas na kole emocji Plutchika. Jeśli obie zwyci˛eskie klasy leża˛ na kole obok siebie, zachodzi podejrzenie, że granice mi˛edzy nimi sa˛ na tyle niejednoznaczne, że nie jest możliwe podj˛ecie jednej, konkretnej decyzji. Wypowiedź klasyfikowana jest jako niejednoznaczna i opatrzona dwoma etykietami. Jeśli jednak położenie zwyci˛eskich klas na kole jest przeciwstawne, co dyskwalifikuje (wg Plutchika) możliwość wyst˛epowania obu 14 emocji jednocześnie, za zwyci˛eska˛ uznaje si˛e t˛e klas˛e, która˛ wskazywały grupy cech uznane za najefektywniejsze według selekcji grupowej (tabela ??). Minimalizacja cech osobniczych mówcy Oczywistym jest fakt, że rozpoznawanie emocji uzależnione od mówcy daje dużo lepsze rezultaty niż rozpoznawanie niezależne. Aczkolwiek system, który miałby działać w naturalnych warunkach, powinien być uniwersalny, omijajac ˛ cechy osobnicze głosu w klasyfikacji emocji. Dlatego też budujac ˛ tego typu systemy da˛ży si˛e do ich minimalizacji. Powszechnie uważa si˛e, że kobiety lepiej niż m˛eżczyźni rozpoznaja˛ emocje w tonie głosu, a przekonanie to potwierdzono badaniami. Samo okazywanie emocji również jest odmienne dla obu płci. Ponadto cz˛estotliwość drgań fałdów głosowych, a zatem cz˛estotliwość krtaniowa (podstawowa), zależy od masy, długości i napi˛ecia tych fałdów. Ponieważ u m˛eżczyzn długość fałdów wynosi około 15-20 mm, zaś u kobiet 8-12 mm, głos kobiecy jest około oktaw˛e wyższy od m˛eskiego [6]. Widoczny jest zatem wpływ płci na mow˛e, co może przekładać si˛e również na proces rozpoznawania. Widoczny jest również wpływ wieku na głos mówcy. Mowa młodych chłopców charakteryzuje si˛e znacznie wyższa˛ cz˛estotliwościa˛ podstawowa,˛ niż dorosłych m˛eżczyzn. Tej różnicy nie widać w sposób tak istotny jak w przypadku kobiet. Można także zauważyć, że z wiekiem głos staje si˛e coraz bardziej zachrypni˛ety, a mowa spowolniona. Ponieważ elementy społeczno-demograficzne ci˛eżko określić na podstawie klasyfikacji opartej o mow˛e, toteż sama konstrukcja korpusu powinna zakładać prawidłowy rozkład tych parametrów. Przykładowo, w zbiorze treningowym powinny znajdować si˛e próbki mowy osób wywodzacych ˛ si˛e z różnych cz˛eści Polski, a ich rozkład powinien być proporcjonalny. W ten sposób, bazujac ˛ na odpowiednich przykładach, klasyfikator jest w stanie rozpoznać odpowiednia˛ próbk˛e. Pomimo, iż w korpusie zapewniono prawidłowy rozkład płci i wieku mówców, zdecydowano si˛e na wprowadzenie dodatkowego elementu. Zbiór treningowy podzielono na dwie grupy: m˛eska˛ i żeńska,˛ a do klasyfikatora dodano moduł rozpoznawania płci. W˛ezeł odpowiedzialny za rozpoznawanie płci umieszczono tuż nad algorytmem PAKEmo. W zależności od płci badanego mówcy, zbiór treningowy PAKEmo stanowi teraz odpowiednio zbiór wypowiedzi kobiet badź ˛ m˛eżczyzn. Rozpoznawanie płci dokonano na podstawie wartości średniej cz˛estotliwości podstawowej F0. Klasyfikacja w wykorzystaniem wag Majac ˛ na uwadze nierównomierny wpływ deskryptorów mowy na rozpoznawanie stanów emocjonalnych, zdecydowano si˛e na zastapienie ˛ metody głosowania równoprawnego głosowaniem ważonym. W takim przypadku decyzja podejmowana jest również na zasadzie 15 głosowania, ale nie każdy głos jest liczony jednakowo. Dla każdego ucznia (klasyfikator konkretnej grupy cech) określa si˛e wagi w1 , w2 , ..., wm , co pozwala nadać priorytet lepszym uczniom. Decyzja podejmowana jest wtedy na podstawie równania ??. ri = m X wj dji (1) j=1 l Z = arg max[ri ] (2) i=1 Problem stanowi sposób dobierania właściwych wag, podejście to wymaga umiej˛etności ocenienia (albo przynajmniej porównania) klasyfikatorów bazowych. W niniejszej pracy wagi zostały dobrane doświadczalnie, na podstawie bł˛edu poszczególnych klasyfikatorów. Segmentacja mowy Biorac ˛ pod uwag˛e założenie zmienności stanów emocjonalnych w trakcie wypowiedzi zastosowano segmentacj˛e mowy. Założono bazowa˛ długość fragmentu 3 s - w tym czasie stan nie powinien ulec zmianie. Podobne podejście autorka zastosowała w [13], gdzie wypowiedź dzielona była na trzy fragmenty o równej długości: poczatek, ˛ środek i koniec wypowiedzi. Nast˛epnie dokonywana była oddzielna klasyfikacja każdego z fragmentów, a wynik rozpoznawania uzyskiwano za pomoca˛ głosowania równoprawnego. Ponieważ w wykorzystywanym w niniejszej pracy korpusie mowy zdarzaja˛ si˛e również krótsze fragmenty mowy (krótkie wypowiedzi, pojedyncze słowa), a niekiedy tylko dźwi˛eki (śmiech, krzyk, pisk), tego typu segmentacja nie może zostać wykorzystana. Dlatego też zastosowano podział na 3-sekundowe fragmenty. W przypadku, gdy wypowiedź jest krótsza niż 3 s, pozostaje ona niepodzielona. Jeśli jednak wypowiedź jest dłuższa, całość zostaje podzielona na fragmenty 3-sekundowe oraz fragment dopełniajacy ˛ (majacy ˛ co najmniej 500 ms). Jeśli fragment końcowy jest krótszy niż 500 ms, zostaje on dodany do ostatniego fragmentu 3-sekundowego. Nast˛epnie każdy z nich zostaje poddany indywidualnej klasyfikacji przy użyciu algorytmu k-NN. Rozpoznawanie intensywności emocji podstawowych Ostatni poziom klasyfikatora stanowi algorytm rozpoznawania intensywności emocji podstawowych. Jak już wcześniej wspominano, według Plutchika każda z pierwotnych emocji może być odczuwana w trzech stopniach nat˛eżenia (np. gniew: irytacja, gniew, furia). Intuicyjna zależność podobieństwa mowy neutralnej i emocjonalnej stanowi hipotez˛e, na podstawie której opracowano algorytm rozpoznawania nat˛eżenia emocji. Można zauważyć, że wraz ze wzrostem nat˛eżenia konkretnej emocji, podobieństwo głosu do mowy neutralnej spada. Zależność t˛e autorka prezentowała mi˛edzy innymi w [1]. Zauważona została proporcjonalna zmiana konturu cz˛estotliwości podstawowej wzgl˛edem mowy neutralnej. 16 Bazujac ˛ na tych obserwacjach stworzono algorytm rozpoznawania nat˛eżenia emocji podstawowej. Wejście algorytmu stanowia: ˛ obiekty zbioru treningowego danej klasy CU k , model mowy neutralnej (centroid) Xn oraz nieznany obiekt z określona˛ klasa˛ podstawowa˛ xn . Nast˛epnie obliczane sa˛ odległości d pomi˛edzy centroidem mowy neutralnej, a każdym obiektem ze zbioru treningowego CU k . Odległości te sa˛ sortowane malejaco. ˛ Bazujac ˛ na nich, zbiór dzielony jest na trzy podzbiory intensywności. Podzbiór, którego odległość centroidu od centroidu mowy neutralnej jest najwi˛eksza, uznawany jest za zbiór najwyższych intensywności, podzbiór z najmniejsza˛ odległościa,˛ jako intensywność najniższa, zaś podzbiór przejściowy, jako emocja podstawowa. Dla każdego podzbioru wyznaczany jest centroid według wzoru 3: k 1 µk = Nk N 3 k X xi dla k = {1, 2, 3} (3) k−1 Nk +1 3 gdzie: µk - centroid podzbioru k, Nk - liczność podzbioru k. Zastosowanie metody najbliższej średniej (ang. nearest mean), której istota˛ jest zastapienie ˛ wszystkich próbek konkretnej klasy ich wartościa˛ średnia˛ (centroidem), ogranicza przede wszystkim czasochłonność obliczeń. Teraz nieznany obiekt xn porównywany jest tylko z centroidami konkretnych podzbiorów, a zatem wykonywane sa˛ tylko trzy operacje obliczania odległości. Nieznany obiekt przypisywany jest do klasy intensywności na podstawie najmniejszej odległości od centroidu. Algorytm wyjściowy W poprzednich podrozdziałach szczegółowo opisane zostały kolejne elementy finalnego algorytmu rozpoznawania mowy emocjonalnej. Składa si˛e on z pi˛eciu modułów, tworzacych ˛ kolejne poziomy struktury hierarchicznej: 1. Poziom zerowy – wejście modułu stanowi wypowiedź emocjonalna (wektor cech), która nast˛epnie podlega procesowi klasyfikacji określajacej ˛ płeć mówcy. Wyjście modułu stanowi wypowiedź z określona˛ płcia˛ (m˛eska, żeńska). 2. Poziom pierwszy – wejście modułu stanowi wypowiedź określonej płci, która nast˛epnie poddawana jest segmentacji. Każda wypowiedź trwajaca ˛ dłużej niż 3s dzielona jest na 3-sekundowe segmenty. 3. Poziom drugi – wejście modułu stanowia˛ fragmenty wypowiedzi, które nast˛epnie poddawane sa˛ osobnej klasyfikacji z wykorzystaniem klasyfikatora k-NN, a dodatkowo liczba klasyfikatorów, przypadajaca ˛ na jeden fragment uzależniona jest od liczby grup cech wykorzystywanych w badaniach. 17 4. Poziom trzeci – stanowi głosowanie ważone na poziomie konkretnych grup cech (np. F0, LPC, PLP). Wyjściem modułu sa˛ klasy, których liczność jest równa liczbie grup cech wykorzystanych w badaniach. 5. Poziom czwarty – stanowi go głosowanie równoprawne na poziomie konkretnych fragmentów. Wyjściem modułu sa˛ klasy, których liczność jest równa liczbie fragmentów, na jakie została podzielona wypowiedź. 6. Poziom piaty ˛ – konkretna emocja jest badana pod katem ˛ jej nat˛eżenia. Na podstawie autorskiego algorytmu porównujacego ˛ badana˛ wypowiedź z modelem mowy neutralnej, określana jest jako emocja podstawowa, badź ˛ dwie jej diady (najwyższa intensywność, najniższa intensywność). Krok ten kończy działanie algorytmu. Profile emocjonalne Aby lepiej zobrazować zagadnienie niejednoznaczności emocji autorka postanowiła skorzystać z definicji profili emocjonalnych w celu przedstawienia zawartości danych stanów w wypowiedzi. Według [10] profil emocjonalny jest to sa˛ wektor wyrażajacy ˛ stopień obecności lub nieobecności emocji podstawowych w danej wypowiedzi. Można w ten sposób uniknać ˛ sztywnej klasyfikacji (ang. hard labeling), zast˛epujac ˛ ja˛ etykietowaniem wielokrotnym (ang. multiple labeling). Tego typu klasyfikacja może wskazywać na zawartość kilku stanów emocjonalnych w danej wypowiedzi, ich mieszanin˛e czy też ewolucj˛e emocjonalna˛ wypowiedzi. Możliwe jest również zastosowanie etykietowania rozmytego, w którym dodatkowo określa si˛e funkcj˛e przynależności do każdego ze stanów. Algorytm podstawowy PAKEmo stanowi szereg klasyfikatorów tego samego poziomu, uwzgl˛edniajacych ˛ rozkład grup deskryptorów mowy. Poszerzenie tego modułu o kolejny, dokonujacy ˛ segmentacji mowy, tworzy hierarchiczna˛ struktur˛e klasyfikatorów k-NN, a na podstawie ich odpowiedzi dokonuje si˛e głosowania. Zastapienie ˛ głosowania analiza˛ odpowiedzi pozawala na stworzenie profilu emocjonalnego poszczególnych próbek mowy. Poprzez zliczane kolejnych wyników dla danej emocji budowany jest histogram, przedstawiajacy ˛ zawartość danych stanów w konkretnej wypowiedzi. Podejście to nie zast˛epuje klasyfikacji, a jest jedynie jej rozszerzeniem, i w szczególności ma zadanie zobrazowanie wypowiedzi niejednoznacznie określonych. 5. Podsumowanie Głównym założeniem prezentowanych badań było stworzenie systemu pozwalajacego ˛ na automatyczne rozpoznawanie stanów emocjonalnych na podstawie mowy naturalnej. W tym celu stworzono polska˛ baz˛e emocji spontanicznych, na która˛ składa si˛e ponad siedemset próbek, podzielonych na siedem podzbiorów reprezentujacych ˛ stany podstawowe. Ponadto w celach 18 porównawczych dokonano również analizy emocji odegranych przez profesjonalnych aktorów. Ilościowy opis problemu stanowia˛ powszechnie używane w tego typu badaniach deskryptory mowy, które zestawiono z hybrydowymi współczynnikami percepcyjnymi (używanymi w rozpoznawaniu mowy, aczkolwiek pomijanymi w rozpoznawaniu emocji). Jak wykazały badania, atrybuty te okazały si˛e silnie dyskryminatywne, co uzasadnia ich użycie. W trakcie klasyfikacji porównano algorytm k-NN z autorskim podejściem opartym na zbiorze klasyfikatorów (komitecie), majacym ˛ zapewnić lepsze wyniki rozpoznawania. Analiza wyników potwierdziła poczatkowe ˛ założenia autorki. 5.1. Korpus mowy spontanicznej i jego wpływ na rozpoznawanie emocji Badania nad rozpoznawaniem emocji prowadzone sa˛ na całym świecie w wielu ośrodkach badawczych. Niestety wi˛ekszość analiz prowadzona jest na prywatnych korpusach, których z przyczyn prawnych autorzy zazwyczaj nie moga˛ udost˛epniać. W niniejszej pracy analiz˛e przeprowadzono na dwóch bazach, porównujac ˛ emocje odegrane z naturalnymi. Badania wykazały jak duży wpływ na wyniki klasyfikacji maja˛ korpusy tworzace ˛ wzorce, co istotnie utrudnia porównywanie skuteczności różnych, zaproponowanych dotychczas podejść. Duże znaczenie ma przede wszystkim liczność wzorców. Odpowiednia liczba i różnorodność przykładów może w znacznym stopniu zwi˛ekszyć jakość rozpoznawania. Liczba próbek obu wykorzystanych korpusów różni si˛e zasadniczo, co odbija si˛e również na jakości klasyfikacji. W przypadku bazy mowy odegranej dysponujemy 40 próbkami danej emocji, zaś w przypadku mowy spontanicznej liczba ich jest co najmniej dwukrotnie wi˛eksza. Dodatkowo, w drugim przypadku różnorodność próbek (płeć oraz wiek mówcy) może mieć wpływ na lepsze wyniki klasyfikacji. Poprzez wykorzystanie wypowiedzi różnego typu, ograniczany jest wpływ cech osobniczych na rozpoznawanie. Dodatkowo, uwzgl˛edniajac ˛ różnice w sposobie ekspresji emocji przez kobiety i m˛eżczyzn, wprowadzono moduł rozpoznawania płci. W przypadku mowy spontanicznej spowodowało to popraw˛e wyników rozpoznawania. Obniżenie wydajności klasyfikatora w przypadku mowy odegranej może wiazać ˛ si˛e z ograniczeniem liczności wzorców po podziale na płeć. W badaniach dokonano również klasyfikacji nat˛eżeń mowy emocjonalnej. Zaprezentowano autorski algorytm określenia intensywności danej emocji na podstawie stopnia jej podobieństwa do mowy neutralnej. Zadanie to również wydaje si˛e być istotnym: rozróżnienie, czy mówca jest lekko podirytowany, czy też rozwścieczony, ma znaczenie, w szczególności w zastosowaniach aplikacyjnych. Biorac ˛ pod uwag˛e rozmyte granice mi˛edzy konkretnymi nat˛eżeniami danej emocji, w przyszłych badaniach należałoby przetestować różnego typu funkcje przynależności do rozpoznania konkretnego nat˛eżenia. 19 Niewatpliwym ˛ atutem bazy mowy spontanicznej sa˛ próbki, których stan emocjonalny jest niejednoznacznie określony. Przeprowadzona analiza pokazuje złożoność mechanizmów powstawania emocji, ich percepcji i ekspresji. W naturalnym środowisku mówca może być targany różnymi emocjami w tym samym momencie, a słuchacz może różnie odbierać wysyłane przez niego sygnały. Dlatego też wzorce mowy odegranej moga˛ nie sprawdzić si˛e przy klasyfikacji emocji w warunkach naturalnych. Przeprowadzone badania wskazuja,˛ że zaproponowany algorytm radzi sobie również z próbkami niejednoznacznie określonymi, co może wskazywać na to, że niektórych parametrów głosu człowiek nie jest w stanie zmienić nawet celowo. 5.2. Deskryptory mowy emocjonalnej Proces wyznaczania odpowiednich atrybutów, które trafnie opisuja˛ przedmiot analizy, ma ogromne znaczenie w zadaniach rozpoznawania wzorców. A zatem algorytm klasyfikacji musi być poprzedzony procesem doboru wydajnych zestawów cech oraz procesem ich ewentualnej selekcji. Do ilościowego opisu problemu autorka posłużyła si˛e grupami deskryptorów mowy powszechnie stosowanymi w badaniach nad rozpoznawaniem emocji: cz˛estotliwość podstawowa, formanty, cechy energetyczne, współczynniki LPC, MFCC oraz PLP. Dodatkowo zaproponowano użycie deskryptorów, które mimo istotnego wkładu w rozpoznawanie mowy, pomijane sa˛ w zadaniach rozpoznawania emocji: współczynniki BFCC, HFCC, RPLP oraz RASTA PLP. Wst˛epne badania przeprowadzone na konkretnych podzbiorach cech wskazuja,˛ że w przypadku obu korpusów najwyższe wyniki rozpoznawania osiagana ˛ sa˛ właśnie przy użyciu zaproponowanych atrybutów. I tak dla bazy mowy odegranej najlepsze rozpoznawanie uzyskano na zbiorze współczynników BFCC (64,4%), nieco niżej, aczkolwiek także wysoko plasuja˛ si˛e współczynniki RPLP (58,6%). Dla bazy mowy naturalnej najwyższe wyniki otrzymano również przy użyciu współczynników BFCC (77,7%), tuż za nimi plasuja˛ si˛e współczynniki MFCC (74%) i HFCC (72,9%). Liczna reprezentacja tych atrybutów po wykonaniu selekcji metoda˛ SFS na całym zbiorze cech dodatkowo potwierdza sił˛e owych deskryptorów. W trakcie badań dokonano również redukcji wymiarowości konkretnych podzbiorów cech, dzi˛eki czemu udało si˛e zwi˛ekszyć wyniki rozpoznawania: przykładowo w przypadku mowy odegranej dla całej puli współczynników BFCC osiagni˛ ˛ eto 55,7%, tak po selekcji 64,4%. W przypadku mowy naturalnej dokładność rozpoznawania po zastosowaniu selekcji również uległa zwi˛ekszeniu na każdym podzbiorze cech. 5.3. Klasyfikacja Mimo, iż proces klasyfikacji opiera si˛e na standardowych narz˛edziach rozpoznawania, wraz z rosnac ˛ a˛ złożonościa˛ zadań pojawia si˛e potrzeba nowych rozwiazań, ˛ majacych ˛ na celu 20 zapewnienie lepszej skuteczności. W tym celu tworzone sa˛ całkowicie nowe klasyfikatory, metody hybrydowe, łacz ˛ ace ˛ poszczególne algorytmy, a także metody usprawniajace ˛ istniejace ˛ rozwiazania. ˛ Zaproponowany w niniejszej pracy algorytm oparto o teori˛e tzw. komitetów, które pracujac ˛ wspólnie, osiagaj ˛ a˛ wyniki lepsze niż pojedyncze modele. Podejście oparte na komitetach było wcześniej zastosowane w kilku pracach poświ˛econych rozpoznawaniu emocji na podstawie mowy. Jednakże zaleta˛ tego typu klasyfikacji jest możliwość stworzenia różnego rodzaju struktur dostosowanych do konkretnego problemu. Dlatego też przedstawione rozwiazanie ˛ jest całkowicie innowacyjnym podejściem w omawianym zagadnieniu. Zastosowanie komitetu do niniejszych rozważań wydawało si˛e być słuszne z dwóch powodów. Modele oparte na atrybutach wybranych do reprezentacji emocji popełniaja˛ różne bł˛edy dla nowych danych, a zatem możemy mówić o różnorodności komitetu. Dodatkowo w trakcie badań zauważono, że dla określonych podzbiorów najlepsze wyniki osiagane ˛ sa˛ przy użyciu rożnych wartości liczby k algorytmu k-NN. A zatem zastosowanie rozbicia pojedynczego modelu na zbiór klasyfikatorów, z którego każdy dokonuje rozpoznawania na podstawie innego podzbioru atrybutów, a ostateczna decyzja podejmowana jest na podstawie głosowania, powinno prowadzić do zwi˛ekszenia jakości rozpoznawania. Badania udowodniły tez˛e postawiana˛ przez autork˛e. I tak w przypadku bazy mowy odegranej wyniki wzrosły ponad 5%. W przypadku bazy mowy naturalnej wyniki również wzrosły, aczkolwiek wzrost ten wynosi jedynie 2,7%. W zwiazku ˛ z tym, że każdy z podzbiorów atrybutów ma inny wkład w rozpoznawanie, nast˛epnym krokiem było zastapienie ˛ głosowania równoważnego ważonym. Wagi dobrano na podstawie bł˛edu konkretnego modelu, a ich wprowadzenie do algorytmu głosowania ostatecznie uzasadnia użycie zaproponowanego rozwiazania. ˛ 6. Dalsze prace rozwojowe, potencjał zaprezentowanego rozwiazania ˛ Naturalnym kierunkiem kontynuacji przedstawionych w niniejszej rozprawie badań wydaje si˛e być przede wszystkim sprawdzenie możliwości innych algorytmów klasyfikacji jako modeli bazowych komitetu. Należy tutaj podkreślić, że możliwe jest zastosowanie komitetów heterogenicznych, dopasowujac ˛ odpowiedni algorytm rozpoznawania do konkretnego podzbioru cech. Dodatkowo należy przetestować inne kombinacje komitetu stosujac ˛ inne warunki podziału modelu bazowego. Kolejnym kierunkiem rozwoju algorytmu jest określenie dodatkowych cech opisujacych ˛ przedmiot analizy. Algorytm można poszerzyć o dodatkowe modele, przykładowo bazujace ˛ na prozodiach sygnału (tempo, pauzy) czy też atrybutach wyznaczanych na podstawie opisu sygnału metodami zaczerpni˛etymi z analizy układów 21 nieliniowych. A zatem zastosowane podejście daje szeroka˛ gam˛e możliwości dalszego rozwoju i optymalizacji. Potrzeba rozszerzenia korpusu mowy o dodatkowe próbki tworzace ˛ wzorce oraz kolejne stany emocjonalne wydaje si˛e być oczywista. Jest to niezb˛edne w szczególności do zastosowania algorytmu rozpoznawania nat˛eżenia również na pozostałych stanach podstawowych, nie uwzgl˛ednionych w niniejszej analizie. Można także pokusić si˛e o poszerzenie korpusu o próbki wypowiedzi dzieci, których ekspresja emocji może zaburzyć jakość rozpoznawania. Ważnym kierunkiem rozwoju jest rozpoznawanie stanów niejednoznacznie określonych, a zaproponowana w niniejszej rozprawie metoda etykietowania poprzez tworzenie profili może w znacznym stopniu to ułatwić. Podsumowujac, ˛ powyżej zaprezentowane potencjalne możliwości rozwoju pozwalaja˛ na dalsza˛ prac˛e nad rozpoznawaniem stanów emocjonalnych na podstawie sygnału mowy. Obiecujacym ˛ zdaje si˛e także być tworzenie dodatkowych modeli bazujacych ˛ na innych sygnałach: obraz (mimika oraz gesty), sygnały EEG czy analiza obrazu w podczerwieni. Komitet stworzony na podstawie dodatkowych przesłanek może w znacznym stopniu poprawić klasyfikacj˛e. Analiza emocji znajduje zastosowanie w syntezatorach głosu oraz jako system wspomagajacy ˛ rozpoznawanie mowy. Dodatkowo istotna˛ dziedzina˛ zastosowań jest medycyna, a w szczególności diagnoza zaburzeń psychologicznych i neurologicznych, objawiajacych ˛ si˛e nieprawidłowa˛ percepcja˛ i ekspresja˛ emocji (autyzm, schizofrenia, depresja, stres) oraz wspomaganie terapii behawioralnej. Bibliografia [1] Kamińska D. , Pelikant A. Recognition of Human Emotion from a Speech Signal Based on Plutchik’s Model. International Journal of Electronics and Telecommunications, 58(2):165–171, 2012. [2] Kaliouby R., Robinson P. Mind Reading Machines Automated Inference of Cognitive Mental States from Video. IEEE International Conference on Systems, Man and Cybernetics, pages 682–688, The Hague, Netherlands, 2004. [3] Silva P.R., Madurapperuma A.P., Marasinghe A., Osano M. A multi-agent based interactive system towards childs emotion performances quantified through affective body gestures. International Conference on Pattern Recognition, pages 1236–1239, 2006. [4] Garay N., Cearreta I., López J.M., Fajardo I. Assistive Technology and Affective Mediation. An Interdisciplinary Journal on Humans in ICT Environments, 2(1):55–83, 2006. [5] Plutchik R. Emotion A Psychoevolutionary Synthesis. New York Harper and Row, 1980. [6] Obr˛ebowski A. Narzad ˛ głosu i jego znaczenie w komunikacji społecznej. Uniwersytet Medyczny im. Karola Marcinkowskiego w Poznaniu, 2008. [7] Abelin A. Anger or Fear? Cross-Cultural Multimodal Interpretations of Emotional Expressions. Plural Publishing, 2007. [8] Izdebski K. Emotions in the Human Voice Volume I Foundations. Plural Publishing, 2007. [9] Ślot K. Wybrane zagadnienia biometrii. Wydawnictwa Komunikacji i Łaczności ˛ WKŁ, 2008. [10] Mower E., Mataric M.J., Narayanan S.S. A Framework for Automatic Human Emotion Classification Using Emotional Profiles. IEEE Transactions on Audio, Speech and Language Processing, 19(5):1057 – 1070, 2011. [11] Ślot K. Rozpoznawanie biometryczne Nowe metody ilościowej reprezentacji obiektów. Wydawnictwa Komunikacji i Łaczności ˛ WKŁ, 2010. [12] Cichosz P. Systemy uczace ˛ si˛e. Wydawnictwa Naukowo-Techniczne, 2007. [13] Kamińska D., Pelikant A. Rozpoznawanie Stanów Emocjonalnych na Podstawie Analizy Mowy Spontanicznej. Informatyka, Automatyka Pomiary w Gospodarce i Ochronie Środowiska, 3, 2012. 23