Widok/Otwórz
Transkrypt
Widok/Otwórz
Rozdział Możliwości zastosowania awatara języka migowego do interfejsu SAPI MICHAŁ SOCHA Instytut Technik Innowacyjnych EMAG [email protected] WOJCIECH GÓRKA Instytut Technik Innowacyjnych EMAG [email protected] Streszczenie W multimedialnym świecie komputerowego wspomagania różnych czynności wykonywanych przez użytkowników komputerów od kilku lat zadomowiły się na dobre rozwiązania pozwalające na płynną syntezę mowy. Rozwiązania wykorzystujące syntezę mowy są we współczesnych aplikacjach użytecznym dodatkiem dla użytkowników. Dotyczy to zwłaszcza osób niewidomych, dla których synteza głosu jest tym, czym dla widzących monitor – podstawowym interfejsem komunikacyjnym pozwalającym na bezpośrednią komunikację człowieka z komputerem. Przy rozwiązywaniu problemów osób z różnymi dysfunkcjami pomija się problem ludzi niesłyszących. Artykuł sygnalizuje problem osób niesłyszących postulując, by podobnie jak w przypadku osób niewidomych, zrealizować rozwiązania wspierające osoby z dysfunkcjami słuchu w zakresie języka migowego. W artykule przedstawione zostały rozważania na temat możliwości implementacji interfejsu Speech Application Programming Interface (Microsoft) używanego przez syntezatory mowy, w zastosowaniu języka migowego (awatar prezentujący gesty języka migowego). Przedstawione zostały dotychczasowe doświadczenia jak również problemy związane z realizacją tego typu mechanizmu, niewerbalnego przekazywania treści. 2 M. Socha, W. Górka 1. Wstęp W multimedialnym świecie komputerowego wspomagania różnych czynności wykonywanych przez użytkowników komputerów od kilku lat zadomowiły się na dobre rozwiązania pozwalające na płynną syntezę mowy. Nie jest już barierą zamiana dowolnych tekstów na mowę, niezależnie od języka i złożoności tekstu, czy jego długości. Jakość tak generowanej mowy jest również coraz wyższa, a rozwiązania udostępniające usługę syntezy mowy są powszechnie dostępne. Ceny rozwiązań są relatywnie niskie oraz co należy podkreślić istnieją darmowe rozwiązania oferujące syntezę mowy. Dziedzina syntezatorów mowy została dobrze rozpoznana oprogramowana i co bardzo istotne zestandaryzowana. Zwłaszcza standaryzacja, ale również wzrost mocy komputerów, umożliwiły implementacje rozwiązań wykorzystujących syntezę mowy na różnorodnych urządzeniach, niezależnie od rozwiązań systemowych. Obecnie synteza mowy jest obecna zarówno na komputerach stacjonarnych, jak i na urządzeniach mobilnych w postaci smartfonów. Rozwiązania wykorzystujące syntezę mowy są we współczesnych aplikacjach użytecznym dodatkiem dla użytkowników. Dotyczy to zwłaszcza osób niewidomych, dla których synteza głosu jest tym, czym dla widzących monitor – podstawowym interfejsem komunikacyjnym pozwalającym na bezpośrednią komunikację człowieka z komputerem. Synteza mowy pozwala m.in. osobom niewidomym samodzielnie korzystać z komputera lub telefonu dzięki oprogramowaniu typu czytniki ekranu albo czytać gazety lub książki. Przy rozwiązywaniu problemów osób z różnymi dysfunkcjami pomijany jest problem ludzi niesłyszących. U osoby tych, oprócz trudności w zakresie orientacji przestrzennej, poruszania się i percepcji, dominującym problemem życia codziennego są bariery w porozumiewaniu się. Wbrew powszechnie krążącemu przekonaniu osoby głuche w większości przypadków nie potrafią porozumiewać się z wykorzystaniem słowa pisanego ani czytać z ruchu warg [8]. Dla większości z nich urzędowe formularze, książki, gazety, czy Internet, są ciągle czymś nieznanym, obcym. Osoby niesłyszące od urodzenia wykorzystują kanał wizualno-przestrzenny i bazujący na nim język migowy, jako naturalny środek komunikacji. Niesłyszący szczególnie często borykają się z ogromnymi problemami komunikacyjnymi przy okazji załatwiania spraw w instytucjach publicznych, takich jak urzędy czy banki. Również korzystanie z komputera czy Internetu jest utrudnione, ponieważ media te opierają się o słowo pisane i mimo wyraźnego przesunięcia środka ciężkości w kierunki multimediów osoby niesłyszące nadal borykają się problemami korzystając z Internetu. Dla osób niesłyszących język pisany jest językiem obcym wymagającym dodatkowego wytężenia uwagi w celu zrozumienia przekazywanego komunikatu. W artykule przedstawione zostały rozważania na temat możliwości implementacji interfejsu SAPI oraz doświadczenia i problemy związane z realizacją tego typu mechanizmu. Możliwości zastosowania awatara języka migowego do interfejsu SAPI 3 2. Co to jest SAPI SAPI (Speech Application Programming Interface) to interfejs programowy opracowany przez firmę Microsoft, aby umożliwić korzystanie z mechanizmów rozpoznawania i syntezy mowy w aplikacjach okienkowych pracujących pod kontrolą systemu operacyjnego Windows. SAPI zostało zaprojektowane tak, że programista może budować własną aplikację wykorzystującą mechanizm rozpoznawania i syntezy mowy przy użyciu standardowego zestawu interfejsów, dostępnych z poziomu różnych języków programowania. Rozwiązanie SAPI ma charakter rozwiązania szkieletowego i zapewnia nie tylko interfejs programowy do udostępnianych przez Microsoft usług, ale możliwe jest, aby zewnętrzna firma (tzw. third party) udostępniła własny silnik rozpoznawania i syntezy mowy. Dzięki takiemu podejściu firmy trzecie mogą tworzyć własne implementacje zgodne z interfejsem SAPI, a twórcy oprogramowania mogą je wykorzystywać nie wiążąc się jednak trwale z konkretnym dostawcą. Zwiększa to elastyczność rozwiązania, pozwala na budowanie konkurencyjnych rozwiązań dla poszczególnych języków narodowych. Z jednej strony wpływa to na stałe poprawianie jakości oferowanych rozwiązań. Z drugiej strony podeście szkieletowe daje możliwość do wykreowania rozwiązań nowatorskich, nawet takich, które nie mieściły się w założeniach projektantów. Możliwa jest swobodna zmiana mechanizmu bez konieczności ingerencji programistycznych. Może to być wykorzystane m.in. do budowania głosów syntezy mowy o różnych barwach (głos męski, glos żeński) oraz w różnych językach. Przykładem jest IVO Software, która implementuje różne głosy (płeć, język) zgodne z interfejsem SAPI. Innym przykładem jest synteza głosu indywidualnego i niepowtarzalnego1. 3. Specyfika języka migowego W Polsce osoby niesłyszące posługują się dwoma odmianami języka migowego. Pierwsza odmiana to System Językowo-Migowy (SJM), który uwzględniając definicję, językiem migowym nie jest. Druga odmiana to Polski Język Migowy (PJM) i tu zgodnie z definicją jest to język wizualno-przestrzenny nabyty drogą naturalnej akwizycji przez głuche dzieci od głuchych rodziców. SJM nie należy traktować jako pełnoprawny język, a raczej jako język migany, gdzie miganie służy przekazywaniu treści. W zależności od interpretacji, SJM jest opisywany jako wizualno-przestrzenny odpowiednik języka polskiego lub jako język sztuczny powstały z połączenia elementów języka polskiego i PJM. Jest to właściwie przełożenie języka polskiego na gesty w języku migowym. Szyk słów, gramatyka pozostały zachowane z języka polskiego, a słowa z języka polskiego są prezentowane jako odpowiednie gesty. PJM jest językiem naturalnym dla osób niesłyszących zwłaszcza dla osób niesłyszących od urodzenia. Jest on całkowicie odrębnym językiem w stosunku do języka polskiego. PJM jest językiem o własnej, odmiennej od języka polskiego, 1 http://vocalid.org/ 4 M. Socha, W. Górka strukturze gramatycznej [9][10]. Ważną rolę w komunikatach PJM odgrywają elementy niemanualne, w szczególności: położenie tułowia i głowy (odchylenia, zwroty) oraz mimika [6][11]. Dla osób słyszących (w szczególności tłumaczy) PJM jest trudniejszy do poznania i użycia niż SJM. O ile tłumaczenie SJM mogłoby polegać na prostej zamianie słowa na gest o tyle tłumaczenie z języka polskiego na PJM wymaga pełnej translacji jak w przypadku języka obcego. Istotne jest również by zauważyć różnicę w zasobie słów języka migowego w stosunku do języka mówionego. Język migowy ma znacznie ograniczone słownictwo. Jest ono również w dużej mierze zależne od kontekstu użycia. Dodatkowo brakuje pewnych pojęć szczególnie abstrakcyjnych, które trzeba zastępować pewnymi uproszczeniami słownymi. 4. Potrzeba połączenia SAPI i języka migowego O ile oczywiste wydaje się, że konieczne jest udźwiękowienie tekstów dla osób niewidomych, o tyle wspieranie osób niesłyszących w czytaniu często spotyka się z niezrozumieniem. Wydaje się, że osoby niesłyszące mogą czytać teksty. Niestety osoby niesłyszące, zwłaszcza niesłyszące od urodzenia, mają duże trudności ze zrozumieniem słowa pisanego. Język pisany jest dla nich językiem obcym. Ich naturalnym językiem jest język migowy. Podobnie, jak dla osób niewidomych dużym ułatwieniem jest udźwiękowienie tekstów i innych elementów np. widoku ekranu monitora, tak dla osób głuchych przydatne byłoby łatwe udostępnienie tekstów przedstawianych w formie języka migowego. Osoby niewidome wykorzystują w tym celu różnego rodzaju „udźwiękowione” narzędzia. Są to tzw. „screen-reader’y”, które pozwalają udźwiękowić różne elementy wyświetlane na ekranie. Użytkownik poruszając się po ekranie otrzymuje komunikaty głosowe o aktywnych w danym momencie elementach. Wszystkie te narzędzia w systemie operacyjnym Windows korzystają z syntezy mowy za pośrednictwem interfejsu SAPI. Jest to wygodne rozwiązanie zarówno dla programistów jak i dla użytkowników – nie wymaga od programistów osadzania i oprogramowania syntezy mowy, a użytkownikom pozwala zastosować wybrany przez nich głos o odpowiedniej barwie i języku. W przypadku gdyby do interfejsu SAPI podpiąć moduł lektora języka migowego, wiele mechanizmów byłoby dostępnych automatycznie – min. screen readery, możliwość przedstawiania napisów w filmach w języku migowym itp. 5. Problemy do rozwiązania Pierwszą i podstawową barierą do pokonania jest brak standaryzacji i kodyfikacji języka migowego. O ile język SJM jest w jakiś sposób sformalizowany (podział słownictwa języka na pewne poziomy związane z cyklem nauczania tego języka) o tyle dla języka PJM wciąż brakuje standaryzacji [6]. Zastosowanie lektora języka migowego do interfejsu SAPI stawia przede wszystkim wymaganie tłumaczenia tekstów języka pisanego na język migowy. Jak już zostało to wspomniane język migowy szczególnie PJM jest językiem obcym w stosunku do Możliwości zastosowania awatara języka migowego do interfejsu SAPI 5 języka polskiego. W przypadku tłumaczenia na język SJM zagadnienie tłumaczenia jest dużo prostsze. Właściwie sprowadza się to do tłumaczenia wprost z języka pisanego na język migowy. Jednak i tutaj można napotkać pewne problemy zwłaszcza dotyczące różnicy w zasobie słów. Druga barierą do pokonania jest zniwelowanie braku niektórych słów w języku migowym w stosunku do języka pisanego i mówionego. Niektóre słowa w języku migowym zastępowane są przez omówienie ich słowami prostszymi lub analogicznymi. Tego typu operację można do pewnego stopnia zautomatyzować korzystając ze słownika wyrazów bliskoznacznych. Gdy brak danego słowa mogłoby one być poszukiwane w słowniku wyrazów bliskoznacznych i na podstawie znalezionych propozycji ponownie szukane w posiadanym słowniku języka migowego. Pewne znane tego typu „połączenia” można by również zdefiniować by były dostępne od razu. Dotyczy to zwłaszcza słownictwa komputerowego (pewnych utartych sloganów i słów występujących w komputerze, z którymi użytkownik spotka się zwłaszcza w przypadku zastosowania tzw. screen-reader’a). Ważne jest też właściwe ustawienie awatara – lektora na ekranie komputera. O ile głos w przypadku klasycznego wykorzystania interfejsu SAPI nie koliduje z żadnymi elementami na ekranie (a ewentualne inne głosy można wyciszyć) o tyle lektor wymaga odpowiedniego położenia na ekranie takiego by nie kolidował z uruchomionymi aplikacjami, a jednocześnie był dobrze widoczny dla użytkownika. W tym miejscu nasuwa się kilka pomysłów związanych z położeniem lektora na ekranie: − pojawianie się lektora w momencie użycia. Polegałoby to na pojawianiu się lektora dopiero w momencie wywołania akcji mówienia – migania. Po zakończeniu „migania” lektor by znikał. Takie rozwiązanie pozwala na lepsze zagospodarowanie przestrzeni ekranu gdyż lektor niepotrzebnie nie zajmuje go. Z drugiej strony może powstać wrażenie „skakania” jakichś elementów interfejsu użytkownika, co może powodować dyskomfort. − pojawianie się lektora przy aplikacji lub w miejscu położenia myszki lub innego wskaźnika (np. kursora). Takie rozwiązanie pozwoliłoby na koncentrację na wykonywanym zadaniu. Użytkownik nie musiałby odrywać wzroku od elementu ekranu, nad którym pracuje by zobaczyć wypowiedź w języku migowym - nie musiałby poszukiwać lektora na ekranie. Z drugiej strony dość powszechna (za przyczyną telewizji) jest pozycja lektora w dolnym rogu ekranu. Stąd też taka opcja być może powinna być konfigurowalna. − użytkownik powinien łatwo włączyć i wyłączyć lektora (np. za pomocą jakiegoś skrótu klawiatury) tak by w razie konieczności nie przeszkadzał w normalnej pracy. − lektor musiałby być widoczny, jako pełna postać. W przypadku języka SJM wystarczy właściwie widok od pasa w górę i dobry widok na układ rąk i palców. W przypadku języka PJM wydaje się, że konieczne jest wizualizowanie całej postaci gdyż język ten zakłada ruch nie tylko dłoni, ale całego ciała. Być może rozwiązaniem byłaby zmiana kadru widoku na postać M. Socha, W. Górka 6 w zależności od gestu. To mogłoby zaoszczędzić miejsca na ekranie w celu wyświetlenia postaci. Konieczne byłoby opracowanie modułu programowego odpowiedzialnego za układ sceny, który planowałby ruch kamery w zależności od znaków do zaprezentowania. Musiałby on sprawdzać znaki w kolejce tak, by ruch kamerą był w miarę możliwości płynny – by kamera nie przemieszczała się zbyt często. Tego typu rozwiązanie należałoby jednak zweryfikować, bo może wprowadzać również niepotrzebne wrażenie ciągłego ruchu a przez to może być mało komfortowe w odbiorze. Kolejny problem do rozwiązania to kontekstowość języka i doboru słów. W każdym tłumaczeniu ważne jest by wiedzieć, z jakiego kontekstu pochodzą słowa do czytania. Pomaga to w doborze słów i interpretacji tekstu źródłowego tak by właściwie przetłumaczyć go na język docelowy. W języku migowym jest to szczególnie istotne ze względu na konieczność upraszczania słownictwa (ew. omawiania słów) ze względu na węższy słownik wyrazów w tym języku w stosunku do języka pisanego i mówionego [4]. Rozwiązaniem może być wykrywanie kontekstu tłumaczenia w zależności od próbki tekstu i stopniowe przełączanie kontekstu w miarę napływania kolejnych tekstów do tłumaczenia lub w zależności od aplikacji, jaka zgłasza tekst do tłumaczenia np. inne traktowanie tekstów pochodzących z przeglądarki internetowej, inne z komunikatora internetowego a jeszcze inne z edytora tekstu lub odtwarzacza filmów. Kolejnym sposobem może być prosta metoda samodzielnego wyboru kontekstu bezpośrednio przez użytkownika. Jawny wybór a nie wnioskowanie kontekstu mogłoby się odbywać przez wskazanie dziedziny, z którą związane jest słownictwo tekstu do tłumaczenia. Takie podejście opiera się na założeniu, że użytkownik ma już rozeznanie w treści dokumentu, który chce przetłumaczyć. 6. Dotychczasowe doświadczenia Dotychczasowe doświadczenia autorów związane z tłumaczeniem tekstów na język migowy i prezentowanie ich za pomocą wirtualnego lektora języka migowego związane są przede wszystkim z realizowanym projektem Infomat-E1. Prace w trakcie realizacji tego projektu prowadzone były we współpracy [2] z Politechniką Śląską i z firmą Artifex Mundi (wizualizacja lektora). Zespół z Politechniki Śląskiej był odpowiedzialny za moduły dokonujący automatycznego tłumaczeniu tekstów z języka polskiego na język migowy. W projekcie Infomat-E jako język docelowy był wybrany SJM. Wyboru takiego dokonano ze względu na znacznie większe przebadanie tego języka w porównaniu z językiem PJM. Firma Artifex Mundi odpowiadała za stworzenie i oprogramowanie postaci wirtualnego lektora języka migowego. Zespół z Instytutu EMAG odpowiadał za opracowanie systemu Infomat-E i integrację wszystkich komponentów programowych i sprzętowych. W kontekście rozważań wpisujących się w tematykę artykułu na uwagę i bardziej szczegółowe omówienie zasługuje moduł wirtualnego lektora języka migowego. 1 Projekt nr N R02 0059 06/2009: System informacji publicznej dla osób z dysfunkcjami narządów wzroku i słuchu INFOMAT-E Możliwości zastosowania awatara języka migowego do interfejsu SAPI 7 Rysunek 1. Koncepcja komponentu zmiany formy przekazu. Moduł wirtualnego lektora języka migowego zrealizowano, jako komponent programowy dokonujący zmiany formy przekazu informacji z zapisu testowego na sekwencje odpowiadających tekstowi animacji wideo w języku migowym. Dostarczone na wejściu dane w postaci tekstowej zawierające treść w języku migowym są analizowane przez moduł awatara. W wyniku analizy zostaje ustalona niezbędna do wyrażenia treści sekwencja animacji zawierająca poszczególne gesty składowe. Skomponowana sekwencja animacji jest następnie przekazywana do podsystemu odpowiedzialnego za wyświetlenie całości wypowiedzi w formie jednej spójnej animacji. W tym podsystemie łączone są animacje poszczególnych gestów w taki sposób, by w finalnej animacji przejścia miedzy elementami składowymi były naturalne i nie powodowały niepożądanych drgań wirtualnej postaci, przeskoków podczas ruchu rąk czy deformacji trójwymiarowego modelu postaci awatara. Zrealizowany moduł awatara języka migowego SJM został wyposażony w bazę gestów języka SJM słownikowo odpowiadających zakresowi słownictwa z pierwszych dwóch poziomów nauki tego języka migowego. Całość została tak przemyślana i zrealizowana, żeby moduł awatara był niezależny od bazy gestów. Uzyskany w ten sposób stopień swobody pozwala na elastyczne kształtowanie wielkości samej bazy, ale również pozwoli w przyszłości na zmianę języka, w jakim awatar będzie prezentował treści na PJM. Zrealizowany moduł wirtualnej postaci migającej został zrealizowany w technologii umożliwiającej osadzenie modułu na stronie internetowej gdzie środowiskiem wykonawczym jest przeglądarka internetowa. Zabieg ten pozwolił uczynić moduł niezależnym od systemu operacyjnego. W trakcie uruchamiania pojawiły się jednak pewne problemy związane ze środowiskiem uruchomieniowym, tj. przeglądarką internetową. W trakcie testów pojawiły się różnice w funkcjonalności oferowanej przez moduł w zależności od typu przeglądarki, w której awatar migał. Nie były to jednak różnice, które wpływały na podstawową funkcjonalność modułu awatara. Podczas projektowania modułu awatara na potrzeby projektu Infomat-E zespół projektowy brał pod uwagę inne możliwe wykorzystania projektowanego modułu. Kwestia integracji z SAPI była również rozpatrywana. Miało to wpływ na dobór języka i technologii wykonania modułu. Został wybrany framework umożliwiający 8 M. Socha, W. Górka tworzenie modułu, tak by mógł być uruchamiany pod kontrolą różnych systemów operacyjnych, jako moduł lub jako samodzielny program. Tę otwartą cechę projektu wykorzystano w trakcie prac programistycznych i zrealizowano próbną implementację awatara współpracującą z interfejsem SAPI. Próbna implementacja nie obejmowała tłumaczenia tekstów na język migowy a jedynie zastępowanie słów z tekstu pisanego na język migowy. Oznaczało to, że do interfejsu SAPI musiały trafiać teksty reprezentujące ciągi gestów języka migowego ułożone tak, by odpowiadały finalnej animacji wypowiedzi w języku migowym. W trakcie realizacji projektu Infomat-E powstał moduł realizujący automatyczne tłumaczenie języka polskiego na SJM. Moduł został przygotowany tak by możliwe były tłumaczenia tekstów krótkich, ale stosunkowo prostych, gdzie użyte słownictwo można było zaliczyć do podstawowego zbioru słów. Natomiast w konkretnym zastosowaniu, jakie miało miejsce w projekcie Infomat-E teksty tłumaczone na SJM obejmowały głównie zagadnienia związane z opisem usług realizowanych w urzędach administracji samorządowej. Specyfika tych tekstów zarówno pod kątem użytego słownictwa jak i złożoności tekstu wykraczała poza możliwości modułu automatycznego tłumaczenia. W efekcie do awatara migającego trafiał tekst, który nie był w całości przetłumaczony, co doprowadzało do tego, że moduł migający nie mogąc zinterpretować napływających danych uwzględniając bazę gestów przełączał się w tryb literowania. Takie podejście zapewniało, że moduł awatara będzie działał, ale było to tylko i wyłącznie zapewnienie ciągłości pracy na poziomie technicznym. Na poziomie merytorycznym wyświetlana animacja, mimo iż nadal była płynna, nie niosła treści. Ułomne działanie automatycznego tłumaczenia wynikało głównie z tego, że słownictwo użyte do opisu procesów administracyjnych zawierało wiele pojęć abstrakcyjnych, które nie występują po stronie języka migowego. Tłumaczenie tekstu wymagało wiec każdorazowo zastępowania pojęcia abstrakcyjnego opisem definiującym jego znaczenie. Takie podejście doprowadzało do utraty sensu treści po przetłumaczeniu. Ostatecznie w projekcie Infomat-E moduł automatycznego tłumaczenia na język migowy został tak wkomponowany, że stanowił jedno z narzędzi wspierających proces ręcznego tłumaczenia treści z języka polskiego na język migowy SJM. 7. Podsumowanie Interfejs SAPI jest rozwiązaniem dojrzałym i w przeciągu lat współistnienia z systemem operacyjnym stał się już jego nieodłączną częścią. Pozwoliło to wydzielić na poziomie systemu operacyjnego zestaw specjalnych funkcji, dedykowanych osobom mającym z różnych względów trudności w posługiwaniu się interfejsem graficznym systemu operacyjnego. Obecnie systemy operacyjne dostarczają użytkownikom z dysfunkcjami wzroku specjalne funkcje umożliwiające korzystanie z komputera w sposób komfortowy. Mowa tu o ułatwieniach zwiększających kontrast wyświetlanych elementów graficznego interfejsu użytkownika (w zakresie pozostającym pod kontrolą systemu operacyjnego), ułatwieniach polegających na Możliwości zastosowania awatara języka migowego do interfejsu SAPI 9 powiększaniu wybranego fragmentu ekranu tj. o lupie ekranowej. W zestawie jest również dostępny narrator, który odczytuje wszystkie teksty widoczne na ekranie, co pozwala użytkownikom niewidomym samodzielnie korzystać z komputera. Ostatnie ułatwienie w przypadku systemów operacyjnych z rodziny Windows oparte jest o interfejs SAPI. Jednak to i pozostałe ułatwienia skierowane są do osób słabo lub niewidzących. Osoby niesłyszące, które mają problemy z rozumieniem tekstu pisanego są pozostawione bez wsparcia i bez ułatwień pomagających im korzystać z komputerów. Posługując się analogią do sytuacji osób niewidomych, mając wiedzę na temat możliwości multimedialnych komputerów można zaproponować wykorzystanie funkcji zamiany tekstu na mowę dedykowane osobom głuchym. Idea potraktowania języka migowego, jako mowy przenoszonej kanałem wizyjnym i połączenia z windowsowym interfejsem SAPI wydała się autorom na tyle oczywista i atrakcyjna, że mimo iż nie było to celem ich prac, zostały podjęte wysiłki mające na celu potwierdzenie możliwości faktycznej realizacji takiej idei. Opisane doświadczenia potwierdziły, że koncepcja jest realna i co więcej implementacja tego typu rozwiązania nie będzie nastręczać większych problemów. Nie jest też kłopotliwa integracja z systemem operacyjnym. Wysiłek wkładany w implementacje może być w całości skierowany na osiągnięcie celu i nie ma potrzeby zmagać się z integracją z systemem operacyjnym, czy prowadzić skomplikowane analizy mające wskazać miejsca i funkcje systemu operacyjnego, które powinny być objęte zamianą tekstu na mowę. Wysiłek można zatem ukierunkować inaczej, na przykład poszukując obszarów gdzie taki awatar migający może być wykorzystany i jaki może być zakres tego użycia. Jednym z możliwych zastosowań awatara migającego jest integracja takiego modułu z oprogramowaniem do odtwarzania filmów, gdzie moduł mógłby być lektorem języka migowego. Dałoby to możliwość swobodnego oglądania filmów osobom niesłyszącym. Niezależnie od przyszłych zastosowań sama koncepcja wykorzystania mechanizmów zamiany tekstu na mowę wymaga jeszcze sporo pracy by implementacje były użyteczne i atrakcyjne dla użytkowników końcowych. Dotychczasowe doświadczenia pozwoliły zidentyfikować obszary, na których należy się skupić. Obszar, który jest szczególnie istotny dla użytkowników końcowych, to rozpoznawalność [1] gestów awatara migającego. Na rozpoznawalność gestów ma wpływ wiele czynników, ale dwa wydają się kluczowe [7]. Pierwszy z czynników to wielkość postaci awatara, która musi być wyświetlana na ekranie. Im większa postać tym łatwiej będzie rozpoznać gesty, ale tym większa cześć ekranu będzie zasłonięta i użytkownik będzie tracił dostęp do informacji źródłowej. Drugim kluczowym dla czytelności gestów czynnikiem jest realność gestykulacji. Uzyskanie realnie wyglądających gestów wymaga zbudowania odpowiedniego modelu trójwymiarowego awatara migającego [3]. W tworzeniu modelu muszą uczestniczyć eksperci z dziedziny anatomii oraz biomechaniki aparatu ruchowego ciała ludzkiego. Ponadto niezbędny jest udział grafików specjalizujących się w modelowaniu postaci ludzkich. Prócz grafików na etapie przygotowywania bazy M. Socha, W. Górka 10 gestów niezbędny jest udział animatorów, którzy przełożą wiedzę ekspertów z zakresu anatomii i kinematyki na ruch wirtualnej postaci. Od strony wizualnej należy zadbać jeszcze o stworzenie spójnej graficznej formuły dla całego rozwiązania. Dużym wyzwaniem, które w znacznym stopniu wymaga rozwiązania jest uzyskanie w pełni autonomicznego modułu dokonującego translacji tekstu z języka polskiego na listę gestów języka migowego. Należy opracować metody adaptacyjnego dopasowywania słownictwa do wykrytego kontekstu. Nakładu pracy wymaga również problem dużej rozbieżności między rozmiarami słowników języka polskiego i języka migowego. W tym zakresie wymagana jest współpraca z językoznawcami oraz ekspertami z zakresu translacji. Jednak podczas rozwiązywania tych problemów należy pamiętać o wydajności całego rozwiązania. Nie można dopuścić by moduł translacji wprowadzał opóźnienia w działania wirtualnego awatara migającego. Mimo wielu wyzwań, jakie pozostały do podjęcia i pozostających do rozwiązania problemów, autorom wydaję się, że idea wykorzystania SAPI, jako interfejsu umożliwiającego odczytywanie w języku migowym jest wartościowa. Wysiłki włożone w opracowanie takiego rozwiązania pozwolą na zmniejszenie bariery, z jaką spotykają się osoby niesłyszące w codziennym życiu, kiedy do czynienia mają z tekstem pisanym w języku polskim, który jest dla nich językiem obcym. LITERATURA 1. 2. 3. 4. 5. 6. 7. 8. 9. Adamo-Villani N.: 3D Rendering of American Sign Language Finger-Spelling: A Comparative Study of Two Animation Techniques. International Journal of Social Sciences 3, no. 4, 2008. Kulików S.: Implementacja serwera analizy lingwistycznej dla systemu Theos-translatora tekstu na język migowy. Studia Informatica 24, 3 , s. 171÷178 2003. Lowe, N., Strauss, J., Yeates, S., & Holden, E. J.: Auslan jam: a graphical sign language display system. In Proc. 6th Annual Conf. on Digital Image Computing Techniques and Applications s. 98÷103 2002. O’Shaughnessy D. Parsing with small dictionary for applications such as text to speech. Computional Linguistic, 15, s. 97÷108, 1989. Szmal. P., Suszczańska N.: Selected problems of translation from the Polish written language to the sign language. Archiwum Informatyki Teoretycznej i Stosowanej 13 (): s. 37-51, 2001. Tomaszewski P.: Polski Język Migowy (PJM) – mity i fakty." Poradnik Językowy 06, s. 59÷72, 2004. Yeates S., Holden E., Owens R.: Real-time 3D graphics for human modeling and teaching sign language. Proc. International Conf. on Computer Vision and Graphics. 2002. Proc. International Conf. on Computer Vision and Graphics. 2002. Albińska P.: Problemy życia społecznego i zawodowego osób niedosłyszących i głuchych, Materiały promocyjne projektu eFESTO (2009-1-PL1-LEO05-05028), 2009. Mrozik M.: Wstępne uwagi o morfologii Polskiego Języka Migowego (PJM), Studia nad kompetencją językową i komunikacją niesłyszących, Uniwersytet Warszawki, Warszawa 2003 Możliwości zastosowania awatara języka migowego do interfejsu SAPI 11 10. Świdziński M., Mikulska D.: Reprezentacja linearna tekstu Polskiego Języka Migowego, Uniwersytet Warszawki, Warszawa 2003. 11. Mikulska D.: Elementy niemanualne w Polskim Języku Migowym, Studia nad kompetencją językową i komunikacją niesłyszących, Uniwersytet Warszawki, Warszawa 2003.