Widok/Otwórz

Transkrypt

Widok/Otwórz
Rozdział
Możliwości zastosowania awatara języka migowego do
interfejsu SAPI
MICHAŁ SOCHA
Instytut Technik Innowacyjnych EMAG
[email protected]
WOJCIECH GÓRKA
Instytut Technik Innowacyjnych EMAG
[email protected]
Streszczenie
W multimedialnym świecie komputerowego wspomagania różnych
czynności wykonywanych przez użytkowników komputerów od kilku lat
zadomowiły się na dobre rozwiązania pozwalające na płynną syntezę
mowy. Rozwiązania wykorzystujące syntezę mowy są we współczesnych
aplikacjach użytecznym dodatkiem dla użytkowników. Dotyczy to
zwłaszcza osób niewidomych, dla których synteza głosu jest tym, czym dla
widzących monitor – podstawowym interfejsem komunikacyjnym
pozwalającym na bezpośrednią komunikację człowieka z komputerem.
Przy rozwiązywaniu problemów osób z różnymi dysfunkcjami pomija się
problem ludzi niesłyszących. Artykuł sygnalizuje problem osób
niesłyszących postulując, by podobnie jak w przypadku osób
niewidomych, zrealizować rozwiązania wspierające osoby z dysfunkcjami
słuchu w zakresie języka migowego. W artykule przedstawione zostały
rozważania na temat możliwości implementacji interfejsu Speech
Application Programming Interface (Microsoft) używanego przez
syntezatory mowy, w zastosowaniu języka migowego (awatar
prezentujący gesty języka migowego). Przedstawione zostały
dotychczasowe doświadczenia jak również problemy związane z
realizacją tego typu mechanizmu, niewerbalnego przekazywania treści.
2
M. Socha, W. Górka
1. Wstęp
W multimedialnym świecie komputerowego wspomagania różnych czynności
wykonywanych przez użytkowników komputerów od kilku lat zadomowiły się na
dobre rozwiązania pozwalające na płynną syntezę mowy. Nie jest już barierą zamiana
dowolnych tekstów na mowę, niezależnie od języka i złożoności tekstu, czy jego
długości. Jakość tak generowanej mowy jest również coraz wyższa, a rozwiązania
udostępniające usługę syntezy mowy są powszechnie dostępne. Ceny rozwiązań są
relatywnie niskie oraz co należy podkreślić istnieją darmowe rozwiązania oferujące
syntezę mowy. Dziedzina syntezatorów mowy została dobrze rozpoznana
oprogramowana i co bardzo istotne zestandaryzowana. Zwłaszcza standaryzacja, ale
również wzrost mocy komputerów, umożliwiły implementacje rozwiązań
wykorzystujących syntezę mowy na różnorodnych urządzeniach, niezależnie od
rozwiązań systemowych. Obecnie synteza mowy jest obecna zarówno na komputerach
stacjonarnych, jak i na urządzeniach mobilnych w postaci smartfonów.
Rozwiązania wykorzystujące syntezę mowy są we współczesnych aplikacjach
użytecznym dodatkiem dla użytkowników. Dotyczy to zwłaszcza osób niewidomych,
dla których synteza głosu jest tym, czym dla widzących monitor – podstawowym
interfejsem komunikacyjnym pozwalającym na bezpośrednią komunikację człowieka
z komputerem. Synteza mowy pozwala m.in. osobom niewidomym samodzielnie
korzystać z komputera lub telefonu dzięki oprogramowaniu typu czytniki ekranu albo
czytać gazety lub książki.
Przy rozwiązywaniu problemów osób z różnymi dysfunkcjami pomijany jest problem
ludzi niesłyszących. U osoby tych, oprócz trudności w zakresie orientacji
przestrzennej, poruszania się i percepcji, dominującym problemem życia codziennego
są bariery w porozumiewaniu się. Wbrew powszechnie krążącemu przekonaniu osoby
głuche w większości przypadków nie potrafią porozumiewać się z wykorzystaniem
słowa pisanego ani czytać z ruchu warg [8]. Dla większości z nich urzędowe
formularze, książki, gazety, czy Internet, są ciągle czymś nieznanym, obcym. Osoby
niesłyszące od urodzenia wykorzystują kanał wizualno-przestrzenny i bazujący na nim
język migowy, jako naturalny środek komunikacji. Niesłyszący szczególnie często
borykają się z ogromnymi problemami komunikacyjnymi przy okazji załatwiania
spraw w instytucjach publicznych, takich jak urzędy czy banki. Również korzystanie z
komputera czy Internetu jest utrudnione, ponieważ media te opierają się o słowo
pisane i mimo wyraźnego przesunięcia środka ciężkości w kierunki multimediów
osoby niesłyszące nadal borykają się problemami korzystając z Internetu. Dla osób
niesłyszących język pisany jest językiem obcym wymagającym dodatkowego
wytężenia uwagi w celu zrozumienia przekazywanego komunikatu. W artykule
przedstawione zostały rozważania na temat możliwości implementacji interfejsu SAPI
oraz doświadczenia i problemy związane z realizacją tego typu mechanizmu.
Możliwości zastosowania awatara języka migowego do interfejsu SAPI
3
2. Co to jest SAPI
SAPI (Speech Application Programming Interface) to interfejs programowy
opracowany przez firmę Microsoft, aby umożliwić korzystanie z mechanizmów
rozpoznawania i syntezy mowy w aplikacjach okienkowych pracujących pod kontrolą
systemu operacyjnego Windows. SAPI zostało zaprojektowane tak, że programista
może budować własną aplikację wykorzystującą mechanizm rozpoznawania i syntezy
mowy przy użyciu standardowego zestawu interfejsów, dostępnych z poziomu
różnych języków programowania. Rozwiązanie SAPI ma charakter rozwiązania
szkieletowego i zapewnia nie tylko interfejs programowy do udostępnianych przez
Microsoft usług, ale możliwe jest, aby zewnętrzna firma (tzw. third party) udostępniła
własny silnik rozpoznawania i syntezy mowy. Dzięki takiemu podejściu firmy trzecie
mogą tworzyć własne implementacje zgodne z interfejsem SAPI, a twórcy
oprogramowania mogą je wykorzystywać nie wiążąc się jednak trwale z konkretnym
dostawcą. Zwiększa to elastyczność rozwiązania, pozwala na budowanie
konkurencyjnych rozwiązań dla poszczególnych języków narodowych. Z jednej
strony wpływa to na stałe poprawianie jakości oferowanych rozwiązań. Z drugiej
strony podeście szkieletowe daje możliwość do wykreowania rozwiązań
nowatorskich, nawet takich, które nie mieściły się w założeniach projektantów.
Możliwa jest swobodna zmiana mechanizmu bez konieczności ingerencji
programistycznych. Może to być wykorzystane m.in. do budowania głosów syntezy
mowy o różnych barwach (głos męski, glos żeński) oraz w różnych językach.
Przykładem jest IVO Software, która implementuje różne głosy (płeć, język) zgodne z
interfejsem SAPI. Innym przykładem jest synteza głosu indywidualnego i
niepowtarzalnego1.
3. Specyfika języka migowego
W Polsce osoby niesłyszące posługują się dwoma odmianami języka migowego.
Pierwsza odmiana to System Językowo-Migowy (SJM), który uwzględniając
definicję, językiem migowym nie jest. Druga odmiana to Polski Język Migowy (PJM)
i tu zgodnie z definicją jest to język wizualno-przestrzenny nabyty drogą naturalnej
akwizycji przez głuche dzieci od głuchych rodziców. SJM nie należy traktować jako
pełnoprawny język, a raczej jako język migany, gdzie miganie służy przekazywaniu
treści. W zależności od interpretacji, SJM jest opisywany jako wizualno-przestrzenny
odpowiednik języka polskiego lub jako język sztuczny powstały z połączenia
elementów języka polskiego i PJM. Jest to właściwie przełożenie języka polskiego na
gesty w języku migowym. Szyk słów, gramatyka pozostały zachowane z języka
polskiego, a słowa z języka polskiego są prezentowane jako odpowiednie gesty.
PJM jest językiem naturalnym dla osób niesłyszących zwłaszcza dla osób
niesłyszących od urodzenia. Jest on całkowicie odrębnym językiem w stosunku do
języka polskiego. PJM jest językiem o własnej, odmiennej od języka polskiego,
1
http://vocalid.org/
4
M. Socha, W. Górka
strukturze gramatycznej [9][10]. Ważną rolę w komunikatach PJM odgrywają
elementy niemanualne, w szczególności: położenie tułowia i głowy (odchylenia,
zwroty) oraz mimika [6][11]. Dla osób słyszących (w szczególności tłumaczy) PJM
jest trudniejszy do poznania i użycia niż SJM. O ile tłumaczenie SJM mogłoby
polegać na prostej zamianie słowa na gest o tyle tłumaczenie z języka polskiego na
PJM wymaga pełnej translacji jak w przypadku języka obcego. Istotne jest również by
zauważyć różnicę w zasobie słów języka migowego w stosunku do języka
mówionego. Język migowy ma znacznie ograniczone słownictwo. Jest ono również w
dużej mierze zależne od kontekstu użycia. Dodatkowo brakuje pewnych pojęć
szczególnie abstrakcyjnych, które trzeba zastępować pewnymi uproszczeniami
słownymi.
4. Potrzeba połączenia SAPI i języka migowego
O ile oczywiste wydaje się, że konieczne jest udźwiękowienie tekstów dla osób
niewidomych, o tyle wspieranie osób niesłyszących w czytaniu często spotyka się z
niezrozumieniem. Wydaje się, że osoby niesłyszące mogą czytać teksty. Niestety
osoby niesłyszące, zwłaszcza niesłyszące od urodzenia, mają duże trudności ze
zrozumieniem słowa pisanego. Język pisany jest dla nich językiem obcym. Ich
naturalnym językiem jest język migowy. Podobnie, jak dla osób niewidomych dużym
ułatwieniem jest udźwiękowienie tekstów i innych elementów np. widoku ekranu
monitora, tak dla osób głuchych przydatne byłoby łatwe udostępnienie tekstów
przedstawianych w formie języka migowego. Osoby niewidome wykorzystują w tym
celu różnego rodzaju „udźwiękowione” narzędzia. Są to tzw. „screen-reader’y”, które
pozwalają udźwiękowić różne elementy wyświetlane na ekranie. Użytkownik
poruszając się po ekranie otrzymuje komunikaty głosowe o aktywnych w danym
momencie elementach. Wszystkie te narzędzia w systemie operacyjnym Windows
korzystają z syntezy mowy za pośrednictwem interfejsu SAPI. Jest to wygodne
rozwiązanie zarówno dla programistów jak i dla użytkowników – nie wymaga od
programistów osadzania i oprogramowania syntezy mowy, a użytkownikom pozwala
zastosować wybrany przez nich głos o odpowiedniej barwie i języku. W przypadku
gdyby do interfejsu SAPI podpiąć moduł lektora języka migowego, wiele
mechanizmów byłoby dostępnych automatycznie – min. screen readery, możliwość
przedstawiania napisów w filmach w języku migowym itp.
5. Problemy do rozwiązania
Pierwszą i podstawową barierą do pokonania jest brak standaryzacji i kodyfikacji
języka migowego. O ile język SJM jest w jakiś sposób sformalizowany (podział
słownictwa języka na pewne poziomy związane z cyklem nauczania tego języka) o
tyle dla języka PJM wciąż brakuje standaryzacji [6].
Zastosowanie lektora języka migowego do interfejsu SAPI stawia przede wszystkim
wymaganie tłumaczenia tekstów języka pisanego na język migowy. Jak już zostało to
wspomniane język migowy szczególnie PJM jest językiem obcym w stosunku do
Możliwości zastosowania awatara języka migowego do interfejsu SAPI
5
języka polskiego. W przypadku tłumaczenia na język SJM zagadnienie tłumaczenia
jest dużo prostsze. Właściwie sprowadza się to do tłumaczenia wprost z języka
pisanego na język migowy. Jednak i tutaj można napotkać pewne problemy zwłaszcza
dotyczące różnicy w zasobie słów.
Druga barierą do pokonania jest zniwelowanie braku niektórych słów w języku
migowym w stosunku do języka pisanego i mówionego. Niektóre słowa w języku
migowym zastępowane są przez omówienie ich słowami prostszymi lub
analogicznymi. Tego typu operację można do pewnego stopnia zautomatyzować
korzystając ze słownika wyrazów bliskoznacznych. Gdy brak danego słowa mogłoby
one być poszukiwane w słowniku wyrazów bliskoznacznych i na podstawie
znalezionych propozycji ponownie szukane w posiadanym słowniku języka
migowego. Pewne znane tego typu „połączenia” można by również zdefiniować by
były dostępne od razu. Dotyczy to zwłaszcza słownictwa komputerowego (pewnych
utartych sloganów i słów występujących w komputerze, z którymi użytkownik spotka
się zwłaszcza w przypadku zastosowania tzw. screen-reader’a).
Ważne jest też właściwe ustawienie awatara – lektora na ekranie komputera. O ile głos
w przypadku klasycznego wykorzystania interfejsu SAPI nie koliduje z żadnymi
elementami na ekranie (a ewentualne inne głosy można wyciszyć) o tyle lektor
wymaga odpowiedniego położenia na ekranie takiego by nie kolidował z
uruchomionymi aplikacjami, a jednocześnie był dobrze widoczny dla użytkownika.
W tym miejscu nasuwa się kilka pomysłów związanych z położeniem lektora na
ekranie:
− pojawianie się lektora w momencie użycia. Polegałoby to na pojawianiu się
lektora dopiero w momencie wywołania akcji mówienia – migania. Po
zakończeniu „migania” lektor by znikał. Takie rozwiązanie pozwala na lepsze
zagospodarowanie przestrzeni ekranu gdyż lektor niepotrzebnie nie zajmuje
go. Z drugiej strony może powstać wrażenie „skakania” jakichś elementów
interfejsu użytkownika, co może powodować dyskomfort.
− pojawianie się lektora przy aplikacji lub w miejscu położenia myszki lub
innego wskaźnika (np. kursora). Takie rozwiązanie pozwoliłoby na
koncentrację na wykonywanym zadaniu. Użytkownik nie musiałby odrywać
wzroku od elementu ekranu, nad którym pracuje by zobaczyć wypowiedź w
języku migowym - nie musiałby poszukiwać lektora na ekranie. Z drugiej
strony dość powszechna (za przyczyną telewizji) jest pozycja lektora w
dolnym rogu ekranu. Stąd też taka opcja być może powinna być
konfigurowalna.
− użytkownik powinien łatwo włączyć i wyłączyć lektora (np. za pomocą
jakiegoś skrótu klawiatury) tak by w razie konieczności nie przeszkadzał w
normalnej pracy.
− lektor musiałby być widoczny, jako pełna postać. W przypadku języka SJM
wystarczy właściwie widok od pasa w górę i dobry widok na układ rąk i
palców. W przypadku języka PJM wydaje się, że konieczne jest
wizualizowanie całej postaci gdyż język ten zakłada ruch nie tylko dłoni, ale
całego ciała. Być może rozwiązaniem byłaby zmiana kadru widoku na postać
M. Socha, W. Górka
6
w zależności od gestu. To mogłoby zaoszczędzić miejsca na ekranie w celu
wyświetlenia postaci. Konieczne byłoby opracowanie modułu programowego
odpowiedzialnego za układ sceny, który planowałby ruch kamery w
zależności od znaków do zaprezentowania. Musiałby on sprawdzać znaki w
kolejce tak, by ruch kamerą był w miarę możliwości płynny – by kamera nie
przemieszczała się zbyt często. Tego typu rozwiązanie należałoby jednak
zweryfikować, bo może wprowadzać również niepotrzebne wrażenie ciągłego
ruchu a przez to może być mało komfortowe w odbiorze.
Kolejny problem do rozwiązania to kontekstowość języka i doboru słów. W każdym
tłumaczeniu ważne jest by wiedzieć, z jakiego kontekstu pochodzą słowa do czytania.
Pomaga to w doborze słów i interpretacji tekstu źródłowego tak by właściwie
przetłumaczyć go na język docelowy. W języku migowym jest to szczególnie istotne
ze względu na konieczność upraszczania słownictwa (ew. omawiania słów) ze
względu na węższy słownik wyrazów w tym języku w stosunku do języka pisanego i
mówionego [4]. Rozwiązaniem może być wykrywanie kontekstu tłumaczenia w
zależności od próbki tekstu i stopniowe przełączanie kontekstu w miarę napływania
kolejnych tekstów do tłumaczenia lub w zależności od aplikacji, jaka zgłasza tekst do
tłumaczenia np. inne traktowanie tekstów pochodzących z przeglądarki internetowej,
inne z komunikatora internetowego a jeszcze inne z edytora tekstu lub odtwarzacza
filmów. Kolejnym sposobem może być prosta metoda samodzielnego wyboru
kontekstu bezpośrednio przez użytkownika. Jawny wybór a nie wnioskowanie
kontekstu mogłoby się odbywać przez wskazanie dziedziny, z którą związane jest
słownictwo tekstu do tłumaczenia. Takie podejście opiera się na założeniu, że
użytkownik ma już rozeznanie w treści dokumentu, który chce przetłumaczyć.
6. Dotychczasowe doświadczenia
Dotychczasowe doświadczenia autorów związane z tłumaczeniem tekstów na język
migowy i prezentowanie ich za pomocą wirtualnego lektora języka migowego
związane są przede wszystkim z realizowanym projektem Infomat-E1. Prace w trakcie
realizacji tego projektu prowadzone były we współpracy [2] z Politechniką Śląską i z
firmą Artifex Mundi (wizualizacja lektora). Zespół z Politechniki Śląskiej był
odpowiedzialny za moduły dokonujący automatycznego tłumaczeniu tekstów z języka
polskiego na język migowy. W projekcie Infomat-E jako język docelowy był wybrany
SJM. Wyboru takiego dokonano ze względu na znacznie większe przebadanie tego
języka w porównaniu z językiem PJM. Firma Artifex Mundi odpowiadała za
stworzenie i oprogramowanie postaci wirtualnego lektora języka migowego. Zespół z
Instytutu EMAG odpowiadał za opracowanie systemu Infomat-E i integrację
wszystkich komponentów programowych i sprzętowych. W kontekście rozważań
wpisujących się w tematykę artykułu na uwagę i bardziej szczegółowe omówienie
zasługuje moduł wirtualnego lektora języka migowego.
1
Projekt nr N R02 0059 06/2009: System informacji publicznej dla osób z dysfunkcjami
narządów wzroku i słuchu INFOMAT-E
Możliwości zastosowania awatara języka migowego do interfejsu SAPI
7
Rysunek 1. Koncepcja komponentu zmiany formy przekazu.
Moduł wirtualnego lektora języka migowego zrealizowano, jako komponent
programowy dokonujący zmiany formy przekazu informacji z zapisu testowego na
sekwencje odpowiadających tekstowi animacji wideo w języku migowym.
Dostarczone na wejściu dane w postaci tekstowej zawierające treść w języku
migowym są analizowane przez moduł awatara. W wyniku analizy zostaje ustalona
niezbędna do wyrażenia treści sekwencja animacji zawierająca poszczególne gesty
składowe. Skomponowana sekwencja animacji jest następnie przekazywana do
podsystemu odpowiedzialnego za wyświetlenie całości wypowiedzi w formie jednej
spójnej animacji. W tym podsystemie łączone są animacje poszczególnych gestów w
taki sposób, by w finalnej animacji przejścia miedzy elementami składowymi były
naturalne i nie powodowały niepożądanych drgań wirtualnej postaci, przeskoków
podczas ruchu rąk czy deformacji trójwymiarowego modelu postaci awatara.
Zrealizowany moduł awatara języka migowego SJM został wyposażony w bazę
gestów języka SJM słownikowo odpowiadających zakresowi słownictwa z pierwszych
dwóch poziomów nauki tego języka migowego. Całość została tak przemyślana i
zrealizowana, żeby moduł awatara był niezależny od bazy gestów. Uzyskany w ten
sposób stopień swobody pozwala na elastyczne kształtowanie wielkości samej bazy,
ale również pozwoli w przyszłości na zmianę języka, w jakim awatar będzie
prezentował treści na PJM. Zrealizowany moduł wirtualnej postaci migającej został
zrealizowany w technologii umożliwiającej osadzenie modułu na stronie internetowej
gdzie środowiskiem wykonawczym jest przeglądarka internetowa. Zabieg ten
pozwolił uczynić moduł niezależnym od systemu operacyjnego. W trakcie
uruchamiania pojawiły się jednak pewne problemy związane ze środowiskiem
uruchomieniowym, tj. przeglądarką internetową. W trakcie testów pojawiły się
różnice w funkcjonalności oferowanej przez moduł w zależności od typu przeglądarki,
w której awatar migał. Nie były to jednak różnice, które wpływały na podstawową
funkcjonalność modułu awatara.
Podczas projektowania modułu awatara na potrzeby projektu Infomat-E zespół
projektowy brał pod uwagę inne możliwe wykorzystania projektowanego modułu.
Kwestia integracji z SAPI była również rozpatrywana. Miało to wpływ na dobór
języka i technologii wykonania modułu. Został wybrany framework umożliwiający
8
M. Socha, W. Górka
tworzenie modułu, tak by mógł być uruchamiany pod kontrolą różnych systemów
operacyjnych, jako moduł lub jako samodzielny program.
Tę otwartą cechę projektu wykorzystano w trakcie prac programistycznych i
zrealizowano próbną implementację awatara współpracującą z interfejsem SAPI.
Próbna implementacja nie obejmowała tłumaczenia tekstów na język migowy a
jedynie zastępowanie słów z tekstu pisanego na język migowy. Oznaczało to, że do
interfejsu SAPI musiały trafiać teksty reprezentujące ciągi gestów języka migowego
ułożone tak, by odpowiadały finalnej animacji wypowiedzi w języku migowym.
W trakcie realizacji projektu Infomat-E powstał moduł realizujący automatyczne
tłumaczenie języka polskiego na SJM. Moduł został przygotowany tak by możliwe
były tłumaczenia tekstów krótkich, ale stosunkowo prostych, gdzie użyte słownictwo
można było zaliczyć do podstawowego zbioru słów. Natomiast w konkretnym
zastosowaniu, jakie miało miejsce w projekcie Infomat-E teksty tłumaczone na SJM
obejmowały głównie zagadnienia związane z opisem usług realizowanych w urzędach
administracji samorządowej. Specyfika tych tekstów zarówno pod kątem użytego
słownictwa jak i złożoności tekstu wykraczała poza możliwości modułu
automatycznego tłumaczenia. W efekcie do awatara migającego trafiał tekst, który nie
był w całości przetłumaczony, co doprowadzało do tego, że moduł migający nie
mogąc zinterpretować napływających danych uwzględniając bazę gestów przełączał
się w tryb literowania. Takie podejście zapewniało, że moduł awatara będzie działał,
ale było to tylko i wyłącznie zapewnienie ciągłości pracy na poziomie technicznym.
Na poziomie merytorycznym wyświetlana animacja, mimo iż nadal była płynna, nie
niosła treści.
Ułomne działanie automatycznego tłumaczenia wynikało głównie z tego, że
słownictwo użyte do opisu procesów administracyjnych zawierało wiele pojęć
abstrakcyjnych, które nie występują po stronie języka migowego. Tłumaczenie tekstu
wymagało wiec każdorazowo zastępowania pojęcia abstrakcyjnego opisem
definiującym jego znaczenie. Takie podejście doprowadzało do utraty sensu treści po
przetłumaczeniu. Ostatecznie w projekcie Infomat-E moduł automatycznego
tłumaczenia na język migowy został tak wkomponowany, że stanowił jedno z narzędzi
wspierających proces ręcznego tłumaczenia treści z języka polskiego na język migowy
SJM.
7. Podsumowanie
Interfejs SAPI jest rozwiązaniem dojrzałym i w przeciągu lat współistnienia z
systemem operacyjnym stał się już jego nieodłączną częścią. Pozwoliło to wydzielić
na poziomie systemu operacyjnego zestaw specjalnych funkcji, dedykowanych
osobom mającym z różnych względów trudności w posługiwaniu się interfejsem
graficznym systemu operacyjnego. Obecnie systemy operacyjne dostarczają
użytkownikom z dysfunkcjami wzroku specjalne funkcje umożliwiające korzystanie z
komputera w sposób komfortowy. Mowa tu o ułatwieniach zwiększających kontrast
wyświetlanych elementów graficznego interfejsu użytkownika (w zakresie
pozostającym pod kontrolą systemu operacyjnego), ułatwieniach polegających na
Możliwości zastosowania awatara języka migowego do interfejsu SAPI
9
powiększaniu wybranego fragmentu ekranu tj. o lupie ekranowej. W zestawie jest
również dostępny narrator, który odczytuje wszystkie teksty widoczne na ekranie, co
pozwala użytkownikom niewidomym samodzielnie korzystać z komputera. Ostatnie
ułatwienie w przypadku systemów operacyjnych z rodziny Windows oparte jest o
interfejs SAPI. Jednak to i pozostałe ułatwienia skierowane są do osób słabo lub
niewidzących. Osoby niesłyszące, które mają problemy z rozumieniem tekstu
pisanego są pozostawione bez wsparcia i bez ułatwień pomagających im korzystać z
komputerów. Posługując się analogią do sytuacji osób niewidomych, mając wiedzę na
temat możliwości multimedialnych komputerów można zaproponować wykorzystanie
funkcji zamiany tekstu na mowę dedykowane osobom głuchym.
Idea potraktowania języka migowego, jako mowy przenoszonej kanałem wizyjnym i
połączenia z windowsowym interfejsem SAPI wydała się autorom na tyle oczywista i
atrakcyjna, że mimo iż nie było to celem ich prac, zostały podjęte wysiłki mające na
celu potwierdzenie możliwości faktycznej realizacji takiej idei. Opisane
doświadczenia potwierdziły, że koncepcja jest realna i co więcej implementacja tego
typu rozwiązania nie będzie nastręczać większych problemów. Nie jest też kłopotliwa
integracja z systemem operacyjnym. Wysiłek wkładany w implementacje może być w
całości skierowany na osiągnięcie celu i nie ma potrzeby zmagać się z integracją z
systemem operacyjnym, czy prowadzić skomplikowane analizy mające wskazać
miejsca i funkcje systemu operacyjnego, które powinny być objęte zamianą tekstu na
mowę.
Wysiłek można zatem ukierunkować inaczej, na przykład poszukując obszarów gdzie
taki awatar migający może być wykorzystany i jaki może być zakres tego użycia.
Jednym z możliwych zastosowań awatara migającego jest integracja takiego modułu z
oprogramowaniem do odtwarzania filmów, gdzie moduł mógłby być lektorem języka
migowego. Dałoby to możliwość swobodnego oglądania filmów osobom
niesłyszącym.
Niezależnie od przyszłych zastosowań sama koncepcja wykorzystania mechanizmów
zamiany tekstu na mowę wymaga jeszcze sporo pracy by implementacje były
użyteczne i atrakcyjne dla użytkowników końcowych. Dotychczasowe doświadczenia
pozwoliły zidentyfikować obszary, na których należy się skupić. Obszar, który jest
szczególnie istotny dla użytkowników końcowych, to rozpoznawalność [1] gestów
awatara migającego. Na rozpoznawalność gestów ma wpływ wiele czynników, ale
dwa wydają się kluczowe [7]. Pierwszy z czynników to wielkość postaci awatara,
która musi być wyświetlana na ekranie. Im większa postać tym łatwiej będzie
rozpoznać gesty, ale tym większa cześć ekranu będzie zasłonięta i użytkownik będzie
tracił dostęp do informacji źródłowej.
Drugim kluczowym dla czytelności gestów czynnikiem jest realność gestykulacji.
Uzyskanie realnie wyglądających gestów wymaga zbudowania odpowiedniego
modelu trójwymiarowego awatara migającego [3]. W tworzeniu modelu muszą
uczestniczyć eksperci z dziedziny anatomii oraz biomechaniki aparatu ruchowego
ciała ludzkiego. Ponadto niezbędny jest udział grafików specjalizujących się w
modelowaniu postaci ludzkich. Prócz grafików na etapie przygotowywania bazy
M. Socha, W. Górka
10
gestów niezbędny jest udział animatorów, którzy przełożą wiedzę ekspertów z zakresu
anatomii i kinematyki na ruch wirtualnej postaci.
Od strony wizualnej należy zadbać jeszcze o stworzenie spójnej graficznej formuły
dla całego rozwiązania.
Dużym wyzwaniem, które w znacznym stopniu wymaga rozwiązania jest uzyskanie w
pełni autonomicznego modułu dokonującego translacji tekstu z języka polskiego na
listę gestów języka migowego. Należy opracować metody adaptacyjnego
dopasowywania słownictwa do wykrytego kontekstu. Nakładu pracy wymaga również
problem dużej rozbieżności między rozmiarami słowników języka polskiego i języka
migowego. W tym zakresie wymagana jest współpraca z językoznawcami oraz
ekspertami z zakresu translacji. Jednak podczas rozwiązywania tych problemów
należy pamiętać o wydajności całego rozwiązania. Nie można dopuścić by moduł
translacji wprowadzał opóźnienia w działania wirtualnego awatara migającego.
Mimo wielu wyzwań, jakie pozostały do podjęcia i pozostających do rozwiązania
problemów, autorom wydaję się, że idea wykorzystania SAPI, jako interfejsu
umożliwiającego odczytywanie w języku migowym jest wartościowa. Wysiłki
włożone w opracowanie takiego rozwiązania pozwolą na zmniejszenie bariery, z jaką
spotykają się osoby niesłyszące w codziennym życiu, kiedy do czynienia mają z
tekstem pisanym w języku polskim, który jest dla nich językiem obcym.
LITERATURA
1.
2.
3.
4.
5.
6.
7.
8.
9.
Adamo-Villani N.: 3D Rendering of American Sign Language Finger-Spelling: A
Comparative Study of Two Animation Techniques. International Journal of Social Sciences 3,
no. 4, 2008.
Kulików S.: Implementacja serwera analizy lingwistycznej dla systemu Theos-translatora
tekstu na język migowy. Studia Informatica 24, 3 , s. 171÷178 2003.
Lowe, N., Strauss, J., Yeates, S., & Holden, E. J.: Auslan jam: a graphical sign language
display system. In Proc. 6th Annual Conf. on Digital Image Computing Techniques and
Applications s. 98÷103 2002.
O’Shaughnessy D. Parsing with small dictionary for applications such as text to speech.
Computional Linguistic, 15, s. 97÷108, 1989.
Szmal. P., Suszczańska N.: Selected problems of translation from the Polish written language
to the sign language. Archiwum Informatyki Teoretycznej i Stosowanej 13 (): s. 37-51, 2001.
Tomaszewski P.: Polski Język Migowy (PJM) – mity i fakty." Poradnik Językowy 06, s.
59÷72, 2004.
Yeates S., Holden E., Owens R.: Real-time 3D graphics for human modeling and teaching
sign language. Proc. International Conf. on Computer Vision and Graphics. 2002. Proc.
International Conf. on Computer Vision and Graphics. 2002.
Albińska P.: Problemy życia społecznego i zawodowego osób niedosłyszących i głuchych,
Materiały promocyjne projektu eFESTO (2009-1-PL1-LEO05-05028), 2009.
Mrozik M.: Wstępne uwagi o morfologii Polskiego Języka Migowego (PJM), Studia nad
kompetencją językową i komunikacją niesłyszących, Uniwersytet Warszawki, Warszawa
2003
Możliwości zastosowania awatara języka migowego do interfejsu SAPI
11
10. Świdziński M., Mikulska D.: Reprezentacja linearna tekstu Polskiego Języka Migowego,
Uniwersytet Warszawki, Warszawa 2003.
11. Mikulska D.: Elementy niemanualne w Polskim Języku Migowym, Studia nad kompetencją
językową i komunikacją niesłyszących, Uniwersytet Warszawki, Warszawa 2003.