Korpus PJM największy na świecie

Transkrypt

Korpus PJM największy na świecie
Powstający korpus polskiego języka migowego już
największy na świecie
07.08.2013 SPOŁECZEŃSTWO
Ponad 300 godzin nagrań i 200 tys. opisanych znaków języka migowego
znajduje się w opracowywanym od trzech lat, na Uniwersytecie
Warszawskim korpusie polskiego języka migowego (PJM). Już teraz jest on
największym zbiorem danych o języku migowym na świecie.
Korpus językowy to zbiór danych tekstowych dostępnych w formie elektronicznej,
stanowiący materiał do badań nad językiem. Naukowcy pracujący nad korpusem PJM
najpierw nagrywają zamigane rozmowy i wypowiedzi osób głuchych, a potem te
nagrania analizują i opisują użyte znaki i konstrukcje gramatyczne.
„Obecnie mamy nagranych prawie 80 głuchych użytkowników PJM. W sumie to ponad
300 godzin nagrań. Zbiór wyodrębnionych i sklasyfikowanych elementów liczy już
około 200 tys. Pod tym względem mamy teraz największy korpus języka migowego na
świecie” – powiedział PAP kierujący pracami dr Paweł Rutkowski z Pracowni
Lingwistyki Migowej Uniwersytetu Warszawskiego.
Fot. Fotolia
W każdej sesji nagraniowej uczestniczą dwie osoby głuche, które prowadzą rozmowy na tematy przygotowane przez
naukowców. „Chcemy, aby zgromadzone dane, jak najbardziej odpowiadały prawdziwej, spontanicznej konwersacji Głuchych.
Nie chcemy, by były to dyskusje wyreżyserowane i nienaturalne” – wyjaśnił dr Rutkowski.
Badane osoby nie ograniczają się do krótkich wypowiedzi, ale rozwiązują 20 lingwistycznych zadań, dlatego nagranie jednej
osoby trwa około 5 godzin. „Po każdej sesji nagraniowej mamy więc 10 godzin nagrań” – powiedział rozmówca PAP.
Plan rozmowy rozpisany jest co do minuty. Badani mają np. powiedzieć, jak dojść do miejsc pokazanych na mapie, uzgodnić
termin spotkania, opowiedzieć obejrzany fragment filmu, przypomnieć sobie, co robili, kiedy dowiedzieli się o ataku na
nowojorskie World Trade Center itp.
„Nie możemy powiedzieć: +zamigaj nam, jak wygląda czas przeszły, negacja lub tryb rozkazujący w twoim języku+. Niewielu
ludzi, również słyszących, potrafi przecież opisywać gramatykę. Tak skonstruowaliśmy nasze zadania, by ich wykonanie
wymagało odniesienia do czasu przeszłego, użycia negacji lub zamigania zdania rozkaźnikowego. Zebrane w ten sposób dane
są nieocenionym źródłem wiedzy o tym, jak naprawdę wygląda PJM. Widzimy np. jak Głusi operują przestrzenią, jak opisują
relacje czasowe, jak tworzą struktury zdaniowe. Ich język jest fascynujący – równie złożony jak języki foniczne, ale zupełnie
różny od nich pod względem wielu cech gramatycznych” – opisał uczony.
Każda rozmowa nagrywana jest przez pięć kamer, umieszczonych w różnych miejscach studia. W języku migowym bardzo
ważne jest nie tylko to, jaki znak jest pokazywany, ale też w jakiej odległości od ciała ustawiane są dłonie. Właśnie dlatego
jedna z kamer podwieszona jest pod sufitem i nagrywa rozmawiających z góry.
„Korpus jest skarbnicą wiedzy nie tylko o gramatyce języka migowego, ale też o kulturze Głuchych. Zbierając dane
lingwistyczne, przy okazji zbieramy informacje o tym, jak wygląda życie Głuchych na początku XXI wieku w Polsce. My słyszący
często zapominamy, iż Głusi są jedną z najliczniejszych mniejszości językowych w Polsce, mającą własne tradycje, własną
kulturę, poezję, teatr, savoir-­vivre itp.” – zaznaczył rozmówca PAP.
W badaniu biorą udział Głusi z całej Polski. Najstarszy badany ma 82 lata, a najmłodsi 18 lat. Dzięki takiemu zróżnicowaniu
naukowcy dowiedzą się, jak znaki i konstrukcje używane w Warszawie różnią się od używanych np. we Wrocławiu i
przeanalizują, jak migają osoby najstarsze, a jak najmłodsze.
„Już teraz widzimy, że różnorodność między poszczególnymi migającymi jest dużo większa, niż w przypadku polszczyzny
mówionej. Wynika to z różnic w edukacji: każda szkoła dla Głuchych jest trochę inna, każde większe miasto ma swoje
środowisko użytkowników PJM. Nie istnieje jedna +wzorcowa+ wersja języka migowego. PJM rozwija się spontanicznie, tak jak
inne języki naturalne” – wyjaśnia dr Rutkowski.
Kto będzie mógł korzystać z danych zgromadzonych w korpusie? „Musimy być tutaj bardzo ostrożni. To delikatna kwestia” –
podkreśla uczony. Cały problem polega na tym, że wypowiedzi migowych nie można zaprezentować bez pokazania twarzy
badanego. Uczestnicy nagrań korpusowych nie zawsze chcą natomiast, by ich wizerunek był dostępny publicznie. „Korpus na
pewno nie będzie w całości dostępny w internecie, poza wybranymi próbkami. Najprawdopodobniej dostęp do danych będzie
możliwy po wykazaniu, że będą one wykorzystywane wyłącznie do potrzeb badawczych czy dydaktycznych, a nie np.
komercyjnych” – wyjaśnił rozmówca PAP.
Nad opracowaniem korpusu pracuje około 20 osób, z czego połowę stanowią osoby głuche. „My słyszący nigdy nie bylibyśmy
w stanie opisać tego języka tak dobrze jak jego użytkownicy. To, że dysponujemy teraz największym zanotowanym korpusem
migowym na świecie, to w dużej mierze ich zasługa. Jestem niezmiernie wdzięczny głuchym kolegom, że chcą dzielić się swoją
kompetencją językową ze słyszącymi” – podkreśla dr Rutkowski.
Środki na przeprowadzenie pierwszej części prac naukowcy uzyskali z Fundacji na rzecz Nauki Polskiej oraz Narodowego
Centrum Nauki. Jeżeli uda się uzyskać dodatkowe fundusze, to będą je kontynuowali. „Niemiecki projekt tego typu rozpisano
na 20 lat. Zakłada on nagranie ponad 300 osób. Gdyby udało nam się nagrać, proporcjonalnie do populacji Polski, około 150
– 200 osób, to byłby to już ogromny korpus. Jednak jest to zadanie na lata” – zaznacza uczony.
PAP -­ Nauka w Polsce, Ewelina Krajczyńska
ekr/ tot/
Tagi: korpus polskiego języka migowego , uw