CLARIN – infrastruktura naukowa technologii językowych

Transkrypt

CLARIN – infrastruktura naukowa technologii językowych
CLARIN-PL
CLARIN
– infrastruktura naukowa technologii językowych
Maciej Piasecki
Politechnika Wrocławska
Katedra Inteligencji Obliczeniowej
Grupa Naukowa G4.19
[email protected]
2016-04-25
Przykład: analiza pojęcia
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
 Problem:
 znalezienie w tekstach odwołań do pojęcia książka
 analiza przypisywanych cech i powiązań z innymi pojęciami
 Przykłady z sieci:
W książce rękopiśmiennej najczęściej występowało
ukształtowanie jedno- lub dwukolumnowe. (Wikipedia)
W ciągu dziesięciu lat powstały cztery książki, nie jest to więc
oszałamiający dorobek. (http://ksiazkioli.blogspot.com/)
Jak napisać fascynującą książkę z intrygującą fabułą i odnieść
sukces? (sites.google.com/site/pisarstwo/)
Za książką kryje się autor. Jego pisanie jest więc zawsze listem
do czytelnika. Piszemy zazwyczaj listy do przyjaciół. Książka
jest listem autora do przyjaciela. [Jarosław Iwaszkiewicz]
(za: http://www.sp21.lublin.pl/biblioteka/cytaty.htm)
Przykład: Mapa Literacka
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
 Literaturoznawstwo – badania geokrytyczne
 przestrzeni kreowanej w tekstach literackich
 analiza przestrzeni kulturowych związanych ze środowiskiem
elity intelektualnej w okresie powstania utworu
 Selekcja dzieł literackich oraz tekstów (pamiętników,
reportaży, listów) związanych z postacią wybranego twórcy
 Odtwarzanie mapy mentalnej
 miejsca, które mają znaczenie dla danego twórcy
 miejsca, obiekty ważne w ówczesnej epoce literackiej lub na
ówczesnej mapie politycznej
 Wizualizacja
 miejsc obecnych w powieści, np. ilustracja ścieżek pisarzy
 tworzenie mapy miejsc fikcyjnych
 Wsparcie: analizy prowadzone na dużym korpusie tekstów
Przykład: droga do realizacji
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
 Wizualizacja miejsc obecnych w powieści
 przetwarzanie wstępne:
 analiza morfologiczna i morfo-syntaktyczna
 Słowa, lematy, klasy gramatyczne
 rozpoznanie i klasyfikacja jednostek pozasłownikowych, np.
nazw własnych
 powiązanie wyrażeń językowych z obiektami mapy
 Np. miejsca nie są często nazwane w tekście nazwą a opisane
wyrażeniem złożonym: nazwy, wyrażenia przestrzenne, relacje
semantyczne, deskrypcje określone
 funkcje geolokalizacji mapy
 skonfigurowanie systemu: instalacja narzędzi, dopasowanie
formatów, problemy wydajnościowe, wizualizacja wyników, …
 Wnioski:
 problemy użytkownika z użyciem istniejącej technologii
językowej, konieczność rozszerzenia tej technologii
Przykład: droga do realizacji
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
 Mapy wyobrażeniowe
 brak oparcia na istniejącej mapie i geolokalizacji
 konieczność głębokiej i szczegółowej analizy informacji
zawartej w tekście
 rozpoznawanie niedospecyfikowania i sprzeczności
 budowa bazy wiedzy o świecie z tekstu zawierającej model
mapy
 wizualizacja mapy na podstawie bazy wiedzy
 Wnioski:
 poważne i ciekawe wyzwania
 należałoby bardzo poprawić pokrycie i dokładność głębokiej
analizy składniowo-semantycznej
Bariery w zastosowaniu
technologii językowej
 Fizyczna
 narzędzia i zasoby nie są dostępne w sieci
 Informacyjna
 brak opisu narzędzi i zasobów
 brak katalogów i możliwości łatwego odnalezienia
 Technologiczna
 brak standardów, możliwości łączenia elementów technologii
 brak wspólnej platformy – różnorodność rozwiązań
technologicznych
 brak sprzętu o określonych parametrach
 Wiedzy
 wymagane umiejętności programistyczne
 wymagana wiedza z zakresu inżynierii języka naturalnego
 Prawna
 licencje ograniczające dostęp i wykorzystanie
 szczególnie w odniesieniu do korpusów
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
Bariery w zastosowaniu
technologii językowej
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
 Fizyczna
 dostępność: www.clarin-pl.eu, www.clarin.eu
 Informacyjna
 opis: metadane, dokumentacja
 katalog: Virtual Language Observatory
 Technologiczna
 standardy: CMDI, unifikacja standardów dla narzędzi
 platforma – WebLicht, platforma polska w ramach CTJ CLARIN-PL
 sprzęt: Centrum Technologii Językowych CLARIN-PL
 Wiedzy
 aplikacje badawcze rozwijane wspólnie z użytkownikami
 CTJ działające jako centrum typu K (szerzenia wiedzy)
 Prawna
 otwartość! (ang. Open source, open access) otwarte rozwiązania!
 trudne w odniesieniu do korpusów, ale model otwartości wyników
przetwarzania
 Finansowa: otwartość kosztuje, a kto płaci? MNiSW?
CLARIN
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
 CLARIN ERIC (Common Language Resources and
Technology Infrastructure European Research
Infrastructure Consortium)
 Wspólne zasoby językowe i infrastruktura technologiczna
 część europejskiej (ESFRI) i polskiej mapy drogowej
infrastruktury naukowej
 Czym jest
 rozproszona infrastruktura badawcza technologii językowych
dla nauk humanistycznych i społecznych
 kilkadziesiąt centrów technologicznych w 15 krajach
działających jako jeden wspólny system
 jednolity dostęp do zasobów językowych oraz narzędzi i
aplikacji badawczych do analizy tekstu i mowy w wielu
językach europejskich
CLARIN ERIC – Centres
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
CLARIN – Członkowie
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL


15 członków:
 Austria
 Bułgaria
 Czechy
 Dania
 Dutch Language
Union
 Estonia
 Grecja
 Holandia
 Litwa
 Niemcy
 Norwegia
 Polska
 Portugalia
 Słowenia
 Szwecja
 Włochy
Obserwatorzy:
 Wielka Brytania
Podstawowe pojęcia
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
 Zasoby językowe
 zbiory danych i bazy danych opisujące język naturalny oraz jego
użycie
 sformalizowany opis wybranych aspektów języka naturalnego
 Narzędzia językowe
 programy komputerowe do przetwarzania tekstu i mowy na różnych
poziomach analizy języka naturalnego
 automatyczna analiza struktur językowych, np. analiza składniowa
 zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw
własnych
 Technologia językowa = zasoby + narzędzia + infrastruktura
 Infrastruktura językowa
 wspólna baza technologiczna zapewniająca połączenie
zróżnicowanych narzędzi i zasobów językowych
Podstawowe funkcje CLARIN
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
 Ułatwienie dostępu do zasobów językowych
 federacja repozytoriów – Virtual Language Observatory
 federacyjne przeszukiwanie korpusów – Federated Content
Search
 Wsparcie dla automatycznej analizy tekstu i mowy
 paleta gotowych do użycia narzędzi językowych
 usługi sieciowe (Web Services) i aplikacje narzędziowe
 dostęp poprzez repozytoria
 typowe zestawy, możliwość tworzenia własnych zestawów
 Aplikacje badawcze
 budowane pod konkretne potrzeby, często we współpracy z
użytkownikami
 oparte na technologii językowej, ale nie `narzucające’ jej
Podstawowe funkcje CLARIN
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
 Infrastruktura Szerzenia Wiedzy (Knowledge Sharing Infrastructure)
 centra CLARIN typu K – oferujące dostęp do wiedzy eksperckiej i
wsparcie, fizyczne i wirtualne
 poradniki i punkty informacyjne, warsztaty, itd.
 Wymogi dla centrum typu K (wybrane)
 strona WWW z jasno określonym zakresem usług
 Np. pomoc, wsparcie techniczne lub technologiczne, kursy, …
 Zapewniają reaktywne usługi, np. odpowiedzi na zapytania
użytkowników w ciągu 2 dni roboczych
 Dysponują odpowiednią kadrą
 Przykłady centrów typu K
 CLARIN Knowledge Centre for Treebanking (Univ. Bergen i LINDAT, Prague)
 Phonogrammarchiv – Institute for audio-visual Research and Documentation
(Austrian Academy of Science), Viena
 CLARIN Knowledge Centre for Speech Analysis (CLARIN-SPEECH), Stockholm
 Planowane centrum typu K w ramach Centrum Technologii Językowych
CLARIN-PL
CLARIN ERIC: usługi centralne
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
Wyszukiwanie zasobów po metadanych w formacie CMDI
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
Wyszukiwanie zasobów po metadanych w formacie CMDI
 Fasetowe wyszukiwanie
 Atrybuty i ich zakresy wartości są
odczytywane z meta-danych
 Wspólny standard: CMDI
(Componet Metadata
Infrastructure)
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
Centralne przeszukiwanie treści
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
Konsorcjum CLARIN-PL
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
 Członkowie konsorcjum
 Politechnika Wrocławska, Katedra Inteligencji Obliczeniowej
 Instytut Podstaw Informatyki Polskiej Akademii Nauk, Zespół Inżynierii
Lingwistycznej
 Instytut Slawistyki Polskiej Akademii Nauk
 Polsko-Japońska Akademia Technik Komputerowych
 Uniwersytet Łódzki
 Uniwersytet Wrocławski
 Pierwsza część fazy konstrukcji: VII 2013 – IV 2016
 Cele
 Budowa polskiej części infrastruktury badawczej CLARIN
ERIC
 Rozwój otwartej technologii językowej dla języka polskiego
umożliwiającej różnorodnej zastosowania na praktycznym
poziomie
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL w pigułce
CLARIN-PL
 Centrum Technologii Językowych CLARIN-PL
http://clarin-pl.eu/pl/strona-glowna/
certyfikat centrum CLARIN typu B
międzynarodowy certyfikat Data Seal of Approval w zakresie
przechowywania i zarządzania danymi naukowymi
 Narzędzia i zasoby dla języka polskiego
rozszerzone lub zbudowane od podstaw
dostępne w CLARIN ERIC, w większości jako usługi sieciowe
 Unikatowy dwutorowy model budowy CLARIN-PL
łączenie i uzupełnianie elementów infrastruktury technologii
językowych
proces budowy ukierunkowany na wymagania użytkowników
 Współpraca z użytkownikami: aplikacje oraz warsztaty
Technologia przed CLARIN-PL
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
1.
2.
3.
4.
Analiza morfologiczna: formy podstawowe, cechy morfologiczne
Ujednoznacznienie opisów gramatycznych słów
Płytka analiza składniowa, np. frazy i zależności
Wydobywanie z tekstu słowników:
 terminów (w tym wielowyrazowych)
 nazw własnych
 tezaurusów
5. Ujednoznacznienie znaczeń słów w tekście
6. Rozpoznawanie odniesień do obiektów (bytów nazwanych)
7. Ocena nastawienia emocjonalnego i rozpoznanie opinii
8. Rozpoznawanie relacji semantycznych
9. Rozpoznawanie sytuacji
10. Rozpoznawanie relacji czasowych
11. Rozpoznanie relacji między fragmentami tekstu
12. Analiza struktury dyskursu
13. Pełna interpretacja znaczenia tekstu

Architektura technologii językowych – połączenie modułów
Technologia po CLARIN-PL
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
1.
2.
3.
4.
Analiza morfologiczna: formy podstawowe, cechy morfologiczne
Ujednoznacznienie opisów gramatycznych słów
Płytka analiza składniowa, np. frazy i zależności
Wydobywanie z tekstu słowników:
 terminów (w tym wielowyrazowych)
 nazw własnych
 tezaurusów
5. Ujednoznacznienie znaczeń słów w tekście
6. Rozpoznawanie odniesień do obiektów (bytów nazwanych)
7. Ocena nastawienia emocjonalnego i rozpoznanie opinii
8. Rozpoznawanie relacji semantycznych
9. Rozpoznawanie sytuacji
10. Rozpoznawanie relacji czasowych
11. Analiza struktury dyskursu
12. Rozpoznanie relacji między fragmentami tekstu
13. Pełna interpretacja znaczenia tekstu

Architektura technologii językowych – połączenie modułów
Podstawowy potok przetwarzania
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
1. Zbudowanie korpusu
1. Np. CorpoGrabber i Inforex
2. Segmentacja (Toki i Maca)
3. Analiza morfologiczna (Morfeusz)
4. Ujednoznacznianie opisów gramatycznych wyrazów
(tagowanie) (WCRFT)
5. Rozpoznawanie nazw własnych (Liner2)
6. Uproszczony podział na główne elementy (tzw. chunker
Iobber lub Spejd)
7. Ujednoznacznienie znaczenia słów (WoSeDoN)
 Dalsza analiza: składniowa (Malt), semantyczna
Przetwarzanie wstępne
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
 Zdeponowanie korpusu w systemie DSpace
 Uruchomienie wyzwalacza
 Konwersja dowolnego formatu do postaci tekstowej
 Analiza morfosyntaktyczna
 Rozpoznawanie jednostek identyfikacyjnych
 Rozpoznawanie wyrażeń temporalnych
 Generowanie lematów dla anotacji
 Zapis rezultatu w postaci plików CCL
 Kompresja rezultatu i udostępnienie dla innych narzędzi
Przyszłość CLARIN-PL
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
 Rozszerzenie wybranych narzędzi językowych pod
względem pokrycia i dokładności działania
 Np. ujednoznacznianie znaczeń leksykalnych, parsery
składniowo-semantyczne, narzędzia do wydobywania
informacji o zdarzeniach
 Rozbudowa Centrum Technologii Językowych w zakresie
obsługi wielkich wolumenów danych i równoległego
przetwarzania
 Rozwinięcie prototypowej platformy do łączenia narzędzi
językowych w aplikację badawczą
 Połączenie WebSty i narzędzi prototypowych w elastyczną
aplikację badawczą do analizy stylometrycznej i
statystycznej analizy semantycznej tekstów
 Rozbudowa i budowa dalszych aplikacji do tekstu i mowy
Korzyści z udziału w CLARIN
Infrastruktura
badawcza
Wrocław
2016-04-25
CLARIN-PL
 CLARIN ERIC jest dynamicznie rozwijającą się
infrastrukturą badawczą
 rosnąca liczba członków i czołowych ośrodków naukowych
 szereg stabilnych centralnych usług oraz narzędzi naukowych
 wyznacza standardy i budzi zainteresowanie w świecie nauki
 Transferu wiedzy i metod badawczych zarówno w
dziedzinie technologii językowych, jak i NHiS
 Łatwiejszy dostęp do zasobów naukowych i narzędzi
badawczych
 Szerzenia wiedzy o nowych cyfrowych metodach
badawczych w NHiS
 Promocja polskiej nauki, kultury, zwiększenie możliwości
prowadzenie badań nad materiałami w języku polskim
 Rozwój otwartej technologii dla języka polskiego
CLARIN-PL
Dziękuję bardzo za uwagę
www.clarin-pl.eu

Podobne dokumenty

Centrum Technologii Językowych CLARIN

Centrum Technologii Językowych CLARIN §  konsorcjum naukowe typu ERIC (European Research Infrastructure Consortium)

Bardziej szczegółowo