CLARIN – infrastruktura naukowa technologii językowych
Transkrypt
CLARIN – infrastruktura naukowa technologii językowych
CLARIN-PL CLARIN – infrastruktura naukowa technologii językowych Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 [email protected] 2016-04-25 Przykład: analiza pojęcia Infrastruktura badawcza Wrocław 2016-04-25 CLARIN-PL Problem: znalezienie w tekstach odwołań do pojęcia książka analiza przypisywanych cech i powiązań z innymi pojęciami Przykłady z sieci: W książce rękopiśmiennej najczęściej występowało ukształtowanie jedno- lub dwukolumnowe. (Wikipedia) W ciągu dziesięciu lat powstały cztery książki, nie jest to więc oszałamiający dorobek. (http://ksiazkioli.blogspot.com/) Jak napisać fascynującą książkę z intrygującą fabułą i odnieść sukces? (sites.google.com/site/pisarstwo/) Za książką kryje się autor. Jego pisanie jest więc zawsze listem do czytelnika. Piszemy zazwyczaj listy do przyjaciół. Książka jest listem autora do przyjaciela. [Jarosław Iwaszkiewicz] (za: http://www.sp21.lublin.pl/biblioteka/cytaty.htm) Przykład: Mapa Literacka Infrastruktura badawcza Wrocław 2016-04-25 CLARIN-PL Literaturoznawstwo – badania geokrytyczne przestrzeni kreowanej w tekstach literackich analiza przestrzeni kulturowych związanych ze środowiskiem elity intelektualnej w okresie powstania utworu Selekcja dzieł literackich oraz tekstów (pamiętników, reportaży, listów) związanych z postacią wybranego twórcy Odtwarzanie mapy mentalnej miejsca, które mają znaczenie dla danego twórcy miejsca, obiekty ważne w ówczesnej epoce literackiej lub na ówczesnej mapie politycznej Wizualizacja miejsc obecnych w powieści, np. ilustracja ścieżek pisarzy tworzenie mapy miejsc fikcyjnych Wsparcie: analizy prowadzone na dużym korpusie tekstów Przykład: droga do realizacji Infrastruktura badawcza Wrocław 2016-04-25 CLARIN-PL Wizualizacja miejsc obecnych w powieści przetwarzanie wstępne: analiza morfologiczna i morfo-syntaktyczna Słowa, lematy, klasy gramatyczne rozpoznanie i klasyfikacja jednostek pozasłownikowych, np. nazw własnych powiązanie wyrażeń językowych z obiektami mapy Np. miejsca nie są często nazwane w tekście nazwą a opisane wyrażeniem złożonym: nazwy, wyrażenia przestrzenne, relacje semantyczne, deskrypcje określone funkcje geolokalizacji mapy skonfigurowanie systemu: instalacja narzędzi, dopasowanie formatów, problemy wydajnościowe, wizualizacja wyników, … Wnioski: problemy użytkownika z użyciem istniejącej technologii językowej, konieczność rozszerzenia tej technologii Przykład: droga do realizacji Infrastruktura badawcza Wrocław 2016-04-25 CLARIN-PL Mapy wyobrażeniowe brak oparcia na istniejącej mapie i geolokalizacji konieczność głębokiej i szczegółowej analizy informacji zawartej w tekście rozpoznawanie niedospecyfikowania i sprzeczności budowa bazy wiedzy o świecie z tekstu zawierającej model mapy wizualizacja mapy na podstawie bazy wiedzy Wnioski: poważne i ciekawe wyzwania należałoby bardzo poprawić pokrycie i dokładność głębokiej analizy składniowo-semantycznej Bariery w zastosowaniu technologii językowej Fizyczna narzędzia i zasoby nie są dostępne w sieci Informacyjna brak opisu narzędzi i zasobów brak katalogów i możliwości łatwego odnalezienia Technologiczna brak standardów, możliwości łączenia elementów technologii brak wspólnej platformy – różnorodność rozwiązań technologicznych brak sprzętu o określonych parametrach Wiedzy wymagane umiejętności programistyczne wymagana wiedza z zakresu inżynierii języka naturalnego Prawna licencje ograniczające dostęp i wykorzystanie szczególnie w odniesieniu do korpusów Infrastruktura badawcza Wrocław 2016-04-25 CLARIN-PL Bariery w zastosowaniu technologii językowej Infrastruktura badawcza Wrocław 2016-04-25 CLARIN-PL Fizyczna dostępność: www.clarin-pl.eu, www.clarin.eu Informacyjna opis: metadane, dokumentacja katalog: Virtual Language Observatory Technologiczna standardy: CMDI, unifikacja standardów dla narzędzi platforma – WebLicht, platforma polska w ramach CTJ CLARIN-PL sprzęt: Centrum Technologii Językowych CLARIN-PL Wiedzy aplikacje badawcze rozwijane wspólnie z użytkownikami CTJ działające jako centrum typu K (szerzenia wiedzy) Prawna otwartość! (ang. Open source, open access) otwarte rozwiązania! trudne w odniesieniu do korpusów, ale model otwartości wyników przetwarzania Finansowa: otwartość kosztuje, a kto płaci? MNiSW? CLARIN Infrastruktura badawcza Wrocław 2016-04-25 CLARIN-PL CLARIN ERIC (Common Language Resources and Technology Infrastructure European Research Infrastructure Consortium) Wspólne zasoby językowe i infrastruktura technologiczna część europejskiej (ESFRI) i polskiej mapy drogowej infrastruktury naukowej Czym jest rozproszona infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych kilkadziesiąt centrów technologicznych w 15 krajach działających jako jeden wspólny system jednolity dostęp do zasobów językowych oraz narzędzi i aplikacji badawczych do analizy tekstu i mowy w wielu językach europejskich CLARIN ERIC – Centres Infrastruktura badawcza Wrocław 2016-04-25 CLARIN-PL CLARIN – Członkowie Infrastruktura badawcza Wrocław 2016-04-25 CLARIN-PL 15 członków: Austria Bułgaria Czechy Dania Dutch Language Union Estonia Grecja Holandia Litwa Niemcy Norwegia Polska Portugalia Słowenia Szwecja Włochy Obserwatorzy: Wielka Brytania Podstawowe pojęcia Infrastruktura badawcza Wrocław 2016-04-25 CLARIN-PL Zasoby językowe zbiory danych i bazy danych opisujące język naturalny oraz jego użycie sformalizowany opis wybranych aspektów języka naturalnego Narzędzia językowe programy komputerowe do przetwarzania tekstu i mowy na różnych poziomach analizy języka naturalnego automatyczna analiza struktur językowych, np. analiza składniowa zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw własnych Technologia językowa = zasoby + narzędzia + infrastruktura Infrastruktura językowa wspólna baza technologiczna zapewniająca połączenie zróżnicowanych narzędzi i zasobów językowych Podstawowe funkcje CLARIN Infrastruktura badawcza Wrocław 2016-04-25 CLARIN-PL Ułatwienie dostępu do zasobów językowych federacja repozytoriów – Virtual Language Observatory federacyjne przeszukiwanie korpusów – Federated Content Search Wsparcie dla automatycznej analizy tekstu i mowy paleta gotowych do użycia narzędzi językowych usługi sieciowe (Web Services) i aplikacje narzędziowe dostęp poprzez repozytoria typowe zestawy, możliwość tworzenia własnych zestawów Aplikacje badawcze budowane pod konkretne potrzeby, często we współpracy z użytkownikami oparte na technologii językowej, ale nie `narzucające’ jej Podstawowe funkcje CLARIN Infrastruktura badawcza Wrocław 2016-04-25 CLARIN-PL Infrastruktura Szerzenia Wiedzy (Knowledge Sharing Infrastructure) centra CLARIN typu K – oferujące dostęp do wiedzy eksperckiej i wsparcie, fizyczne i wirtualne poradniki i punkty informacyjne, warsztaty, itd. Wymogi dla centrum typu K (wybrane) strona WWW z jasno określonym zakresem usług Np. pomoc, wsparcie techniczne lub technologiczne, kursy, … Zapewniają reaktywne usługi, np. odpowiedzi na zapytania użytkowników w ciągu 2 dni roboczych Dysponują odpowiednią kadrą Przykłady centrów typu K CLARIN Knowledge Centre for Treebanking (Univ. Bergen i LINDAT, Prague) Phonogrammarchiv – Institute for audio-visual Research and Documentation (Austrian Academy of Science), Viena CLARIN Knowledge Centre for Speech Analysis (CLARIN-SPEECH), Stockholm Planowane centrum typu K w ramach Centrum Technologii Językowych CLARIN-PL CLARIN ERIC: usługi centralne Infrastruktura badawcza Wrocław 2016-04-25 CLARIN-PL Wyszukiwanie zasobów po metadanych w formacie CMDI Infrastruktura badawcza Wrocław 2016-04-25 CLARIN-PL Wyszukiwanie zasobów po metadanych w formacie CMDI Fasetowe wyszukiwanie Atrybuty i ich zakresy wartości są odczytywane z meta-danych Wspólny standard: CMDI (Componet Metadata Infrastructure) Infrastruktura badawcza Wrocław 2016-04-25 CLARIN-PL Centralne przeszukiwanie treści Infrastruktura badawcza Wrocław 2016-04-25 CLARIN-PL Konsorcjum CLARIN-PL Infrastruktura badawcza Wrocław 2016-04-25 CLARIN-PL Członkowie konsorcjum Politechnika Wrocławska, Katedra Inteligencji Obliczeniowej Instytut Podstaw Informatyki Polskiej Akademii Nauk, Zespół Inżynierii Lingwistycznej Instytut Slawistyki Polskiej Akademii Nauk Polsko-Japońska Akademia Technik Komputerowych Uniwersytet Łódzki Uniwersytet Wrocławski Pierwsza część fazy konstrukcji: VII 2013 – IV 2016 Cele Budowa polskiej części infrastruktury badawczej CLARIN ERIC Rozwój otwartej technologii językowej dla języka polskiego umożliwiającej różnorodnej zastosowania na praktycznym poziomie Infrastruktura badawcza Wrocław 2016-04-25 CLARIN-PL w pigułce CLARIN-PL Centrum Technologii Językowych CLARIN-PL http://clarin-pl.eu/pl/strona-glowna/ certyfikat centrum CLARIN typu B międzynarodowy certyfikat Data Seal of Approval w zakresie przechowywania i zarządzania danymi naukowymi Narzędzia i zasoby dla języka polskiego rozszerzone lub zbudowane od podstaw dostępne w CLARIN ERIC, w większości jako usługi sieciowe Unikatowy dwutorowy model budowy CLARIN-PL łączenie i uzupełnianie elementów infrastruktury technologii językowych proces budowy ukierunkowany na wymagania użytkowników Współpraca z użytkownikami: aplikacje oraz warsztaty Technologia przed CLARIN-PL Infrastruktura badawcza Wrocław 2016-04-25 CLARIN-PL 1. 2. 3. 4. Analiza morfologiczna: formy podstawowe, cechy morfologiczne Ujednoznacznienie opisów gramatycznych słów Płytka analiza składniowa, np. frazy i zależności Wydobywanie z tekstu słowników: terminów (w tym wielowyrazowych) nazw własnych tezaurusów 5. Ujednoznacznienie znaczeń słów w tekście 6. Rozpoznawanie odniesień do obiektów (bytów nazwanych) 7. Ocena nastawienia emocjonalnego i rozpoznanie opinii 8. Rozpoznawanie relacji semantycznych 9. Rozpoznawanie sytuacji 10. Rozpoznawanie relacji czasowych 11. Rozpoznanie relacji między fragmentami tekstu 12. Analiza struktury dyskursu 13. Pełna interpretacja znaczenia tekstu Architektura technologii językowych – połączenie modułów Technologia po CLARIN-PL Infrastruktura badawcza Wrocław 2016-04-25 CLARIN-PL 1. 2. 3. 4. Analiza morfologiczna: formy podstawowe, cechy morfologiczne Ujednoznacznienie opisów gramatycznych słów Płytka analiza składniowa, np. frazy i zależności Wydobywanie z tekstu słowników: terminów (w tym wielowyrazowych) nazw własnych tezaurusów 5. Ujednoznacznienie znaczeń słów w tekście 6. Rozpoznawanie odniesień do obiektów (bytów nazwanych) 7. Ocena nastawienia emocjonalnego i rozpoznanie opinii 8. Rozpoznawanie relacji semantycznych 9. Rozpoznawanie sytuacji 10. Rozpoznawanie relacji czasowych 11. Analiza struktury dyskursu 12. Rozpoznanie relacji między fragmentami tekstu 13. Pełna interpretacja znaczenia tekstu Architektura technologii językowych – połączenie modułów Podstawowy potok przetwarzania Infrastruktura badawcza Wrocław 2016-04-25 CLARIN-PL 1. Zbudowanie korpusu 1. Np. CorpoGrabber i Inforex 2. Segmentacja (Toki i Maca) 3. Analiza morfologiczna (Morfeusz) 4. Ujednoznacznianie opisów gramatycznych wyrazów (tagowanie) (WCRFT) 5. Rozpoznawanie nazw własnych (Liner2) 6. Uproszczony podział na główne elementy (tzw. chunker Iobber lub Spejd) 7. Ujednoznacznienie znaczenia słów (WoSeDoN) Dalsza analiza: składniowa (Malt), semantyczna Przetwarzanie wstępne Infrastruktura badawcza Wrocław 2016-04-25 CLARIN-PL Zdeponowanie korpusu w systemie DSpace Uruchomienie wyzwalacza Konwersja dowolnego formatu do postaci tekstowej Analiza morfosyntaktyczna Rozpoznawanie jednostek identyfikacyjnych Rozpoznawanie wyrażeń temporalnych Generowanie lematów dla anotacji Zapis rezultatu w postaci plików CCL Kompresja rezultatu i udostępnienie dla innych narzędzi Przyszłość CLARIN-PL Infrastruktura badawcza Wrocław 2016-04-25 CLARIN-PL Rozszerzenie wybranych narzędzi językowych pod względem pokrycia i dokładności działania Np. ujednoznacznianie znaczeń leksykalnych, parsery składniowo-semantyczne, narzędzia do wydobywania informacji o zdarzeniach Rozbudowa Centrum Technologii Językowych w zakresie obsługi wielkich wolumenów danych i równoległego przetwarzania Rozwinięcie prototypowej platformy do łączenia narzędzi językowych w aplikację badawczą Połączenie WebSty i narzędzi prototypowych w elastyczną aplikację badawczą do analizy stylometrycznej i statystycznej analizy semantycznej tekstów Rozbudowa i budowa dalszych aplikacji do tekstu i mowy Korzyści z udziału w CLARIN Infrastruktura badawcza Wrocław 2016-04-25 CLARIN-PL CLARIN ERIC jest dynamicznie rozwijającą się infrastrukturą badawczą rosnąca liczba członków i czołowych ośrodków naukowych szereg stabilnych centralnych usług oraz narzędzi naukowych wyznacza standardy i budzi zainteresowanie w świecie nauki Transferu wiedzy i metod badawczych zarówno w dziedzinie technologii językowych, jak i NHiS Łatwiejszy dostęp do zasobów naukowych i narzędzi badawczych Szerzenia wiedzy o nowych cyfrowych metodach badawczych w NHiS Promocja polskiej nauki, kultury, zwiększenie możliwości prowadzenie badań nad materiałami w języku polskim Rozwój otwartej technologii dla języka polskiego CLARIN-PL Dziękuję bardzo za uwagę www.clarin-pl.eu
Podobne dokumenty
Centrum Technologii Językowych CLARIN
§ konsorcjum naukowe typu ERIC (European Research Infrastructure Consortium)
Bardziej szczegółowo