Centrum Technologii Językowych CLARIN
Transkrypt
Centrum Technologii Językowych CLARIN
CLARIN-PL Centrum Technologii Językowych CLARIN-‐PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego Maciej Piasecki, Tomasz Walkowiak Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Katedra Informatyki Technicznej [email protected] 2015-‐05-‐18 CLARIN Warsztaty CLARIN-PL Wrocław 18-20 V 2015 CLARIN-PL § CLARIN = § Common Language Resources and Technology Infrastructure § Wspólne zasoby językowe i infrastruktura technologiczna § Część § europejskiej mapy drogowej infrastruktury naukowej (European Roadmap for Research Infrastructures) ESFRI (European Strategy Forum on Research Infrastructures) § Polskiej Mapy Drogowej Infrastruktury Badawczej § Cel § połączenie zasobów i narzędzi językowych dla wszystkich języków europejskich w ramach jednej wspólnej sieciowej infrastruktury naukowej § Obszar działania: nauki humanistyczne i społeczne CLARIN Warsztaty CLARIN-PL Wrocław 18-20 V 2015 CLARIN-PL § CLARIN ERIC § konsorcjum naukowe typu ERIC (European Research Infrastructure Consortium) § Członkowie założyciele § Austria, Bułgaria, Czechy, Dania, Estonia, Holandia, Niemcy, Polska, Dutch Language Union (organizacja międzypaństwowa) § Pozostali członkowie § Grecja, Litwa, Portugalia, Słowenia, Szwecja § Obserwatorzy § Norwegia Podstawowe pojęcia Warsztaty CLARIN-PL Wrocław 18-20 V 2015 CLARIN-PL § Zasoby językowe § zbiory danych i bazy danych opisujące język naturalny oraz jego użycie § sformalizowany opis wybranych aspektów języka naturalnego § Narzędzia językowe § programy komputerowe do przetwarzania tekstu i mowy na różnych poziomach analizy języka naturalnego § automatyczna analiza struktur językowych, np. analiza składniowa § zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw własnych § Technologia językowa = zasoby + narzędzia + infrastruktura § Infrastruktura językowa § wspólna baza technologiczna zapewniająca połączenie zróżnicowanych narzędzi i zasobów językowych Bariery w dostępie Warsztaty CLARIN-PL Wrocław 18-20 V 2015 § Fizyczna § narzędzia i zasoby nie są dostępne w sieci § Informacyjna § brak opisu narzędzi i zasobów § brak katalogów i możliwości łatwego odnalezienia § Technologiczna § brak standardów, możliwości łączenia elementów technologii § brak wspólnej platformy – różnorodność rozwiązań technologicznych § brak sprzętu o określonych parametrach § Wiedzy § wymagane umiejętności programistyczne § wymagana wiedza z zakresu inżynierii języka naturalnego § Prawna § licencje ograniczające dostęp i wykorzystanie § szczególnie w odniesieniu do korpusów CLARIN-PL Infrastruktura językowa Warsztaty CLARIN-PL Wrocław 18-20 V 2015 CLARIN-PL Usługi CLARIN Warsztaty CLARIN-PL Wrocław 18-20 V 2015 CLARIN-PL § Wspólna europejska sieć technologii językowej § tj. narzędzi i zasobów językowych oraz aplikacji § Centrum Technologii Językowych CLARIN-PL § repozytorium do przechowywania i udostępniania zasobów językowych § usługi do analizy tekstów i mowy na różnych poziomach § aplikacje badawcze, np. do półautomatycznej anotacji semantycznej tekstu lub semantycznego porównywania korpusów § Aplikacje skojarzone z CLARIN-PL, np. rozszerzenia do przeszukiwania NKJP § Centrum Wiedzy – zapewniające wsparcie dla użytkowników CLARIN Wspólna europejska sieć technologii językowych Warsztaty CLARIN-PL Wrocław 18-20 V 2015 CLARIN-PL § Jeden, własny login z macierzystej jednostki naukowej przy dostępie do całej sieci § Jeden system trwałych identyfikatorów dla zasobów § Połączona sieć centrów § centralne przeszukiwanie treści: Federated Content Search § bezpieczeństwo danych (certyfikaty i kopie danych) § Wspólny standard metadanych § § § § centralne wyszukiwanie po wszystkich zasobach Virtual Language Observatory wspólny słownik atrybutów, wartości i relacji w meta-danych wirtualne kolekcje CLARIN ERIC: usługi centralne Warsztaty CLARIN-PL Wrocław 18-20 V 2015 CLARIN-PL Wyszukiwanie zasobów po metadanych w formacie CMDI Warsztaty CLARIN-PL Wrocław 18-20 V 2015 CLARIN-PL Wyszukiwanie zasobów po metadanych w formacie CMDI § Fasetowe wyszukiwanie § Atrybuty i ich zakresy wartości są odczytywane z meta-danych § Wspólny standard: CMDI (Componet Metadata Infrastructure) Warsztaty CLARIN-PL Wrocław 18-20 V 2015 CLARIN-PL Centralne przeszukiwanie treści Warsztaty CLARIN-PL Wrocław 18-20 V 2015 CLARIN-PL Centrum Technologii Językowych CLARIN-PL Warsztaty CLARIN-PL Wrocław 18-20 V 2015 CLARIN-PL www.clarin-pl.eu § Zlokalizowane na Politechnice Wrocławskiej, w ramach Grupy Naukowej G4.19 § Zapewnia funkcje sieciowe infrastruktury CLARIN § Udostępnia § repozytorium § usługi do analizy tekstu (i mowy) w języku polskim § zestaw wybranych aplikacji zbudowanych we współpracy z użytkownikami § wsparcie dla użytkowników – naukowców, jako Centrum Wiedzy Funkcje CTJ CLARIN-PL Warsztaty CLARIN-PL Wrocław 18-20 V 2015 CLARIN-PL § Rozproszona identyfikacja i autoryzacja użytkowników § oparta na federacjach narodowych § zasada jednego konta i jednego logowania § Odpowiedni system składowania (repozytoryjny) § trwałość danych (system archiwizacji) § jednoznaczny opis danych za pomocą trwałych identyfikatorów (Persistent Identifiers) § metadane o złożonej strukturze (CMDI) § zarządzanie metadanymi zgodnie z przyjętymi standardami, np. CCR (CLARIN Concept Registry), RELcat § wirtualne kolekcje oparte na metadanych § Integracja zasobów i usług § w oparciu o usługi sieciowe (Web Services) § dostęp poprzez aplikacje sieciowe § brak konieczności ściągania i instalowania Repozytorium DSpace Warsztaty CLARIN-PL Wrocław 18-20 V 2015 CLARIN-PL § Repozytorium cyfrowe Clarin-PL oparte jest o otwarty system DSpace. Zapisuje, przechowuje, opisuje, indeksuje i udostępnia materiały cyfrowe § Platforma udostępnia otwarte zasoby naukowe oraz integruje narzędzia Clarin-PL z Clarin ERIC § Wsparcie dla systemu CNRI Handle System [handle.net] § pozwala na swobodną zmianę adresów/serwerów § Zasoby są widoczne Virtual Language Observatory, który łączy repozytoria z różnych centrów w Europie https://catalog.clarin.eu/vlo/search?1&fq=collection:CLARIN-PL Repozytorium DSpace Warsztaty CLARIN-PL Wrocław 18-20 V 2015 CLARIN-PL § Clarin-PL DSpace posiada liczne rozszerzenia pozwalające na udostępnianie zasobów instytucjom będącym w federacjach tożsamości (AAI) takich jak eduGain § AAI to proste logowanie za pomocą jednego loginu i hasła (autoryzuje jednostka macierzysta, nie potrzebne jest przechowywanie haseł) § Polska federacja to https://aai.pionier.net.pl/ Polska federacja uwierzytelniania Warsztaty CLARIN-PL Wrocław 18-20 V 2015 CLARIN-PL Polska federacja uwierzytelniania Warsztaty CLARIN-PL Wrocław 18-20 V 2015 CLARIN-PL § Federacja PIONIER.Id adresowana jest do środowiska naukowo-akademickiego § Połączenie z siecią PIONIER albo bezpośrednie, albo za pośrednictwem jednej z sieci członków Konsorcjum PIONIER § Warunki techniczne Federacji: § https://aai.pionier.net.pl/dokumenty/PIONIER_Id_Tech.pdf § Istnieje możliwość przystąpienia do infrastruktury testowej, aby w praktyce sprawdzić działanie mechanizmów federacji § Podpisanie Deklaracji Członkowskiej i przesłanie jej do Operatora Federacji § Po zweryfikowaniu wszystkich warunków formalnych i technicznych, Operator podejmie decyzję o akceptacji Deklaracji Usługi sieciowe Warsztaty CLARIN-PL Wrocław 18-20 V 2015 CLARIN-PL § Narzędzia językowe § § § § aplikacje zbudowane w różnorodnych technologiach złożony proces instalacji różnorodne interfejsy trudność w tworzeniu potoków przetwarzania § „Wszystko jest usługą sieciową” § Komponent oprogramowanie o ustandaryzowanym interfejsie, dostępny poprzez protokół internetowy § UI – przeglądarka internetowa § Aplikacje dostępowe oparte o przeglądarki internetowe § Łączenie usług w potoki § Wizualizacja Warsztaty CLARIN-PL Wrocław 18-20 V 2015 Usługi sieciowe - architektura CLARIN-PL NFS NLPServices REST SOAP Serwer Monitoring NLPWorkers Worker 1 (WCRFT2) Worker 3 (WSD) Worker 2 (Liner2) Worker n+1 (Serel) NLPEngine G4.19 Web applications Internal network § Wydajność § przetwarzanie równoległe § chmura prywatne, skalowanie § Identyfikatory plików na wej./wyj. narzędzi 20 Usługi sieciowe - choreografia Warsztaty CLARIN-PL Wrocław 18-20 V 2015 CLARIN-PL WCRFT LINER2 SEREL SuperMatrix WCRFT LINER2 SEREL § Elastyczność § złożone potoki przetwarzania § narzędzia z obszaru maszynowego uczenia 21 Usługi sieciowe Warsztaty CLARIN-PL Wrocław 18-20 V 2015 CLARIN-PL § Zaimplementowane usługi § § § § § Konwersja: any2txt Narzędzia NLP: wcrft2, chunker, chunkrel, serel, liner2, wosedon Generacja wektorów cech: fextor Klasyfikacja: stylo, cluto, SVM Komunikacja (pliki, URL, e-mail), integracja z DSpace § Prace § Konwertery, monitorowanie § Aplikacje pod konkretne zastosowania § Możliwości podpięcia innych narzędzi § Wirtualna maszyna w centrum + proste API § Przekierowanie do zewnętrznych usług (WebLicht, Multiservice) 22 Warsztaty CLARIN-PL Wrocław 18-20 V 2015 Zintegrowane środowisko § Repozytorium jest zintegrowane z narzędziami NLP § Proste przygotowanie korpusu dla narzędzi typu Inforex § Ten sam użytkownik do wszystkich narzędzi i do DSpace CLARIN-PL D-SPACE WS1 WS2 Inforex WS3 Narzędzia NLP API Wywołanie z DSpace Potok przetwarzania Dane tymczasowe Zasoby / dane Dane przygotowane Zintegrowane środowisko § Jak skorzystać z DSpace Warsztaty CLARIN-PL Wrocław 18-20 V 2015 CLARIN-PL Aplikacje badawcze Warsztaty CLARIN-PL Wrocław 18-20 V 2015 CLARIN-PL Aplikacje badawcze Warsztaty CLARIN-PL Wrocław 18-20 V 2015 CLARIN-PL § Narzędzia wysokiego poziomu nie wymagające wiedzy z dziedziny inżynierii języka lub technologii językowych § Techniki załadowania własnych danych § Bezpośrednie załadowanie plików w interfejsie webowym § Lokalny plik, URL § Różnorodność formatów § txt – różnorodne kodowanie znaków § doc, docx (pptx, xlslx), odt, rtf, html, pdf § zip § Uprzednie załadowanie plików do repozytorium – zalecane § Identyfikacja poprzez trwały identyfikator § Wstępnie przetworzone § Zasoby obliczeniowe są zawsze ograniczone CLARIN-PL Dziękuję bardzo za uwagę Usługi sieciowe - chmura prywatna Warsztaty CLARIN-PL Wrocław 18-20 V 2015 CLARIN-PL § Zalety § Konsolidacja serwerów § Elastyczne wykorzystanie zasobów § Ułatwione zarządzanie wieloma serwerami § Zwiększenie niezawodności § Szybkie tworzenie nowych środowisk testowych i deweloperskich § Zapewnienie ciągłości działania § Problemy § Przetwarzanie NLP jest zasobożerne § Źle współdzielone zasoby § pamięć § przepustowość sieci/dysków § Sposób przetwarzania: centralizacja, przetwarzanie na żądanie Repozytorium DSpace § Metadane: CMDI w Clarin-PL Warsztaty CLARIN-PL Wrocław 18-20 V 2015 CLARIN-PL