Centrum Technologii Językowych CLARIN

Transkrypt

Centrum Technologii Językowych CLARIN
CLARIN-PL
Centrum Technologii Językowych CLARIN-­‐PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego Maciej Piasecki, Tomasz Walkowiak Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Katedra Informatyki Technicznej [email protected] 2015-­‐05-­‐18 CLARIN
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
CLARIN-PL
§  CLARIN =
§  Common Language Resources and Technology Infrastructure
§  Wspólne zasoby językowe i infrastruktura technologiczna
§  Część
§  europejskiej mapy drogowej infrastruktury naukowej
(European Roadmap for Research Infrastructures)
ESFRI (European Strategy Forum on Research
Infrastructures)
§  Polskiej Mapy Drogowej Infrastruktury Badawczej
§  Cel
§  połączenie zasobów i narzędzi językowych dla wszystkich
języków europejskich w ramach jednej wspólnej sieciowej
infrastruktury naukowej
§  Obszar działania: nauki humanistyczne i społeczne
CLARIN
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
CLARIN-PL
§  CLARIN ERIC
§  konsorcjum naukowe typu ERIC (European Research Infrastructure
Consortium)
§  Członkowie założyciele
§  Austria, Bułgaria, Czechy, Dania, Estonia, Holandia,
Niemcy, Polska,
Dutch Language Union (organizacja międzypaństwowa)
§  Pozostali członkowie
§  Grecja, Litwa, Portugalia, Słowenia, Szwecja
§  Obserwatorzy
§  Norwegia
Podstawowe pojęcia
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
CLARIN-PL
§  Zasoby językowe
§  zbiory danych i bazy danych opisujące język naturalny oraz jego
użycie
§  sformalizowany opis wybranych aspektów języka naturalnego
§  Narzędzia językowe
§  programy komputerowe do przetwarzania tekstu i mowy na różnych
poziomach analizy języka naturalnego
§  automatyczna analiza struktur językowych, np. analiza składniowa
§  zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw
własnych
§  Technologia językowa = zasoby + narzędzia + infrastruktura
§  Infrastruktura językowa
§  wspólna baza technologiczna zapewniająca połączenie
zróżnicowanych narzędzi i zasobów językowych
Bariery w dostępie
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
§  Fizyczna
§  narzędzia i zasoby nie są dostępne w sieci
§  Informacyjna
§  brak opisu narzędzi i zasobów
§  brak katalogów i możliwości łatwego odnalezienia
§  Technologiczna
§  brak standardów, możliwości łączenia elementów technologii
§  brak wspólnej platformy – różnorodność rozwiązań
technologicznych
§  brak sprzętu o określonych parametrach
§  Wiedzy
§  wymagane umiejętności programistyczne
§  wymagana wiedza z zakresu inżynierii języka naturalnego
§  Prawna
§  licencje ograniczające dostęp i wykorzystanie
§  szczególnie w odniesieniu do korpusów
CLARIN-PL
Infrastruktura językowa
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
CLARIN-PL
Usługi CLARIN
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
CLARIN-PL
§  Wspólna europejska sieć technologii językowej
§  tj. narzędzi i zasobów językowych oraz aplikacji
§  Centrum Technologii Językowych CLARIN-PL
§  repozytorium do przechowywania i udostępniania zasobów
językowych
§  usługi do analizy tekstów i mowy na różnych poziomach
§  aplikacje badawcze, np. do półautomatycznej anotacji
semantycznej tekstu lub semantycznego porównywania
korpusów
§  Aplikacje skojarzone z CLARIN-PL, np. rozszerzenia do
przeszukiwania NKJP
§  Centrum Wiedzy – zapewniające wsparcie dla
użytkowników CLARIN
Wspólna europejska sieć
technologii językowych
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
CLARIN-PL
§  Jeden, własny login z macierzystej jednostki naukowej przy
dostępie do całej sieci
§  Jeden system trwałych identyfikatorów dla zasobów
§  Połączona sieć centrów
§  centralne przeszukiwanie treści: Federated Content Search
§  bezpieczeństwo danych (certyfikaty i kopie danych)
§  Wspólny standard metadanych
§ 
§ 
§ 
§ 
centralne wyszukiwanie po wszystkich zasobach
Virtual Language Observatory
wspólny słownik atrybutów, wartości i relacji w meta-danych
wirtualne kolekcje
CLARIN ERIC: usługi centralne
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
CLARIN-PL
Wyszukiwanie zasobów po metadanych w formacie CMDI
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
CLARIN-PL
Wyszukiwanie zasobów po metadanych w formacie CMDI
§  Fasetowe wyszukiwanie
§  Atrybuty i ich zakresy wartości są
odczytywane z meta-danych
§  Wspólny standard: CMDI
(Componet Metadata Infrastructure)
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
CLARIN-PL
Centralne przeszukiwanie treści
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
CLARIN-PL
Centrum Technologii Językowych
CLARIN-PL
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
CLARIN-PL
www.clarin-pl.eu
§  Zlokalizowane na Politechnice Wrocławskiej, w ramach
Grupy Naukowej G4.19
§  Zapewnia funkcje sieciowe infrastruktury CLARIN
§  Udostępnia
§  repozytorium
§  usługi do analizy tekstu (i mowy) w języku polskim
§  zestaw wybranych aplikacji zbudowanych we współpracy
z użytkownikami
§  wsparcie dla użytkowników – naukowców, jako Centrum
Wiedzy
Funkcje CTJ CLARIN-PL
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
CLARIN-PL
§  Rozproszona identyfikacja i autoryzacja użytkowników
§  oparta na federacjach narodowych
§  zasada jednego konta i jednego logowania
§  Odpowiedni system składowania (repozytoryjny)
§  trwałość danych (system archiwizacji)
§  jednoznaczny opis danych za pomocą trwałych identyfikatorów
(Persistent Identifiers)
§  metadane o złożonej strukturze (CMDI)
§  zarządzanie metadanymi zgodnie z przyjętymi standardami, np.
CCR (CLARIN Concept Registry), RELcat
§  wirtualne kolekcje oparte na metadanych
§  Integracja zasobów i usług
§  w oparciu o usługi sieciowe (Web Services)
§  dostęp poprzez aplikacje sieciowe
§  brak konieczności ściągania i instalowania
Repozytorium DSpace
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
CLARIN-PL
§  Repozytorium cyfrowe Clarin-PL oparte jest o
otwarty system DSpace. Zapisuje, przechowuje,
opisuje, indeksuje i udostępnia materiały cyfrowe
§  Platforma udostępnia otwarte zasoby naukowe oraz integruje narzędzia
Clarin-PL z Clarin ERIC
§  Wsparcie dla systemu CNRI Handle System [handle.net]
§  pozwala na swobodną zmianę adresów/serwerów
§  Zasoby są widoczne Virtual Language
Observatory, który łączy repozytoria z
różnych centrów w Europie
https://catalog.clarin.eu/vlo/search?1&fq=collection:CLARIN-PL
Repozytorium DSpace
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
CLARIN-PL
§  Clarin-PL DSpace posiada liczne rozszerzenia pozwalające
na udostępnianie zasobów instytucjom będącym w
federacjach tożsamości (AAI) takich jak eduGain
§  AAI to proste logowanie za pomocą jednego loginu i hasła
(autoryzuje jednostka macierzysta, nie potrzebne jest
przechowywanie haseł)
§  Polska federacja to
https://aai.pionier.net.pl/
Polska federacja uwierzytelniania
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
CLARIN-PL
Polska federacja uwierzytelniania
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
CLARIN-PL
§  Federacja PIONIER.Id adresowana jest do środowiska
naukowo-akademickiego
§  Połączenie z siecią PIONIER albo bezpośrednie, albo za
pośrednictwem jednej z sieci członków Konsorcjum PIONIER
§  Warunki techniczne Federacji:
§  https://aai.pionier.net.pl/dokumenty/PIONIER_Id_Tech.pdf
§  Istnieje możliwość przystąpienia do infrastruktury testowej, aby w
praktyce sprawdzić działanie mechanizmów federacji
§  Podpisanie Deklaracji Członkowskiej i przesłanie jej do Operatora
Federacji
§  Po zweryfikowaniu wszystkich warunków formalnych i technicznych,
Operator podejmie decyzję o akceptacji Deklaracji
Usługi sieciowe
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
CLARIN-PL
§  Narzędzia językowe
§ 
§ 
§ 
§ 
aplikacje zbudowane w różnorodnych technologiach
złożony proces instalacji
różnorodne interfejsy
trudność w tworzeniu potoków przetwarzania
§  „Wszystko jest usługą sieciową”
§  Komponent oprogramowanie o ustandaryzowanym interfejsie,
dostępny poprzez protokół internetowy
§  UI – przeglądarka internetowa
§  Aplikacje dostępowe oparte o przeglądarki
internetowe
§  Łączenie usług w potoki
§  Wizualizacja
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
Usługi sieciowe - architektura
CLARIN-PL
NFS
NLPServices
REST
SOAP
Serwer
Monitoring
NLPWorkers
Worker 1
(WCRFT2)
Worker 3
(WSD)
Worker 2
(Liner2)
Worker n+1
(Serel)
NLPEngine
G4.19
Web applications
Internal network
§  Wydajność
§  przetwarzanie równoległe
§  chmura prywatne, skalowanie
§  Identyfikatory plików
na wej./wyj. narzędzi
20
Usługi sieciowe - choreografia
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
CLARIN-PL
WCRFT
LINER2
SEREL
SuperMatrix
WCRFT
LINER2
SEREL
§ Elastyczność
§  złożone potoki przetwarzania
§  narzędzia z obszaru
maszynowego uczenia
21
Usługi sieciowe
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
CLARIN-PL
§  Zaimplementowane usługi
§ 
§ 
§ 
§ 
§ 
Konwersja: any2txt
Narzędzia NLP: wcrft2, chunker, chunkrel, serel, liner2, wosedon
Generacja wektorów cech: fextor
Klasyfikacja: stylo, cluto, SVM
Komunikacja (pliki, URL, e-mail), integracja z DSpace
§  Prace
§  Konwertery, monitorowanie
§  Aplikacje pod konkretne zastosowania
§  Możliwości podpięcia innych narzędzi
§  Wirtualna maszyna w centrum + proste API
§  Przekierowanie do zewnętrznych usług (WebLicht, Multiservice)
22
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
Zintegrowane środowisko
§  Repozytorium jest
zintegrowane z
narzędziami NLP
§  Proste przygotowanie
korpusu dla narzędzi
typu Inforex
§  Ten sam użytkownik do
wszystkich narzędzi i do
DSpace
CLARIN-PL
D-SPACE
WS1
WS2
Inforex
WS3
Narzędzia NLP API
Wywołanie
z DSpace
Potok przetwarzania
Dane tymczasowe
Zasoby / dane
Dane przygotowane
Zintegrowane środowisko
§  Jak skorzystać z DSpace
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
CLARIN-PL
Aplikacje badawcze
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
CLARIN-PL
Aplikacje badawcze
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
CLARIN-PL
§  Narzędzia wysokiego poziomu nie wymagające wiedzy z
dziedziny inżynierii języka lub technologii językowych
§  Techniki załadowania własnych danych
§  Bezpośrednie załadowanie plików w interfejsie webowym
§  Lokalny plik, URL
§  Różnorodność formatów
§  txt – różnorodne kodowanie znaków
§  doc, docx (pptx, xlslx), odt, rtf, html, pdf
§  zip
§  Uprzednie załadowanie plików do repozytorium – zalecane
§  Identyfikacja poprzez trwały identyfikator
§  Wstępnie przetworzone
§  Zasoby obliczeniowe są zawsze ograniczone
CLARIN-PL
Dziękuję bardzo za uwagę
Usługi sieciowe - chmura prywatna
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
CLARIN-PL
§  Zalety
§  Konsolidacja serwerów
§  Elastyczne wykorzystanie zasobów
§  Ułatwione zarządzanie wieloma
serwerami
§  Zwiększenie niezawodności
§  Szybkie tworzenie nowych środowisk
testowych i deweloperskich
§  Zapewnienie ciągłości działania
§  Problemy
§  Przetwarzanie NLP jest zasobożerne
§  Źle współdzielone zasoby
§  pamięć
§  przepustowość sieci/dysków
§  Sposób przetwarzania: centralizacja, przetwarzanie na żądanie
Repozytorium DSpace
§  Metadane: CMDI w Clarin-PL
Warsztaty CLARIN-PL
Wrocław
18-20 V 2015
CLARIN-PL

Podobne dokumenty