Open Access w technologii językowej dla języka polskiego

Transkrypt

Open Access w technologii językowej dla języka polskiego
Open Access w technologii
językowej dla języka polskiego
Marek Maziarz, Maciej Piasecki
Grupa Naukowa Technologii Językowych G4.19
Zakład Sztucznej Inteligencji, Instytut Informatyki,
W-8, Politechnika Wrocławska
nlp.pwr.wroc.pl
plwordnet.pwr.wroc.pl
1. Inżynieria języka naturalnego
CEL: nauczyć system komputerowy analizować język i treść
tekstów w celu dostarczenia ludziom praktycznych korzyści
Przykłady:
• Wyszukiwarki internetowe
• Systemy odpowiadania na pytania
• Automatyczne wydobywanie
zasobów tekstowych
informacji
z
dużych
• Automatyczne gromadzenie informacji o danej osobie,
określonym wydarzeniu
• Automatyczne tłumaczenie
2/16
2. Zasoby i narzędzia językowe
• Zasoby językowe
= bazy wiedzy o języku, np. słowniki i gramatyki
• Narzędzia językowe
= programy do analizy wypowiedzi w języka naturalnym na różnych
poziomach systemu języka, np. odmiany i słowotwórstwa wyrazów,
budowy zdania, znaczeń słów itd.
• Podstawowe zasoby i narzędzia
= standard, którego oczekuje się od technologii językowych
3/16
2. Zasoby i narzędzia językowe
4/16
3. Dostępność zasobów i narzędzi (ZiNJ)
Uwarunkowania:
• Koszt wytworzenie ZiNJ jest wysoki
• Polskie firmy nie wytworzą wszystkich standardowych
ZiNJ samodzielnie
• Dostępność ZiNJ to warunek konieczny rozwoju
systemów bardziej zaawansowanych
• Brak systemów dla języka polskiego ogranicza dostęp do
informacji i inteligentnego wykorzystania informacji w
Internecie
Open Access warunkuje rozwój nauki i społeczeństwa
5/16
informacyjnego.
4. Open Access a technologie jęz. w
Polsce
• 2006 rok - Polska ma bardzo słabo rozwinięte technologie
językowe
• Od 2006 PWr. i IPI PAN pracują wspólnie nad poprawą
sytuacji
• Od początku zakładano – Open Access
• Od 2010 PWr udostępnia narzędzia i zasoby językowe na
otwartych licencjach, także do użytku komercyjnego
6/16
5. Technologie językowe na PWr
• G4.19 – grupa technologii językowych na W-8
• 5 grantów: POIG, NCBiR, 2 x MNiSW (NCN), Clarin
• Narzędzia językowe: tagery, parsery składniowe i
semantyczne, wyszukiwarki
• Zasoby językowe: słowniki, sieci opisujące semantyczne
zależności
7/16
6. Słowosieć – OA i Open Source
8/26
6. Słowosieć – OA i Open Source
Liczba wyrazów w Słowosieci i w WordNecie princetońskim
150000
100000
50000
0
rzeczownik
czasownik
Słowosieć 2.0
przymiotnik
przysłówek
WordNet princetoński
9/16
6. Słowosieć – OA i Open Source
• Sieć relacji pomiędzy znaczeniami wyrazów
• Słownik dla komputerów:
• 107 000 haseł,
• 161 000 znaczeń,
• ok. 450 000 relacji leksykalno-semantycznych
• Licencja wzorowana na licencji WordNetu za zgodą
i przy pełnym poparciu JM Rektora PWr:
„Wykorzystanie systemu plWordNet® jest nieskrępowane. Można
się tym systemem posługiwać w zastosowaniach komercyjnych...
bez opłat i honorariów”
10/16
7. Korpus Języka Polskiego PWr
Podstawowy zasób językowy
• Zbiór starannie wyselekcjonowanych tekstów
• Teksty różnorodne stylistycznie i gatunkowo
• 0,5 mln wyrazów
• Materiał do uczenia maszynowego (narzędzia językowe)
• Materiał dla językoznawców badających język
Licencja Creative Commons
• Za zgodą i przy pełnym poparciu JM Rektora PWr
11/16
7. Korpus Języka Polskiego PWr
12/16
7. Creative Commons, ale które?
Uznanie autorstwa
Uznanie autorstwa – Na tych samych warunkach
Uznanie autorstwa – Użycie niekomercyjne
Uznanie autorstwa - Bez utworów zależnych
13/16
7. Creative Commons, ale które?
Uznanie autorstwa
Uznanie autorstwa – Na tych samych warunkach
Uznanie autorstwa – Użycie niekomercyjne
Uznanie autorstwa - Bez utworów zależnych
14/16
7. Creative Commons, ale które?
Uznanie autorstwa
Uznanie autorstwa – Na tych samych warunkach
Uznanie autorstwa – Użycie niekomercyjne
Uznanie autorstwa - Bez utworów zależnych
15/16
8. Open Access – dlaczego i jak?
Korzyści
Stymulacja rozwoju technologii językowych w Polsce
Wsparcie dla rozwoju społeczeństwa informacyjnego
Stymulacja rozwoju gospodarki (technologie IT zwiększają
swój udział w rynku)
Promocja Politechniki – kształtowanie wizerunku
Szansa na lepsze publikacje i cytowania.
16/16
Dziękuję za uwagę!