Open Access w technologii językowej dla języka polskiego
Transkrypt
Open Access w technologii językowej dla języka polskiego
Open Access w technologii językowej dla języka polskiego Marek Maziarz, Maciej Piasecki Grupa Naukowa Technologii Językowych G4.19 Zakład Sztucznej Inteligencji, Instytut Informatyki, W-8, Politechnika Wrocławska nlp.pwr.wroc.pl plwordnet.pwr.wroc.pl 1. Inżynieria języka naturalnego CEL: nauczyć system komputerowy analizować język i treść tekstów w celu dostarczenia ludziom praktycznych korzyści Przykłady: • Wyszukiwarki internetowe • Systemy odpowiadania na pytania • Automatyczne wydobywanie zasobów tekstowych informacji z dużych • Automatyczne gromadzenie informacji o danej osobie, określonym wydarzeniu • Automatyczne tłumaczenie 2/16 2. Zasoby i narzędzia językowe • Zasoby językowe = bazy wiedzy o języku, np. słowniki i gramatyki • Narzędzia językowe = programy do analizy wypowiedzi w języka naturalnym na różnych poziomach systemu języka, np. odmiany i słowotwórstwa wyrazów, budowy zdania, znaczeń słów itd. • Podstawowe zasoby i narzędzia = standard, którego oczekuje się od technologii językowych 3/16 2. Zasoby i narzędzia językowe 4/16 3. Dostępność zasobów i narzędzi (ZiNJ) Uwarunkowania: • Koszt wytworzenie ZiNJ jest wysoki • Polskie firmy nie wytworzą wszystkich standardowych ZiNJ samodzielnie • Dostępność ZiNJ to warunek konieczny rozwoju systemów bardziej zaawansowanych • Brak systemów dla języka polskiego ogranicza dostęp do informacji i inteligentnego wykorzystania informacji w Internecie Open Access warunkuje rozwój nauki i społeczeństwa 5/16 informacyjnego. 4. Open Access a technologie jęz. w Polsce • 2006 rok - Polska ma bardzo słabo rozwinięte technologie językowe • Od 2006 PWr. i IPI PAN pracują wspólnie nad poprawą sytuacji • Od początku zakładano – Open Access • Od 2010 PWr udostępnia narzędzia i zasoby językowe na otwartych licencjach, także do użytku komercyjnego 6/16 5. Technologie językowe na PWr • G4.19 – grupa technologii językowych na W-8 • 5 grantów: POIG, NCBiR, 2 x MNiSW (NCN), Clarin • Narzędzia językowe: tagery, parsery składniowe i semantyczne, wyszukiwarki • Zasoby językowe: słowniki, sieci opisujące semantyczne zależności 7/16 6. Słowosieć – OA i Open Source 8/26 6. Słowosieć – OA i Open Source Liczba wyrazów w Słowosieci i w WordNecie princetońskim 150000 100000 50000 0 rzeczownik czasownik Słowosieć 2.0 przymiotnik przysłówek WordNet princetoński 9/16 6. Słowosieć – OA i Open Source • Sieć relacji pomiędzy znaczeniami wyrazów • Słownik dla komputerów: • 107 000 haseł, • 161 000 znaczeń, • ok. 450 000 relacji leksykalno-semantycznych • Licencja wzorowana na licencji WordNetu za zgodą i przy pełnym poparciu JM Rektora PWr: „Wykorzystanie systemu plWordNet® jest nieskrępowane. Można się tym systemem posługiwać w zastosowaniach komercyjnych... bez opłat i honorariów” 10/16 7. Korpus Języka Polskiego PWr Podstawowy zasób językowy • Zbiór starannie wyselekcjonowanych tekstów • Teksty różnorodne stylistycznie i gatunkowo • 0,5 mln wyrazów • Materiał do uczenia maszynowego (narzędzia językowe) • Materiał dla językoznawców badających język Licencja Creative Commons • Za zgodą i przy pełnym poparciu JM Rektora PWr 11/16 7. Korpus Języka Polskiego PWr 12/16 7. Creative Commons, ale które? Uznanie autorstwa Uznanie autorstwa – Na tych samych warunkach Uznanie autorstwa – Użycie niekomercyjne Uznanie autorstwa - Bez utworów zależnych 13/16 7. Creative Commons, ale które? Uznanie autorstwa Uznanie autorstwa – Na tych samych warunkach Uznanie autorstwa – Użycie niekomercyjne Uznanie autorstwa - Bez utworów zależnych 14/16 7. Creative Commons, ale które? Uznanie autorstwa Uznanie autorstwa – Na tych samych warunkach Uznanie autorstwa – Użycie niekomercyjne Uznanie autorstwa - Bez utworów zależnych 15/16 8. Open Access – dlaczego i jak? Korzyści Stymulacja rozwoju technologii językowych w Polsce Wsparcie dla rozwoju społeczeństwa informacyjnego Stymulacja rozwoju gospodarki (technologie IT zwiększają swój udział w rynku) Promocja Politechniki – kształtowanie wizerunku Szansa na lepsze publikacje i cytowania. 16/16 Dziękuję za uwagę!