Słowosieć 3.0 - leksykalna sieć semantyczna języka
Transkrypt
Słowosieć 3.0 - leksykalna sieć semantyczna języka
CLARIN-PL Słowosieć 3.0 - leksykalna sieć semantyczna języka polskiego i jej zastosowanie w analizie znaczeń Paweł Kędzia, Marek Maziarz, Maciej Piasecki i Piotr Pęzik* Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 pawel.kedzia@, marek.maziarz@, [email protected] *Uniwersytet Łódzki Wydział Filologiczny Instytut Anglistyki [email protected] 2015-04-14 Plan prezentacji Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Plan prezentacji 1. 2. 3. 4. 5. 6. 7. 8. 9. Wstęp Relacje Dodatkowe elementy opisu Proces budowy Słowosieci Efekt Zastosowania Ujednoznacznianie znaczeń słów WoSeDon Stenogramy sejmowe Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL 1. Wstęp Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Wordnet CLARIN-PL Uniwersytet w Princeton, lata 80., psycholingwistyka i lingwistyka informatyczna (J. Miller, Ch. Fellbaum) Badania nad językiem dzieci Wielka sieć leksykalno-semantyczna języka angielskiego Cztery części mowy rzeczowniki, czasowniki, przymiotniki i przysłówki Synset – zbiór prawie synonimów (ang. near synonyms) Relacje semantyczne Podstawowy zasób językowy Global Wordnet Association 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Relacyjna semantyka leksykalna CLARIN-PL System semantyczny języka jako sieć relacji John Lyons (1963), Structural semantics znaczenie wyrazu = zbiór jego relacji znaczeniowych główne relacje znaczeniowe (sense relations): synonimia, antonimia, hiponimia, meronimia (relacje paradygmatyczne) Igor Mel’čuk, Jurij Apresjan, Aleksandr Žolkovskij, lata 60. model „sens ↔ tekst” funkcje leksykalne paradygmatyczne i syntagmatyczne (Mel’čuk 1996), neostrukturalizm Alan Cruse, Gregory Murphy (Uniwersytet w Manchester), lata 80. 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Słowosieć (plWordNet) CLARIN-PL Pochodzenie Politechnika Wrocławska, 2005-2013 szereg projektów cel: bardzo obszerny opis systemu relacji leksykalno-semantycznych Relacje leksykalno-semantyczne, ok. 40 głównych typów rzeczownik czasownik przymiotnik hiponimia meronimia antonimia mieszkaniec role semantyczne … hiponimia kauzacja procesywność zawieranie roli aspektowość … hiponimia wartość cechy gradacyjność charakteryzowanie symilatywność … 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Synset CLARIN-PL • Synset – zbiór jednostek leksykalnych o wspólnych relacjach konstytutywnych, np. hiperonimii, holo/meronimii, … – jednostki zawarte w synsecie są uznawane za synonimy – jest rodzajem skróconego zapisu, np. {afekt 1, uczucie 2} hiperonim {miłość 1, umiłowanie 1, kochanie 1} • Relacje konstytutywne – podstawa konstrukcji synsetu, współdzielone i relatywnie częste • Dodatkowe rozróżnienia: rejestr stylistyczny, aspekt 1–2–3–4–5–6–7–8–9 Bogata sieć relacji Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL 2. Relacje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Relacje Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL 1. Relacje synsetów = pomiędzy zbiorami synonimów. 2. Relacje jednostek leksykalnych = pomiędzy znaczeniami. 3. Relacja synonimii. 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Relacje synsetów CLARIN-PL relacje pomiędzy zbiorami synonimów 0% 20% 40% 60% 80% hiponimia meronimia fuzzynimia bliskoznaczność instancja mieszkaniec Rzeczowniki 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Relacje synsetów CLARIN-PL Hiponimia Najważniejsza z relacji synsetów Rzeczowniki 65,9% 70% 60% 50% 40% 30% 20% 10% 15,1% 12,4% 3,7% 2,6% 0,3% 0% 66% instancji wszystkich relacji synsetów kościec każdego wordnetu 1–2–3–4–5–6–7–8–9 Relacje synsetów Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Hiponimia testy podstawieniowe tygrys1 (zw) «Panthera tigris» kot1 (zw) « każdy ssak z rodziny kotowatych» Hiponimia Jeśli coś jest tygrysem1, to musi być kotem1. Jeśli coś jest kotem1, to niekoniecznie jest tygrysem1. Jeśli coś nie jest kotem1, to nie może być tygrysem1. 1–2–3–4–5–6–7–8–9 Relacje synsetów Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Hiponimia testy podstawieniowe tygrys1 (zw) «Panthera tigris» kot1 (zw) «każdy ssak z rodziny kotowatych» Hiponimia Jeśli coś jest tygrysem1, to musi być kotem1. Jeśli coś jest kotem1, to niekoniecznie jest tygrysem1. Jeśli coś nie jest kotem1, to nie może być tygrysem1. 1–2–3–4–5–6–7–8–9 Relacje synsetów Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Hiponimia testy podstawieniowe tygrys1 (zw) «Panthera tigris» kot1 (zw) «każdy ssak z rodziny kotowatych» Hiponimia Jeśli coś jest tygrysem1, to musi być kotem1. TAK Jeśli coś jest kotem1, to niekoniecznie jest tygrysem1. TAK Jeśli coś nie jest kotem1, to nie może być tygrysem1. TAK 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Relacje synsetów CLARIN-PL Hiponimia «każdy ssak z rodziny kotowatych» «Acinonyx jubatus» «Panthera leo» «Panthera onca» «Panthera tigris» Relacje synsetów Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Hiponimia 1–2–3–4–5–6–7–8–9 Relacje synsetów Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Hiponimia istota żywa1 (zw) mięsożerca1 (zw) drapieżnik1 (zw) kot1 (zw) «każdy ssak z rodziny kotowatych» tygrys1 (zw) «Panthera tigris» organizm1 (rz) Relacje synsetów Hiponimia hiperonim hiponimy Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Relacje synsetów CLARIN-PL Meronimia relacja część – całość druga w kolejności, 15% instancji relacji Rzeczowniki 65,9% 70% 60% 50% 40% 30% 20% 10% 15,1% 12,4% 3,7% 2,6% 0,3% 0% 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Relacje synsetów CLARIN-PL Meronimia relacja część – całość holonim (całość) meronimy (części) 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Relacje synsetów CLARIN-PL Meronimia test podstawieniowy Meronimia Kiosk3 jest częścią okrętu podwodnego1. meronim (część) holonim (całość) 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Relacje synsetów CLARIN-PL Meronimia test podstawieniowy Meronimia Kiosk3 jest częścią okrętu podwodnego1. TAK meronim (część) holonim (całość) 1–2–3–4–5–6–7–8–9 Relacje jednostek leksykalnych Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL relacje pomiędzy jednostkami leksykalnymi (znaczeniami) nie mniej ważne niż relacje synsetów dostarczają informacji dodatkowej 1–2–3–4–5–6–7–8–9 Relacje jednostek leksykalnych Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Relacje jednostek leksykalnych «kaleczyć, ranić, rozcinając ciało i odsłaniając wewnętrzne tkanki» «używać sztyletu w celu zadania ciosu» «o zwierzętach: gryźć» Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Relacje jednostek leksykalnych Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Relacje jednostek leksykalnych Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Relacje jednostek leksykalnych Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Relacje jednostek leksykalnych Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Relacje jednostek leksykalnych CLARIN-PL AGENS rozpruwacz1 (os) «ktoś, kto rozpruwa» NARZĘDZIE «sztyletuje się sztyletem1 (wytw)» 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Relacje jednostek leksykalnych CLARIN-PL AGENS rozpruwacz1 (os) «ktoś, kto rozpruwa» NARZĘDZIE «sztyletuje się sztyletem1 (wytw)» 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Relacje jednostek leksykalnych CLARIN-PL AGENS rozpruwacz1 (os) «ktoś, kto rozpruwa» NARZĘDZIE «sztyletuje się sztyletem1 (wytw)» 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Relacje jednostek leksykalnych CLARIN-PL rozpruwać1 (dtk) «kaleczyć (kogoś); czynność wykonywana przez mordercę nazywanego rozpruwaczem» NARZĘDZIE «sztyletuje się sztyletem1 (wytw)» 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Relacje jednostek leksykalnych CLARIN-PL rozpruwać1 (dtk) «kaleczyć (kogoś); czynność wykonywana przez mordercę nazywanego rozpruwaczem» sztyletować1 (wal) «kaleczyć (kogoś) sztyletem» 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Relacje jednostek leksykalnych CLARIN-PL 1. Relacje o charakterze derywacyjnym: np. rola – agens: rozpruwacz1 (os) rozpruwać1 (dtk), np. zawieranie roli – narzędzie: sztyletować1 (wal) sztylet1 (wytw). 2. Pozostałe relacje: antonimia: miłość1 (czuj) ↔ nienawiść1 (czuj), konwersja: mąż2 (os) ↔ żona1 (os). 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Relacja synonimii CLARIN-PL Pełna synonimia jest rzadka (lingwistyka = językoznawstwo). Synonimia w wordnetach = synonimia częściowa. Definicja synonimii X i Y są synonimami, jeżeli w sieci relacji konstytutywnych zajmują dokładnie tę samą pozycję i nie różnią się w sposób istotny rejestrem. Relacje konstytutywne = hiponimia, meronimia, … 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Relacja synonimii CLARIN-PL Pełna synonimia jest rzadka (lingwistyka = językoznawstwo). Synonimia w wordnetach = synonimia częściowa. Definicja synonimii X i Y są synonimami, jeżeli w sieci relacji konstytutywnych zajmują dokładnie tę samą pozycję i nie różnią się w sposób istotny rejestrem. Relacje konstytutywne = hiponimia, meronimia, … Istotnie różnią się np. rejestry wulgarny i potoczny. 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Relacja synonimii CLARIN-PL Pełna synonimia jest rzadka (lingwistyka = językoznawstwo). Synonimia w wordnetach = synonimia częściowa. Definicja synonimii X i Y są synonimami, jeżeli w sieci relacji konstytutywnych zajmują dokładnie tę samą pozycję i nie różnią się w sposób istotny rejestrem. Relacje konstytutywne = hiponimia, meronimia, … Istotnie różnią się np. rejestry wulgarny i potoczny. 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Relacja synonimii CLARIN-PL Pełna synonimia jest rzadka (lingwistyka = językoznawstwo). Synonimia w wordnetach = synonimia częściowa. Definicja synonimii X i Y są synonimami, jeżeli w sieci relacji konstytutywnych zajmują dokładnie tę samą pozycję i nie różnią się w sposób istotny rejestrem. Relacje konstytutywne = hiponimia, meronimia, … Istotnie różnią się np. rejestry wulgarny i potoczny. 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Relacja synonimii CLARIN-PL {afekt 1, uczucie 2} hiponimia {miłość 1, umiłowanie 1, kochanie 1} 3. Dodatkowe elementy opisu Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Rejestr jednostki leksykalnej Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Rejestr = zakres stosowalności jednostki leksykalnej. 11 rejestrów Słowosieci 1–2–3–4–5–6–7–8–9 Rejestr jednostki leksykalnej Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Rejestr = zakres stosowalności jednostki leksykalnej. 11 rejestrów Słowosieci: nienorm. – nienormatywne daw. – dawne reg. – regionalne środ. – środowiskowe specj. – specjalistyczne urz. – urzędowe książk. – książkowe wulg. – wulgarne posp. – pospolite pot. – potoczne og. – rejestr ogólny 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Rejestr jednostki leksykalnej CLARIN-PL Rejestr = zakres stosowalności jednostki leksykalnej. 11 rejestrów Słowosieci: nienorm. – nienormatywne daw. – dawne reg. – regionalne środ. – środowiskowe specj. – specjalistyczne urz. – urzędowe książk. – książkowe wulg. – wulgarne posp. – pospolite pot. – potoczne og. – rejestr ogólny hulk1 (wytw) specj. holk1 (wytw) specj. tygrys1 (zw) og. rozpruwacz1 (os) pot. 1–2–3–4–5–6–7–8–9 Rejestr jednostki leksykalnej Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL 1–2–3–4–5–6–7–8–9 Glosy Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Glosy to skrócone definicje. W Słowosieci jest ich ponad 90 tys. 1–2–3–4–5–6–7–8–9 Glosy Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Glosy to skrócone definicje. W Słowosieci jest ich ponad 90 tys. tygrys1 (zw) og. «Panthera tigris – gatunek dużego, drapieżnego ssaka łożyskowego z rodziny kotowatych (Felidae), największy z żyjących współcześnie czterech wielkich, ryczących kotów z rodzaju Panthera, jeden z największych drapieżników lądowych – wielkością ustępuje jedynie niektórym niedźwiedziom» rozpruwacz1 (os) pot. «określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub końcyzny, rozcina tułów, masakruje różne części ciała» Przykłady użycia Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL dokumentacja korpusowa lub ilustracja znaczenia preparowane lub ze źródeł o otwartej licencji ponad 100 tys. opisanych znaczeń (głównie rzeczowników i przymiotników) tygrys1 (zw) og. «Panthera tigris – gatunek dużego, drapieżnego ssaka łożyskowego z rodziny kotowatych (Felidae), największy z żyjących współcześnie czterech wielkich, ryczących kotów z rodzaju Panthera, jeden z największych drapieżników lądowych – wielkością ustępuje jedynie niektórym niedźwiedziom» „Umiejętność chowania pazurów umożliwia tygrysowi bardzo ciche stąpanie przy podkradaniu się do ofiary, a ich wysunięcie ułatwia przytrzymywanie i rozrywanie zdobyczy.” (źródło: Wikipedia) Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Dziedziny Słowosieci CLARIN-PL skróty w nawiasach: tygrys1 (zw) fluita1 (wytw) rozpruwacz1 (os) sztyletować1 (wal) rozpruwać1 (dtk) zamek1 (msc) nienawiść1 (czuj) zw = zwierzęta wytw = wytwory (artefakty) os = osoby, ludzie wal = walka i rywalizacja dtk = kontakt fizyczny msc = miejsce czuj = uczucia, emocje mają techniczny charakter pomagają w orientowaniu się w sieci 1–2–3–4–5–6–7–8–9 Dziedziny Słowosieci Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL gatunki i rasy zwierząt pejoratywne określenia ludzi 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Nastawienie emocjonalne CLARIN-PL ANOTACJA NASTAWIENIEM EMOCJONALNYM Emocje podstawowe – radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992; Plutchik 1980) Wartości uniwersalne – użyteczność / bezużyteczność, dobro drugiego człowieka / krzywda, prawda, wiedza / niewiedza, błąd, piękno / brzydota, szczęście i nieszczęście (Puzynina 1992) Nastawienie – pozytywne (bardzo – słabo), negatywne (bardzo – słabo), neutralne. Ponad 20 000 oznakowanych jednostek. 1–2–3–4–5–6–7–8–9 Nastawienie emocjonalne Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL rozpruwacz1 (os) pot. «określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów, masakruje różne części ciała.» ##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie wychodził z domu po zmroku.] ##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.] 1–2–3–4–5–6–7–8–9 Nastawienie emocjonalne Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL pierwszy anotator rozpruwacz1 (os) pot. «określenie mordercy, który okalecza swoje ofiary za pomocą emocje podstawowe wartości nastawienie noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów, masakruje różne części ciała.» ##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie wychodził z domu po zmroku.] ##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.] 1–2–3–4–5–6–7–8–9 Nastawienie emocjonalne Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL rozpruwacz1 (os) pot. «określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów, masakruje różne części ciała.» ##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie wychodził z domu po zmroku.] ##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.] drugi anotator 4. Proces budowy Słowosieci Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Proces budowy Słowosieci CLARIN-PL Kto tworzy Słowosieć? zespół 20-30 polonistów, 10 anglistów informatycy, specjaliści od przetwarzania języka sztuczna inteligencja (narzędzia półautomatyczne) 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Proces budowy Słowosieci Korpus Słowosieci 2 mld tokenów CLARIN-PL siatka haseł (słowa najczęstsze) Sketch Engine narzędzia komputerowe wyróżnić znaczenia konkordancer korpusu automatyczne przykłady użycia Inforex 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Proces budowy Słowosieci CLARIN-PL Korpus Słowosieci siatka haseł n.a. - przykłady użyciagryźć -> wyróżnianie znaczeń, przykłady 2 mld tokenów (słowazębów, najczęstsze) `o zwierzętach: używając powodując rany’ (Marek) typowe,`o 10 znaczeń zjawiskach pogodowych (np. mrozie): gryźć, narzędzia komputerowe szczypać’ `o owadach: gryźć’ znaczenia wyróżnić `o zmartwieniach, wyrzutach sumienia: konkordancer korpusu gryźć’ `o ludziach: dokuczać, szkodzić komuś’ Przykłady użycia wyrazu kąsać 1 2 3 4 5 6 7 8 9 10 automatyczne przykłady użycia Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Proces budowy Słowosieci Korpus Słowosieci 2 mld tokenów CLARIN-PL siatka haseł (słowa najczęstsze) narzędzia komputerowe wyróżnić znaczenia Tkacz Wordnetu zdefiniować jednostkę przypisać relacje = podpiąć słowniki, encyklopedie, leksykony… wytyczne zespół Słowosieci 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Proces budowy Słowosieci antonim wyraz bliskoznaczny hiperonim CLARIN-PL hiponim kohiponim holonim 1–2–3–4–5–6–7–8–9 5. Efekt Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Słowosieć w liczbach CLARIN-PL Liczba haseł (lematów) w Słowosieci i w WordNecie 140 000 Słowosieć WordNet 120 000 haseł 167 000 156 000 100 000 synsetów 178 000 118 000 80 000 jednostek 237 000 207 000 60 000 relacji > 500 000 > 500 000 40 000 20 000 0 rzeczownik czasownik przymiotnik przysłówek 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Słowosieć w liczbach CLARIN-PL Słowosieć a słowniki polszczyzny współczesnej 0 50 100 150 200 Słowosieć Praktyczny słownik współczesnej polszczyzny Słownik języka polskiego W. Doroszewskiego Uniwersalny słownik języka polskiego Inny słownik języka polskiego haseł [tys.] 1–2–3–4–5–6–7–8–9 Słowosieć w liczbach Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Słowosieć 2.3 koniec kwietnia br. przymiotnik + nastawienie 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Praca ze Słowosiecią CLARIN-PL www.clarin-pl.eu Słowosieć online Słowosieć mobilna WordnetLoomViewer 1–2–3–4–5–6–7–8–9 Praca ze Słowosiecią Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL www.plwordnet.pwr.wroc.pl/wordnet 1–2–3–4–5–6–7–8–9 Praca ze Słowosiecią Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Słowosieć mobilna 1–2–3–4–5–6–7–8–9 Praca ze Słowosiecią Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL WordnetLoom 6. Zastosowania Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Zastosowania: projekty badawcze (wybrane) Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Semantyczna anotacja korpusu gestów wskazujących (Lis, 2012) Leksykony semantycznych ram walencyjnych (Hajnicz, 2011; Hajnicz, 2012) Wyznaczanie pól semantycznych Grupowanie czasowników na potrzeby badania klas alternacji Kategoryzacja wyrażeń metaforycznych w oparciu o hiperonimy Wspomagana komputerowo analiza danych jakościowych Badania nad frazeologią Nauka języka „przygotowanie słowniku dla kursu języka czeskiego dla obcokrajowców” (Uniwersytet Masaryka, Brno) Konstrukcja programów do nauki języka Badanie treści prac uczniowskich/studenckich Edukacyjne: językoznawstwo, leksykologia, leksykografia Tłumaczenia Analiza leksykalizacji pojęć 1–2–3–4–5–6–7–8–9 Zastosowania (wybrane) Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Wyszukiwanie semantyczne w korpusach tekstu Grupowanie semantyczne tekstów określanie podobieństwa zdań i fragmentów tekstów, np. (Siemiński, 2012) Klasyfikacja semantyczna tekstu, np. (Maciołek, 2010) Korekta rozpoznawania mowy w systemach dialogowych Systemy odpowiedzi na pytania w języku naturalnym Np. do rozpoznania typu pytania Wydobywanie terminologii i słów kluczowych, np. (Mykowiecka i Marciniak, 2012) Wnioskowania w oparciu o logiki naturalne Tworzenie programów do grania w gry słowne Wykrywanie i generowanie pleonazmów 1–2–3–4–5–6–7–8–9 Zastosowania (wybrane) Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Definiowanie cech na potrzeby Text Mining ze stron WWW (Maciolek and Dobrowolski, 2013) Rzutowanie pomiędzy leksykonem a ontologią (Wróblewska et al., 2013) Miara podobieństwa semantycznego słów na potrzeby analizy ontologii (Lula and Paliwoda-Pękosz, 2009) Automatyczne wydobywanie leksykonów atrybutów opinii (Wawer and Gołuchowski, 2012) Rozpoznawanie i klasyfikacja nazw własnych (własne G4.19) Ujednoznacznianie sensów słów (Gołuchowski and Przepiórkowski, 2012, własne G4.19, 2015) Rozpoznawanie powiązań anaforycznych (własne G4.19) 7. Ujednoznacznianie sensów słów Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Ujednoznacznianie sensów słów Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Idea ujednoznaczniania sensów słów: zamek 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Ujednoznacznianie sensów słów CLARIN-PL Idea ujednoznaczniania sensów słów (cd.): zamek 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Ujednoznacznianie sensów słów CLARIN-PL Idea ujednoznaczniania sensów słów (cd.): zamek 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Ujednoznacznianie sensów słów CLARIN-PL Idea ujednoznaczniania sensów słów (cd.): zamek 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Ujednoznacznianie sensów słów CLARIN-PL Idea ujednoznaczniania sensów słów (cd.): Po powrocie z pracy zepsułem zamek. ` ` ` 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Ujednoznacznianie sensów słów CLARIN-PL Idea ujednoznaczniania sensów słów (cd.): Po powrocie z pracy zepsułem zamek w drzwiach. ` ` ` 1–2–3–4–5–6–7–8–9 Ujednoznacznianie sensów słów Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Proces polegający na przypisaniu słowu odpowiedniego znaczenia wybranego ze zbioru znaczeń słów, odpowiadającego znaczeniu słowa w danym kontekście. 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Ujednoznacznianie sensów słów CLARIN-PL Uczenie na podstawie oznaczeń w tekstach: Wymagane duże zasoby ręcznie oznaczonych tekstów; Czasochłonność ręcznego oznaczania tekstów (koszty); Każde słowo z osobna posiada swoje anotacje; Rozpoznawanie znaczeń kolejnego słowa = anotacje tego słowa = kolejne koszty; Zaleta: duża dokładność systemu; Wada: niska kompletność rozpoznawanych znaczeń; 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Ujednoznacznianie sensów słów CLARIN-PL Uczenie bez wstępnego oznaczania w tekście: Nie jest wymagane wstępne znakowanie znaczeń w tekstach; Wykorzystanie istniejących struktur opisujących zależności między znaczeniami słów (Słowosieć); Zaleta: dużo większa kompletność rozpoznawanych słów w stosunku do ujednoznaczniania na podstawie ręcznych anotacji; Wada: mniejsza dokładność rozpoznawanych w stosunku do systemów uczonych na podstawie ręcznych oznaczeń; 1–2–3–4–5–6–7–8–9 Ujednoznacznianie sensów słów Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Nienadzorowane podejście oparte o przetwarzanie grafu. „Po powrocie z pracy zepsułem zamek w drzwiach.” – graf dla słowa „zamek”. Ujednoznacznianie sensów słów „Po powrocie z pracy zepsułem zamek w drzwiach.” Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Ujednoznacznianie sensów słów CLARIN-PL Proces aktywacji synsetów – Nienadzorowane podejście oparte o przetwarzanie grafu. ... 0 ... ... 0 strażnica ... 0 baszta ... 0 brama 0 furtka drzwi ... 0 0 rezydencja budowla obronna 0 ... 1 6 zamknięcie zamek-2 (w drzwiach) zamek-1 (budowla) zatrzask 1 6 0 ... Mam zamek w kurtce i garniturze. 1 6 mieć posiadać ... zamek-6 (suwak) 1 6 kurtka 0 1 6 ... zapięcie 0 ... garnitur ... 1 6 Ujednoznacznianie sensów słów Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL „Surowe” wyjście WoSeDona – anotacje WSD dla słowa „zamek” w zdaniu Po powrocie z pracy zepsułem zamek w drzwiach. <tok> <orth>zamek</orth> <lex disamb="1"> <base>zamek</base><ctag>subst:sg:acc:m3</ctag> </lex> <prop key="sense:ukb:syns_id">4190</prop> <prop key="sense:ukb:syns_rank">4190/0.1871610737 43594/0.1711723551 46716/0.1504792310 4189/0.1383621756 46718/0.1349534529 52769/0.1107446943 43596/0.1071270174</prop> <prop key="sense:ukb:unitsstr">zamek.2(3:wytw)</prop> </tok> Anotacja w formacie CCL zawierająca informacje o znaczeniu słowa zamek. 8. WoSeDon Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL WoSeDon Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Narzędzie do generowania i przeglądania list frekwencyjnych znaczeń Słowosieci z korpusów tekstów. Korpus musi posiadać wcześniej przypisane znaczenia, za co również odpowiada WoSeDon w fazie wstępnej przetwarzania tekstu (preprocessingu). Dostępność poprzez przeglądarkę pod adresem: http://wosedon.clarin-pl.eu/home WoSeDon – okno główne Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL 1–2–3–4–5–6–7–8–9 WoSeDon – schemat działania Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Przetwarzanie korpusu do CCL (WCRFT, Liner, WoSeDon) Korpus w DSpace Przejście do WoSeDon’a 1–2–3–4–5–6–7–8–9 WoSeDon – funkcjonalność Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Generowanie i przeglądanie list frekwencyjnych znaczeń z korpusów tekstów. Generowanie listy bezpośrednio z DSpace poprzez kliknięcie w przycisk: Ewentualnie poprzez wklejenie URI (np. http://hdl.handle.net/11321/114) do WoSeDona: 1–2–3–4–5–6–7–8–9 WoSeDon – funkcjonalność Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL 1–2–3–4–5–6–7–8–9 WoSeDon – funkcjonalność Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL 1–2–3–4–5–6–7–8–9 WoSeDon – dalsze prace Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Wyznaczanie „znaczeń tematów” – znaczenia, które łącznie pokrywają 50% korpusu. Rozwój interfejsu o kolejne informacje np. liczba wszystkich znaczeń w korpusie, liczba różnych znaczeń itp. 9. Stenogramy sejmowe Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Stenogramy sejmowe Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL Sejm ostatnich kadencji lata 2006-2014 metadane: data partia poseł automatycznie ujednoznacznione sensy słów prezentacja w aplikacji KOPER autorstwa dra P. Pęzika 1–2–3–4–5–6–7–8–9 Stenogramy sejmowe Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL http://clarin.pelcra.pl/PSCWSDWeb 1–2–3–4–5–6–7–8–9 Stenogramy sejmowe Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL http://clarin.pelcra.pl/PSCWSDWeb składnia zapytań – wersja robocza <lemma=kryzys:30679> ↑ ↑ hasło ID synsetu ID synsetu identyfikuje znaczenia konkordancja + trendy (szeregi czasowe) 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Stenogramy sejmowe CLARIN-PL kryzys 1 (cech) (pogorszenie się sytuacji w sferze społecznej) kryzys 2 (pos) (kryzys gospodarczy, recesja) kryzys 3 (st) (pogorszenie się sytuacji człowieka, np. kryzys małżeński) kryzys 4 (zdarz) (w chorobie) 1–2–3–4–5–6–7–8–9 Stenogramy sejmowe Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL kryzys 4 (zdarz) (w chorobie) 1–2–3–4–5–6–7–8–9 Stenogramy sejmowe Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL konkordancje ściąganie w formacie *.xls 1–2–3–4–5–6–7–8–9 Stenogramy sejmowe Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL szeregi czasowe ściąganie w różnych formatach graficznych Stenogramy sejmowe Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL szeregi czasowe kryzys 2 (pos) 1–2–3–4–5–6–7–8–9 Stenogramy sejmowe Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL szeregi czasowe 1–2–3–4–5–6–7–8–9 Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 Stenogramy sejmowe CLARIN-PL szeregi czasowe klikalne punkty 1–2–3–4–5–6–7–8–9 Stenogramy sejmowe Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL szeregi czasowe mógłby także zagrozić A przecież , jak mówiłem kryzys stabilności polskiego systemu wcześniej , taki bankowego. minister Jacek Rostowski, PO, 2009-05-22 1–2–3–4–5–6–7–8–9 Stenogramy sejmowe Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL szeregi czasowe 1–2–3–4–5–6–7–8–9 Stenogramy sejmowe Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL szeregi czasowe Z tego, co gospodarczy nie stuka do naszych drzwi, usłyszałem nie łomocze - jest już w przedpokoju, kryzys w exposé, powiesił płaszcz, założył kapcie i zaczyna wynika, że czuć się jak u siebie w domu . poseł Leszek Miller, SLD, 2011-1118 1–2–3–4–5–6–7–8–9 Stenogramy sejmowe Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL szeregi czasowe 1–2–3–4–5–6–7–8–9 Stenogramy sejmowe Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL szeregi czasowe Taką potrzebą chwili na przykład uzasadnialiśmy zmiany, które weszły w 2009 r. i obowiązywały kryzysu . przez 2 lata w okresie tzw. - niektórzy tak to nazywają - pierwszej fali poseł Adam Szejnfeld, PO, 2011-03-7 1–2–3–4–5–6–7–8–9 Stenogramy sejmowe Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL szeregi czasowe 1–2–3–4–5–6–7–8–9 Stenogramy sejmowe Plany: - pozostałe kadencje Sejmu wyszukiwanie po polach leksykalnych tj. po grupie hiponimów danej jednostki np. hiponimy rzeczownika kobieta w zn. «dorosły człowiek płci żeńskiej» Warsztaty CLARIN-PL Warszawa 13-15 IV 2015 CLARIN-PL CLARIN-PL Dziękujmy bardzo za uwagę
Podobne dokumenty
CLARIN – infrastruktura naukowa technologii językowych
Centrum Technologii Językowych CLARIN-PL http://clarin-pl.eu/pl/strona-glowna/ certyfikat centrum CLARIN typu B międzynarodowy certyfikat Data Seal of Approval w zakresie przechowywania i zarzą...
Bardziej szczegółowoCentrum Technologii Językowych CLARIN
Centrum Technologii Językowych CLARIN-‐PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego
Bardziej szczegółowo