Słowosieć 3.0 - leksykalna sieć semantyczna języka

Transkrypt

Słowosieć 3.0 - leksykalna sieć semantyczna języka
CLARIN-PL
Słowosieć 3.0 - leksykalna sieć semantyczna języka
polskiego i jej zastosowanie w analizie znaczeń
Paweł Kędzia, Marek Maziarz, Maciej Piasecki i Piotr Pęzik*
Politechnika Wrocławska
Katedra Inteligencji Obliczeniowej
Grupa Naukowa G4.19
pawel.kedzia@, marek.maziarz@, [email protected]
*Uniwersytet Łódzki
Wydział Filologiczny
Instytut Anglistyki
[email protected]
2015-04-14
Plan prezentacji
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Plan prezentacji
1.
2.
3.
4.
5.
6.
7.
8.
9.
Wstęp
Relacje
Dodatkowe elementy opisu
Proces budowy Słowosieci
Efekt
Zastosowania
Ujednoznacznianie znaczeń słów
WoSeDon
Stenogramy sejmowe
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1. Wstęp
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Wordnet
CLARIN-PL
 Uniwersytet w Princeton, lata 80., psycholingwistyka i
lingwistyka informatyczna (J. Miller, Ch. Fellbaum)
 Badania nad językiem dzieci
 Wielka sieć leksykalno-semantyczna języka angielskiego
 Cztery części mowy
 rzeczowniki, czasowniki, przymiotniki i przysłówki




Synset – zbiór prawie synonimów (ang. near synonyms)
Relacje semantyczne
Podstawowy zasób językowy
Global Wordnet Association
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Relacyjna semantyka leksykalna
CLARIN-PL
 System semantyczny języka jako sieć relacji
 John Lyons (1963), Structural semantics
 znaczenie wyrazu = zbiór jego relacji znaczeniowych
 główne relacje znaczeniowe (sense relations): synonimia,
antonimia, hiponimia, meronimia (relacje paradygmatyczne)
 Igor Mel’čuk, Jurij Apresjan, Aleksandr Žolkovskij, lata 60.
 model „sens ↔ tekst”
 funkcje leksykalne paradygmatyczne i syntagmatyczne
(Mel’čuk 1996),
 neostrukturalizm
 Alan Cruse, Gregory Murphy (Uniwersytet w Manchester),
lata 80.
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Słowosieć (plWordNet)
CLARIN-PL
 Pochodzenie
 Politechnika Wrocławska, 2005-2013
 szereg projektów
 cel: bardzo obszerny opis systemu
relacji leksykalno-semantycznych
 Relacje leksykalno-semantyczne, ok. 40 głównych typów
rzeczownik
czasownik
przymiotnik
hiponimia
meronimia
antonimia
mieszkaniec
role semantyczne
…
hiponimia
kauzacja
procesywność
zawieranie roli
aspektowość
…
hiponimia
wartość cechy
gradacyjność
charakteryzowanie
symilatywność
…
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Synset
CLARIN-PL
• Synset
– zbiór jednostek leksykalnych o wspólnych relacjach
konstytutywnych, np. hiperonimii, holo/meronimii, …
– jednostki zawarte w synsecie są uznawane za synonimy
– jest rodzajem skróconego zapisu, np.
{afekt 1, uczucie 2} hiperonim
{miłość 1, umiłowanie 1,
kochanie 1}
• Relacje konstytutywne
– podstawa konstrukcji synsetu, współdzielone i relatywnie częste
• Dodatkowe rozróżnienia: rejestr stylistyczny, aspekt
1–2–3–4–5–6–7–8–9
Bogata sieć relacji
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
2. Relacje
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Relacje
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
 1. Relacje synsetów = pomiędzy zbiorami synonimów.
 2. Relacje jednostek leksykalnych = pomiędzy znaczeniami.
 3. Relacja synonimii.
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Relacje synsetów
CLARIN-PL
 relacje pomiędzy zbiorami synonimów
0%
20%
40%
60%
80%
hiponimia
meronimia
fuzzynimia
bliskoznaczność
instancja
mieszkaniec
Rzeczowniki
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Relacje synsetów
CLARIN-PL
Hiponimia
Najważniejsza z relacji synsetów
Rzeczowniki
65,9%
70%
60%
50%
40%
30%
20%
10%
15,1%
12,4%
3,7%
2,6%
0,3%
0%
66% instancji wszystkich relacji synsetów
kościec każdego wordnetu
1–2–3–4–5–6–7–8–9
Relacje synsetów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Hiponimia
testy podstawieniowe
tygrys1 (zw) «Panthera tigris»
kot1 (zw) « każdy ssak z rodziny kotowatych»
Hiponimia
Jeśli coś jest tygrysem1, to musi być kotem1.
Jeśli coś jest kotem1, to niekoniecznie jest tygrysem1.
Jeśli coś nie jest kotem1, to nie może być tygrysem1.
1–2–3–4–5–6–7–8–9
Relacje synsetów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Hiponimia
testy podstawieniowe
tygrys1 (zw) «Panthera tigris»
kot1 (zw) «każdy ssak z rodziny kotowatych»
Hiponimia
Jeśli coś jest tygrysem1, to musi być kotem1.
Jeśli coś jest kotem1, to niekoniecznie jest tygrysem1.
Jeśli coś nie jest kotem1, to nie może być tygrysem1.
1–2–3–4–5–6–7–8–9
Relacje synsetów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Hiponimia
testy podstawieniowe
tygrys1 (zw) «Panthera tigris»
kot1 (zw) «każdy ssak z rodziny kotowatych»
Hiponimia
Jeśli coś jest tygrysem1, to musi być kotem1. TAK
Jeśli coś jest kotem1, to niekoniecznie jest tygrysem1. TAK
Jeśli coś nie jest kotem1, to nie może być tygrysem1. TAK
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Relacje synsetów
CLARIN-PL
Hiponimia
«każdy ssak z rodziny kotowatych»
«Acinonyx jubatus»
«Panthera leo»
«Panthera onca»
«Panthera tigris»
Relacje synsetów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Hiponimia
1–2–3–4–5–6–7–8–9
Relacje synsetów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Hiponimia
istota żywa1 (zw)
mięsożerca1 (zw)
drapieżnik1 (zw)
kot1 (zw)
«każdy ssak z rodziny kotowatych»
tygrys1 (zw) «Panthera tigris»
organizm1 (rz)
Relacje synsetów
Hiponimia
hiperonim
hiponimy
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Relacje synsetów
CLARIN-PL
Meronimia
relacja część – całość
druga w kolejności, 15% instancji relacji
Rzeczowniki
65,9%
70%
60%
50%
40%
30%
20%
10%
15,1%
12,4%
3,7%
2,6%
0,3%
0%
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Relacje synsetów
CLARIN-PL
Meronimia
relacja część – całość
holonim (całość)
meronimy (części)
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Relacje synsetów
CLARIN-PL
Meronimia
 test podstawieniowy
Meronimia
Kiosk3 jest częścią okrętu podwodnego1.
meronim (część)
holonim (całość)
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Relacje synsetów
CLARIN-PL
Meronimia
 test podstawieniowy
Meronimia
Kiosk3 jest częścią okrętu podwodnego1. TAK
meronim (część)
holonim (całość)
1–2–3–4–5–6–7–8–9
Relacje jednostek leksykalnych
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
 relacje pomiędzy jednostkami leksykalnymi (znaczeniami)
 nie mniej ważne niż relacje synsetów
 dostarczają informacji dodatkowej
1–2–3–4–5–6–7–8–9
Relacje jednostek leksykalnych
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Relacje jednostek leksykalnych
«kaleczyć, ranić, rozcinając ciało
i odsłaniając wewnętrzne tkanki»
«używać sztyletu
w celu zadania ciosu»
«o zwierzętach: gryźć»
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Relacje jednostek leksykalnych
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Relacje jednostek leksykalnych
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Relacje jednostek leksykalnych
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Relacje jednostek leksykalnych
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Relacje jednostek leksykalnych
CLARIN-PL
AGENS
rozpruwacz1 (os) «ktoś, kto rozpruwa»
NARZĘDZIE
«sztyletuje się sztyletem1 (wytw)»
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Relacje jednostek leksykalnych
CLARIN-PL
AGENS
rozpruwacz1 (os) «ktoś, kto rozpruwa»
NARZĘDZIE
«sztyletuje się sztyletem1 (wytw)»
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Relacje jednostek leksykalnych
CLARIN-PL
AGENS
rozpruwacz1 (os) «ktoś, kto rozpruwa»
NARZĘDZIE
«sztyletuje się sztyletem1 (wytw)»
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Relacje jednostek leksykalnych
CLARIN-PL
rozpruwać1 (dtk) «kaleczyć (kogoś); czynność wykonywana
przez mordercę nazywanego rozpruwaczem»
NARZĘDZIE
«sztyletuje się sztyletem1 (wytw)»
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Relacje jednostek leksykalnych
CLARIN-PL
rozpruwać1 (dtk) «kaleczyć (kogoś); czynność wykonywana
przez mordercę nazywanego rozpruwaczem»
sztyletować1 (wal) «kaleczyć (kogoś) sztyletem»
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Relacje jednostek leksykalnych
CLARIN-PL
 1. Relacje o charakterze derywacyjnym:
 np. rola – agens:
rozpruwacz1 (os)  rozpruwać1 (dtk),
 np. zawieranie roli – narzędzie:
sztyletować1 (wal)  sztylet1 (wytw).
 2. Pozostałe relacje:
 antonimia: miłość1 (czuj) ↔ nienawiść1 (czuj),
 konwersja: mąż2 (os) ↔ żona1 (os).
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Relacja synonimii
CLARIN-PL
 Pełna synonimia jest rzadka (lingwistyka = językoznawstwo).
 Synonimia w wordnetach = synonimia częściowa.
Definicja synonimii
X i Y są synonimami, jeżeli w sieci relacji konstytutywnych
zajmują dokładnie tę samą pozycję
i nie różnią się w sposób istotny rejestrem.
Relacje konstytutywne = hiponimia, meronimia, …
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Relacja synonimii
CLARIN-PL
 Pełna synonimia jest rzadka (lingwistyka = językoznawstwo).
 Synonimia w wordnetach = synonimia częściowa.
Definicja synonimii
X i Y są synonimami, jeżeli w sieci relacji konstytutywnych
zajmują dokładnie tę samą pozycję
i nie różnią się w sposób istotny rejestrem.
Relacje konstytutywne = hiponimia, meronimia, …
Istotnie różnią się np. rejestry wulgarny i potoczny.
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Relacja synonimii
CLARIN-PL
 Pełna synonimia jest rzadka (lingwistyka = językoznawstwo).
 Synonimia w wordnetach = synonimia częściowa.
Definicja synonimii
X i Y są synonimami, jeżeli w sieci relacji konstytutywnych
zajmują dokładnie tę samą pozycję
i nie różnią się w sposób istotny rejestrem.
Relacje konstytutywne = hiponimia, meronimia, …
Istotnie różnią się np. rejestry wulgarny i potoczny.
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Relacja synonimii
CLARIN-PL
 Pełna synonimia jest rzadka (lingwistyka = językoznawstwo).
 Synonimia w wordnetach = synonimia częściowa.
Definicja synonimii
X i Y są synonimami, jeżeli w sieci relacji konstytutywnych
zajmują dokładnie tę samą pozycję
i nie różnią się w sposób istotny rejestrem.
Relacje konstytutywne = hiponimia, meronimia, …
Istotnie różnią się np. rejestry wulgarny i potoczny.
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Relacja synonimii
CLARIN-PL
{afekt 1, uczucie 2}
hiponimia
{miłość 1, umiłowanie 1,
kochanie 1}
3. Dodatkowe elementy opisu
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Rejestr jednostki leksykalnej
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
 Rejestr = zakres stosowalności jednostki leksykalnej.
 11 rejestrów Słowosieci
1–2–3–4–5–6–7–8–9
Rejestr jednostki leksykalnej
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
 Rejestr = zakres stosowalności jednostki leksykalnej.
 11 rejestrów Słowosieci:











nienorm. – nienormatywne
daw. – dawne
reg. – regionalne
środ. – środowiskowe
specj. – specjalistyczne
urz. – urzędowe
książk. – książkowe
wulg. – wulgarne
posp. – pospolite
pot. – potoczne
og. – rejestr ogólny
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Rejestr jednostki leksykalnej
CLARIN-PL
 Rejestr = zakres stosowalności jednostki leksykalnej.
 11 rejestrów Słowosieci:











nienorm. – nienormatywne
daw. – dawne
reg. – regionalne
środ. – środowiskowe
specj. – specjalistyczne
urz. – urzędowe
książk. – książkowe
wulg. – wulgarne
posp. – pospolite
pot. – potoczne
og. – rejestr ogólny
hulk1 (wytw)
specj.
holk1 (wytw)
specj.
tygrys1 (zw)
og.
rozpruwacz1 (os)
pot.
1–2–3–4–5–6–7–8–9
Rejestr jednostki leksykalnej
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1–2–3–4–5–6–7–8–9
Glosy
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
 Glosy to skrócone definicje.
 W Słowosieci jest ich ponad 90 tys.
1–2–3–4–5–6–7–8–9
Glosy
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
 Glosy to skrócone definicje.
 W Słowosieci jest ich ponad 90 tys.
tygrys1 (zw) og.
«Panthera tigris – gatunek dużego, drapieżnego ssaka
łożyskowego z rodziny kotowatych (Felidae), największy z
żyjących współcześnie czterech wielkich, ryczących kotów z
rodzaju Panthera, jeden z największych drapieżników
lądowych – wielkością ustępuje jedynie niektórym
niedźwiedziom»
rozpruwacz1 (os) pot.
«określenie mordercy, który okalecza swoje ofiary za pomocą
noża; rozpruwacz odcina głowę lub końcyzny, rozcina tułów,
masakruje różne części ciała»
Przykłady użycia
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
 dokumentacja korpusowa lub ilustracja znaczenia
 preparowane lub ze źródeł o otwartej licencji
 ponad 100 tys. opisanych znaczeń (głównie rzeczowników i
przymiotników)
tygrys1 (zw) og.
«Panthera tigris – gatunek dużego, drapieżnego ssaka łożyskowego z rodziny
kotowatych (Felidae), największy z żyjących współcześnie czterech wielkich,
ryczących kotów z rodzaju Panthera, jeden z największych drapieżników lądowych
– wielkością ustępuje jedynie niektórym niedźwiedziom»
„Umiejętność chowania pazurów umożliwia tygrysowi bardzo
ciche stąpanie przy podkradaniu się do ofiary, a ich
wysunięcie ułatwia przytrzymywanie i rozrywanie zdobyczy.”
(źródło: Wikipedia)
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Dziedziny Słowosieci
CLARIN-PL
 skróty w nawiasach:







tygrys1 (zw)
fluita1 (wytw)
rozpruwacz1 (os)
sztyletować1 (wal)
rozpruwać1 (dtk)
zamek1 (msc)
nienawiść1 (czuj)







zw = zwierzęta
wytw = wytwory (artefakty)
os = osoby, ludzie
wal = walka i rywalizacja
dtk = kontakt fizyczny
msc = miejsce
czuj = uczucia, emocje
 mają techniczny charakter
 pomagają w orientowaniu się w sieci
1–2–3–4–5–6–7–8–9
Dziedziny Słowosieci
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
gatunki i rasy zwierząt
pejoratywne określenia ludzi
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Nastawienie emocjonalne
CLARIN-PL
ANOTACJA NASTAWIENIEM EMOCJONALNYM
 Emocje podstawowe –
radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie
czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992;
Plutchik 1980)
 Wartości uniwersalne –
użyteczność / bezużyteczność, dobro drugiego człowieka / krzywda,
prawda, wiedza / niewiedza, błąd, piękno / brzydota, szczęście i
nieszczęście (Puzynina 1992)
 Nastawienie –
pozytywne (bardzo – słabo), negatywne (bardzo – słabo), neutralne.
 Ponad 20 000 oznakowanych jednostek.
1–2–3–4–5–6–7–8–9
Nastawienie emocjonalne
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
rozpruwacz1 (os) pot.
«określenie mordercy, który okalecza swoje ofiary za pomocą
noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów,
masakruje różne części ciała.»
##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m
[Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie
wychodził z domu po zmroku.]
##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m
[Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.]
1–2–3–4–5–6–7–8–9
Nastawienie emocjonalne
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
pierwszy anotator
rozpruwacz1 (os) pot.
«określenie mordercy, który okalecza swoje ofiary za pomocą
emocje podstawowe
wartości
nastawienie
noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów,
masakruje różne części ciała.»
##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m
[Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie
wychodził z domu po zmroku.]
##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m
[Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.]
1–2–3–4–5–6–7–8–9
Nastawienie emocjonalne
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
rozpruwacz1 (os) pot.
«określenie mordercy, który okalecza swoje ofiary za pomocą
noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów,
masakruje różne części ciała.»
##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m
[Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie
wychodził z domu po zmroku.]
##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m
[Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.]
drugi anotator
4. Proces budowy Słowosieci
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Proces budowy Słowosieci
CLARIN-PL
Kto tworzy Słowosieć?
zespół 20-30 polonistów, 10 anglistów
informatycy, specjaliści od przetwarzania języka
sztuczna inteligencja (narzędzia półautomatyczne)
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Proces budowy Słowosieci
Korpus Słowosieci
2 mld tokenów
CLARIN-PL
siatka haseł
(słowa najczęstsze)
Sketch Engine
narzędzia komputerowe
wyróżnić znaczenia
konkordancer korpusu
automatyczne
przykłady użycia
Inforex
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Proces budowy Słowosieci
CLARIN-PL
Korpus Słowosieci
siatka haseł
n.a.
- przykłady
użyciagryźć
-> wyróżnianie
znaczeń, przykłady
2 mld
tokenów
(słowazębów,
najczęstsze)
`o zwierzętach:
używając
powodując
rany’ (Marek)
typowe,`o
10
znaczeń
zjawiskach
pogodowych (np. mrozie): gryźć,
narzędzia komputerowe
szczypać’
`o owadach:
gryźć’ znaczenia
wyróżnić
`o zmartwieniach, wyrzutach sumienia: konkordancer korpusu
gryźć’
`o ludziach: dokuczać, szkodzić komuś’
Przykłady użycia wyrazu kąsać
1
2
3
4
5
6
7
8
9
10
automatyczne
przykłady użycia
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Proces budowy Słowosieci
Korpus Słowosieci
2 mld tokenów
CLARIN-PL
siatka haseł
(słowa najczęstsze)
narzędzia komputerowe
wyróżnić znaczenia
Tkacz Wordnetu
zdefiniować jednostkę
przypisać relacje = podpiąć
słowniki, encyklopedie,
leksykony…
wytyczne
zespół Słowosieci
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Proces budowy Słowosieci
antonim
wyraz bliskoznaczny
hiperonim
CLARIN-PL
hiponim
kohiponim
holonim
1–2–3–4–5–6–7–8–9
5. Efekt
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Słowosieć w liczbach
CLARIN-PL
Liczba haseł (lematów) w Słowosieci i w WordNecie
140 000
Słowosieć
WordNet
120 000
haseł
167 000
156 000
100 000
synsetów
178 000
118 000
80 000
jednostek
237 000
207 000
60 000
relacji
> 500 000
> 500 000
40 000
20 000
0
rzeczownik
czasownik
przymiotnik
przysłówek
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Słowosieć w liczbach
CLARIN-PL
Słowosieć a słowniki polszczyzny współczesnej
0
50
100
150
200
Słowosieć
Praktyczny słownik współczesnej polszczyzny
Słownik języka polskiego W. Doroszewskiego
Uniwersalny słownik języka polskiego
Inny słownik języka polskiego
haseł [tys.]
1–2–3–4–5–6–7–8–9
Słowosieć w liczbach
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
 Słowosieć 2.3
 koniec kwietnia br.
 przymiotnik + nastawienie
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Praca ze Słowosiecią
CLARIN-PL
www.clarin-pl.eu
Słowosieć online
Słowosieć mobilna
WordnetLoomViewer
1–2–3–4–5–6–7–8–9
Praca ze Słowosiecią
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
www.plwordnet.pwr.wroc.pl/wordnet
1–2–3–4–5–6–7–8–9
Praca ze Słowosiecią
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Słowosieć mobilna
1–2–3–4–5–6–7–8–9
Praca ze Słowosiecią
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
WordnetLoom
6. Zastosowania
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Zastosowania: projekty
badawcze (wybrane)
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
 Semantyczna anotacja korpusu gestów wskazujących (Lis, 2012)
 Leksykony semantycznych ram walencyjnych (Hajnicz, 2011; Hajnicz,
2012)
 Wyznaczanie pól semantycznych
 Grupowanie czasowników na potrzeby badania klas alternacji
 Kategoryzacja wyrażeń metaforycznych w oparciu o hiperonimy
 Wspomagana komputerowo analiza danych jakościowych
 Badania nad frazeologią
 Nauka języka
 „przygotowanie słowniku dla kursu języka czeskiego dla
obcokrajowców” (Uniwersytet Masaryka, Brno)
 Konstrukcja programów do nauki języka
 Badanie treści prac uczniowskich/studenckich
 Edukacyjne: językoznawstwo, leksykologia, leksykografia
 Tłumaczenia
 Analiza leksykalizacji pojęć
1–2–3–4–5–6–7–8–9
Zastosowania (wybrane)
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
 Wyszukiwanie semantyczne w korpusach tekstu
 Grupowanie semantyczne tekstów
 określanie podobieństwa zdań i fragmentów tekstów, np. (Siemiński,
2012)
 Klasyfikacja semantyczna tekstu, np. (Maciołek, 2010)
 Korekta rozpoznawania mowy w systemach dialogowych
 Systemy odpowiedzi na pytania w języku naturalnym
 Np. do rozpoznania typu pytania
 Wydobywanie terminologii i słów kluczowych, np. (Mykowiecka i
Marciniak, 2012)
 Wnioskowania w oparciu o logiki naturalne
 Tworzenie programów do grania w gry słowne
 Wykrywanie i generowanie pleonazmów
1–2–3–4–5–6–7–8–9
Zastosowania (wybrane)
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
 Definiowanie cech na potrzeby Text Mining ze stron WWW (Maciolek
and Dobrowolski, 2013)
 Rzutowanie pomiędzy leksykonem a ontologią (Wróblewska et al.,
2013)
 Miara podobieństwa semantycznego słów na potrzeby analizy ontologii
(Lula and Paliwoda-Pękosz, 2009)
 Automatyczne wydobywanie leksykonów atrybutów opinii (Wawer and
Gołuchowski, 2012)
 Rozpoznawanie i klasyfikacja nazw własnych (własne G4.19)
 Ujednoznacznianie sensów słów (Gołuchowski and Przepiórkowski,
2012, własne G4.19, 2015)
 Rozpoznawanie powiązań anaforycznych (własne G4.19)
7. Ujednoznacznianie sensów
słów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Ujednoznacznianie sensów słów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
 Idea ujednoznaczniania sensów słów:
zamek
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Ujednoznacznianie sensów słów
CLARIN-PL
 Idea ujednoznaczniania sensów słów (cd.):
zamek
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Ujednoznacznianie sensów słów
CLARIN-PL
 Idea ujednoznaczniania sensów słów (cd.):
zamek
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Ujednoznacznianie sensów słów
CLARIN-PL
 Idea ujednoznaczniania sensów słów (cd.):
zamek
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Ujednoznacznianie sensów słów
CLARIN-PL
 Idea ujednoznaczniania sensów słów (cd.):
Po powrocie z pracy zepsułem zamek.
`
`
`
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Ujednoznacznianie sensów słów
CLARIN-PL
 Idea ujednoznaczniania sensów słów (cd.):
Po powrocie z pracy zepsułem zamek w drzwiach.
`
`
`
1–2–3–4–5–6–7–8–9
Ujednoznacznianie sensów słów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Proces polegający na przypisaniu słowu odpowiedniego
znaczenia wybranego ze zbioru znaczeń słów,
odpowiadającego znaczeniu słowa w danym kontekście.
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Ujednoznacznianie sensów słów
CLARIN-PL
 Uczenie na podstawie oznaczeń w tekstach:
Wymagane duże zasoby ręcznie oznaczonych tekstów;
Czasochłonność ręcznego oznaczania tekstów (koszty);
Każde słowo z osobna posiada swoje anotacje;
Rozpoznawanie znaczeń kolejnego słowa = anotacje tego
słowa = kolejne koszty;
 Zaleta: duża dokładność systemu;
 Wada: niska kompletność rozpoznawanych znaczeń;




1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Ujednoznacznianie sensów słów
CLARIN-PL
 Uczenie bez wstępnego oznaczania w tekście:
 Nie jest wymagane wstępne znakowanie znaczeń w tekstach;
 Wykorzystanie istniejących struktur opisujących zależności
między znaczeniami słów (Słowosieć);
 Zaleta: dużo większa kompletność rozpoznawanych słów w
stosunku do ujednoznaczniania na podstawie ręcznych
anotacji;
 Wada: mniejsza dokładność rozpoznawanych w stosunku do
systemów uczonych na podstawie ręcznych oznaczeń;
1–2–3–4–5–6–7–8–9
Ujednoznacznianie sensów słów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Nienadzorowane podejście oparte o przetwarzanie grafu.
„Po powrocie z pracy zepsułem zamek w drzwiach.” – graf dla słowa „zamek”.
Ujednoznacznianie sensów słów
„Po powrocie z pracy zepsułem zamek w drzwiach.”
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Ujednoznacznianie sensów słów
CLARIN-PL
Proces aktywacji synsetów – Nienadzorowane podejście
oparte o przetwarzanie grafu.
...
0
...
...
0
strażnica
...
0
baszta
...
0
brama
0
furtka
drzwi
...
0
0
rezydencja
budowla obronna
0
...
1
6
zamknięcie
zamek-2
(w drzwiach)
zamek-1
(budowla)
zatrzask
1
6
0
...
Mam zamek w kurtce i garniturze.
1
6
mieć
posiadać
...
zamek-6
(suwak)
1
6
kurtka
0
1
6
...
zapięcie
0
...
garnitur
...
1
6
Ujednoznacznianie sensów słów
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
„Surowe” wyjście WoSeDona – anotacje WSD dla słowa „zamek” w zdaniu
Po powrocie z pracy zepsułem zamek w drzwiach.
<tok>
<orth>zamek</orth>
<lex disamb="1">
<base>zamek</base><ctag>subst:sg:acc:m3</ctag>
</lex>
<prop key="sense:ukb:syns_id">4190</prop>
<prop key="sense:ukb:syns_rank">4190/0.1871610737
43594/0.1711723551 46716/0.1504792310
4189/0.1383621756 46718/0.1349534529
52769/0.1107446943 43596/0.1071270174</prop>
<prop key="sense:ukb:unitsstr">zamek.2(3:wytw)</prop>
</tok>
Anotacja w formacie CCL zawierająca informacje o znaczeniu słowa zamek.
8. WoSeDon
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
WoSeDon
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
 Narzędzie do generowania i przeglądania list
frekwencyjnych znaczeń Słowosieci z korpusów tekstów.
 Korpus musi posiadać wcześniej przypisane znaczenia, za
co również odpowiada WoSeDon w fazie wstępnej
przetwarzania tekstu (preprocessingu).
 Dostępność poprzez przeglądarkę pod adresem:
http://wosedon.clarin-pl.eu/home
WoSeDon – okno główne
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1–2–3–4–5–6–7–8–9
WoSeDon – schemat działania
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Przetwarzanie korpusu do
CCL
(WCRFT, Liner, WoSeDon)
Korpus w
DSpace
Przejście do
WoSeDon’a
1–2–3–4–5–6–7–8–9
WoSeDon – funkcjonalność
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
 Generowanie i przeglądanie list frekwencyjnych znaczeń z
korpusów tekstów.
 Generowanie listy bezpośrednio z DSpace poprzez
kliknięcie w przycisk:
 Ewentualnie poprzez wklejenie URI (np.
http://hdl.handle.net/11321/114) do WoSeDona:
1–2–3–4–5–6–7–8–9
WoSeDon – funkcjonalność
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1–2–3–4–5–6–7–8–9
WoSeDon – funkcjonalność
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
1–2–3–4–5–6–7–8–9
WoSeDon – dalsze prace
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
 Wyznaczanie „znaczeń tematów” – znaczenia, które łącznie
pokrywają 50% korpusu.
 Rozwój interfejsu o kolejne informacje np. liczba wszystkich
znaczeń w korpusie, liczba różnych znaczeń itp.
9. Stenogramy sejmowe
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
Stenogramy sejmowe
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
 Sejm ostatnich kadencji
 lata 2006-2014
 metadane:
 data
 partia
 poseł
 automatycznie ujednoznacznione sensy słów
 prezentacja w aplikacji
KOPER autorstwa dra
P. Pęzika
1–2–3–4–5–6–7–8–9
Stenogramy sejmowe
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
 http://clarin.pelcra.pl/PSCWSDWeb
1–2–3–4–5–6–7–8–9
Stenogramy sejmowe
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
 http://clarin.pelcra.pl/PSCWSDWeb
 składnia zapytań – wersja robocza
<lemma=kryzys:30679>
↑
↑
hasło ID synsetu
 ID synsetu identyfikuje znaczenia
 konkordancja + trendy (szeregi czasowe)
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Stenogramy sejmowe
CLARIN-PL
kryzys 1 (cech) (pogorszenie się sytuacji w sferze społecznej)
kryzys 2 (pos) (kryzys gospodarczy, recesja)
kryzys 3 (st) (pogorszenie się sytuacji człowieka, np. kryzys małżeński)
kryzys 4 (zdarz) (w chorobie)
1–2–3–4–5–6–7–8–9
Stenogramy sejmowe
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
kryzys 4 (zdarz) (w chorobie)
1–2–3–4–5–6–7–8–9
Stenogramy sejmowe
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
konkordancje
ściąganie
w formacie *.xls
1–2–3–4–5–6–7–8–9
Stenogramy sejmowe
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
szeregi czasowe
ściąganie w różnych formatach
graficznych
Stenogramy sejmowe
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
szeregi czasowe
kryzys 2 (pos)
1–2–3–4–5–6–7–8–9
Stenogramy sejmowe
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
szeregi czasowe
1–2–3–4–5–6–7–8–9
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
Stenogramy sejmowe
CLARIN-PL
szeregi czasowe
klikalne punkty
1–2–3–4–5–6–7–8–9
Stenogramy sejmowe
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
szeregi czasowe
mógłby także zagrozić
A przecież , jak mówiłem
kryzys stabilności polskiego systemu
wcześniej , taki
bankowego.
minister Jacek Rostowski, PO, 2009-05-22
1–2–3–4–5–6–7–8–9
Stenogramy sejmowe
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
szeregi czasowe
1–2–3–4–5–6–7–8–9
Stenogramy sejmowe
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
szeregi czasowe
Z tego, co
gospodarczy nie stuka do naszych drzwi,
usłyszałem
nie łomocze - jest już w przedpokoju,
kryzys
w exposé,
powiesił płaszcz, założył kapcie i zaczyna
wynika, że
czuć się jak u siebie w domu .
poseł Leszek Miller, SLD, 2011-1118
1–2–3–4–5–6–7–8–9
Stenogramy sejmowe
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
szeregi czasowe
1–2–3–4–5–6–7–8–9
Stenogramy sejmowe
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
szeregi czasowe
Taką potrzebą chwili na przykład uzasadnialiśmy
zmiany, które weszły w 2009 r. i obowiązywały
kryzysu .
przez 2 lata w okresie tzw. - niektórzy tak to
nazywają - pierwszej fali
poseł Adam Szejnfeld, PO, 2011-03-7
1–2–3–4–5–6–7–8–9
Stenogramy sejmowe
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
szeregi czasowe
1–2–3–4–5–6–7–8–9
Stenogramy sejmowe
 Plany:


-
pozostałe kadencje Sejmu
wyszukiwanie po polach leksykalnych
tj. po grupie hiponimów danej jednostki
np. hiponimy rzeczownika kobieta
w zn. «dorosły człowiek płci żeńskiej»
Warsztaty CLARIN-PL
Warszawa
13-15 IV 2015
CLARIN-PL
CLARIN-PL
Dziękujmy bardzo za uwagę

Podobne dokumenty

CLARIN – infrastruktura naukowa technologii językowych

CLARIN – infrastruktura naukowa technologii językowych  Centrum Technologii Językowych CLARIN-PL http://clarin-pl.eu/pl/strona-glowna/ certyfikat centrum CLARIN typu B międzynarodowy certyfikat Data Seal of Approval w zakresie przechowywania i zarzą...

Bardziej szczegółowo

Centrum Technologii Językowych CLARIN

Centrum Technologii Językowych CLARIN Centrum  Technologii  Językowych  CLARIN-­‐PL:   deponowanie  i  upowszechnianie  zasobów     oraz  narzędzi  językowych  dla  języka  polskiego  

Bardziej szczegółowo