1 InŜynieria lingwistyczna Tematyka wykładów Literatura

Transkrypt

1 InŜynieria lingwistyczna Tematyka wykładów Literatura
Tematyka wykł
wykładó
adów
czego dotyczą terminy: inŜynieria lingwistyczna, lingwistyka
InŜ
InŜynieria lingwistyczna
komputerowa przetwarzanie języka naturalnego,
dziedziny NLP: fonetyka/ortografia, fonologia, morfologia,
składnia, semantyka, pragmatyka,
rodzaje danych lingwistycznych i moŜliwość ich wykorzystania
Agnieszka Mykowiecka
Instytut Podstaw Informatyki, PAN
[email protected]
(słowniki, korpusy),
tradycyjne (formalne i proceduralne) podejście do analizy i syntezy
języka,
statystyczne metody przetwarzania języka,
zastosowania: wyszukiwanie informacji tekstowych, organizacja
danych tekstowych, automatyczne streszczanie tekstów, systemy
pytań i odpowiedzi, tłumaczenie, wspomaganie tłumaczenia.
materiały z wykładów na stronie:
http:\\www.ipipan.waw.pl\~agn\inl.htm
październik, 2005
październik, 2005
1
Literatura
Warunki zaliczenia
Jurafsky Daniel, Martin James H. Speech and Language
Processing. An Introduction to Natural Language
Processing, Computational Linguistics, and Speech
Recognition. Upper Saddle River 2000 Prentice Hall.
Obecność na ćwiczeniach (do 3 nieobecności)
>50% punktów z kolokwium, (materiał z wykładów i z
http://www.cs.colorado.edu/~martin/slp.html
Manning Christopher D., Schutze Hinrich. Foundations of Statistical
Natural Language Processing. Cambridge 1999 The MIT Press.
Inderjeet Mani, Mark T. Maybury (eds) Advances in Automatic Text
Summarization. Cambridge 1999 MIT Press.
Winograd, T., Understanding Natural Language, Academic Press,
New York, 1972.
Jelinek Frederick. Statistical Methods for Speech Recognition.
Cambridge 1999 MIT Press.
październik, 2005
3
w przygotowaniu
podręcznik, który będzie wydany przez PJWSTK
ćwiczeń)
niewielki program realizowany w duŜej części na
ćwiczeniach
egzamin pisemny
październik, 2005
Przetwarzanie ję
języka naturalnego róŜne perspektywy
lingwistyka formalna i komputerowa (Computational Linguistics)
przetwarzanie języka naturalnego (Natural Language Processing)
INŜynieria Lingwistyczna
(Linguistic Engineering;
Human Language Technology)
psycholingwistyka komputerowa (Computational
październik, 2005
4
Trochę
Trochę historii (1)
Podstawy (lata 40-te, 50-te)
automaty; ( Turing, 1936; model obliczeń),
automaty skończone, wyraŜenia regularne; Kleene, 1951, 1956
zastosowanie modeli Markova do analizy języka; Shanon, 1948
formalny opis języka, gramatyki bezkontekstowe, Chomsky
1956 (niezaleŜnie Backus i Naur, 1959 i 1960)
zdefiniowanie entropii jako miary pojemności informacyjnej,
wyniki dla języka angielskiego, Shanon,
Psycholinguistics)
rozpoznawanie sygnału mowy
2
spektrograf dźwiękowy (Koenig, 1946) i pierwszy system
(speech recognition)
analizy mowy (cyfry), Bell Labs, Davis, 1952
5
październik, 2005
6
1
Trochę
Trochę historii (2)
Trochę
Trochę historii (3)
Dwa obozy, 19571957-1970
Cztery podejścia, 19701970-1983
– przetwarzanie symboliczne (formalne),
– metody statystyczne (HMM) IBM Thomas J. Watson Research
Center, Carnegie Mellon University, AT&T Bell Laboratories
gramatyka generatywna
– metody oparte o logiki formalne (Prolog, DCG, LFG)
– Chomsky
– kompletny system parsujący dla angielskiegosystem
TDAP (Z. Haris, University of Pennsylvania)
sztuczna inteligencja (AI), McCarthy, Minsky ...
– metody statystyczne
– pierwsze prace korpusowe
(Brown corpus of American English,
Brown University, 1mln słów)
październik, 2005
– natural-language-understanding field,
system SHRUDLU, Winograd, 1972,
sieci semantyczne Shank („Yale School”),
wykorzystanie logiki predykatów do reprezentacji
semantycznej - system LUNAR, Woods 1963-73;
– modelowanie dyskursu, Grosz, 1977, Perrault & Allen
7
8
Co chcemy osią
?
osiągnąć
gnąć?
Trochę
Trochę historii (4)
Ponowne „odkrycie”
odkrycie”: metody empiryczne i automaty stanów
skończonych, 1983-1993
– wykorzystanie automatów do analizy morfologicznej (Kaplan,
Kay, 1981)
– metody analizy statystycznej mowy (IBM Research Centre)
– ...
Test Turinga: maszyna naśladuje człowieka w sposób
nieodróŜnialny dla słuchacza (czytelnika) ,
– „przepowiednia” Turinga: pod koniec XX w. maszyna dysponująca pamięcią
10GB będzie miała 30% szans na „oszukanie”, Ŝe jest człowiekiem w ciągu 5minutowej rozmowy
– NIESTETY? NIE, ale np. zaskakująco sprawna ELIZA,Weizenbaum, 1966
(przykład rozmowy z oryginalnej wersji, ale jest teŜ ``odmłodzona'' wersja w sieci
(http://www-ai.ijs.si/eliza/eliza.html).
Poł
Połączenie wysił
wysiłków od 1994
– włączenie metod statystycznych do wszystkich dziedzin NLP
All scientific discoveries are in principle multiplies, including those that
on the surface appear to be singletons,
Robert K. Merton (1961)
październik, 2005
październik, 2005
9
User: Men are all alike.
Eliza: In what way?
U:
There're always bugging us about something or other.
E:
Can you think of a specific example?
U: Well, my boyfriend made me come here.
E:
Your boyfriend made you come here?
U:
He says I'm depressed much of the time.
E:
I am sorry to hear you are depressed
październik, 2005
10
Co musimy zrobić
zrobić?
Linguboty
Lingubot (bot, chater bot) wirtualny rozmówca na stronach WWW,
program tworzony do pełnienia zadań automatycznej i dobrze
poinformowanej pomocy klientom duŜych firm (banków, firm
telekomunikacyjnych, ubezpieczeniowych, finansowych; z
technologii Lingubot (Kiwilogic.com AG) korzystają między innymi
SAP, DaimlerChrysler, IKEA, Alfa Romeo, Novartis, Schering,
Volkswagen, grupa Zurich;
Polski przedstawiciel fidointeractive (www.fido.pl),
wdroŜenie m.in. w Hestia SA
Witaj, A.!
Jestem doradcą klientów Grupy
Ergo
W2005
czym mogę pomóc?
paźHestia.
dziernik,
We can only see a short distance ahead, but we can see plenty
there that needs to be done. Alan Turing
Ogromna przepaść między moŜliwościami człowieka, a
moŜliwościami systemów komputerowych (w odróŜnieniu od
operowania na liczbach czy duŜych zbiorach informacji
strukturalnych gdzie widać duŜą przewagę systemów
komputerowych)
Rozumienie i prawidłowe reagowanie na wypowiedzi (teksty) w
Cześć! Cieszę się, Ŝe się znowu spotykamy, A.
Czy wiesz, Ŝe w "Twoim Stylu" pojawiła się wzmianka
o Hubercie – naszym nowym Lingubocie™?
MoŜe chcesz dowiedzieć się czegoś o Lingubotach™
i ofercie fido interactive czy teŜ wolisz sobie ze mną luźno
pogawędzić?
11
języku naturalnym wymaga udziału wiedzy spoza tekstu (z
nieograniczonego praktycznie zakresu) i skomplikowanych (nie
poznanych do końca, nieklasycznych) metod wnioskowania.
październik, 2005
12
2
Czym zajmuje się
się inŜ
inŜynieria
lingwistyczna ?
Cele NLP
InŜynieria lingwistyczna to opracowywanie metod i
konstruowanie narzędzi umoŜliwiających automatyczne
przetwarzanie języka naturalnego.
Etapy przetwarzania:
poznawcze (jak jest zbudowany język, na czym polega
posługiwanie się językiem jego rozumienie nauka ...),
gromadzenie danych lingwistycznych (słowniki ogólne i
( wypowiedź )
specjalistyczne, korpusy tekstów, gramatyki, ...)
↓
wykorzystywanie języka naturalnego w systemach
tekst w języku naturalnym
komputerowych:
↓
– wyszukiwanie informacji,
reprezentacja semantyczna (np. logiczna)
– automatyczne streszczanie tekstów,
↓
– systemy pyta ń i odpowiedzi,
reakcja (wykonanie operacji, sformułowanie odpowiedzi)
↓
– organizacja danych tekstowych,
– wspomaganie tłumaczenia
( synteza mowy )
październik, 2005
13
październik, 2005
Zadania inŜ
inŜynierii lingwistycznej
– RealSpeak (Text-To-Speach system, 19 języków, w tym polski)
– rozpoznawanie sygnału mowy w otoczeniu szumu
http:/www.scansoft.com/realspeak
– korekcja błędów wymowy
– Dragon NaturallySpeaking (rozpoznawanie mowy, zamiana na tekst,
– czytanie z ust(?)
wspomaganie tworzenia dokumentów biurowych)
rozumienie języka
generowanie wypowiedzi w języku naturalnym
wyszukiwanie informacji (Information Retrieval IR)
selekcja informacji (Information Extraction IE)
wnioskowanie
październik, 2005
Wybrane aplikacje
duŜo aplikacji dotyczących syntezy i analizy mowy
rozpoznawanie mowy
14
– Nuance USA http:/www.nuance.com (m.in. voice-driven systems,
synteza mowy Nuance Vocalizer - UK and US English; inne języki w
połączeniu z modułami np. ScanSoft, Voice Authentication
(rozpoznanie uŜytkownika po głosie)
– Telisma, France: telco-grade speech modules,
– philsoft: rozpoznawanie mowy (ASR)
– ScanSoft Inc., US, tradycyjna specjalność cyfryzacja obrazu/tekstu
pisanego
15
Wybrane aplikacje, 2
październik, 2005
16
Przykł
Przykład tłtłum. angielski -> francuski
But while Hollywood smashes come in the summertime, the
tłumaczenia
– Lingtech A/S, Dania PaTrans (efekt projektu EURORTA): tłumaczenie
w dziedzinie medycyny i farmacji
– PROject MT Ltd, Rosja - PROMPT; system tłumaczący
games business rolls out its big guns for year-end holiday
shopping when about half of all game software gets sold.
SYSTRANS
korektory pisowni, analizatory morfologiczne, np.
Mais tandis que les fracas de Hollywood viennent dans
Morphologics, Węgry
ekstrakcja informacji ze swobodnego tekstu
l'été, les affaires de jeux roulent hors de ses grands
pistolets pour des achats de fin d'année de vacances quand
environ la moitié de tout le jeu le logiciel obtient vendu.
– Temis, France http:/www.temis-group.com/temis/sx.htm (7 języków)
PROMT
Mais tandis que les coups violents de Hollywood entrent
październik, 2005
17
dans l'été, l'affaire de jeux étire ses grandes armes a feu
pour des achats de jour férié(de congé) de fin d'année
quand
environ moitié de tout le logiciel de jeu est vendue.
pa
ździernik, 2005
18
3
Przykł
Przykład tłtłum. angielski -> niemiecki
Przykł
Przykład tłum.polski -> angielski
But while Hollywood smashes come in the summertime, the
To jedyne zmiany w podatkach, które zostaną przeprowadzone
w najbliŜszym czasie
games business rolls out its big guns for year-end holiday
shopping when about half of all game software gets sold.
-> translatica (translatica.pwn.pl)
These are only changes in taxes which will be taken in the
closest time
-> SYSTRANS angielski -> niemiecki
Aber, während Hollywood Smashes in den Summertime
kommen, rollt das Spielgeschäft aus seinen grossen
Gewehren für das year-end Feiertageinkaufen, wenn über
Hälfte alles Spiels Software verkauft erhält.
-> SYSTRANS niemiecki -> angielski
But, while Hollywood Smashes come into the buzzer time,
rolls the play business from its large rifles for year ends to
holiday buying, if over half of all play software keeps sold.
październik, 2005
19
Przykł
Przykład tłtłum.angielski -> polski
But while Hollywood smashes come in the summertime, the
games business rolls out its big guns for year-end holiday
shopping when about half of all game software gets sold.
-> translatica
Ale podczas gdy hollywoodzkie brzęki nadchodzą letnią porą,
bułki słuŜbowe z grami na zewnątrz jego cięŜkie działa przez
koniec roku finansowego zakupy turystyczne kiedy około połowy
ze wszystkich gra oprogramowanie dostaje sprzedany.
-> trnaslate
Ale podczas gdy uderzenia Hollywoodu przybył (przybywać;
wchodzić; wszedł) w *summertime*, gry interes (handlowy) zwija
(toczy się; zwój) poza swoimi wielkimi działami dla roku kończą
zakupy Święta kiedy o połowie całego programu komputerowego
gry
otrzymuje
(dostaje; rozumie) sprzedawany.
październik,
2005
21
-> trnaslate (Ectaco, translate.pl)
These sole changes in taxes, which (who) will be carried in the
nearest future
-> These are the only changes in taxes which will be introduced
in the nearest future.
październik, 2005
Wiedza o ję
języku a realizacja
wyznaczonego celu
– Open the pod bay doors, HAL.
semantyka
pragmatyka
zrozumienie polecenia
– analiza językowa (identyfikacja słów, form, związków między nimi)
– odniesienie do rzeczywistości
wybór odpowiedzi (odrzucenie polecenia mimo moŜliwości
wykonania go)
sformułowanie odpowiedzi
– wybór słów, ich form, porządku
– pragmatyka: uprzejma odmowa (I’m sorry...)
– odniesienie do poprzedniej części dialogu (that)
październik, 2005
22
Fonetyka i fonologia
obszar zainteresowania
dźwięki
dźwięki naleŜące do języka
zasady pisowni
struktura/formy wyrazów
zaleŜności strukturalne między słowami
(budowa fraz)
znaczenie pojedynczego zdania
znaczenie w kontekście
Rozpoznanie sygnału mowy
– wydzielenie fonemów
– rozpoznanie słów
Synteza mowy:
– zamiana tekstu na ciąg powiązanych fonemów
– nadanie odpowiedniej intonacji całości wypowiedzi
standaryzacja zapisu fonologii, np. IPA (International
Phonetic Alphabet) i ARPAbet (który wykorzystuje tylko
oznaki ASCII)
parsley [‘parsli] (IPA) [p aa r s l iy] (ARPAbet)
zaleŜności międzyzdaniowe (discourse)
październik, 2005
Stanley Kubrick i Arthur C. Clarke,
2001: A Space Odyssey
– I'm sorry Dave, I’m afraid I can’t do that.
Wiedza o ję
języku naturalnym
nazwa dziedziny
fonetyka
fonologia
ortografia
morfologia
składnia
20
23
październik, 2005
24
4
Fonetyka i fonologia, problemy
Fonetyka i fonologia, problemy
Rozpoznanie sygnału mowy:
– fonemy odpowiadające tym samym dźwiękom - fragmentom
słów, wypowiadane przez róŜne osoby, w róŜnym czasie,
róŜnym otoczeniu są inne
– z powodu róŜnorodności trudno wyznaczyć ścisłe granice
między poszczególnymi fonemami
– praktycznie zawsze otrzymujemy sieć mo Ŝliwych interpretacji
– rozpoznanie słów - potrzebujemy słownika
Synteza mowy:
– łatwo wybrać fonemy, ale trudno je połączyć, tak by do siebie
pasowały
– dla dobrego zaakcentowania potrzebujemy informacji o
strukturze składniowej (i nie tylko...)
– praktyczne rozwiązania: gromadzenie nagrań i sklejanie moŜliwie
długich kawałków
problemy, np. kwiat -> [ k f i a t]
niejednoznaczności fonologiczne, np. [m o rz e] -> moŜe,
morze
październik, 2005
25
październik, 2005
26
Niejednoznacznoś
Niejednoznaczności morfologiczne
Morfologia
nauka o budowie słów z morfemów:
Analiza morfologiczna: rozpoznanie form podstawowych i wartości cech gramatycznych
a) temat (stem): nośnik znaczenia
b) przed- i przyrostki (affixes): nośniki cech
gramatycznych, zmiany znaczenia
Często jest wiele moŜliwości:
– szafy ->
szafa
rozpoznawanie słów po ich formach fleksyjnych
(l. poj, dopełniacz
czy
l. mnoga, mianownik)
– psem -> pies (l.poj, narzędnik)
– chłopca -> chłopiec (l. poj. dopełniacz czy
– ciem -> ćma (l. mnoga. dopełniacz)
l. poj. biernik)
generowanie form
– mam -> mieć (1 osoba, l. poj., czas teraźniejszy) czy
– iść, czas przeszły, 3osoba l.poj., rodzaj Ŝeński -> szła
mamić (tryb rozkazujący) czy
mama (l.mnoga, dopełniacz)
październik, 2005
27
październik, 2005
Skł
Składnia
28
Skł
Składnia
wiedza o sposobie łączenia słów we frazy, a fraz w zdania
rozpoznanie fraz i ich powiązań składniowych pozwala na ustalenie
Analiza składniowa: rozpoznanie fraz i ich powiązań
składniowych (zbudowanie rozbioru syntaktycznego)
wartości cech gramatycznych dla generowanego tekstu, a więc
rozstrzygnięcie wielu niejednoznaczności morfologicznych np.
mała dziewczynka dała bukiet fiołków mamie ->
[mała mod dziewczynka] podmiot
dał słonia mamie ->
[dać] 3os,cz. przeszły [słoń]dopełniacz lub biernik [mama]celownik
dać
[dać] 3os,cz. przeszły [słoń]biernik [mama]celownik
[bukiet fiołkówmod] dopełnienie
[mama] dopełnienie
październik, 2005
29
październik, 2005
30
5
Skł
Składnia, problemy
Semantyka
Dwa typy fraz: wymagania składniowe (mogą być opisane w
słownikach) i modyfikatory, które są praktycznie dowolne
– Jan widzi kota.
– Mój starszy brat Jan, który od niedawna mieszka w Krakowie,
idąc rano do pracy zwykle widzi czarnego kota siedzącego na
murku naprzeciwko okna kuchni sąsiada.
Niejednoznaczności składniowe, np.
pokazała siostrze Jana kwiaty
czyli „kolejny etap analizy”:
mała dziewczyka dała bukiet fiołków mamie
--> [mała mod dziewczynka] podmiot dać [ bukiet fiołkówmod] dopełnienie
[ mama ] dopełnienie
--> [małamody dziewczynka]aktor daćakcja [ bukiet fiołkówel.skladowy]obiekt
– [pokazać] [siostra Jana]dopełnienie [kwiaty]dopełnienie
[ mama ] odbiorca
– [pokazać] [siostra]dopełnienie [Jana kwiaty]dopełnienie
październik, 2005
ustalenie co jest znaczeniem konkretnego wyraŜenia w języku
naturalnym (rozpoznanie obiektów, relacji między nimi, ...)
31
październik, 2005
32
Semantyka, niejednoznacznoś
niejednoznaczności
Semantyka, problemy
Piła!
Co to właściwie jest znaczenie wyraŜenia w języku
naturalnym ?
Jak budować znaczenie zdania ze znaczenia fraz
Niepełność wszystkich dostępnych spoosbów opisu znaczenia
(zawsze spotkamy sytuację, dla której nie mamy dobrej
reguły)
Kłopoty obliczeniowe, jeśli chcemy korzystać z bardziej
zaawansowanych sposobów reprezentacji (logiki)
I jak zawsze niejednoznaczności
okrzyk radości ma widok zgubionej piły,
niezbyt pochlebna ocena nauczyciela,
wyraz zdegustowania naduŜyciem alkoholu
(pierwsze dwie interpretacje semantyczne mają taką samą interpretację
morfologiczną i syntaktyczną (‘piła’ jest tu rzeczownikiem w
mianowniku), trzecia inną (‘piła’ to czasownik)
Uszył jej buty - wyraŜenie idiomatyczne lub opis efektu pracy szewca
„nawiasowanie” negacji
Nie zrobisz tego? Nie (nie zrobię albo właśnie, Ŝe zrobię)
wiązane zaimków
Jan kazał Piotrowi wyczyścić swoje buty.
październik, 2005
33
październik, 2005
34
Pragmatyka
interpretacja wypowiedzi w konkretnym kontekście, w
odniesieniu do wiedzy o świecie
Informacje zewnętrzne pozwalają człowiekowi poprawnie
rozstrzygać wiele niejednoznaczności, np.
Pacjent opuścił salę operacyjną w dobrym stanie
1⇓
pacjent opuścił [salę operacyjną] [w dobrym stanie] mod_pacjenta
2⇓
pacjent opuścił [salę operacyjną [w dobrym stanie] mod_sali]
(doświadczenie przemawia za interpretacją 1)
październik, 2005
35
6

Podobne dokumenty