1 InŜynieria lingwistyczna Tematyka wykładów Literatura
Transkrypt
1 InŜynieria lingwistyczna Tematyka wykładów Literatura
Tematyka wykł wykładó adów czego dotyczą terminy: inŜynieria lingwistyczna, lingwistyka InŜ InŜynieria lingwistyczna komputerowa przetwarzanie języka naturalnego, dziedziny NLP: fonetyka/ortografia, fonologia, morfologia, składnia, semantyka, pragmatyka, rodzaje danych lingwistycznych i moŜliwość ich wykorzystania Agnieszka Mykowiecka Instytut Podstaw Informatyki, PAN [email protected] (słowniki, korpusy), tradycyjne (formalne i proceduralne) podejście do analizy i syntezy języka, statystyczne metody przetwarzania języka, zastosowania: wyszukiwanie informacji tekstowych, organizacja danych tekstowych, automatyczne streszczanie tekstów, systemy pytań i odpowiedzi, tłumaczenie, wspomaganie tłumaczenia. materiały z wykładów na stronie: http:\\www.ipipan.waw.pl\~agn\inl.htm październik, 2005 październik, 2005 1 Literatura Warunki zaliczenia Jurafsky Daniel, Martin James H. Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Upper Saddle River 2000 Prentice Hall. Obecność na ćwiczeniach (do 3 nieobecności) >50% punktów z kolokwium, (materiał z wykładów i z http://www.cs.colorado.edu/~martin/slp.html Manning Christopher D., Schutze Hinrich. Foundations of Statistical Natural Language Processing. Cambridge 1999 The MIT Press. Inderjeet Mani, Mark T. Maybury (eds) Advances in Automatic Text Summarization. Cambridge 1999 MIT Press. Winograd, T., Understanding Natural Language, Academic Press, New York, 1972. Jelinek Frederick. Statistical Methods for Speech Recognition. Cambridge 1999 MIT Press. październik, 2005 3 w przygotowaniu podręcznik, który będzie wydany przez PJWSTK ćwiczeń) niewielki program realizowany w duŜej części na ćwiczeniach egzamin pisemny październik, 2005 Przetwarzanie ję języka naturalnego róŜne perspektywy lingwistyka formalna i komputerowa (Computational Linguistics) przetwarzanie języka naturalnego (Natural Language Processing) INŜynieria Lingwistyczna (Linguistic Engineering; Human Language Technology) psycholingwistyka komputerowa (Computational październik, 2005 4 Trochę Trochę historii (1) Podstawy (lata 40-te, 50-te) automaty; ( Turing, 1936; model obliczeń), automaty skończone, wyraŜenia regularne; Kleene, 1951, 1956 zastosowanie modeli Markova do analizy języka; Shanon, 1948 formalny opis języka, gramatyki bezkontekstowe, Chomsky 1956 (niezaleŜnie Backus i Naur, 1959 i 1960) zdefiniowanie entropii jako miary pojemności informacyjnej, wyniki dla języka angielskiego, Shanon, Psycholinguistics) rozpoznawanie sygnału mowy 2 spektrograf dźwiękowy (Koenig, 1946) i pierwszy system (speech recognition) analizy mowy (cyfry), Bell Labs, Davis, 1952 5 październik, 2005 6 1 Trochę Trochę historii (2) Trochę Trochę historii (3) Dwa obozy, 19571957-1970 Cztery podejścia, 19701970-1983 – przetwarzanie symboliczne (formalne), – metody statystyczne (HMM) IBM Thomas J. Watson Research Center, Carnegie Mellon University, AT&T Bell Laboratories gramatyka generatywna – metody oparte o logiki formalne (Prolog, DCG, LFG) – Chomsky – kompletny system parsujący dla angielskiegosystem TDAP (Z. Haris, University of Pennsylvania) sztuczna inteligencja (AI), McCarthy, Minsky ... – metody statystyczne – pierwsze prace korpusowe (Brown corpus of American English, Brown University, 1mln słów) październik, 2005 – natural-language-understanding field, system SHRUDLU, Winograd, 1972, sieci semantyczne Shank („Yale School”), wykorzystanie logiki predykatów do reprezentacji semantycznej - system LUNAR, Woods 1963-73; – modelowanie dyskursu, Grosz, 1977, Perrault & Allen 7 8 Co chcemy osią ? osiągnąć gnąć? Trochę Trochę historii (4) Ponowne „odkrycie” odkrycie”: metody empiryczne i automaty stanów skończonych, 1983-1993 – wykorzystanie automatów do analizy morfologicznej (Kaplan, Kay, 1981) – metody analizy statystycznej mowy (IBM Research Centre) – ... Test Turinga: maszyna naśladuje człowieka w sposób nieodróŜnialny dla słuchacza (czytelnika) , – „przepowiednia” Turinga: pod koniec XX w. maszyna dysponująca pamięcią 10GB będzie miała 30% szans na „oszukanie”, Ŝe jest człowiekiem w ciągu 5minutowej rozmowy – NIESTETY? NIE, ale np. zaskakująco sprawna ELIZA,Weizenbaum, 1966 (przykład rozmowy z oryginalnej wersji, ale jest teŜ ``odmłodzona'' wersja w sieci (http://www-ai.ijs.si/eliza/eliza.html). Poł Połączenie wysił wysiłków od 1994 – włączenie metod statystycznych do wszystkich dziedzin NLP All scientific discoveries are in principle multiplies, including those that on the surface appear to be singletons, Robert K. Merton (1961) październik, 2005 październik, 2005 9 User: Men are all alike. Eliza: In what way? U: There're always bugging us about something or other. E: Can you think of a specific example? U: Well, my boyfriend made me come here. E: Your boyfriend made you come here? U: He says I'm depressed much of the time. E: I am sorry to hear you are depressed październik, 2005 10 Co musimy zrobić zrobić? Linguboty Lingubot (bot, chater bot) wirtualny rozmówca na stronach WWW, program tworzony do pełnienia zadań automatycznej i dobrze poinformowanej pomocy klientom duŜych firm (banków, firm telekomunikacyjnych, ubezpieczeniowych, finansowych; z technologii Lingubot (Kiwilogic.com AG) korzystają między innymi SAP, DaimlerChrysler, IKEA, Alfa Romeo, Novartis, Schering, Volkswagen, grupa Zurich; Polski przedstawiciel fidointeractive (www.fido.pl), wdroŜenie m.in. w Hestia SA Witaj, A.! Jestem doradcą klientów Grupy Ergo W2005 czym mogę pomóc? paźHestia. dziernik, We can only see a short distance ahead, but we can see plenty there that needs to be done. Alan Turing Ogromna przepaść między moŜliwościami człowieka, a moŜliwościami systemów komputerowych (w odróŜnieniu od operowania na liczbach czy duŜych zbiorach informacji strukturalnych gdzie widać duŜą przewagę systemów komputerowych) Rozumienie i prawidłowe reagowanie na wypowiedzi (teksty) w Cześć! Cieszę się, Ŝe się znowu spotykamy, A. Czy wiesz, Ŝe w "Twoim Stylu" pojawiła się wzmianka o Hubercie – naszym nowym Lingubocie™? MoŜe chcesz dowiedzieć się czegoś o Lingubotach™ i ofercie fido interactive czy teŜ wolisz sobie ze mną luźno pogawędzić? 11 języku naturalnym wymaga udziału wiedzy spoza tekstu (z nieograniczonego praktycznie zakresu) i skomplikowanych (nie poznanych do końca, nieklasycznych) metod wnioskowania. październik, 2005 12 2 Czym zajmuje się się inŜ inŜynieria lingwistyczna ? Cele NLP InŜynieria lingwistyczna to opracowywanie metod i konstruowanie narzędzi umoŜliwiających automatyczne przetwarzanie języka naturalnego. Etapy przetwarzania: poznawcze (jak jest zbudowany język, na czym polega posługiwanie się językiem jego rozumienie nauka ...), gromadzenie danych lingwistycznych (słowniki ogólne i ( wypowiedź ) specjalistyczne, korpusy tekstów, gramatyki, ...) ↓ wykorzystywanie języka naturalnego w systemach tekst w języku naturalnym komputerowych: ↓ – wyszukiwanie informacji, reprezentacja semantyczna (np. logiczna) – automatyczne streszczanie tekstów, ↓ – systemy pyta ń i odpowiedzi, reakcja (wykonanie operacji, sformułowanie odpowiedzi) ↓ – organizacja danych tekstowych, – wspomaganie tłumaczenia ( synteza mowy ) październik, 2005 13 październik, 2005 Zadania inŜ inŜynierii lingwistycznej – RealSpeak (Text-To-Speach system, 19 języków, w tym polski) – rozpoznawanie sygnału mowy w otoczeniu szumu http:/www.scansoft.com/realspeak – korekcja błędów wymowy – Dragon NaturallySpeaking (rozpoznawanie mowy, zamiana na tekst, – czytanie z ust(?) wspomaganie tworzenia dokumentów biurowych) rozumienie języka generowanie wypowiedzi w języku naturalnym wyszukiwanie informacji (Information Retrieval IR) selekcja informacji (Information Extraction IE) wnioskowanie październik, 2005 Wybrane aplikacje duŜo aplikacji dotyczących syntezy i analizy mowy rozpoznawanie mowy 14 – Nuance USA http:/www.nuance.com (m.in. voice-driven systems, synteza mowy Nuance Vocalizer - UK and US English; inne języki w połączeniu z modułami np. ScanSoft, Voice Authentication (rozpoznanie uŜytkownika po głosie) – Telisma, France: telco-grade speech modules, – philsoft: rozpoznawanie mowy (ASR) – ScanSoft Inc., US, tradycyjna specjalność cyfryzacja obrazu/tekstu pisanego 15 Wybrane aplikacje, 2 październik, 2005 16 Przykł Przykład tłtłum. angielski -> francuski But while Hollywood smashes come in the summertime, the tłumaczenia – Lingtech A/S, Dania PaTrans (efekt projektu EURORTA): tłumaczenie w dziedzinie medycyny i farmacji – PROject MT Ltd, Rosja - PROMPT; system tłumaczący games business rolls out its big guns for year-end holiday shopping when about half of all game software gets sold. SYSTRANS korektory pisowni, analizatory morfologiczne, np. Mais tandis que les fracas de Hollywood viennent dans Morphologics, Węgry ekstrakcja informacji ze swobodnego tekstu l'été, les affaires de jeux roulent hors de ses grands pistolets pour des achats de fin d'année de vacances quand environ la moitié de tout le jeu le logiciel obtient vendu. – Temis, France http:/www.temis-group.com/temis/sx.htm (7 języków) PROMT Mais tandis que les coups violents de Hollywood entrent październik, 2005 17 dans l'été, l'affaire de jeux étire ses grandes armes a feu pour des achats de jour férié(de congé) de fin d'année quand environ moitié de tout le logiciel de jeu est vendue. pa ździernik, 2005 18 3 Przykł Przykład tłtłum. angielski -> niemiecki Przykł Przykład tłum.polski -> angielski But while Hollywood smashes come in the summertime, the To jedyne zmiany w podatkach, które zostaną przeprowadzone w najbliŜszym czasie games business rolls out its big guns for year-end holiday shopping when about half of all game software gets sold. -> translatica (translatica.pwn.pl) These are only changes in taxes which will be taken in the closest time -> SYSTRANS angielski -> niemiecki Aber, während Hollywood Smashes in den Summertime kommen, rollt das Spielgeschäft aus seinen grossen Gewehren für das year-end Feiertageinkaufen, wenn über Hälfte alles Spiels Software verkauft erhält. -> SYSTRANS niemiecki -> angielski But, while Hollywood Smashes come into the buzzer time, rolls the play business from its large rifles for year ends to holiday buying, if over half of all play software keeps sold. październik, 2005 19 Przykł Przykład tłtłum.angielski -> polski But while Hollywood smashes come in the summertime, the games business rolls out its big guns for year-end holiday shopping when about half of all game software gets sold. -> translatica Ale podczas gdy hollywoodzkie brzęki nadchodzą letnią porą, bułki słuŜbowe z grami na zewnątrz jego cięŜkie działa przez koniec roku finansowego zakupy turystyczne kiedy około połowy ze wszystkich gra oprogramowanie dostaje sprzedany. -> trnaslate Ale podczas gdy uderzenia Hollywoodu przybył (przybywać; wchodzić; wszedł) w *summertime*, gry interes (handlowy) zwija (toczy się; zwój) poza swoimi wielkimi działami dla roku kończą zakupy Święta kiedy o połowie całego programu komputerowego gry otrzymuje (dostaje; rozumie) sprzedawany. październik, 2005 21 -> trnaslate (Ectaco, translate.pl) These sole changes in taxes, which (who) will be carried in the nearest future -> These are the only changes in taxes which will be introduced in the nearest future. październik, 2005 Wiedza o ję języku a realizacja wyznaczonego celu – Open the pod bay doors, HAL. semantyka pragmatyka zrozumienie polecenia – analiza językowa (identyfikacja słów, form, związków między nimi) – odniesienie do rzeczywistości wybór odpowiedzi (odrzucenie polecenia mimo moŜliwości wykonania go) sformułowanie odpowiedzi – wybór słów, ich form, porządku – pragmatyka: uprzejma odmowa (I’m sorry...) – odniesienie do poprzedniej części dialogu (that) październik, 2005 22 Fonetyka i fonologia obszar zainteresowania dźwięki dźwięki naleŜące do języka zasady pisowni struktura/formy wyrazów zaleŜności strukturalne między słowami (budowa fraz) znaczenie pojedynczego zdania znaczenie w kontekście Rozpoznanie sygnału mowy – wydzielenie fonemów – rozpoznanie słów Synteza mowy: – zamiana tekstu na ciąg powiązanych fonemów – nadanie odpowiedniej intonacji całości wypowiedzi standaryzacja zapisu fonologii, np. IPA (International Phonetic Alphabet) i ARPAbet (który wykorzystuje tylko oznaki ASCII) parsley [‘parsli] (IPA) [p aa r s l iy] (ARPAbet) zaleŜności międzyzdaniowe (discourse) październik, 2005 Stanley Kubrick i Arthur C. Clarke, 2001: A Space Odyssey – I'm sorry Dave, I’m afraid I can’t do that. Wiedza o ję języku naturalnym nazwa dziedziny fonetyka fonologia ortografia morfologia składnia 20 23 październik, 2005 24 4 Fonetyka i fonologia, problemy Fonetyka i fonologia, problemy Rozpoznanie sygnału mowy: – fonemy odpowiadające tym samym dźwiękom - fragmentom słów, wypowiadane przez róŜne osoby, w róŜnym czasie, róŜnym otoczeniu są inne – z powodu róŜnorodności trudno wyznaczyć ścisłe granice między poszczególnymi fonemami – praktycznie zawsze otrzymujemy sieć mo Ŝliwych interpretacji – rozpoznanie słów - potrzebujemy słownika Synteza mowy: – łatwo wybrać fonemy, ale trudno je połączyć, tak by do siebie pasowały – dla dobrego zaakcentowania potrzebujemy informacji o strukturze składniowej (i nie tylko...) – praktyczne rozwiązania: gromadzenie nagrań i sklejanie moŜliwie długich kawałków problemy, np. kwiat -> [ k f i a t] niejednoznaczności fonologiczne, np. [m o rz e] -> moŜe, morze październik, 2005 25 październik, 2005 26 Niejednoznacznoś Niejednoznaczności morfologiczne Morfologia nauka o budowie słów z morfemów: Analiza morfologiczna: rozpoznanie form podstawowych i wartości cech gramatycznych a) temat (stem): nośnik znaczenia b) przed- i przyrostki (affixes): nośniki cech gramatycznych, zmiany znaczenia Często jest wiele moŜliwości: – szafy -> szafa rozpoznawanie słów po ich formach fleksyjnych (l. poj, dopełniacz czy l. mnoga, mianownik) – psem -> pies (l.poj, narzędnik) – chłopca -> chłopiec (l. poj. dopełniacz czy – ciem -> ćma (l. mnoga. dopełniacz) l. poj. biernik) generowanie form – mam -> mieć (1 osoba, l. poj., czas teraźniejszy) czy – iść, czas przeszły, 3osoba l.poj., rodzaj Ŝeński -> szła mamić (tryb rozkazujący) czy mama (l.mnoga, dopełniacz) październik, 2005 27 październik, 2005 Skł Składnia 28 Skł Składnia wiedza o sposobie łączenia słów we frazy, a fraz w zdania rozpoznanie fraz i ich powiązań składniowych pozwala na ustalenie Analiza składniowa: rozpoznanie fraz i ich powiązań składniowych (zbudowanie rozbioru syntaktycznego) wartości cech gramatycznych dla generowanego tekstu, a więc rozstrzygnięcie wielu niejednoznaczności morfologicznych np. mała dziewczynka dała bukiet fiołków mamie -> [mała mod dziewczynka] podmiot dał słonia mamie -> [dać] 3os,cz. przeszły [słoń]dopełniacz lub biernik [mama]celownik dać [dać] 3os,cz. przeszły [słoń]biernik [mama]celownik [bukiet fiołkówmod] dopełnienie [mama] dopełnienie październik, 2005 29 październik, 2005 30 5 Skł Składnia, problemy Semantyka Dwa typy fraz: wymagania składniowe (mogą być opisane w słownikach) i modyfikatory, które są praktycznie dowolne – Jan widzi kota. – Mój starszy brat Jan, który od niedawna mieszka w Krakowie, idąc rano do pracy zwykle widzi czarnego kota siedzącego na murku naprzeciwko okna kuchni sąsiada. Niejednoznaczności składniowe, np. pokazała siostrze Jana kwiaty czyli „kolejny etap analizy”: mała dziewczyka dała bukiet fiołków mamie --> [mała mod dziewczynka] podmiot dać [ bukiet fiołkówmod] dopełnienie [ mama ] dopełnienie --> [małamody dziewczynka]aktor daćakcja [ bukiet fiołkówel.skladowy]obiekt – [pokazać] [siostra Jana]dopełnienie [kwiaty]dopełnienie [ mama ] odbiorca – [pokazać] [siostra]dopełnienie [Jana kwiaty]dopełnienie październik, 2005 ustalenie co jest znaczeniem konkretnego wyraŜenia w języku naturalnym (rozpoznanie obiektów, relacji między nimi, ...) 31 październik, 2005 32 Semantyka, niejednoznacznoś niejednoznaczności Semantyka, problemy Piła! Co to właściwie jest znaczenie wyraŜenia w języku naturalnym ? Jak budować znaczenie zdania ze znaczenia fraz Niepełność wszystkich dostępnych spoosbów opisu znaczenia (zawsze spotkamy sytuację, dla której nie mamy dobrej reguły) Kłopoty obliczeniowe, jeśli chcemy korzystać z bardziej zaawansowanych sposobów reprezentacji (logiki) I jak zawsze niejednoznaczności okrzyk radości ma widok zgubionej piły, niezbyt pochlebna ocena nauczyciela, wyraz zdegustowania naduŜyciem alkoholu (pierwsze dwie interpretacje semantyczne mają taką samą interpretację morfologiczną i syntaktyczną (‘piła’ jest tu rzeczownikiem w mianowniku), trzecia inną (‘piła’ to czasownik) Uszył jej buty - wyraŜenie idiomatyczne lub opis efektu pracy szewca „nawiasowanie” negacji Nie zrobisz tego? Nie (nie zrobię albo właśnie, Ŝe zrobię) wiązane zaimków Jan kazał Piotrowi wyczyścić swoje buty. październik, 2005 33 październik, 2005 34 Pragmatyka interpretacja wypowiedzi w konkretnym kontekście, w odniesieniu do wiedzy o świecie Informacje zewnętrzne pozwalają człowiekowi poprawnie rozstrzygać wiele niejednoznaczności, np. Pacjent opuścił salę operacyjną w dobrym stanie 1⇓ pacjent opuścił [salę operacyjną] [w dobrym stanie] mod_pacjenta 2⇓ pacjent opuścił [salę operacyjną [w dobrym stanie] mod_sali] (doświadczenie przemawia za interpretacją 1) październik, 2005 35 6