Inne aplikacje NLP Przykłady zastosowa metod
Transkrypt
Inne aplikacje NLP Przykłady zastosowa metod
Przykł Przykłady zastosowa metod statystycznych Bardzo wiele problemów próbuje się rozwiązać bazując na różnicach w częstości występowania różnych wyrazów/fraz/konstrukcji MS Word – rozpoznawanie języka budowa słowników specjalistycznych (porównanie liczności w tekstach specjalistycznych i ogólnych) klasyfikacja dokumentów -- różnice w rozkładzie częstości słów klasyfikacja dokumentów w innym języku niż był trenowany klasyfikator wyszukiwanie dokumentów w innym języku niż język pytania (cross language document retrieval) ... Problemy z podejściem statystycznym: Inne aplikacje NLP Znakowanie granic zda znajdowanie granic zdań byłoby łatwe gdyby nie skróty z kropkami ... (mgr. prof., r., itd.) jeśli przed kropką jest słowo, które nie jest skrótem, to kropka najprawdopodobniej kończy zdanie (...), ale jeśli to skrót, to o ile potem jest znak interpunkcyjny lub słowo rozpoczynające się od małej litery, to nie było końca zdania, wpp. trzeba zdecydować czy słowo to jest nazwą własną Mikheev -- połączenie ustalania granic zdań z tagowaniem – osobne tagowanie wszystkich kropek w PennTreeBank – wytrenowanie HMM (trigramy) na podstawie powyższych danych (przy grupowaniu słów w klasy w zależności od typu tagów, które mogą być im przypisane) – algorytm zgadywania dla nieznanych skrótów – – Różne typy pytań: – – – – – – nie oczekujemy, że prawidłowo reprezentuje on język, lecz że prawidłowo przewiduje wyniki. Przykł Przykład: (Dipre (Dipre,, Snowball) Snowball) pytania o fakty, pytania o definicje, wyliczenia, pytania typu jak i dlaczego. pytania ograniczone do wybranej dziedziny, pytania otwarte. Zakres pytań: 0 w modelu - wygładzanie modelu Model statystyczny Systemy pyta i odpowiedzi (QA) formy morfologiczne (niezbędny jest słownik) wielość homonimów (przydatny jest tagger morfologiczny, inaczej jest zbyt wiele rozwiązań) wyszukiwanie w tekście wzorców podobnych do zadanych przykładów, np. par organizacja - miejsce centrali Microsoft - Redmont, Boeing- Seatle wyszukanie w tekście kontekstów, w których wystąpiły te pary wyszukanie innych par, które wystąpiły w tych samych kontekstach wyszukanie par, które wystąpiły w rozszerzonym zbiorze kontekstów dodanie wag do elementów kontekstu 1 Schemat dział działania Program stworzony w PJWSTK Praca magisterska Źródło wiedzy – Wikipedia Pytania 2 typów (rozpoznawanych automatycznie): – – Kiedy rozegrano bitwę pod Grunwaldem? Pytanie analiza pytania utworzenie zapytania szukane hasło, czasownik, fraza rzeczownikowa ranking adres URL porównanie wzorców pobranie definicji pytania o daty urodzin i śmierci pytania otwarte zawierające nazwę (fragmenty nazwy) jakiegoś hasła z Wikipedii Bitwa pod Grunwaldem została stoczona 15 lipca 1410. rozpoznane zdania redagowanie odpowiedzi Przykł Przykład odpowiedzi TRECTREC-9 QA Zadanie: – – – – Ewaluacja odpowiedzi Zbiór wzorców (Perl) dopasowywanych do odpowiedzi, odpowiedź jest zaliczana, jeśli pasuje choć jeden z nich, np. Who invented Silly Putty? General\s+Electric Where is the location of the Orange Bowl? ^\s*Miami\s*$ to\s+Miami\ Miami\s*’\s*s+downtown Orange\s+Bowl\s*,\s*Miami Dade County … Who is Jane Goodall? naturalist chimpanzee\s+specialist … Odpowiedź dany duży korpus dokumentów (gazetowych) – ok. 979 tys. – 3033 MB pytania ustalonego typu wynikiem miała być posortowana lista 5 dokumentów i odpowiedzi na ich podstawie uzyskanych zbiór testowy pytań (ok. 680 z logów Encarta i Excite), na każde na pewno w zbiorze była odpowiedź, przykłady: How much folic acid should an expectant mother get dialy? Who invented the paper clip? Where is Rider Collage located TRECTREC-9 QA Uczestnicy: 28 systemów – Dokładne odpowiedzi: # not found LCCSMU2 (Southern Methodist U.) 0.58 34% ISI0A50 (ISI, Univ. Of South Calif.) 0.32 57% uwmt9pas0 (Multi Text, U. of Waterloo) 0.32 58% dla 50 bajtowych odpowiedzi LCCSMU2 (Southern Methodist U.) Ibmhlt00250 (IBM, Ittycheriah) Pir0qal2 (Queens College, CUNY) uwmt9pas0 (Multi Text, U. of Waterloo) – 0.58 0.46 0.46 0.46 14% 39% 39% 39% 2 Podzadania Tłumaczenie maszynowe tłumaczenie „zgrubne” tłumaczenie ograniczone do wąskiego podzbioru języka (np. prognozy pogody) Wykorzystanie: wyszukiwanie informacji w dokumentach w różnych językach tłumaczenia instrukcji (lokalizacja oprogramowania) tłumaczenia częściowe, słowniki fraz stanowiące materiał dla tłumaczy (computer-aided human translation, CAHT, CAT) tłumaczenia poprawiane przez człowieka (human-aided computer translation, HACT) Metody stosowane przy tłtłumaczeniu Tłumaczenie jako transfer transfer z jednego języka na drugi tłumaczenie poprzez reprezentację znaczenia (interlingua) Model tłumaczenia opierający się o wiedzę na temat różnic między dwoma językami. Trzy etapy: analiza metody statystyczne metody mieszane (łączenie elementów różnych metod najczęściej spotykane w praktyce) → TRANSFER → drzewo rozbioru w języku źródłowym docelowym synteza drzewo rozbioru w języku Inne potrzeby analizy syntaktycznej, np. – Nie interesuje nas analiza możliwych miejsc dołączeń fraz przyimkowych, jeśli w obu językach są podobne zasady (John saw the girl with the binoculars) Transfer, przykł przykład: angielski → japo ski Tłumaczenie jako transfer reguły transferu, przykłady: – w języku angielskim przymiotniki są przed rzeczownikami, we francuskim za (z kilkoma wyjątkami) noun-phrase adjective -- -- -- → noun noun phrase noun There was an old man gardening. Existential-There-Sentence there was an old man gardening w języku japońskim nie ma takiej konstrukcji -> tłumaczymy na ‘zwykłe’ zdanie, zamieniając 4-ty element na modyfikator (zdanie względne): Intermediate-Representation an old man gardening was zamiana kolejności frazy rzeczownikowej i modyfikatora, tłumaczenie słów: Japanese-S adjective niwa no teire o suru ojiisan ita 3 Transfer, przykł przykład: angielski → japo ski Końcowa redakcja tekstu: – – Transfer sł słów dodanie słowa wskazującego podmiot (ga) wybór odpowiedniego czasownika (w japońskim są dwa ‘być” w zależności od tego. Czy podmiot jest ożywiony czy nie) – określenie formy fleksyjnej czasownika Część słów wstawiana jest przez reguły gramatyczne (np. ga dla japońskiego) większość słów pochodzi z tłumaczenia słów w tekście źródłowym – – (gardening -> niwa no teire o suru ) niwa no teire o shite ita ojiisan ga ita garden GEN upkeep OBJ do PAST-PROG old man SUBJ was – Problem z wyborem sł słów, przykł przykład paw Analiza semantyczna reprezentacja znaczenia zdania → synteza 1 etap: interpretacja semantyczna zdania -> tworzenie zapisu jego znaczenia w specjalnym, niezależnym od języka naturalnego formalizmie (używającym jednak wyrazów jakiegoś języka do oznaczenia reprezentowanych obiektów) 2 etap: generowanie tekstu w języku docelowym na podstawie zapisu jego semantyki foot pied różnice kulturowe Metoda ta pozwala na tłumaczenie mniejszym kosztem z wielu na wiele języków brak informacji bezpośrednio porównujących dwa języki problem: konstrukcje języka pośredniego, dokładna interpretacja semantyczna Przykł Przykład → patte leg jambe problemy z wyborem właściwego słowa Idea j zyka po redniego - interlingua Brak jednoznacznego odwzorowania słów etape jest odszukiwana w dwujęzycznym słowniku, tłumaczeniem słowa może być jedno słowo bądź cała fraza Zapis zdania ‘there was an old man gardening’ (przy bardzo uproszczonej semantyce) Interlingua - zapis znaczenia sł słów EVENT GARDENING AGENT MAN NUMBER DEFINITENESS ASPECT PROGRESSIVE TENSE PAST SG INDEF zakres znaczeniowy słów w różnych językach nie pokrywa się można dokonywać dekompozycji leksykalnej, czyli „rozkładania znaczenia” - zapisywania znaczenia słów za pomocą elementów z wybranego zbioru predykatów i typów obiektów, np. drink -> ingest, fluid, by-mouth eat -> ingest , not-fluid, by-mouth dekompozycja znaczenia pozwala czasem na ujednoznacznianie, np. the policeman saw the man with the telescope the policeman shot the man with the telescope (2 znaczenia ) (1 znaczenie) 4 Poró Porównanie transferu i tłtłumaczenia poprzez j zyk po redni transfer - porównanie dwóch języków - głównym źródłem informacji jest i analiza syntaktyczna - możliwość zachowania niejednoprzy znaczności (np. dołączanie fraz przyimkowych czy przysłówków w pokrewnych językach interlingua - oddzielny opis każdego języka - kluczem do sukcesu jest poprawna Tłumaczenie bezpo rednie (direct translation) translation) dokładna analiza semantyczna (nie wiemy też które jej elementy będą niezbędne) - konieczność ujednoznaczniania – – interpretacji semantycznej Tłumaczenie bezpo rednie przykł przykład system tłumaczenia z japońskiego na angielski 1. analiza morfologiczna 2. transfer słów 3. zmiany dotyczące przyimków 4. reorganizacja porządku SVO 5. różne ‘drobiazgi’ 6. synteza morfologiczna Tłumaczenie słów nie jest zawsze tak proste jak w podanym przykładzie, może odbywać się w oddzielnych etapach, np. najpierw czasowniki, potem rzeczowniki, przymiotniki … odmienność podejścia - podział zadania w sposób ortogonalny do tego w obu poprzednich podejściach - każdy etap to kompletne tłumaczenie pewnych fragmentów informacji możliwość uzależnienia tłumaczenia słów od bezpośredniego (linearnego) kontekstu ‘konserwatywność’ - tylko niezbędne zmiany są dokonywane większość systemów charakteryzowanych jako systemy bezpośrednie ma jednak pewne elementy analizy (syntaktycznej i/lub semantycznej) zwykle jedna wybrana para języków kilka faz dotyczących rozwiązania jednego problemu -> stopniowe przekształcanie tekstu źródłowego bez pośrednich dodatkowych struktur Tłumaczenie bezpo rednie przykł przykład Wejście: watashihatsukuenopenwojonniageta 1. Watashu ha tsuke no ue no pen wo jon ni ageru PAST (analiza morfologiczna) 2. I ha desk no ue no pen wo John ni give PAST 3. 4. 5. 6. Tłumaczenie bezpo rednie - cechy ogó ogólne Oba poprzednie modele zakładały poprawną analizę (syntaktyczną bądź semantyczną) tekstu, który był tłumaczony, ale najczęściej lepszy jest choćby częściowy wynik zamiast żadnego systemy zwane systemami tłumaczenia bezpośredniego zbudowane są zgodnie z założeniem, że system tłumaczący powinien „robi”c jak najmniej się da” I ha pen on desk wo John ni give PAST I give PAST pen on desk John to. I give PAST the pen on the desk to John. I gave the pan on the desk to John. (transfer słów) (zmiany dotyczące przyimków) ( reorganizacja porządku SVO) (dodanie przedimków) (synteza morfologiczna) Tłumaczenie - podej cie statystyczne Inny punkt widzenia: skupiamy się nie na opisie samego procesu tłumaczenia ale na celu co oznacza, że jedno zdanie jest tłumaczeniem drugiego? – – Idealne tłumaczenie powinno zachowywać wiernie znaczenie oryginału i być zgodne z językiem w którym zostało sformułowane -> często nierealne praktyka (tłumaczeń dokonywanych przez ludzi) - kompromis między wiernością oryginałowi (faithfulnes) a płynnością wypowiedzi (fluency): best-translation T’ = argmaxT fluency(T) × faithfulness(T,S) (S - zdanie w języku źródłowym, T - zdanie w języku docelowym) 5 Tłumaczenie - model Bayesa Przy powyższym sformułowaniu zadania możemy stosować ‘klasyczny’ model zaszumionego kanału i prawo Bayesa jeżeli tłumaczenie będziemy interpretować jako wprowadzenie szumu, to zadanie wyboru najlepszego tłumaczenie równoznaczne jest ze znalezieniem zdania, dla którego największe jest prawdopodobieństwo uzyskania go ze zdania początkowego S, tj. szukamy zdania T, dla którego największe jest P(T|S), czyli zgodnie z prawem Bayesa: Tłumaczenie - model Bayesa Porównując wzory: best-translation T’ = argmaxT P(T) P(S|T) best-translation T’ = argmaxT płynność(T) × wierność(T,S) otrzymujemy definicje: płynność - P(T) wierność - P(S|T) musimy teraz wyznaczyć model pozwalający oszacować te wartości best-translation T’ = argmaxT P(T) P(S|T) Wyznaczanie pł płynno ci Jaka może być miara mówiąca o tym jak dobrym zdaniem jakiegoś języka jest zdanie T? Statystyczny model języka (np. model trigramowy) pozwala na wyznaczenie prawdopodobieństwa sformułowania konkretnego zdania, zgodnie a tym modelem np. Zdanie: that car was almost crush into me będzie miało niższe prawdopodobieństwo niż zdanie: – that car almost hit me co odpowiada naszej ocenie płynności tych zdań. Wyznaczanie wierno ci – w praktyce nawet systemy tłumaczenia nie oparte na metodach statystycznych, w końcowej fazie tłumaczenia stosują pewne heurystyki poprawiające płynność tekstu tu trudniej o miarę ilościową jedną z propozycji jest miara w jakim stopniu słowa ze zdania w jednym języku odpowiadają słowom ze zdania w drugim języku - informacji tej nie ma jednak w słownikach prawdopodobieństwo można określić dysponując tekstami dwujęzycznymi, w których zaznaczone są odpowiadające sobie zdania - na ogół jednak brak jest takich anotacji liczne prace nad metodami wyznaczania odpowiadających sobie zdań i słów lepsze dopasowanie pojedynczych słów nie oznacza lepszego dopasowania całości Szukanie najlepszego tłtłumaczenia Wiemy (do pewnego stopnia) jak policzyć prawdopodobieństwo, że dane zdanie jest tłumaczeniem drugiego, ale jak szukać kandydatów w potencjalnie nieskończonym ciągu zdań języka naturalnego? Jest to omawiane już zadanie „szukania najlepszej ścieżki”, dla którego znamy rozwiązania w postaci np. algorytmu Viterbi lub A* przy podejściu statystycznym tłumaczenia generujemy więc incrementalnie z tłumaczeń kolejnych elementów zdania źródłowego i na bieżąco oceniamy stopień jego dopasowania Funkcjonowanie systemó systemów MT Wiadomo, że żaden system nie jest w stanie dobrze tłumaczyć wszystkich zdań (chyba, że bardzo ograniczymy ich zbiór) Możliwości korekt: – – – – system zadaje pytania w przypadku problemu (-) człowiek poprawia błędy systemu (+) człowiek ‘poprawia’ zdania do tłumaczenia teksty, które mają być tłumaczone na wiele języków pisane są w specjalnie ograniczonym ‘kontrolowanym’ podzbiorze języka naturalnego (dodatkowo często zwiększa to przejrzystość i jednoznaczność tekstu oryginalnego) - np. instrukcje dołączane do urządzeń 6 Przydatno systemó systemów MT Bardzo skuteczne w bardzo ograniczonych kontekstach Kluczem do sukcesu jest prawidłowe tłumaczenie słów czytelnik odtworzy sens jeśli składnia nie jest do końca dobra, ale źle wybrane słowa mogą zaburzyć sens kompletnie Tłumaczenie na podstawie przykł przykładó adów Example-based translation (1) He buys a book on international politics. politics. (2) a. He buys a notebook. Kare wa n¯oto o kau. HE topic NOTEBOOK obj BUY. (he took glasses -> szklanki czy okulary?) b. I read a book on international politics. politics. największą wartością systemów MT są więc duże słowniki dwujęzyczne (zawierające także idiomy, frazy, często występujące zwroty i całe zdania Watashi wa kokusai seiji nitsuite kakareta hon o yomu. yomu. I topic INTERNATIONAL POLITICS ABOUT CONCERNED BOOK obj READ. (3) Kare wa kokusai seiji nitsuite kakareta hon o kau. kau. Teksty dwuj zyczne Tłumaczenie na podstawie przykł przykładó adów „boundary friction” friction” problem The handsome boy entered the room. room. a. The handsome boy ate his breakfast. breakfast. b. I saw the handsome boy. Der schö schöne Junge aß seinen Frü Frühstü hstück. b. Ich sah den schö schönen Jungen. a. najbardziej znany - kamień z Rosetty Gravity is a pervasive force in the world, and both animals and plants have adopted to it in a variety of ways. La pesanteur s’exerce partout sur la terre, et les etres vivant se sont adaptés de facons variées. Gravity act everywhere on the earth, and living things have adopted to it in various ways. both animals and plants - living things Co jest tłumaczeniem ‘pervasive force’? - nic, ‘partout’? (w tym przypadku ‘partout’ może być potraktowane jako tłumaczenie, ale nie może się to znaleźć w słowniku bez zapisania dodatkowych ograniczeń) Teksty dwuj zyczne Problemy: znalezienie odpowiadających sobie zdań (sentence alignment): znalezienie odpowiadających sobie słów (word alignment) i wyrażeń znalezienie odpowiadających sobie fraz Dopasowywanie zda I metoda (Kay & Röscheisen,1988,1993) stwierdzamy, że pierwsze i ostanie zdania sobie odpowiadają wyznaczamy pewien zakres, w którym szukamy odpowiadających sobie zdań wewnątrz tekstu – wybieramy te, dla których zgadza się najwięcej tłumaczeń słów – – II metoda (Gale & Church , 1991, 1993) krótkie zdania zwykle mają krótkie tłumaczenia, długie - długie, stosunek długości zdań sobie odpowiadających jest charakterystyczny dla pary języków (np. angielski -> francuski, 1.1) – model probabilistyczny oparty dodatkowo o prawdop. ominięcia, dodania tekstu do tłumaczenia czy połączenia zdań (2) – 7 Dopasowywanie zda III metoda, dla podobnych sobie języków Simard et al., 1992; Church, 1993 ... Dopasowywanie leksykalne bez słownika - np. po identycznych kształtach (4 pierwsze litery) – działa nawet dla języków dalekich, jeśli w tekstach występują często rozpoznawalne nazwy (nazwiska, nazwy firm, liczby...) (natomiast stosunek długości zdań np. dla anielskiego i chińskiego nie jest taki stały jak dla francuskiego) – Dopasowywanie sł słów Szukanie odpowiadających sobie słów i zdań to zadania powiązane, często przeplatające się metody statystyczne napotykają na pewne ograniczenia: niejednoznaczność przypisań, zwłaszcza dla często występujących słów funkcyjnych – rzadkość wielu (większości?) konstrukcji utrudnia sformułowanie modelu – wiele ‘stałych’ wyrażeń nie jest do końca niezmienna (odmiana, zmiana kolejności, wtrącenia) – metody statystyczne mają na razie charakter pomocniczy w stosunku do metod opartych o wykorzystanie słowników dwujęzycznych – Systran SYSTRAN's Machine Translation (MT) technology integrates multilingual functionalities in information processing and exchanges, for applications such as eCommerce, CRM, Content Management, databases, corporate Intranets, email, Instant Messaging, SMS, WAP, and more. Corporations: Ford Motor Company, Cisco Systems, NCR, DaimlerChrysler Corporation, PricewaterhouseCoopers, Dow Corning Corporation, and others. English Translator English Translator: tłumaczenie na język polski Techland (Wrocław) – komercyjny system automatycznego tłumaczenia – dziedzina tłumaczenia jest praktycznie nieograniczona, – English Translator XT to program tłumaczący w pełni kontekstowo. Jednoczesne wykorzystanie analizy składniowej zdań, analizy semantyki poszczególnych wyrazów (w kontekście znaczeń wyrazów sąsiadujących) i najnowszych algorytmów transferu gramatyki to najnowocześniejsza metoda komputerowego (www.techlan.pl, 10.02.2006) Dwa tryby tłumaczenia: automatyczny z opcją szybkiej korekty; ręczny, dający pełną kontrolę nad przekładem z możliwością dostosowania tłumaczenia krok po kroku. tłumaczenia kontekstowego – Portals: Google, AOL, Altavista, Apple's Sherlock Internet Search, CompuServe, Lycos, OracleMobile.com, and others. Government and Public Administrations: The European Commission and the US Intelligence Community. – Internet Translator – tłumaczenie angielskich, niemieckich i francuskich stron internetowych Translatica Komercyjny system tłumaczący Translatica Wydz. Mat.i Inf. UAM (dr K. Jassem), współpraca z PWN Zapraszamy do zapoznania si z automatycznym tłumaczeniem w programie Translatica. ę We are inviting for making ourselves acquainted with the automatic translation in the Translatica program. Zapraszamy dla robienia siebie zapoznany z przekładem automatycznym w Translatica program. Translatica to system tłumaczący z języka polskiego na angielski oraz z angielskiego na polski. (nowa cecha). Translatica wykorzystuje metodę wstępującej analizy składniowej i transferu a w swojej bazie zawiera między innymi część Wielkiego Słownika Angielsko-Polskiego PWN-Oxford. 870 000 wyrazów i idiomów 97 kontekstów tłumaczenia, 15 stylów i 5 dialektów baza form fleksyjnych języka polskiego możliwość wyboru wariantów tłumaczenia możliwość wizualizacji struktury składniowej oryginalnych i przetłumaczonych zdań najwyższej jakości dane słownikowe i encyklopedyczne PWN, 8 Zasoby j zykowe Aby stosować statystyczne metody przetwarzania języka naturalnego potrzebne są różnorodne zasoby. Podstawowe zasoby to: – – – – – – Korpusy analizatory morfologiczne (ok. 19 dla polskiego) tagery (tager statystyczny (HMMm oparty o model trigramowy) dla korpusu IPIPAN i tager regułowy dla korpusu PWN) korpusy tekstowe (IPIPAN, PWN, Łódź) korpusy języka mówionego (torchę w PWN, ?) analizatory składniowe (publicznie niedostępne - Świgra, analizator na potrzeby systemu tłum. Translatica) ?? korpus ogólny (w miarę zrównoważona reprezentacja różnych form wykorzystania języka) – korpusy specjalistyczne, np. dla dialektu, bądź okresu czasu język z jakiejś dziedziny – korpus równoległy w dwóch różnych językach naturalnych – Korpusy, anotacje Korpus zawierać może wyłącznie tekst, albo tekst wzbogacony o informacje dodatkowe (anotacje) różnego rodzaju. – anotacje natury ogólnej (metadane), np. tytuł dzieła, autor, rok powstania – anotacje strukturalne, np. granice akapitów i zdań, informacje o tym, że tekst jest tytułem lub podpisem pod rysunkiem – anotacje morfosyntaktyczne, np. część mowy, rodzaj, przypadek Korpus IPIPAN Korpus lingwistyczny to zbiór tekstów w języku naturalnym (na ogół w jednym). W zależności od zastosowania różne typy korpusów: Korpusy j zyka polskiego PWN - niewielka część udostępniona publicznie IPI PAN - dokładniejsze znaczniki morfosyntaktyczne, dostępność w sieci całego korpusu (w postaci binarnej) http://www.korpus.pl Korpus IPIPAN 9