1 Wyszukiwanie informacji (dokumentów tekstowych) Information
Transkrypt
1 Wyszukiwanie informacji (dokumentów tekstowych) Information
Information Retrieval (IR) Indeksowanie, wyszukiwanie dokumentów tekstowych Wyszukiwanie dokumentów w sieci WWW to obecnie jedna z najcz stszych operacji Problemy: ę ś – wyszukanie wła ciwych dokumentów Wyszukiwanie informacji (dokumentó (dokumentów tekstowych) – efektywne wyszukiwanie w bardzo du ych zbiorach Ŝ (IR, Information Retrieval) Zadanie: Maj c: - korpus tekstów – pytanie u ytkownika Wyznaczy : ą Ŝ Natural Language Information Retrieval, T. Strzałkowski (ed.), Kluwer Academic Press. 1999 ć – uporz dkowany zbiór dokumentów stanowi cy odpowied ą Słowa kluczowe NLP to syntaktyczna, semantyczna i pragmatyczna analiza tekstu w j zyku naturalnym, znajomo struktury syntaktycznej i interpretacji semantycznej powinna pozwoli na wyszukiwanie sterowane semantyk , a nie tylko słowami kluczowymi, proste okre lenie poprawno ci odpowiedzi - tekst pytania (słowa kluczowe) wyst puje w dokumencie inne kryterium - słowa kluczowe wyst puj w dokumencie cz sto, w dowolnej kolejno ci (bag of words) ew. wymagamy, eby były blisko siebie Problemy z wyszukiwaniem wg słów kluczowych: synonimy: ś ą ę ś Ŝ Mo liwo ci powi za : – metody ustalania znaczenia słów w oparciu o kontekst (word sense disambiguation), – metody identyfikacji informacji w tek cie (information extraction), – udzielanie odpowiedzi na podstawie analizy korpusu tekstów. ś ą ń ś Trafno Trafno (odpowiednio dotyczy m.in.: ś ć ś ć – “restaurant” vs. “café” – “PRC” vs. “China” terminy wieloznaczne: – “bat” (baseball vs. mammal) – “Apple” (company vs. fruit) - na prawo – “bit” (unit of data vs. act of eating) - rząd (polski, drzew) (relevance) relevance) - kostka (cukru, nogi) IR, Vector Space Model ) jest miar subiektywn . Mo e ą ś ę ć ą Ŝ ś ę ć ź NLP: powi zania z IR ę ą ą Ŝ Dokumenty i pytania przedstawiane s w postaci wektorów cech reprezentuj cych wyst puj ce obiekty (dokładniej warto cechy okre la, czy dany obiekt wyst puje czy nie w danym dokumencie) ą ą ć ę ą ś ś – właściwego tematu, – aktualności danych, – wiarygodności danych (pochodzenia z wiarygodnego źródła), – zaspokojenia potrzeb użytkownika (information ć ę dokument j -- dj = (t1,j , t2,j, ..., tN,j) need). pytanie k Ŝ ą Inteligentne metody IR musz bra pod uwag : znaczenie u ytych w pytaniu słów, porz dek słów w pytaniu, reakcje u ytkownika (bezpo redni b d po redni feedback), wiarygodno ródła informacji. -- qk = (t1,k , t2,k, ..., tN,k) w wektorach powy ej zamiast 0 lub 1 umieszczamy liczby oddaj ce cz sto ci wyst powania obiektów ę ś ę ę ą ć Ŝ ą Ŝ ś ś ć ą ź ś dokumenty i pytania s wektorami w przestrzeni N-wymiarowej dla ułatwienia porówna normalizujemy wektory, dzielimy ka d współrz dn przez długo wektora, tj. ą ń ę ą Ŝ ś Σ ą ć wi2 ź i=1,,N 1 IR, Vector Space Model, cd. cd. IR, Vector Space Model, cd. cd. Odległo Warto ci istotne dla modelu: ś mi dzy znormalizowanymi wektorami: ę ś ć Σ wi,k x wj,k (dot product) sim(qk, dj) = qk . dj = – częstość występowania słowa w tekście – dystrybucja słowa w zbiorze tekstów słowa wyst puj ce rzadko (tylko w niewielu tekstach) dobrze nadaj si do wyboru tego wła nie podzbioru słowa cz sto wyst puj ce s niedobre do selekcji czegokolwiek i-1..N wyznacza cosinus k ta mi dzy wektorami, takie same wektory k t 0 cosinus 1, wektory prostopadłe, „bardzo odległe”, cosinus 0. ę ą ę ą ą ę ę ś ę ą ą ą IR, Vector Space Model, cd. cd. Miara „przydatno ci” obiektów (termów): ś – N/ni Wybó Wybór termó termów Stop lista N - liczba dokumentów w kolekcji – słowa występujące często, spójniki ... ni - liczba dokumentów, w których występuje ni – ale (to be or not to be) -> not (1 - term występuje we wszystkich dokumentach) – idf – w i = log(N/n ) i (Brown corpus, za Frakes, Baeza-Yates)) (inverse document frequency) i,j = tf i,j x idf i (tf częstość termu i w dokumencie j) i,j ustalenie tematów słów (stemming) - nieodzowny dla j zyka fleksyjnego, ale bardzo trudny przy wielu wymianach tematowych ( ma - temat pusty) ę ć Poprawianie pyta Ocena wynikó wyników IR Stopniowe tworzenie odpowiedzi (relevance feedback) – mały zbiór odpowiedzi początkowych, – reakcja użytkownika określającego, które z tej grupy są dok. relewantne (RR+NRR) dok. podane (RR+RNR) NRR RR RNR Precyzja najlepsze – iteracja (często tylko jeden krok interakcji wystarcza) liczba podanych wła ciwych dokumentów = RR liczba wszystkich podanych dokumentów RR+RNR ś precision = rozszerzenie pytania (query expansion) – dodanie termów pokrewnych tym z pytania (w oparciu o tezaurusy) Pełno recall = ś ć liczba podanych wła ciwych dokumentów = RR liczba wszystkich wła ciwych dokumentów RR+NRR ś ś 2 Automatyczna klasyfikacja dokume dokumentó ntów Automatyczne tworzenie hierarchii dokumentó dokumentów ś Wyszukiwanie dokumentów to wła ciwie ich klasyfikacja na dwie grupy (relewantne do pytania i nie), mo na te dzieli zbiór na wi cej klas. R czna klasyfikacja jest pracochłonna, subiektywna i obarczona bł dami potrzebne s metody automatycznej kategoryzacji dokumentów najlepsze metody oparte s metodach machine learning (pattern recognition) przy wykorzystaniu poetykietowanego zbioru treningowego (supervised learning). Ŝ Ŝ ć ę ę ą ą ę ę ę Do klasyfikacji dokumentów potrzebne s hierarchie typów r czne towrzenie hierarchii jest ... pracochłonne, subiektywne i obarczone bł dami potrzebne sa metody automatycznego tworzenia hierachii na podstawie zbioru dokumentów metoda: hierarchical text clustering (unsupervised learning) (Hierarchical Agglomerative Clustering, HAC) ą Aglommerative vs. Divisive Clustering Clustering Partition unlabeled examples into disjoint subsets of clusters, such that: – Examples within a cluster are very similar – Examples in different clusters are very different Discover new categories in an unsupervised manner (no sample category labels provided). Aglommerative (bottom-up) methods start with each example in its own cluster and iteratively combine them to form larger and larger clusters. Divisive (partitional, top-down) separate all examples immediately into clusters. Hierarchical Agglomerative Clustering (HAC) Direct Clustering Method Direct clustering methods require a specification of the number of clusters, k, desired. A clustering evaluation function assigns a real-value quality measure to a clustering. The number of clusters can be determined automatically by explicitly generating clusterings for multiple values of k and choosing the best result according to a clustering evaluation function. Assumes a similarity function for determining the similarity of two instances. Starts with all instances in a separate cluster and then repeatedly joins the two clusters that are most similar until there is only one cluster. The history of merging forms a binary tree or hierarchy. 3 HAC Algorithm Cluster Similarity Start with all instances in their own cluster. Until there is only one cluster: Among the current clusters, determine the two clusters, ci and cj, that are most similar. Replace ci and cj with a single cluster ci ∪ cj Single Link Example Assume a similarity function that determines the similarity of two instances: sim(x,y). – Cosine similarity of document vectors. How to compute similarity of two clusters each possibly containing multiple instances? – Single Link: Similarity of two most similar members. – Complete Link: Similarity of two least similar members. – Group Average: Average similarity between members. Complete Link Example sim(ci ,c j ) = max sim( x, y ) sim(ci ,c j ) = min sim( x, y ) x∈ci , y∈c j x∈ci , y∈c j Wyszukiwanie, przykł przykłady podej systemy wyszukuj ce dokumenty zawieraj ce postawione pytanie: ą – Google – AllTheWeb – Altavista … ą Grupowanie wynikó wyników wyszukiwania Definicja problemu: efektywne utworzeniu sensownych grup tematycznie powi zanych dokumentów, oraz zwi zły opis w sposób zrozumiały dla człowieka ą ę Problem nie jest trywialny… systemy odpowiadaj ce na pytania: ą – nie jest znana liczba oczekiwanych grup – System START – miara podobieństwa dokumentów jest trudna do zdefiniowania – System AnswerBus – grupy mogą się nakładać – znalezienie opisu dla grup nie jest proste – wymagana szybkość wykonywania (on-line) – dokumenty mogą być wielojęzyczne – opisy są zazwyczaj krótkie (snippets) i niepełne systemy organizuj ce wyniki: ą – Vivisimo – Carrot2 (Instytut Informatyki Politechnika Poznańska, D.Weiss) 4 Modelowanie podobie stwa Przykład macierzy podobie stwa A ś modelowanie odległo ci w przetrzeniach n-wymiarowych (Vector Space Model) model grafowy współwyst powanie słów i fraz ę ś Poj cie blisko ci w macierzy A: jeste my zainteresowani k tem jaki tworz mi dzy sob wektory dokumentów identyczny k t -> dokumenty zło one s z identycznych słów -> dokumenty s podobne ę ś ą ą ą Ŝ ę ą ą ą „apache” w systemie Carrot2 Algorytmy grupowania a macierz A wykorzystanie informacji o blisko ci dokumentów w A zastosowanie maj wszelkie metody analizy skupie w danych numerycznych ś ą ń problemy grupy zazwyczaj sferyczne ka de słowo jest traktowane oddzielnie problemy ze znalezieniem opisu grup problem z naturalnym kryterium stopu dla wi kszo ci algorytmów Ŝ ę ś Automatyczne streszczanie Automatyczne streszczanie Coraz wi cej informacji dost pnej (on-line), brak czasu na zapoznanie si ze wszystkim, ale trzeba podejmowa (cz sto strategiczne) decyzje ę Coraz wi cej informacji dost pnej (on-line), brak czasu na zapoznanie si ze wszystkim, ale trzeba podejmowa (cz sto strategiczne) decyzje ę ę ę ć ę ę ć ę ę Rodzaj zastosowa : ń Zainteresowanie komercyjne: - - BT ProSum (telekomunikacja) Oracle Context (data mining of text databases) Inxight summarizer wykorzystywany w AltaVista Discovery (webbased information retrieval) Microsoft AutoSummarize (word processing tools) Tradycyjne: (wspomaganie wyszukiwania informacji) - automatyczne indeksowanie automatyczne streszczanie (tekstów technicznych i naukowych) Nowe problemy: - - streszczanie dokumentów w wielu j zykach multimedia news broadcasts streszczenia literatury medycznej na temat konkretnej choroby ‘audio scanning’- serwis dla niewidomych ę 5 Architektura systemu automatycznego streszczania Streszczenia, operacje Ró ny stopie kompresji (najprostsza miara – zmiana długo ci, trudniejsza – zawarto ci informacji) Ŝ ń ś Dokumenty analiza transformacja synteza streszczenie Odbiorca: ogólny vs. dostosowanie do konkretnego typu odbiorcy Funkcja: informacyjna, ewaluacyjna Płynno : fragmenty, spójny tekst Dane wej ciowe: ś Operatory wykorzystywane przy streszczaniu: - selekcja informacji - agregacja - generalizacja ś ć ś - jeden lub wiele dokumentów - tekst lub inne źródła (obrazy, dźwięk, film) Dane wyj ciowe: ś - wyciąg z tekstu vs. abstrakt - zastępowanie tekstu wejściowego lub ‘dodatek’ lub zaznaczenie w tekście wejściowym fragmentów Problemy Ró ne podej cia do problemu streszczania: Ŝ ś - surface (powierzchniowe) - entity - discource level ... obecnie prawie wył cznie “extracts” nie abstrakty głownie na poziomie syntaktycznym Postulaty – metodologia: uwzgl dnianie elementów kontekstu Strategia: shallow processing Stan obecny ą Wybó Wybór informacji z tekstó tekstów ę (Information Extraction) Advances in Automatic Text Summarization, ed. Inderjeet Mani and Mark T. Maybury, MIT Press, Cambridge Massachusetts, London England, 1999 Text extraction (what you see is what you get; open approach) Fact extraction: (what you know is what you get; closed approach) Wybó Wybór informacji z tekstó tekstów, IE, rodowisko Information Extraction (IE) – przeszukiwanie wiadomości (prasa/depesze agencyjne) Zadanie wyselekcjonowania informacji polega na: – dotyczących wydarzeń ekonomicznych – identyfikacji określonego typu informacji w tekście (swobodnym przeszukiwanie internetu dla znalezienia cen interesujących bądź częściowo ustrukturalizowanym) – produktów – przekształcenie danych w formacie swobodnym na zapis zgodny ze strukturą określonej bazy danych Wej cie: ś – dowolny ciągły tekst w języku naturalnym – wzorce do wypełnienia Wyj cie: przeszukiwanie informacji radiowych ....... Ŝ Ró ne typy tekstów: – artykuły z gazet – strony internetowe – artykuły naukowe – informacje medyczne – ... ś – Zbiór wypełnionych wzorców (schematów) z fragmentami tekstu w postacji znormalizowanej 6 MUC Conferences IE, tradycja Finansowane przez rz d USA konferencje maj ce na celu skoordynowanie prac nad IR i IE b d ce współzawodnictwem grup zajmuj cych si tymi tematami (1987-) Zadania IE: – wselekcjonowanie nazw (named-entity task ) – wiązanie anafor (coreference resolution ) – wypełnianie wzorców (template element task ) – odnajdywanie argumentów relacji binarnych (template relation task, binary relations) – wypełnianie scenariuszy (scenario template task ) ą ą ę ą ą Konferencje MUC ę informacje o aktach terrorystycznych (3,4) – przedsięwzięcia międzynarodowe (joint ventures) (5) – zmiany na stanowiskach kierowniczych (6) – statki kosmiczne i rakiety (MUC-7, 1998) j zyki: angielski, chi ski, hiszpa ski, japo ski ę ń ń ń Gramatyki języka angielskiego opisujące duży podzbiór języka są TEMPLATE ELEMENT Identyfikacja partnerów, produktów , zysków .. spółek JOINT-VENTURES – Problemy z peł pełnymi gramatykami Information Extraction – MUC Conferences trudne do wykorzystania w praktycznych zastosowaniach: ORGANIZATION NAME: SAP AG LOCATION: Munich duży stopień niejednoznaczności powoduje, że są praktycznie bezużyteczne (kilkadziesiąt rozbiorów jednego zdania) CATEGORY: company TEMPLATE ELEMENT JOINT_VENTURE NAME: Siemens GEC Communication Systems Ltd ORGANIZATION PARTNER− 1 : PARTNER− 2 : NAME: The General ElectricCompamy PRODUCT/SERVICE: CATEGORY: company albo dostajemy 50 rozbiorów, albo ... żadnego parsowanie w czasie n3 w praktycznych zastosowaniach okazuje się zbyt wolne LOCATION: London ograniczanie gramatyk nie jest możliwe przy parsowaniu zdań CAPITALIZATION: unknown z nieograniczonego (syntaktycznie i semantycznie) podzbioru TIME: February18 1997 PRODUCT _ OF PRODUCT : SCENARIO TEMPLATE tekstów PRODUCT TYPE: private communication ORGANIZATION : systems Pozostaje więc: pozostając przy analizie sterowanej składnią uprościć ją tak, by dawała się wykonać za pomocą TEMPLATE RELATION TEMPLATE ELEMENT efektywniejszych metod (np. automatów skończonych). Propozycja rozwi zaniazania- analiza powierzchniowa Zało enia analizy powierzchniowej (cz Shallow Text Processing, STP Ŝ ę ś analiza tekstu jest mniej kompletna (dokładna) ni w przypadku tradycyjnych parserów, • identyfikacja struktur nierekurencyjnych (b d o ustalonej maksymalnej (niewielkiej) liczbie zagnie d e ), które jeste my w stanie rozpozna z du ym poziomem pewno ci ą ź ń Ŝ ć podział zda na słowa z przypisanymi warto ciami cech gramatycznych rozpoznawanie skrótów, fraz rzeczownikowych, nazw bez wnikania w ich struktur wewn trzn i ich funkcje w zdaniu, parsowanie - budowanie struktury zdania (np. drzewa rozbioru) ze słów i wcze niej rozpoznanych elementów ś ę ę ą ś “kłopotliwe” zjawiska j zykowe nie s analizowane ę ń ą Ŝ Ŝ segmentacja tekstu na ci gi zda ń Ŝ ś Uproszczona analiza tekstó tekstów (Shallow parsing) ciowej, uproszczonej) • • • 1-2 automatyczna analiza informacji marynarki wojennej 3-7 ekstrakcja informacji z gazet elektronicznych ą ś ń zamiast znajdowania wszystkich rozwi za - struktury niedospecyfikowane ą • inne zadania: ujednoznacznianie cz ci mowy, anotowanie znacze słów, wi zanie anafor, interpretacja semantyczna ę ś ń ą 7 Automaty sko czone Typy wzorcó wzorców do wypeł wypełniania Uproszczenie zadania umo liwia wykorzystanie kaskady automatów sko czonych. Ŝ ń Sloty we wzorcach zwykle wypełniane s fragmentami wyci tymi z dokumentu Czasami definiuje si sko czony zbiór mo liwych wypełnie slotu, które wybiera si na podstawie pewnych cech, elementów dokumentu, np. ą ę ń ń ę Ŝ ę Tekst przekształcany jest przez ci g transduserów (automatów wypisuj cych wyra enia w innym alfabecie ni alfabet wyra e wej ciowych). Na ka dym etapie rozpatrywany jest jaki (niewielki) aspekt analizy syntaktycznej lub semantycznej. Wyniki analizy zapisywane s w postaci dostosowanej do nast pnego kroku przetwarzania. ą – typ aktu terrorystycznego: pogróżka, próba ataku, atak dokonany – typ posady: urzędnik, pracownik usług etc. – typ przedsiębiorstwa : kod klasyfikacji ń ą Ŝ Ŝ ś Ŝ Ŝ ś ą ę ń Rezultatem ko cowym jest zwykle wypełnienie pól odpowiedniego wzorca poprzez elementy tekstu wej ciowego lub wyra enia pochodz ce z pewnego ustalonego zbioru. ś ń Niektóre pola mog mie wiele wypełnie , np. ą Ŝ sprzedawanych samochodach Proste wzorce selekcji Proste wypeł wypełnianie wzorcó wzorców Ŝ Wypełnianie pozycji wzorca kolejno rozpoznanymi elementami, zakłada pojawianie si odpowiednich elementów w stałej kolejno ci ę ą ś – ą ę ć – wiele pozycji w jednym ogłoszeniu w wynajmowanych mieszkaniach, Ŝ wyra enie regularne opisuj ce sam wyszukiwany element – Price pattern: “\b\$\d+(\.\d{2})?\b” kontekst poprzedzaj cy (pre-filler) – Amazon list price: Pre-filler pattern: “<b>List Price:</b> <span class=listprice>” Filler pattern: “\$\d+(\.\d{2})?\b” kontekst nast puj cy potem (post-filler). – Amazon list price: Pre-filler pattern: “<b>List Price:</b> <span class=listprice>” Filler pattern: “.+” Post-filler pattern: “</span>” ... W niektórych zastosowaniach z jednego dokumentu mo na wypełni wiele wzorców, np. ą ć – język programowania, znany język obcy – – – ą Title Author List price … Wzorce na tyle uniwersalne, e przeszukiwanie mo e odbywa si w całym dokumencie. Ale IE mo e wykorzystywa tak e dokładniejsz analiz ... Ŝ Ŝ ć Ŝ Ŝ ą ć ę ę <b>List Price:</b> <span class=listprice>$14.95</span><br> Kaskady automató automatów FASTUS Example ń Stopniowa realizacja “prostych” zada : Krok Opis 1 Tokens Przekształcenie ci gu wej ciowego w sekwencje jednostek podstawowych (tokenów) 2 Complex Words Rozpoznanie stałych poł cze wielosłowowych, rozpoznanie nazw własnych 3 Basic phrases Podział zda na grupy rzeczownikowe, czasownikowe i rodzajniki 4 Complex phrases Rozpoznanie zło onych fraz rzeczownikowych i czasownikowych 5 Semantic Patterns Rozpoznanie jednostek semantycznych i wstawienie do odpowiednich pól wzorca 6 Merging Poł czenie (uto samienie) odwoła do tego samego obiektu b d zdarzenia w ró nych miejscach tekstu. ą Bridgestone Sports Co. said Friday it has set up a joint venture in Taiwan with a local concern and a Japanese trading house to produce golf clubs to be shipped to Japan. The joint venture, Bridgestone Sports Taiwan Co., capitalized at 20 million new Taiwan dollars, will start production in January 1990 with production of 20,000 iron and metal wood clubs a month. ś ą ń ń Ŝ ą Ŝ ń ź ą Ŝ 8 Analiza przykł przykładu Tokenizacja rozpoznanie połacze typu set up, join venture, nazw (Bridgestone Sports Co. Analiza przykł przykładu, cd. cd. – ń – Automat rozpoznający nazwy koduje pewne schematy tworzenia nazw, np. dla zespołów (San Francisco Symphony Orchestra, Canadian Opera Company): reguły CFG bez rekurencji Rozpoznanie liczb pisanych słownie (np. forty two) rozpoznawanie fraz, parsowanie cz przykład NG (noun group) ę (powierzchowne, shallow parsing) – ś ciowe zaimek, określenie czasu (np. yesterday), data NG -> Pronoun | Time-NP | Date-NP – Performer-Org -> (pre-location) Performer-Noun+Perf-Org-Suffix pre-location -> locname | nationality locname -> city | region Perf-Org-Suffix -> orchestra | company Performer-Noun => symphony | opera nationality -> Canadian | American | Mexican ... City -> San Francisco | London – ‘head noun’ poprzedzone opcjonalnie przedimkiem), frazy z formą - ing, oraz ‘kompletne frazy przedimkowe’, np. only five, this NG -> (DETP) (Adjs) HdNns | DETP Ving HdNns | DETP-CP (and HdNns) ( powierzchowność analizy widać po tym, że nie sprawdzamy żadnych uzgodnień, nie wiążemy analiz poszczególnych fragmentów) Analiza przykł przykładu, cd. cd. Analiza przykł przykładu, cd. cd. Ł czenie prostych fraz we frazy zło one, np. Ŝ ą rozpoznawanie fraz, wynik: Company Verb Group Noun Group Noun Group Verb Group Noun Group Preposition Location Preposition Noun Group Conjunction Brigdestone Sports Co. said Bridgestone Sports Co. said Friday it Friday has set up a joint venture in Taiwan it with a local concern and a Japanese trading house to produce golf clubs to has set up be shipped to Japan. a jont venture in Taiwan with a local concern and .. Bridgestone Sports Co. said Friday it has set up a joint joint venture in Taiwan with a local concern and a Japanese trading house house to produce golf clubs to be shipped to Japan. (1) Relationship: TIE-UP Entities: Bridgestone Sports Co. a local concern a Japanese trading house (2) Activity PRODUCTION golf clubs (3) Relationship TIE-UP Joint Venture Company Bridgestone Sports Taiwan Co. Amount NT$20000000 – koordynacja NG -> NG’ and NG’ (‘ oznacza poprzedni poziom analizy) cars and bikes – dodanie fraz przyimkowych NG -> NG PP production of steel The joint venture, Bridgestone Sports Taiwan Co., capitalized capitalized at 20 million new Taiwan dollars, will start production in January January 1990 with production of 20,000 iron and metal wood clubs a month. month. (3) Relationship TIE-UP Joint Venture Company Bridgestone Sports Taiwan Co. Amount NT$20000000 (4) Activity Company Start Date PRODUCTION Bridgestone Sports Taiwan Co DURING: January 1990 (5) Activity Product PRODUCTION iron and „metal wood” clubs 9 FASTUS, wynik ko cowy Zadanie IE a NLP TIE-UP-1: Entities: Relationship: TIE-UP Bridgestone Sports Co. a local concern a Japanese trading house Joint Venture Company „Bridgestone Sports Taiwan Co.” Activity ACTIVITY-1 Amount NT$20000000 ACTIVITY-1: Company Product Start Date Bridgestone Sports Taiwan Co." „iron and „metal wood” clubs” DURING: January 1990 Przy selekcji informacji ze stron ustrukturalizowanych cz sto wystarczaj co skuteczne s wyra enia regularne Metody NLP pomagaj przy selekcji informacji ze stron bez struktury, z naturalnego, ci głego tekstu ę ą ą ą ą – Part-of-speech (POS) tagging Mark each word as a noun, verb, preposition, etc. – Syntactic parsing Identify phrases: NP, VP, PP – Semantic word categories (e.g. from WordNet) KILL: kill, murder, assassinate, strangle, suffocate Wyra enia regularne mog zawiera tagi POS lub oznaczenia typu frazy – Crime victim: Prefiller: [POS: V, Hypernym: KILL] Filler: [Phrase: NP] Ŝ ą Ocena dokł dokładno ci IE Pełno Recall R = ś ć Dwa podej cia do IE Miary (podobne jak w przypadku wyszukiwania informacji) Ŝ Budowa modeli reprezentuj cych wybran dziedzin ą ą ę ć – Konstruowanie gramatyk liczba poprawnych odpowiedzi liczba wszystkich wła ciwych odpowiedzi w tek cie ś – Formułowanie wzorców dziedzinowych na podstawie wiedzy ś Precyzja Precision P = liczba poprawnych odpowiedzi (elementów) liczba wszystkich odpowiedzi systemu Umiej tno ignorowania szumu Fallout Fl = liczba podanych niewła ciwych odpowiedzi liczba nierelewantnych faktów w tek cie „ekspertów” ę ś – Pracochłonne „dostrajanie” Systemy „ucz ce si ” ą ę – wykorzystywanie metod statystycznych ć – reguły uczenia si na podstawie przykładów ę ś – reguły uczenia si w interakcji z u ytkownikiem ę ś Ŝ Ogólna miara (F-measure) F = (β 2 +1) PR/ (β 2 P + R) β - przyj ty stosunek wa no ci P / R (β >1 wa niejsza precyzja) Stan obecny: bariera F=.60 Ŝ ę Ŝ ś Poró Porównanie podej do IE Budowa modeli reprezentuj cych wybran dziedzin Zalety: ą – – ą ę Poró Porównanie podej Systemy „ucz ce si ” Zalety: ą ć – Ŝ Ŝ ą Wady: – – – pracochłonność procesu tworzenia, nie wszystkie zmiany są łatwe do wprowadzenia, potrzebna wiedza może nie by dostępna. ę – ę ą ę mo liwe stosunkowo łatwe przeniesienie na inn dziedzin , niepotrzebna dokładna wiedza dziedzinowa, – rozwi zania sterowane danymi pozwalaj na 100% pokrycie przestrzeni przykładów. dobra jako (zale na od wiedzy twórców) Wszystkie najlepsze systemy to systemy r cznie dostrajane ś do IE ą Wady: – – dane treningowe mogą nie istnieć lub być zbyt kosztowne, zmiana specyfikacji może wymaga zmiany anotacji danych treningowych. 10 Kryteria wyboru Systemy oparte na regułach: – – – – Przykł Przykład „uczenia si ” dla NER NER - Named Entity Recognition – rozpoznawanie nazw własnych, to jedno z podstawowych zada IE Podstawowe typy nazw własnych: osoby, organizacje, lokalizacje, daty, … Zadanie NER: ń jeśli dysponujemy odpowiednimi zasobami językowymi, dane treningowe trudne do uzyskania, specyfikacja kryteriów może się zmieniać, krytyczna jest bardzo wysoka skuteczność. – – Systemy „ucz ce si ” ą – – – – – ę nie dysponujemy odpowiednimi zasobami językowymi, nie mamy ekspertów, którzy mogliby opisać reguły, dane treningowe są łatwo dostępne, specyfikacja kryteriów jest stała, dobra skuteczność jest wystarczająca. – rozpoznanie nazwy przypisanie typu ustalenie formy bazowej (kanonicznej) NER, problemy NER, przykł przykład zaanotowanego tekstu <ENAMEX TYPE=„LOCATION“>Italy</ENAMEX>‘s business world was rocked by the announcement <TIMEX TYPE=„DATE“>last Thursday</TIMEX> that Mr. <ENAMEX TYPE=„PERSON“>Verdi</ENAMEX> would leave his job as vicepresident of <ENAMEX TYPE=„ORGANIZATION“>Music Masters of Milan, Inc</ENAMEX> to become operations director of <ENAMEX TYPE=„ORGANIZATION“>Arthur Andersen</ENAMEX>. Potencjalny zbiór nazw jest zbyt du y by stworzy odpowiednie słowniki Ŝ – – – ć można mieć listę imion w jednym języku, ale w tekstach pojawiają się imiona i nazwiska obcojęzyczne, lista lokalizacji potencjalnie bardzo wielka nowe nazwy organizacji Pomóc mog reguły kontekstowe np.. Pan X, firma A B. ą •„Milan“ is part of organization name •„Arthur Andersen“ is a company •„Italy“ is a localization (it is sentence- initial, capitalization is useless) Podział Podział metod „uczenia si ” Uczenie si z nadzorem (czyli z dost pem do zaanotowanych danych treningowych) ę – ę HMM, Support Vector Model, hybrid ML-methods Uczenie si ze słabym nadzorem z dost pem do bardzo nielicznych zaanotowanych przykładów i du ego niezaanotowanego zbioru ę ę Ŝ WeeklyWeekly-suprervised NE recognition Idea: Zdefinuj klika przykładów i potraktuj jak dane treningowe Zainicjalizuj system u ywaj c wyników dla danych treningowych Znajd kontekst wyst powania danych treningowych znajd elementy wyst puj ce w takim samym konmtek cie jak dane treningowe U yj tych zidentyfikowanych elementów jako nowych danych treningowych i popraw model Powtarzaj cykl, a nie b d pojawia si nowe elementy. Ŝ ź ą ę ź ę ą ś Ŝ Uczenie si bez nadzoru ę Ŝ ę ą ę 11