1 Wyszukiwanie informacji (dokumentów tekstowych) Information

Transkrypt

Information Retrieval (IR)
Indeksowanie, wyszukiwanie dokumentów tekstowych
Wyszukiwanie dokumentów w sieci WWW to obecnie jedna z
najcz stszych operacji
Problemy:
ę
ś
– wyszukanie wła ciwych dokumentów
Wyszukiwanie informacji
(dokumentó
(dokumentów tekstowych)
– efektywne wyszukiwanie w bardzo du ych zbiorach
Ŝ
(IR, Information Retrieval)
Zadanie:
Maj c: - korpus tekstów
– pytanie u ytkownika
Wyznaczy :
ą
Ŝ
Natural Language Information Retrieval,
T. Strzałkowski (ed.), Kluwer Academic Press. 1999
ć
– uporz dkowany zbiór dokumentów stanowi cy odpowied
ą
Słowa kluczowe
NLP to syntaktyczna, semantyczna i pragmatyczna analiza
tekstu w j zyku naturalnym,
znajomo struktury syntaktycznej i interpretacji
semantycznej powinna pozwoli na wyszukiwanie sterowane
semantyk , a nie tylko słowami kluczowymi,
proste okre lenie poprawno ci odpowiedzi - tekst pytania
(słowa kluczowe) wyst puje w dokumencie
inne kryterium - słowa kluczowe wyst puj w dokumencie
cz sto, w dowolnej kolejno ci (bag of words) ew.
wymagamy, eby były blisko siebie
Problemy z wyszukiwaniem wg słów kluczowych:
synonimy:
ś
ą
ę
ś
Ŝ
Mo liwo ci powi za :
– metody ustalania znaczenia słów w oparciu o kontekst
(word sense disambiguation),
– metody identyfikacji informacji w tek cie (information
extraction),
– udzielanie odpowiedzi na podstawie analizy korpusu
tekstów.
ś
ą
ń
ś
Trafno
Trafno (odpowiednio
dotyczy m.in.:
ś
ć
ś
ć
–
“restaurant” vs. “café”
–
“PRC” vs. “China”
terminy wieloznaczne:
–
“bat” (baseball vs. mammal)
–
“Apple” (company vs. fruit)
- na prawo
–
“bit” (unit of data vs. act of eating)
- rząd (polski, drzew)
(relevance)
relevance)
- kostka (cukru, nogi)
IR, Vector Space Model
) jest miar subiektywn . Mo e
ą
ś
ę
ć
ą
Ŝ
ś
ę
ć
ź
NLP: powi zania z IR
ę
ą
ą
Ŝ
Dokumenty i pytania przedstawiane s w postaci wektorów cech
reprezentuj cych wyst puj ce obiekty (dokładniej warto cechy
okre la, czy dany obiekt wyst puje czy nie w danym dokumencie)
ą
ą
ć
ę
ą
ś
ś
–
właściwego tematu,
–
aktualności danych,
–
wiarygodności danych (pochodzenia z wiarygodnego źródła),
–
zaspokojenia potrzeb użytkownika (information
ć
ę
dokument j -- dj = (t1,j , t2,j, ..., tN,j)
need).
pytanie k
Ŝ
ą
Inteligentne metody IR musz bra pod uwag :
znaczenie u ytych w pytaniu słów,
porz dek słów w pytaniu,
reakcje u ytkownika (bezpo redni b d po redni feedback),
wiarygodno
ródła informacji.
-- qk = (t1,k , t2,k, ..., tN,k)
w wektorach powy ej zamiast 0 lub 1 umieszczamy liczby
oddaj ce cz sto ci wyst powania obiektów
ę
ś
ę
ę
ą
ć
Ŝ
ą
Ŝ
ś
ś
ć
ą
ź
ś
dokumenty i pytania s wektorami w przestrzeni N-wymiarowej
dla ułatwienia porówna normalizujemy wektory, dzielimy ka d
współrz dn przez długo wektora, tj.
ą
ń
ę
ą
Ŝ
ś
Σ
ą
ć
wi2
ź
i=1,,N
1
IR, Vector Space Model, cd.
cd.
cd.
Odległo
Warto ci istotne dla modelu:
ś
mi dzy znormalizowanymi wektorami:
ę
ś
ć
Σ wi,k x wj,k (dot product)
sim(qk, dj) = qk . dj =
–
częstość występowania słowa w tekście
–
dystrybucja słowa w zbiorze tekstów
słowa wyst puj ce rzadko (tylko w niewielu tekstach) dobrze
nadaj si do wyboru tego wła nie podzbioru
słowa cz sto wyst puj ce s niedobre do selekcji czegokolwiek
i-1..N
wyznacza cosinus k ta mi dzy wektorami, takie same wektory
k t 0 cosinus 1, wektory prostopadłe, „bardzo odległe”,
cosinus 0.
ę
ą
ę
ą
ą
ę
ę
ś
ę
ą
ą
ą
cd.
Miara „przydatno ci” obiektów (termów):
ś
–
N/ni
Wybó
Wybór termó
termów
Stop lista
N - liczba dokumentów w kolekcji
–
słowa występujące często, spójniki ...
ni - liczba dokumentów, w których występuje ni
–
ale (to be or not to be) -> not
(1 - term występuje we wszystkich dokumentach)
–
idf
–
w
i
= log(N/n )
i
(Brown corpus, za Frakes, Baeza-Yates))
(inverse document frequency)
i,j
=
tf
i,j
x idf
i
(tf częstość termu i w dokumencie j)
i,j
ustalenie tematów słów (stemming) - nieodzowny dla j zyka
fleksyjnego, ale bardzo trudny przy wielu wymianach
tematowych
( ma - temat pusty)
ę
ć
Poprawianie pyta
Ocena wynikó
wyników IR
Stopniowe tworzenie odpowiedzi (relevance feedback)
–
mały zbiór odpowiedzi początkowych,
–
reakcja użytkownika określającego, które z tej grupy są
dok. relewantne (RR+NRR)
dok. podane (RR+RNR)
NRR
RR
RNR
Precyzja
najlepsze
–
iteracja (często tylko jeden krok interakcji wystarcza)
liczba podanych wła ciwych dokumentów = RR
liczba wszystkich podanych dokumentów
RR+RNR
ś
precision =
rozszerzenie pytania (query expansion)
–
dodanie termów pokrewnych tym z pytania (w oparciu o
tezaurusy)
Pełno
recall =
ś
ć
liczba podanych wła ciwych dokumentów = RR
liczba wszystkich wła ciwych dokumentów RR+NRR
ś
ś
2
Automatyczna klasyfikacja
dokume
dokumentó
ntów
Automatyczne tworzenie hierarchii
dokumentó
dokumentów
ś
Wyszukiwanie dokumentów to wła ciwie ich klasyfikacja na
dwie grupy (relewantne do pytania i nie), mo na te dzieli
zbiór na wi cej klas.
R czna klasyfikacja jest pracochłonna, subiektywna i
obarczona bł dami
potrzebne s metody automatycznej kategoryzacji
dokumentów
najlepsze metody oparte s metodach machine learning
(pattern recognition) przy wykorzystaniu poetykietowanego
zbioru treningowego (supervised learning).
Ŝ
Ŝ
ć
ę
ę
ą
ą
ę
ę
ę
Do klasyfikacji dokumentów potrzebne s hierarchie typów
r czne towrzenie hierarchii jest ... pracochłonne, subiektywne
i obarczone bł dami
potrzebne sa metody automatycznego tworzenia hierachii na
podstawie zbioru dokumentów
metoda: hierarchical text clustering (unsupervised learning)
(Hierarchical Agglomerative Clustering, HAC)
ą
Aglommerative vs. Divisive
Clustering
Clustering
Partition unlabeled examples into disjoint subsets of
clusters, such that:
–
Examples within a cluster are very similar
–
Examples in different clusters are very different
Discover new categories in an unsupervised manner
(no sample category labels provided).
Aglommerative (bottom-up) methods start with each example
in its own cluster and iteratively combine them to form larger
and larger clusters.
Divisive (partitional, top-down) separate all examples
immediately into clusters.
Hierarchical Agglomerative
Clustering (HAC)
Direct Clustering Method
Direct clustering methods require a specification of the
number of clusters, k, desired.
A clustering evaluation function assigns a real-value quality
measure to a clustering.
The number of clusters can be determined automatically by
explicitly generating clusterings for multiple values of k and
choosing the best result according to a clustering evaluation
function.
Assumes a similarity function for determining the
similarity of two instances.
Starts with all instances in a separate cluster and then
repeatedly joins the two clusters that are most similar
until there is only one cluster.
The history of merging forms a binary tree or hierarchy.
3
HAC Algorithm
Cluster Similarity
Start with all instances in their own cluster.
Until there is only one cluster:
Among the current clusters, determine the two
clusters, ci and cj, that are most similar.
Replace ci and cj with a single cluster ci ∪ cj
Single Link Example
Assume a similarity function that determines the similarity of two
instances: sim(x,y).
– Cosine similarity of document vectors.
How to compute similarity of two clusters each possibly
containing multiple instances?
– Single Link: Similarity of two most similar members.
– Complete Link: Similarity of two least similar members.
– Group Average: Average similarity between members.
Complete Link Example
sim(ci ,c j ) = max sim( x, y )
sim(ci ,c j ) = min sim( x, y )
x∈ci , y∈c j
x∈ci , y∈c j
Wyszukiwanie, przykł
przykłady podej
systemy wyszukuj ce dokumenty zawieraj ce postawione
pytanie:
ą
–
Google
–
AllTheWeb
–
Altavista …
ą
Grupowanie wynikó
wyników wyszukiwania
Definicja problemu: efektywne utworzeniu sensownych grup
tematycznie powi zanych dokumentów, oraz zwi zły opis w
sposób zrozumiały dla człowieka
ą
ę
Problem nie jest trywialny…
systemy odpowiadaj ce na pytania:
ą
–
nie jest znana liczba oczekiwanych grup
–
System START
–
miara podobieństwa dokumentów jest trudna do zdefiniowania
–
System AnswerBus
–
grupy mogą się nakładać
–
znalezienie opisu dla grup nie jest proste
–
wymagana szybkość wykonywania (on-line)
–
dokumenty mogą być wielojęzyczne
–
opisy są zazwyczaj krótkie (snippets) i niepełne
systemy organizuj ce wyniki:
ą
–
Vivisimo
–
Carrot2
(Instytut Informatyki Politechnika Poznańska,
D.Weiss)
4
Modelowanie podobie stwa
Przykład macierzy podobie stwa A
ś
modelowanie odległo ci w przetrzeniach n-wymiarowych
(Vector Space Model)
model grafowy
współwyst powanie słów i fraz
ę
ś
Poj cie blisko ci w macierzy A:
jeste my zainteresowani k tem jaki tworz mi dzy sob
wektory dokumentów
identyczny k t -> dokumenty zło one s z identycznych słów
-> dokumenty s podobne
ę
ś
ą
ą
ą
Ŝ
ę
ą
ą
ą
„apache” w systemie Carrot2
Algorytmy grupowania a macierz A
wykorzystanie informacji o blisko ci dokumentów w A
zastosowanie maj wszelkie metody analizy skupie w
danych numerycznych
ś
ą
ń
problemy
grupy zazwyczaj sferyczne
ka de słowo jest traktowane oddzielnie
problemy ze znalezieniem opisu grup
problem z naturalnym kryterium stopu dla wi kszo ci
algorytmów
Ŝ
ę
ś
Automatyczne streszczanie
Automatyczne streszczanie
Coraz wi cej informacji dost pnej (on-line), brak czasu na zapoznanie si
ze wszystkim, ale trzeba podejmowa (cz sto strategiczne) decyzje
ę
Coraz wi cej informacji dost pnej (on-line), brak czasu na zapoznanie si
ze wszystkim, ale trzeba podejmowa (cz sto strategiczne) decyzje
ę
ę
ę
ć
ę
ę
ć
ę
ę
Rodzaj zastosowa :
ń
Zainteresowanie komercyjne:
-
-
BT ProSum (telekomunikacja)
Oracle Context (data mining of text databases)
Inxight summarizer wykorzystywany w AltaVista Discovery (webbased information retrieval)
Microsoft AutoSummarize (word processing tools)
Tradycyjne: (wspomaganie wyszukiwania informacji)
-
automatyczne indeksowanie
automatyczne streszczanie (tekstów technicznych i
naukowych)
Nowe problemy:
-
-
streszczanie dokumentów w wielu j zykach
multimedia news broadcasts
streszczenia literatury medycznej na temat konkretnej
choroby
‘audio scanning’- serwis dla niewidomych
ę
5
Architektura systemu
automatycznego streszczania
Streszczenia, operacje
Ró ny stopie kompresji (najprostsza miara – zmiana
długo ci, trudniejsza – zawarto ci informacji)
Ŝ
ń
ś
Dokumenty analiza transformacja synteza streszczenie
Odbiorca: ogólny vs. dostosowanie do konkretnego typu odbiorcy
Funkcja: informacyjna, ewaluacyjna
Płynno : fragmenty, spójny tekst
Dane wej ciowe:
ś
Operatory wykorzystywane przy streszczaniu:
- selekcja informacji
- agregacja
- generalizacja
ś
ć
ś
-
jeden lub wiele dokumentów
-
tekst lub inne źródła (obrazy, dźwięk, film)
Dane wyj ciowe:
ś
-
wyciąg z tekstu vs. abstrakt
-
zastępowanie tekstu wejściowego lub ‘dodatek’ lub zaznaczenie w
tekście wejściowym fragmentów
Problemy
Ró ne podej cia do problemu streszczania:
Ŝ
ś
-
surface (powierzchniowe)
-
entity
-
discource level
... obecnie prawie wył cznie “extracts” nie abstrakty
głownie na poziomie syntaktycznym
Postulaty – metodologia: uwzgl dnianie elementów
kontekstu
Strategia: shallow processing
Stan obecny
ą
Wybó
Wybór informacji z tekstó
tekstów
ę
(Information Extraction)
Advances in Automatic Text Summarization,
ed. Inderjeet Mani and Mark T. Maybury,
MIT Press, Cambridge Massachusetts, London England, 1999
Text extraction (what you see is what you get; open approach)
Fact extraction: (what you know is what you get; closed
approach)
Wybó
Wybór informacji z tekstó
tekstów,
IE, rodowisko
Information Extraction (IE)
–
przeszukiwanie wiadomości (prasa/depesze agencyjne)
Zadanie wyselekcjonowania informacji polega na:
–
dotyczących wydarzeń ekonomicznych
–
identyfikacji określonego typu informacji w tekście (swobodnym
przeszukiwanie internetu dla znalezienia cen interesujących
bądź częściowo ustrukturalizowanym)
–
produktów
–
przekształcenie danych w formacie swobodnym na zapis zgodny ze
strukturą określonej bazy danych
Wej cie:
ś
–
dowolny ciągły tekst w języku naturalnym
–
wzorce do wypełnienia
Wyj cie:
przeszukiwanie informacji radiowych .......
Ŝ
Ró ne typy tekstów:
– artykuły z gazet
– strony internetowe
– artykuły naukowe
– informacje medyczne
– ...
ś
–
Zbiór wypełnionych wzorców (schematów) z fragmentami tekstu w
postacji znormalizowanej
6
MUC Conferences IE, tradycja
Finansowane przez rz d USA konferencje maj ce na celu
skoordynowanie prac nad IR i IE b d ce
współzawodnictwem grup zajmuj cych si tymi tematami
(1987-)
Zadania IE:
– wselekcjonowanie nazw (named-entity task )
– wiązanie anafor (coreference resolution )
– wypełnianie wzorców (template element task )
– odnajdywanie argumentów relacji binarnych (template relation
task, binary relations)
– wypełnianie scenariuszy (scenario template task )
ą
ą
ę
ą
ą
Konferencje MUC
ę
informacje o aktach terrorystycznych (3,4)
–
przedsięwzięcia międzynarodowe (joint ventures) (5)
–
zmiany na stanowiskach kierowniczych (6)
–
statki kosmiczne i rakiety (MUC-7, 1998)
j zyki: angielski, chi ski, hiszpa ski, japo ski
ę
ń
ń
ń
Gramatyki języka angielskiego opisujące duży podzbiór języka są
TEMPLATE ELEMENT
Identyfikacja partnerów, produktów ,
zysków ..
spółek JOINT-VENTURES
–
Problemy z peł
pełnymi gramatykami
Information Extraction – MUC Conferences
trudne do wykorzystania w praktycznych zastosowaniach:
ORGANIZATION
NAME: SAP AG
LOCATION: Munich
duży stopień niejednoznaczności powoduje, że są praktycznie
bezużyteczne (kilkadziesiąt rozbiorów jednego zdania)
CATEGORY: company
TEMPLATE ELEMENT
JOINT_VENTURE
NAME: Siemens GEC Communication Systems Ltd
ORGANIZATION
PARTNER− 1 :
PARTNER− 2 :
NAME: The General ElectricCompamy
PRODUCT/SERVICE:
CATEGORY: company
albo dostajemy 50 rozbiorów, albo ... żadnego
parsowanie w czasie n3 w praktycznych zastosowaniach
okazuje się zbyt wolne
LOCATION: London
ograniczanie gramatyk nie jest możliwe przy parsowaniu zdań
CAPITALIZATION: unknown
z nieograniczonego (syntaktycznie i semantycznie) podzbioru
TIME: February18 1997
PRODUCT _ OF
PRODUCT :
SCENARIO TEMPLATE
tekstów
PRODUCT
TYPE: private communication
ORGANIZATION :
systems
Pozostaje więc: pozostając przy analizie sterowanej składnią
uprościć ją tak, by dawała się wykonać za pomocą
TEMPLATE RELATION
TEMPLATE ELEMENT
efektywniejszych metod (np. automatów skończonych).
Propozycja rozwi zaniazania- analiza
powierzchniowa
Zało enia analizy powierzchniowej (cz
Shallow Text Processing, STP
Ŝ
ę
ś
analiza tekstu jest mniej kompletna (dokładna) ni w
przypadku tradycyjnych parserów,
•
identyfikacja struktur nierekurencyjnych (b d o ustalonej
maksymalnej (niewielkiej) liczbie zagnie d e ), które
jeste my w stanie rozpozna z du ym poziomem pewno ci
ą
ź
ń
Ŝ
ć
podział zda na słowa z przypisanymi warto ciami cech
gramatycznych
rozpoznawanie skrótów, fraz rzeczownikowych, nazw bez
wnikania w ich struktur wewn trzn i ich funkcje w zdaniu,
parsowanie - budowanie struktury zdania (np. drzewa
rozbioru) ze słów i wcze niej rozpoznanych elementów
ś
ę
ę
ą
ś
“kłopotliwe” zjawiska j zykowe nie s analizowane
ę
ń
ą
Ŝ
Ŝ
segmentacja tekstu na ci gi zda
ń
Ŝ
ś
Uproszczona analiza tekstó
tekstów
(Shallow parsing)
ciowej, uproszczonej)
•
•
•
1-2 automatyczna analiza informacji marynarki wojennej
3-7 ekstrakcja informacji z gazet elektronicznych
ą
ś
ń
zamiast znajdowania wszystkich rozwi za - struktury
niedospecyfikowane
ą
•
inne zadania: ujednoznacznianie cz ci mowy, anotowanie znacze
słów, wi zanie anafor, interpretacja semantyczna
ę
ś
ń
ą
7
Automaty sko czone
Typy wzorcó
wzorców do wypeł
wypełniania
Uproszczenie zadania umo liwia wykorzystanie kaskady
automatów sko czonych.
Ŝ
ń
Sloty we wzorcach zwykle wypełniane s fragmentami wyci tymi z
dokumentu
Czasami definiuje si sko czony zbiór mo liwych wypełnie slotu,
które wybiera si na podstawie pewnych cech, elementów dokumentu,
np.
ą
ę
ń
ń
ę
Ŝ
ę
Tekst przekształcany jest przez ci g transduserów (automatów
wypisuj cych wyra enia w innym alfabecie ni alfabet wyra e
wej ciowych). Na ka dym etapie rozpatrywany jest jaki (niewielki)
aspekt analizy syntaktycznej lub semantycznej. Wyniki analizy
zapisywane s w postaci dostosowanej do nast pnego kroku
przetwarzania.
ą
– typ aktu terrorystycznego: pogróżka, próba ataku, atak dokonany
– typ posady: urzędnik, pracownik usług etc.
– typ przedsiębiorstwa : kod klasyfikacji
ń
ą
Ŝ
Ŝ
ś
Ŝ
Ŝ
ś
ą
ę
ń
Rezultatem ko cowym jest zwykle wypełnienie pól odpowiedniego
wzorca poprzez elementy tekstu wej ciowego lub wyra enia
pochodz ce z pewnego ustalonego zbioru.
ś
ń
Niektóre pola mog mie wiele wypełnie , np.
ą
Ŝ
sprzedawanych samochodach
Proste wzorce selekcji
Proste wypeł
wypełnianie wzorcó
wzorców
Ŝ
Wypełnianie pozycji wzorca kolejno rozpoznanymi elementami,
zakłada pojawianie si odpowiednich elementów w stałej
kolejno ci
ę
ą
ś
–
ą
ę
ć
– wiele pozycji w jednym ogłoszeniu w wynajmowanych mieszkaniach,
Ŝ
wyra enie regularne opisuj ce sam wyszukiwany element
– Price pattern: “\b\$\d+(\.\d{2})?\b”
kontekst poprzedzaj cy (pre-filler)
– Amazon list price:
Pre-filler pattern: “List Price: ”
Filler pattern: “\$\d+(\.\d{2})?\b”
kontekst nast puj cy potem (post-filler).
– Amazon list price:
Pre-filler pattern: “List Price: ”
Filler pattern: “.+”
Post-filler pattern: “”
...
W niektórych zastosowaniach z jednego dokumentu mo na wypełni
wiele wzorców, np.
ą
ć
– język programowania, znany język obcy
–
–
–
ą
Title
Author
List price
…
Wzorce na tyle uniwersalne, e przeszukiwanie mo e odbywa si
w całym dokumencie.
Ale IE mo e wykorzystywa tak e dokładniejsz analiz ...
Ŝ
Ŝ
ć
Ŝ
Ŝ
ą
ć
ę
ę
List Price: $14.95 
Kaskady automató
automatów
FASTUS Example
ń
Stopniowa realizacja “prostych” zada :
Krok
Opis
1 Tokens
Przekształcenie ci gu wej ciowego w sekwencje
jednostek podstawowych (tokenów)
2 Complex Words
Rozpoznanie stałych poł cze wielosłowowych,
rozpoznanie nazw własnych
3 Basic phrases
Podział zda na grupy rzeczownikowe, czasownikowe
i
rodzajniki
4 Complex phrases Rozpoznanie zło onych fraz rzeczownikowych i
czasownikowych
5 Semantic Patterns Rozpoznanie jednostek semantycznych i wstawienie do
odpowiednich pól wzorca
6 Merging
Poł czenie (uto samienie) odwoła do tego samego
obiektu b d zdarzenia w ró nych miejscach
tekstu.
ą
Bridgestone Sports Co. said Friday it has set up a joint
venture in Taiwan with a local concern and a Japanese
trading house to produce golf clubs to be shipped to
Japan.
The joint venture, Bridgestone Sports Taiwan Co.,
capitalized at 20 million new Taiwan dollars, will start
production in January 1990 with production of 20,000
iron and metal wood clubs a month.
ś
ą
ń
ń
Ŝ
ą
Ŝ
ń
ź
ą
Ŝ
8
Analiza przykł
przykładu
Tokenizacja
rozpoznanie połacze typu set up, join venture, nazw
(Bridgestone Sports Co.
Analiza przykł
przykładu, cd.
cd.
–
ń
–
Automat rozpoznający nazwy koduje pewne schematy
tworzenia nazw, np. dla zespołów (San Francisco
Symphony Orchestra, Canadian Opera Company):
reguły CFG bez rekurencji
Rozpoznanie liczb pisanych słownie (np. forty two)
rozpoznawanie fraz, parsowanie cz
przykład NG (noun group)
ę
(powierzchowne, shallow parsing)
–
ś
ciowe
zaimek, określenie czasu (np. yesterday), data
NG -> Pronoun | Time-NP | Date-NP
–
Performer-Org -> (pre-location) Performer-Noun+Perf-Org-Suffix
pre-location -> locname | nationality
locname -> city | region
Perf-Org-Suffix -> orchestra | company
Performer-Noun => symphony | opera
nationality -> Canadian | American | Mexican ...
City -> San Francisco | London
– ‘head noun’ poprzedzone opcjonalnie przedimkiem), frazy z formą -
ing,
oraz ‘kompletne frazy przedimkowe’, np. only five, this
NG -> (DETP) (Adjs) HdNns | DETP Ving HdNns | DETP-CP (and
HdNns)
( powierzchowność analizy widać po tym, że nie sprawdzamy żadnych
uzgodnień, nie wiążemy analiz poszczególnych fragmentów)
Analiza przykł
przykładu, cd.
cd.
Analiza przykł
przykładu, cd.
cd.
Ł czenie prostych fraz we frazy zło one, np.
Ŝ
ą
rozpoznawanie fraz, wynik:
Company
Verb Group
Noun Group
Noun Group
Verb Group
Noun Group
Preposition
Location
Preposition
Noun Group
Conjunction
Brigdestone Sports Co.
said
Bridgestone Sports Co. said Friday it
Friday
has set up a joint venture in Taiwan
it
with a local concern and a Japanese
trading house to produce golf clubs to
has set up
be shipped to Japan.
a jont venture
in
Taiwan
with
a local concern
and ..
Bridgestone Sports Co. said Friday it has set up a joint
joint venture in
Taiwan with a local concern and a Japanese trading house
house to
produce golf clubs to be shipped to Japan.
(1)
Relationship: TIE-UP
Entities:
Bridgestone Sports Co.
a local concern
a Japanese trading house
(2) Activity
PRODUCTION
golf clubs
(3) Relationship TIE-UP
Joint Venture Company Bridgestone Sports Taiwan Co.
Amount
NT$20000000
–
koordynacja NG -> NG’ and NG’
(‘ oznacza poprzedni poziom analizy)
cars and bikes
–
dodanie fraz przyimkowych NG -> NG PP
production of steel
The joint venture, Bridgestone Sports Taiwan Co., capitalized
capitalized at 20
million new Taiwan dollars, will start production in January
January 1990 with
production of 20,000 iron and metal wood clubs a month.
month.
(3) Relationship
TIE-UP
Joint Venture Company Bridgestone Sports Taiwan Co.
Amount
NT$20000000
(4) Activity
Company
Start Date
PRODUCTION
Bridgestone Sports Taiwan Co
DURING: January 1990
(5) Activity
Product
PRODUCTION
iron and „metal wood” clubs
9
FASTUS, wynik ko cowy
Zadanie IE a NLP
TIE-UP-1:
Entities:
Relationship: TIE-UP
Bridgestone Sports Co.
a local concern
a Japanese trading house
Joint Venture Company „Bridgestone Sports Taiwan Co.”
Activity
ACTIVITY-1
Amount
NT$20000000
ACTIVITY-1:
Company
Product
Start Date
Bridgestone Sports Taiwan Co."
„iron and „metal wood” clubs”
DURING: January 1990
Przy selekcji informacji ze stron ustrukturalizowanych cz sto
wystarczaj co skuteczne s wyra enia regularne
Metody NLP pomagaj przy selekcji informacji ze stron bez struktury, z
naturalnego, ci głego tekstu
ę
ą
ą
ą
ą
– Part-of-speech (POS) tagging
Mark each word as a noun, verb, preposition, etc.
– Syntactic parsing
Identify phrases: NP, VP, PP
– Semantic word categories (e.g. from WordNet)
KILL: kill, murder, assassinate, strangle, suffocate
Wyra enia regularne mog zawiera tagi POS lub oznaczenia typu frazy
– Crime victim:
Prefiller: [POS: V, Hypernym: KILL]
Filler: [Phrase: NP]
Ŝ
ą
Ocena dokł
dokładno ci IE
Pełno
Recall R =
ś
ć
Dwa podej cia do IE
Miary (podobne jak w przypadku wyszukiwania informacji)
Ŝ
Budowa modeli reprezentuj cych wybran dziedzin
ą
ą
ę
ć
– Konstruowanie gramatyk
liczba poprawnych odpowiedzi
liczba wszystkich wła ciwych odpowiedzi w tek cie
ś
– Formułowanie wzorców dziedzinowych na podstawie wiedzy
ś
Precyzja
Precision P = liczba poprawnych odpowiedzi (elementów)
liczba wszystkich odpowiedzi systemu
Umiej tno
ignorowania szumu
Fallout Fl = liczba podanych niewła ciwych odpowiedzi
liczba nierelewantnych faktów w tek cie
„ekspertów”
ę
ś
– Pracochłonne „dostrajanie”
Systemy „ucz ce si ”
ą
ę
– wykorzystywanie metod statystycznych
ć
– reguły uczenia si na podstawie przykładów
ę
ś
– reguły uczenia si w interakcji z u ytkownikiem
ę
ś
Ŝ
Ogólna miara (F-measure)
F = (β 2 +1) PR/ (β 2 P + R)
β - przyj ty stosunek wa no ci P / R (β >1 wa niejsza precyzja)
Stan obecny: bariera F=.60
Ŝ
ę
Ŝ
ś
Poró
Porównanie podej
do IE
Budowa modeli reprezentuj cych wybran dziedzin
Zalety:
ą
–
–
ą
ę
Poró
Porównanie podej
Zalety:
ą
ć
–
Ŝ
Ŝ
ą
Wady:
–
–
–
pracochłonność procesu tworzenia,
nie wszystkie zmiany są łatwe do wprowadzenia,
potrzebna wiedza może nie by dostępna.
ę
–
ę
ą
ę
mo liwe stosunkowo łatwe przeniesienie na inn dziedzin ,
niepotrzebna dokładna wiedza dziedzinowa,
– rozwi zania sterowane danymi pozwalaj na 100% pokrycie
przestrzeni przykładów.
dobra jako (zale na od wiedzy twórców)
Wszystkie najlepsze systemy to systemy r cznie dostrajane
ś
do IE
ą
Wady:
–
–
dane treningowe mogą nie istnieć lub być zbyt kosztowne,
zmiana specyfikacji może wymaga zmiany anotacji danych
treningowych.
10
Kryteria wyboru
Systemy oparte na regułach:
–
–
–
–
Przykł
Przykład „uczenia si ” dla NER
NER - Named Entity Recognition – rozpoznawanie nazw
własnych, to jedno z podstawowych zada IE
Podstawowe typy nazw własnych: osoby, organizacje,
lokalizacje, daty, …
Zadanie NER:
ń
jeśli dysponujemy odpowiednimi zasobami językowymi,
dane treningowe trudne do uzyskania,
specyfikacja kryteriów może się zmieniać,
krytyczna jest bardzo wysoka skuteczność.
–
–
ą
–
–
–
–
–
ę
nie dysponujemy odpowiednimi zasobami językowymi,
nie mamy ekspertów, którzy mogliby opisać reguły,
dane treningowe są łatwo dostępne,
specyfikacja kryteriów jest stała,
dobra skuteczność jest wystarczająca.
–
rozpoznanie nazwy
przypisanie typu
ustalenie formy bazowej (kanonicznej)
NER, problemy
NER, przykł
przykład zaanotowanego tekstu
<ENAMEX TYPE=„LOCATION“>Italy</ENAMEX>‘s business world was
rocked by the announcement <TIMEX TYPE=„DATE“>last
Thursday</TIMEX> that Mr. <ENAMEX
TYPE=„PERSON“>Verdi</ENAMEX> would leave his job as
vicepresident of <ENAMEX TYPE=„ORGANIZATION“>Music Masters of
Milan, Inc</ENAMEX> to become operations director of <ENAMEX
TYPE=„ORGANIZATION“>Arthur Andersen</ENAMEX>.
Potencjalny zbiór nazw jest zbyt du y by stworzy
odpowiednie słowniki
Ŝ
–
–
–
ć
można mieć listę imion w jednym języku, ale w tekstach
pojawiają się imiona i nazwiska obcojęzyczne,
lista lokalizacji potencjalnie bardzo wielka
nowe nazwy organizacji
Pomóc mog reguły kontekstowe np.. Pan X, firma A B.
ą
•„Milan“ is part of organization name
•„Arthur Andersen“ is a company
•„Italy“ is a localization (it is sentence- initial, capitalization is useless)
Podział
Podział metod „uczenia si ”
Uczenie si z nadzorem (czyli z dost pem do
zaanotowanych danych treningowych)
ę
–
ę
HMM, Support Vector Model, hybrid ML-methods
Uczenie si ze słabym nadzorem z dost pem do bardzo
nielicznych zaanotowanych przykładów i du ego
niezaanotowanego zbioru
ę
ę
Ŝ
WeeklyWeekly-suprervised NE recognition
Idea:
Zdefinuj klika przykładów i potraktuj jak dane treningowe
Zainicjalizuj system u ywaj c wyników dla danych
treningowych
Znajd kontekst wyst powania danych treningowych
znajd elementy wyst puj ce w takim samym konmtek cie
jak dane treningowe
U yj tych zidentyfikowanych elementów jako nowych danych
treningowych i popraw model
Powtarzaj cykl, a nie b d pojawia si nowe elementy.
Ŝ
ź
ą
ę
ź
ę
ą
ś
Ŝ
Uczenie si bez nadzoru
ę
Ŝ
ę
ą
ę
11

1 Wyszukiwanie informacji (dokumentów tekstowych) Information

Transkrypt

Podobne dokumenty

Opona Bridgestone 130/80-17 65H BT 45

NOWE OPONY FIRMY BRIDGESTONE 245/45R18 100Y

Opony letnie Bridgestone Potenza RE050A 195 - Opony