Pobierz
Transkrypt
Pobierz
Eksploracja Zasobów Internetu Formalna charakterystyka modeli IR DEF. Model IR to < D, Q, F, R (qi, dj) >, D to zbiór złożony z reprezentacji logicznych dokumentów w kolekcji Q to zbiór złożony z reprezentacji logicznych ‘zapotrzebowania informacyjnego’ użytkowników — tzw. zapytań F to schemat modelowania reprezentacji dokumentów, zapytań i związków między nimi R (qi, dj) jest funkcją rangującą, która przyporządkowuje wartości rzeczywiste parom (qi, dj): qi ∈ Q , dj ∈ D Funkcja ta definiuje uporządkowanie (ranking) wszystkich dokumentów względem zapytania. Eksploracja zasobów Internetu ■ Klasyczne modele IR ■ model Boole’owski model wektorowy (VSM) model probabilistyczny Nieklasyczne modele IR model oparty na zbiorach rozmytych rozszerzony model Boole’owski model LSI (Latent Semantic Indexing) model oparty na sieciach neuronowych uogólniony model wektorowy (Generalized VSM) nieklasyczne modele probabilistyczne (sieci Bayesowskie, belief networks, inference networks ...) Eksploracja zasobów Internetu ■ ■ ■ ■ ■ NOTACJA Niech t będzie liczbą słów kluczowych (termów indeksujących) w systemie a ki i-tym słowem kluczowym. K={ k1, k2, ..., kt } jest zbiorem wszystkich słów kluczowych. Z każdym słowem kluczowym ki dokumentu dj związana jest waga aij > 0, Dla słów kluczowych niewystępujących w tekście dokumentu aij = 0. Stąd każdemu dokumentowi przyporządkowany jest wektor dj = (a1j, a2j, ..., atj). Niech gi będzie funkcją, która zwraca wagę związaną z słowem kluczowym ki dowolnego t-wymiarowego wektora, np.: gi(dj) = aij. Eksploracja zasobów Internetu ■ Model Boole’owski oparty na teorii zbiorów i algebrze Boole’a zapytania — wyrażenia Boole’owskie o precyzyjnej semantyce (reprezentowalne w postaci DNF) Eksploracja zasobów Internetu kb ka (1,1,0) (1, 0, 0) (1,1,1) ■ q = ka ∧ (kb ∨ ¬ kc) ■ qdnf = (1,1,1) ∨ (1,1,0) ∨ (1,0,0) ■ ogólnie: ■ qdnf = 1 if ∃ccl | (ccl ∈ qdnf ) ∧ (∀ki gi (d j ) = gi (ccl ) ) sim(d j , q ) = 0 w przeciwnym wypadku kc cc1 ∨ cc2 ∨ ... ∨ ccp Eksploracja zasobów Internetu reprezentacja dokumentów typu bagof-words binarna decyzja dotycząca adekwatności (brak R) raczej data retrieval niż information retrieval trudność w wyrażeniu zapotrzebowań informacyjnych w postaci wyrażeń Boole’owskich Eksploracja zasobów Internetu ■ Zalety modelu Boole’owskiego: prostota dobre umotywowanie formalne ■ Wady modelu Boole’owskiego: dokładne dopasowanie dokumentów do zapytania często prowadzi do zbyt małych (np. pustych) lub zbyt dużych zbiorów wyników Eksploracja zasobów Internetu ■ Model probabilistyczny (BIR - binary independence retrieval model) Założenia: dla danego zapytania użytkownika q i dokumentu z kolekcji dj, model probabilistyczny usiłuje oszacować prawdopodobieństwo, że użytkownik uzna dokument dj za interesujący (adekwatny). Eksploracja zasobów Internetu Prawdopodobieństwo adekwatności zależy wyłącznie od reprezentacji zapytania q i dokumentu dj. Istnieje R - podzbiór dokumentów, które użytkownik preferuje jako odpowiedź na zapytanie q. Zbiór R ma maksymalizować całkowite prawdopodobieństwo adekwatności dla użytkownika. Dokumenty z R są uznawane za adekwatne, dokumenty spoza R za nieadekwatne. Eksploracja zasobów Internetu ■ ■ jak obliczać prawdopodobieństwa adekwatności? na podstawie jakich próbek je szacować? DEF. W modelu probabilistycznym wagi przyporządkowane słowom kluczowym są binarne: wij ∈ {0, 1}, wiq ∈ {0, 1}. Zapytanie q jest podzbiorem słów kluczowych. Niech R będzie zbiorem dokumentów, o których wiadomo, że są adekwatne. Niech R’ będzie dopełnieniem zbioru R (zbiorem dokumentów nieadekwatnych). Niech P (R | dj) będzie prawdopodobieństwem, że dokument dj jest adekwatny do zapytania q a P (R’ | dj) — prawdopodobieństwem, że dj jest nieadekwatny do q. Eksploracja zasobów Internetu Adekwatność relevance(dj) dokumentu dj definiujemy jako: P(dj | R) — prawdopodobieństwo losowego wybrania dokumentu dj ze zbioru R dokumentów adekwatnych. P(R) — prawdopodobieństwo, że losowo wybrany dokument ze całego zbioru dokumentów jest adekwatny. P(dj | R’) i P(R’) — analogiczne prawdopodobieństwa dla zbioru dokumentów nieadekwatnych. Eksploracja zasobów Interentu Eksploracja zasobów Internetu Eksploracja zasobów Internetu ■ Początkowe założenia: prawdopodobieństwo występowania słowa kluczowego ki w dokumencie losowo wybranym z R jest równe dla wszystkich słów kluczowych rozkład słów kluczowych w dokumentach z R’ jest taki jak w całej kolekcji dokumentów Eksploracja zasobów Internetu ■ Niech V jest podzbiorem dokumentów wybranych początkowo jako adekwatne, a Vi jego podzbiorem złożonym tylko z tych dokumentów, które zawierają słowo kluczowe ki: Eksploracja zasobów Internetu ■ Zaleta modelu probabilistycznego: dokumenty są porządkowane zgodnie z malejącym prawdopodobieństwem ich adekwatności ■ Wady modelu probabilistycznego: konieczność zgadywania początkowego podziału zbioru dokumentów na adekwatne i nieadekwatne ignorowanie częstości wystąpienia słów kluczowych w dokumentach (binarne wagi) założenie o niezależności słów kluczowych Eksploracja zasobów Internetu ■ Model wektorowy ■ (VSM- Vector Space Model) ■ Dokumenty reprezentowane jako wektory w przestrzeni t-wymiarowej ■ Wagi poszczególnych słów kluczowych ki dla danego dokumentu dj wyznaczane miarą tf-idf (ang. term frequency − inverse document frequency) Eksploracja zasobów Internetu ■ tf-idf ■ ang. term frequency − inverse document frequency ■ waga słowa w dokumencie wzrasta wraz ze wzrostem jego liczby wystąpień w tym dokumencie ■ waga słowa w kolekcji maleje wraz ze wzrostem liczby dokumentów kolekcji, które zawierają to słowo ■ aij = tfij . idfi Eksploracja zasobów Ineternetu Eksploracja zasobów Internetu ■ Model ■ wektorowy Dokumenty reprezentowane są jako wektory w przestrzeni t-wymiarowej ■ Każdy wektor reprezentujący dokument ma początek w początku układu współrzednych, a koniec w punkcie o współrzędnych wyznaczonych wagami tf-idf ■ Zapytania q są reprezentowane analogicznie, wagi qi ■ mogą być binarne {0;1} , idf , tf-idf , … ■ A jak wyznaczać ranking dokumentów względem q ? Eksploracja zasobów Internetu Eksploracja zasobów Internetu Eksploracja zasobów Ineternetu ■ Zalety modelu wektorowego: ■ uwzględnienie wag tf-idf poprawia wyniki częściowe dopasowanie umożliwia odnajdowanie dokumentów w przybliżeniu spełniających warunki zapytania kosinusowa miara podobieństwa umożliwia uszeregowanie dokumentów zgodnie z malejącą adekwatnością (możliwość kontroli rozmiarów zbioru wyników) prostota i szybkość Wady modelu wektorowego: założenie o niezależności słów w dokumentach Eksploracja zasobów Ineternetu Najczęściej zakłada się, że słowa kluczowe są niezależne: na podstawie znajomości wagi aij przyporządkowanej parze (ki, dj) nie możemy nic powiedzieć o wadze alj dla pary (kl, dj): i ≠ l. ■ Założenie o niezależności słów kluczowych jest uproszczeniem dyktowanym: ■ efektywnością i prostotą obliczeń, trudnością w modelowaniu związków między słowami (zależność od konkretnych zbiorów) Eksploracja zasobów Internetu Porównanie klasycznych modeli IR boolowski – słaby w kontekście IR probabilistyczny > wektorowy (Croft) wektorowy > probabilistyczny dla ogólnych kolekcji tekstów (Salton & Buckley) Eksploracja zasobów Internetu BIN q: Brutus AND Caesar AND NOT Calpurnia Żródło: An Introduction to Information Retrieval, Cambridge Univ. P. 2009 http://nlp.stanford.edu/IR-book/ Eksploracja zasobów Internetu Odpowiedź: Antony and Cleopatra, Hamlet Eksploracja zasobów Internetu Tf Eksploracja zasobów Internetu TF-IDF q: Brutus AND Caesar AND NOT Calpurnia (?) Eksploracja zasobów Internetu q: Brutus Caesar Ranking: 1. Hamlet 2. An. & Cl.