Ocean Lodowaty

Transkrypt

Ocean Lodowaty
LSA
Latent Semantic Analysis (LSA)
analiza ukrytych grup semantycznych
Kamil Adamczyk
Kamil Anikiej
Krzysztof Pawłowski
Uniwersytet Warszawski
23.03.2009 / Algorytmika Internetu
Spis treści
1.Zebranie treści wykładów
2.Stamming
3.LSA
● utworzenie macierzy
● rozkład SVD
● zmiejszenie wymiaru
4.Podobienstwo dokumentów
● odległość kosinusowa
5.Podobienstwo słów
6.Wyszukiwanie po tematyce
Treść wykładów
●
Zadanie: wydobycie z „ważniaka” treści
wykładów
Stamming
Stamming - w wyniku stemmingu powstaje
trzon (ang. stem) - to ciąg liter niezmienny
dla podobnych wyrazów (ich form
fleksyjnych)
● Trzon w przeciwieństwie do lematu nie jest
wyrazem poprawnym gramatycznie.
●
LSA
Metoda Latent Semantic Analysis (LSA) analiza ukrytych grup semantycznych
● opatentowana w 1990 r. przez S.
Deerwester'a, S. Dumas'a, G. Furnas'a
i T. Landauer'a. LSA
● celem metody jest znalezienie dokumentów,
które nie koniecznie mają ten sam zadany
zbiór słów, ale są na ten sam temat.
●
LSA - macierz
LSA konwertuje zbiór dokumentów do postaci
macierzy częstotliwości terminów i
dokumentów (Document-term Matrix)
● macierz określa występowanie słów, a raczej
ich trzonów/tematów (stemmed word) w
dokumentach.
● zawiera ona w wierszach wyrazy ze zbioru, a
w kolumnach dokumenty
● elementami macierzy są liczby będące
funkcją od częstotliwości występowania
danego słowa w danym dokumencie
●
LSA - przykład
Zbiór dokumentów:
●
●
●
DOK1 = "Używam edytora tekstu"
DOK2 = "Używam baz danych"
DOK3 = "Piszę tekst w edytorze tekstu"
DOK1 DOK2 DOK3
Używam
1
1
Piszę
1
w
1
edytor/a/ze
1
1
tekst/u
1
2
baz
1
danych
1
SVD
gdzie U i V mają kolumny ortonormalne,
Ʃ jest macierzą diagonalną i zawiera wartości
osobliwe.
LSA - zmiejszenie wymiaru
macierzy częstotliwości jest zdecydowanie
za duża dla obliczeń komputerowych
● "zaszumiona" (niepotrzebnie uwzględnia
terminy nieformalne) oraz ze względu
na występowanie synonimów.
●
LSA - zmiejszenie wymiaru
wybierane jest k "najważniejszych" wymiarów
takich, dla których wartości osobliwe
w macierzy Ʃ są największe.
● wybór k jest trudny, liczba ta powinna być
wystarczająco duża, aby móc odwzorować
całość rzeczywistej struktury danych, lecz
na tyle mała, aby wyeliminować szum
●
LSA - zmiejszenie wymiaru
według wyników różnych eksperymentów
dobra wartość k to ~300
● w konsekwencji niektóre wymiary się "łączą":
●
{(auto), (ciężarówka), (kwiat)}
-->
{(1.3452 * auto + 0.2828 * ciężarówka), (kwiat)}.
Podobienstwo dokumentów
Miara podobieństwa dokumentów j i q, przez
porównianie wektorów ^d_j ^d_q
●najczęściej odległość (miara) kosinusowa
●
Odległość kosinusowa
Odległość kosinusowa dwóch dokumentów d1 i d2
jest zdefiniowana jako znormalizowany iloczyn skalarny
wektorów d1 i d2, i reprezentuje kosinus kąta pomiędzy
dwoma wektorami reprezentującymi dokumenty.
Podobienstwo terminów
●
Miarę podobieństwa pojęć i i p przez
porównianie wektorów ^t_i i ^t_p.
Wyszukiwanie
Możliwość wyszukiwania po tematyce, a nie
tylko treści.
●Patrzymy na zapytanie jako kolejny mini
dokument i porównujemy go z innymi.
●Dla q będącego zapytaniem tworzymy wektor
^q i porównujemy z wektorami ^d.
●
Źródła
http://en.wikipedia.org/wiki/Latent_semantic_analysis
●http://www.scholarpedia.org/article/Latent_semantic_analysis
●http://www.ebib.info/2006/77/osinska.php
●http://wazniak.mimuw.edu.pl - wyk:Eksploracja_danych
●