Ocean Lodowaty
Transkrypt
Ocean Lodowaty
LSA Latent Semantic Analysis (LSA) analiza ukrytych grup semantycznych Kamil Adamczyk Kamil Anikiej Krzysztof Pawłowski Uniwersytet Warszawski 23.03.2009 / Algorytmika Internetu Spis treści 1.Zebranie treści wykładów 2.Stamming 3.LSA ● utworzenie macierzy ● rozkład SVD ● zmiejszenie wymiaru 4.Podobienstwo dokumentów ● odległość kosinusowa 5.Podobienstwo słów 6.Wyszukiwanie po tematyce Treść wykładów ● Zadanie: wydobycie z „ważniaka” treści wykładów Stamming Stamming - w wyniku stemmingu powstaje trzon (ang. stem) - to ciąg liter niezmienny dla podobnych wyrazów (ich form fleksyjnych) ● Trzon w przeciwieństwie do lematu nie jest wyrazem poprawnym gramatycznie. ● LSA Metoda Latent Semantic Analysis (LSA) analiza ukrytych grup semantycznych ● opatentowana w 1990 r. przez S. Deerwester'a, S. Dumas'a, G. Furnas'a i T. Landauer'a. LSA ● celem metody jest znalezienie dokumentów, które nie koniecznie mają ten sam zadany zbiór słów, ale są na ten sam temat. ● LSA - macierz LSA konwertuje zbiór dokumentów do postaci macierzy częstotliwości terminów i dokumentów (Document-term Matrix) ● macierz określa występowanie słów, a raczej ich trzonów/tematów (stemmed word) w dokumentach. ● zawiera ona w wierszach wyrazy ze zbioru, a w kolumnach dokumenty ● elementami macierzy są liczby będące funkcją od częstotliwości występowania danego słowa w danym dokumencie ● LSA - przykład Zbiór dokumentów: ● ● ● DOK1 = "Używam edytora tekstu" DOK2 = "Używam baz danych" DOK3 = "Piszę tekst w edytorze tekstu" DOK1 DOK2 DOK3 Używam 1 1 Piszę 1 w 1 edytor/a/ze 1 1 tekst/u 1 2 baz 1 danych 1 SVD gdzie U i V mają kolumny ortonormalne, Ʃ jest macierzą diagonalną i zawiera wartości osobliwe. LSA - zmiejszenie wymiaru macierzy częstotliwości jest zdecydowanie za duża dla obliczeń komputerowych ● "zaszumiona" (niepotrzebnie uwzględnia terminy nieformalne) oraz ze względu na występowanie synonimów. ● LSA - zmiejszenie wymiaru wybierane jest k "najważniejszych" wymiarów takich, dla których wartości osobliwe w macierzy Ʃ są największe. ● wybór k jest trudny, liczba ta powinna być wystarczająco duża, aby móc odwzorować całość rzeczywistej struktury danych, lecz na tyle mała, aby wyeliminować szum ● LSA - zmiejszenie wymiaru według wyników różnych eksperymentów dobra wartość k to ~300 ● w konsekwencji niektóre wymiary się "łączą": ● {(auto), (ciężarówka), (kwiat)} --> {(1.3452 * auto + 0.2828 * ciężarówka), (kwiat)}. Podobienstwo dokumentów Miara podobieństwa dokumentów j i q, przez porównianie wektorów ^d_j ^d_q ●najczęściej odległość (miara) kosinusowa ● Odległość kosinusowa Odległość kosinusowa dwóch dokumentów d1 i d2 jest zdefiniowana jako znormalizowany iloczyn skalarny wektorów d1 i d2, i reprezentuje kosinus kąta pomiędzy dwoma wektorami reprezentującymi dokumenty. Podobienstwo terminów ● Miarę podobieństwa pojęć i i p przez porównianie wektorów ^t_i i ^t_p. Wyszukiwanie Możliwość wyszukiwania po tematyce, a nie tylko treści. ●Patrzymy na zapytanie jako kolejny mini dokument i porównujemy go z innymi. ●Dla q będącego zapytaniem tworzymy wektor ^q i porównujemy z wektorami ^d. ● Źródła http://en.wikipedia.org/wiki/Latent_semantic_analysis ●http://www.scholarpedia.org/article/Latent_semantic_analysis ●http://www.ebib.info/2006/77/osinska.php ●http://wazniak.mimuw.edu.pl - wyk:Eksploracja_danych ●