Ogólna charakterystyka Web Miningu
Transkrypt
Ogólna charakterystyka Web Miningu
2011-05-23 Pismo Pismo, system znaków, pozwalających na widzialne utrwalanie myśli w konkretnym języku. Pismo pojawiło się stosunkowo późno (ok. 5-6 tys. lat temu). Istniały też społeczeostwa wysoko rozwinięte, które nie posiadały swego pisma, nawet dziś nie posługuje się nim wiele mln ludzi. Pismo wynajdywano kilkakrotnie i całkowicie odrębnie w wielu centrach kulturowych. Text Mining Web Mining Wykład 2. http://portalwiedzy.onet.pl/17801,,,,pismo,haslo.html Rok akademicki: 2010/2011 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Rodzaje pisma Znaczenie informacji tesktowej Rodzaje pisma: • piktograficzne (obrazkowe) - przedmioty i czynności zapisywane są za pomocą piktogramów (obrazków), • ideograficzne - idee i pojęcia zapisywane są za pomocą ideogramów, przedstawiających abstrakcyjne pojęcia; to kolejny etap ewolucji pisma w stosunku do piktogramów. Ideogramy to obecnie m.in. niewielka częśd chioskich znaków, • fonetyczne - symbole przedstawiają dźwięki. • http://pl.wikipedia.org/wiki/Pismo Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 3 • Z punktu widzenia człowieka tekst jest najlepszym nośnikiem informacji w czasie i przestrzeni Zalety: – zrozumiałośd – łatwośd przetwarzania przez człowieka • Wady: – szybkie zwiększanie się zasobów tekstowych • Badania przeprowadzone przez IBM wskazują, że: – 80 procent zasobów informacyjnych organizacji ma postad nieustrukturyzowaną i ich znaczenie ciągle rośnie; – pracownik organizacji w ciągu roku traci około 6 tygodni roboczych czasu na poszukiwanie zaginionych informacji; – około 30 – 40% czasu pracy pracownik poświęca na przetwarzanie dokumentów – – – – – powolne przetwarzanie przez człowieka trudności w automatyzacji przetwarzania wielojęzykowośd, trudności w ocenie jakości informacji zawartych w tekście, zaszumienie tekstu Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Automatyzacja procesów przetwarzania tekstów Dwa podejścia do zagadnienia automatyzacji przetwarzania języka naturalnego • Zastąpienie lub wspomożenie człowieka w realizacji zadao związanych z: • Podejście formalne: – – – – – – – 4 – oparte na założeniu o istnieniu formalnego modelu języka, – przetwarzanie oparte na regułach opisujących sposób przetwarzania symboli składających się na dokument. pozyskiwaniem informacji z zasobów tekstowych, klasyfikacji bezwzorcowej dokumentów, klasyfikacji wzorcowej, analiza związków pomiędzy dokumentami, generowaniem streszczeo, automatycznym tłumaczeniem, wizualizacją struktury kolekcji dokumentów i związków istniejących pomiędzy poszczególnymi dokumentami. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 2 • Podejście statystyczne: – oparte na analizie statystycznej zawartości przetwarzanych dokumentów, – model języka i model wiedzy dziedzinowej ma charakter wspomagający. 5 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 6 1 2011-05-23 Podejście formalne – test Turinga (1950) Podejście formalne – system Eliza • Test Turinga (1950) – metoda oceny zdolności maszyny do posługiwania się językiem naturalnym • ELIZA – program symulujący psychoanalityka, napisany w 1966 przez Josepha Weizenbauma (ur. 8 stycznia 1923 w Berlinie, zm. 5 marca 2008 w Berlinie). • Eliza w Internecie: http://www-ai.ijs.si/eliza/eliza.html ? Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 7 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Podejście formalne – koncepcja uniwersalnej gramatyki Podejście formalne – język Prolog • Noam Chomsky (ur. 1928, Amerykanin o korzeniach ukraioskobiałoruskich) – lingwista, działacz polityczny: • Program w Prologu zawiera: – głosił istnienie "uniwersalnej gramatyki", stanowiącej rdzeo wszystkich języków i mającej charakter wrodzony, – jego prace ukierunkowane były na odkrywanie zasad rządzących przetwarzaniem mowy (gramatyki formalne). 8 – bazę wiedzy, – bazę reguł. • Program realizuje proces wnioskowania. • Charakterystyka podejścia Chomsky'ego: – przetwarzanie symboli, – opis za pomocą formalnych reguł, – mająca na celu stworzenie formalnej teorii języka. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 9 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 10 Podejście statystyczne – analiza statystyczna dokumentów Podejście statystyczne – twierdzenie Bayesa • • • • • Thomas Bayes (1702 – 17 kwietnia 1761) brytyjski matematyk i pastor prezbiteriaoski • Twierdzenie Bayesa: Liczba wystąpieo poszczególnych słów, fraz, zdao. Wiedza o języku ma znaczenie wspomagające. Metody są w dużym stopniu niezależne od języka dokumentu. Analiza statystyczna określana jest mianem "analizy płytkiej" (w odróżnieniu od "analizy głębokiej" wykorzystującej wiedzę na temat języka). • Stosowane jest zarówno podejście opisowe jak i probabilistyczne. P A | B P B | A P A P B • Przykład: PSPAM | viagra Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 11 Pviagra | SPAM PSPAM Pviagra Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 12 2 2011-05-23 Podejście statystyczne – Andriej Markov Podejście statystyczne – Data mining • Andriej Markov - (ur. 14 czerwca 1856, zm. 20 lipca 1922), matematyk rosyjski. • Proces Markowa – ciąg zdarzeo, w którym prawdopodobieostwo każdego zdarzenia zależy jedynie od wyniku poprzedniego • Przykład: Data mining to określenie grupy metod szeroko rozumianej analizy danych mających na celu identyfikację nieznanych wcześniej prawidłowości występujących w dużych zbiorach danych. Powstałe wyniki mają postad łatwą do interpretacji przez prowadzącego badania. – trzy stany: S1, S2, S3 – pij – prawdopodobieostwo przejścia S1 S2 s3 S1 p11 p12 p13 S2 p21 p22 p23 S3 p31 p32 p33 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Eugeniusz Gatnar, 1997 13 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Podejście statystyczne – Text Mining Przebieg analizy text miningowej • Text mining – proces mający na celu wydobycie z zasobów tekstowych nieznanych wcześniej informacji (Marti A. Hearst, 1999). • Korzenie text miningu: • Określenie celu, zakresu i kosztów badao, • Wstępne przetworzenie dokumentów, • Określenie sposobu reprezentacji informacji zawartych w dokumentach, • Konstrukcja modelu, • Realizacja obliczeo, • Ocena modelu, • Interpretacja uzyskanych wyników. – – – – – – – Data mining, Uczenie maszynowe, Przetwarzanie języka naturalnego, Wyszukiwanie informacji, Statystyka, Matematyka (algebra liniowa), Informatyka. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 15 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Cel, zakres, koszty Wstępne przetworzenie dokumentów • Identyfikacja typu rozpatrywanego problemu: • • • • – – – – – klasyfikacja wzorcowa, klasyfikacja bezwzorcowa (analiza skupieo), współwystępowanie zjawisk, określenie podobieostwa (np. identyfikacja plagiatów), ... 14 16 Transformacja dokumentów do postaci tekstowej, Usunięcie znaków formatujących, Ujednolicenie sposobu kodowania znaków. Program Gżegżółka: http://www.gzegzolka.com/ • Sformułowanie celu zadania badawczego, • Relacje pomiędzy celem, zakresem i budżetem badao. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 17 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 18 3 2011-05-23 Reprezentacja dokumentów tekstowych (1) Reprezentacja dokumentów tekstowych (2) • Reprezentacja unigramowa (model przestrzeni wektorowej, reprezentacja bag-of-words, BOW) • A vector space model for automatic indexing (1975), by G. Salton, A. Wong, C. S. Yang, Communications of the ACM • Reprezentacja n-gramowa • pozwala uwzględnid n-wyrazowe ciągi wyrazów (np. "biały kruk") X= Dokumenty xij – liczba wystąpieo i-tego wyrazu w j-tym dokumencie Dokumenty Wyrazy Nie uwzględnia kolejności wyrazów w tekście! xij – liczba wystąpieo i-tego ciągu w j-tym dokumencie n-wyrazowe fragmenty tekstu X= Jeśli w oznacza liczbę różnych wyrazów, to liczba wierszy w macierzy X wynosi wn. Najpopularniejszy sposób reprezentacji dokumentów. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 19 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Reprezentacja dokumentów tekstowych (3) Reprezentacja dokumentów tekstowych (4) • Reprezentacja unigramowa wzbogacona o informację o pozycji danego słowa w dokumencie • pozwala na badanie miejsca wystąpienia poszczególnych słów, co jest istotne z punktu widzenia dwóch popularnych heurystyk: • Reprezentacja pojęd złożonych, idei, faktów – słowa rozmieszczone równomiernie mają zwykle mniejsze znaczenie niż słowa, których występowanie ograniczone jest do pewnego fragmentu, – w podobnych dokumentach miejsca, w których występuje natężenie wystąpieo słowa są zbliżone. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Dokumenty X= xij – liczba wystąpieo i-tego pojęcia w j-tym dokumencie Pojęcia, idee, fakty Konieczna jest identyfikacja pojęd w dokumencie. Pojęcie reprezentowane jest zwykle przez strukturę złożoną: listę, drzewo, graf, ... 21 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Tworzenie macierzy częstości (BOW – bag-of-words) Wyznaczanie macierzy częstości BOW (1) • Podział dokumentów na wyrazy, • Usunięcie wyrazów nieistotnych (zawartych na stop-liście), • Przekształcenie wyrazów do formy podstawowej (redukcja do rdzenia), • Utworzenie macierzy częstości, • Przekształcenie macierzy częstości. • Podział dokumentów na wyrazy Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 20 23 22 Mowa jest srebrem, lecz milczenie złotem. ↓ mowa jest srebrem lecz milczenie złotem Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 24 4 2011-05-23 Wyznaczanie macierzy częstości BOW (2) Wyznaczanie macierzy częstości BOW (3) • Usunięcie słów nieistotnych (stop-lista) • Przekształcenie wyrazów do formy podstawowej (rdzenia) – jest tzw. stemming Mowa jest srebrem, lecz milczenie złotem. ↓ mowa jest srebrem lecz milczenie złotem Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Mowa jest srebrem, lecz milczenie złotem. ↓ mowa - mowa jest - byd srebrem - srebro lecz - lecz milczenie - milczenie złotem - złoto 25 ... Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 26 Wyznaczanie macierzy częstości BOW (4) • Metody redukcji do rdzenia (stemming): • Utworzenie wspólnej listy dla wszystkich dokumentów – regułowa • algorytm Lovins – opisany w: Julie Beth Lovins (1968) Development of a stemming algorithm. Mechanical Translation and Computational Linguistics, 11: 22-31. • algorytm Portera – opisany w: M.F. Porter, 1980, An algorithm for suffix stripping, Program, 14(3) pp 130−137 Milczenie - przyjaciel który, nigdy nie zdradza Książka to przyjaciel, który nigdy nie zdradzi książka, który, milczenie, nie, nigdy, przyjaciel, to, zdradzad – słownikowa • bazująca na słowniku morfologicznym • wybrane narzędzia pozwalające na redukcję do rdzenia dla tekstów polskojęzycznych: – SAM – analizator morfologiczny K. Szafrana (1996), – lematyzator Daciuka (1998) – lematyzator LAMETYZATOR – Weissa i Stefanowskiego Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 27 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Wyznaczanie macierzy częstości BOW (5) Przetwarzanie macierzy częstości BOW • Utworzenie macierzy częstości • zmiana wartości przechowywanych w macierzy częstości (bez zmiany rozmiarów macierzy) – w celu lepszej reprezentacji informacji zawartych w dokumencie, • redukcja wymiarów macierzy częstości. Dokumenty xij – liczba wystąpieo i-tego wyrazu w j-tym dokumencie X= 28 Wyrazy Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 29 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 30 5 2011-05-23 Modyfikacje macierzy częstości – bez zmiany rozmiarów (1) Modyfikacje macierzy częstości – bez zmiany rozmiarów (2) • Reprezentacja binarna • Reprezentacja logarytmiczna X= 2 0 4 ... 4 1 0 3 ... 0 ... ... ... ... 0 1 2 ... 1 bin X = 1 0 1 ... 1 1 0 1 ... 0 ... ... ... ... 0 1 1 ... 1 X= 2 1 .. 0 0 0 .. 1 .. .. .. .. 4 0 .. 2 xij Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 31 log X = 1,301 1,000 .. .. .. 0,000 1 + log(xij) Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Modyfikacje macierzy częstości – bez zmiany rozmiarów (3) Redukcja wymiarów macierzy częstości • Ważona reprezentacja logarytmiczna (model TFIDF) • Dwa podejścia do zagadnienia redukcji • zastosowanie stop listy, • usunięcie informacji o wyrazach występujących tylko w jednym dokumencie, • usunięcie wyrazów występujących bardzo rzadko, • usunięcie wyrazów występujących bardzo często, 1 + log(xij) Ważona reprezentacja logarytmiczna xij (1 + log(xij)) * log(N/dfi) – stworzenie nowego zestawu cech opisujących dokumenty/wyrazy • analiza głównych składowych, • dekompozycja według wartości osobliwych. N - liczba wszystkich dokumentów df i - liczba dokumentów zawiejących i-ty wyraz Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 33 Rozkład według wartości osobliwych Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie X = U S VT • • • = U 34 Własności rozkładu według wartości osobliwych • Rozkład według wartości osobliwych X = U S VT X 32 – wybór reprezentantów – usuwane są informacje dotyczące mniej istotnych wyrazów: Reprezentacja logarytmiczna xij 0,000 .. 1,602 0.000 .. 0,000 .. 1,000 .. 1,301 S • • VT • • • macierz U - wyrazy w przestrzeni wyznaczonej przez składowe macierz V - dokumenty w przestrzeni wyznaczonej przez składowe macierz S - macierz diagonalna, znaczenie kolejnych składowych Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 35 kolumny macierzy U są wektorami własnymi macierzy XXT - co oznacza, że wyznaczają główne składowe dla zbioru wyrazów; kolumny macierzy V są wektorami własnymi macierzy XTX - co oznacza, że wyznaczają główne składowe dla zbioru dokumentów; macierz S jest macierzą diagonalną; można dowieśd, że zawarte w niej elementy są pierwiastkami kwadratowymi z wartości własnych macierzy XXT oraz macierzy XTX; elementy macierzy S są uporządkowane malejąco; zachodzi zależnośd: UTU = I - co oznacza, że kolumny macierzy U są ortonormalne; wartości wyznaczone jako US stanowią współrzędne wyrazów w nowej przestrzeni; zachodzi zależnośd: VTV = I, co oznacza, że kolumny macierzy V są ortonormalne; wartości wyznaczone jako VS stanowią współrzędne dokumentów w nowej przestrzeni. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 36 6 2011-05-23 Rozkład według wartości osobliwych – redukcja wymiaru przestrzeni Pomiar odległości/podobieostwa na podstawie macierzy częstości Dokumenty • Rozkład według wartości osobliwych X = U S VT X= Wyrazy Odległośd może byd liczona pomiędzy dokumentami (kolumny macierzy) lub pomiędzy wyrazami (wiersze macierzy częstości). n X = U S d x, y VT n x k 1 d x, y yk 2 k odległośd Euklidesa k 1 n k yk n x y 2 k 1 k 2 k k 1 odległośd kosinusowa n d x, y x k y k x odległośd miejska k 1 współrzędne wyrazów: UrSr współrzędne dokumentów: VrSr Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie d x, y max k 1, 2,...,n xk y k 37 odległośd Czebyszewa Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Aforyzmy i przysłowia (1) Aforyzmy i przysłowia (2) A. B. C. D. E. F. G. H. I. J. Milczenie bywa wymowniejsze od mowy. Milczenie – przyjaciel, który nigdy nie zdradza. Często najmądrzejszą odpowiedzią jest milczenie. Mowa jest srebrem, lecz milczenie złotem. Mowa słodsza niż miód. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 39 Trucizna prawdy jest lepsza od miodu kłamstwa. Milsza prawda niż przyjaciel. Książka jest przyjacielem, który nigdy nie oszukuje. Książka to przyjaciel, który nigdy nie zdradza. Kto znalazł przyjaciela, skarb znalazł. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 40 Aforyzmy i przysłow ia - w ażona reprezentacja logarytmiczna, bez redukcji do rdzenia Metoda Warda Aforyzmy i przysłowia (3) Nie ten przyjaciel, co cię chwali, ale ten, co ci prawdę powie. Pewnego przyjaciela poznaje się w niepewnym położeniu. Pewnego przyjaciela poznaje się w sytuacji niepewnej. Ten przyjaciel, co prawdę mówi. Wierny bowiem przyjaciel potężną obroną, kto go znalazł, skarb znalazł. Milczenie byw a w ymow niejsze od mow y Często najmądrzejszą odpow iedzią jest milczenie Milsza praw da niż przyjaciel Ten przyjaciel, co praw dę mów i Mow a jest srebrem, lecz milczenie złotem Mow a słodsza niż miód Milczenie - przyjaciel, który nigdy nie zdradza Książka to przyjaciel. który nigdy nie zdradzi Książka jest przyjacielem, który nigdy nie oszukuje Nie ten przyjaciel, co cię chw ali, ale ten, co ci praw dę mów i Trucizna praw dy jest lepsza od miodu kłamstw a Pew nego przyjaciela poznaj się w niepew nym połozeniu Pew nego przyjaciela poznaje się w sytuacji niepew nej Kto znalazł przyjaciela, skarb znalazł Wierny bow iem przyjaciel potężną obroną, kto go znalazł, skarb znalazł 3 4 5 6 7 8 9 10 11 K. L. M. N. O. 38 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 41 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Odległość 42 w iąz. 7 2011-05-23 Klasyfikacja wybranych utworów literatury polskiej (1) Klasyfikacja wybranych utworów literatury polskiej (2) • • • • • • • • • • • • Adam Mickiewicz, Dziady III Juliusz Słowacki, Kordian Stanisław Wyspiaoski, Noc Listopadowa Stanisław Wyspiaoski, Wesele Bolesław Prus, Katarynka Henryk Sienkiewicz, Janko Muzykant Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 43 Maria Konopnicka, Nasza Szkapa Gabriela Zapolska, Moralnośd Pani Dulskiej Adam Mickiewicz, Pan Tadeusz Henryk Sienkiewicz, Krzyżacy (t. I) Eliza Orzeszkowa, Nad Niemnem (t. I) Władysław Reymont, Chłopi (t. I) Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Klasy f ikacja wy brany ch utworów literatury polskiej ważona reprezentacja logary tmiczna, bez redukcji do rdzenia Metoda Warda 44 Uruchamianie modułu „Text Miner” A. Mickiewicz, Dziady III J. Słowacki, Kordian S. Wy spiański, Noc Listopadowa S. Wy spiański, Wesele B. Prus, Katary nka H. Sienkiewicz, Janko Muzy kant M. Konopnicka, Nasza szkapa G. Zapolska, Moralność Pani Dulskiej A. Mickiewicz, Pan Tadeusz H. Sienkiewicz, Krzy żacy , t. I E. Orzeszkowa, Nad Niemnem, t. I W. Rey mont, Chłopi, t. I 0 20 40 60 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Odległość wiąz. 80 100 120 45 Pozyskiwanie tekstów do analizy Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 46 Arkusz zawierający informacje o analizowanych tekstach 47 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 48 8 2011-05-23 Przykład – aforyzmy (1) Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Przykład – aforyzmy (2) 49 Analiza – rozpoczęcie procesu Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 50 Macierzowa reprezentacja zbioru dokumentów 51 Karta Quick Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 52 Karta Advanced 53 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 54 9 2011-05-23 Karta Filters Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Karta Characters 55 Karta Index Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 56 Karta Synonyms & phrases 57 Karta Delimiters Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 58 Karta Project 59 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 60 10 2011-05-23 Karta Default Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Rozpoczęcie analizy – przycisk OK 61 Ostrzeżenie dotyczące bazy danych Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 62 Rezultaty obliczeo 63 Reprezentacja dokumentów Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 64 Macierz częstości (wystąpieo) element xij wskazuje, ile razy i-ty wiersz występuje w j-tym dokumencie Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 65 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 66 11 2011-05-23 Przycisk Summary of word occurance in document Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Przycisk Summary of words 67 Wybór układu wyświetlania informacji o dokumentach Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 68 Informacje o dokumentach 69 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 70 Przetwarzanie dokumentów tekstowych w języku R – pakiet tm Pakiet tm • • • • • • • tm – pakiet w języku R służący do przeprowadzania analiz text miningowych • pakiet nie jest instalowany w trakcie domyślnej instalacji pakietu R; konieczna jest jednokrotna instalacja za pomocą Packages / Install package(s) • załadowanie pakietu: library ("tm"); wymagane jest wcześniejsze zainstalowanie w systemie biblioteki libxml2 (parser XML) – dostępna bezpłatnie w Internecie (np. http://www.zlatkovic.com/libxml.en.html) Załadowanie pakietu Odczyt plików źródłowych i utworzenie kolekcji dokumentów Zastosowanie transformacji Filtracja dokumentów Utworzenie macierzy częstości ...dalsze przetwarzanie macierzy częstości Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 71 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 72 12 2011-05-23 Kolekcja dokumentów Kolekcja dokumentów • Tworzenie kolekcji dokumentów: • kolekcja = Corpus(źródło, parametryOdczytu,...) • źródło (object): – DirSource – odczyt ze wskazanego katalogu – CSVSource – odczyt z pliku zawierającego wartości oddzielone przecinkami (format CSV) – ReutersSource – odczyt z plików w formacie Reuters XML – VectorSource – dokumenty przechowywane są jako kolejne elementy wektora Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 73 Kolekcja dokumentów 74 Przykładowa kolekcja (korpus) > katalog=system.file("texts","reut21578",package="tm") > katalog [1] "C:/PROGRA~1/R/R-28~1.0/library/tm/texts/reut21578" > korpus <- Corpus(DirSource(katalog),readerControl=list(reader=readReut21578XML)) > korpus A text document collection with 10 text documents > • parametryOdczytu (readerControl) – lista elementów: • reader – wybór metody do odczytu dokumentów źródłowych – – – – Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie reader = readPlain (wartośd domyślna) reader = readPDF reader = readHTML reader = readNewsgroup • load = TRUE/FALSE – czy dokumenty mają zostad załadowane do pamięci operacyjnej, • language – language = "en_US" – http://msdn2.microsoft.com/en-us/library/ms776260(VS.85).aspx Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 75 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Przykładowa kolekcja (korpus) Przykładowa kolekcja (korpus) > katalog=system.file("texts","txt",package="tm") > katalog [1] "C:/PROGRA~1/R/R-28~1.0/library/tm/texts/txt" > korpus=Corpus(DirSource(katalog)) > korpus A text document collection with 5 text documents > > wektor=c("To jest pierwszy dokument","To jest drugi dokument","To jest trzeci dokument") > wektor [1] "To jest pierwszy dokument" "To jest drugi dokument" "To jest trzeci dokument" > korpus <- Corpus(VectorSource(wektor)) > korpus A text document collection with 3 text documents > 76 Uwaga: przedstawione powyżej przykładowe teksty są napisane po łacinie! Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 77 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 78 13 2011-05-23 Przykładowa kolekcja (korpus) Informacje dotyczące kolekcji > katalog <- "C:\\Documents and Settings\\User\\My Documents\\Wyklady\\Programowanie w jezyku R\\Aforyzmy" > show(kolekcja) A text document collection with 15 text documents > korp <- Corpus(DirSource(katalog,encoding="CP1250"),readerControl=list(language="pl_PL")) > summary(kolekcja) A text document collection with 15 text documents There were 15 warnings (use warnings() to see them) The metadata consists of 2 tag-value pairs and a data frame Available tags are: create_date creator Available variables in the data frame are: MetaID > korp A text document collection with 15 text documents > Wykorzystywane dane dostępne są pod adresem: http://www.uek.krakow.pl/~lulap/Aforyzmy.zip Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 79 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Informacje dotyczące kolekcji Informacje dotyczące kolekcji > inspect(kolekcja) A text document collection with 15 text documents [[6]] [1] "Trucizna prawdy jest lepsza od miodu kłamstwa." [[7]] [1] "Milsza prawda niż przyjaciel." The metadata consists of 2 tag-value pairs and a data frame Available tags are: create_date creator Available variables in the data frame are: MetaID [[8]] [1] "Książka jest przyjacielem, który nigdy nie oszukuje." [[9]] [1] "Książka to przyjaciel, który nigdy nie zdradzi." [[1]] [1] "Milczenie bywa wymowniejsze od mowy." [[10]] [1] "Kto znalazł przyjaciela, skarb znalazł." [[2]] [1] "Milczenie - przyjaciel, który nigdy nie zdradza." [[11]] [1] "Nie ten przyjaciel, kto cię chwali, ale ten, co ci prawdę mówi." [[3]] [1] "Często najmądrzejszą odpowiedzią jest milczenie." [[12]] [1] "Pewnego przyjaciela poznaje się w niepewnym położeniu." [[13]] [1] "Pewnego przyjaciela poznaje się w sytuacji niepewnej." [[4]] [1] "Mowa jest srebrem, lecz milczenie złotem." [[14]] [1] "Ten przyjaciel, co prawdę mówi." [[5]] [1] "Mowa słodsza niż miód." Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie [[15]] [1] "Wierny bowiem przyjaciel potężną obroną, kto go znalazł, skarb znalazł." 81 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Transformacje Przykładowa transformacja kolekcji dokumentów Transformacja – operacja przekształcająca każdy dokument w kolekcji > kolekcja <- tmMap(kolekcja,tmTolower) kolekcja = tmMap(kolekcja, funkcjaTransformująca) > inspect(kolekcja) A text document collection with 15 text documents funkcjaTransformująca: • loadDoc – załadowanie do pamięci • asPlain – przekształcenie do postaci tekstowej • stripWhiteSpace – usunięcie białych spacji • tmTolower – przekształcenie do małych liter • stopwords(język) – zastosowanie stop-listy • • 80 82 The metadata consists of 2 tag-value pairs and a data frame Available tags are: create_date creator Available variables in the data frame are: MetaID obsługiwane języki: danish, dutch, english, finnish, french, german, hungarian, italian, norwegian, portuguese, russian, spanish, swedish. stemDoc – redukcja do rdzenia (algorytm Portera) [[1]] [1] "milczenie bywa wymowniejsze od mowy." [[2]] [1] "milczenie - przyjaciel, który nigdy nie zdradza." [[3]] [1] "często najmądrzejszą odpowiedzią jest milczenie." .... Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 83 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 84 14 2011-05-23 Tworzenie macierzy częstości Tworzenie macierzy częstości Tworzenie macierzy częstości > TermDocMatrix(korp) [1] "lapply" An object of class “TermDocMatrix” Slot "Data": 15 x 52 sparse Matrix of class "dgCMatrix" [[ suppressing 52 column names „bywa‟, „milczenie‟, „mowy‟ ... ]] TermDocMatrix(object, control = list(........)) 1 1111................................................ 2 .1..11111........................................... 3 .1.......1111....................................... 4 .1........1..1111................................... 5 ..............1..111................................ 6 ..........1.........11111........................... 7 .......1..........1......11......................... 8 ....111...1................111...................... 9 ....1111...................1..1..................... 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 2 . . . . . . . . . . . . . . . . . 11 . . . . . 1 . 1 . . . . . . . . . . . . . . . . . . . . . . . 1 . . . 1 1 1 1 1 2 . . . . . . . . . . . 12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . . 1 1 1 1 1 . . . . . . 13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . . . 1 . 1 1 1 1 . . . . 14 . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 . . . . . . . . . . . 15 . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . 1 . 1 2 . . . . . . . . . . . . . 1 1 1 1 Dopuszczalne parametry: •removeNumbers – domyślnie FALSE. •stemming – domyślnie FALSE. •stopwords: domyślnie FALSE •minDocFreq: domyślnie: 1 •minWordLength: domyślnie: 3 •weighting: • • • • weightTf – macierz czestości, weightTfIdf – ważona reprezentacja logiczna, weightBin – reprezentacja binarna, weightLogical – reprezentacja binarna (wartości logiczne TRUE/FALSE). Slot "Weighting": [1] "term frequency" Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 85 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 86 Nazwy kolumn i wierszy w macierzy częstości Konwersja macierzy rzadkiej do postaci standardowej > colnames(mc@Data) [1] "bywa" "milczenie" "mowy" "wymowniejsze" "który" "nie" "nigdy" "przyjaciel" "zdradza" "często" "jest" "najmądrzejszą" "odpowiedzią" "lecz" > mc <- TermDocMatrix(kolekcja) [15] "mowa" "kłamstwa" "książka" "srebrem" "złotem" "miód" "lepsza" "miodu" "prawdy" [29] "oszukuje" "przyjacielem" "zdradzi" "znalazł" "ale" "chwali" "cię" "niepewnym" "niż" "trucizna" "kto" "mówi" [43] "pewnego" "położeniu" "poznaje" "się" "bowiem" "obroną" "potężną" "wierny" "słodsza" "milsza" > mcStandard = as.matrix(mc@Data) "prawda" "przyjaciela" "skarb" "prawdę" "ten" "niepewnej" "sytuacji" > rownames(mc@Data) [1] "1" "2" "3" "4" "5" "6" "7" "8" "9" "10" "11" "12" "13" "14" "15" > Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 87 Macierz częstości w postaci standardowej macierzy Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 88 Nazwy kolumn i wierszy w macierzy częstości > colnames(mcStandard) [1] "bywa" "milczenie" "mowy" "wymowniejsze" "który" "nie" "nigdy" "przyjaciel" "zdradza" "często" "jest" "najmądrzejszą" "odpowiedzią" "lecz" > mcStandard Docs Terms bywa milczenie mowy wymowniejsze który nie nigdy przyjaciel zdradza często jest najmądrzejszą odpowiedzią lecz mowa srebrem z łotem miód niż słodsza kłamstwa lepsza miodu prawdy trucizna milsza prawda książka oszukuje przyjacielem 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 1 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 1 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 1 0 0 0 0 0 0 0 0 1 0 0 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 6 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 7 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 1 0 0 0 8 0 0 0 0 1 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 9 0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 10 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 11 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 12 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 13 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 14 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 15 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Docs Terms zdradzi kto przyjaciela skarb znalazł ale chwali cię mówi prawdę ten niepewnym pewnego położeniu poznaje się niepewnej sytuac ji bowiem obroną potężną wierny 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 9 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 10 0 1 1 1 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 11 0 1 0 0 0 1 1 1 1 1 2 0 0 0 0 0 0 0 0 0 0 0 12 0 0 1 0 0 0 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 13 0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 1 1 1 0 0 0 0 14 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 15 0 1 0 1 2 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 > [15] "mowa" "kłamstwa" "książka" "srebrem" "złotem" "miód" "lepsza" "miodu" "prawdy" [29] "oszukuje" "przyjacielem" "zdradzi" "znalazł" "ale" "chwali" "cię" "niepewnym" "niż" "trucizna" "kto" "mówi" [43] "pewnego" "położeniu" "poznaje" "się" "bowiem" "obroną" "potężną" "wierny" "słodsza" "milsza" "prawda" "przyjaciela" "skarb" "prawdę" "ten" "niepewnej" "sytuacji" > rownames(mcStandard) [1] "1" "2" "3" "4" "5" "6" "7" "8" "9" "10" "11" "12" "13" "14" "15" > Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 89 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 90 15 2011-05-23 Przykładowa analiza taksonomiczna Automatyczna redukcja do rdzenia dla tekstów polskojęzycznych Cluster Dendrogram > odl=dist(mcStandard) • Dawid Weiss – lematyzator hybrydowy; http://www.cs.put.poznan.pl/dweiss/xml/projects/lametyzato r/index.xml 8 3 9 14 2 11 7 5 15 13 12 10 2 1 4 6 3 Height 4 5 > klas <- hclust(odl,method="ward") > plot(klas) > odl hclust (*, "ward") Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 91 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 92 Cele badao • Celem ogólnym było wypracowane i ocena metody analizy danych tekstowych (dokumenty polskojęzyczne, o ściśle określonej tematyce): – automatyczne pozyskanie tekstów z serwisów WWW, – wstępne przygotowanie tekstów, – pozyskanie z dokumentów informacji istotnych ze względu na cel analizy i ich reprezentacja w postaci dogodnej do dalszego przetworzenia, – analiza za pomocą metod statystycznych. EKSPLORACYJNA ANALIZA OFERT Z RYNKU NIERUCHOMOŚCI Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie • Celem szczegółowym była analiza tekstów ofert sprzedaży mieszkao w Krakowie. 93 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Serwisy WWW jako źródło danych tekstowych (1) Serwisy WWW jako źródło danych tekstowych (2) Problem 1: Strony definiowane są w języku HTML (xHTML, XML) i zawierają dużą liczbę znaczników. Problem 2: Ręczne pobieranie danych (kopiujwklej) jest bardzo powolne i nużące. <div id="osgs_head_r0"></div><div id="linkcheck"></div><div id="osgs_wrapper"><div id="osgs_main"><a name="osgs_main"></a><div id="osgs_header"><div id="osgs_head_r1"><ul class="topLinks"><li><a href="#" id="setHomePage" rel="nofollow" onclick="return NowaSg.setAsStartShow(this, 'http://www.onet.pl/');">Ustaw jako stronę startową</a><div class="startHelp" id="nsg_homepage_box"><div class="startHelpInner"><div class="startTop"> <a class="drag" href="#">Przeciągnij i upuść</a> <ol> <li>Przeciągnij i upuść "żółtą kropkę" na ikonę strony startowej (domek) na pasku przeglądarki</li> <li>Potwierdź wybór, klikając "Tak"</li> </ol></div><p><em>Możesz również:</em>Wybrać zakładkę "Narzędzia" następnie "Opcje". Wpisać <strong>onet.pl</strong> w polu"Strona startowa" i potwierdzić klikając "OK"</p><a rel="nofollow" class="close" href="#" onclick="return NowaSg.switchHomePageBox('nsg_homepage_box', false);">Zamknij</a> </div></div></li><li><a id="switchpleu" rel="nofollow” Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 95 94 Problem 3: Na różnych stronach mogą byd stosowane różne metody kodowania znaków Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 96 16 2011-05-23 Serwisy WWW jako źródło danych tekstowych (3) Źródło danych w przeprowadzonych badaniach • Rozwiązaniem jest zastosowanie oprogramowania: – – – – analizującego kod HTML znajdujący się na stronie (parser HTML), wędrującego automatycznie po stronach (pająki sieciowe), pobierającego fragmenty zawartości strony, zmieniającego sposób kodowania tekstów. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 97 Charakterystyka procesu pozyskania danych 98 Przykładowa oferta • Wykorzystano samodzielnie skonstruowanego pająka sieciowego przechodzącego po stronach zawierających oferty zgodne ze zdefiniowanym zapytaniem (sprzedaż mieszkao, Kraków) – program zaimplementowany został w języku Java • Do analizy strony z opisem jednej oferty wykorzystano parser: Jericho HTML (http://jericho.htmlparser.net/docs/index.html). • Do ujednolicenia sposobu kodowania wykorzystano program Gżegżółka (http://www.gzegzolka.com/). • Liczba pozyskanych ofert: 10697 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Teksty częściowo ustrukturyzowane, o ściśle określonej tematyce. Kraków, Ruczaj-zaborze, Zalesie W trakcie analizy pojawia się cena: 355000 PLN (6920 PLN/m?2;) koniecznośd uwzględnienia Ulica: Zalesie kontekstu wyrazów. Piętro: parter Liczba kondygnacji: 4 Typ kuchni: do własnej aranżacji, jasna, oddzielna, Hipoteczne; Czynsz: 250.00 zł; Budynek: blok, cegła, nowe budownictwo nowy; Standard mieszkania: do wprowadzenia; Dodatkowo: garderoba, nie ma piwnicy, balkon, drzwi antywłamaniowe, winda, teren ogrodzony, domofon; W pobliżu: sklepy, usługi, basen, fitness, kościół, przedszkole, szkoła, tereny rekreacyjne, Uniwersytet Jagiellooski; Rozkład: do własnej aranżacji, ustawne, dwustronny, jasny, korzystny układ, pokoje nieprzechodnie; Ogrzewanie: centralne własne w budynku; Mieszkanie 2 pokoje nowe51,3m2 , wykooczone Ruczaj ul Zalesie od ulicy Zachodniej. Mieszkanie na parterze w czteropiętrowym bloku. Pokoje 14m2, 12m2, kuchnia 8m2, łazienka 6,5m2. W przedpokoju miejsce na garderobę, kuchnia w koocowej wersji z umeblowaniem. Mieszkanie ekonomiczne własna kotłownia, baterie słoneczne na dachu- małe opłaty za ciepłą wodę. 99 Pozyskiwanie z dokumentów tekstowych informacji istotnych ze względu na cel analizy Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 100 Definicja wzorca opisujacego cenę mieszkania Phase: CenaMieszkania Input: Token //note that we are using Lookup and Token both inside our rules. // Cena // - calosc // - cenam2 // - jednostka • Należy zdefiniowad szablony opisujące istotne frazy oraz podad sposób interpretacji poszczególnych elementów. • Narzędzie: język JAPE - Java Annotation Patterns Engine – język pozwalający na definiowanie wzorców za pomocą mechanizmu wyrażeo regularnych. • Implementacja: pakiet GATE – General Architecture for Text Engineering (http://gate.ac.uk/) Options: control = all Rule: cenaMieszkania ( ( ) ( ):tempCalosc ( ):tempJednostka ( ) ( ):cena ):tempCenam2 {Token.string =~ "[Cc]ena"} {Token.kind == "punctuation"} {Token.kind == "number"} {Token.kind == "word", Token.length ==3} {Token.kind == "punctuation"} {Token.kind == "number"} --> :cena.Cena = {calosc = :tempCalosc.Token.string, cenam2 = :tempCenam2.Token.string,jednostka = :tempJednostka.Token.string, rule = cenaMieszkania} Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 101 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 102 17 2011-05-23 Definicja wzorca opisujacego liczbę pokoi w mieszkaniu (1) Definicja wzorca opisujacego liczbę pokoi w mieszkaniu (2) Phase: LiczbaPokoi Input: Token ule:jedenPokoj Priority:40 ( ( Options: control = appelt ) | ( Rule:pomin1 Priority:50 ( {Token.string =~ "[Pp]okój"} {Token.string =~ "[Pp]ołączon"} ) --> {} ) | ( ) | ( ) {Token.string =~ "[Kk]awalerka"} {Token.string =~ "[Jj]ednopokojow"} {Token.string =~ "[Jj]eden"} {Token.string =~ "[Pp]okój"} {Token.string =~ "[Po]okój"} {Token.string =~ "z"} {Token.string =~ "aneks"} ):tempJeden --> :tempJeden.LiczbaPokoi = {ile = "1", rule = jedenPokoj} Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 103 Definicja wzorca opisujacego liczbę pokoi w mieszkaniu (3) Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 104 Anotacje w programie GATE Rule:dwaPokoje Priority:38 ( ( {Token.string =~ "[Dd]wupokojowe"} ) | ( {Token.string =~ "[Dd]w[au]"} {Token.string =~ "[Pp]oko[ij]"} ) | ( {Token.string =~ "2"} {Token.string =~ "pokoje"} ) ):tempDwa --> :tempDwa.LiczbaPokoi = {ile = "2", rule = dwaPokoje} Ciąg dalszy w sposób analogiczny ... Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 105 Pobieranie z dokumentów zidentyfikowanych informacji Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 106 Wczytanie danych do programu STATISTICA <?xml version="1.0"?> <ML-CONFIG> <SURROUND value="false"/> <DATASET> <INSTANCE-TYPE>LiczbaPokoi</INSTANCE-TYPE> <NGRAM> <NAME>LiczbaPokoi</NAME> <NUMBER>1</NUMBER> <CONSNUM>1</CONSNUM> <CONS-1> <TYPE>LiczbaPokoi</TYPE> <FEATURE>ile</FEATURE> </CONS-1> </NGRAM> <ValueTypeNgram>2</ValueTypeNgram> </DATASET> </ML-CONFIG> Po wczytaniu usunięto powtarzające się przypadki – najprawdopodobniej opisy tych samych mieszkao. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 107 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 108 18 2011-05-23 Wybrane przykłady wizualizacji danych Wybrane przykłady wizualizacji danych Histogram Powierzchnia Histogram Cena 2600 3500 2400 3000 2200 2000 2500 1800 Liczba obs. Liczba obs. 1600 1400 1200 1000 800 2000 1500 1000 600 400 500 200 0 1,0000 37,7211 74,4423 111,1634 147,8845 184,6057 221,3268 19,3606 56,0817 92,8028 129,5240 166,2451 202,9662 0 99999 5E5 3E5 9E5 7E5 1,3E6 1,7E6 1,1E6 Powierzchnia 1,5E6 2,1E6 1,9E6 2,5E6 2,3E6 Cena Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 109 Wybrane przykłady wizualizacji danych Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 110 Wybrane przykłady wizualizacji danych Histogram Cena-m2 Histogram Kuchnia 2000 8000 1600 7000 1400 6000 1200 5000 Liczba obs. Liczba obs. Arkusz21 1v*10682c 1800 1000 800 4000 3000 600 400 2000 200 1000 0 0 738,4 3696,0 6653,6 9611,2 12568,8 15526,4 18484,0 2217,2 5174,8 8132,4 11090,0 14047,6 17005,2 19962,8 aneks bd oddzielna polaczona Kuchnia Cena-m2 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 111 Wybrane przykłady wizualizacji danych Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 112 Wybrane przykłady wizualizacji danych Histogram Liczba pokoi Histogram Piętro 7000 2200 2000 6000 1800 5000 1600 Liczba obs. Liczba obs. 1400 4000 3000 1200 1000 800 2000 600 400 1000 200 0 0 1 2 3 4 0 5 -1 Liczba pokoi Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Piętro 113 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 114 19 2011-05-23 Wybrane przykłady wizualizacji danych Wybrane przykłady wizualizacji danych Ramkowy Cena-m2 grupowane względem Kuchnia Histogram RodzajBud dane.sta 8v*10682c 5000 24000 22000 20000 4000 18000 14000 Cena-m2 Liczba obs. 16000 3000 2000 12000 10000 8000 6000 4000 1000 2000 0 0 -2000 kamienica blok bd apartamentowiec osiedleZamkniete oddzielna polaczona aneks bd Średnia Średnia±Odch.std Zakres nieodstających Kuchnia RodzajBud Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 115 Wybrane przykłady wizualizacji danych Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 116 Wybrane przykłady wizualizacji danych Ramkowy Cena-m2 grupowane względem RodzajBud Ramkowy Powierzchnia grupowane względem Kuchnia 280 dane.sta 8v*10682c 26000 260 24000 240 22000 20000 200 18000 180 16000 160 14000 Cena-m2 Powierzchnia 220 140 120 12000 10000 8000 100 6000 80 4000 60 2000 40 0 20 -2000 0 aneks bd oddzielna polaczona kamienica Średnia Średnia±Odch.std Zakres nieodstających bd blok apartamentowiec osiedleZamkniete Średnia Średnia±Odch.std Zakres nieodstających RodzajBud Kuchnia Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 117 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Podsumowanie Sied semantyczna • Przedstawiona metoda analizy sprawdza się przy analizie tekstów o ściśle określonej tematyce (oferty, raporty, opinie konsumentów, notatki służbowe). • Najważniejszym (i najbardziej czasochłonnym) jest zdefiniowanie wzorców – całkowite zautomatyzowanie tego procesu wydaje się niemożliwe. • Zdefiniowane wzorce mogą byd wielokrotnie użyte! • Sied semantyczna – struktura złożona z połączonych ze sobą węzłów. • Węzły reprezentują obiekty. • Połączenia reprezentują związki zachodzące pomiędzy obiektami. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 119 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 118 120 20 2011-05-23 Przykładowa sied semantyczna WordNet jako sied semantyczna • sied semantyczna prezentująca relacje pomiędzy słowami języka angielskiego • utworzona w Uniwersytecie Princeton w 1985 roku • zawiera około 150000 słów • udostępniana bezpłatnie uczy się w Bank BPH Marcin pracuje w SP nr 4 jest ojcem Jacek ma żonę lubi muzykę Krysia Czerwone Gitary pracuje w przychodnia Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 121 WordNet jako sied semantyczna Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 122 Podstawowe relacje występujące w sieci WordNet • prawie synonimy • nadklasa – podklasa (pojęcie bardziej ogólne / pojęcie bardziej szczegółowe) • częśd – całośd – samochód – auto – błąd - pomyłka – drzewo – klon, – zwierzę – ptak, ptak – jastrząb – lampa – żarówka – komputer – procesor – procesor – akumulator • relacja przeciwstawna • zawieranie się jednej czynności w drugiej (tzw. troponimy, relacja dotyczy wyłącznie czasowników) – wysoki – niski – dobry – zły – iśd – spacerowad – mówid – przemawiad Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 123 Polski WordNet Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 124 Polski WordNet • Sied semantyczna tworzona dla słów języka polskiego • Projekt rozwijany na Politechnice Wrocławskiej • prace rozpoczęto w 2005 roku Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 125 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 126 21 2011-05-23 Sied semantyczna Ontologia • • • • • w filozofii: opisuje wybrany fragment rzeczywistości, pozwala na zaawansowane wyszukiwanie informacji, umożliwia wnioskowanie, podstawowy problem – brak ujednoliconego sposobu opisu relacji zachodzących pomiędzy obiektami – nauka o bycie, • w informatyce: – pojęcie występuje w literaturze z zakresu informatyki od połowy lat sześddziesiątych – Ontologia stanowi wspólną reprezentację pewnej dziedziny działalności ludzkiej, która może byd wykorzystana jako platforma porozumienia pozwalająca na spójne podejście do rozwiązywania problemów w tej dziedzinie. Ontologia obejmuje pewną wizję świata ograniczoną do danej dziedziny. Taka wizja zazwyczaj jest wyrażana jako zbiór pojęd, definicji tych pojęd oraz ich wzajemnych powiązao. Taką reprezentację dziedziny nazywamy często jej konceptualizacją (Mike Uschold - Artificial Intelligence Application Institute, University of Edinburgh – podstawowe zadania ontologii: • kategoryzacja, • hierarchizacja. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 127 Język XML Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Struktura przykładowego magazynu • XML - Extensible Markup Language – Rozszerzalny język znaczników • Funkcje realizowane przez XML: Magazyn – opis struktury informacji – przechowywanie danych – opis sposobu przetwarzania informacji Towar Nazwa: Chleb wiejski Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 129 Producent: Piekarnia tradycyjna Towar Cena: 1,70 Nazwa: Zapałki Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Przykładowy kod w XML ... <?xml version="1.0" encoding="ISO-8859-2"?> <?xml-stylesheet type="text/css" href="styl.css" ?> <!DOCTYPE MAGAZYN [ <!ELEMENT NAZWA (#PCDATA)> <!ELEMENT PRODUCENT (#PCDATA)> <!ELEMENT CENA (#PCDATA)> <!ELEMENT TOWAR (NAZWA, PRODUCENT?, CENA)> <!ELEMENT TYTUL (#PCDATA)> <!ELEMENT MAGAZYN (TYTUL?,TOWAR+)> ]> <MAGAZYN> Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 128 Cena: 0,35 130 <TYTUL>STAN MAGAZYNU</TYTUL> <TOWAR> <NAZWA>Chleb wiejski</NAZWA> <PRODUCENT>Piekarnia "Tradycyjna"</PRODUCENT> <CENA>1.70</CENA> </TOWAR> <TOWAR> <NAZWA>Masło domowe</NAZWA> <PRODUCENT>Społdzielnia Mleczarska</PRODUCENT> <CENA>2.50</CENA> </TOWAR> <TOWAR> <NAZWA>Zapałki</NAZWA> <CENA>0.35</CENA> </TOWAR> </MAGAZYN> 131 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 132 22 2011-05-23 Przetwarzanie zasobów sieci semantycznej Definiowanie stwierdzeo w języku RDF • Warunkiem pozwalającym na przetwarzanie zasobów jest stosowanie ujednoliconego zastawu znaczników opisujących zasoby przechowywane w sieci • RDF - Resource Description Framework - Ramowy opis zasobów • RDF pozwala na definiowanie stwierdzeo dotyczących zasobów dostępnych w sieci. • Stwierdzenia: – dotyczą określonego zasobu - (identyfikowanego przez URL), – definiują jego cechy, – określają wartości zdefiniowanych cech – narzędzie pozwalające na definiowanie metadanych (znaczników) służących do opisu zasobów sieci. – RDF pozwala na definiowanie stwierdzeo dotyczących zasobów dostępnych w sieci (obiekt, cecha, wartośd) • DAML • OIL • OWL Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 133 ... Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 134 Zbiory przykładowych ontologii <DESCRIPTION ABOUT=”http://sklep.com.pl/Ksiazki/ISBN/1289”> <AUTOR>Jan Iksioski</AUTOR> <TYTUL>Finanse</TYTUL> <STRESZCZENIE>Jest to bardzo interesująca pozycja z zakresu finansów </STRESZCZENIE> <CENA>56,50</CENA> </DESCRIPTION> Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 135 Zalety stosowania ontologii Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 136 Tworzenie ontologii • ujednolicenie sposobu opisu: – możliwośd komunikacji – możliwośd weryfikacji poprawności zapisu • możliwośd automatyzacji wyszukiwania i przetwarzania informacji przez programy – agenty • pozwalają wyznaczyd wartości miar podobieostwa pomiędzy obiektami (koncepcjami) występującymi w ontologii Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 137 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 138 23 2011-05-23 Tworzenie ontologii Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie http://swoogle.umbc.edu/ 139 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 140 Określanie podobieostwa obiektów opisywanych za pomocą ontologii Wybrane propozycje metod pomiaru odległości pomiędzy drzewami • Przyjmując, że opis obiektu ma postad dokumentu XML, przy obliczaniu podobieostwa/odległości pomiędzy obiektami należy uwzględnid: • odległośd LSS – J. Long, D. G. Schwartz, S. Stoecklin, An XML Distance Measure • podobieostwo BBY – V. C. Bhavsar, H. Boley, L. Yang, A Weighted-Tree Similarity Algorithm for Multi-Agent Systems in E-business Environments – wartości wchodzących w skład drzewa – struktury drzewa. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 141 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Trudności w obiektywizacji wyboru formuły odległości Elementy pomiaru odległości pomiędzy drzewami • obie metody służą do wyrażenia odległości (podobieostwa) pomiędzy drzewami reprezentowanymi przez zapisy w języku XML konstrukcja obu mierników jest różna i różne są uzyskiwane wyniki trudno jest wskazad metodę „lepszą” – zależy to od rozpatrywanego problemu i przyjętych przez badacza założeo dokonywanie właściwego wyrażania odległości pomiędzy drzewami wymaga • – identyfikacji poszczególnych elementów wpływające na sposób wyrażania odległości pomiędzy drzewami – zdefiniowania sposobu ich funkcjonowania w sposób odpowiedni dla badanego problemu, uwzględniający przyjęte założenia i preferencje badacza. • • • • • • Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie • • 143 142 Pomiar odległości (podobieostwa) pomiędzy elementami (wartościami przechowywanymi w liściach drzew) Sposób traktowania atrybutów elementów Formuła agregacji odległości (podobieostwa) pomiędzy elementami składowymi Problem ważenia Sposób uwzględnienia informacji o zależnościach hierarchicznych Postępowanie w przypadku wystąpienia niezgodności w strukturach analizowanych drzew Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 144 24 2011-05-23 Reprezentacja zbioru pojęd • Pojęcie podstawowe – Klasa 1 • Klasa 1.1 – Klasa 1.1.1 – Klasa 1.1.2 – ... • Klasa 1.2 – Klasa 1.2.1 – Klasa 1.2.2 – ... • ... – Klasa 2 Przykład • Klasa 2.1 EKSPLORACYJNA ANALIZA TEKSTÓW WSPOMAGANA ZA POMOCĄ ONTOLOGII • Klasa 2.2 – ... – ... • ... – Klasa 3 Struktura klas jest zwykle reprezentowana za pomocą drzewa. Do zapisu drzewa wykorzystywane są języki bazujące na języku XML. • ... – ... Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 145 Klasyfikacja zagadnieo z zakresu informatyki Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 146 Klasyfikacja zagadnieo z zakresu informatyki 147 Klasyfikacja zagadnieo z zakresu informatyki Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 148 Klasyfikacja zagadnieo z zakresu informatyki 149 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 150 25 2011-05-23 Podobieostwo pomiędzy klasami występującymi w ontologii Podobieostwo semantyczne wyznaczane na podstawie WordNet’u C0 C1 C2 Dekang Lin: informacje wspólne sim(C1 , C2 ) suma informacji o klasach sim(C1 , C2 ) sim(C1, C2 ) I C0 I C1 I C2 2 logP C0 logP C1 logP C2 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 151 Podobieostwo pomiędzy zbiorami pojęd Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie Reprezentacja treści kształcenia określonych w standardach kształcenia dla kierunku Informatyka i Ekonometria H.1.0 H.4.1 H.4.2 H.4.3 C.0 J.4 J.4 H.1.0 H.5.4 H.4.3 C.2.1 C.2.5 C.2.6 H.3.3 J.7 K.4.4 J.4 H.4.1 J.4 J.1 J.1 J.4 J.1 sim(Zb1 , Zb2 ) avgCi , C j , Ci Zb1 , C j Zb2 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 153 Ocena charakteru przedmiotu Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 152 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie K.6.0 K.6.4 K.6.1 F.2 J.1 K.4.4 K.6.5 C.2.0 E.3 K.5 K.6.0 J.1 K.6.1 J.1 H.1.1 H.1.2 154 Związki pomiędzy przedmiotami 155 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 156 26 2011-05-23 Związki pomiędzy przedmiotami a klasami zagadnieo występującymi w ontologii ACM Podsumowanie • Prawidłowo zaplanowana i zrealizowana analiza danych tekstowych wykorzystująca pojęcia zdefiniowane w postaci ontologii daje lepsze rezultaty niż podejście text miningowe. • Konieczne są dalsze badania w zakresie: – zastosowania innych miar podobieostwa/odległości pomiędzy klasami – zastosowania innych miar podobieostwa/odległości pomiędzy zbiorami klas. • Celowe jest opracowanie klasyfikacji pojęd objętych kształceniem na kierunkach ekonomicznych i przeprowadzenie analizy oferowanych programów. Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 157 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 158 27