Ogólna charakterystyka Web Miningu

Transkrypt

Ogólna charakterystyka Web Miningu
2011-05-23
Pismo
Pismo, system znaków, pozwalających na widzialne utrwalanie
myśli w konkretnym języku. Pismo pojawiło się stosunkowo
późno (ok. 5-6 tys. lat temu). Istniały też społeczeostwa wysoko
rozwinięte, które nie posiadały swego pisma, nawet dziś nie
posługuje się nim wiele mln ludzi. Pismo wynajdywano
kilkakrotnie i całkowicie odrębnie w wielu centrach kulturowych.
Text Mining
Web Mining
Wykład 2.
http://portalwiedzy.onet.pl/17801,,,,pismo,haslo.html
Rok akademicki: 2010/2011
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Rodzaje pisma
Znaczenie informacji tesktowej
Rodzaje pisma:
• piktograficzne (obrazkowe) - przedmioty i czynności zapisywane
są za pomocą piktogramów (obrazków),
• ideograficzne - idee i pojęcia zapisywane są za pomocą
ideogramów, przedstawiających abstrakcyjne pojęcia; to kolejny
etap ewolucji pisma w stosunku do piktogramów. Ideogramy to
obecnie m.in. niewielka częśd chioskich znaków,
• fonetyczne - symbole przedstawiają dźwięki.
•
http://pl.wikipedia.org/wiki/Pismo
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
3
•
Z punktu widzenia człowieka tekst jest najlepszym nośnikiem informacji w
czasie i przestrzeni
Zalety:
– zrozumiałośd
– łatwośd przetwarzania przez człowieka
•
Wady:
– szybkie zwiększanie się zasobów tekstowych
• Badania przeprowadzone przez IBM wskazują, że:
– 80 procent zasobów informacyjnych organizacji ma postad nieustrukturyzowaną i ich
znaczenie ciągle rośnie;
– pracownik organizacji w ciągu roku traci około 6 tygodni roboczych czasu na
poszukiwanie zaginionych informacji;
– około 30 – 40% czasu pracy pracownik poświęca na przetwarzanie dokumentów
–
–
–
–
–
powolne przetwarzanie przez człowieka
trudności w automatyzacji przetwarzania
wielojęzykowośd,
trudności w ocenie jakości informacji zawartych w tekście,
zaszumienie tekstu
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Automatyzacja procesów przetwarzania tekstów
Dwa podejścia do zagadnienia automatyzacji przetwarzania
języka naturalnego
• Zastąpienie lub wspomożenie człowieka w realizacji zadao
związanych z:
• Podejście formalne:
–
–
–
–
–
–
–
4
– oparte na założeniu o istnieniu formalnego modelu języka,
– przetwarzanie oparte na regułach opisujących sposób przetwarzania
symboli składających się na dokument.
pozyskiwaniem informacji z zasobów tekstowych,
klasyfikacji bezwzorcowej dokumentów,
klasyfikacji wzorcowej,
analiza związków pomiędzy dokumentami,
generowaniem streszczeo,
automatycznym tłumaczeniem,
wizualizacją struktury kolekcji dokumentów i związków istniejących
pomiędzy poszczególnymi dokumentami.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
2
• Podejście statystyczne:
– oparte na analizie statystycznej zawartości przetwarzanych
dokumentów,
– model języka i model wiedzy dziedzinowej ma charakter
wspomagający.
5
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
6
1
2011-05-23
Podejście formalne – test Turinga (1950)
Podejście formalne – system Eliza
• Test Turinga (1950) – metoda oceny zdolności maszyny do
posługiwania się językiem naturalnym
• ELIZA – program symulujący psychoanalityka, napisany w 1966
przez Josepha Weizenbauma (ur. 8 stycznia 1923 w Berlinie,
zm. 5 marca 2008 w Berlinie).
• Eliza w Internecie: http://www-ai.ijs.si/eliza/eliza.html
?
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
7
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Podejście formalne – koncepcja uniwersalnej gramatyki
Podejście formalne – język Prolog
• Noam Chomsky (ur. 1928, Amerykanin o korzeniach ukraioskobiałoruskich) – lingwista, działacz polityczny:
• Program w Prologu zawiera:
– głosił istnienie "uniwersalnej gramatyki", stanowiącej rdzeo wszystkich
języków i mającej charakter wrodzony,
– jego prace ukierunkowane były na odkrywanie zasad rządzących
przetwarzaniem mowy (gramatyki formalne).
8
– bazę wiedzy,
– bazę reguł.
• Program realizuje proces wnioskowania.
• Charakterystyka podejścia Chomsky'ego:
– przetwarzanie symboli,
– opis za pomocą formalnych reguł,
– mająca na celu stworzenie formalnej teorii języka.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
9
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
10
Podejście statystyczne – analiza statystyczna dokumentów
Podejście statystyczne – twierdzenie Bayesa
•
•
•
•
• Thomas Bayes (1702 – 17 kwietnia 1761) brytyjski matematyk
i pastor prezbiteriaoski
• Twierdzenie Bayesa:
Liczba wystąpieo poszczególnych słów, fraz, zdao.
Wiedza o języku ma znaczenie wspomagające.
Metody są w dużym stopniu niezależne od języka dokumentu.
Analiza statystyczna określana jest mianem "analizy płytkiej"
(w odróżnieniu od "analizy głębokiej" wykorzystującej wiedzę
na temat języka).
• Stosowane jest zarówno podejście opisowe jak i
probabilistyczne.
P A | B  
P  B | A   P  A
P B 
• Przykład:
PSPAM | viagra 
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
11
Pviagra | SPAM  PSPAM 
Pviagra
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
12
2
2011-05-23
Podejście statystyczne – Andriej Markov
Podejście statystyczne – Data mining
• Andriej Markov - (ur. 14 czerwca 1856, zm. 20 lipca 1922),
matematyk rosyjski.
• Proces Markowa – ciąg zdarzeo, w którym
prawdopodobieostwo każdego zdarzenia zależy jedynie od
wyniku poprzedniego
• Przykład:
Data mining to określenie grupy metod szeroko rozumianej
analizy danych mających na celu identyfikację nieznanych
wcześniej prawidłowości występujących w dużych zbiorach
danych. Powstałe wyniki mają postad łatwą do interpretacji
przez prowadzącego badania.
– trzy stany: S1, S2, S3
– pij – prawdopodobieostwo przejścia
S1
S2
s3
S1
p11
p12
p13
S2
p21
p22
p23
S3
p31
p32
p33
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Eugeniusz Gatnar, 1997
13
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Podejście statystyczne – Text Mining
Przebieg analizy text miningowej
• Text mining – proces mający na celu wydobycie z zasobów
tekstowych nieznanych wcześniej informacji (Marti A. Hearst,
1999).
• Korzenie text miningu:
• Określenie celu, zakresu i kosztów badao,
• Wstępne przetworzenie dokumentów,
• Określenie sposobu reprezentacji informacji zawartych w
dokumentach,
• Konstrukcja modelu,
• Realizacja obliczeo,
• Ocena modelu,
• Interpretacja uzyskanych wyników.
–
–
–
–
–
–
–
Data mining,
Uczenie maszynowe,
Przetwarzanie języka naturalnego,
Wyszukiwanie informacji,
Statystyka,
Matematyka (algebra liniowa),
Informatyka.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
15
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Cel, zakres, koszty
Wstępne przetworzenie dokumentów
• Identyfikacja typu rozpatrywanego problemu:
•
•
•
•
–
–
–
–
–
klasyfikacja wzorcowa,
klasyfikacja bezwzorcowa (analiza skupieo),
współwystępowanie zjawisk,
określenie podobieostwa (np. identyfikacja plagiatów),
...
14
16
Transformacja dokumentów do postaci tekstowej,
Usunięcie znaków formatujących,
Ujednolicenie sposobu kodowania znaków.
Program Gżegżółka: http://www.gzegzolka.com/
• Sformułowanie celu zadania badawczego,
• Relacje pomiędzy celem, zakresem i budżetem badao.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
17
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
18
3
2011-05-23
Reprezentacja dokumentów tekstowych (1)
Reprezentacja dokumentów tekstowych (2)
• Reprezentacja unigramowa (model przestrzeni wektorowej,
reprezentacja bag-of-words, BOW)
• A vector space model for automatic indexing (1975), by G.
Salton, A. Wong, C. S. Yang, Communications of the ACM
• Reprezentacja n-gramowa
• pozwala uwzględnid n-wyrazowe ciągi wyrazów (np. "biały
kruk")
X=
Dokumenty
xij – liczba wystąpieo i-tego
wyrazu w j-tym dokumencie
Dokumenty
Wyrazy
Nie uwzględnia kolejności
wyrazów w tekście!
xij – liczba wystąpieo i-tego
ciągu w j-tym dokumencie
n-wyrazowe
fragmenty
tekstu
X=
Jeśli w oznacza liczbę różnych
wyrazów, to liczba wierszy
w macierzy X wynosi wn.
Najpopularniejszy sposób
reprezentacji dokumentów.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
19
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Reprezentacja dokumentów tekstowych (3)
Reprezentacja dokumentów tekstowych (4)
• Reprezentacja unigramowa wzbogacona o informację o
pozycji danego słowa w dokumencie
• pozwala na badanie miejsca wystąpienia poszczególnych słów,
co jest istotne z punktu widzenia dwóch popularnych
heurystyk:
• Reprezentacja pojęd złożonych, idei, faktów
– słowa rozmieszczone równomiernie mają zwykle mniejsze znaczenie
niż słowa, których występowanie ograniczone jest do pewnego
fragmentu,
– w podobnych dokumentach miejsca, w których występuje natężenie
wystąpieo słowa są zbliżone.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Dokumenty
X=
xij – liczba wystąpieo i-tego
pojęcia w j-tym dokumencie
Pojęcia,
idee,
fakty
Konieczna jest identyfikacja
pojęd w dokumencie.
Pojęcie reprezentowane jest
zwykle przez strukturę złożoną:
listę, drzewo, graf, ...
21
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Tworzenie macierzy częstości (BOW – bag-of-words)
Wyznaczanie macierzy częstości BOW (1)
• Podział dokumentów na wyrazy,
• Usunięcie wyrazów nieistotnych (zawartych na stop-liście),
• Przekształcenie wyrazów do formy podstawowej (redukcja do
rdzenia),
• Utworzenie macierzy częstości,
• Przekształcenie macierzy częstości.
• Podział dokumentów na wyrazy
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
20
23
22
Mowa jest srebrem, lecz milczenie złotem.
↓
mowa
jest
srebrem
lecz
milczenie
złotem
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
24
4
2011-05-23
Wyznaczanie macierzy częstości BOW (2)
Wyznaczanie macierzy częstości BOW (3)
• Usunięcie słów nieistotnych (stop-lista)
• Przekształcenie wyrazów do formy podstawowej (rdzenia) –
jest tzw. stemming
Mowa jest srebrem, lecz milczenie złotem.
↓
mowa
jest
srebrem
lecz
milczenie
złotem
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Mowa jest srebrem, lecz milczenie złotem.
↓
mowa - mowa
jest - byd
srebrem - srebro
lecz - lecz
milczenie - milczenie
złotem - złoto
25
...
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
26
Wyznaczanie macierzy częstości BOW (4)
• Metody redukcji do rdzenia (stemming):
• Utworzenie wspólnej listy dla wszystkich dokumentów
– regułowa
• algorytm Lovins – opisany w: Julie Beth Lovins (1968) Development of a
stemming algorithm. Mechanical Translation and Computational
Linguistics, 11: 22-31.
• algorytm Portera – opisany w: M.F. Porter, 1980, An algorithm for suffix
stripping, Program, 14(3) pp 130−137
Milczenie - przyjaciel który, nigdy nie zdradza
Książka to przyjaciel, który nigdy nie zdradzi
książka, który, milczenie, nie, nigdy, przyjaciel, to, zdradzad
– słownikowa
• bazująca na słowniku morfologicznym
• wybrane narzędzia pozwalające na redukcję do rdzenia dla tekstów
polskojęzycznych:
– SAM – analizator morfologiczny K. Szafrana (1996),
– lematyzator Daciuka (1998)
– lematyzator LAMETYZATOR – Weissa i Stefanowskiego
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
27
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Wyznaczanie macierzy częstości BOW (5)
Przetwarzanie macierzy częstości BOW
• Utworzenie macierzy częstości
• zmiana wartości przechowywanych w macierzy częstości (bez
zmiany rozmiarów macierzy) – w celu lepszej reprezentacji
informacji zawartych w dokumencie,
• redukcja wymiarów macierzy częstości.
Dokumenty
xij – liczba wystąpieo i-tego
wyrazu w j-tym dokumencie
X=
28
Wyrazy
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
29
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
30
5
2011-05-23
Modyfikacje macierzy częstości – bez zmiany rozmiarów (1)
Modyfikacje macierzy częstości – bez zmiany rozmiarów (2)
• Reprezentacja binarna
• Reprezentacja logarytmiczna
X=
2 0 4 ... 4
1 0 3 ... 0
... ... ... ...
0 1 2 ... 1
bin
X
=
1 0 1 ... 1
1 0 1 ... 0
... ... ... ...
0 1 1 ... 1
X=
2
1
..
0
0
0
..
1
..
..
..
..
4
0
..
2
xij
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
31
log
X
=
1,301
1,000
.. .. ..
0,000
 1 + log(xij)
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Modyfikacje macierzy częstości – bez zmiany rozmiarów (3)
Redukcja wymiarów macierzy częstości
• Ważona reprezentacja logarytmiczna (model TFIDF)
• Dwa podejścia do zagadnienia redukcji
• zastosowanie stop listy,
• usunięcie informacji o wyrazach występujących tylko w jednym
dokumencie,
• usunięcie wyrazów występujących bardzo rzadko,
• usunięcie wyrazów występujących bardzo często,
 1 + log(xij)
Ważona reprezentacja logarytmiczna
xij
 (1 + log(xij)) * log(N/dfi)
– stworzenie nowego zestawu cech opisujących dokumenty/wyrazy
• analiza głównych składowych,
• dekompozycja według wartości osobliwych.
N - liczba wszystkich dokumentów
df i - liczba dokumentów zawiejących i-ty wyraz
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
33
Rozkład według wartości osobliwych
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
X = U S VT
•
•
•
=
U
34
Własności rozkładu według wartości osobliwych
• Rozkład według wartości osobliwych
X = U S VT
X
32
– wybór reprezentantów – usuwane są informacje dotyczące mniej
istotnych wyrazów:
Reprezentacja logarytmiczna
xij
0,000 .. 1,602
0.000 .. 0,000
..
1,000 .. 1,301
S
•
•
VT
•
•
•
macierz U - wyrazy w przestrzeni wyznaczonej przez składowe
macierz V - dokumenty w przestrzeni wyznaczonej przez składowe
macierz S - macierz diagonalna, znaczenie kolejnych składowych
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
35
kolumny macierzy U są wektorami własnymi macierzy XXT - co oznacza, że
wyznaczają główne składowe dla zbioru wyrazów;
kolumny macierzy V są wektorami własnymi macierzy XTX - co oznacza, że
wyznaczają główne składowe dla zbioru dokumentów;
macierz S jest macierzą diagonalną; można dowieśd, że zawarte w niej
elementy
są pierwiastkami kwadratowymi z wartości własnych macierzy
XXT oraz macierzy XTX;
elementy macierzy S są uporządkowane malejąco;
zachodzi zależnośd: UTU = I - co oznacza, że kolumny macierzy U są
ortonormalne;
wartości wyznaczone jako US stanowią współrzędne wyrazów w nowej
przestrzeni;
zachodzi zależnośd: VTV = I, co oznacza, że kolumny macierzy V są
ortonormalne;
wartości wyznaczone jako VS stanowią współrzędne dokumentów w nowej
przestrzeni.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
36
6
2011-05-23
Rozkład według wartości osobliwych – redukcja wymiaru
przestrzeni
Pomiar odległości/podobieostwa na podstawie macierzy
częstości
Dokumenty
• Rozkład według wartości osobliwych
X = U S VT
X=
Wyrazy
Odległośd może byd liczona
pomiędzy dokumentami
(kolumny macierzy) lub pomiędzy
wyrazami (wiersze macierzy częstości).
n
X
=
U
S
d  x, y  
VT
n
 x
k 1
d  x, y  
 yk 
2
k
odległośd Euklidesa
k 1
n
k
yk
n
x y
2
k 1
k
2
k
k 1
odległośd kosinusowa
n
d x, y    x k  y k
x
odległośd miejska
k 1
współrzędne wyrazów: UrSr
współrzędne dokumentów: VrSr
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
d x, y   max k 1, 2,...,n xk  y k
37
odległośd Czebyszewa
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Aforyzmy i przysłowia (1)
Aforyzmy i przysłowia (2)
A.
B.
C.
D.
E.
F.
G.
H.
I.
J.
Milczenie bywa wymowniejsze od mowy.
Milczenie – przyjaciel, który nigdy nie zdradza.
Często najmądrzejszą odpowiedzią jest milczenie.
Mowa jest srebrem, lecz milczenie złotem.
Mowa słodsza niż miód.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
39
Trucizna prawdy jest lepsza od miodu kłamstwa.
Milsza prawda niż przyjaciel.
Książka jest przyjacielem, który nigdy nie oszukuje.
Książka to przyjaciel, który nigdy nie zdradza.
Kto znalazł przyjaciela, skarb znalazł.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
40
Aforyzmy i przysłow ia - w ażona reprezentacja logarytmiczna, bez redukcji do rdzenia
Metoda Warda
Aforyzmy i przysłowia (3)
Nie ten przyjaciel, co cię chwali, ale ten, co ci prawdę powie.
Pewnego przyjaciela poznaje się w niepewnym położeniu.
Pewnego przyjaciela poznaje się w sytuacji niepewnej.
Ten przyjaciel, co prawdę mówi.
Wierny bowiem przyjaciel potężną obroną, kto go znalazł,
skarb znalazł.
Milczenie byw a w ymow niejsze od mow y
Często najmądrzejszą odpow iedzią jest milczenie
Milsza praw da niż przyjaciel
Ten przyjaciel, co praw dę mów i
Mow a jest srebrem, lecz milczenie złotem
Mow a słodsza niż miód
Milczenie - przyjaciel, który nigdy nie zdradza
Książka to przyjaciel. który nigdy nie zdradzi
Książka jest przyjacielem, który nigdy nie oszukuje
Nie ten przyjaciel, co cię chw ali, ale ten, co ci praw dę mów i
Trucizna praw dy jest lepsza od miodu kłamstw a
Pew nego przyjaciela poznaj się w niepew nym połozeniu
Pew nego przyjaciela poznaje się w sytuacji niepew nej
Kto znalazł przyjaciela, skarb znalazł
Wierny bow iem przyjaciel potężną obroną, kto go znalazł, skarb znalazł
3
4
5
6
7
8
9
10
11
K.
L.
M.
N.
O.
38
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
41
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Odległość
42
w iąz.
7
2011-05-23
Klasyfikacja wybranych utworów literatury polskiej (1)
Klasyfikacja wybranych utworów literatury polskiej (2)
•
•
•
•
•
•
•
•
•
•
•
•
Adam Mickiewicz, Dziady III
Juliusz Słowacki, Kordian
Stanisław Wyspiaoski, Noc Listopadowa
Stanisław Wyspiaoski, Wesele
Bolesław Prus, Katarynka
Henryk Sienkiewicz, Janko Muzykant
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
43
Maria Konopnicka, Nasza Szkapa
Gabriela Zapolska, Moralnośd Pani Dulskiej
Adam Mickiewicz, Pan Tadeusz
Henryk Sienkiewicz, Krzyżacy (t. I)
Eliza Orzeszkowa, Nad Niemnem (t. I)
Władysław Reymont, Chłopi (t. I)
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Klasy f ikacja wy brany ch utworów literatury polskiej
ważona reprezentacja logary tmiczna, bez redukcji do rdzenia
Metoda Warda
44
Uruchamianie modułu „Text Miner”
A. Mickiewicz, Dziady III
J. Słowacki, Kordian
S. Wy spiański, Noc Listopadowa
S. Wy spiański, Wesele
B. Prus, Katary nka
H. Sienkiewicz, Janko Muzy kant
M. Konopnicka, Nasza szkapa
G. Zapolska, Moralność Pani Dulskiej
A. Mickiewicz, Pan Tadeusz
H. Sienkiewicz, Krzy żacy , t. I
E. Orzeszkowa, Nad Niemnem, t. I
W. Rey mont, Chłopi, t. I
0
20
40
60
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Odległość wiąz.
80
100
120
45
Pozyskiwanie tekstów do analizy
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
46
Arkusz zawierający informacje o analizowanych tekstach
47
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
48
8
2011-05-23
Przykład – aforyzmy (1)
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Przykład – aforyzmy (2)
49
Analiza – rozpoczęcie procesu
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
50
Macierzowa reprezentacja zbioru dokumentów
51
Karta Quick
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
52
Karta Advanced
53
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
54
9
2011-05-23
Karta Filters
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Karta Characters
55
Karta Index
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
56
Karta Synonyms & phrases
57
Karta Delimiters
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
58
Karta Project
59
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
60
10
2011-05-23
Karta Default
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Rozpoczęcie analizy – przycisk OK
61
Ostrzeżenie dotyczące bazy danych
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
62
Rezultaty obliczeo
63
Reprezentacja dokumentów
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
64
Macierz częstości (wystąpieo)
element xij wskazuje, ile razy i-ty wiersz występuje w j-tym dokumencie
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
65
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
66
11
2011-05-23
Przycisk Summary of word occurance in document
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Przycisk Summary of words
67
Wybór układu wyświetlania informacji o dokumentach
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
68
Informacje o dokumentach
69
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
70
Przetwarzanie dokumentów tekstowych w języku R – pakiet tm
Pakiet tm
•
•
•
•
•
•
• tm – pakiet w języku R służący do przeprowadzania analiz text
miningowych
• pakiet nie jest instalowany w trakcie domyślnej instalacji
pakietu R; konieczna jest jednokrotna instalacja za pomocą
Packages / Install package(s)
• załadowanie pakietu: library ("tm"); wymagane jest
wcześniejsze zainstalowanie w systemie biblioteki libxml2
(parser XML) – dostępna bezpłatnie w Internecie (np.
http://www.zlatkovic.com/libxml.en.html)
Załadowanie pakietu
Odczyt plików źródłowych i utworzenie kolekcji dokumentów
Zastosowanie transformacji
Filtracja dokumentów
Utworzenie macierzy częstości
...dalsze przetwarzanie macierzy częstości
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
71
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
72
12
2011-05-23
Kolekcja dokumentów
Kolekcja dokumentów
• Tworzenie kolekcji dokumentów:
• kolekcja = Corpus(źródło, parametryOdczytu,...)
• źródło (object):
– DirSource – odczyt ze wskazanego katalogu
– CSVSource – odczyt z pliku zawierającego wartości oddzielone
przecinkami (format CSV)
– ReutersSource – odczyt z plików w formacie Reuters XML
– VectorSource – dokumenty przechowywane są jako kolejne elementy
wektora
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
73
Kolekcja dokumentów
74
Przykładowa kolekcja (korpus)
> katalog=system.file("texts","reut21578",package="tm")
> katalog
[1] "C:/PROGRA~1/R/R-28~1.0/library/tm/texts/reut21578"
> korpus <- Corpus(DirSource(katalog),readerControl=list(reader=readReut21578XML))
> korpus
A text document collection with 10 text documents
>
• parametryOdczytu (readerControl) – lista elementów:
• reader – wybór metody do odczytu dokumentów źródłowych
–
–
–
–
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
reader = readPlain (wartośd domyślna)
reader = readPDF
reader = readHTML
reader = readNewsgroup
• load = TRUE/FALSE – czy dokumenty mają zostad załadowane
do pamięci operacyjnej,
• language
– language = "en_US"
– http://msdn2.microsoft.com/en-us/library/ms776260(VS.85).aspx
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
75
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Przykładowa kolekcja (korpus)
Przykładowa kolekcja (korpus)
> katalog=system.file("texts","txt",package="tm")
> katalog
[1] "C:/PROGRA~1/R/R-28~1.0/library/tm/texts/txt"
> korpus=Corpus(DirSource(katalog))
> korpus
A text document collection with 5 text documents
>
> wektor=c("To jest pierwszy dokument","To jest drugi dokument","To jest trzeci
dokument")
> wektor
[1] "To jest pierwszy dokument" "To jest drugi dokument" "To jest trzeci dokument"
> korpus <- Corpus(VectorSource(wektor))
> korpus
A text document collection with 3 text documents
>
76
Uwaga: przedstawione powyżej przykładowe teksty są napisane po łacinie!
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
77
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
78
13
2011-05-23
Przykładowa kolekcja (korpus)
Informacje dotyczące kolekcji
> katalog <- "C:\\Documents and Settings\\User\\My
Documents\\Wyklady\\Programowanie w jezyku R\\Aforyzmy"
> show(kolekcja)
A text document collection with 15 text documents
> korp <- Corpus(DirSource(katalog,encoding="CP1250"),readerControl=list(language="pl_PL"))
> summary(kolekcja)
A text document collection with 15 text documents
There were 15 warnings (use warnings() to see them)
The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
create_date creator
Available variables in the data frame are:
MetaID
> korp
A text document collection with 15 text documents
>
Wykorzystywane dane dostępne są pod adresem:
http://www.uek.krakow.pl/~lulap/Aforyzmy.zip
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
79
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Informacje dotyczące kolekcji
Informacje dotyczące kolekcji
> inspect(kolekcja)
A text document collection with 15 text documents
[[6]]
[1] "Trucizna prawdy jest lepsza od miodu kłamstwa."
[[7]]
[1] "Milsza prawda niż przyjaciel."
The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
create_date creator
Available variables in the data frame are:
MetaID
[[8]]
[1] "Książka jest przyjacielem, który nigdy nie oszukuje."
[[9]]
[1] "Książka to przyjaciel, który nigdy nie zdradzi."
[[1]]
[1] "Milczenie bywa wymowniejsze od mowy."
[[10]]
[1] "Kto znalazł przyjaciela, skarb znalazł."
[[2]]
[1] "Milczenie - przyjaciel, który nigdy nie zdradza."
[[11]]
[1] "Nie ten przyjaciel, kto cię chwali, ale ten, co ci prawdę mówi."
[[3]]
[1] "Często najmądrzejszą odpowiedzią jest milczenie."
[[12]]
[1] "Pewnego przyjaciela poznaje się w niepewnym położeniu."
[[13]]
[1] "Pewnego przyjaciela poznaje się w sytuacji niepewnej."
[[4]]
[1] "Mowa jest srebrem, lecz milczenie złotem."
[[14]]
[1] "Ten przyjaciel, co prawdę mówi."
[[5]]
[1] "Mowa słodsza niż miód."
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
[[15]]
[1] "Wierny bowiem przyjaciel potężną obroną, kto go znalazł, skarb znalazł."
81
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Transformacje
Przykładowa transformacja kolekcji dokumentów
Transformacja – operacja przekształcająca każdy dokument w kolekcji
> kolekcja <- tmMap(kolekcja,tmTolower)
kolekcja = tmMap(kolekcja, funkcjaTransformująca)
> inspect(kolekcja)
A text document collection with 15 text documents
funkcjaTransformująca:
• loadDoc – załadowanie do pamięci
• asPlain – przekształcenie do postaci tekstowej
• stripWhiteSpace – usunięcie białych spacji
• tmTolower – przekształcenie do małych liter
• stopwords(język) – zastosowanie stop-listy
•
•
80
82
The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
create_date creator
Available variables in the data frame are:
MetaID
obsługiwane języki: danish, dutch, english, finnish, french, german, hungarian, italian,
norwegian, portuguese, russian, spanish, swedish.
stemDoc – redukcja do rdzenia (algorytm Portera)
[[1]]
[1] "milczenie bywa wymowniejsze od mowy."
[[2]]
[1] "milczenie - przyjaciel, który nigdy nie zdradza."
[[3]]
[1] "często najmądrzejszą odpowiedzią jest milczenie."
....
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
83
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
84
14
2011-05-23
Tworzenie macierzy częstości
Tworzenie macierzy częstości
Tworzenie macierzy częstości
> TermDocMatrix(korp)
[1] "lapply"
An object of class “TermDocMatrix”
Slot "Data":
15 x 52 sparse Matrix of class "dgCMatrix"
[[ suppressing 52 column names „bywa‟, „milczenie‟, „mowy‟ ... ]]
TermDocMatrix(object, control = list(........))
1 1111................................................
2 .1..11111...........................................
3 .1.......1111.......................................
4 .1........1..1111...................................
5 ..............1..111................................
6 ..........1.........11111...........................
7 .......1..........1......11.........................
8 ....111...1................111......................
9 ....1111...................1..1.....................
10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 2 . . . . . . . . . . . . . . . . .
11 . . . . . 1 . 1 . . . . . . . . . . . . . . . . . . . . . . . 1 . . . 1 1 1 1 1 2 . . . . . . . . . . .
12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . . 1 1 1 1 1 . . . . . .
13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . . . 1 . 1 1 1 1 . . . .
14 . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 . . . . . . . . . . .
15 . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . 1 . 1 2 . . . . . . . . . . . . . 1 1 1 1
Dopuszczalne parametry:
•removeNumbers – domyślnie FALSE.
•stemming – domyślnie FALSE.
•stopwords: domyślnie FALSE
•minDocFreq: domyślnie: 1
•minWordLength: domyślnie: 3
•weighting:
•
•
•
•
weightTf – macierz czestości,
weightTfIdf – ważona reprezentacja logiczna,
weightBin – reprezentacja binarna,
weightLogical – reprezentacja binarna (wartości logiczne TRUE/FALSE).
Slot "Weighting":
[1] "term frequency"
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
85
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
86
Nazwy kolumn i wierszy w macierzy częstości
Konwersja macierzy rzadkiej do postaci standardowej
> colnames(mc@Data)
[1] "bywa"
"milczenie"
"mowy"
"wymowniejsze" "który"
"nie"
"nigdy"
"przyjaciel" "zdradza"
"często"
"jest"
"najmądrzejszą"
"odpowiedzią" "lecz"
> mc <- TermDocMatrix(kolekcja)
[15] "mowa"
"kłamstwa"
"książka"
"srebrem"
"złotem"
"miód"
"lepsza"
"miodu"
"prawdy"
[29] "oszukuje"
"przyjacielem" "zdradzi"
"znalazł"
"ale"
"chwali"
"cię"
"niepewnym"
"niż"
"trucizna"
"kto"
"mówi"
[43] "pewnego"
"położeniu"
"poznaje"
"się"
"bowiem"
"obroną"
"potężną"
"wierny"
"słodsza"
"milsza"
> mcStandard = as.matrix(mc@Data)
"prawda"
"przyjaciela" "skarb"
"prawdę"
"ten"
"niepewnej"
"sytuacji"
> rownames(mc@Data)
[1] "1" "2" "3" "4" "5" "6" "7" "8" "9" "10" "11" "12" "13" "14" "15"
>
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
87
Macierz częstości w postaci standardowej macierzy
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
88
Nazwy kolumn i wierszy w macierzy częstości
> colnames(mcStandard)
[1] "bywa"
"milczenie"
"mowy"
"wymowniejsze" "który"
"nie"
"nigdy"
"przyjaciel" "zdradza"
"często"
"jest"
"najmądrzejszą"
"odpowiedzią" "lecz"
> mcStandard
Docs
Terms bywa milczenie mowy wymowniejsze który nie nigdy przyjaciel zdradza często jest najmądrzejszą odpowiedzią lecz mowa srebrem z łotem miód niż słodsza kłamstwa lepsza miodu prawdy trucizna milsza prawda książka oszukuje przyjacielem
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2
0
1
0
0
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
3
0
1
0
0
0
0
0
0
0
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
4
0
1
0
0
0
0
0
0
0
0
1
0
0
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
1
1
1
0
0
0
0
0
0
0
0
0
0
6
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
1
1
1
1
1
0
0
0
0
0
7
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
1
1
0
0
0
8
0
0
0
0
1
1
1
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
9
0
0
0
0
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
10
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
11
0
0
0
0
0
1
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
12
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
13
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
14
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
15
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Docs
Terms zdradzi kto przyjaciela skarb znalazł ale chwali cię mówi prawdę ten niepewnym pewnego położeniu poznaje się niepewnej sytuac ji bowiem obroną potężną wierny
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
3
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
4
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
6
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
7
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
8
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
9
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
10
0
1
1
1
2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
11
0
1
0
0
0
1
1
1
1
1
2
0
0
0
0
0
0
0
0
0
0
0
12
0
0
1
0
0
0
0
0
0
0
0
1
1
1
1
1
0
0
0
0
0
0
13
0
0
1
0
0
0
0
0
0
0
0
0
1
0
1
1
1
1
0
0
0
0
14
0
0
0
0
0
0
0
0
1
1
1
0
0
0
0
0
0
0
0
0
0
0
15
0
1
0
1
2
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
>
[15] "mowa"
"kłamstwa"
"książka"
"srebrem"
"złotem"
"miód"
"lepsza"
"miodu"
"prawdy"
[29] "oszukuje"
"przyjacielem" "zdradzi"
"znalazł"
"ale"
"chwali"
"cię"
"niepewnym"
"niż"
"trucizna"
"kto"
"mówi"
[43] "pewnego"
"położeniu"
"poznaje"
"się"
"bowiem"
"obroną"
"potężną"
"wierny"
"słodsza"
"milsza"
"prawda"
"przyjaciela" "skarb"
"prawdę"
"ten"
"niepewnej"
"sytuacji"
> rownames(mcStandard)
[1] "1" "2" "3" "4" "5" "6" "7" "8" "9" "10" "11" "12" "13" "14" "15"
>
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
89
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
90
15
2011-05-23
Przykładowa analiza taksonomiczna
Automatyczna redukcja do rdzenia dla tekstów
polskojęzycznych
Cluster Dendrogram
> odl=dist(mcStandard)
• Dawid Weiss – lematyzator hybrydowy;
http://www.cs.put.poznan.pl/dweiss/xml/projects/lametyzato
r/index.xml
8
3
9
14
2
11
7
5
15
13
12
10
2
1
4
6
3
Height
4
5
> klas <- hclust(odl,method="ward")
> plot(klas)
>
odl
hclust (*, "ward")
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
91
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
92
Cele badao
• Celem ogólnym było wypracowane i ocena metody analizy
danych tekstowych (dokumenty polskojęzyczne, o ściśle
określonej tematyce):
– automatyczne pozyskanie tekstów z serwisów WWW,
– wstępne przygotowanie tekstów,
– pozyskanie z dokumentów informacji istotnych ze względu na cel
analizy i ich reprezentacja w postaci dogodnej do dalszego
przetworzenia,
– analiza za pomocą metod statystycznych.
EKSPLORACYJNA ANALIZA OFERT Z RYNKU
NIERUCHOMOŚCI
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
• Celem szczegółowym była analiza tekstów ofert sprzedaży
mieszkao w Krakowie.
93
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Serwisy WWW jako źródło danych tekstowych (1)
Serwisy WWW jako źródło danych tekstowych (2)
Problem 1:
Strony definiowane są w języku HTML
(xHTML, XML) i zawierają dużą liczbę
znaczników.
Problem 2:
Ręczne pobieranie danych (kopiujwklej) jest bardzo powolne i nużące.
<div id="osgs_head_r0"></div><div id="linkcheck"></div><div id="osgs_wrapper"><div
id="osgs_main"><a name="osgs_main"></a><div id="osgs_header"><div
id="osgs_head_r1"><ul class="topLinks"><li><a href="#" id="setHomePage"
rel="nofollow" onclick="return NowaSg.setAsStartShow(this,
'http://www.onet.pl/');">Ustaw jako stronę startową</a><div class="startHelp"
id="nsg_homepage_box"><div class="startHelpInner"><div class="startTop"> <a
class="drag" href="#">Przeciągnij i upuść</a> <ol> <li>Przeciągnij i upuść
&quot;żółtą kropkę&quot; na ikonę strony startowej (domek) na pasku
przeglądarki</li> <li>Potwierdź wybór, klikając &quot;Tak&quot;</li>
</ol></div><p><em>Możesz również:</em>Wybrać zakładkę &quot;Narzędzia&quot;
następnie &quot;Opcje&quot;. Wpisać <strong>onet.pl</strong> w polu&quot;Strona
startowa&quot; i potwierdzić klikając &quot;OK&quot;</p><a rel="nofollow"
class="close" href="#" onclick="return NowaSg.switchHomePageBox('nsg_homepage_box',
false);">Zamknij</a> </div></div></li><li><a id="switchpleu" rel="nofollow”
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
95
94
Problem 3:
Na różnych stronach mogą byd stosowane
różne metody kodowania znaków
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
96
16
2011-05-23
Serwisy WWW jako źródło danych tekstowych (3)
Źródło danych w przeprowadzonych badaniach
• Rozwiązaniem jest zastosowanie oprogramowania:
–
–
–
–
analizującego kod HTML znajdujący się na stronie (parser HTML),
wędrującego automatycznie po stronach (pająki sieciowe),
pobierającego fragmenty zawartości strony,
zmieniającego sposób kodowania tekstów.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
97
Charakterystyka procesu pozyskania danych
98
Przykładowa oferta
• Wykorzystano samodzielnie skonstruowanego pająka
sieciowego przechodzącego po stronach zawierających oferty
zgodne ze zdefiniowanym zapytaniem (sprzedaż mieszkao,
Kraków) – program zaimplementowany został w języku Java
• Do analizy strony z opisem jednej oferty wykorzystano parser:
Jericho HTML (http://jericho.htmlparser.net/docs/index.html).
• Do ujednolicenia sposobu kodowania wykorzystano program
Gżegżółka (http://www.gzegzolka.com/).
• Liczba pozyskanych ofert: 10697
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Teksty częściowo ustrukturyzowane,
o ściśle określonej tematyce.
Kraków, Ruczaj-zaborze, Zalesie
W trakcie analizy pojawia się
cena: 355000 PLN (6920 PLN/m?2;)
koniecznośd uwzględnienia
Ulica: Zalesie
kontekstu wyrazów.
Piętro: parter
Liczba kondygnacji: 4
Typ kuchni: do własnej aranżacji, jasna, oddzielna,
Hipoteczne; Czynsz: 250.00 zł; Budynek: blok, cegła, nowe budownictwo nowy;
Standard mieszkania: do wprowadzenia; Dodatkowo: garderoba, nie ma piwnicy,
balkon, drzwi antywłamaniowe, winda, teren ogrodzony, domofon; W pobliżu:
sklepy, usługi, basen, fitness, kościół, przedszkole, szkoła, tereny rekreacyjne,
Uniwersytet Jagiellooski; Rozkład: do własnej aranżacji, ustawne, dwustronny,
jasny, korzystny układ, pokoje nieprzechodnie; Ogrzewanie: centralne własne w
budynku; Mieszkanie 2 pokoje nowe51,3m2 , wykooczone Ruczaj ul Zalesie od
ulicy Zachodniej. Mieszkanie na parterze w czteropiętrowym bloku. Pokoje 14m2,
12m2, kuchnia 8m2, łazienka 6,5m2. W przedpokoju miejsce na garderobę,
kuchnia w koocowej wersji z umeblowaniem. Mieszkanie ekonomiczne własna
kotłownia, baterie słoneczne na dachu- małe opłaty za ciepłą wodę.
99
Pozyskiwanie z dokumentów tekstowych informacji istotnych
ze względu na cel analizy
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
100
Definicja wzorca opisujacego cenę mieszkania
Phase: CenaMieszkania
Input: Token
//note that we are using Lookup and Token both inside our rules.
// Cena
//
- calosc
//
- cenam2
//
- jednostka
• Należy zdefiniowad szablony opisujące istotne frazy oraz
podad sposób interpretacji poszczególnych elementów.
• Narzędzie: język JAPE - Java Annotation Patterns Engine –
język pozwalający na definiowanie wzorców za pomocą
mechanizmu wyrażeo regularnych.
• Implementacja: pakiet GATE – General Architecture for Text
Engineering (http://gate.ac.uk/)
Options: control = all
Rule: cenaMieszkania
(
(
)
(
):tempCalosc
(
):tempJednostka
(
)
(
):cena
):tempCenam2
{Token.string =~ "[Cc]ena"}
{Token.kind == "punctuation"}
{Token.kind == "number"}
{Token.kind == "word", Token.length ==3}
{Token.kind == "punctuation"}
{Token.kind == "number"}
-->
:cena.Cena = {calosc = :tempCalosc.Token.string, cenam2 = :tempCenam2.Token.string,jednostka = :tempJednostka.Token.string, rule = cenaMieszkania}
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
101
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
102
17
2011-05-23
Definicja wzorca opisujacego liczbę pokoi w mieszkaniu (1)
Definicja wzorca opisujacego liczbę pokoi w mieszkaniu (2)
Phase: LiczbaPokoi
Input: Token
ule:jedenPokoj
Priority:40
(
(
Options: control = appelt
)
|
(
Rule:pomin1
Priority:50
(
{Token.string =~ "[Pp]okój"}
{Token.string =~ "[Pp]ołączon"}
)
-->
{}
)
|
(
)
|
(
)
{Token.string =~ "[Kk]awalerka"}
{Token.string =~ "[Jj]ednopokojow"}
{Token.string =~ "[Jj]eden"}
{Token.string =~ "[Pp]okój"}
{Token.string =~ "[Po]okój"}
{Token.string =~ "z"}
{Token.string =~ "aneks"}
):tempJeden
-->
:tempJeden.LiczbaPokoi = {ile = "1", rule = jedenPokoj}
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
103
Definicja wzorca opisujacego liczbę pokoi w mieszkaniu (3)
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
104
Anotacje w programie GATE
Rule:dwaPokoje
Priority:38
(
(
{Token.string =~ "[Dd]wupokojowe"}
)
|
(
{Token.string =~ "[Dd]w[au]"}
{Token.string =~ "[Pp]oko[ij]"}
)
|
(
{Token.string =~ "2"}
{Token.string =~ "pokoje"}
)
):tempDwa
-->
:tempDwa.LiczbaPokoi = {ile = "2", rule = dwaPokoje}
Ciąg dalszy
w sposób
analogiczny ...
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
105
Pobieranie z dokumentów zidentyfikowanych informacji
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
106
Wczytanie danych do programu STATISTICA
<?xml version="1.0"?>
<ML-CONFIG>
<SURROUND value="false"/>
<DATASET>
<INSTANCE-TYPE>LiczbaPokoi</INSTANCE-TYPE>
<NGRAM>
<NAME>LiczbaPokoi</NAME>
<NUMBER>1</NUMBER>
<CONSNUM>1</CONSNUM>
<CONS-1>
<TYPE>LiczbaPokoi</TYPE>
<FEATURE>ile</FEATURE>
</CONS-1>
</NGRAM>
<ValueTypeNgram>2</ValueTypeNgram>
</DATASET>
</ML-CONFIG>
Po wczytaniu usunięto powtarzające się przypadki – najprawdopodobniej
opisy tych samych mieszkao.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
107
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
108
18
2011-05-23
Wybrane przykłady wizualizacji danych
Wybrane przykłady wizualizacji danych
Histogram Powierzchnia
Histogram Cena
2600
3500
2400
3000
2200
2000
2500
1800
Liczba obs.
Liczba obs.
1600
1400
1200
1000
800
2000
1500
1000
600
400
500
200
0
1,0000
37,7211
74,4423
111,1634
147,8845
184,6057
221,3268
19,3606
56,0817
92,8028
129,5240
166,2451
202,9662
0
99999
5E5
3E5
9E5
7E5
1,3E6
1,7E6
1,1E6
Powierzchnia
1,5E6
2,1E6
1,9E6
2,5E6
2,3E6
Cena
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
109
Wybrane przykłady wizualizacji danych
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
110
Wybrane przykłady wizualizacji danych
Histogram Cena-m2
Histogram Kuchnia
2000
8000
1600
7000
1400
6000
1200
5000
Liczba obs.
Liczba obs.
Arkusz21 1v*10682c
1800
1000
800
4000
3000
600
400
2000
200
1000
0
0
738,4
3696,0
6653,6
9611,2
12568,8
15526,4
18484,0
2217,2
5174,8
8132,4
11090,0
14047,6
17005,2
19962,8
aneks
bd
oddzielna
polaczona
Kuchnia
Cena-m2
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
111
Wybrane przykłady wizualizacji danych
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
112
Wybrane przykłady wizualizacji danych
Histogram Liczba pokoi
Histogram Piętro
7000
2200
2000
6000
1800
5000
1600
Liczba obs.
Liczba obs.
1400
4000
3000
1200
1000
800
2000
600
400
1000
200
0
0
1
2
3
4
0
5
-1
Liczba pokoi
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17
Piętro
113
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
114
19
2011-05-23
Wybrane przykłady wizualizacji danych
Wybrane przykłady wizualizacji danych
Ramkowy Cena-m2 grupowane względem Kuchnia
Histogram RodzajBud
dane.sta 8v*10682c
5000
24000
22000
20000
4000
18000
14000
Cena-m2
Liczba obs.
16000
3000
2000
12000
10000
8000
6000
4000
1000
2000
0
0
-2000
kamienica
blok
bd
apartamentowiec
osiedleZamkniete
oddzielna
polaczona
aneks
bd
Średnia
Średnia±Odch.std
Zakres nieodstających
Kuchnia
RodzajBud
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
115
Wybrane przykłady wizualizacji danych
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
116
Wybrane przykłady wizualizacji danych
Ramkowy Cena-m2 grupowane względem RodzajBud
Ramkowy Powierzchnia grupowane względem Kuchnia
280
dane.sta 8v*10682c
26000
260
24000
240
22000
20000
200
18000
180
16000
160
14000
Cena-m2
Powierzchnia
220
140
120
12000
10000
8000
100
6000
80
4000
60
2000
40
0
20
-2000
0
aneks
bd
oddzielna
polaczona
kamienica
Średnia
Średnia±Odch.std
Zakres nieodstających
bd
blok
apartamentowiec
osiedleZamkniete
Średnia
Średnia±Odch.std
Zakres nieodstających
RodzajBud
Kuchnia
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
117
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Podsumowanie
Sied semantyczna
• Przedstawiona metoda analizy sprawdza się przy analizie
tekstów o ściśle określonej tematyce (oferty, raporty, opinie
konsumentów, notatki służbowe).
• Najważniejszym (i najbardziej czasochłonnym) jest
zdefiniowanie wzorców – całkowite zautomatyzowanie tego
procesu wydaje się niemożliwe.
• Zdefiniowane wzorce mogą byd wielokrotnie użyte!
• Sied semantyczna – struktura złożona z połączonych ze sobą
węzłów.
• Węzły reprezentują obiekty.
• Połączenia reprezentują związki zachodzące pomiędzy
obiektami.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
119
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
118
120
20
2011-05-23
Przykładowa sied semantyczna
WordNet jako sied semantyczna
• sied semantyczna prezentująca relacje pomiędzy słowami
języka angielskiego
• utworzona w Uniwersytecie Princeton w 1985 roku
• zawiera około 150000 słów
• udostępniana bezpłatnie
uczy się w
Bank BPH
Marcin
pracuje w
SP nr 4
jest ojcem
Jacek
ma żonę
lubi muzykę
Krysia
Czerwone Gitary
pracuje w
przychodnia
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
121
WordNet jako sied semantyczna
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
122
Podstawowe relacje występujące w sieci WordNet
•
prawie synonimy
•
nadklasa – podklasa (pojęcie bardziej ogólne / pojęcie bardziej szczegółowe)
•
częśd – całośd
– samochód – auto
– błąd - pomyłka
– drzewo – klon,
– zwierzę – ptak, ptak – jastrząb
– lampa – żarówka
– komputer – procesor
– procesor – akumulator
•
relacja przeciwstawna
•
zawieranie się jednej czynności w drugiej (tzw. troponimy, relacja dotyczy
wyłącznie czasowników)
– wysoki – niski
– dobry – zły
– iśd – spacerowad
– mówid – przemawiad
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
123
Polski WordNet
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
124
Polski WordNet
• Sied semantyczna tworzona dla słów języka polskiego
• Projekt rozwijany na Politechnice Wrocławskiej
• prace rozpoczęto w 2005 roku
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
125
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
126
21
2011-05-23
Sied semantyczna
Ontologia
•
•
•
•
• w filozofii:
opisuje wybrany fragment rzeczywistości,
pozwala na zaawansowane wyszukiwanie informacji,
umożliwia wnioskowanie,
podstawowy problem – brak ujednoliconego sposobu opisu
relacji zachodzących pomiędzy obiektami
– nauka o bycie,
• w informatyce:
– pojęcie występuje w literaturze z zakresu informatyki od połowy lat
sześddziesiątych
– Ontologia stanowi wspólną reprezentację pewnej dziedziny działalności
ludzkiej, która może byd wykorzystana jako platforma porozumienia
pozwalająca na spójne podejście do rozwiązywania problemów w tej
dziedzinie. Ontologia obejmuje pewną wizję świata ograniczoną do danej
dziedziny. Taka wizja zazwyczaj jest wyrażana jako zbiór pojęd, definicji
tych pojęd oraz ich wzajemnych powiązao. Taką reprezentację dziedziny
nazywamy często jej konceptualizacją (Mike Uschold - Artificial
Intelligence Application Institute, University of Edinburgh
– podstawowe zadania ontologii:
• kategoryzacja,
• hierarchizacja.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
127
Język XML
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Struktura przykładowego magazynu
• XML - Extensible Markup Language – Rozszerzalny język
znaczników
• Funkcje realizowane przez XML:
Magazyn
– opis struktury informacji
– przechowywanie danych
– opis sposobu przetwarzania informacji
Towar
Nazwa:
Chleb
wiejski
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
129
Producent:
Piekarnia
tradycyjna
Towar
Cena:
1,70
Nazwa:
Zapałki
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Przykładowy kod w XML
...
<?xml version="1.0" encoding="ISO-8859-2"?>
<?xml-stylesheet type="text/css" href="styl.css" ?>
<!DOCTYPE MAGAZYN [
<!ELEMENT NAZWA (#PCDATA)>
<!ELEMENT PRODUCENT (#PCDATA)>
<!ELEMENT CENA (#PCDATA)>
<!ELEMENT TOWAR (NAZWA, PRODUCENT?, CENA)>
<!ELEMENT TYTUL (#PCDATA)>
<!ELEMENT MAGAZYN (TYTUL?,TOWAR+)>
]>
<MAGAZYN>
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
128
Cena:
0,35
130
<TYTUL>STAN MAGAZYNU</TYTUL>
<TOWAR>
<NAZWA>Chleb wiejski</NAZWA>
<PRODUCENT>Piekarnia "Tradycyjna"</PRODUCENT>
<CENA>1.70</CENA>
</TOWAR>
<TOWAR>
<NAZWA>Masło domowe</NAZWA>
<PRODUCENT>Społdzielnia Mleczarska</PRODUCENT>
<CENA>2.50</CENA>
</TOWAR>
<TOWAR>
<NAZWA>Zapałki</NAZWA>
<CENA>0.35</CENA>
</TOWAR>
</MAGAZYN>
131
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
132
22
2011-05-23
Przetwarzanie zasobów sieci semantycznej
Definiowanie stwierdzeo w języku RDF
• Warunkiem pozwalającym na przetwarzanie zasobów jest
stosowanie ujednoliconego zastawu znaczników opisujących
zasoby przechowywane w sieci
• RDF - Resource Description Framework - Ramowy opis
zasobów
• RDF pozwala na definiowanie stwierdzeo dotyczących
zasobów dostępnych w sieci.
• Stwierdzenia:
– dotyczą określonego zasobu - (identyfikowanego przez URL),
– definiują jego cechy,
– określają wartości zdefiniowanych cech
– narzędzie pozwalające na definiowanie metadanych (znaczników)
służących do opisu zasobów sieci.
– RDF pozwala na definiowanie stwierdzeo dotyczących zasobów
dostępnych w sieci
(obiekt, cecha, wartośd)
• DAML
• OIL
• OWL
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
133
...
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
134
Zbiory przykładowych ontologii
<DESCRIPTION
ABOUT=”http://sklep.com.pl/Ksiazki/ISBN/1289”>
<AUTOR>Jan Iksioski</AUTOR>
<TYTUL>Finanse</TYTUL>
<STRESZCZENIE>Jest to bardzo interesująca
pozycja z zakresu finansów
</STRESZCZENIE>
<CENA>56,50</CENA>
</DESCRIPTION>
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
135
Zalety stosowania ontologii
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
136
Tworzenie ontologii
• ujednolicenie sposobu opisu:
– możliwośd komunikacji
– możliwośd weryfikacji poprawności zapisu
• możliwośd automatyzacji wyszukiwania i przetwarzania
informacji przez programy – agenty
• pozwalają wyznaczyd wartości miar podobieostwa pomiędzy
obiektami (koncepcjami) występującymi w ontologii
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
137
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
138
23
2011-05-23
Tworzenie ontologii
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
http://swoogle.umbc.edu/
139
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
140
Określanie podobieostwa obiektów opisywanych za pomocą
ontologii
Wybrane propozycje metod pomiaru odległości pomiędzy
drzewami
• Przyjmując, że opis obiektu ma postad dokumentu XML, przy
obliczaniu podobieostwa/odległości pomiędzy obiektami
należy uwzględnid:
• odległośd LSS – J. Long, D. G. Schwartz, S. Stoecklin, An XML
Distance Measure
• podobieostwo BBY – V. C. Bhavsar, H. Boley, L. Yang,
A Weighted-Tree Similarity Algorithm for Multi-Agent Systems
in E-business Environments
– wartości wchodzących w skład drzewa
– struktury drzewa.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
141
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Trudności w obiektywizacji wyboru formuły odległości
Elementy pomiaru odległości pomiędzy drzewami
•
obie metody służą do wyrażenia odległości (podobieostwa) pomiędzy drzewami
reprezentowanymi przez zapisy w języku XML
konstrukcja obu mierników jest różna i różne są uzyskiwane wyniki
trudno jest wskazad metodę „lepszą” – zależy to od rozpatrywanego problemu i
przyjętych przez badacza założeo
dokonywanie właściwego wyrażania odległości pomiędzy drzewami wymaga
•
– identyfikacji poszczególnych elementów wpływające na sposób wyrażania
odległości pomiędzy drzewami
– zdefiniowania sposobu ich funkcjonowania w sposób odpowiedni dla badanego
problemu, uwzględniający przyjęte założenia i preferencje badacza.
•
•
•
•
•
•
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
•
•
143
142
Pomiar odległości (podobieostwa) pomiędzy elementami (wartościami
przechowywanymi w liściach drzew)
Sposób traktowania atrybutów elementów
Formuła agregacji odległości (podobieostwa) pomiędzy elementami
składowymi
Problem ważenia
Sposób uwzględnienia informacji o zależnościach hierarchicznych
Postępowanie w przypadku wystąpienia niezgodności w strukturach
analizowanych drzew
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
144
24
2011-05-23
Reprezentacja zbioru pojęd
•
Pojęcie podstawowe
– Klasa 1
• Klasa 1.1
– Klasa 1.1.1
– Klasa 1.1.2
– ...
• Klasa 1.2
– Klasa 1.2.1
– Klasa 1.2.2
– ...
• ...
– Klasa 2
Przykład
• Klasa 2.1
EKSPLORACYJNA ANALIZA TEKSTÓW WSPOMAGANA ZA
POMOCĄ ONTOLOGII
• Klasa 2.2
– ...
– ...
• ...
– Klasa 3
Struktura klas jest zwykle reprezentowana
za pomocą drzewa.
Do zapisu drzewa wykorzystywane są
języki bazujące na języku XML.
• ...
– ...
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
145
Klasyfikacja zagadnieo z zakresu informatyki
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
146
Klasyfikacja zagadnieo z zakresu informatyki
147
Klasyfikacja zagadnieo z zakresu informatyki
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
148
Klasyfikacja zagadnieo z zakresu informatyki
149
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
150
25
2011-05-23
Podobieostwo pomiędzy klasami występującymi w ontologii
Podobieostwo semantyczne wyznaczane na podstawie
WordNet’u
C0
C1
C2
Dekang Lin:
informacje wspólne
sim(C1 , C2 ) 
suma informacji o klasach
sim(C1 , C2 ) 
sim(C1, C2 ) 
I C0 
I C1   I C2 
2  logP C0 
logP C1   logP C2 
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
151
Podobieostwo pomiędzy zbiorami pojęd
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Reprezentacja treści kształcenia określonych w standardach
kształcenia dla kierunku Informatyka i Ekonometria
H.1.0
H.4.1
H.4.2
H.4.3
C.0
J.4
J.4
H.1.0
H.5.4
H.4.3
C.2.1
C.2.5
C.2.6
H.3.3
J.7
K.4.4
J.4
H.4.1
J.4
J.1
J.1
J.4
J.1
sim(Zb1 , Zb2 )  avgCi , C j , Ci  Zb1 , C j  Zb2
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
153
Ocena charakteru przedmiotu
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
152
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
K.6.0
K.6.4
K.6.1
F.2
J.1
K.4.4
K.6.5
C.2.0
E.3
K.5
K.6.0
J.1
K.6.1
J.1
H.1.1
H.1.2
154
Związki pomiędzy przedmiotami
155
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
156
26
2011-05-23
Związki pomiędzy przedmiotami a klasami zagadnieo
występującymi w ontologii ACM
Podsumowanie
• Prawidłowo zaplanowana i zrealizowana analiza danych
tekstowych wykorzystująca pojęcia zdefiniowane w postaci
ontologii daje lepsze rezultaty niż podejście text miningowe.
• Konieczne są dalsze badania w zakresie:
– zastosowania innych miar podobieostwa/odległości pomiędzy klasami
– zastosowania innych miar podobieostwa/odległości pomiędzy
zbiorami klas.
• Celowe jest opracowanie klasyfikacji pojęd objętych
kształceniem na kierunkach ekonomicznych i przeprowadzenie
analizy oferowanych programów.
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
157
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
158
27

Podobne dokumenty