Ogólna charakterystyka Web Miningu

Transkrypt

2011-05-23
Pismo
Pismo, system znaków, pozwalających na widzialne utrwalanie
myśli w konkretnym języku. Pismo pojawiło się stosunkowo
późno (ok. 5-6 tys. lat temu). Istniały też społeczeostwa wysoko
rozwinięte, które nie posiadały swego pisma, nawet dziś nie
posługuje się nim wiele mln ludzi. Pismo wynajdywano
kilkakrotnie i całkowicie odrębnie w wielu centrach kulturowych.
Text Mining
Web Mining
Wykład 2.
http://portalwiedzy.onet.pl/17801,,,,pismo,haslo.html
Rok akademicki: 2010/2011
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie
Rodzaje pisma
Znaczenie informacji tesktowej
Rodzaje pisma:
• piktograficzne (obrazkowe) - przedmioty i czynności zapisywane
są za pomocą piktogramów (obrazków),
• ideograficzne - idee i pojęcia zapisywane są za pomocą
ideogramów, przedstawiających abstrakcyjne pojęcia; to kolejny
etap ewolucji pisma w stosunku do piktogramów. Ideogramy to
obecnie m.in. niewielka częśd chioskich znaków,
• fonetyczne - symbole przedstawiają dźwięki.
•
http://pl.wikipedia.org/wiki/Pismo
3
•
Z punktu widzenia człowieka tekst jest najlepszym nośnikiem informacji w
czasie i przestrzeni
Zalety:
– zrozumiałośd
– łatwośd przetwarzania przez człowieka
•
Wady:
– szybkie zwiększanie się zasobów tekstowych
• Badania przeprowadzone przez IBM wskazują, że:
– 80 procent zasobów informacyjnych organizacji ma postad nieustrukturyzowaną i ich
znaczenie ciągle rośnie;
– pracownik organizacji w ciągu roku traci około 6 tygodni roboczych czasu na
poszukiwanie zaginionych informacji;
– około 30 – 40% czasu pracy pracownik poświęca na przetwarzanie dokumentów
–
–
–
–
–
powolne przetwarzanie przez człowieka
trudności w automatyzacji przetwarzania
wielojęzykowośd,
trudności w ocenie jakości informacji zawartych w tekście,
zaszumienie tekstu
Automatyzacja procesów przetwarzania tekstów
Dwa podejścia do zagadnienia automatyzacji przetwarzania
języka naturalnego
• Zastąpienie lub wspomożenie człowieka w realizacji zadao
związanych z:
• Podejście formalne:
–
–
–
–
–
–
–
4
– oparte na założeniu o istnieniu formalnego modelu języka,
– przetwarzanie oparte na regułach opisujących sposób przetwarzania
symboli składających się na dokument.
pozyskiwaniem informacji z zasobów tekstowych,
klasyfikacji bezwzorcowej dokumentów,
klasyfikacji wzorcowej,
analiza związków pomiędzy dokumentami,
generowaniem streszczeo,
automatycznym tłumaczeniem,
wizualizacją struktury kolekcji dokumentów i związków istniejących
pomiędzy poszczególnymi dokumentami.
2
• Podejście statystyczne:
– oparte na analizie statystycznej zawartości przetwarzanych
dokumentów,
– model języka i model wiedzy dziedzinowej ma charakter
wspomagający.
5
6
1
2011-05-23
Podejście formalne – test Turinga (1950)
Podejście formalne – system Eliza
• Test Turinga (1950) – metoda oceny zdolności maszyny do
posługiwania się językiem naturalnym
• ELIZA – program symulujący psychoanalityka, napisany w 1966
przez Josepha Weizenbauma (ur. 8 stycznia 1923 w Berlinie,
zm. 5 marca 2008 w Berlinie).
• Eliza w Internecie: http://www-ai.ijs.si/eliza/eliza.html
?
7
Podejście formalne – koncepcja uniwersalnej gramatyki
Podejście formalne – język Prolog
• Noam Chomsky (ur. 1928, Amerykanin o korzeniach ukraioskobiałoruskich) – lingwista, działacz polityczny:
• Program w Prologu zawiera:
– głosił istnienie "uniwersalnej gramatyki", stanowiącej rdzeo wszystkich
języków i mającej charakter wrodzony,
– jego prace ukierunkowane były na odkrywanie zasad rządzących
przetwarzaniem mowy (gramatyki formalne).
8
– bazę wiedzy,
– bazę reguł.
• Program realizuje proces wnioskowania.
• Charakterystyka podejścia Chomsky'ego:
– przetwarzanie symboli,
– opis za pomocą formalnych reguł,
– mająca na celu stworzenie formalnej teorii języka.
9
10
Podejście statystyczne – analiza statystyczna dokumentów
Podejście statystyczne – twierdzenie Bayesa
•
•
•
•
• Thomas Bayes (1702 – 17 kwietnia 1761) brytyjski matematyk
i pastor prezbiteriaoski
• Twierdzenie Bayesa:
Liczba wystąpieo poszczególnych słów, fraz, zdao.
Wiedza o języku ma znaczenie wspomagające.
Metody są w dużym stopniu niezależne od języka dokumentu.
Analiza statystyczna określana jest mianem "analizy płytkiej"
(w odróżnieniu od "analizy głębokiej" wykorzystującej wiedzę
na temat języka).
• Stosowane jest zarówno podejście opisowe jak i
probabilistyczne.
P A | B  
P  B | A   P  A
P B 
• Przykład:
PSPAM | viagra 
11
Pviagra | SPAM  PSPAM 
Pviagra
12
2
2011-05-23
Podejście statystyczne – Andriej Markov
Podejście statystyczne – Data mining
• Andriej Markov - (ur. 14 czerwca 1856, zm. 20 lipca 1922),
matematyk rosyjski.
• Proces Markowa – ciąg zdarzeo, w którym
prawdopodobieostwo każdego zdarzenia zależy jedynie od
wyniku poprzedniego
• Przykład:
Data mining to określenie grupy metod szeroko rozumianej
analizy danych mających na celu identyfikację nieznanych
wcześniej prawidłowości występujących w dużych zbiorach
danych. Powstałe wyniki mają postad łatwą do interpretacji
przez prowadzącego badania.
– trzy stany: S1, S2, S3
– pij – prawdopodobieostwo przejścia
S1
S2
s3
S1
p11
p12
p13
S2
p21
p22
p23
S3
p31
p32
p33
Eugeniusz Gatnar, 1997
13
Podejście statystyczne – Text Mining
Przebieg analizy text miningowej
• Text mining – proces mający na celu wydobycie z zasobów
tekstowych nieznanych wcześniej informacji (Marti A. Hearst,
1999).
• Korzenie text miningu:
• Określenie celu, zakresu i kosztów badao,
• Wstępne przetworzenie dokumentów,
• Określenie sposobu reprezentacji informacji zawartych w
dokumentach,
• Konstrukcja modelu,
• Realizacja obliczeo,
• Ocena modelu,
• Interpretacja uzyskanych wyników.
–
–
–
–
–
–
–
Data mining,
Uczenie maszynowe,
Przetwarzanie języka naturalnego,
Wyszukiwanie informacji,
Statystyka,
Matematyka (algebra liniowa),
Informatyka.
15
Cel, zakres, koszty
Wstępne przetworzenie dokumentów
• Identyfikacja typu rozpatrywanego problemu:
•
•
•
•
–
–
–
–
–
klasyfikacja wzorcowa,
klasyfikacja bezwzorcowa (analiza skupieo),
współwystępowanie zjawisk,
określenie podobieostwa (np. identyfikacja plagiatów),
...
14
16
Transformacja dokumentów do postaci tekstowej,
Usunięcie znaków formatujących,
Ujednolicenie sposobu kodowania znaków.
Program Gżegżółka: http://www.gzegzolka.com/
• Sformułowanie celu zadania badawczego,
• Relacje pomiędzy celem, zakresem i budżetem badao.
17
18
3
2011-05-23
Reprezentacja dokumentów tekstowych (1)
• Reprezentacja unigramowa (model przestrzeni wektorowej,
reprezentacja bag-of-words, BOW)
• A vector space model for automatic indexing (1975), by G.
Salton, A. Wong, C. S. Yang, Communications of the ACM
• Reprezentacja n-gramowa
• pozwala uwzględnid n-wyrazowe ciągi wyrazów (np. "biały
kruk")
X=
Dokumenty
xij – liczba wystąpieo i-tego
wyrazu w j-tym dokumencie
Dokumenty
Wyrazy
Nie uwzględnia kolejności
wyrazów w tekście!
ciągu w j-tym dokumencie
n-wyrazowe
fragmenty
tekstu
X=
Jeśli w oznacza liczbę różnych
wyrazów, to liczba wierszy
w macierzy X wynosi wn.
Najpopularniejszy sposób
reprezentacji dokumentów.
19
• Reprezentacja unigramowa wzbogacona o informację o
pozycji danego słowa w dokumencie
• pozwala na badanie miejsca wystąpienia poszczególnych słów,
co jest istotne z punktu widzenia dwóch popularnych
heurystyk:
• Reprezentacja pojęd złożonych, idei, faktów
– słowa rozmieszczone równomiernie mają zwykle mniejsze znaczenie
niż słowa, których występowanie ograniczone jest do pewnego
fragmentu,
– w podobnych dokumentach miejsca, w których występuje natężenie
wystąpieo słowa są zbliżone.
Dokumenty
X=
pojęcia w j-tym dokumencie
Pojęcia,
idee,
fakty
Konieczna jest identyfikacja
pojęd w dokumencie.
Pojęcie reprezentowane jest
zwykle przez strukturę złożoną:
listę, drzewo, graf, ...
21
Tworzenie macierzy częstości (BOW – bag-of-words)
Wyznaczanie macierzy częstości BOW (1)
• Podział dokumentów na wyrazy,
• Usunięcie wyrazów nieistotnych (zawartych na stop-liście),
• Przekształcenie wyrazów do formy podstawowej (redukcja do
rdzenia),
• Utworzenie macierzy częstości,
• Przekształcenie macierzy częstości.
• Podział dokumentów na wyrazy
20
23
22
Mowa jest srebrem, lecz milczenie złotem.
↓
mowa
jest
srebrem
lecz
milczenie
złotem
24
4
2011-05-23
• Usunięcie słów nieistotnych (stop-lista)
• Przekształcenie wyrazów do formy podstawowej (rdzenia) –
jest tzw. stemming
↓
mowa
jest
srebrem
lecz
milczenie
złotem
↓
mowa - mowa
jest - byd
srebrem - srebro
lecz - lecz
milczenie - milczenie
złotem - złoto
25
...
26
• Metody redukcji do rdzenia (stemming):
• Utworzenie wspólnej listy dla wszystkich dokumentów
– regułowa
• algorytm Lovins – opisany w: Julie Beth Lovins (1968) Development of a
stemming algorithm. Mechanical Translation and Computational
Linguistics, 11: 22-31.
• algorytm Portera – opisany w: M.F. Porter, 1980, An algorithm for suffix
stripping, Program, 14(3) pp 130−137
Milczenie - przyjaciel który, nigdy nie zdradza
Książka to przyjaciel, który nigdy nie zdradzi
książka, który, milczenie, nie, nigdy, przyjaciel, to, zdradzad
– słownikowa
• bazująca na słowniku morfologicznym
• wybrane narzędzia pozwalające na redukcję do rdzenia dla tekstów
polskojęzycznych:
– SAM – analizator morfologiczny K. Szafrana (1996),
– lematyzator Daciuka (1998)
– lematyzator LAMETYZATOR – Weissa i Stefanowskiego
27
Przetwarzanie macierzy częstości BOW
• Utworzenie macierzy częstości
• zmiana wartości przechowywanych w macierzy częstości (bez
zmiany rozmiarów macierzy) – w celu lepszej reprezentacji
informacji zawartych w dokumencie,
• redukcja wymiarów macierzy częstości.
Dokumenty
wyrazu w j-tym dokumencie
X=
28
Wyrazy
29
30
5
2011-05-23
Modyfikacje macierzy częstości – bez zmiany rozmiarów (1)
• Reprezentacja binarna
• Reprezentacja logarytmiczna
X=
2 0 4 ... 4
1 0 3 ... 0
... ... ... ...
0 1 2 ... 1
bin
X
=
1 0 1 ... 1
1 0 1 ... 0
... ... ... ...
0 1 1 ... 1
X=
2
1
..
0
0
0
..
1
..
..
..
..
4
0
..
2
xij
31
log
X
=
1,301
1,000
.. .. ..
0,000
 1 + log(xij)
Redukcja wymiarów macierzy częstości
• Ważona reprezentacja logarytmiczna (model TFIDF)
• Dwa podejścia do zagadnienia redukcji
• zastosowanie stop listy,
• usunięcie informacji o wyrazach występujących tylko w jednym
dokumencie,
• usunięcie wyrazów występujących bardzo rzadko,
• usunięcie wyrazów występujących bardzo często,
 1 + log(xij)
Ważona reprezentacja logarytmiczna
xij
 (1 + log(xij)) * log(N/dfi)
– stworzenie nowego zestawu cech opisujących dokumenty/wyrazy
• analiza głównych składowych,
• dekompozycja według wartości osobliwych.
N - liczba wszystkich dokumentów
df i - liczba dokumentów zawiejących i-ty wyraz
33
Rozkład według wartości osobliwych
X = U S VT
•
•
•
=
U
34
Własności rozkładu według wartości osobliwych
• Rozkład według wartości osobliwych
X = U S VT
X
32
– wybór reprezentantów – usuwane są informacje dotyczące mniej
istotnych wyrazów:
Reprezentacja logarytmiczna
xij
0,000 .. 1,602
0.000 .. 0,000
..
1,000 .. 1,301
S
•
•
VT
•
•
•
macierz U - wyrazy w przestrzeni wyznaczonej przez składowe
macierz V - dokumenty w przestrzeni wyznaczonej przez składowe
macierz S - macierz diagonalna, znaczenie kolejnych składowych
35
kolumny macierzy U są wektorami własnymi macierzy XXT - co oznacza, że
wyznaczają główne składowe dla zbioru wyrazów;
kolumny macierzy V są wektorami własnymi macierzy XTX - co oznacza, że
wyznaczają główne składowe dla zbioru dokumentów;
macierz S jest macierzą diagonalną; można dowieśd, że zawarte w niej
elementy
są pierwiastkami kwadratowymi z wartości własnych macierzy
XXT oraz macierzy XTX;
elementy macierzy S są uporządkowane malejąco;
zachodzi zależnośd: UTU = I - co oznacza, że kolumny macierzy U są
ortonormalne;
wartości wyznaczone jako US stanowią współrzędne wyrazów w nowej
przestrzeni;
zachodzi zależnośd: VTV = I, co oznacza, że kolumny macierzy V są
ortonormalne;
wartości wyznaczone jako VS stanowią współrzędne dokumentów w nowej
przestrzeni.
36
6
2011-05-23
Rozkład według wartości osobliwych – redukcja wymiaru
przestrzeni
Pomiar odległości/podobieostwa na podstawie macierzy
częstości
Dokumenty
• Rozkład według wartości osobliwych
X = U S VT
X=
Wyrazy
Odległośd może byd liczona
pomiędzy dokumentami
(kolumny macierzy) lub pomiędzy
wyrazami (wiersze macierzy częstości).
n
X
=
U
S
d  x, y  
VT
n
 x
k 1
d  x, y  
 yk 
2
k
odległośd Euklidesa
k 1
n
k
yk
n
x y
2
k 1
k
2
k
k 1
odległośd kosinusowa
n
d x, y    x k  y k
x
odległośd miejska
k 1
współrzędne wyrazów: UrSr
współrzędne dokumentów: VrSr
d x, y   max k 1, 2,...,n xk  y k
37
odległośd Czebyszewa
Aforyzmy i przysłowia (1)
A.
B.
C.
D.
E.
F.
G.
H.
I.
J.
Milczenie bywa wymowniejsze od mowy.
Milczenie – przyjaciel, który nigdy nie zdradza.
Często najmądrzejszą odpowiedzią jest milczenie.
Mowa słodsza niż miód.
39
Trucizna prawdy jest lepsza od miodu kłamstwa.
Milsza prawda niż przyjaciel.
Książka jest przyjacielem, który nigdy nie oszukuje.
Książka to przyjaciel, który nigdy nie zdradza.
Kto znalazł przyjaciela, skarb znalazł.
40
Aforyzmy i przysłow ia - w ażona reprezentacja logarytmiczna, bez redukcji do rdzenia
Metoda Warda
Nie ten przyjaciel, co cię chwali, ale ten, co ci prawdę powie.
Pewnego przyjaciela poznaje się w niepewnym położeniu.
Pewnego przyjaciela poznaje się w sytuacji niepewnej.
Ten przyjaciel, co prawdę mówi.
Wierny bowiem przyjaciel potężną obroną, kto go znalazł,
skarb znalazł.
Milczenie byw a w ymow niejsze od mow y
Często najmądrzejszą odpow iedzią jest milczenie
Milsza praw da niż przyjaciel
Ten przyjaciel, co praw dę mów i
Mow a jest srebrem, lecz milczenie złotem
Mow a słodsza niż miód
Milczenie - przyjaciel, który nigdy nie zdradza
Książka to przyjaciel. który nigdy nie zdradzi
Książka jest przyjacielem, który nigdy nie oszukuje
Nie ten przyjaciel, co cię chw ali, ale ten, co ci praw dę mów i
Trucizna praw dy jest lepsza od miodu kłamstw a
Pew nego przyjaciela poznaj się w niepew nym połozeniu
Pew nego przyjaciela poznaje się w sytuacji niepew nej
Kto znalazł przyjaciela, skarb znalazł
Wierny bow iem przyjaciel potężną obroną, kto go znalazł, skarb znalazł
3
4
5
6
7
8
9
10
11
K.
L.
M.
N.
O.
38
41
Odległość
42
w iąz.
7
2011-05-23
Klasyfikacja wybranych utworów literatury polskiej (1)
Klasyfikacja wybranych utworów literatury polskiej (2)
•
•
•
•
•
•
•
•
•
•
•
•
Adam Mickiewicz, Dziady III
Juliusz Słowacki, Kordian
Stanisław Wyspiaoski, Noc Listopadowa
Stanisław Wyspiaoski, Wesele
Bolesław Prus, Katarynka
Henryk Sienkiewicz, Janko Muzykant
43
Maria Konopnicka, Nasza Szkapa
Gabriela Zapolska, Moralnośd Pani Dulskiej
Adam Mickiewicz, Pan Tadeusz
Henryk Sienkiewicz, Krzyżacy (t. I)
Eliza Orzeszkowa, Nad Niemnem (t. I)
Władysław Reymont, Chłopi (t. I)
Klasy f ikacja wy brany ch utworów literatury polskiej
ważona reprezentacja logary tmiczna, bez redukcji do rdzenia
Metoda Warda
44
Uruchamianie modułu „Text Miner”
A. Mickiewicz, Dziady III
J. Słowacki, Kordian
S. Wy spiański, Noc Listopadowa
S. Wy spiański, Wesele
B. Prus, Katary nka
H. Sienkiewicz, Janko Muzy kant
M. Konopnicka, Nasza szkapa
G. Zapolska, Moralność Pani Dulskiej
A. Mickiewicz, Pan Tadeusz
H. Sienkiewicz, Krzy żacy , t. I
E. Orzeszkowa, Nad Niemnem, t. I
W. Rey mont, Chłopi, t. I
0
20
40
60
Odległość wiąz.
80
100
120
45
Pozyskiwanie tekstów do analizy
46
Arkusz zawierający informacje o analizowanych tekstach
47
48
8
2011-05-23
Przykład – aforyzmy (1)
Przykład – aforyzmy (2)
49
Analiza – rozpoczęcie procesu
50
Macierzowa reprezentacja zbioru dokumentów
51
Karta Quick
52
Karta Advanced
53
54
9
2011-05-23
Karta Filters
Karta Characters
55
Karta Index
56
Karta Synonyms & phrases
57
Karta Delimiters
58
Karta Project
59
60
10
2011-05-23
Karta Default
Rozpoczęcie analizy – przycisk OK
61
Ostrzeżenie dotyczące bazy danych
62
Rezultaty obliczeo
63
Reprezentacja dokumentów
64
Macierz częstości (wystąpieo)
element xij wskazuje, ile razy i-ty wiersz występuje w j-tym dokumencie
65
66
11
2011-05-23
Przycisk Summary of word occurance in document
Przycisk Summary of words
67
Wybór układu wyświetlania informacji o dokumentach
68
Informacje o dokumentach
69
70
Przetwarzanie dokumentów tekstowych w języku R – pakiet tm
Pakiet tm
•
•
•
•
•
•
• tm – pakiet w języku R służący do przeprowadzania analiz text
miningowych
• pakiet nie jest instalowany w trakcie domyślnej instalacji
pakietu R; konieczna jest jednokrotna instalacja za pomocą
Packages / Install package(s)
• załadowanie pakietu: library ("tm"); wymagane jest
wcześniejsze zainstalowanie w systemie biblioteki libxml2
(parser XML) – dostępna bezpłatnie w Internecie (np.
http://www.zlatkovic.com/libxml.en.html)
Załadowanie pakietu
Odczyt plików źródłowych i utworzenie kolekcji dokumentów
Zastosowanie transformacji
Filtracja dokumentów
Utworzenie macierzy częstości
...dalsze przetwarzanie macierzy częstości
71
72
12
2011-05-23
Kolekcja dokumentów
• Tworzenie kolekcji dokumentów:
• kolekcja = Corpus(źródło, parametryOdczytu,...)
• źródło (object):
– DirSource – odczyt ze wskazanego katalogu
– CSVSource – odczyt z pliku zawierającego wartości oddzielone
przecinkami (format CSV)
– ReutersSource – odczyt z plików w formacie Reuters XML
– VectorSource – dokumenty przechowywane są jako kolejne elementy
wektora
73
74
Przykładowa kolekcja (korpus)
> katalog=system.file("texts","reut21578",package="tm")
> katalog
[1] "C:/PROGRA~1/R/R-28~1.0/library/tm/texts/reut21578"
> korpus <- Corpus(DirSource(katalog),readerControl=list(reader=readReut21578XML))
> korpus
A text document collection with 10 text documents
>
• parametryOdczytu (readerControl) – lista elementów:
• reader – wybór metody do odczytu dokumentów źródłowych
–
–
–
–
reader = readPlain (wartośd domyślna)
reader = readPDF
reader = readHTML
reader = readNewsgroup
• load = TRUE/FALSE – czy dokumenty mają zostad załadowane
do pamięci operacyjnej,
• language
– language = "en_US"
– http://msdn2.microsoft.com/en-us/library/ms776260(VS.85).aspx
75
> katalog=system.file("texts","txt",package="tm")
> katalog
[1] "C:/PROGRA~1/R/R-28~1.0/library/tm/texts/txt"
> korpus=Corpus(DirSource(katalog))
> korpus
>
> wektor=c("To jest pierwszy dokument","To jest drugi dokument","To jest trzeci
dokument")
> wektor
[1] "To jest pierwszy dokument" "To jest drugi dokument" "To jest trzeci dokument"
> korpus <- Corpus(VectorSource(wektor))
> korpus
>
76
Uwaga: przedstawione powyżej przykładowe teksty są napisane po łacinie!
77
78
13
2011-05-23
Informacje dotyczące kolekcji
> katalog <- "C:\\Documents and Settings\\User\\My
Documents\\Wyklady\\Programowanie w jezyku R\\Aforyzmy"
> show(kolekcja)
> korp <- Corpus(DirSource(katalog,encoding="CP1250"),readerControl=list(language="pl_PL"))
> summary(kolekcja)
There were 15 warnings (use warnings() to see them)
The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
create_date creator
Available variables in the data frame are:
MetaID
> korp
>
Wykorzystywane dane dostępne są pod adresem:
http://www.uek.krakow.pl/~lulap/Aforyzmy.zip
79
> inspect(kolekcja)
[[6]]
[1] "Trucizna prawdy jest lepsza od miodu kłamstwa."
[[7]]
[1] "Milsza prawda niż przyjaciel."
Available tags are:
create_date creator
MetaID
[[8]]
[1] "Książka jest przyjacielem, który nigdy nie oszukuje."
[[9]]
[1] "Książka to przyjaciel, który nigdy nie zdradzi."
[[1]]
[1] "Milczenie bywa wymowniejsze od mowy."
[[10]]
[1] "Kto znalazł przyjaciela, skarb znalazł."
[[2]]
[1] "Milczenie - przyjaciel, który nigdy nie zdradza."
[[11]]
[1] "Nie ten przyjaciel, kto cię chwali, ale ten, co ci prawdę mówi."
[[3]]
[1] "Często najmądrzejszą odpowiedzią jest milczenie."
[[12]]
[1] "Pewnego przyjaciela poznaje się w niepewnym położeniu."
[[13]]
[1] "Pewnego przyjaciela poznaje się w sytuacji niepewnej."
[[4]]
[1] "Mowa jest srebrem, lecz milczenie złotem."
[[14]]
[1] "Ten przyjaciel, co prawdę mówi."
[[5]]
[1] "Mowa słodsza niż miód."
[[15]]
[1] "Wierny bowiem przyjaciel potężną obroną, kto go znalazł, skarb znalazł."
81
Transformacje
Przykładowa transformacja kolekcji dokumentów
Transformacja – operacja przekształcająca każdy dokument w kolekcji
> kolekcja <- tmMap(kolekcja,tmTolower)
kolekcja = tmMap(kolekcja, funkcjaTransformująca)
> inspect(kolekcja)
funkcjaTransformująca:
• loadDoc – załadowanie do pamięci
• asPlain – przekształcenie do postaci tekstowej
• stripWhiteSpace – usunięcie białych spacji
• tmTolower – przekształcenie do małych liter
• stopwords(język) – zastosowanie stop-listy
•
•
80
82
Available tags are:
create_date creator
MetaID
obsługiwane języki: danish, dutch, english, finnish, french, german, hungarian, italian,
norwegian, portuguese, russian, spanish, swedish.
stemDoc – redukcja do rdzenia (algorytm Portera)
[[1]]
[1] "milczenie bywa wymowniejsze od mowy."
[[2]]
[1] "milczenie - przyjaciel, który nigdy nie zdradza."
[[3]]
[1] "często najmądrzejszą odpowiedzią jest milczenie."
....
83
84
14
2011-05-23
Tworzenie macierzy częstości
> TermDocMatrix(korp)
[1] "lapply"
An object of class “TermDocMatrix”
Slot "Data":
15 x 52 sparse Matrix of class "dgCMatrix"
[[ suppressing 52 column names „bywa‟, „milczenie‟, „mowy‟ ... ]]
TermDocMatrix(object, control = list(........))
1 1111................................................
2 .1..11111...........................................
3 .1.......1111.......................................
4 .1........1..1111...................................
5 ..............1..111................................
6 ..........1.........11111...........................
7 .......1..........1......11.........................
8 ....111...1................111......................
9 ....1111...................1..1.....................
10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 2 . . . . . . . . . . . . . . . . .
11 . . . . . 1 . 1 . . . . . . . . . . . . . . . . . . . . . . . 1 . . . 1 1 1 1 1 2 . . . . . . . . . . .
12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . . 1 1 1 1 1 . . . . . .
13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . . . 1 . 1 1 1 1 . . . .
14 . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 . . . . . . . . . . .
15 . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . 1 . 1 2 . . . . . . . . . . . . . 1 1 1 1
Dopuszczalne parametry:
•removeNumbers – domyślnie FALSE.
•stemming – domyślnie FALSE.
•stopwords: domyślnie FALSE
•minDocFreq: domyślnie: 1
•minWordLength: domyślnie: 3
•weighting:
•
•
•
•
weightTf – macierz czestości,
weightTfIdf – ważona reprezentacja logiczna,
weightBin – reprezentacja binarna,
weightLogical – reprezentacja binarna (wartości logiczne TRUE/FALSE).
Slot "Weighting":
[1] "term frequency"
85
86
Nazwy kolumn i wierszy w macierzy częstości
Konwersja macierzy rzadkiej do postaci standardowej
> colnames(mc@Data)
[1] "bywa"
"milczenie"
"mowy"
"wymowniejsze" "który"
"nie"
"nigdy"
"przyjaciel" "zdradza"
"często"
"jest"
"najmądrzejszą"
"odpowiedzią" "lecz"
> mc <- TermDocMatrix(kolekcja)
[15] "mowa"
"kłamstwa"
"książka"
"srebrem"
"złotem"
"miód"
"lepsza"
"miodu"
"prawdy"
[29] "oszukuje"
"przyjacielem" "zdradzi"
"znalazł"
"ale"
"chwali"
"cię"
"niepewnym"
"niż"
"trucizna"
"kto"
"mówi"
[43] "pewnego"
"położeniu"
"poznaje"
"się"
"bowiem"
"obroną"
"potężną"
"wierny"
"słodsza"
"milsza"
> mcStandard = as.matrix(mc@Data)
"prawda"
"przyjaciela" "skarb"
"prawdę"
"ten"
"niepewnej"
"sytuacji"
> rownames(mc@Data)
[1] "1" "2" "3" "4" "5" "6" "7" "8" "9" "10" "11" "12" "13" "14" "15"
>
87
Macierz częstości w postaci standardowej macierzy
88
Nazwy kolumn i wierszy w macierzy częstości
> colnames(mcStandard)
[1] "bywa"
"milczenie"
"mowy"
"wymowniejsze" "który"
"nie"
"nigdy"
"przyjaciel" "zdradza"
"często"
"jest"
"najmądrzejszą"
"odpowiedzią" "lecz"
> mcStandard
Docs
Terms bywa milczenie mowy wymowniejsze który nie nigdy przyjaciel zdradza często jest najmądrzejszą odpowiedzią lecz mowa srebrem z łotem miód niż słodsza kłamstwa lepsza miodu prawdy trucizna milsza prawda książka oszukuje przyjacielem
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2
0
1
0
0
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
3
0
1
0
0
0
0
0
0
0
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
4
0
1
0
0
0
0
0
0
0
0
1
0
0
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
1
1
1
0
0
0
0
0
0
0
0
0
0
6
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
1
1
1
1
1
0
0
0
0
0
7
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
1
1
0
0
0
8
0
0
0
0
1
1
1
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
9
0
0
0
0
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
10
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
11
0
0
0
0
0
1
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
12
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
13
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
14
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
15
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Docs
Terms zdradzi kto przyjaciela skarb znalazł ale chwali cię mówi prawdę ten niepewnym pewnego położeniu poznaje się niepewnej sytuac ji bowiem obroną potężną wierny
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
3
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
4
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
6
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
7
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
8
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
9
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
10
0
1
1
1
2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
11
0
1
0
0
0
1
1
1
1
1
2
0
0
0
0
0
0
0
0
0
0
0
12
0
0
1
0
0
0
0
0
0
0
0
1
1
1
1
1
0
0
0
0
0
0
13
0
0
1
0
0
0
0
0
0
0
0
0
1
0
1
1
1
1
0
0
0
0
14
0
0
0
0
0
0
0
0
1
1
1
0
0
0
0
0
0
0
0
0
0
0
15
0
1
0
1
2
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
>
[15] "mowa"
"kłamstwa"
"książka"
"srebrem"
"złotem"
"miód"
"lepsza"
"miodu"
"prawdy"
[29] "oszukuje"
"przyjacielem" "zdradzi"
"znalazł"
"ale"
"chwali"
"cię"
"niepewnym"
"niż"
"trucizna"
"kto"
"mówi"
[43] "pewnego"
"położeniu"
"poznaje"
"się"
"bowiem"
"obroną"
"potężną"
"wierny"
"słodsza"
"milsza"
"prawda"
"przyjaciela" "skarb"
"prawdę"
"ten"
"niepewnej"
"sytuacji"
> rownames(mcStandard)
[1] "1" "2" "3" "4" "5" "6" "7" "8" "9" "10" "11" "12" "13" "14" "15"
>
89
90
15
2011-05-23
Przykładowa analiza taksonomiczna
Automatyczna redukcja do rdzenia dla tekstów
polskojęzycznych
Cluster Dendrogram
> odl=dist(mcStandard)
• Dawid Weiss – lematyzator hybrydowy;
http://www.cs.put.poznan.pl/dweiss/xml/projects/lametyzato
r/index.xml
8
3
9
14
2
11
7
5
15
13
12
10
2
1
4
6
3
Height
4
5
> klas <- hclust(odl,method="ward")
> plot(klas)
>
odl
hclust (*, "ward")
91
92
Cele badao
• Celem ogólnym było wypracowane i ocena metody analizy
danych tekstowych (dokumenty polskojęzyczne, o ściśle
określonej tematyce):
– automatyczne pozyskanie tekstów z serwisów WWW,
– wstępne przygotowanie tekstów,
– pozyskanie z dokumentów informacji istotnych ze względu na cel
analizy i ich reprezentacja w postaci dogodnej do dalszego
przetworzenia,
– analiza za pomocą metod statystycznych.
EKSPLORACYJNA ANALIZA OFERT Z RYNKU
NIERUCHOMOŚCI
• Celem szczegółowym była analiza tekstów ofert sprzedaży
mieszkao w Krakowie.
93
Serwisy WWW jako źródło danych tekstowych (1)
Problem 1:
Strony definiowane są w języku HTML
(xHTML, XML) i zawierają dużą liczbę
znaczników.
Problem 2:
Ręczne pobieranie danych (kopiujwklej) jest bardzo powolne i nużące.
<div id="osgs_head_r0"></div><div id="linkcheck"></div><div id="osgs_wrapper"><div
id="osgs_main"><a name="osgs_main"></a><div id="osgs_header"><div
id="osgs_head_r1"><ul class="topLinks"><li><a href="#" id="setHomePage"
rel="nofollow" onclick="return NowaSg.setAsStartShow(this,
'http://www.onet.pl/');">Ustaw jako stronę startową</a><div class="startHelp"
id="nsg_homepage_box"><div class="startHelpInner"><div class="startTop"> <a
class="drag" href="#">Przeciągnij i upuść</a> <ol> <li>Przeciągnij i upuść
"żółtą kropkę" na ikonę strony startowej (domek) na pasku
przeglądarki</li> <li>Potwierdź wybór, klikając "Tak"</li>
</ol></div><p><em>Możesz również:</em>Wybrać zakładkę "Narzędzia"
następnie "Opcje". Wpisać <strong>onet.pl</strong> w polu"Strona
startowa" i potwierdzić klikając "OK"</p><a rel="nofollow"
class="close" href="#" onclick="return NowaSg.switchHomePageBox('nsg_homepage_box',
false);">Zamknij</a> </div></div></li><li><a id="switchpleu" rel="nofollow”
95
94
Problem 3:
Na różnych stronach mogą byd stosowane
różne metody kodowania znaków
96
16
2011-05-23
Źródło danych w przeprowadzonych badaniach
• Rozwiązaniem jest zastosowanie oprogramowania:
–
–
–
–
analizującego kod HTML znajdujący się na stronie (parser HTML),
wędrującego automatycznie po stronach (pająki sieciowe),
pobierającego fragmenty zawartości strony,
zmieniającego sposób kodowania tekstów.
97
Charakterystyka procesu pozyskania danych
98
Przykładowa oferta
• Wykorzystano samodzielnie skonstruowanego pająka
sieciowego przechodzącego po stronach zawierających oferty
zgodne ze zdefiniowanym zapytaniem (sprzedaż mieszkao,
Kraków) – program zaimplementowany został w języku Java
• Do analizy strony z opisem jednej oferty wykorzystano parser:
Jericho HTML (http://jericho.htmlparser.net/docs/index.html).
• Do ujednolicenia sposobu kodowania wykorzystano program
Gżegżółka (http://www.gzegzolka.com/).
• Liczba pozyskanych ofert: 10697
Teksty częściowo ustrukturyzowane,
o ściśle określonej tematyce.
Kraków, Ruczaj-zaborze, Zalesie
W trakcie analizy pojawia się
cena: 355000 PLN (6920 PLN/m?2;)
koniecznośd uwzględnienia
Ulica: Zalesie
kontekstu wyrazów.
Piętro: parter
Liczba kondygnacji: 4
Typ kuchni: do własnej aranżacji, jasna, oddzielna,
Hipoteczne; Czynsz: 250.00 zł; Budynek: blok, cegła, nowe budownictwo nowy;
Standard mieszkania: do wprowadzenia; Dodatkowo: garderoba, nie ma piwnicy,
balkon, drzwi antywłamaniowe, winda, teren ogrodzony, domofon; W pobliżu:
sklepy, usługi, basen, fitness, kościół, przedszkole, szkoła, tereny rekreacyjne,
Uniwersytet Jagiellooski; Rozkład: do własnej aranżacji, ustawne, dwustronny,
jasny, korzystny układ, pokoje nieprzechodnie; Ogrzewanie: centralne własne w
budynku; Mieszkanie 2 pokoje nowe51,3m2 , wykooczone Ruczaj ul Zalesie od
ulicy Zachodniej. Mieszkanie na parterze w czteropiętrowym bloku. Pokoje 14m2,
12m2, kuchnia 8m2, łazienka 6,5m2. W przedpokoju miejsce na garderobę,
kuchnia w koocowej wersji z umeblowaniem. Mieszkanie ekonomiczne własna
kotłownia, baterie słoneczne na dachu- małe opłaty za ciepłą wodę.
99
Pozyskiwanie z dokumentów tekstowych informacji istotnych
ze względu na cel analizy
100
Definicja wzorca opisujacego cenę mieszkania
Phase: CenaMieszkania
Input: Token
//note that we are using Lookup and Token both inside our rules.
// Cena
//
- calosc
//
- cenam2
//
- jednostka
• Należy zdefiniowad szablony opisujące istotne frazy oraz
podad sposób interpretacji poszczególnych elementów.
• Narzędzie: język JAPE - Java Annotation Patterns Engine –
język pozwalający na definiowanie wzorców za pomocą
mechanizmu wyrażeo regularnych.
• Implementacja: pakiet GATE – General Architecture for Text
Engineering (http://gate.ac.uk/)
Options: control = all
Rule: cenaMieszkania
(
(
)
(
):tempCalosc
(
):tempJednostka
(
)
(
):cena
):tempCenam2
{Token.string =~ "[Cc]ena"}
{Token.kind == "punctuation"}
{Token.kind == "number"}
{Token.kind == "word", Token.length ==3}
{Token.kind == "punctuation"}
{Token.kind == "number"}
-->
:cena.Cena = {calosc = :tempCalosc.Token.string, cenam2 = :tempCenam2.Token.string,jednostka = :tempJednostka.Token.string, rule = cenaMieszkania}
101
102
17
2011-05-23
Definicja wzorca opisujacego liczbę pokoi w mieszkaniu (1)
Phase: LiczbaPokoi
Input: Token
ule:jedenPokoj
Priority:40
(
(
Options: control = appelt
)
|
(
Rule:pomin1
Priority:50
(
{Token.string =~ "[Pp]okój"}
{Token.string =~ "[Pp]ołączon"}
)
-->
{}
)
|
(
)
|
(
)
{Token.string =~ "[Kk]awalerka"}
{Token.string =~ "[Jj]ednopokojow"}
{Token.string =~ "[Jj]eden"}
{Token.string =~ "[Pp]okój"}
{Token.string =~ "[Po]okój"}
{Token.string =~ "z"}
{Token.string =~ "aneks"}
):tempJeden
-->
:tempJeden.LiczbaPokoi = {ile = "1", rule = jedenPokoj}
103
104
Anotacje w programie GATE
Rule:dwaPokoje
Priority:38
(
(
{Token.string =~ "[Dd]wupokojowe"}
)
|
(
{Token.string =~ "[Dd]w[au]"}
{Token.string =~ "[Pp]oko[ij]"}
)
|
(
{Token.string =~ "2"}
{Token.string =~ "pokoje"}
)
):tempDwa
-->
:tempDwa.LiczbaPokoi = {ile = "2", rule = dwaPokoje}
Ciąg dalszy
w sposób
analogiczny ...
105
Pobieranie z dokumentów zidentyfikowanych informacji
106
Wczytanie danych do programu STATISTICA
<?xml version="1.0"?>
<ML-CONFIG>
<SURROUND value="false"/>
<DATASET>
<INSTANCE-TYPE>LiczbaPokoi</INSTANCE-TYPE>
<NGRAM>
<NAME>LiczbaPokoi</NAME>
<NUMBER>1</NUMBER>
<CONSNUM>1</CONSNUM>
<CONS-1>
<TYPE>LiczbaPokoi</TYPE>
<FEATURE>ile</FEATURE>
</CONS-1>
</NGRAM>
<ValueTypeNgram>2</ValueTypeNgram>
</DATASET>
</ML-CONFIG>
Po wczytaniu usunięto powtarzające się przypadki – najprawdopodobniej
opisy tych samych mieszkao.
107
108
18
2011-05-23
Wybrane przykłady wizualizacji danych
Histogram Powierzchnia
Histogram Cena
2600
3500
2400
3000
2200
2000
2500
1800
Liczba obs.
Liczba obs.
1600
1400
1200
1000
800
2000
1500
1000
600
400
500
200
0
1,0000
37,7211
74,4423
111,1634
147,8845
184,6057
221,3268
19,3606
56,0817
92,8028
129,5240
166,2451
202,9662
0
99999
5E5
3E5
9E5
7E5
1,3E6
1,7E6
1,1E6
Powierzchnia
1,5E6
2,1E6
1,9E6
2,5E6
2,3E6
Cena
109
110
Histogram Cena-m2
Histogram Kuchnia
2000
8000
1600
7000
1400
6000
1200
5000
Liczba obs.
Liczba obs.
Arkusz21 1v*10682c
1800
1000
800
4000
3000
600
400
2000
200
1000
0
0
738,4
3696,0
6653,6
9611,2
12568,8
15526,4
18484,0
2217,2
5174,8
8132,4
11090,0
14047,6
17005,2
19962,8
aneks
bd
oddzielna
polaczona
Kuchnia
Cena-m2
111
112
Histogram Liczba pokoi
Histogram Piętro
7000
2200
2000
6000
1800
5000
1600
Liczba obs.
Liczba obs.
1400
4000
3000
1200
1000
800
2000
600
400
1000
200
0
0
1
2
3
4
0
5
-1
Liczba pokoi
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17
Piętro
113
114
19
2011-05-23
Ramkowy Cena-m2 grupowane względem Kuchnia
Histogram RodzajBud
dane.sta 8v*10682c
5000
24000
22000
20000
4000
18000
14000
Cena-m2
Liczba obs.
16000
3000
2000
12000
10000
8000
6000
4000
1000
2000
0
0
-2000
kamienica
blok
bd
apartamentowiec
osiedleZamkniete
oddzielna
polaczona
aneks
bd
Średnia
Średnia±Odch.std
Zakres nieodstających
Kuchnia
RodzajBud
115
116
Ramkowy Cena-m2 grupowane względem RodzajBud
Ramkowy Powierzchnia grupowane względem Kuchnia
280
dane.sta 8v*10682c
26000
260
24000
240
22000
20000
200
18000
180
16000
160
14000
Cena-m2
Powierzchnia
220
140
120
12000
10000
8000
100
6000
80
4000
60
2000
40
0
20
-2000
0
aneks
bd
oddzielna
polaczona
kamienica
Średnia
Średnia±Odch.std
bd
blok
apartamentowiec
osiedleZamkniete
Średnia
Średnia±Odch.std
RodzajBud
Kuchnia
117
Podsumowanie
Sied semantyczna
• Przedstawiona metoda analizy sprawdza się przy analizie
tekstów o ściśle określonej tematyce (oferty, raporty, opinie
konsumentów, notatki służbowe).
• Najważniejszym (i najbardziej czasochłonnym) jest
zdefiniowanie wzorców – całkowite zautomatyzowanie tego
procesu wydaje się niemożliwe.
• Zdefiniowane wzorce mogą byd wielokrotnie użyte!
• Sied semantyczna – struktura złożona z połączonych ze sobą
węzłów.
• Węzły reprezentują obiekty.
• Połączenia reprezentują związki zachodzące pomiędzy
obiektami.
119
118
120
20
2011-05-23
Przykładowa sied semantyczna
WordNet jako sied semantyczna
• sied semantyczna prezentująca relacje pomiędzy słowami
języka angielskiego
• utworzona w Uniwersytecie Princeton w 1985 roku
• zawiera około 150000 słów
• udostępniana bezpłatnie
uczy się w
Bank BPH
Marcin
pracuje w
SP nr 4
jest ojcem
Jacek
ma żonę
lubi muzykę
Krysia
Czerwone Gitary
pracuje w
przychodnia
121
WordNet jako sied semantyczna
122
Podstawowe relacje występujące w sieci WordNet
•
prawie synonimy
•
nadklasa – podklasa (pojęcie bardziej ogólne / pojęcie bardziej szczegółowe)
•
częśd – całośd
– samochód – auto
– błąd - pomyłka
– drzewo – klon,
– zwierzę – ptak, ptak – jastrząb
– lampa – żarówka
– komputer – procesor
– procesor – akumulator
•
relacja przeciwstawna
•
zawieranie się jednej czynności w drugiej (tzw. troponimy, relacja dotyczy
wyłącznie czasowników)
– wysoki – niski
– dobry – zły
– iśd – spacerowad
– mówid – przemawiad
123
Polski WordNet
124
Polski WordNet
• Sied semantyczna tworzona dla słów języka polskiego
• Projekt rozwijany na Politechnice Wrocławskiej
• prace rozpoczęto w 2005 roku
125
126
21
2011-05-23
Sied semantyczna
Ontologia
•
•
•
•
• w filozofii:
opisuje wybrany fragment rzeczywistości,
pozwala na zaawansowane wyszukiwanie informacji,
umożliwia wnioskowanie,
podstawowy problem – brak ujednoliconego sposobu opisu
relacji zachodzących pomiędzy obiektami
– nauka o bycie,
• w informatyce:
– pojęcie występuje w literaturze z zakresu informatyki od połowy lat
sześddziesiątych
– Ontologia stanowi wspólną reprezentację pewnej dziedziny działalności
ludzkiej, która może byd wykorzystana jako platforma porozumienia
pozwalająca na spójne podejście do rozwiązywania problemów w tej
dziedzinie. Ontologia obejmuje pewną wizję świata ograniczoną do danej
dziedziny. Taka wizja zazwyczaj jest wyrażana jako zbiór pojęd, definicji
tych pojęd oraz ich wzajemnych powiązao. Taką reprezentację dziedziny
nazywamy często jej konceptualizacją (Mike Uschold - Artificial
Intelligence Application Institute, University of Edinburgh
– podstawowe zadania ontologii:
• kategoryzacja,
• hierarchizacja.
127
Język XML
Struktura przykładowego magazynu
• XML - Extensible Markup Language – Rozszerzalny język
znaczników
• Funkcje realizowane przez XML:
Magazyn
– opis struktury informacji
– przechowywanie danych
– opis sposobu przetwarzania informacji
Towar
Nazwa:
Chleb
wiejski
129
Producent:
Piekarnia
tradycyjna
Towar
Cena:
1,70
Nazwa:
Zapałki
Przykładowy kod w XML
...
<?xml version="1.0" encoding="ISO-8859-2"?>
<?xml-stylesheet type="text/css" href="styl.css" ?>
<!DOCTYPE MAGAZYN [
<!ELEMENT NAZWA (#PCDATA)>
<!ELEMENT PRODUCENT (#PCDATA)>
<!ELEMENT CENA (#PCDATA)>
<!ELEMENT TOWAR (NAZWA, PRODUCENT?, CENA)>
<!ELEMENT TYTUL (#PCDATA)>
<!ELEMENT MAGAZYN (TYTUL?,TOWAR+)>
]>
<MAGAZYN>
128
Cena:
0,35
130
<TYTUL>STAN MAGAZYNU</TYTUL>
<TOWAR>
<NAZWA>Chleb wiejski</NAZWA>
<PRODUCENT>Piekarnia "Tradycyjna"</PRODUCENT>
<CENA>1.70</CENA>
</TOWAR>
<TOWAR>
<NAZWA>Masło domowe</NAZWA>
<PRODUCENT>Społdzielnia Mleczarska</PRODUCENT>
<CENA>2.50</CENA>
</TOWAR>
<TOWAR>
<NAZWA>Zapałki</NAZWA>
<CENA>0.35</CENA>
</TOWAR>
</MAGAZYN>
131
132
22
2011-05-23
Przetwarzanie zasobów sieci semantycznej
Definiowanie stwierdzeo w języku RDF
• Warunkiem pozwalającym na przetwarzanie zasobów jest
stosowanie ujednoliconego zastawu znaczników opisujących
zasoby przechowywane w sieci
• RDF - Resource Description Framework - Ramowy opis
zasobów
• RDF pozwala na definiowanie stwierdzeo dotyczących
zasobów dostępnych w sieci.
• Stwierdzenia:
– dotyczą określonego zasobu - (identyfikowanego przez URL),
– definiują jego cechy,
– określają wartości zdefiniowanych cech
– narzędzie pozwalające na definiowanie metadanych (znaczników)
służących do opisu zasobów sieci.
– RDF pozwala na definiowanie stwierdzeo dotyczących zasobów
dostępnych w sieci
(obiekt, cecha, wartośd)
• DAML
• OIL
• OWL
133
...
134
Zbiory przykładowych ontologii
<DESCRIPTION
ABOUT=”http://sklep.com.pl/Ksiazki/ISBN/1289”>
<AUTOR>Jan Iksioski</AUTOR>
<TYTUL>Finanse</TYTUL>
<STRESZCZENIE>Jest to bardzo interesująca
pozycja z zakresu finansów
</STRESZCZENIE>
<CENA>56,50</CENA>
</DESCRIPTION>
135
Zalety stosowania ontologii
136
Tworzenie ontologii
• ujednolicenie sposobu opisu:
– możliwośd komunikacji
– możliwośd weryfikacji poprawności zapisu
• możliwośd automatyzacji wyszukiwania i przetwarzania
informacji przez programy – agenty
• pozwalają wyznaczyd wartości miar podobieostwa pomiędzy
obiektami (koncepcjami) występującymi w ontologii
137
138
23
2011-05-23
Tworzenie ontologii
http://swoogle.umbc.edu/
139
140
Określanie podobieostwa obiektów opisywanych za pomocą
ontologii
Wybrane propozycje metod pomiaru odległości pomiędzy
drzewami
• Przyjmując, że opis obiektu ma postad dokumentu XML, przy
obliczaniu podobieostwa/odległości pomiędzy obiektami
należy uwzględnid:
• odległośd LSS – J. Long, D. G. Schwartz, S. Stoecklin, An XML
Distance Measure
• podobieostwo BBY – V. C. Bhavsar, H. Boley, L. Yang,
A Weighted-Tree Similarity Algorithm for Multi-Agent Systems
in E-business Environments
– wartości wchodzących w skład drzewa
– struktury drzewa.
141
Trudności w obiektywizacji wyboru formuły odległości
Elementy pomiaru odległości pomiędzy drzewami
•
obie metody służą do wyrażenia odległości (podobieostwa) pomiędzy drzewami
reprezentowanymi przez zapisy w języku XML
konstrukcja obu mierników jest różna i różne są uzyskiwane wyniki
trudno jest wskazad metodę „lepszą” – zależy to od rozpatrywanego problemu i
przyjętych przez badacza założeo
dokonywanie właściwego wyrażania odległości pomiędzy drzewami wymaga
•
– identyfikacji poszczególnych elementów wpływające na sposób wyrażania
odległości pomiędzy drzewami
– zdefiniowania sposobu ich funkcjonowania w sposób odpowiedni dla badanego
problemu, uwzględniający przyjęte założenia i preferencje badacza.
•
•
•
•
•
•
•
•
143
142
Pomiar odległości (podobieostwa) pomiędzy elementami (wartościami
przechowywanymi w liściach drzew)
Sposób traktowania atrybutów elementów
Formuła agregacji odległości (podobieostwa) pomiędzy elementami
składowymi
Problem ważenia
Sposób uwzględnienia informacji o zależnościach hierarchicznych
Postępowanie w przypadku wystąpienia niezgodności w strukturach
analizowanych drzew
144
24
2011-05-23
Reprezentacja zbioru pojęd
•
Pojęcie podstawowe
– Klasa 1
• Klasa 1.1
– Klasa 1.1.1
– Klasa 1.1.2
– ...
• Klasa 1.2
– Klasa 1.2.1
– Klasa 1.2.2
– ...
• ...
– Klasa 2
Przykład
• Klasa 2.1
EKSPLORACYJNA ANALIZA TEKSTÓW WSPOMAGANA ZA
POMOCĄ ONTOLOGII
• Klasa 2.2
– ...
– ...
• ...
– Klasa 3
Struktura klas jest zwykle reprezentowana
za pomocą drzewa.
Do zapisu drzewa wykorzystywane są
języki bazujące na języku XML.
• ...
– ...
145
Klasyfikacja zagadnieo z zakresu informatyki
146
147
148
149
150
25
2011-05-23
Podobieostwo pomiędzy klasami występującymi w ontologii
Podobieostwo semantyczne wyznaczane na podstawie
WordNet’u
C0
C1
C2
Dekang Lin:
informacje wspólne
sim(C1 , C2 ) 
suma informacji o klasach
sim(C1 , C2 ) 
sim(C1, C2 ) 
I C0 
I C1   I C2 
2  logP C0 
logP C1   logP C2 
151
Podobieostwo pomiędzy zbiorami pojęd
Reprezentacja treści kształcenia określonych w standardach
kształcenia dla kierunku Informatyka i Ekonometria
H.1.0
H.4.1
H.4.2
H.4.3
C.0
J.4
J.4
H.1.0
H.5.4
H.4.3
C.2.1
C.2.5
C.2.6
H.3.3
J.7
K.4.4
J.4
H.4.1
J.4
J.1
J.1
J.4
J.1
sim(Zb1 , Zb2 )  avgCi , C j , Ci  Zb1 , C j  Zb2
153
Ocena charakteru przedmiotu
152
K.6.0
K.6.4
K.6.1
F.2
J.1
K.4.4
K.6.5
C.2.0
E.3
K.5
K.6.0
J.1
K.6.1
J.1
H.1.1
H.1.2
154
Związki pomiędzy przedmiotami
155
156
26
2011-05-23
Związki pomiędzy przedmiotami a klasami zagadnieo
występującymi w ontologii ACM
Podsumowanie
• Prawidłowo zaplanowana i zrealizowana analiza danych
tekstowych wykorzystująca pojęcia zdefiniowane w postaci
ontologii daje lepsze rezultaty niż podejście text miningowe.
• Konieczne są dalsze badania w zakresie:
– zastosowania innych miar podobieostwa/odległości pomiędzy klasami
– zastosowania innych miar podobieostwa/odległości pomiędzy
zbiorami klas.
• Celowe jest opracowanie klasyfikacji pojęd objętych
kształceniem na kierunkach ekonomicznych i przeprowadzenie
analizy oferowanych programów.
157
158
27

Ogólna charakterystyka Web Miningu

Transkrypt

Podobne dokumenty

Lista uczelni

Analiza struktury serwisów WWW - Uniwersytet Ekonomiczny w

Lp. Stanowisko/zakres spraw Imię i nazwisko Nr telefonu Adres e

Program Konferencji Edukacyjnej cyklu Uruchamiamy Dzieciaki w

Amiens - Katedra/La Cathedrale Notre Dame/

Zgłoszenia, prosimy przesyłać na adres: