pobierz plik referatu

Transkrypt

pobierz plik referatu
Rozdział monografii: 'Bazy Danych: Rozwój metod i technologii', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2008
Rozdział 30
w
Wykorzystanie grupowania do przyspieszania
zapytań ilościowych na dokumentach XML
w
1 Wstęp
da
.b
w
Streszczenie. Przedstawiona praca zawiera propozycję wykorzystania metod
grupowania danych do przyspieszania zapytań ilościowych na kolekcji dokumentów XML. Dla zaproponowanego rozwiązania zostały przeanalizowane
różne typy zapytań ilościowych, a eksperymenty pozwoliły na porównanie
wybranych metod wyznaczania podobieństwa struktury dokumentów XML
w połączeniu z różnymi algorytmami grupowania. Wyniki przeprowadzonej
analizy pozwalają na wskazanie wielopoziomowego grupowania dokumentów XML w połączeniu z kodowaniem krotnościowym struktury dokumentu
jako metody dającej lepsze rezultaty dla analizowanej kolekcji dokumentów
XML od tradycyjnych metod grupowania.
pl
s.
Popularność standardu XML (eXtensible Markup Language) [20] oraz duża liczba jego zastosowań stała się impulsem do rozwoju systemów baz danych dedykowanych dla dokumentów XML. Funkcjonalność relacyjnych systemów baz danych jest również stale rozwijana w celu umożliwienia efektywnego składowania i przetwarzania dokumentów XML,
a także realizacji zapytań na kolekcji dokumentów XML.
Elastyczność struktury dokumentów XML sprawia, że również w ramach jednej kolekcji
mogą znaleźć się dokumenty o znacząco różnej strukturze. Z tego względu możliwe jest, że
niektóre zapytania realizowane na takiej kolekcji będą dotyczyły jedynie kilku dokumentów zawartych w bardzo dużej bazie danych. Ograniczając realizację zapytania do tych
kilku dokumentów możliwe powinno być przyspieszenie wykonania zapytania w stosunku
do analizy całej kolekcji dokumentów. Do ograniczenia liczby przetwarzanych zapytań można wykorzystać algorytmy grupowania.
Do problemu przedstawionego powyżej można wykorzystać wiele istniejących algorytmów grupowania [7], [8], [10], które można określić jako tradycyjne algorytmy grupowania. Biorąc pod uwagę specyficzną drzewiastą strukturę dokumentów XML lepsze efekty
może dać zastosowanie algorytmu grupowania dedykowanego dla drzewiastej struktury dokumentów. Przykładem takiego algorytmu grupowania jest wielopoziomowe grupowanie
dokumentów XML [11], [13].
Michał Kozielski
Politechnika Śląska, Instytut Informatyki, ul. Akademicka 16, 44-100 Gliwice, Polska
email: [email protected]
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2008
Rozdział monografii: 'Bazy Danych: Rozwój metod i technologii', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2008
M. Kozielski
w
Niniejsza praca przedstawia zastosowanie algorytmów grupowania, ze szczególnym
uwzględnieniem algorytmu wielopoziomowego, do przyspieszania realizacji selektywnych
zapytań ilościowych na strukturze dokumentów XML.
W kolejnych podrozdziałach przedstawiony jest charakter analizowanych zapytań oraz
opis metody pozwalającej na ograniczenie liczby dokumentów, na których ma być wykonane zapytanie (podrozdział 2), a także wykorzystywane metody wyznaczania podobieństwa
i grupowania dokumentów XML (podrozdział 3). Podrozdział 4 zawiera prezentację przeprowadzonych eksperymentów, a całość analizy podsumowana jest w podrozdział 5.
2 Przyspieszanie zapytań na dokumentach XML
w
da
.b
w
Pośród zapytań na kolekcji dokumentów XML można wyróżnić zapytania selektywne dotyczące nie całej kolekcji, lecz jedynie jej fragmentu. Dokumenty nie należące do takiego
podzbioru kolekcji adresowanego przez zapytanie selektywne posiadają strukturę, dla
której zapytanie nie zwróci żadnych rezultatów. Struktura takich dokumentów nie odpowiada ścieżce języka XPath, w którym definiowane jest zapytanie. Analiza takich dokumentów
podczas realizacji zapytania jest więc zbędna. Ograniczając zbiór analizowanych przy realizacji zapytania dokumentów XML można oczekiwać przyspieszenia realizacji zapytań selektywnych. Do redukcji liczby dokumentów analizowanych w zapytaniu można wykorzystać grupowanie dokumentów XML względem ich struktury. Grupowanie określane jako
modelowanie opisowe pozwala na uzyskanie opisu analizowanych danych i charakterystykę wyznaczonych grup. Taka informacja może zostać wykorzystana do wskazania dokumentów, które mogą być interesujące dla wykonywanego zapytania. Idealnym wynikiem
byłoby wyznaczenie do realizacji zapytania selektywnego jedynie tych dokumentów, które
odpowiadają swoją strukturą ścieżce zapytania. Jednakże wykorzystując algorytmy grupowania taki optymistyczny scenariusz najczęściej nie jest możliwy. Porównując różne algorytmy grupowania można więc wskazać ten algorytm, który pozwala na największą redukcję analizowanych dokumentów czyli najlepsze dopasowanie zbioru dokumentów do rozważanych zapytań.
pl
s.
2.1 Zapytania ilościowe na dokumentach XML
Analizując zapytania selektywne na strukturze dokumentów XML można wyróżnić dwa rodzaje zapytań:
− zapytania jakościowe,
− zapytania ilościowe.
Selektywne zapytania jakościowe dotyczą przypadku, gdy o selektywności zapytania decyduje wystąpienie lub brak wystąpienia w dokumencie XML elementu lub atrybutu. Przypadek ten był analizowany we wcześniejszych pracach autora [11], [12], [13].
Selektywne zapytania ilościowe dotyczą przypadku, gdy o selektywności zapytania decyduje liczba wystąpień w dokumencie XML elementu lub atrybutu. Zapytania tego typu
zawierają wyrażenie filtrujące zawierające warunek na liczbę wystąpień określonego węzła.
Poniżej przedstawiony jest przykład zapytania mającego na celu wyszukanie wszystkich
książek posiadających więcej niż jednego autora:
/ksiazki/ksiazka[fn:count(./autor)>1])
384
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2008
Rozdział monografii: 'Bazy Danych: Rozwój metod i technologii', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2008
Wykorzystanie grupowania do przyspieszania zapytań ilościowych na dokumentach XML
Analiza możliwości redukcji liczby przetwarzanych dokumentów przy realizacji takiego
zapytania została przedstawiona w kolejnych punktach.
2.2 Redukcja liczby przetwarzanych dokumentów
w
Wynikiem algorytmu grupowania jest podział kolekcji XML na grupy dokumentów
o strukturze podobnej w ramach grupy i różniących się strukturą pomiędzy grupami. Redukcja liczby przetwarzanych dokumentów XML polega na odrzuceniu tych grup, które nie
zawierają żadnych dokumentów o strukturze odpowiadającej strukturze zapytania. W celu
wskazania takich grup dokumentów należy wyznaczyć sygnaturę każdej grupy zawierającą
informację o strukturze dokumentów tworzących grupę.
Sygnatura grupy analizowana względem zapytania ilościowego powinna zawierać informację o maksymalnej i minimalnej liczbie wystąpień danego węzła w dokumentach tworzących daną grupę. Sygnatura grupy powinna się więc składać z dwóch wektorów Smax
oraz Smin, których pola si wyznaczane są następująco:
w
w
(
( ))
(1)
(
( ))
(2)
i
smax
= max count cij
d j ∈D
i
smin
= min count cij
da
.b
d j ∈D
gdzie simax to i-te pole wektora Smax, dj to j-ty dokument XML należący do analizowanej kolekcji D, cji to i-ta cecha wektora cech wyznaczonego dla j-tego dokumentu z kolekcji D.
Utworzone sygnatury grup należy porównać z sygnaturą zapytania zawierającą warunki
na liczbę wystąpień ścieżek cząstkowych tworzących ścieżkę zapytania. Grupy dokumentów, dla których warunek na liczność zdefiniowany w zapytaniu nie zawiera się w przedziałach wyznaczonych przez wektory Smax oraz Smin, można odrzucić nie poddając analizie
podczas realizacji zapytania.
3 Grupowanie dokumentów XML
pl
s.
Podział uzyskiwany w procesie grupowania dokumentów XML zależy od sposobu wyznaczania podobieństwa ich struktury oraz od wykorzystywanego algorytmu grupowania.
3.1 Podobieństwo struktury dokumentów XML
Istnieje wiele metod wyznaczania podobieństwa struktury dokumentów XML, wśród których można wyróżnić pochodne metody odległości transformacji [4], [9], [17] metody kodujące strukturę dokumentu do postaci wektora cech [3], [6], [14], [21] oraz inne metody,
np. [16]. W prezentowanej pracy wykorzystane zostały dwie opisane poniżej metody kodujące strukturę dokumentu XML do postaci wektora cech. Obydwie metody uwzględniają
liczbę elementów występujących w dokumencie i mogą być wykorzystane do analizy dokumentów XML względem zapytań ilościowych.
Kodowanie krotnościowe jest pochodną metody określanej jako kodowanie bitowe [11],
[14], [21]. Struktura dokumentu XML jest w prezentowanej metodzie modelowana jako
zbiór O obiektów występujących w analizowanym dokumencie. Wyróżnionymi obiektami
385
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2008
Rozdział monografii: 'Bazy Danych: Rozwój metod i technologii', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2008
M. Kozielski
w
o∈O mogą być np. ścieżki występujące w drzewiastej strukturze dokumentu [21] lub pary
węzłów powiązane w hierarchii dokumentu [14]. Dla zbioru analizowanych dokumentów D
jest w takim przypadku tworzony uporządkowany zbiór O wszystkich możliwych wyróżnionych w strukturze dokumentów obiektów, określany jako słownik zbioru D. Moc słownika |O|=n stanowi długość analizowanego wektora cech opisujących strukturę dokumentu
XML d∈D. Każda pozycja w wektorze cech odpowiada jednemu z obiektów o∈O. Dla kodowania bitowego, jeżeli dany obiekt oi występuje w analizowanym dokumencie d, wektor
cech V na danej pozycji i posiada wartość vi = 1, w przeciwnym razie vi = 0. W przypadku
kodowania krotnościowego wartość vi jest liczbą wystąpień cechy ci w danym dokumencie
XML.
Jako miarę podobieństwa wektorów cech utworzonych w procesie kodowania krotnościowego dokumentów XML można wykorzystać odległość euklidesową.
∑ (v
i =1
A
i
2
−v
B
i
)
(3)
w
w
dist =
n
da
.b
gdzie n to rozmiar słownika, viA to liczba wystąpień cechy ci w dokumencie A.
Interesujące podejście prezentuje metoda kodująca strukturę dokumentu XML do postaci
rozmytego zbioru z krotnościami (ang. fuzzy bag) [3]. Metoda ta pozwala na wykorzystanie
wiedzy eksperta, który może podać istotność poszczególnych elementów i atrybutów dokumentu XML określając ich wartość istotności x z przedziału [0;1]. Hierarchiczna struktura
dokumentu XML modelowana jest jako zbiór wartości µ należących do przedziału [0;1]
odpowiadających elementom i atrybutom występującym w dokumencie, gdzie wartości wyznaczane są zgodnie ze wzorem:
L −1
µ=
∑ i! x
i =0
i +1
(4)
L!
pl
s.
gdzie L to poziom drzewa dokumentu XML, na którym znajduje się dany węzeł, x to podane przez eksperta wartości istotności analizowanych węzłów tworzących ścieżkę od korzenia do danego węzła. Powyższe przekształcenie pozwala na zróżnicowanie istotności węzłów w zależności od poziomu w strukturze drzewa dokumentu XML na którym występują.
Metoda bierze pod uwagę krotność występowania elementów i atrybutów w dokumencie, a z każdą wartością µ charakteryzującą węzeł związana jest liczba jego wystąpień k.
Wektor cech V jest zbiorem rozmytym z krotnościami zapisywanym jako [19]:
⎧
⎫
V = ⎨ µ11 , K , µ n1 / c1 , K , µ1m , K , µ nm / cm ⎬
⎩
⎭
(5)
gdzie m to liczba cech c występujących w dokumencie XML, n to krotność i-tej cechy ci
w dokumencie.
Rozmiar wektora cech jest więc zależny od rozmiaru kodowanego dokumentu XML.
Zbiór rozmyty z krotnościami V może zostać przedstawiony poprzez rozmytą liczbę
wystąpień Ω, gdzie ΩV(c) jest rozmytą licznością zbioru rozmytego wystąpień cechy c
w wektorze cech V [19]:
386
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2008
Rozdział monografii: 'Bazy Danych: Rozwój metod i technologii', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2008
Wykorzystanie grupowania do przyspieszania zapytań ilościowych na dokumentach XML
⎧
⎫
ΩV (c ) = ⎨ µ1 (k1 ) / k1 , K , µ n (k n ) / k n ⎬
⎩
⎭
(6)
gdzie k∈N jest kolejną liczbą naturalną,
⎧
⎫
⎩
⎭
w
µi (ki ) = sup⎨ α : V (c )α ≥ ki ⎬
(7)
gdzie α jest parametrem odcięcia dla zbioru wystąpień cechy c w zbiorze V.
Wektor cech w powyższym zapisie będzie miał więc postać:
{
}
(8)
⎫
K , µ1m (k1 ) / k1 , K , µ nm (k n ) / k n * cm ⎬
⎭
{
w
w
⎧
V = ⎨ µ11 (k1 ) / k1 , K , µ n1 (k n ) / k n * c1 , K
⎩
}
da
.b
Jako miarę podobieństwa wektorów cech utworzonych w procesie kodowania dokumentów XML do postaci zbioru rozmytego z krotnościami wykorzystuje się miarę S określaną
jako [1]:
S (V A , VB ) =
M (V A ∩ VB )
M (V A ∪ VB )
(9)
gdzie VA to wektor cech dokumentu A, miara rozmyta M definiowana jest jako:
M =
∑ (V ) = ∑ µ (x )
A
count
A
(10)
pl
s.
3.2 Grupowanie dokumentów XML
x∈X
Dokumenty XML zakodowane do postaci wektora cech mogą być grupowane przy pomocy
jednego z algorytmów, które mogą zostać określone jako tradycyjne, na przykład algorytmu
hierarchicznego typu Complete Link [7], [8], [10] lub algorytmu analizującego gęstość skupień DBSCAN [5]. Algorytmy te nie uwzględniają jednak hierarchicznej struktury dokumentów XML oraz różnej istotności węzłów zależnie od ich położenia w strukturze dokumentu [11], [13]. Z tego powodu zaproponowany został wielopoziomowy algorytm grupowania dokumentów XML (ML) [11] dedykowany dla ich drzewiastej struktury oraz pozwalający na redukcję liczby analizowanych cech. Najbardziej obiecującą implementacją algorytmu wielopoziomowego jest implementacja nazwana MLCFCM [11], [12] wykorzystująca algorytm rozmytego grupowania warunkowego Conditional Fuzzy C-Means (CFCM)
[18].
387
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2008
Rozdział monografii: 'Bazy Danych: Rozwój metod i technologii', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2008
M. Kozielski
4 Eksperymenty
w
Przeprowadzone eksperymenty mają na celu porównanie wyników grupowania dokumentów XML w zastosowaniu do przyspieszania realizacji selektywnych zapytań ilościowych
na kolekcji dokumentów XML. Porównane zostały dwa podejścia:
1) grupowanie algorytmem nie uwzględniającym hierarchicznej struktury dokumentu
XML przeprowadzone na wektorach cech uwzględniających taką strukturę,
2) grupowanie algorytmem uwzględniającym hierarchiczną strukturę dokumentu XML
przeprowadzone na wektorach cech nie uwzględniających takiej struktury.
W pierwszym przypadku wykorzystane zostały algorytmy grupowania: algorytm hierarchiczny scalający typu Complete Link oraz analizujący gęstość skupień algorytm
DBSCAN. Grupowanie zostało przeprowadzone na wektorach cech utworzonych w wyniku
kodowania struktury dokumentu XML do postaci zbioru rozmytego z krotnościami. Warunkiem stopu dla algorytmu Complete Link było wyznaczenie 10 grup dokumentów. Dla
algorytmu DBSCAN wartości parametrów zostały eksperymentalnie przyjęte następująco:
ε = 0,325, m = 10. W drugim przypadku wykorzystany został algorytm wielopoziomowego
grupowania dokumentów XML w implementacji z warunkowym grupowaniem rozmytym
(MLCFCM). Grupowanie zostało przeprowadzone na wektorach cech utworzonych w
wyniku kodowania krotnościowego struktury dokumentu XML. Zadaniem algorytmu było
wyznaczenie 10 grup analizując dane do 3 i 4 poziomu drzewa dokumentu XML. Algorytm
wyznacza również dodatkową grupę dokumentów o strukturze nie przystającej wyraźnie do
żadnej z grup. Dokument jest kwalifikowany do takiej grupy w przypadku, gdy wariancja
wartości przynależności do wszystkich grup jest mniejsza od wartości parametru v [12].
Wartość parametru w przedstawianej analizie przyjęto eksperymentalnie jako v = 0,001.
Analiza została przeprowadzona na zbiorze 1500 dokumentów XML zawierających artykuły naukowe oraz informacje związane z konferencjami i publikacjami naukowymi. Analizowane dokumenty mogą zostać określone jako bazujące na dokumencie (ang. dcumentcentric XML documents) [2], a struktura poszczególnych dokumentów może być znacząco
różna w ramach analizowanego zbioru. Maksymalna wysokość drzewa dokumentu XML
w analizowanym zbiorze wynosi 20 poziomów.
da
.b
w
w
pl
s.
4.1 Analizowane zapytania
Dla analizowanego zbioru dokumentów XML wybranych zostało pięć ścieżek, dla których
możliwe jest zdefiniowanie warunków dotyczących krotności ich występowania. Wybrane
ścieżki przedstawione są w tabeli 1. Liczba wystąpień każdej ze ścieżek jest różna w różnych dokumentach, a zmienność ta została scharakteryzowana poprzez podaną w tabeli
wariancję krotności.
Tabela 1. Ścieżki analizowanych zapytań
Lp.
Ścieżka zapytania
Wariancja krotności
1
/article/body/sec
7.6
2
/article/body/sec/ss1
34
3
/article/body/sec/ss1/ss2
15.7
4
/article/bin/bib/bibl/bb
250.1
5
/article/fm/au/sum
2.27
388
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2008
Rozdział monografii: 'Bazy Danych: Rozwój metod i technologii', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2008
Wykorzystanie grupowania do przyspieszania zapytań ilościowych na dokumentach XML
Dla każdego z zapytań przedstawionych w tabeli 1 można zdefiniować warunek na krotność występowania danej ścieżki. W przedstawianej pracy dla każdej ścieżki zostały zdefiniowane cztery takie warunki definiując cztery różne zapytania.
Rys. 1 zawiera przykładowy typowy kształt histogramu liczby wystąpień elementu w dokumencie XML.
liczba
dokumentów
w
w
x1
x
x2
liczba wystąpień
w
Rys. 1. Typowy kształt histogramu liczby wystąpień elementu w dokumencie XML
da
.b
Na przedstawionym na rys. 1 histogramie wyróżniono trzy wartości x, x1 oraz x2, które
zostały tak dobrane, by wartość x była medianą analizowanego histogramu, wartości x1 oraz
x2 były symetrycznie rozłożone wokół wartości x. Wartości te wyznaczają następujące
warunki p1 i p2, które zostały zdefiniowane dla każdej ścieżki p tabeli 1 zakończonej
elementem e:
− p11: count(e) ≤ x,
− p12: count(e) > x,
− p21: count(e) ≤ x2,
− p22: count(e) > x1.
Warunki zapytań typu p1 dotyczą przedziałów wartości, które się zazębiają, podczas gdy
warunki zapytań typu p2 są dobrze odseparowane.
Wartości x, x1 oraz x2 dla pięciu analizowanych zapytań przedstawione są w tabeli 2.
Tabela 2. Wartości wykorzystywane do zdefiniowania warunku na liczbę wystąpień
elementów w dokumencie
pl
s.
Zapytanie
Wartość x
Wartość x1
Wartość x2
1
6
4
8
2
8
4
3
5
3
4
20
10
5
3
2
10
7
30
4
Dla tak opracowanych zapytań ilościowych wyznaczona została liczba dokumentów,
które wykorzystując grupowanie mogą zostać odrzucone i nie będą uwzględniane
w realizacji zapytania. Porównane zostały średnie wartości redukcji liczby analizowanych
dokumentów dla wszystkich pięciu rozważanych zapytań typu p11, p12, p21, p22. Wyniki
eksperymentu przedstawione są tabeli 3.
389
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2008
Rozdział monografii: 'Bazy Danych: Rozwój metod i technologii', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2008
M. Kozielski
Tabela 3. Średnia liczba dokumentów, które wykorzystując grupowanie mogą nie być
brane pod uwagę przy realizacji zapytania
Średnia liczba zredukowanych dokumentów
Algorytm
grupowania
Zapytania
typu p11
Zapytania
typu p12
Zapytania
typu p21
Zapytania
typu p22
1
100
1
235,4
DBSCAN
4,2
82
16,2
130,2
MLCFCM (l=3)
52,2
235
85,6
382
MLCFCM (l=4)
0
90,6
1,4
272
w
Complete Link
w
Ilustracja powyższych wyników została przedstawiona na wykresie zamieszczonym na
rys. 2.
w
450
400
350
300
200
150
100
50
0
da
.b
250
CL
DB
SC
AN
ML
CF
CM
l=3
ML
CF
CM
l= 4
Rys. 2. Średnia liczba zredukowanych dokumentów dla różnych algorytmów grupowania
pl
s.
Na przedstawionym wykresie kolorem jaśniejszym została oznaczona średnia liczba zredukowanych zapytań typu pi1 dla każdego algorytmu grupowania, natomiast średnia liczba
zredukowanych zapytań typu pi2 została oznaczona kolorem ciemniejszym, gdzie dla każdego algorytmu grupowania wartość wyrażona przez słupek po lewej stronie dotyczy zapytania dla i=1, natomiast wartość wyrażona przez słupek po prawej stronie dotyczy zapytania dla i=2.
Przedstawione rezultaty pokazują, że lepsze wyniki uzyskano dla zapytań typu pi2 w porównaniu do zapytań typu pi1. Wynika to z faktu, że zapytania typu pi2 dotyczą znacznie
mniejszej liczby dokumentów, przez co są bardziej selektywne, a dla takich zapytań łatwiej
zredukować liczbę przetwarzanych przez zapytanie dokumentów.
Rozważając inną klasyfikację zapytań można zauważyć, że zastosowanie metod grupowania do redukcji liczby analizowanych dokumentów XML podczas realizacji zapytania
daje lepsze rezultaty dla zapytań typu p2i w porównaniu do zapytań typu p1i. Wynika to
z faktu, że dla zapytań typu p2i warunek został zdefiniowany dla wartości x1 i x2 odpowiadających skrajnym wartościom histogramu wystąpień elementu w dokumencie. Dyskryminacja obydwu klas dokumentów jest więc łatwiejsza dla zapytań typu p2i.
390
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2008
Rozdział monografii: 'Bazy Danych: Rozwój metod i technologii', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2008
Wykorzystanie grupowania do przyspieszania zapytań ilościowych na dokumentach XML
Można również zauważyć, że dedykowany dla grupowania dokumentów XML algorytm
wielopoziomowy w porównaniu do tradycyjnych algorytmów daje lepsze rezultaty grupowania w odniesieniu do rozważanego zastosowania. Ilustracją tego są wartości przedstawione na wykresie z rys. 2, które są wyższe po prawej stronie wykresu dla algorytmu
MLCFCM.
w
5 Podsumowanie
Literatura
1.
da
.b
w
w
Przedstawiona praca zawiera propozycję wykorzystania grupowania dokumentów XML do
przyspieszania realizacji zapytań ilościowych na kolekcji takich dokumentów. W pracy wykonana została analiza sposobu redukcji liczby dokumentów przetwarzanych podczas realizacji zapytań ilościowych. Przedstawione zostały różne typy zapytań ilościowych wyróżniane na podstawie analizy histogramu liczności wystąpień w dokumentach ścieżki zapytania. Porównane zostały różne metody wyznaczania podobieństwa struktury dokumentów
XML oraz różne rodzaje algorytmów grupowania, które mogą zostać wykorzystane w rozważanym rozwiązaniu.
Rezultaty przeprowadzonej analizy pokazują różnice w jakości wyników w zależności
od warunku ilościowego zawartego w rozważanych zapytaniach. Otrzymane wyniki pokazują również przydatność wielopoziomowego algorytmu grupowania dokumentów XML,
który pozwolił na uzyskanie lepszego podziału na grupy w porównaniu do typowych algorytmów grupowania.
pl
s.
Bouchon-Meunier, B., Rifqi, M., Bothorel S.: Towards general measures of comparison of
objects. Fuzzy Sets and Systems, volume 84 (1996), pp. 143-153.
2. Bourret R.: XML and Databases, www.rpbourret.com, (December, 2004).
3. Ceravolo P., Nocerino M., C., Viviani M.: Knowledge Extraction from Semi-structured Data
Based on Fuzzy Techniques, Knowledge-Based Intelligent Information and Engineering
Systems, Lecture Notes in Computer Science, Vol. 3215/2004, Springer Berlin / Heidelberg,
2004, pp. 328-334.
4. Dalamagas T., et al.: Clustering XML Documents using Structural Summaries, EDBT Workshop on Clustering Information over the Web (ClustWeb04), Heraklion, Greece, 2004.
5. Ester M. et al.: A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases
with Noise. Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining (KDD’96) 226-231.
6. Flesca S. et al.: Fast Detection of XML Structural Similarity, IEEE Transactions on Knowledge
and Data Engineering, Vol. 17, No. 2, February 2004.
7. Han J., Kamber M., Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers,
Academic Press, San Francisco, 2001.
8. Hand D., Mannila H., Smyth P.: Eksploracja danych (Principles of Data Mining), WNT,
Warsaw, 2005.
9. Jabłoński B., Zakrzewicz M.: Ocena podobieństwa dokumentów XML, I Krajowa Konferencja
Naukowa Technologie Przetwarzania Danych, Poznań, 2005.
10. Jain A. K., Murty M. N., Flynn P. J.: Data Clustering: A review, ACM Computing Surveys, Vol.
31, No. 3, September, 1999.
11. Kozielski M.: Przyspieszanie realizacji zapytań na dokumentach XML z wykorzystaniem
grupowania względem ich struktury, Bazy Danych, Nowe Technologie: Architektura, metody
formalne i zaawansowana analiza danych, WKŁ, 2007, str. 305-314.
391
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2008
Rozdział monografii: 'Bazy Danych: Rozwój metod i technologii', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2008
M. Kozielski
w
12. Kozielski M.: Multilevel Conditional Fuzzy C-Means Clustering of XML Documents, PKDD
2007, Lecture Notes in Artificial Intelligence Vol. 4702, Springer-Verlag 2007, pp. 532-539.
13. Kozielski M.: Application of Different Clustering Algorithms to Multilevel Clustering of XML
Documents, TPD 2007 Conference Proceedings, Wydawnictwo Politechniki Poznanskiej, pp.
59-70.
14. Lian W. et al.: An Efficient and Scalable Algorithm for Clustering XML Documents by
Structure, IEEE Transactions on Knowledge and Data Engineering, Vol. 16, No. 1, January
2004.
15. Liu J. et al.: XML Clustering by Principal Component Analysis, Proceedings of the 16th IEEE
International Conference on Tools with Artificial Intelligence (ICTAI 2004), 2004.
16. Nayak R.: Fast and Effective Clustering of XML Data Utilizing their Structural Information,
Przyjęte do publikacji w KAIS: Knowledge and Information Systems - An International Journal.
17. Nierman A., Jagadish H. V.: Evaluating Structural Similarity in XML Documents, Fifth International Workshop on the Web and Databases (WebDB 2002), Madison, Wisconsin - June 67, 2002 http://www.eecs.umich.edu/~andrewdn/papers/webdb2002.pdf, 2002.
18. Pedrycz W.: Conditional Fuzzy C-Means, Pattern Recognition Letters, Vol. 17 (1996), pp. 625631.
19. Rocacher, D.: On fuzzy bags and their application to flexible querying. Fuzzy Sets and Systems,
volume 140, no. 1 (2003), pp. 93-110.
20. XML Core Working Group: Extensible Markup Language (XML) 1.0 (Third Edition), W3C
Recommendation 04 February 2004, http://www.w3.org/TR/2004/REC-xml-20040204
(04.02.2004).
21. Yoon J.P., Raghavan V., Chakilam V.: Bitmap Indexing-based Clustering and Retrieval of XML
Documents, Proceedings of ACM SIGIR Workshop on Mathematical/Formal Meth-ods in
Information Retrieval, New Orleans, LA, Sept. 2001.
da
.b
w
w
pl
s.
392
(c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2008