pobierz plik referatu
Transkrypt
pobierz plik referatu
Rozdział monografii: 'Bazy Danych: Rozwój metod i technologii', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2008 Rozdział 30 w Wykorzystanie grupowania do przyspieszania zapytań ilościowych na dokumentach XML w 1 Wstęp da .b w Streszczenie. Przedstawiona praca zawiera propozycję wykorzystania metod grupowania danych do przyspieszania zapytań ilościowych na kolekcji dokumentów XML. Dla zaproponowanego rozwiązania zostały przeanalizowane różne typy zapytań ilościowych, a eksperymenty pozwoliły na porównanie wybranych metod wyznaczania podobieństwa struktury dokumentów XML w połączeniu z różnymi algorytmami grupowania. Wyniki przeprowadzonej analizy pozwalają na wskazanie wielopoziomowego grupowania dokumentów XML w połączeniu z kodowaniem krotnościowym struktury dokumentu jako metody dającej lepsze rezultaty dla analizowanej kolekcji dokumentów XML od tradycyjnych metod grupowania. pl s. Popularność standardu XML (eXtensible Markup Language) [20] oraz duża liczba jego zastosowań stała się impulsem do rozwoju systemów baz danych dedykowanych dla dokumentów XML. Funkcjonalność relacyjnych systemów baz danych jest również stale rozwijana w celu umożliwienia efektywnego składowania i przetwarzania dokumentów XML, a także realizacji zapytań na kolekcji dokumentów XML. Elastyczność struktury dokumentów XML sprawia, że również w ramach jednej kolekcji mogą znaleźć się dokumenty o znacząco różnej strukturze. Z tego względu możliwe jest, że niektóre zapytania realizowane na takiej kolekcji będą dotyczyły jedynie kilku dokumentów zawartych w bardzo dużej bazie danych. Ograniczając realizację zapytania do tych kilku dokumentów możliwe powinno być przyspieszenie wykonania zapytania w stosunku do analizy całej kolekcji dokumentów. Do ograniczenia liczby przetwarzanych zapytań można wykorzystać algorytmy grupowania. Do problemu przedstawionego powyżej można wykorzystać wiele istniejących algorytmów grupowania [7], [8], [10], które można określić jako tradycyjne algorytmy grupowania. Biorąc pod uwagę specyficzną drzewiastą strukturę dokumentów XML lepsze efekty może dać zastosowanie algorytmu grupowania dedykowanego dla drzewiastej struktury dokumentów. Przykładem takiego algorytmu grupowania jest wielopoziomowe grupowanie dokumentów XML [11], [13]. Michał Kozielski Politechnika Śląska, Instytut Informatyki, ul. Akademicka 16, 44-100 Gliwice, Polska email: [email protected] (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2008 Rozdział monografii: 'Bazy Danych: Rozwój metod i technologii', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2008 M. Kozielski w Niniejsza praca przedstawia zastosowanie algorytmów grupowania, ze szczególnym uwzględnieniem algorytmu wielopoziomowego, do przyspieszania realizacji selektywnych zapytań ilościowych na strukturze dokumentów XML. W kolejnych podrozdziałach przedstawiony jest charakter analizowanych zapytań oraz opis metody pozwalającej na ograniczenie liczby dokumentów, na których ma być wykonane zapytanie (podrozdział 2), a także wykorzystywane metody wyznaczania podobieństwa i grupowania dokumentów XML (podrozdział 3). Podrozdział 4 zawiera prezentację przeprowadzonych eksperymentów, a całość analizy podsumowana jest w podrozdział 5. 2 Przyspieszanie zapytań na dokumentach XML w da .b w Pośród zapytań na kolekcji dokumentów XML można wyróżnić zapytania selektywne dotyczące nie całej kolekcji, lecz jedynie jej fragmentu. Dokumenty nie należące do takiego podzbioru kolekcji adresowanego przez zapytanie selektywne posiadają strukturę, dla której zapytanie nie zwróci żadnych rezultatów. Struktura takich dokumentów nie odpowiada ścieżce języka XPath, w którym definiowane jest zapytanie. Analiza takich dokumentów podczas realizacji zapytania jest więc zbędna. Ograniczając zbiór analizowanych przy realizacji zapytania dokumentów XML można oczekiwać przyspieszenia realizacji zapytań selektywnych. Do redukcji liczby dokumentów analizowanych w zapytaniu można wykorzystać grupowanie dokumentów XML względem ich struktury. Grupowanie określane jako modelowanie opisowe pozwala na uzyskanie opisu analizowanych danych i charakterystykę wyznaczonych grup. Taka informacja może zostać wykorzystana do wskazania dokumentów, które mogą być interesujące dla wykonywanego zapytania. Idealnym wynikiem byłoby wyznaczenie do realizacji zapytania selektywnego jedynie tych dokumentów, które odpowiadają swoją strukturą ścieżce zapytania. Jednakże wykorzystując algorytmy grupowania taki optymistyczny scenariusz najczęściej nie jest możliwy. Porównując różne algorytmy grupowania można więc wskazać ten algorytm, który pozwala na największą redukcję analizowanych dokumentów czyli najlepsze dopasowanie zbioru dokumentów do rozważanych zapytań. pl s. 2.1 Zapytania ilościowe na dokumentach XML Analizując zapytania selektywne na strukturze dokumentów XML można wyróżnić dwa rodzaje zapytań: − zapytania jakościowe, − zapytania ilościowe. Selektywne zapytania jakościowe dotyczą przypadku, gdy o selektywności zapytania decyduje wystąpienie lub brak wystąpienia w dokumencie XML elementu lub atrybutu. Przypadek ten był analizowany we wcześniejszych pracach autora [11], [12], [13]. Selektywne zapytania ilościowe dotyczą przypadku, gdy o selektywności zapytania decyduje liczba wystąpień w dokumencie XML elementu lub atrybutu. Zapytania tego typu zawierają wyrażenie filtrujące zawierające warunek na liczbę wystąpień określonego węzła. Poniżej przedstawiony jest przykład zapytania mającego na celu wyszukanie wszystkich książek posiadających więcej niż jednego autora: /ksiazki/ksiazka[fn:count(./autor)>1]) 384 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2008 Rozdział monografii: 'Bazy Danych: Rozwój metod i technologii', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2008 Wykorzystanie grupowania do przyspieszania zapytań ilościowych na dokumentach XML Analiza możliwości redukcji liczby przetwarzanych dokumentów przy realizacji takiego zapytania została przedstawiona w kolejnych punktach. 2.2 Redukcja liczby przetwarzanych dokumentów w Wynikiem algorytmu grupowania jest podział kolekcji XML na grupy dokumentów o strukturze podobnej w ramach grupy i różniących się strukturą pomiędzy grupami. Redukcja liczby przetwarzanych dokumentów XML polega na odrzuceniu tych grup, które nie zawierają żadnych dokumentów o strukturze odpowiadającej strukturze zapytania. W celu wskazania takich grup dokumentów należy wyznaczyć sygnaturę każdej grupy zawierającą informację o strukturze dokumentów tworzących grupę. Sygnatura grupy analizowana względem zapytania ilościowego powinna zawierać informację o maksymalnej i minimalnej liczbie wystąpień danego węzła w dokumentach tworzących daną grupę. Sygnatura grupy powinna się więc składać z dwóch wektorów Smax oraz Smin, których pola si wyznaczane są następująco: w w ( ( )) (1) ( ( )) (2) i smax = max count cij d j ∈D i smin = min count cij da .b d j ∈D gdzie simax to i-te pole wektora Smax, dj to j-ty dokument XML należący do analizowanej kolekcji D, cji to i-ta cecha wektora cech wyznaczonego dla j-tego dokumentu z kolekcji D. Utworzone sygnatury grup należy porównać z sygnaturą zapytania zawierającą warunki na liczbę wystąpień ścieżek cząstkowych tworzących ścieżkę zapytania. Grupy dokumentów, dla których warunek na liczność zdefiniowany w zapytaniu nie zawiera się w przedziałach wyznaczonych przez wektory Smax oraz Smin, można odrzucić nie poddając analizie podczas realizacji zapytania. 3 Grupowanie dokumentów XML pl s. Podział uzyskiwany w procesie grupowania dokumentów XML zależy od sposobu wyznaczania podobieństwa ich struktury oraz od wykorzystywanego algorytmu grupowania. 3.1 Podobieństwo struktury dokumentów XML Istnieje wiele metod wyznaczania podobieństwa struktury dokumentów XML, wśród których można wyróżnić pochodne metody odległości transformacji [4], [9], [17] metody kodujące strukturę dokumentu do postaci wektora cech [3], [6], [14], [21] oraz inne metody, np. [16]. W prezentowanej pracy wykorzystane zostały dwie opisane poniżej metody kodujące strukturę dokumentu XML do postaci wektora cech. Obydwie metody uwzględniają liczbę elementów występujących w dokumencie i mogą być wykorzystane do analizy dokumentów XML względem zapytań ilościowych. Kodowanie krotnościowe jest pochodną metody określanej jako kodowanie bitowe [11], [14], [21]. Struktura dokumentu XML jest w prezentowanej metodzie modelowana jako zbiór O obiektów występujących w analizowanym dokumencie. Wyróżnionymi obiektami 385 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2008 Rozdział monografii: 'Bazy Danych: Rozwój metod i technologii', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2008 M. Kozielski w o∈O mogą być np. ścieżki występujące w drzewiastej strukturze dokumentu [21] lub pary węzłów powiązane w hierarchii dokumentu [14]. Dla zbioru analizowanych dokumentów D jest w takim przypadku tworzony uporządkowany zbiór O wszystkich możliwych wyróżnionych w strukturze dokumentów obiektów, określany jako słownik zbioru D. Moc słownika |O|=n stanowi długość analizowanego wektora cech opisujących strukturę dokumentu XML d∈D. Każda pozycja w wektorze cech odpowiada jednemu z obiektów o∈O. Dla kodowania bitowego, jeżeli dany obiekt oi występuje w analizowanym dokumencie d, wektor cech V na danej pozycji i posiada wartość vi = 1, w przeciwnym razie vi = 0. W przypadku kodowania krotnościowego wartość vi jest liczbą wystąpień cechy ci w danym dokumencie XML. Jako miarę podobieństwa wektorów cech utworzonych w procesie kodowania krotnościowego dokumentów XML można wykorzystać odległość euklidesową. ∑ (v i =1 A i 2 −v B i ) (3) w w dist = n da .b gdzie n to rozmiar słownika, viA to liczba wystąpień cechy ci w dokumencie A. Interesujące podejście prezentuje metoda kodująca strukturę dokumentu XML do postaci rozmytego zbioru z krotnościami (ang. fuzzy bag) [3]. Metoda ta pozwala na wykorzystanie wiedzy eksperta, który może podać istotność poszczególnych elementów i atrybutów dokumentu XML określając ich wartość istotności x z przedziału [0;1]. Hierarchiczna struktura dokumentu XML modelowana jest jako zbiór wartości µ należących do przedziału [0;1] odpowiadających elementom i atrybutom występującym w dokumencie, gdzie wartości wyznaczane są zgodnie ze wzorem: L −1 µ= ∑ i! x i =0 i +1 (4) L! pl s. gdzie L to poziom drzewa dokumentu XML, na którym znajduje się dany węzeł, x to podane przez eksperta wartości istotności analizowanych węzłów tworzących ścieżkę od korzenia do danego węzła. Powyższe przekształcenie pozwala na zróżnicowanie istotności węzłów w zależności od poziomu w strukturze drzewa dokumentu XML na którym występują. Metoda bierze pod uwagę krotność występowania elementów i atrybutów w dokumencie, a z każdą wartością µ charakteryzującą węzeł związana jest liczba jego wystąpień k. Wektor cech V jest zbiorem rozmytym z krotnościami zapisywanym jako [19]: ⎧ ⎫ V = ⎨ µ11 , K , µ n1 / c1 , K , µ1m , K , µ nm / cm ⎬ ⎩ ⎭ (5) gdzie m to liczba cech c występujących w dokumencie XML, n to krotność i-tej cechy ci w dokumencie. Rozmiar wektora cech jest więc zależny od rozmiaru kodowanego dokumentu XML. Zbiór rozmyty z krotnościami V może zostać przedstawiony poprzez rozmytą liczbę wystąpień Ω, gdzie ΩV(c) jest rozmytą licznością zbioru rozmytego wystąpień cechy c w wektorze cech V [19]: 386 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2008 Rozdział monografii: 'Bazy Danych: Rozwój metod i technologii', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2008 Wykorzystanie grupowania do przyspieszania zapytań ilościowych na dokumentach XML ⎧ ⎫ ΩV (c ) = ⎨ µ1 (k1 ) / k1 , K , µ n (k n ) / k n ⎬ ⎩ ⎭ (6) gdzie k∈N jest kolejną liczbą naturalną, ⎧ ⎫ ⎩ ⎭ w µi (ki ) = sup⎨ α : V (c )α ≥ ki ⎬ (7) gdzie α jest parametrem odcięcia dla zbioru wystąpień cechy c w zbiorze V. Wektor cech w powyższym zapisie będzie miał więc postać: { } (8) ⎫ K , µ1m (k1 ) / k1 , K , µ nm (k n ) / k n * cm ⎬ ⎭ { w w ⎧ V = ⎨ µ11 (k1 ) / k1 , K , µ n1 (k n ) / k n * c1 , K ⎩ } da .b Jako miarę podobieństwa wektorów cech utworzonych w procesie kodowania dokumentów XML do postaci zbioru rozmytego z krotnościami wykorzystuje się miarę S określaną jako [1]: S (V A , VB ) = M (V A ∩ VB ) M (V A ∪ VB ) (9) gdzie VA to wektor cech dokumentu A, miara rozmyta M definiowana jest jako: M = ∑ (V ) = ∑ µ (x ) A count A (10) pl s. 3.2 Grupowanie dokumentów XML x∈X Dokumenty XML zakodowane do postaci wektora cech mogą być grupowane przy pomocy jednego z algorytmów, które mogą zostać określone jako tradycyjne, na przykład algorytmu hierarchicznego typu Complete Link [7], [8], [10] lub algorytmu analizującego gęstość skupień DBSCAN [5]. Algorytmy te nie uwzględniają jednak hierarchicznej struktury dokumentów XML oraz różnej istotności węzłów zależnie od ich położenia w strukturze dokumentu [11], [13]. Z tego powodu zaproponowany został wielopoziomowy algorytm grupowania dokumentów XML (ML) [11] dedykowany dla ich drzewiastej struktury oraz pozwalający na redukcję liczby analizowanych cech. Najbardziej obiecującą implementacją algorytmu wielopoziomowego jest implementacja nazwana MLCFCM [11], [12] wykorzystująca algorytm rozmytego grupowania warunkowego Conditional Fuzzy C-Means (CFCM) [18]. 387 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2008 Rozdział monografii: 'Bazy Danych: Rozwój metod i technologii', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2008 M. Kozielski 4 Eksperymenty w Przeprowadzone eksperymenty mają na celu porównanie wyników grupowania dokumentów XML w zastosowaniu do przyspieszania realizacji selektywnych zapytań ilościowych na kolekcji dokumentów XML. Porównane zostały dwa podejścia: 1) grupowanie algorytmem nie uwzględniającym hierarchicznej struktury dokumentu XML przeprowadzone na wektorach cech uwzględniających taką strukturę, 2) grupowanie algorytmem uwzględniającym hierarchiczną strukturę dokumentu XML przeprowadzone na wektorach cech nie uwzględniających takiej struktury. W pierwszym przypadku wykorzystane zostały algorytmy grupowania: algorytm hierarchiczny scalający typu Complete Link oraz analizujący gęstość skupień algorytm DBSCAN. Grupowanie zostało przeprowadzone na wektorach cech utworzonych w wyniku kodowania struktury dokumentu XML do postaci zbioru rozmytego z krotnościami. Warunkiem stopu dla algorytmu Complete Link było wyznaczenie 10 grup dokumentów. Dla algorytmu DBSCAN wartości parametrów zostały eksperymentalnie przyjęte następująco: ε = 0,325, m = 10. W drugim przypadku wykorzystany został algorytm wielopoziomowego grupowania dokumentów XML w implementacji z warunkowym grupowaniem rozmytym (MLCFCM). Grupowanie zostało przeprowadzone na wektorach cech utworzonych w wyniku kodowania krotnościowego struktury dokumentu XML. Zadaniem algorytmu było wyznaczenie 10 grup analizując dane do 3 i 4 poziomu drzewa dokumentu XML. Algorytm wyznacza również dodatkową grupę dokumentów o strukturze nie przystającej wyraźnie do żadnej z grup. Dokument jest kwalifikowany do takiej grupy w przypadku, gdy wariancja wartości przynależności do wszystkich grup jest mniejsza od wartości parametru v [12]. Wartość parametru w przedstawianej analizie przyjęto eksperymentalnie jako v = 0,001. Analiza została przeprowadzona na zbiorze 1500 dokumentów XML zawierających artykuły naukowe oraz informacje związane z konferencjami i publikacjami naukowymi. Analizowane dokumenty mogą zostać określone jako bazujące na dokumencie (ang. dcumentcentric XML documents) [2], a struktura poszczególnych dokumentów może być znacząco różna w ramach analizowanego zbioru. Maksymalna wysokość drzewa dokumentu XML w analizowanym zbiorze wynosi 20 poziomów. da .b w w pl s. 4.1 Analizowane zapytania Dla analizowanego zbioru dokumentów XML wybranych zostało pięć ścieżek, dla których możliwe jest zdefiniowanie warunków dotyczących krotności ich występowania. Wybrane ścieżki przedstawione są w tabeli 1. Liczba wystąpień każdej ze ścieżek jest różna w różnych dokumentach, a zmienność ta została scharakteryzowana poprzez podaną w tabeli wariancję krotności. Tabela 1. Ścieżki analizowanych zapytań Lp. Ścieżka zapytania Wariancja krotności 1 /article/body/sec 7.6 2 /article/body/sec/ss1 34 3 /article/body/sec/ss1/ss2 15.7 4 /article/bin/bib/bibl/bb 250.1 5 /article/fm/au/sum 2.27 388 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2008 Rozdział monografii: 'Bazy Danych: Rozwój metod i technologii', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2008 Wykorzystanie grupowania do przyspieszania zapytań ilościowych na dokumentach XML Dla każdego z zapytań przedstawionych w tabeli 1 można zdefiniować warunek na krotność występowania danej ścieżki. W przedstawianej pracy dla każdej ścieżki zostały zdefiniowane cztery takie warunki definiując cztery różne zapytania. Rys. 1 zawiera przykładowy typowy kształt histogramu liczby wystąpień elementu w dokumencie XML. liczba dokumentów w w x1 x x2 liczba wystąpień w Rys. 1. Typowy kształt histogramu liczby wystąpień elementu w dokumencie XML da .b Na przedstawionym na rys. 1 histogramie wyróżniono trzy wartości x, x1 oraz x2, które zostały tak dobrane, by wartość x była medianą analizowanego histogramu, wartości x1 oraz x2 były symetrycznie rozłożone wokół wartości x. Wartości te wyznaczają następujące warunki p1 i p2, które zostały zdefiniowane dla każdej ścieżki p tabeli 1 zakończonej elementem e: − p11: count(e) ≤ x, − p12: count(e) > x, − p21: count(e) ≤ x2, − p22: count(e) > x1. Warunki zapytań typu p1 dotyczą przedziałów wartości, które się zazębiają, podczas gdy warunki zapytań typu p2 są dobrze odseparowane. Wartości x, x1 oraz x2 dla pięciu analizowanych zapytań przedstawione są w tabeli 2. Tabela 2. Wartości wykorzystywane do zdefiniowania warunku na liczbę wystąpień elementów w dokumencie pl s. Zapytanie Wartość x Wartość x1 Wartość x2 1 6 4 8 2 8 4 3 5 3 4 20 10 5 3 2 10 7 30 4 Dla tak opracowanych zapytań ilościowych wyznaczona została liczba dokumentów, które wykorzystując grupowanie mogą zostać odrzucone i nie będą uwzględniane w realizacji zapytania. Porównane zostały średnie wartości redukcji liczby analizowanych dokumentów dla wszystkich pięciu rozważanych zapytań typu p11, p12, p21, p22. Wyniki eksperymentu przedstawione są tabeli 3. 389 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2008 Rozdział monografii: 'Bazy Danych: Rozwój metod i technologii', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2008 M. Kozielski Tabela 3. Średnia liczba dokumentów, które wykorzystując grupowanie mogą nie być brane pod uwagę przy realizacji zapytania Średnia liczba zredukowanych dokumentów Algorytm grupowania Zapytania typu p11 Zapytania typu p12 Zapytania typu p21 Zapytania typu p22 1 100 1 235,4 DBSCAN 4,2 82 16,2 130,2 MLCFCM (l=3) 52,2 235 85,6 382 MLCFCM (l=4) 0 90,6 1,4 272 w Complete Link w Ilustracja powyższych wyników została przedstawiona na wykresie zamieszczonym na rys. 2. w 450 400 350 300 200 150 100 50 0 da .b 250 CL DB SC AN ML CF CM l=3 ML CF CM l= 4 Rys. 2. Średnia liczba zredukowanych dokumentów dla różnych algorytmów grupowania pl s. Na przedstawionym wykresie kolorem jaśniejszym została oznaczona średnia liczba zredukowanych zapytań typu pi1 dla każdego algorytmu grupowania, natomiast średnia liczba zredukowanych zapytań typu pi2 została oznaczona kolorem ciemniejszym, gdzie dla każdego algorytmu grupowania wartość wyrażona przez słupek po lewej stronie dotyczy zapytania dla i=1, natomiast wartość wyrażona przez słupek po prawej stronie dotyczy zapytania dla i=2. Przedstawione rezultaty pokazują, że lepsze wyniki uzyskano dla zapytań typu pi2 w porównaniu do zapytań typu pi1. Wynika to z faktu, że zapytania typu pi2 dotyczą znacznie mniejszej liczby dokumentów, przez co są bardziej selektywne, a dla takich zapytań łatwiej zredukować liczbę przetwarzanych przez zapytanie dokumentów. Rozważając inną klasyfikację zapytań można zauważyć, że zastosowanie metod grupowania do redukcji liczby analizowanych dokumentów XML podczas realizacji zapytania daje lepsze rezultaty dla zapytań typu p2i w porównaniu do zapytań typu p1i. Wynika to z faktu, że dla zapytań typu p2i warunek został zdefiniowany dla wartości x1 i x2 odpowiadających skrajnym wartościom histogramu wystąpień elementu w dokumencie. Dyskryminacja obydwu klas dokumentów jest więc łatwiejsza dla zapytań typu p2i. 390 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2008 Rozdział monografii: 'Bazy Danych: Rozwój metod i technologii', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2008 Wykorzystanie grupowania do przyspieszania zapytań ilościowych na dokumentach XML Można również zauważyć, że dedykowany dla grupowania dokumentów XML algorytm wielopoziomowy w porównaniu do tradycyjnych algorytmów daje lepsze rezultaty grupowania w odniesieniu do rozważanego zastosowania. Ilustracją tego są wartości przedstawione na wykresie z rys. 2, które są wyższe po prawej stronie wykresu dla algorytmu MLCFCM. w 5 Podsumowanie Literatura 1. da .b w w Przedstawiona praca zawiera propozycję wykorzystania grupowania dokumentów XML do przyspieszania realizacji zapytań ilościowych na kolekcji takich dokumentów. W pracy wykonana została analiza sposobu redukcji liczby dokumentów przetwarzanych podczas realizacji zapytań ilościowych. Przedstawione zostały różne typy zapytań ilościowych wyróżniane na podstawie analizy histogramu liczności wystąpień w dokumentach ścieżki zapytania. Porównane zostały różne metody wyznaczania podobieństwa struktury dokumentów XML oraz różne rodzaje algorytmów grupowania, które mogą zostać wykorzystane w rozważanym rozwiązaniu. Rezultaty przeprowadzonej analizy pokazują różnice w jakości wyników w zależności od warunku ilościowego zawartego w rozważanych zapytaniach. Otrzymane wyniki pokazują również przydatność wielopoziomowego algorytmu grupowania dokumentów XML, który pozwolił na uzyskanie lepszego podziału na grupy w porównaniu do typowych algorytmów grupowania. pl s. Bouchon-Meunier, B., Rifqi, M., Bothorel S.: Towards general measures of comparison of objects. Fuzzy Sets and Systems, volume 84 (1996), pp. 143-153. 2. Bourret R.: XML and Databases, www.rpbourret.com, (December, 2004). 3. Ceravolo P., Nocerino M., C., Viviani M.: Knowledge Extraction from Semi-structured Data Based on Fuzzy Techniques, Knowledge-Based Intelligent Information and Engineering Systems, Lecture Notes in Computer Science, Vol. 3215/2004, Springer Berlin / Heidelberg, 2004, pp. 328-334. 4. Dalamagas T., et al.: Clustering XML Documents using Structural Summaries, EDBT Workshop on Clustering Information over the Web (ClustWeb04), Heraklion, Greece, 2004. 5. Ester M. et al.: A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining (KDD’96) 226-231. 6. Flesca S. et al.: Fast Detection of XML Structural Similarity, IEEE Transactions on Knowledge and Data Engineering, Vol. 17, No. 2, February 2004. 7. Han J., Kamber M., Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, Academic Press, San Francisco, 2001. 8. Hand D., Mannila H., Smyth P.: Eksploracja danych (Principles of Data Mining), WNT, Warsaw, 2005. 9. Jabłoński B., Zakrzewicz M.: Ocena podobieństwa dokumentów XML, I Krajowa Konferencja Naukowa Technologie Przetwarzania Danych, Poznań, 2005. 10. Jain A. K., Murty M. N., Flynn P. J.: Data Clustering: A review, ACM Computing Surveys, Vol. 31, No. 3, September, 1999. 11. Kozielski M.: Przyspieszanie realizacji zapytań na dokumentach XML z wykorzystaniem grupowania względem ich struktury, Bazy Danych, Nowe Technologie: Architektura, metody formalne i zaawansowana analiza danych, WKŁ, 2007, str. 305-314. 391 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2008 Rozdział monografii: 'Bazy Danych: Rozwój metod i technologii', Kozielski S., Małysiak B., Kasprowski P., Mrozek D. (red.), WKŁ 2008 M. Kozielski w 12. Kozielski M.: Multilevel Conditional Fuzzy C-Means Clustering of XML Documents, PKDD 2007, Lecture Notes in Artificial Intelligence Vol. 4702, Springer-Verlag 2007, pp. 532-539. 13. Kozielski M.: Application of Different Clustering Algorithms to Multilevel Clustering of XML Documents, TPD 2007 Conference Proceedings, Wydawnictwo Politechniki Poznanskiej, pp. 59-70. 14. Lian W. et al.: An Efficient and Scalable Algorithm for Clustering XML Documents by Structure, IEEE Transactions on Knowledge and Data Engineering, Vol. 16, No. 1, January 2004. 15. Liu J. et al.: XML Clustering by Principal Component Analysis, Proceedings of the 16th IEEE International Conference on Tools with Artificial Intelligence (ICTAI 2004), 2004. 16. Nayak R.: Fast and Effective Clustering of XML Data Utilizing their Structural Information, Przyjęte do publikacji w KAIS: Knowledge and Information Systems - An International Journal. 17. Nierman A., Jagadish H. V.: Evaluating Structural Similarity in XML Documents, Fifth International Workshop on the Web and Databases (WebDB 2002), Madison, Wisconsin - June 67, 2002 http://www.eecs.umich.edu/~andrewdn/papers/webdb2002.pdf, 2002. 18. Pedrycz W.: Conditional Fuzzy C-Means, Pattern Recognition Letters, Vol. 17 (1996), pp. 625631. 19. Rocacher, D.: On fuzzy bags and their application to flexible querying. Fuzzy Sets and Systems, volume 140, no. 1 (2003), pp. 93-110. 20. XML Core Working Group: Extensible Markup Language (XML) 1.0 (Third Edition), W3C Recommendation 04 February 2004, http://www.w3.org/TR/2004/REC-xml-20040204 (04.02.2004). 21. Yoon J.P., Raghavan V., Chakilam V.: Bitmap Indexing-based Clustering and Retrieval of XML Documents, Proceedings of ACM SIGIR Workshop on Mathematical/Formal Meth-ods in Information Retrieval, New Orleans, LA, Sept. 2001. da .b w w pl s. 392 (c) Copyright by Politechnika Śląska, Instytut Informatyki, Gliwice 2008