wyszukiwanie strukturalne w metodzie Saltona

Transkrypt

wyszukiwanie strukturalne w metodzie Saltona
Wyszukiwanie w metodzie Saltona – dla metody strukturalnej
Możemy wyróżnić 3 techniki w ramach wyszukiwania strukturalnego:
a. Metodę pnia najbardziej obiecującego
b. Metodę ważenia pni
c. Metodę minimalnej wartości progowej.
Mając reprezentację pni i grup:
P1=[0, 10, 11, 2, 7, 3, 4, 0, 1, 0]
P2=[10, 0, 0, 9, 2, 11, 2, 10, 7, 0]
P3=[1, 0, 1, 12, 10, 3, 10, 4, 6, 11]
Oraz
G11=[0, 6, 7, 2, 3, 4, 0, 1, 3, 2]
G12=[1, 8, 9, 1, 4, 0, 2, 3, 2, 2, 1]
G21=[0, 1, 3, 12, 1, 6, 0, 9, 10, 1]
G22=[1, 3, 2, 6, 2, 5, 0, 10, 9, 3]
G31=[1, 0, 3, 9, 10, 0, 12, 2, 4, 0]
G32=[2, 1, 3, 10, 8, 1, 13, 1, 2, 1]
G33=[3, 4, 2, 11, 7, 0, 12, 2, 1, 3]
poziom pni
poziom grup
Chcemy omówić sposób wyszukiwania dla pytania:
q=[5, 3, 0, 10, 6, 1, 13, 2, 0, 1]
Wykorzystamy odpowiedni wzór na korelację (f. podobieństwa) w omawianym procesie wyszukiwania.
Rozwiązanie
W celu rozwiązania zadania, należy wykorzystać jeden ze wzorów wykorzystywanych w systemie SMART
Saltona na obliczenie korelacji: korelacja cosinusowa lub korelacja nakładania.
Struktura pni i grup wygląda następująco:
P2
P1
G11
G12
G21
P3
G22
G31
G32
G33
W wyszukiwaniu będziemy stosować miarę korelacji nakładania:
ovlap(d,q)=
∑
∑
∑
gdzie i oznacza kolejne wartości w wektorach reprezentujących pnie czy grupy.
Metoda pnia najbardziej obiecującego
Idea: porównujemy pytanie Q z reprezentantami pni (P1,P2 i P3) i wybieramy pień najbardziej obiecujący,
czyli ten o najwyższym współczynniku korelacji z pytaniem q.
Podstawiając do wzoru, wartości dla poszczególnych pni, uzyskujemy:
ovlap(q,P1)=
= 0,42
ovlap(q,P2)=
ovlap(q,P3)=
=0,76
Wyniki wskazują, że najbardziej obiecujący jest pień P3, dlatego też następnie należy obliczyć
podobieństwo z grupami tego pnia.
ovlap(q,G31)=
=0,73
ovlap(q,G32)=
=0,85
ovlap(q,G33)=
=0,90
Z tego wynika, że najbardziej odpowiadającą grupą jest G33 i dokumenty zawarte w tej grupie zwrócone
będą użytkownikowi do dalszego przeszukiwania.
P2
P1
G11
G12
G21
P3
G22
G31
G32
G33
Metoda porównywania pni
Idea: podobna do metody pnia najbardziej obiecującego. Metoda jednak po wyborze w 1 kroku pnia
najbardziej obiecującego i wyznaczaniu stopnia korelacji pytania Q z reprezentantami grup w wybranym
pniu korelacja ta będzie porównana z wartości korelacji pytania z pominiętymi pniami. Jeśli któryś z
pominiętych pni miałby korelację większą niż aktualnie analizowane grupy, wrócimy do pominiętego pnia i
wyznaczymy korelację jego grup z pytaniem. Ostatecznie odpowiedzią na pytanie Q będą dokumenty grup o
najwyższym współczynniku korelacji (najbardziej obiecujące, może być ich wiele).
Podstawiając do wzoru, wartości dla poszczególnych pni, uzyskujemy:
ovlap(q,P1)=
= 0,42
ovlap(q,P2)=
ovlap(q,P3)=
=0,76
Wyniki wskazują, że najbardziej obiecujący jest pień P3, dlatego też następnie należy obliczyć
podobieństwo z grupami tego pnia.
ovlap(q,G31)=
=0,73
ovlap(q,G32)=
=0,85
ovlap(q,G33)=
=0,90
Porównujemy teraz wartości tych korelacji z współczynnikami przy pominiętych pniach P1 i P2. Żaden z
pominiętych pni nie miał korelacji większej niż te uzyskane dla grup w ramach pnia P3. Zatem wybieramy
grupę najbardziej obiecującą tylko w tym pniu i jest to podobnie jak w przypadku poprzedniej metody –
tylko grupa G33 . Dokumenty zawarte w tej grupie zwrócone będą użytkownikowi do dalszego
przeszukiwania.
P2
P1
G11
G12
G21
P3
G22
G31
G32
G33
Metoda minimalnej wartości progowej
Idea: ustalona będzie minimalna wartość progowa pmin, jaką muszą spełnić pnie, grupy by zostać uznane za
odpowiedź na pytanie. Podobnie jak w przypadku poprzednich dwóch metod, wyszukiwanie w pierwszym kroku
ma miejsce na najwyższym poziomie hierarchii tj. na poziomie pni. Do dalszego przeglądu wybrane są pni,
których korelacja z pytaniem spełnia zadany próg minimalny (pmin).
Schodzimy na poziom grup (w wybranych pniach). Wyznaczamy podobieństwo pytania z grupami (wybranych
pni). Wybieramy grupy spełniające zadany próg pmin . Zalety rozwiązania: to my sterujemy poziomem
podobieństwa. Wady: im wyższy współczynnik pmin tym mniej grup/pni może być wybranych do dalszego
przeglądu i odwrotnie. Im niższy współczynnik pmin tym więcej grup/pni może być uznanych za odpowiedź co
utrudni przegląd wybranych dokumentów w realnym czasie.
Podstawiając do wzoru, wartości dla poszczególnych pni, uzyskujemy:
ovlap(q,P1)=
= 0,42
ovlap(q,P2)=
ovlap(q,P3)=
=0,76
Możliwe przypadki:




Jeśli założymy, że próg pmin = 0,40 do dalszego przeglądu wybierzemy wszystkie pnie: zarówno pień
P1,P2 jak i P3.
Jeśli założymy, że próg pmin = 0,50 do dalszego przeglądu wybierzemy zarówno pień P2 jak i P3.
Jeśli założymy, że próg pmin = 0,60 do dalszego przeglądu wybierzemy tyko P3.
Jeśli założymy, że próg pmin = 0,80 do dalszego przeglądu NIE wybierzemy żadnego pnia, a więc i
żadnej grupy a użytkownikowi zostanie zwrócona odpowiedź w postaci braku dokumentów
spełniających kryteria zapytania.
Zakładając, że jako pmin przyjmiemy wartość 0,75 wyszukiwanie przebiegnie następująco:


Wybrane do dalszego przeglądu będzie tylko pień P3.
Następuje wyznaczenie korelacji pytania Q z grupami w wybranym pniu P3.
ovlap(q,G31)=
=0,73
ovlap(q,G32)=
=0,85
ovlap(q,G33)=
=0,90

Zadany próg pmin jest spełniony przez dwie z 3 grup tego pnia: G32 i G33 i dokumenty tych dwóch grup
zostaną zwrócone użytkownikom jako odpowiedź.
P2
P1
G11
G12
G21
P3
G22
G31
G32
G33

Podobne dokumenty