wyszukiwanie strukturalne w metodzie Saltona
Transkrypt
wyszukiwanie strukturalne w metodzie Saltona
Wyszukiwanie w metodzie Saltona – dla metody strukturalnej Możemy wyróżnić 3 techniki w ramach wyszukiwania strukturalnego: a. Metodę pnia najbardziej obiecującego b. Metodę ważenia pni c. Metodę minimalnej wartości progowej. Mając reprezentację pni i grup: P1=[0, 10, 11, 2, 7, 3, 4, 0, 1, 0] P2=[10, 0, 0, 9, 2, 11, 2, 10, 7, 0] P3=[1, 0, 1, 12, 10, 3, 10, 4, 6, 11] Oraz G11=[0, 6, 7, 2, 3, 4, 0, 1, 3, 2] G12=[1, 8, 9, 1, 4, 0, 2, 3, 2, 2, 1] G21=[0, 1, 3, 12, 1, 6, 0, 9, 10, 1] G22=[1, 3, 2, 6, 2, 5, 0, 10, 9, 3] G31=[1, 0, 3, 9, 10, 0, 12, 2, 4, 0] G32=[2, 1, 3, 10, 8, 1, 13, 1, 2, 1] G33=[3, 4, 2, 11, 7, 0, 12, 2, 1, 3] poziom pni poziom grup Chcemy omówić sposób wyszukiwania dla pytania: q=[5, 3, 0, 10, 6, 1, 13, 2, 0, 1] Wykorzystamy odpowiedni wzór na korelację (f. podobieństwa) w omawianym procesie wyszukiwania. Rozwiązanie W celu rozwiązania zadania, należy wykorzystać jeden ze wzorów wykorzystywanych w systemie SMART Saltona na obliczenie korelacji: korelacja cosinusowa lub korelacja nakładania. Struktura pni i grup wygląda następująco: P2 P1 G11 G12 G21 P3 G22 G31 G32 G33 W wyszukiwaniu będziemy stosować miarę korelacji nakładania: ovlap(d,q)= ∑ ∑ ∑ gdzie i oznacza kolejne wartości w wektorach reprezentujących pnie czy grupy. Metoda pnia najbardziej obiecującego Idea: porównujemy pytanie Q z reprezentantami pni (P1,P2 i P3) i wybieramy pień najbardziej obiecujący, czyli ten o najwyższym współczynniku korelacji z pytaniem q. Podstawiając do wzoru, wartości dla poszczególnych pni, uzyskujemy: ovlap(q,P1)= = 0,42 ovlap(q,P2)= ovlap(q,P3)= =0,76 Wyniki wskazują, że najbardziej obiecujący jest pień P3, dlatego też następnie należy obliczyć podobieństwo z grupami tego pnia. ovlap(q,G31)= =0,73 ovlap(q,G32)= =0,85 ovlap(q,G33)= =0,90 Z tego wynika, że najbardziej odpowiadającą grupą jest G33 i dokumenty zawarte w tej grupie zwrócone będą użytkownikowi do dalszego przeszukiwania. P2 P1 G11 G12 G21 P3 G22 G31 G32 G33 Metoda porównywania pni Idea: podobna do metody pnia najbardziej obiecującego. Metoda jednak po wyborze w 1 kroku pnia najbardziej obiecującego i wyznaczaniu stopnia korelacji pytania Q z reprezentantami grup w wybranym pniu korelacja ta będzie porównana z wartości korelacji pytania z pominiętymi pniami. Jeśli któryś z pominiętych pni miałby korelację większą niż aktualnie analizowane grupy, wrócimy do pominiętego pnia i wyznaczymy korelację jego grup z pytaniem. Ostatecznie odpowiedzią na pytanie Q będą dokumenty grup o najwyższym współczynniku korelacji (najbardziej obiecujące, może być ich wiele). Podstawiając do wzoru, wartości dla poszczególnych pni, uzyskujemy: ovlap(q,P1)= = 0,42 ovlap(q,P2)= ovlap(q,P3)= =0,76 Wyniki wskazują, że najbardziej obiecujący jest pień P3, dlatego też następnie należy obliczyć podobieństwo z grupami tego pnia. ovlap(q,G31)= =0,73 ovlap(q,G32)= =0,85 ovlap(q,G33)= =0,90 Porównujemy teraz wartości tych korelacji z współczynnikami przy pominiętych pniach P1 i P2. Żaden z pominiętych pni nie miał korelacji większej niż te uzyskane dla grup w ramach pnia P3. Zatem wybieramy grupę najbardziej obiecującą tylko w tym pniu i jest to podobnie jak w przypadku poprzedniej metody – tylko grupa G33 . Dokumenty zawarte w tej grupie zwrócone będą użytkownikowi do dalszego przeszukiwania. P2 P1 G11 G12 G21 P3 G22 G31 G32 G33 Metoda minimalnej wartości progowej Idea: ustalona będzie minimalna wartość progowa pmin, jaką muszą spełnić pnie, grupy by zostać uznane za odpowiedź na pytanie. Podobnie jak w przypadku poprzednich dwóch metod, wyszukiwanie w pierwszym kroku ma miejsce na najwyższym poziomie hierarchii tj. na poziomie pni. Do dalszego przeglądu wybrane są pni, których korelacja z pytaniem spełnia zadany próg minimalny (pmin). Schodzimy na poziom grup (w wybranych pniach). Wyznaczamy podobieństwo pytania z grupami (wybranych pni). Wybieramy grupy spełniające zadany próg pmin . Zalety rozwiązania: to my sterujemy poziomem podobieństwa. Wady: im wyższy współczynnik pmin tym mniej grup/pni może być wybranych do dalszego przeglądu i odwrotnie. Im niższy współczynnik pmin tym więcej grup/pni może być uznanych za odpowiedź co utrudni przegląd wybranych dokumentów w realnym czasie. Podstawiając do wzoru, wartości dla poszczególnych pni, uzyskujemy: ovlap(q,P1)= = 0,42 ovlap(q,P2)= ovlap(q,P3)= =0,76 Możliwe przypadki: Jeśli założymy, że próg pmin = 0,40 do dalszego przeglądu wybierzemy wszystkie pnie: zarówno pień P1,P2 jak i P3. Jeśli założymy, że próg pmin = 0,50 do dalszego przeglądu wybierzemy zarówno pień P2 jak i P3. Jeśli założymy, że próg pmin = 0,60 do dalszego przeglądu wybierzemy tyko P3. Jeśli założymy, że próg pmin = 0,80 do dalszego przeglądu NIE wybierzemy żadnego pnia, a więc i żadnej grupy a użytkownikowi zostanie zwrócona odpowiedź w postaci braku dokumentów spełniających kryteria zapytania. Zakładając, że jako pmin przyjmiemy wartość 0,75 wyszukiwanie przebiegnie następująco: Wybrane do dalszego przeglądu będzie tylko pień P3. Następuje wyznaczenie korelacji pytania Q z grupami w wybranym pniu P3. ovlap(q,G31)= =0,73 ovlap(q,G32)= =0,85 ovlap(q,G33)= =0,90 Zadany próg pmin jest spełniony przez dwie z 3 grup tego pnia: G32 i G33 i dokumenty tych dwóch grup zostaną zwrócone użytkownikom jako odpowiedź. P2 P1 G11 G12 G21 P3 G22 G31 G32 G33