SWA STOLARSKA BiLlioteka iiarodowa ZAGABNIEKIA

Transkrypt

SWA STOLARSKA BiLlioteka iiarodowa ZAGABNIEKIA
SWA STOLARSKA
B iL lio te k a iiarodowa
ZAGABNIEKIA AUTOMATYCZNEGO IlłDSKSOWAIłlA
x)
Badania i eksperymenty prowadzo­
ne przez G.Saitona na C orn ell Un iv e r s it y w d zie d zin ie automaty­
z a c ji indeksowania i wyszukiwania
in fo rm a c ji. Prodlemy automatyza­
c j i poszczególnych fa z tych pro­
ce s6v/ i konkretne metody badane
przy zastosov/aniu komputerów: a n a liz a t r e ś c i dokumentów, indek­
sowanie i k lasyfik ow an ie, tworze­
n ie słownika (tezau ru sa), indeksowranie dynamiczne.
Prace badawcze i eksperymenty prowadzone od szeregu la t
p rzez p ro f. G.Saitona na Wydziale Maszyn Matematycznych Cornell
U n iversity w Stanach Zjednoczonych skupiają się wokół problemów
autom atyzacji indeksowania dokumentów w systemie inform acyjno- wyszukiwav?ozym. Problemy te stanowią jedną z grup zagadnień,
jak ie można wyróżnić wśród d zia ła ń ogóln ie określanych mianem
autom atyzacji b ib lio te k .
»? w iększości realizowanych obecnie w Stanach Z jednoczonych
skomputeryzowanych systemów b ib lio te c zn y c h automatyzacją oh ję-
Opracowano na podstawie wykładów p ro f. G.Saitona na I Konfe­
r e n c ji na temat Wyszukiwania Inform acji, w Jadw isinie i na
Seminarium Automatycznego wyszukiwania In fo rm a cji i Prze­
twarzania Banych B iblioteczn ych w Warszawie w maju 1973 r .
oraz artykułu G.oaltona "-Dynamie Document Processing" Com­
munications o f the ACIii, 1972 nr ? s. 658-ń68.
- 124 to inne grupy problemów, jak akcesja i udostąpnianis lub proce­
dury związane z zamawianiem materiałów dla b ib lio te k czy spra­
wy adm inistracyjne. Jednak zdaniem Saltona, w tych kierunkach
zastosowań maszyn matematycznych do systemów b ib lioteczn ych
n ie udało sią dotychczas uzyskać rozwiązań w p e łn i efektywnycn
i ekonomicznych.
Salton sądzi natomiast, że is to t n ie warto pracować nad au­
tomatyzacją indeksowania dokumentów (oczyw iście w ścisłym po­
wiązaniu z maszynowym wyszukiwaniem in fo rm a c ji), nawet pomimo
f a lt u , że i w tym kierunku prowadzone próby nie p rzyn iosły je ­
szcze wyników rzeczyw iście zadowalających. Szczególn ie k rytycz­
n ie jednak odnosi się do eksperymentów nad automaiyzacją opisu
zaw artości rzeczow ej dokumentów na drodze metod lin c w is ty c z nyoh, jak ie próbowano stosować do tre śc io w e j an alizy tekstów
tycn dokumentów. VJyniki badafi przeprowadzanych w ostatnich la ­
tach w różnych ośrodkach w zakresie lin g w is ty k i skomputeryzowa­
n ej wskazują na to , że prognozy osią g n ię c ia w tym kierunku i stotnego postępu są dosyć o d le g łe . Złożoność modeli rozbioru
gramatycznego zdań sta je się coraz większa, ponieważ dąży się
do dokładnego odzw ierciedlen ia za ich pomocą wszelkich bardzo
złożonych struktur właściwych językowi naturalnemu. Eównocześn ie , im b a rd z ie j skomplikowane s ta ją się modele lin gw istyczn e,
tym w yraźniejsza ich praktyczna nieprzydatność do wykonywania
przez maszynę, a zatem, jak się wydaje możliwość stworzenia na
t e j drodze operatywnego systemu coraz b a rd ziej s ię oddala.Jeś­
l i na przykład do automatycznej an alizy i prawidłowego ro zb io ­
ru gramatycznego 1DC zdaf języka naturalnego niezbędne
je s t
k ilk a ty s ię c y reg u ł, to przy następnych 100 zdaniach może się
okazać potrzebne opracowanie i wprowadzenie do maszyny
kilku
ty s ię c y nowych reg u ł, zatem ilo ś ć o p e ra c ji wzrasta astronomicz­
n ie .
Is to tę trudności metod an alizy lin g w isty czn ej można spro­
wadzić do faktu, że informacje znaczeniowo identyczne mogą być
Przez system b ib lio teczn y (" lib r a r y system "' rozumie się tu­
t a j . zgodnie z term in ologią amerykańską, w s z e lk ie ' sysuemy
informacyjne d zia ła ją ce w oparciu o zbiory b ib lio te c z n e .
- 125 przeds-fcaiviane p rzez różne struktury syntaktyczne, np."Jan zja d ł
jab łk o" i "Jabłko zo sta ło zjedzone przez Jana", oraz odyn^otnie
- za pomocą identycznej struktury syntaktycznej prezentowane są
inform acje semantycznie odmienne, stosunkowo największą efektyw­
ność rokują gramatyki transform acyjne, jednak n ie zaprojektowa­
no jeszcze d la żadnego języka ta k ie j gramatyki w p e łn i zautoma­
tyzowanej.
Według Saltona dla potrzeb dokumentacji, wyszukiwania
in ­
form a cji 1-przetwarzania danych b ib lio teczn y ch n ie ma w is to c ie
konieczności sięgan ia do teik bardzo skomplikowanych metod ana­
l i z y lin g w is ty c z n e j. Ketody ta k ie są natomiast niezbędne w n rzek ła d zie maszynowym, automatycznym sporządzaniu abstraktów i w
systemach dających fa k to g ra ficzn e odpowiedzi na p yta n ia ^ \
Jeszcze jedną tendencją zarysowującą s ię w podejm.owanychna
św iecie próbach opanowania zalewu informacyjnego są tak zwane
" b ib lio t e k i p r z y s z ło ś c i" . Jednakże koncepcje k ryjące się pod
tym pojęciem i prowadzone w tym kierunku badania także nie zys­
kały pozytywnej oceny Saltona, je s t to bowiem według niego zu­
pełna fu tu r o lo g ia . Przypomnijmy, że "bibliotekom p rz y s z ło ś c i"
p o ś w ię c ił swoją książką J .G .fi.L ic k lid e r ^ ^ ’' . Idea " b ib lio t e k i
p rz y s z ło ś c i" polega na maksymalnie zracjonalizowanym r e je s t r o ­
waniu wiedzy lu d zk ie j od razu na nośnikach maszynowych,bez po­
średnictwa konwencjonalnych dokumentów w ja k ie jk o lw ie k " f i z y c z ­
nie widomej" form ie. .Viedza ludzka je s t automatycznie odpowied­
n io organizowana, a sam j e j "korpus", tzn . sama ty lk o
is to ta
wiedzy (wiedza is to tn a ) je s t następnie kumultowana i przechowy­
wana już ty lk o w pamięci maszynowej. Uależy przy tym zauważyć,
że zarówno metoda organizowania tego "korpusu" w iedzy,
jak i
metoda oraz tryb dostępu do n ie j są wysoce, wprost id e a ln ie .
te o s ta tn ie , c z y li systemy fa k to g r a fic z n e , są nazywane sy­
stemami wyszukiwania faktów albo danych (data r e t r i e v a l '
w przeciw ień stw ie do systemów wyszukiwania in fo rm a cji o do­
kumentach albo dokumentów i document r e t r i e v a l ) ,
о jak ie
chodzi w badaniach Saltona: systemy odpowiadające na pyta­
n ia wprost .c z y li fak tam i' są często określane symbolem
QAS iQuestion Answering System '.
г-т'
tłumaczenie polsk ie "B ib lio te k p rz y s z ło ś c i" L ic k lia e ra zo­
s ta ło wydane przez P'Jk w
r.
-
126
-
udoskonalone, j e ś l i próbować je odnieść do metod i tech n ik i nie
ty lk o znanych obecnie, le c z także nadających s ię już obecnie
do praktycznej e k s p lo a ta c ji.
P r o b l e m y
s z c z e g ó ł o w e
Przedmiotem prac prowadzonych p rzez Saltona je s t doskona­
le n ie procesów automatycznego oznaczania (o d zw ie rc ie d la n ia )rze czowej zaw artości dokumentów metodami empirycznymi, w n ieod łą­
cznym powiązaniu z automatycznym wyszukiwaniem in fo rm a cji o do­
kumentach, w celu maksymalnego zwiększenia e f ektyvmosci i eko­
nomiki tych procesów. Rozważa s ię i bada eksperymentalnie mię­
dzy innymi następujące problemy szczegółowe:
- an aliza zaw artości dokumentów;
klasyfikow anie dokumentów metodą tworzenia grup dokumentów
powiązanych tematycznie
jJ^^sutornatyczne indeksowanie: wskaźniki ważności^^\ współczyn­
n ik i a s o c ja c ji, statystyczna asocja cja terminów i indeksowa­
n ie asocjacyjne;
- an aliza strukturalna języka, obejmująca strukttiry f r a z , me;tody fr a z syntaktycznyoh i dobieranie graficzn ych reprezen­
t a c j i zdań języka naturalnego;
- tworzenie słownika, w tym prawidła konstrukcji tezaurusa,
słowniki terminów według ich mocy w yró żn ia ją cej, grupowanie
znaczeniowe terminów, pseudoklasyfikacja i słownik dynamicz­
ny;
- modyfikacja (przeformułowanie) pytań zależn ie od wyników wy­
szukiwania na zasadzie sprzężenia zwrotnego z użytkownikami;
^'dynamiczne indeksowanie dla p a r t ii pytań na zasadzie sprzę­
żenia zvTTotnego z użytkownikami;
XX
w języku angielskim używa się tu określenia "c lu s te r s ",
oznaczającego dosłownie "kępy"; zasady takiego grupowania
("c lu s te r in g "^ t j . tworzenie kęn' bywają definiowane ro z­
m aicie.
nazywane także wskaźnikami -wag.
- 127 - dynamiczne organizowanie zbioru informacyjnego w tr y b ie on- l i n e , c z y l i bezpośredniego dostąpu do maszyny; t e o r ia sprzążenia zwrotnego relew antn ości; m odyfikacja pytań i "p rze s t­
r z e n i" dokumentów w związku z "narastaniem", t j . przybywaniem,
oraz d ezak tu alizacją dokumentów w zb iorze informacyjnym.
Bo zakresu badań Baltona należą także metody oceny wyników
wyszukiwania, jak miary kompletności i dokładności oraz proce­
dury ich wyznaczania, uśrednianie współczynników efektywności
i t d . ; przeprowadzono między innymi an alizą poró^raawczą efektyw­
ności wyszukiwania w systemie SblAHT i w systemie IffiDLAES•Pr^ed
przystąpieniem do b liżs ze g o omówienia niektórych wybranych za­
gadnień trzeb a wyjaśnić, że wszystkie eksperymenty prowadzone
p rzez Baltona są oparte na tekstach a n a liz dokumentacyjnych(ab­
strak tów ), nazywanych d a le j umownie d la uproszczenia "dokumen­
tam i".
A n a l i z a
z a w a r t o ś c i
d o k u m e n t ó w
Automatyczna procedura an alizy składa sią z następujących,
k olejn o wykonywanych fa z :
- rozpoznanie poszczególnych słów i konwersja tek stu na zbiory
-słów form alnie identycznych;
- elim in acja słów funkcjonalnych n ie niosących sam odzielnej
t r e ś c i, jak przyim ki, sp ó jn ik i i t d . ; w języku angielskim ta ­
kich słów je s t około 200; ich l i s t ę wzorcową wprowadza
się
do pamięci maszyny;
- zredukowanie słów do rdzen i p rzez porównanie ze słownikiem
przyrostków i przedrostków, zapisanym w pamięci maszyny; przy
porównywaniu przeglądanie słów odbywa się od strony
prawej
do le w e j, a celem uzyskania właściwych rd zen i proces je s t
*
powtarzany rekursywnie; np. d la słowa "e ffe c tiv e n e s s "
po
pierwszym porównaniu z l i s t ą przyrostków nastąpi o b cięcie
—ness, po drugim - iv e , wtedy dopiero otrzyma sią
właściwy
rdzeń " e f f e c t ” ; n iek tóre rdzen ie mają odmiany, co nastręcza
-
128
-
szereg trudności przy procedurze automatycznej, np. "analy­
s is ” i "a n a ly zer" trzeb a sprov/adzic do wspólnego rdzen ia
" analy";
komasacja rd zen i, o b lic ze n ie i dołączenie do każdego rd2^enia wskaźnika frekwenoyjności, t j . lic zb y wystąoień danego
rdzenia w analizowanym te k ś c ie ; wskaźnik ten stanowi tzw.waż­
ność terminu w badanym dokumencie; w wyniku - d la każdęgo
dokumentu D otrzymuje s ią następujący wektor:
Б = (t^ .
“2’
gdzie t^ do t^ są symbolami identyfiku jącym i poszczególne
rdzenie terminów, powiązanymi z odpowiednimi wskaźnikami waż­
ności;
następnie można zbadać k o re la c je wspólnych wystąpień terminów
pojawiających się n a jc z ę ś c ie j w całym zb iorze dokumentów oraz
w poszczególnych dokumentach;
terminy można także fakultatyw nie porównać ze słownikiem umownych synonimów, w którym terminy wzajemnie skojarzone po­
wiązano we wspólne klasy p o ję ć ; klasa pojęć je s t w tym przy­
padku pojmowana bardzo szeroko, gdyż na przykład
klasę pod
nazwą "m eteorologia" tworzy zestaw pojęć w rodzaju "w ia tr ",
"gra d ", "d e s zc z", "burza" i t d , , w wyniku porównania ze słow­
nikiem synonimów nastąpi zamiana terminów na klasy p ojęć;
na podstawie słownika fra z terminy w wektorach dokumentów za­
stępowane są frazam i: słownik fr a z je s t także przechowywany
w pamięci maszynowej i zawiera pary, t r ó jk i lub czwórki t e r ­
minów z przyporządkowanymi im odpowiednio pojęciam i prostymi,
np. słowo "ję z y k " i występujące z nim razem słowo "program"
będzie za pośrednictwem słownika zastąpione pojęciem "ję zy k
programowania" pod warunkiem jednak, że w ystąpiły n ie ty lk o
w jednym dokumencie, ale w jednym zdan iu ,! to obok s ie b ie ;
dla zv7iększenia poprawności p rzyd ziału fr a z należałoby je s z­
cze przeprowadzić analizą syntaktyezną; język a n g ie ls k i je s t
językiem pozycyjnym i wyrażenie "Venetian b lin d " (d o s ł.: we­
necka zasłona c z y li ża lu z ja ) oznacza zupełnie coś innego n iż
"b lin d Venetian" (ślepy '.Venec ja n in ).
129 V/ zv/iązku z automatycznym analizowaniem zaw artości dokumen­
tów i indeksowaniem przez maszyną Salton s tw ie r d z ił, że jaka­
kolwiek metoda przypisywania ważności terminom daje lepsze wy­
n ik i wyszukiwania, n iż stosowanie samych ty lk o terminów; tą os ta tn ią metodą Salton nazywa "wagami dwójkowymi" w znaczeniu
podziału dwuwartościowego na: " j e s t termin" luh "n ie ma term i­
nu". Zbadano eksperymentalnie, że niekiedy system porównywania
ważności może poprawić kompletność i dokładność vryszukiwania
nawet o ЗОЙ. Przy wyszukiwaniu in fo rm a c ji w zbiorach z zakresu
spraw międzynarodowych dziennika Times d zię k i wskaźnikom ważno­
ś c i uzyskano pewną określoną poprawę kompletności i znaczną po­
prawę dokładności. Jednakże, gdy przeprowadzono analogiczny
eksperyment na zb iorze dokumentów z innej d zied zin y , konkretnie
w systemie ItSBLAES (K edical L ite ra tu re An alysis and H e tr ie v a l
Systems), okazało s ię , że wskaźniki ważności n ie p rzyn iosły po­
prawy parametrów efektywności wyszukiwania. Zatem skuteczność
systemu ważności je s t uzależniona także od d zied zin y , w k tó re j
prowadzimy wyszukiwanie.
Inna metoda przypisywania ważności terminom zwana "in w ersyjną frekv;enoyjnośoią dokumentów" IDP (in verse document f r e ­
quency^ op iera się na przeciw nej p rzesłan ce. Wskaźnik ten wyra­
ża s ię formułą:
IBP =
DP
g d zie DP je s t to lic z b a dokumentów danego zbioru, w których wy­
stępuje rozważany termin. Powyższa formuła daje s ię łatwo zin ­
terpretować zgodnie z in tu ic ją : im c z ę ś c ie j pewien termin poja­
wia s ię na obszarze całego zb ioru dokumentów, tym m niejsza jego
moc wyróżniająca, zatem m niejsza waga w tym z b io rz e .
Obie metody przypisywania wag terminom nie są jednak zda­
niem Saltona zbyt skuteczne. '.Yłaściwie powinno s ię obliczać roz­
kład frekwencyjności poszczególnych terminów w pojedynczych do­
kumentach na obszarze całego zbioru , przy czym terminy, których
frelc7.'encyjność w różnych dokumentach je s t mniej w ięcej jednako­
wa, tzn. gdy krzywa rozkładu przebiega płasko, n ie mają dużej
mocy wyróżniającej w tym zbiorze. Podobnie termin rzadko wystę—
- 130 pujący na p rz e s trze n i zbioru, tzn . Tjystępujący choćby nawet z
dużą stosunkowo frekwencyjnością, a le w bardzo n ie lic zn y c h do­
kumentach, te ż n ie Jest dobrze w yróżniający. H ajlepsze
pod
wzglądem mocy v7yróżniania są terminy, dla których krzywa ro z­
kładu frekwencyjności na obszarze zbioru p rzeb ie g ^ poziomo-zygzakowato. Takie terminy otrzymują najwiąksze wskaźniki ważnoś­
c i . Dla paru dziedzin (aerodynamika, medycyna, sprawy międzyna­
rodowe) obliczono i sporządzono wykazy po 10 terminów n a jle p ie j
wyróżniających i 10 n a jgo rzej wyróżniających w indeksowaniu.
Ogólny wniosek postawiony przez Saltona brzmi, że indeksowa­
n ie automatyczne n ie zawsze daje wyniki lep sze, n iż iudeksowan ie przez człowieka - je s t to zależne od stosowanych metod.
^
A u t o m a t y c z n e
k l a s y f i k o w a n i e
^ swoich badaniach Salton v?prowadził p o ję c ie g ę s to ś c i prze­
s trze n i dokumentów, d e fin iu ją c ją jako średnie podobieństwo wek­
torów dokumentów w danym zb io rze , lub mówiąc in a c z e j,ś re d n i wek­
t o r dokumentu w tym zbiorze wyrażający się o d le g ło ś cią średnią
wektorów od centroidu, t j . "merytorycznego środka" p rzes trze n i.
Gęstość p rz e s trze n i dokumentów zmienia s ię w za leżn ości od układu terminów indeksowych v; wektorach. J e ż e li do pewnego zb io­
ru wektorów dodać jak iś nowy termin indeksowy o małej mocy wy­
różn iające j,.to wtedy gęstość p rz e s trze n i zwiększa s ię ,
co nie
je s t korzystne d la wyników wyszukiwania. J e ż e li natomiast przez
dodanie pewnego dobrze wyróżniającego terminu indeksowego gę­
stość zmniejsza s ię ,to będzie to korzystneJOgólnie mówi s ię , że
gęstość p rz e s trze n i dokumentów ma pewną wartość optymalną, za­
leżną każdorazowo od danego zbioru i układu terminów indeksov/yoh. ^
Powracając do metod przypisywania terminom wskaźników waż­
ności,oprócz trzech wymienionych (frebwencyjność, IDP, moc wy­
ró żn ia ją c a ) is t n ie ją jeszcze inne, przede wszystkim kombinacje
dwóch lub trzech podstawowych. Stosuje się na przykład wskaźni­
k i ważności wyrażone formułą;
- 131 frekwencyjność x 1БР
а1Ъо:
wskaźnik mocy w yróżn ia jącej + frekwencyjnośe x IDP
1иЪ inne je s zc ze kombinacje.
I J e ś li chodzi o podobieństwo dokmentów v/yraża s ię ono n aj­
c z ę ś c ie j współczynnikiem równym fu n k c ji n astępu jącej;
„ __ lic z b a terminów wspólnych
lic z b a terminów odmiennych
'Jychodząo od tak obliczanego współczynnika podobieństwa, a na­
stępnie u s ta la ją c dla niego pewną wartość graniczną (empirycz­
n ie ) można wyznaczyć wzajemne powiązania dok\mentów, odwzoro­
wać g r a fic z n ie s ie c i powiązań, a na koniec uzyskać ich likład
k la s y fik a c y jn y . Klasa je s t w tym przypadku definiowana jako ta ­
k i podzbiór, w Ictórym wszystkie obiekty są wzajemnie powiązane
w szczególny sposób, tzn . każdy z każdym.
O b liczając w analogiczny sposób współczynniki podobieństwa
I
terminów na podstawie ich równoczesnego (wspólnego) występov;an ia VT dokumentach, można p rz e jś ć do tworzenia k la s pojąć tezau­
rusa. Procedury te są jednak według o p in ii Saltona bardzo skom­
plikowane i kosztowne. K rytycznie również ocenia Salton w ła ści­
wie wszystkie te o r ie i metody automatycznego k lasyfikow ania opisane w lit e r a t u r z e . Są one jego zdaniem nieużyteczne i nie
do praktycznego wykorzystania przede wszystkim ze względu na
konieczność wykonywania ogromnych i l o ś c i operacji,w yrażających
s ię funkcjami wykładniczymi. J e ż e li n oznacza lic z b ę p o zy c ji
(powiedzmy łączną lic z b ę te.rminov/ w wektorach dokumentów k lasyfikov/anego z b io r u ), to lic z b a o p e ra c ji porównywania wymaganych
p rzez procedtirę maszynową może być równa za le żn ie od metody:
3^'^^, n^ albo n^. K ilk a aktualnie dyskutowanych kon cep cji Sal—
ton ocenia wprawdzie jako niedoskonałe, le c z warte eksperymen­
towania, a wśród nich algorytm Eocchio. 'Jedług tego algorytmu
w zb iorze dokumentów (tu w znaczeniu zbioru wektorów dokumen­
tów^ przeprowadza s ię tzw, te s t g ę s to ś c i, którego is t o t ę można
przedstawić w p rzyb liżen iu za pomocą pytania: "czy is t n ie je co
najm niej n dokumentów powiązanych z dokumentem rozwazany'm
- 132 pofiobieństwem równym lub większym od p?” . J e ż e li tak, znaczy
t o , że dokument
spełnia warunek i że "wokół" tego dokumentu
należy o k r e ś lić grupą tematyczną: j e ż e l i warunek nie je s t speł­
niony, wówczas ten dokument p ozo staje "lu źn y", w powtarzanych
relmrsyTmie przebiegach t e j procedury pomija s ię dokumenty już
uprzednio u ję te w grupy. Яа koniec pozostałe luźne dokumenty
dołącza s ię do optymalnie pasujących grup już utworzonych i ob­
l i c z a cen troid dla każdej grupy, V7reszcie, aczkolwiek fa k u lta ­
tywnie, przeprowadza się poróvmanie dokumentów z obliczonymi
oentroidami i w r a z ie potrzeby dokonuje s ię r e d e f i n i c j i grup.
'Jykonanie t e j procedury wymaga także dość dużej li'.'zby opera­
c j i ; w najlepszym ra z ie lic z b a ta będzie równa n Icgn.
Według jeszcze innej metody automatyczną k la s y fik a c ję roz­
poczyna s ię od wrstępnie założonych grup, a następnie drogą au­
tomatycznych ob liczeń podobieństwa przeprowadza s ię ich dosko­
n a len ie. I lo ś ć o p e ra c ji je s t wtedy znacznie mniejsza w porówna­
niu z innymi metodami. Kodyfikowanie pierw otnie p rzyjęty ch grup
powtarza s ię tak długo, aż osiągn ie s ię stan zb ieżn o ści czy sta­
b iln o ś c i n ie wymagający już dalszych przesuwać dokumentów mię­
dzy grupami. Is t n ie je jeszcze ewentualność przeprowadzenia t e ­
go rodzaju korektury grup metodą jednoprzebiegową, wymaga to
jednak ro ’flnoczesnego dynamicznego kontrolovfania lic z b y grup,
lic ze b n o ś c i grup oraz stopnia nakładania się grup na s ie b ie ,
co oczywiście nieporÓTraanie komplikowałoby procedurę maszynową.
A u t o m a t y c z n e
t i v o r z e n i e
s ł o v; n i к a
Stwierdzono, że przy redukoxvaniu terminów indeksowych
do
rdzeni słów w porównaniu z metodą stosowania terminów ze słow­
nika in a czej rozk ład ają się parametry efektywności vfyszukiwania,
t j . wskaźnik kompletności i wskaźnik dokładności; dokładność
je s t wprawdzie stosunkowo duża przy mniejszych wskaźnikach kom­
p le tn o śc i, jednak przy dużej kompletności dokładność znacznie
- 133 sp ad a,i to wyraźnie pon iżej dokładności dla metody indeksowa­
n ia ze słownikiem. Wskazuje to na celowość budowania słowni­
ków, który to proces może być vrykonywany automatycznie, przy
użyciu starannie zaprojektov/anych, sprawdzonych i odpowiednio
zaprogramowanych re g u ł. K oźliw ości doboru adekwatnego zestawu
regu ł są dość duże. Należy przy tym pamiętać, że jak wynika z
wypowiedzi Saltona, k lasa p ojęć w tego rodzaju słowniku czy te ­
zaurusie je s t rozumiana bardzo szeroko. Zawsze ob liczan a je s t
frekwencyjność i dystrybucja frekw encyjności w zb io rze dokumen­
tów; w wyniku tych o p e ra c ji szeregu je się terminy według ich
mocy r o z r ó ż n ia ją c e j. W ten sposób powstaje wykaz terminów т/edłu g mocy w y ró żn ia ją cej. Oto k ilk a dalszych regu ł budowania Rów­
nika (nazywanego przez Saltona tezaurusem);
- elim in u je s ię terminy o szc ze gó ln ie małej frekw encyjności;
- terminy o bardzo dużej frekwencyjności'są albo również elim in o­
wane, albo p ozostają jako klasy same dla s ie b ie , nawet je ż e ­
l i mają synonimy podlegające regu le p ie rw s ze j;
- elim in u je się terminy n ie posiadające własnegc specyficznego
znaczenia, np. metoda, system i t p . ;
- terminy wieloznaczne zo s ta ją umieszczone w ty lu klasach, i l e
mają różnych znaczeń;
- klasy umownych synonimów konstruuje s ię tak, aby oczekiwana
frekwencyjność sumaryczna n a -p rze s trze n i zbioru b y ła d la każ­
dej z klas w p rzy b liże n iu taka sama.
Reguła umownej synonimii mówi, że stopień podobieństwa t e r ­
minów ma być większy lub równy pewnej założon ej w ie lk o ś c i gra­
n ic z n e j; terminy pokrewne (s k o ja rzo n e ), nadrzędne i podrzędne
są zdefiniowane jako ta k ie , dla których stopień podobieństv/a
je s t mniejszy od w ie lk o ś c i g ra n ic zn e j. Nasuwa s ię tu oczywiś­
c ie szereg dalszych pytań, np. czy można wnioskować, że j e ż e l i
termin pokrewny je s t stosunkowo rzadko stosowany, to oznacza,
że je s t b a rd z ie j sp ecyficzn y, zatem podrzędny? O statnio były
prowadzone próby dynamicznej k on stru k cji tezaurusa; wynikom łych
eksperymentów poświęcono jeden z ostatnich raportów C orn ell U—
n iv e r s it y .
- л 3k I n d e k s o w a n i e
d y n a n s i c z n e
Jednym z n a jb a rd ziej widocznych niedostatków konwencjonal­
nych systemów wysziikiwania je s t statyczny, sztywny charakter
o rg a n iza c ji i układu całego zbioru informacyjnego. 'Я systemach
indeksowania automatycznego operacje przeszukiwania i wyszuki­
wania można u elastyczn ić b iorąc pod uwagą następujące aspekty:
1) każdy tiżytkownik systemu je s t potencjalnym źródłem informa­
c j i , jak ie mogą być pomocne przy obsługiwaniu innych użytkowni­
ków i jak ie można zachować celem spożytkowania w przyszłych operacjaoh systemu; 2) zmiany składu p op u lacji użytkowników mo­
gą znajdować swoje odbicie w odpowiednich zmianach o rg a n iza c ji
dokumentów; 3) w przechowywanych zbiorach in form acji możliwe
je s t na drodze prostych procedur dokonywanie zmian związanych
z dodawaniem nowych p o z y c ji i usuwaniem zbędnych. IV e la s ty c z ­
nym systemie realizowana je s t więc kontrola układu danych w
zbiorach ze wzglądu na użytkowników i ze wzglądu na narastanie
oraz d ezaktu alizacją samych zbioróię. Wszelkie modyfikacje da­
nych indeksowych odbywają sią w’ toku zwykłych o p e r a c ji systemu;
tak zmiany pierwotnych sformułowań pytań, jak i "przesu n ięcia"
danych indeksowych odnoszących się do dokumentów
dokonywane
są na drodze sprzężenia zwrotnego z użytkOvTOikami lub opera­
torami systemu, c z y l i na podstawie in form acji uzyskiwanych b ie ­
żąco podczas funkcjonowania systemu.
Przy inw ersyjnej o rg a n iza c ji zbiorów, jaką n a jc z ę ś c ie j się
stosu je, bieżące wprowadzanie jakichkolwiek zmian danych indeksołTyoh związanych z pytaniami lub z dokumentami je s t utrudnio­
ne, ponieważ ani kartoteka inwersyjna, ani na ogół zb ió r opi­
sów b ib lio g ra fic zn y c h nie zaw ierają pełnych -wektorów ,i t j . kom­
pletnych zestawów terminów dla poszczególnych dokumentów. VJ sy­
stemie
uzyskuje s ię żądaną elastyczność przez grupową
organ izację zbiorów (clu stered f i l e org a n iza tio n )j'w k tó re j do­
kumenty o podobnych w pewien sposób wektorach stanowią
Salton’ s I.agical Automatic R e trie v e r of Tents.
grupy
- 135 (c lu s t e r s ). Każda grupa je s t reprezentowana przez p r o fil,w pevłnym sensie analogiczny do środka c ię ż k o ś c i. Jest to mianowicie
zb ió r terminów "ważonych", tzn . opatrzonych wskaźnikami ważnoś­
c i , reprezentatywny d la dokumentów zawartych w danej gru p ie.P o­
szukiwanie w tak zorganizowanym zb io rze odbywa się następująco:
najpierw każde pytanie zo s ta je porównane z p ro fila m i wszystkich
grup. Dla tych p ro filó w , które wykazują d ostateczn ie duże podo­
bieństwo, przeprowadza s ię następnię badania wektorów poszcze­
gólnych dokumentów w odnośnych grupach, w v;yniku czego w odpo­
w ied zi otrzymuje s ię opisy dokumentów uszeregowane według male­
jącego podobieństwa pytanie-dokument. Uszeregowanie dokumentów
w odpowiedzi pczvcala użytkownikowi wykorzystać ty lk o pozycje
n a jb a rd zie j zbieżne z pytaniem, pojaw iające s ię pierwsze na l i ś ­
c ie . W zdolność szeregowania odpowiedzi można, wprawdzie wyposa­
żyć także konwencjonalny układ wyszukiwawczy, Щ is to tn ą z a le tą
układu grupowanego je s t znaczna oszczędność i l o ś c i o p e ra c ji wy­
szukiwania, zim ie js ze n ie obszaru pamięci wymaganej do pomiesz­
czen ia zbiorów oraz um ożliwienie przeszukiwania elastycznego
ze sprzężeniem zwrotnym.
Celem udoskonalenia pierwotnego sformułowania pytania użyt­
kownika w toku o p e ra c ji wyszukiwania można zastosować wifele róż­
nych metod. •Vięc np. przedstaw ia s ię użytkownikowi słownictwo
w różnorodnych układach, ażeby mu dopomóc w doborze właściwych
terminów do wyrażenia jego potrzeb informacyjnych; zviykle przed­
stawia się pod rozwagę użytkownika zestaw terminów synonimicznych lub pokrewnych w stosunku do każdego terminu występujące­
go w pierwotnym sformułowaniu pytania wyszukiwawczego. A ltern a­
tywnie, pierwotnego sformułowania pytania można użyć do prze­
prowadzenia wyszukiwania próbnego, a następnie podać użytkowni­
kowi inform acje o niektórych spośród wyszukanych dokumentów,np.
ich ty tu ły , an alizy dokinnentacyjne, a to celem u łatw ien ia u ży tkovmikovii n a jb a rd zie j trafn ego p rzek szta łcen ia p ytania.
Preferowana metoda zmiany pytania stosowana w systemie
SMAET znana je s t pod nazwą sprzężenia zwrotnego relewantności
(relevan ce feed b ack ), gdyż pytania modyfikuje s ię automatycznie
na podstawie dostarczonych p rzez użytkownika o p in ii o relew ant­
n ości uprzednio wyszukanych dokumentów. Zgodnie z założeniem
- 136
procesu sprzężenia zwrotnego relev/antnosci, dla każdego pyta­
n ia wpłyTfającego do systemu przeprowadza się najpierw wyszuki­
wanie początkowe. l»iew ielką część wydanych dolrumertów o najwyż­
szych wskaźnikach podobieństwa przedstawia s ię następnie użyt­
kownikowi z prośbą o u s ta le n ie, czy dokumenty te są relewai?fcne
(E ), czy te ż nierelewantne (S ) z punktu widzenia jego potrzeb
informacyjnych. Oceny użytkownika wracają do systemu celem au­
tomatycznego wykorzystania do poprawienia pytania v/yszukivfawczego; przeprowadza się to w ten sposób, że terminy występują­
ce w dokumentach relewantnyoh zo s ta ją "awansowane" (p rzez zsri.ększenie ich ważności'', natomiast terminy występujące w dokumen­
tach nierelewantnych zo stają równocześnie "zdegradowane". Бокиmenty relewantne określone przedtem jako E oraz dokumenty n ie ­
relewantne S służą następnie do nowego sformułowania pytania
q ', o którym sądzi s ię , że będzie b a rd z ie j, n iż pierwotne pyta­
n ie q, podobne do dokumentów relewantnyoh, a mniej podobne do
dokumentów nierelewantnych.
Przeprowadzona ocena efektów procesu sprzężenia zwrotnego
relewantnośoi dowodzi, że spośród różnych metod wyszukiwania z'
in tera k cją , sprzężenie zwrotne relewantnośoi daje n ajlepsze wy­
n ik i, a równocześnie je s t najmniej u ciążliw e d la użytkownika.
Sprzężenie zwrotne relewantnośoi pozwala uzyskać poprawą efek ­
tów wyszukiwania nawet do 45S we wskaźnikach kompletności i do­
kładności.
Opisany proces zmiany pytania można rozszerzyć następnie na
doskonalenie samych wektorów dokumentów na drodze "awansowania"
tych dokumentów, które zostały ocenione jako relewantne. koźna
mianowicie spowodować, aby te dokumenty były w p rz y s z ło ś c i ł a t ­
w ie j dostępne, t j . ła tw ie j wyszukiwane, przez spov/odowanie by
ich elementy wyszukiwav/cze były b a rd ziej podobne do p r o filu py­
tan ia na które były odpoy/iedzią. A n alogiczn ie, dokumenty poda­
ne w odpowiedzi, a określone jako nierelewantne, degraduje się
czyniąc je tru d n iej dostępnymi p rzez "odsunięcie" d a le j od py­
tan ia. Iilożna wnioskować, że w wyniku w ie lk ie j lic z b y
takich
wzajemnych oddziaływań, dokumenty pożądane przez użytkowników
będą pov/oli przesuwane do aktywnej c zęści p rzes trze n i dokumen­
tów, tzn. do t e j c zę ś c i, na k tó re j koncentruje s ię dużo pytań;
- 137 natomiast pozycje dyskwalifikowane przez użytkormików bąóą prze­
suwane na krańce, z których można je w końcu usunąć.
Z r e a liz o w a n o
i
sp ra w d zo n o p r o c e s m o d y fik o w a n ia p r z e s t r z e n i
dokumentów s t o s u j ą c n a s t ę p u ją c ą m e to d ą :
a ) wektor dokumentu, określonego w toku procesu sprzężenia
zwrotnego jako relewantny, je s t zmieniany przez dodanie term i­
nów z pytania luh przez powiększenie ważności terminów występu­
jących równocześnie w wektorach dokumentu i pytania, natomiast
w stosunku do terminów dokumentu n ie występujących w pytaniu
następuje zm niejszenie ich ważności przez p rzypisanie im n iż ­
szych wskaźników ważności;
h ) an alogiczn ie postępuje s ię w odniesieniu do dokumentów
określanych jako nierelew antne, zm niejszając ważności terminów
dokumentu występujących równocześnie w wektorze p yta n ia ,a zwięk­
szając wagi terminóv/ dokumentów n ie występujących w pytaniu.
Procedurę tę sprawdzono używając do zmodyfikowania pewnej
p rz e s trze n i dokumentów zestawu 125 pytań użytkowników, następ­
nie nowy zestaw 30 pytań przetworzono najpierw w stosunku
do
pierw otnej p rz e s trz e n i dokumentów, tzn . sprzed m od yfik acji wek­
torów, a potem w stosunku do p rz e s trz e n i zmodyfikowanej w wyni­
ku przetwarzania w cześniejszych 125 pytań. Okazało s ię , że wy­
n i k i wyszukiwania w p rz e s trze n i zmodyfikov;anej są o 3^ lep sze,
j e ś l i chodzi o kompletność, a o B'o pod względem dokładności w
porównaniu z wynikami uzyskanymi przy p rzes trze n i p ierw o tn ej.
Praktyczne stosowanie opisanej procedury będzie możliwe
wtedy, gdy proces modyfikowania p rz e s trze n i dokumentów będzie
s ta łą w łaściw ością systemu, ponieważ uzyskanie równov;agi zb io­
rów może wymagać w ielu ty s ię c y zmian wektorów dokonywanych przez
w ie le 1st.
R ealizu jąc omówioną wyżej modyfikację przestrzen i dokumen­
tów w odniesieniu do zbioru grupowanego, trzeba rozT/iązać kwe­
s tią postępowania z pro filam i grup, i u s t a lić czy i jak js mo­
dyfikować w miarę zmian wektorów dokumentów w odpowiednich gru­
pach. J eślib y każdy p r o f i l zdefiniować prosto jako sumę wszy­
stkich wektorów dokumentów zawartych w danej grupie,wtedy każ­
dy wektor p r o f i lu będzie zaiTierał 7/ielsset różnych terminów,
a różnice między wskaźnikami ważności poszczególnych terminów
138 bądą bardzo różne. Jednakże wektory długie są niepożądane
ze
wzglądu na vfzrost kosztu przechowywania, a n ie je d n o lity rozkład
wskaźników ważności powoduje trudności przy porównywaniu p r o fi­
lów z welrtorami dokumentów i pytań. iVyniki prób przeprowadzonych
z rozmaicie zdefinio7.-anymi p ro filam i wskazują na to , że n a jle p ­
sze efekty osiąga sią przy krótkich wektorach p ro filó w , gdzie
zachodzą tylko nieznaczne wahania ważności przypisanych termi­
nom, Jak się wydaje, najważniejsze są następujące warimki:
a'' wskaźniki ważności p rofilów powinny być obliczane ze stopnia
frekwencyjności terminów {frequency ran ks), a nie na podstawie
całkowitych zsumowanych frekwencyjności terminów; zatem termin
0 n a jn iżs ze j frekwencyjności otrzymuje wskaźnik ważności 1,t e r ­
min o frekwencyjności następnej co do w ielk ości otrzymuje wskaź­
nik ważności 2 i t d . ; b ) do 803 terminów p r o filu mających naj­
n iższe wskaźniki ważności można w yk reślić, ponieważ efektywność
przy takich zredukowanych p ro fila c h je s t w zasadzie równa efek ­
tywności przy p ro fila c h pełnych, taik pod vfzglądem kompletności,
jak i dokładności; c ) wagi przypisane teinainom p r o filu mogą hyc
z układu standardowego, oo dodatkowo daje oszczędność miejsca
przechowywania, ponieważ pełny rozkład wskaźników ważności zo­
s ta je zastąpiony przez ty lk o c zte ry różne klasy i każdy termin
otrzymuje ty lk o jeden z czterech możliwych odmiennych wskaźni­
ków Y^ażności P r o file otrzymane w wryniku takich przekształceń
są k rótk ie i mają je d n o litą charakterystyką pod względem v\ag.
Zmniejsza się w ten sposób koszty przechowrj'wania p ro filó w i upraszcza manipulowanie nim i. l a skutek zmian w v/ektorach doku­
mentów doKonywanych na podstawie pytań i oceny użytkownikÓYj,jak
to wyjaśniono poprzednio, odnośne p r o f ile staną s ię z czasem
nieefektywne jako rep rezen tacja danej grupy dokumentów. 'Wypró­
bowano wobeo tego procedurę zmiany p r o filu , według k tó r e j
za
każdym razem, gdy zmienia sią wektor dokiunentu relewantnego
przez dodanie (albo przez zwiększenie vTskasnika ważności) jed­
nego lub w ięcej terminów na podstawie pytania użytkovmika, te
s-’me terminy zo sta ją tak samo wykorzystane do a k tu a liz a c ji ko1 .pondującego p r o filu grupy. V7skaźnik ważności wrszystkioh te r­
minów n r o filu występujących rÓYmież w pytaniu użytkoYmika zosta­
je powiększony o jeden; terminy pytania nie występujące przed-
- 139 tem w p r o filu dodaje s ię do wektora p r o filu . Poprawa e fek ty ra o ści przy zb io rze w ten sposób zmodyfikowanym w yniosła
prawie
10"5.
W miarę narastania zmian dokonywanych w p rz e s tr z e n i doku­
mentów na drodze wymienionydh procedur niezbędne s ta je się prze­
suwanie całych dokumentów z grupy do grupy. Przegrupowania są
także związane z dodawaniem nowych dokumentów i usuwaniem pozy­
c j i zbędnych. Przegrupowania są pracochłonne, ob liczon o jednak,
że je s t to niezbędne, gdy 50,* wektorów dokumentów w zbiorze
zo s ta ło zmodyfikowane lub nowo wprowadzone, ponieważ efektyv.'ność spada wówczas o około li%. Przy 75/Ь zasięgu a k tu a liz a c ji
wektorów spadek efektywności s ię g a 8*.
W okresach między dokonywaniem przegrupowania zapisy można
aktualizować zm ieniając stopniowo wektory p ro filó w w miarą wpro­
wadzania nowych dokumentów do grup. Is t n ie ją tr z y metody postę­
powania; a) nov^e dokumenty k ojarzy s ię z n a jle p ie j pasującą spo­
śród is tn ie ją c y c h grup ( t j . grupą, d la k tó r e j zachodzi najwriększe podobieństwo p r o fil-dokum ent), przy czym w szystkie wektory
p r o filó w p ozostają nie zmienione; b ) nowe dokumenty kojarzy się
z is tn ie ją c y m i grupami, a p r o f ile zmienia się p rzez a k tu a liza ­
c ją ty lk o is tn ie ją c y c h terminów p r o filu , to znaczy można zmie­
n ić wagi tych terminów, le c z n ie dodaje się terminów
nowych,
zachowując tym samym s ta ły wymiar p r o filu ; c ) nowe dokumenty
k ojarzy s ię z istn iejacyra i grupami, a p r o f ile zmienia się aktua­
liz u ją c is tn ie ją c e terminy oraz wprowadzając nowe terminy w zię­
te z dokumentów dodawanych do grup. Stwierdzono doświadczalnie,
że z dwóch metod zmieniania p ro filó w , nieznacznie lep sza je s t
ta , według k tó r e j utrzymuje s ię s ta łą długość p r o f ilu , szcze­
g ó ln ie dla dużych w artości wskaźnika kompletności; metoda ta
je s t n a jlep sza także ze względu na ob jętość pam ięci.
Bardzo istotnym problemem je s t sprawa \7ycofywania dokumen­
tów nieprzydatnych (re tire m e n t), przy czym przez wycofanie rozumie
s ię nie skasowanie danego dokumentu, le c z jedynie przesunięcie
go z centralne.go zbioru zapisów, tzn . tego zbioru , który
je s t
przeszukiwany za każdym razem, do pomocniczego obszaru przechowyvi'ania, udostępnianego ty lk o w specjalnych ok oliczn ościach .
■« związku z zagadnieniem wycofj'wania p o z y c ji zd ezak tu a lizo­
wanych ze zbiorów powstały ta k ie p o ję c ia , jak okres p ó ł-ż y c ia
-
1Д0 -
dokumentu, tzn . czas, po upływie którego lic z k a wzmianek o da­
nym dokumencie w lite r a tu r z e zm niejsza sią o połowę, albo poję­
c ie przydatności dokumentu wyrażonej ilo ś c ią powołań na ten do­
kument, Jaką można przewidywać w czasie pozostałego okresu Je­
go is tn ie n ia . v7 obu tych przypadkach mały wskaźnik okresu p ó ł- ż y c ia albo n is k ie j przydatności oznacza szybką d ezak tu alizację
dokumentu i znikanie z piśmiennictwa, a zatem i potencjalne wy­
cofan ie dokumentu. Trzecim wskaźnikiem aktualności może byc wie­
lokrotność wyjmowania dokumentu z fizyczn ego zbioru (zdejmowa­
n ia z półek b ib lio te c zn y c h ),a czwartym -po prostu wiek dokumen­
tu , t j . lic z b a la t . Jakie.upłynęły od Jego pierwotnego opubli­
kowania. Kie ma n ie s te ty pralctycznej możliwości prowadzenia po­
miarów tych wskaźników, gdyż w artości dokładne, z wyjątkiem т е ­
ки dokumentu, nie są osiągaln e. Przede wszystkim każdy pomiar
Jest uzależniony od sp ec y fik i b ib lio t e k i lub środowiska użytkow­
ników, a w artości uzyskanych w Jednych warunkach n ie sposób prze­
lic z y ć i odnieść do iruiego układu. Kie wiadomo również, Jakie
okresy obserwacji i Jakie w ie lk o ś c i próbek są niezbędne,
aby
uzyskane wyniki był,’ wiarogodne. Ha koniec, przynajmniej w od­
n ie s ie n iu do lite r a t< r y tech n iczn ej, ważne Jest odróżnianie og ó ln ie p ojętego pożytku naukowego, od przydatności historycznej
dokumentu, przydatności do przeglądów i innych celów retrospek­
tywnych. Szybkość dezaktualizowania s ię Jest oczyw iście różna
w tych dv/óch przypadkach. Reasumując, p o lity k a wycofywania opar­
ta na w ielkościach, które nie mogą być dokładnie zmierzone, nie
byłaby sprawna.
Proponuje s ię więc nową metodę dynamicznego układu prowa­
dzonych zbiorów dokumentów. Można by tę metodą o k r e ś lić Jako uogólnic ą modyfikację wektorów dokumentów na podstawie następu­
jących trzech czynników:
a ) stopień zb liże n ia danego dokumentu do zbioru
p ro filó w
pytań, mierzony w ielk ością współczynnika podobieństwa
między
p ro fila m i pytań i dokumentów;
b ) każdorazowe m iejsce danego dokumentu w szeregu dokumen­
tów wyszukanych w odpowiedzi na pytanie;
c ) każdorazową opinię użytkownika o wyszukanym dokumencie,
tzn . wyrażoną przez użytkownika ocenę p oten cja ln ej przydatności
- 1.41 dolcuinentii do jego potrzeb informacyjnych. Koncepcja polega na
awansowaniu dokumentów zlokalizowanych b lis k o ośrodków zainiieresowań użytkowników, t j . bliskich , profilom pytań, lub dokumen­
tów pojawiającyoh slą na początku szeregu dokumentów aryszukiwanych, powiedzmy wśród pierwszych 50 p o z y c ji, albo ta k ic h ,o któ­
rych wiadomo, że są relewantne w stosunku do potrzeb użytkowni­
ków. Awansowanie dokumentów odbywa sią przez przesuwanie ' ich
b l i ż e j odpowiednich pytań, tam gd zie koncentrują s ią za in te re ­
sowania użytkowników. Równocześnie degraduje sią dokumenty od­
dalone od p ro filó w pytań, lub dokumenty pojaw iające s ią na od­
le g ły c h miejscach w szeregu dokumentów wyszukiwanych,np. wśród
ostatn ich 50 p o z y c ji, albo ta k ie , o których wiadomo, że n ie są
relewantne w stosunku do potrzeb użytkowników; degradacja od­
bywa sią przez przesuwanie d a le j od p o z y c ji bieżących pytań.
Gdyby taką metodą prawidłowo rea lizo w a ć, okazałoby s ią , że do­
kumenty nigdy n ie żądane, lub pojaw iające sią przy końcu sze­
regu dokumentów wyszukiwanych, bądą sią przesuwać na kraniec,
coraz d a le j od aktywnej oząści zb ioru , aż w końcu ich wyszuka­
n ie stan ie sią niem ożliwe. Jednocześnie dokumenty awansowane
bądą stawały s ię ła tw ie js z e do wyszukania, pod warunkiem,że py­
tan ia wpływające w p rz y s zło ś c i bądą podobne do pytań aktual­
nie aktywnych.
- R e a liz a c ja takiego aktywnego układu wycofywania nastręczy
n iew ątp liw ie szereg tru dności. Po pierwsze is to tn e je s t odpo­
wiednie dobranie parametrów regulowania wskaźników ważności
terminów, gdyż wskaźniki powinny być d ostateczn ie duże, żeby
były "wyczuwalne", le c z nie za duże, by nie powodowały poważ­
nych dj'sproporc.ji w p rzes trze n i dokumentów. Przypuszczalnie od­
mienne parametry muszą być stosowane do p o z y c ji,o których wia­
domo coś pewnego, na przykład a ocen użytkowników dotyczących
relew antności, inne natomiast wobec tych dokumentów, które wy­
bierane są jedynie sporadycznie z b liż s z ą lub dalszą lokatą w
•szeregu dokumentów stanowiących odpowiedź. Po dru gie, przy de­
gradowaniu dokumentów, tzn . gdy odsuwa sią je d a le j,a n ie z b l i ­
ża do pewnego obszaru, należy sp ec ja ln ie uważać, aby zapobiec
"zn ik n ię c iu " wektora, c z y li zredukowaniu wszystkich wskaźników
■vażnoścl do zera. ~3 szczegó ln o ści, 'crzeba n iek tó re terminy
-
1Д2 -
wzimacniać wtedy, g,dy irme są degradowane. Wykorzystać należy
w t e j s y tu a c ji procedury, za pomocą których automatycznie ro z­
poznaje s ią terminy dobrze w yróżniające i terminy n ie wyróżnia­
jące (terminy p osp olite^ ; d z ię k i takim; procedurom można spowo­
dować, żeby terminy n a jle p ie j wyróżniające były wzmacniane,przy
zmniejszaniu ważności innych terminów.
Procedury automatycznego wycofywania wymagają je s zc ze vfielu badań i eksperymentów. Sądząc z dobrych rezu ltatów uzyska­
nych na drodze dynamicznego modyfikowania wektorów pytań i do­
kumentów we wzajemnym oddziaływaniu użytkownik-system i na sku­
tek dodawania nowych dokumentów, można oczekiwać, że podobne
pozytywne wyniki zostaną o sią g n ięte przy wycofywaniu dokumen­
tów.
Układ w p e łn i dynamiczny należy jeszcze ponadto zbadać pod
względem kosztów. Oczywiście jakikolvfiek proces dynamiczny pizeprowadzany na zbiorach będzie wymagał pewnego dodatkowego apa­
ratu , który nie je s t potrzebny w układzie statycznym. Z drugiej
strony ponoszone obecnie koszty utrzymywania wciąż rosnących
zbiorów są ogromne, coraz tru d n iej także o wyszkolony personel
oraz po prostu o fizy czn ą p rzestrzeń do przechowywania dokumen­
tów. Zatem automatycznie kontrolowany układ dynamiczny w rodza­
ju przedstawionego może okazać s ię h a rd ziej umotywowany ekono­
micznie i tech n iczn ie, niżhy to się d z is ia j wydawało.
X X X
Ka zakończenie k rótk iej r e l a c j i z paru wybranych prac S a ltona warto przytoczyć jego 7?łasny wniosek i często
wyrażane
przekonanie, że właśnie stosowanie w tych zagadnieniach najpro­
stszych metod przynosi cenne,praktycznie użyteczne rezu ltaty i
to kosztem nieoczekiwanie n iew ielk ich nakładów pracy i środków
technicznych. Prezentowane przez niego prohlemj’ trzeba dalej
intensywnie badać, rozv?ijać i eksperymentować w ich zakresie,
z jednym zawsze naczelnym zadaniem maksymalnie skutecznej a za­
razem ekonomicznej obsługi uzytkovmikow.
- 1ЛЗ PE03L:2!^S or AUTO?;ATIC DIDEXIHG
S u m и a 'r у
Recent studies and experiraents in automatic indexing deve­
loped Ъу G.Salton at C ornell U n iversity are presented. In the
review the fo llo w in g s p e c ific prohlems are included: automatic
content a n alysis, indexing and c la s s ific a t io n , automatic d ic­
tio n a ry con stru ction, aynamio document processing.
ПРОБЛЕМЫ АВТОМАТИЧЕСКОГО ИНДЕКСИРОВАНИЯ
Резюме
В статье представлены исследования и эксперименты, прово­
димые Сальтоном в Cornell University В Области автоматизации
индексирования и поиска информации. Рассматриваются проблемы
автоматизации отдельных этапов этих процессов и конкретные ме­
тоды исследуемые с помощью компютеров: анализ содержания доку­
ментов, индексирование и классификация, составление словаря
/тезауруса/, динамическое индексирование.