SWA STOLARSKA BiLlioteka iiarodowa ZAGABNIEKIA
Transkrypt
SWA STOLARSKA BiLlioteka iiarodowa ZAGABNIEKIA
SWA STOLARSKA B iL lio te k a iiarodowa ZAGABNIEKIA AUTOMATYCZNEGO IlłDSKSOWAIłlA x) Badania i eksperymenty prowadzo ne przez G.Saitona na C orn ell Un iv e r s it y w d zie d zin ie automaty z a c ji indeksowania i wyszukiwania in fo rm a c ji. Prodlemy automatyza c j i poszczególnych fa z tych pro ce s6v/ i konkretne metody badane przy zastosov/aniu komputerów: a n a liz a t r e ś c i dokumentów, indek sowanie i k lasyfik ow an ie, tworze n ie słownika (tezau ru sa), indeksowranie dynamiczne. Prace badawcze i eksperymenty prowadzone od szeregu la t p rzez p ro f. G.Saitona na Wydziale Maszyn Matematycznych Cornell U n iversity w Stanach Zjednoczonych skupiają się wokół problemów autom atyzacji indeksowania dokumentów w systemie inform acyjno- wyszukiwav?ozym. Problemy te stanowią jedną z grup zagadnień, jak ie można wyróżnić wśród d zia ła ń ogóln ie określanych mianem autom atyzacji b ib lio te k . »? w iększości realizowanych obecnie w Stanach Z jednoczonych skomputeryzowanych systemów b ib lio te c zn y c h automatyzacją oh ję- Opracowano na podstawie wykładów p ro f. G.Saitona na I Konfe r e n c ji na temat Wyszukiwania Inform acji, w Jadw isinie i na Seminarium Automatycznego wyszukiwania In fo rm a cji i Prze twarzania Banych B iblioteczn ych w Warszawie w maju 1973 r . oraz artykułu G.oaltona "-Dynamie Document Processing" Com munications o f the ACIii, 1972 nr ? s. 658-ń68. - 124 to inne grupy problemów, jak akcesja i udostąpnianis lub proce dury związane z zamawianiem materiałów dla b ib lio te k czy spra wy adm inistracyjne. Jednak zdaniem Saltona, w tych kierunkach zastosowań maszyn matematycznych do systemów b ib lioteczn ych n ie udało sią dotychczas uzyskać rozwiązań w p e łn i efektywnycn i ekonomicznych. Salton sądzi natomiast, że is to t n ie warto pracować nad au tomatyzacją indeksowania dokumentów (oczyw iście w ścisłym po wiązaniu z maszynowym wyszukiwaniem in fo rm a c ji), nawet pomimo f a lt u , że i w tym kierunku prowadzone próby nie p rzyn iosły je szcze wyników rzeczyw iście zadowalających. Szczególn ie k rytycz n ie jednak odnosi się do eksperymentów nad automaiyzacją opisu zaw artości rzeczow ej dokumentów na drodze metod lin c w is ty c z nyoh, jak ie próbowano stosować do tre śc io w e j an alizy tekstów tycn dokumentów. VJyniki badafi przeprowadzanych w ostatnich la tach w różnych ośrodkach w zakresie lin g w is ty k i skomputeryzowa n ej wskazują na to , że prognozy osią g n ię c ia w tym kierunku i stotnego postępu są dosyć o d le g łe . Złożoność modeli rozbioru gramatycznego zdań sta je się coraz większa, ponieważ dąży się do dokładnego odzw ierciedlen ia za ich pomocą wszelkich bardzo złożonych struktur właściwych językowi naturalnemu. Eównocześn ie , im b a rd z ie j skomplikowane s ta ją się modele lin gw istyczn e, tym w yraźniejsza ich praktyczna nieprzydatność do wykonywania przez maszynę, a zatem, jak się wydaje możliwość stworzenia na t e j drodze operatywnego systemu coraz b a rd ziej s ię oddala.Jeś l i na przykład do automatycznej an alizy i prawidłowego ro zb io ru gramatycznego 1DC zdaf języka naturalnego niezbędne je s t k ilk a ty s ię c y reg u ł, to przy następnych 100 zdaniach może się okazać potrzebne opracowanie i wprowadzenie do maszyny kilku ty s ię c y nowych reg u ł, zatem ilo ś ć o p e ra c ji wzrasta astronomicz n ie . Is to tę trudności metod an alizy lin g w isty czn ej można spro wadzić do faktu, że informacje znaczeniowo identyczne mogą być Przez system b ib lio teczn y (" lib r a r y system "' rozumie się tu t a j . zgodnie z term in ologią amerykańską, w s z e lk ie ' sysuemy informacyjne d zia ła ją ce w oparciu o zbiory b ib lio te c z n e . - 125 przeds-fcaiviane p rzez różne struktury syntaktyczne, np."Jan zja d ł jab łk o" i "Jabłko zo sta ło zjedzone przez Jana", oraz odyn^otnie - za pomocą identycznej struktury syntaktycznej prezentowane są inform acje semantycznie odmienne, stosunkowo największą efektyw ność rokują gramatyki transform acyjne, jednak n ie zaprojektowa no jeszcze d la żadnego języka ta k ie j gramatyki w p e łn i zautoma tyzowanej. Według Saltona dla potrzeb dokumentacji, wyszukiwania in form a cji 1-przetwarzania danych b ib lio teczn y ch n ie ma w is to c ie konieczności sięgan ia do teik bardzo skomplikowanych metod ana l i z y lin g w is ty c z n e j. Ketody ta k ie są natomiast niezbędne w n rzek ła d zie maszynowym, automatycznym sporządzaniu abstraktów i w systemach dających fa k to g ra ficzn e odpowiedzi na p yta n ia ^ \ Jeszcze jedną tendencją zarysowującą s ię w podejm.owanychna św iecie próbach opanowania zalewu informacyjnego są tak zwane " b ib lio t e k i p r z y s z ło ś c i" . Jednakże koncepcje k ryjące się pod tym pojęciem i prowadzone w tym kierunku badania także nie zys kały pozytywnej oceny Saltona, je s t to bowiem według niego zu pełna fu tu r o lo g ia . Przypomnijmy, że "bibliotekom p rz y s z ło ś c i" p o ś w ię c ił swoją książką J .G .fi.L ic k lid e r ^ ^ ’' . Idea " b ib lio t e k i p rz y s z ło ś c i" polega na maksymalnie zracjonalizowanym r e je s t r o waniu wiedzy lu d zk ie j od razu na nośnikach maszynowych,bez po średnictwa konwencjonalnych dokumentów w ja k ie jk o lw ie k " f i z y c z nie widomej" form ie. .Viedza ludzka je s t automatycznie odpowied n io organizowana, a sam j e j "korpus", tzn . sama ty lk o is to ta wiedzy (wiedza is to tn a ) je s t następnie kumultowana i przechowy wana już ty lk o w pamięci maszynowej. Uależy przy tym zauważyć, że zarówno metoda organizowania tego "korpusu" w iedzy, jak i metoda oraz tryb dostępu do n ie j są wysoce, wprost id e a ln ie . te o s ta tn ie , c z y li systemy fa k to g r a fic z n e , są nazywane sy stemami wyszukiwania faktów albo danych (data r e t r i e v a l ' w przeciw ień stw ie do systemów wyszukiwania in fo rm a cji o do kumentach albo dokumentów i document r e t r i e v a l ) , о jak ie chodzi w badaniach Saltona: systemy odpowiadające na pyta n ia wprost .c z y li fak tam i' są często określane symbolem QAS iQuestion Answering System '. г-т' tłumaczenie polsk ie "B ib lio te k p rz y s z ło ś c i" L ic k lia e ra zo s ta ło wydane przez P'Jk w r. - 126 - udoskonalone, j e ś l i próbować je odnieść do metod i tech n ik i nie ty lk o znanych obecnie, le c z także nadających s ię już obecnie do praktycznej e k s p lo a ta c ji. P r o b l e m y s z c z e g ó ł o w e Przedmiotem prac prowadzonych p rzez Saltona je s t doskona le n ie procesów automatycznego oznaczania (o d zw ie rc ie d la n ia )rze czowej zaw artości dokumentów metodami empirycznymi, w n ieod łą cznym powiązaniu z automatycznym wyszukiwaniem in fo rm a cji o do kumentach, w celu maksymalnego zwiększenia e f ektyvmosci i eko nomiki tych procesów. Rozważa s ię i bada eksperymentalnie mię dzy innymi następujące problemy szczegółowe: - an aliza zaw artości dokumentów; klasyfikow anie dokumentów metodą tworzenia grup dokumentów powiązanych tematycznie jJ^^sutornatyczne indeksowanie: wskaźniki ważności^^\ współczyn n ik i a s o c ja c ji, statystyczna asocja cja terminów i indeksowa n ie asocjacyjne; - an aliza strukturalna języka, obejmująca strukttiry f r a z , me;tody fr a z syntaktycznyoh i dobieranie graficzn ych reprezen t a c j i zdań języka naturalnego; - tworzenie słownika, w tym prawidła konstrukcji tezaurusa, słowniki terminów według ich mocy w yró żn ia ją cej, grupowanie znaczeniowe terminów, pseudoklasyfikacja i słownik dynamicz ny; - modyfikacja (przeformułowanie) pytań zależn ie od wyników wy szukiwania na zasadzie sprzężenia zwrotnego z użytkownikami; ^'dynamiczne indeksowanie dla p a r t ii pytań na zasadzie sprzę żenia zvTTotnego z użytkownikami; XX w języku angielskim używa się tu określenia "c lu s te r s ", oznaczającego dosłownie "kępy"; zasady takiego grupowania ("c lu s te r in g "^ t j . tworzenie kęn' bywają definiowane ro z m aicie. nazywane także wskaźnikami -wag. - 127 - dynamiczne organizowanie zbioru informacyjnego w tr y b ie on- l i n e , c z y l i bezpośredniego dostąpu do maszyny; t e o r ia sprzążenia zwrotnego relew antn ości; m odyfikacja pytań i "p rze s t r z e n i" dokumentów w związku z "narastaniem", t j . przybywaniem, oraz d ezak tu alizacją dokumentów w zb iorze informacyjnym. Bo zakresu badań Baltona należą także metody oceny wyników wyszukiwania, jak miary kompletności i dokładności oraz proce dury ich wyznaczania, uśrednianie współczynników efektywności i t d . ; przeprowadzono między innymi an alizą poró^raawczą efektyw ności wyszukiwania w systemie SblAHT i w systemie IffiDLAES•Pr^ed przystąpieniem do b liżs ze g o omówienia niektórych wybranych za gadnień trzeb a wyjaśnić, że wszystkie eksperymenty prowadzone p rzez Baltona są oparte na tekstach a n a liz dokumentacyjnych(ab strak tów ), nazywanych d a le j umownie d la uproszczenia "dokumen tam i". A n a l i z a z a w a r t o ś c i d o k u m e n t ó w Automatyczna procedura an alizy składa sią z następujących, k olejn o wykonywanych fa z : - rozpoznanie poszczególnych słów i konwersja tek stu na zbiory -słów form alnie identycznych; - elim in acja słów funkcjonalnych n ie niosących sam odzielnej t r e ś c i, jak przyim ki, sp ó jn ik i i t d . ; w języku angielskim ta kich słów je s t około 200; ich l i s t ę wzorcową wprowadza się do pamięci maszyny; - zredukowanie słów do rdzen i p rzez porównanie ze słownikiem przyrostków i przedrostków, zapisanym w pamięci maszyny; przy porównywaniu przeglądanie słów odbywa się od strony prawej do le w e j, a celem uzyskania właściwych rd zen i proces je s t * powtarzany rekursywnie; np. d la słowa "e ffe c tiv e n e s s " po pierwszym porównaniu z l i s t ą przyrostków nastąpi o b cięcie —ness, po drugim - iv e , wtedy dopiero otrzyma sią właściwy rdzeń " e f f e c t ” ; n iek tóre rdzen ie mają odmiany, co nastręcza - 128 - szereg trudności przy procedurze automatycznej, np. "analy s is ” i "a n a ly zer" trzeb a sprov/adzic do wspólnego rdzen ia " analy"; komasacja rd zen i, o b lic ze n ie i dołączenie do każdego rd2^enia wskaźnika frekwenoyjności, t j . lic zb y wystąoień danego rdzenia w analizowanym te k ś c ie ; wskaźnik ten stanowi tzw.waż ność terminu w badanym dokumencie; w wyniku - d la każdęgo dokumentu D otrzymuje s ią następujący wektor: Б = (t^ . “2’ gdzie t^ do t^ są symbolami identyfiku jącym i poszczególne rdzenie terminów, powiązanymi z odpowiednimi wskaźnikami waż ności; następnie można zbadać k o re la c je wspólnych wystąpień terminów pojawiających się n a jc z ę ś c ie j w całym zb iorze dokumentów oraz w poszczególnych dokumentach; terminy można także fakultatyw nie porównać ze słownikiem umownych synonimów, w którym terminy wzajemnie skojarzone po wiązano we wspólne klasy p o ję ć ; klasa pojęć je s t w tym przy padku pojmowana bardzo szeroko, gdyż na przykład klasę pod nazwą "m eteorologia" tworzy zestaw pojęć w rodzaju "w ia tr ", "gra d ", "d e s zc z", "burza" i t d , , w wyniku porównania ze słow nikiem synonimów nastąpi zamiana terminów na klasy p ojęć; na podstawie słownika fra z terminy w wektorach dokumentów za stępowane są frazam i: słownik fr a z je s t także przechowywany w pamięci maszynowej i zawiera pary, t r ó jk i lub czwórki t e r minów z przyporządkowanymi im odpowiednio pojęciam i prostymi, np. słowo "ję z y k " i występujące z nim razem słowo "program" będzie za pośrednictwem słownika zastąpione pojęciem "ję zy k programowania" pod warunkiem jednak, że w ystąpiły n ie ty lk o w jednym dokumencie, ale w jednym zdan iu ,! to obok s ie b ie ; dla zv7iększenia poprawności p rzyd ziału fr a z należałoby je s z cze przeprowadzić analizą syntaktyezną; język a n g ie ls k i je s t językiem pozycyjnym i wyrażenie "Venetian b lin d " (d o s ł.: we necka zasłona c z y li ża lu z ja ) oznacza zupełnie coś innego n iż "b lin d Venetian" (ślepy '.Venec ja n in ). 129 V/ zv/iązku z automatycznym analizowaniem zaw artości dokumen tów i indeksowaniem przez maszyną Salton s tw ie r d z ił, że jaka kolwiek metoda przypisywania ważności terminom daje lepsze wy n ik i wyszukiwania, n iż stosowanie samych ty lk o terminów; tą os ta tn ią metodą Salton nazywa "wagami dwójkowymi" w znaczeniu podziału dwuwartościowego na: " j e s t termin" luh "n ie ma term i nu". Zbadano eksperymentalnie, że niekiedy system porównywania ważności może poprawić kompletność i dokładność vryszukiwania nawet o ЗОЙ. Przy wyszukiwaniu in fo rm a c ji w zbiorach z zakresu spraw międzynarodowych dziennika Times d zię k i wskaźnikom ważno ś c i uzyskano pewną określoną poprawę kompletności i znaczną po prawę dokładności. Jednakże, gdy przeprowadzono analogiczny eksperyment na zb iorze dokumentów z innej d zied zin y , konkretnie w systemie ItSBLAES (K edical L ite ra tu re An alysis and H e tr ie v a l Systems), okazało s ię , że wskaźniki ważności n ie p rzyn iosły po prawy parametrów efektywności wyszukiwania. Zatem skuteczność systemu ważności je s t uzależniona także od d zied zin y , w k tó re j prowadzimy wyszukiwanie. Inna metoda przypisywania ważności terminom zwana "in w ersyjną frekv;enoyjnośoią dokumentów" IDP (in verse document f r e quency^ op iera się na przeciw nej p rzesłan ce. Wskaźnik ten wyra ża s ię formułą: IBP = DP g d zie DP je s t to lic z b a dokumentów danego zbioru, w których wy stępuje rozważany termin. Powyższa formuła daje s ię łatwo zin terpretować zgodnie z in tu ic ją : im c z ę ś c ie j pewien termin poja wia s ię na obszarze całego zb ioru dokumentów, tym m niejsza jego moc wyróżniająca, zatem m niejsza waga w tym z b io rz e . Obie metody przypisywania wag terminom nie są jednak zda niem Saltona zbyt skuteczne. '.Yłaściwie powinno s ię obliczać roz kład frekwencyjności poszczególnych terminów w pojedynczych do kumentach na obszarze całego zbioru , przy czym terminy, których frelc7.'encyjność w różnych dokumentach je s t mniej w ięcej jednako wa, tzn. gdy krzywa rozkładu przebiega płasko, n ie mają dużej mocy wyróżniającej w tym zbiorze. Podobnie termin rzadko wystę— - 130 pujący na p rz e s trze n i zbioru, tzn . Tjystępujący choćby nawet z dużą stosunkowo frekwencyjnością, a le w bardzo n ie lic zn y c h do kumentach, te ż n ie Jest dobrze w yróżniający. H ajlepsze pod wzglądem mocy v7yróżniania są terminy, dla których krzywa ro z kładu frekwencyjności na obszarze zbioru p rzeb ie g ^ poziomo-zygzakowato. Takie terminy otrzymują najwiąksze wskaźniki ważnoś c i . Dla paru dziedzin (aerodynamika, medycyna, sprawy międzyna rodowe) obliczono i sporządzono wykazy po 10 terminów n a jle p ie j wyróżniających i 10 n a jgo rzej wyróżniających w indeksowaniu. Ogólny wniosek postawiony przez Saltona brzmi, że indeksowa n ie automatyczne n ie zawsze daje wyniki lep sze, n iż iudeksowan ie przez człowieka - je s t to zależne od stosowanych metod. ^ A u t o m a t y c z n e k l a s y f i k o w a n i e ^ swoich badaniach Salton v?prowadził p o ję c ie g ę s to ś c i prze s trze n i dokumentów, d e fin iu ją c ją jako średnie podobieństwo wek torów dokumentów w danym zb io rze , lub mówiąc in a c z e j,ś re d n i wek t o r dokumentu w tym zbiorze wyrażający się o d le g ło ś cią średnią wektorów od centroidu, t j . "merytorycznego środka" p rzes trze n i. Gęstość p rz e s trze n i dokumentów zmienia s ię w za leżn ości od układu terminów indeksowych v; wektorach. J e ż e li do pewnego zb io ru wektorów dodać jak iś nowy termin indeksowy o małej mocy wy różn iające j,.to wtedy gęstość p rz e s trze n i zwiększa s ię , co nie je s t korzystne d la wyników wyszukiwania. J e ż e li natomiast przez dodanie pewnego dobrze wyróżniającego terminu indeksowego gę stość zmniejsza s ię ,to będzie to korzystneJOgólnie mówi s ię , że gęstość p rz e s trze n i dokumentów ma pewną wartość optymalną, za leżną każdorazowo od danego zbioru i układu terminów indeksov/yoh. ^ Powracając do metod przypisywania terminom wskaźników waż ności,oprócz trzech wymienionych (frebwencyjność, IDP, moc wy ró żn ia ją c a ) is t n ie ją jeszcze inne, przede wszystkim kombinacje dwóch lub trzech podstawowych. Stosuje się na przykład wskaźni k i ważności wyrażone formułą; - 131 frekwencyjność x 1БР а1Ъо: wskaźnik mocy w yróżn ia jącej + frekwencyjnośe x IDP 1иЪ inne je s zc ze kombinacje. I J e ś li chodzi o podobieństwo dokmentów v/yraża s ię ono n aj c z ę ś c ie j współczynnikiem równym fu n k c ji n astępu jącej; „ __ lic z b a terminów wspólnych lic z b a terminów odmiennych 'Jychodząo od tak obliczanego współczynnika podobieństwa, a na stępnie u s ta la ją c dla niego pewną wartość graniczną (empirycz n ie ) można wyznaczyć wzajemne powiązania dok\mentów, odwzoro wać g r a fic z n ie s ie c i powiązań, a na koniec uzyskać ich likład k la s y fik a c y jn y . Klasa je s t w tym przypadku definiowana jako ta k i podzbiór, w Ictórym wszystkie obiekty są wzajemnie powiązane w szczególny sposób, tzn . każdy z każdym. O b liczając w analogiczny sposób współczynniki podobieństwa I terminów na podstawie ich równoczesnego (wspólnego) występov;an ia VT dokumentach, można p rz e jś ć do tworzenia k la s pojąć tezau rusa. Procedury te są jednak według o p in ii Saltona bardzo skom plikowane i kosztowne. K rytycznie również ocenia Salton w ła ści wie wszystkie te o r ie i metody automatycznego k lasyfikow ania opisane w lit e r a t u r z e . Są one jego zdaniem nieużyteczne i nie do praktycznego wykorzystania przede wszystkim ze względu na konieczność wykonywania ogromnych i l o ś c i operacji,w yrażających s ię funkcjami wykładniczymi. J e ż e li n oznacza lic z b ę p o zy c ji (powiedzmy łączną lic z b ę te.rminov/ w wektorach dokumentów k lasyfikov/anego z b io r u ), to lic z b a o p e ra c ji porównywania wymaganych p rzez procedtirę maszynową może być równa za le żn ie od metody: 3^'^^, n^ albo n^. K ilk a aktualnie dyskutowanych kon cep cji Sal— ton ocenia wprawdzie jako niedoskonałe, le c z warte eksperymen towania, a wśród nich algorytm Eocchio. 'Jedług tego algorytmu w zb iorze dokumentów (tu w znaczeniu zbioru wektorów dokumen tów^ przeprowadza s ię tzw, te s t g ę s to ś c i, którego is t o t ę można przedstawić w p rzyb liżen iu za pomocą pytania: "czy is t n ie je co najm niej n dokumentów powiązanych z dokumentem rozwazany'm - 132 pofiobieństwem równym lub większym od p?” . J e ż e li tak, znaczy t o , że dokument spełnia warunek i że "wokół" tego dokumentu należy o k r e ś lić grupą tematyczną: j e ż e l i warunek nie je s t speł niony, wówczas ten dokument p ozo staje "lu źn y", w powtarzanych relmrsyTmie przebiegach t e j procedury pomija s ię dokumenty już uprzednio u ję te w grupy. Яа koniec pozostałe luźne dokumenty dołącza s ię do optymalnie pasujących grup już utworzonych i ob l i c z a cen troid dla każdej grupy, V7reszcie, aczkolwiek fa k u lta tywnie, przeprowadza się poróvmanie dokumentów z obliczonymi oentroidami i w r a z ie potrzeby dokonuje s ię r e d e f i n i c j i grup. 'Jykonanie t e j procedury wymaga także dość dużej li'.'zby opera c j i ; w najlepszym ra z ie lic z b a ta będzie równa n Icgn. Według jeszcze innej metody automatyczną k la s y fik a c ję roz poczyna s ię od wrstępnie założonych grup, a następnie drogą au tomatycznych ob liczeń podobieństwa przeprowadza s ię ich dosko n a len ie. I lo ś ć o p e ra c ji je s t wtedy znacznie mniejsza w porówna niu z innymi metodami. Kodyfikowanie pierw otnie p rzyjęty ch grup powtarza s ię tak długo, aż osiągn ie s ię stan zb ieżn o ści czy sta b iln o ś c i n ie wymagający już dalszych przesuwać dokumentów mię dzy grupami. Is t n ie je jeszcze ewentualność przeprowadzenia t e go rodzaju korektury grup metodą jednoprzebiegową, wymaga to jednak ro ’flnoczesnego dynamicznego kontrolovfania lic z b y grup, lic ze b n o ś c i grup oraz stopnia nakładania się grup na s ie b ie , co oczywiście nieporÓTraanie komplikowałoby procedurę maszynową. A u t o m a t y c z n e t i v o r z e n i e s ł o v; n i к a Stwierdzono, że przy redukoxvaniu terminów indeksowych do rdzeni słów w porównaniu z metodą stosowania terminów ze słow nika in a czej rozk ład ają się parametry efektywności vfyszukiwania, t j . wskaźnik kompletności i wskaźnik dokładności; dokładność je s t wprawdzie stosunkowo duża przy mniejszych wskaźnikach kom p le tn o śc i, jednak przy dużej kompletności dokładność znacznie - 133 sp ad a,i to wyraźnie pon iżej dokładności dla metody indeksowa n ia ze słownikiem. Wskazuje to na celowość budowania słowni ków, który to proces może być vrykonywany automatycznie, przy użyciu starannie zaprojektov/anych, sprawdzonych i odpowiednio zaprogramowanych re g u ł. K oźliw ości doboru adekwatnego zestawu regu ł są dość duże. Należy przy tym pamiętać, że jak wynika z wypowiedzi Saltona, k lasa p ojęć w tego rodzaju słowniku czy te zaurusie je s t rozumiana bardzo szeroko. Zawsze ob liczan a je s t frekwencyjność i dystrybucja frekw encyjności w zb io rze dokumen tów; w wyniku tych o p e ra c ji szeregu je się terminy według ich mocy r o z r ó ż n ia ją c e j. W ten sposób powstaje wykaz terminów т/edłu g mocy w y ró żn ia ją cej. Oto k ilk a dalszych regu ł budowania Rów nika (nazywanego przez Saltona tezaurusem); - elim in u je s ię terminy o szc ze gó ln ie małej frekw encyjności; - terminy o bardzo dużej frekwencyjności'są albo również elim in o wane, albo p ozostają jako klasy same dla s ie b ie , nawet je ż e l i mają synonimy podlegające regu le p ie rw s ze j; - elim in u je się terminy n ie posiadające własnegc specyficznego znaczenia, np. metoda, system i t p . ; - terminy wieloznaczne zo s ta ją umieszczone w ty lu klasach, i l e mają różnych znaczeń; - klasy umownych synonimów konstruuje s ię tak, aby oczekiwana frekwencyjność sumaryczna n a -p rze s trze n i zbioru b y ła d la każ dej z klas w p rzy b liże n iu taka sama. Reguła umownej synonimii mówi, że stopień podobieństwa t e r minów ma być większy lub równy pewnej założon ej w ie lk o ś c i gra n ic z n e j; terminy pokrewne (s k o ja rzo n e ), nadrzędne i podrzędne są zdefiniowane jako ta k ie , dla których stopień podobieństv/a je s t mniejszy od w ie lk o ś c i g ra n ic zn e j. Nasuwa s ię tu oczywiś c ie szereg dalszych pytań, np. czy można wnioskować, że j e ż e l i termin pokrewny je s t stosunkowo rzadko stosowany, to oznacza, że je s t b a rd z ie j sp ecyficzn y, zatem podrzędny? O statnio były prowadzone próby dynamicznej k on stru k cji tezaurusa; wynikom łych eksperymentów poświęcono jeden z ostatnich raportów C orn ell U— n iv e r s it y . - л 3k I n d e k s o w a n i e d y n a n s i c z n e Jednym z n a jb a rd ziej widocznych niedostatków konwencjonal nych systemów wysziikiwania je s t statyczny, sztywny charakter o rg a n iza c ji i układu całego zbioru informacyjnego. 'Я systemach indeksowania automatycznego operacje przeszukiwania i wyszuki wania można u elastyczn ić b iorąc pod uwagą następujące aspekty: 1) każdy tiżytkownik systemu je s t potencjalnym źródłem informa c j i , jak ie mogą być pomocne przy obsługiwaniu innych użytkowni ków i jak ie można zachować celem spożytkowania w przyszłych operacjaoh systemu; 2) zmiany składu p op u lacji użytkowników mo gą znajdować swoje odbicie w odpowiednich zmianach o rg a n iza c ji dokumentów; 3) w przechowywanych zbiorach in form acji możliwe je s t na drodze prostych procedur dokonywanie zmian związanych z dodawaniem nowych p o z y c ji i usuwaniem zbędnych. IV e la s ty c z nym systemie realizowana je s t więc kontrola układu danych w zbiorach ze wzglądu na użytkowników i ze wzglądu na narastanie oraz d ezaktu alizacją samych zbioróię. Wszelkie modyfikacje da nych indeksowych odbywają sią w’ toku zwykłych o p e r a c ji systemu; tak zmiany pierwotnych sformułowań pytań, jak i "przesu n ięcia" danych indeksowych odnoszących się do dokumentów dokonywane są na drodze sprzężenia zwrotnego z użytkOvTOikami lub opera torami systemu, c z y l i na podstawie in form acji uzyskiwanych b ie żąco podczas funkcjonowania systemu. Przy inw ersyjnej o rg a n iza c ji zbiorów, jaką n a jc z ę ś c ie j się stosu je, bieżące wprowadzanie jakichkolwiek zmian danych indeksołTyoh związanych z pytaniami lub z dokumentami je s t utrudnio ne, ponieważ ani kartoteka inwersyjna, ani na ogół zb ió r opi sów b ib lio g ra fic zn y c h nie zaw ierają pełnych -wektorów ,i t j . kom pletnych zestawów terminów dla poszczególnych dokumentów. VJ sy stemie uzyskuje s ię żądaną elastyczność przez grupową organ izację zbiorów (clu stered f i l e org a n iza tio n )j'w k tó re j do kumenty o podobnych w pewien sposób wektorach stanowią Salton’ s I.agical Automatic R e trie v e r of Tents. grupy - 135 (c lu s t e r s ). Każda grupa je s t reprezentowana przez p r o fil,w pevłnym sensie analogiczny do środka c ię ż k o ś c i. Jest to mianowicie zb ió r terminów "ważonych", tzn . opatrzonych wskaźnikami ważnoś c i , reprezentatywny d la dokumentów zawartych w danej gru p ie.P o szukiwanie w tak zorganizowanym zb io rze odbywa się następująco: najpierw każde pytanie zo s ta je porównane z p ro fila m i wszystkich grup. Dla tych p ro filó w , które wykazują d ostateczn ie duże podo bieństwo, przeprowadza s ię następnię badania wektorów poszcze gólnych dokumentów w odnośnych grupach, w v;yniku czego w odpo w ied zi otrzymuje s ię opisy dokumentów uszeregowane według male jącego podobieństwa pytanie-dokument. Uszeregowanie dokumentów w odpowiedzi pczvcala użytkownikowi wykorzystać ty lk o pozycje n a jb a rd zie j zbieżne z pytaniem, pojaw iające s ię pierwsze na l i ś c ie . W zdolność szeregowania odpowiedzi można, wprawdzie wyposa żyć także konwencjonalny układ wyszukiwawczy, Щ is to tn ą z a le tą układu grupowanego je s t znaczna oszczędność i l o ś c i o p e ra c ji wy szukiwania, zim ie js ze n ie obszaru pamięci wymaganej do pomiesz czen ia zbiorów oraz um ożliwienie przeszukiwania elastycznego ze sprzężeniem zwrotnym. Celem udoskonalenia pierwotnego sformułowania pytania użyt kownika w toku o p e ra c ji wyszukiwania można zastosować wifele róż nych metod. •Vięc np. przedstaw ia s ię użytkownikowi słownictwo w różnorodnych układach, ażeby mu dopomóc w doborze właściwych terminów do wyrażenia jego potrzeb informacyjnych; zviykle przed stawia się pod rozwagę użytkownika zestaw terminów synonimicznych lub pokrewnych w stosunku do każdego terminu występujące go w pierwotnym sformułowaniu pytania wyszukiwawczego. A ltern a tywnie, pierwotnego sformułowania pytania można użyć do prze prowadzenia wyszukiwania próbnego, a następnie podać użytkowni kowi inform acje o niektórych spośród wyszukanych dokumentów,np. ich ty tu ły , an alizy dokinnentacyjne, a to celem u łatw ien ia u ży tkovmikovii n a jb a rd zie j trafn ego p rzek szta łcen ia p ytania. Preferowana metoda zmiany pytania stosowana w systemie SMAET znana je s t pod nazwą sprzężenia zwrotnego relewantności (relevan ce feed b ack ), gdyż pytania modyfikuje s ię automatycznie na podstawie dostarczonych p rzez użytkownika o p in ii o relew ant n ości uprzednio wyszukanych dokumentów. Zgodnie z założeniem - 136 procesu sprzężenia zwrotnego relev/antnosci, dla każdego pyta n ia wpłyTfającego do systemu przeprowadza się najpierw wyszuki wanie początkowe. l»iew ielką część wydanych dolrumertów o najwyż szych wskaźnikach podobieństwa przedstawia s ię następnie użyt kownikowi z prośbą o u s ta le n ie, czy dokumenty te są relewai?fcne (E ), czy te ż nierelewantne (S ) z punktu widzenia jego potrzeb informacyjnych. Oceny użytkownika wracają do systemu celem au tomatycznego wykorzystania do poprawienia pytania v/yszukivfawczego; przeprowadza się to w ten sposób, że terminy występują ce w dokumentach relewantnyoh zo s ta ją "awansowane" (p rzez zsri.ększenie ich ważności'', natomiast terminy występujące w dokumen tach nierelewantnych zo stają równocześnie "zdegradowane". Бокиmenty relewantne określone przedtem jako E oraz dokumenty n ie relewantne S służą następnie do nowego sformułowania pytania q ', o którym sądzi s ię , że będzie b a rd z ie j, n iż pierwotne pyta n ie q, podobne do dokumentów relewantnyoh, a mniej podobne do dokumentów nierelewantnych. Przeprowadzona ocena efektów procesu sprzężenia zwrotnego relewantnośoi dowodzi, że spośród różnych metod wyszukiwania z' in tera k cją , sprzężenie zwrotne relewantnośoi daje n ajlepsze wy n ik i, a równocześnie je s t najmniej u ciążliw e d la użytkownika. Sprzężenie zwrotne relewantnośoi pozwala uzyskać poprawą efek tów wyszukiwania nawet do 45S we wskaźnikach kompletności i do kładności. Opisany proces zmiany pytania można rozszerzyć następnie na doskonalenie samych wektorów dokumentów na drodze "awansowania" tych dokumentów, które zostały ocenione jako relewantne. koźna mianowicie spowodować, aby te dokumenty były w p rz y s z ło ś c i ł a t w ie j dostępne, t j . ła tw ie j wyszukiwane, przez spov/odowanie by ich elementy wyszukiwav/cze były b a rd ziej podobne do p r o filu py tan ia na które były odpoy/iedzią. A n alogiczn ie, dokumenty poda ne w odpowiedzi, a określone jako nierelewantne, degraduje się czyniąc je tru d n iej dostępnymi p rzez "odsunięcie" d a le j od py tan ia. Iilożna wnioskować, że w wyniku w ie lk ie j lic z b y takich wzajemnych oddziaływań, dokumenty pożądane przez użytkowników będą pov/oli przesuwane do aktywnej c zęści p rzes trze n i dokumen tów, tzn. do t e j c zę ś c i, na k tó re j koncentruje s ię dużo pytań; - 137 natomiast pozycje dyskwalifikowane przez użytkormików bąóą prze suwane na krańce, z których można je w końcu usunąć. Z r e a liz o w a n o i sp ra w d zo n o p r o c e s m o d y fik o w a n ia p r z e s t r z e n i dokumentów s t o s u j ą c n a s t ę p u ją c ą m e to d ą : a ) wektor dokumentu, określonego w toku procesu sprzężenia zwrotnego jako relewantny, je s t zmieniany przez dodanie term i nów z pytania luh przez powiększenie ważności terminów występu jących równocześnie w wektorach dokumentu i pytania, natomiast w stosunku do terminów dokumentu n ie występujących w pytaniu następuje zm niejszenie ich ważności przez p rzypisanie im n iż szych wskaźników ważności; h ) an alogiczn ie postępuje s ię w odniesieniu do dokumentów określanych jako nierelew antne, zm niejszając ważności terminów dokumentu występujących równocześnie w wektorze p yta n ia ,a zwięk szając wagi terminóv/ dokumentów n ie występujących w pytaniu. Procedurę tę sprawdzono używając do zmodyfikowania pewnej p rz e s trze n i dokumentów zestawu 125 pytań użytkowników, następ nie nowy zestaw 30 pytań przetworzono najpierw w stosunku do pierw otnej p rz e s trz e n i dokumentów, tzn . sprzed m od yfik acji wek torów, a potem w stosunku do p rz e s trz e n i zmodyfikowanej w wyni ku przetwarzania w cześniejszych 125 pytań. Okazało s ię , że wy n i k i wyszukiwania w p rz e s trze n i zmodyfikov;anej są o 3^ lep sze, j e ś l i chodzi o kompletność, a o B'o pod względem dokładności w porównaniu z wynikami uzyskanymi przy p rzes trze n i p ierw o tn ej. Praktyczne stosowanie opisanej procedury będzie możliwe wtedy, gdy proces modyfikowania p rz e s trze n i dokumentów będzie s ta łą w łaściw ością systemu, ponieważ uzyskanie równov;agi zb io rów może wymagać w ielu ty s ię c y zmian wektorów dokonywanych przez w ie le 1st. R ealizu jąc omówioną wyżej modyfikację przestrzen i dokumen tów w odniesieniu do zbioru grupowanego, trzeba rozT/iązać kwe s tią postępowania z pro filam i grup, i u s t a lić czy i jak js mo dyfikować w miarę zmian wektorów dokumentów w odpowiednich gru pach. J eślib y każdy p r o f i l zdefiniować prosto jako sumę wszy stkich wektorów dokumentów zawartych w danej grupie,wtedy każ dy wektor p r o f i lu będzie zaiTierał 7/ielsset różnych terminów, a różnice między wskaźnikami ważności poszczególnych terminów 138 bądą bardzo różne. Jednakże wektory długie są niepożądane ze wzglądu na vfzrost kosztu przechowywania, a n ie je d n o lity rozkład wskaźników ważności powoduje trudności przy porównywaniu p r o fi lów z welrtorami dokumentów i pytań. iVyniki prób przeprowadzonych z rozmaicie zdefinio7.-anymi p ro filam i wskazują na to , że n a jle p sze efekty osiąga sią przy krótkich wektorach p ro filó w , gdzie zachodzą tylko nieznaczne wahania ważności przypisanych termi nom, Jak się wydaje, najważniejsze są następujące warimki: a'' wskaźniki ważności p rofilów powinny być obliczane ze stopnia frekwencyjności terminów {frequency ran ks), a nie na podstawie całkowitych zsumowanych frekwencyjności terminów; zatem termin 0 n a jn iżs ze j frekwencyjności otrzymuje wskaźnik ważności 1,t e r min o frekwencyjności następnej co do w ielk ości otrzymuje wskaź nik ważności 2 i t d . ; b ) do 803 terminów p r o filu mających naj n iższe wskaźniki ważności można w yk reślić, ponieważ efektywność przy takich zredukowanych p ro fila c h je s t w zasadzie równa efek tywności przy p ro fila c h pełnych, taik pod vfzglądem kompletności, jak i dokładności; c ) wagi przypisane teinainom p r o filu mogą hyc z układu standardowego, oo dodatkowo daje oszczędność miejsca przechowywania, ponieważ pełny rozkład wskaźników ważności zo s ta je zastąpiony przez ty lk o c zte ry różne klasy i każdy termin otrzymuje ty lk o jeden z czterech możliwych odmiennych wskaźni ków Y^ażności P r o file otrzymane w wryniku takich przekształceń są k rótk ie i mają je d n o litą charakterystyką pod względem v\ag. Zmniejsza się w ten sposób koszty przechowrj'wania p ro filó w i upraszcza manipulowanie nim i. l a skutek zmian w v/ektorach doku mentów doKonywanych na podstawie pytań i oceny użytkownikÓYj,jak to wyjaśniono poprzednio, odnośne p r o f ile staną s ię z czasem nieefektywne jako rep rezen tacja danej grupy dokumentów. 'Wypró bowano wobeo tego procedurę zmiany p r o filu , według k tó r e j za każdym razem, gdy zmienia sią wektor dokiunentu relewantnego przez dodanie (albo przez zwiększenie vTskasnika ważności) jed nego lub w ięcej terminów na podstawie pytania użytkovmika, te s-’me terminy zo sta ją tak samo wykorzystane do a k tu a liz a c ji ko1 .pondującego p r o filu grupy. V7skaźnik ważności wrszystkioh te r minów n r o filu występujących rÓYmież w pytaniu użytkoYmika zosta je powiększony o jeden; terminy pytania nie występujące przed- - 139 tem w p r o filu dodaje s ię do wektora p r o filu . Poprawa e fek ty ra o ści przy zb io rze w ten sposób zmodyfikowanym w yniosła prawie 10"5. W miarę narastania zmian dokonywanych w p rz e s tr z e n i doku mentów na drodze wymienionydh procedur niezbędne s ta je się prze suwanie całych dokumentów z grupy do grupy. Przegrupowania są także związane z dodawaniem nowych dokumentów i usuwaniem pozy c j i zbędnych. Przegrupowania są pracochłonne, ob liczon o jednak, że je s t to niezbędne, gdy 50,* wektorów dokumentów w zbiorze zo s ta ło zmodyfikowane lub nowo wprowadzone, ponieważ efektyv.'ność spada wówczas o około li%. Przy 75/Ь zasięgu a k tu a liz a c ji wektorów spadek efektywności s ię g a 8*. W okresach między dokonywaniem przegrupowania zapisy można aktualizować zm ieniając stopniowo wektory p ro filó w w miarą wpro wadzania nowych dokumentów do grup. Is t n ie ją tr z y metody postę powania; a) nov^e dokumenty k ojarzy s ię z n a jle p ie j pasującą spo śród is tn ie ją c y c h grup ( t j . grupą, d la k tó r e j zachodzi najwriększe podobieństwo p r o fil-dokum ent), przy czym w szystkie wektory p r o filó w p ozostają nie zmienione; b ) nowe dokumenty kojarzy się z is tn ie ją c y m i grupami, a p r o f ile zmienia się p rzez a k tu a liza c ją ty lk o is tn ie ją c y c h terminów p r o filu , to znaczy można zmie n ić wagi tych terminów, le c z n ie dodaje się terminów nowych, zachowując tym samym s ta ły wymiar p r o filu ; c ) nowe dokumenty k ojarzy s ię z istn iejacyra i grupami, a p r o f ile zmienia się aktua liz u ją c is tn ie ją c e terminy oraz wprowadzając nowe terminy w zię te z dokumentów dodawanych do grup. Stwierdzono doświadczalnie, że z dwóch metod zmieniania p ro filó w , nieznacznie lep sza je s t ta , według k tó r e j utrzymuje s ię s ta łą długość p r o f ilu , szcze g ó ln ie dla dużych w artości wskaźnika kompletności; metoda ta je s t n a jlep sza także ze względu na ob jętość pam ięci. Bardzo istotnym problemem je s t sprawa \7ycofywania dokumen tów nieprzydatnych (re tire m e n t), przy czym przez wycofanie rozumie s ię nie skasowanie danego dokumentu, le c z jedynie przesunięcie go z centralne.go zbioru zapisów, tzn . tego zbioru , który je s t przeszukiwany za każdym razem, do pomocniczego obszaru przechowyvi'ania, udostępnianego ty lk o w specjalnych ok oliczn ościach . ■« związku z zagadnieniem wycofj'wania p o z y c ji zd ezak tu a lizo wanych ze zbiorów powstały ta k ie p o ję c ia , jak okres p ó ł-ż y c ia - 1Д0 - dokumentu, tzn . czas, po upływie którego lic z k a wzmianek o da nym dokumencie w lite r a tu r z e zm niejsza sią o połowę, albo poję c ie przydatności dokumentu wyrażonej ilo ś c ią powołań na ten do kument, Jaką można przewidywać w czasie pozostałego okresu Je go is tn ie n ia . v7 obu tych przypadkach mały wskaźnik okresu p ó ł- ż y c ia albo n is k ie j przydatności oznacza szybką d ezak tu alizację dokumentu i znikanie z piśmiennictwa, a zatem i potencjalne wy cofan ie dokumentu. Trzecim wskaźnikiem aktualności może byc wie lokrotność wyjmowania dokumentu z fizyczn ego zbioru (zdejmowa n ia z półek b ib lio te c zn y c h ),a czwartym -po prostu wiek dokumen tu , t j . lic z b a la t . Jakie.upłynęły od Jego pierwotnego opubli kowania. Kie ma n ie s te ty pralctycznej możliwości prowadzenia po miarów tych wskaźników, gdyż w artości dokładne, z wyjątkiem т е ки dokumentu, nie są osiągaln e. Przede wszystkim każdy pomiar Jest uzależniony od sp ec y fik i b ib lio t e k i lub środowiska użytkow ników, a w artości uzyskanych w Jednych warunkach n ie sposób prze lic z y ć i odnieść do iruiego układu. Kie wiadomo również, Jakie okresy obserwacji i Jakie w ie lk o ś c i próbek są niezbędne, aby uzyskane wyniki był,’ wiarogodne. Ha koniec, przynajmniej w od n ie s ie n iu do lite r a t< r y tech n iczn ej, ważne Jest odróżnianie og ó ln ie p ojętego pożytku naukowego, od przydatności historycznej dokumentu, przydatności do przeglądów i innych celów retrospek tywnych. Szybkość dezaktualizowania s ię Jest oczyw iście różna w tych dv/óch przypadkach. Reasumując, p o lity k a wycofywania opar ta na w ielkościach, które nie mogą być dokładnie zmierzone, nie byłaby sprawna. Proponuje s ię więc nową metodę dynamicznego układu prowa dzonych zbiorów dokumentów. Można by tę metodą o k r e ś lić Jako uogólnic ą modyfikację wektorów dokumentów na podstawie następu jących trzech czynników: a ) stopień zb liże n ia danego dokumentu do zbioru p ro filó w pytań, mierzony w ielk ością współczynnika podobieństwa między p ro fila m i pytań i dokumentów; b ) każdorazowe m iejsce danego dokumentu w szeregu dokumen tów wyszukanych w odpowiedzi na pytanie; c ) każdorazową opinię użytkownika o wyszukanym dokumencie, tzn . wyrażoną przez użytkownika ocenę p oten cja ln ej przydatności - 1.41 dolcuinentii do jego potrzeb informacyjnych. Koncepcja polega na awansowaniu dokumentów zlokalizowanych b lis k o ośrodków zainiieresowań użytkowników, t j . bliskich , profilom pytań, lub dokumen tów pojawiającyoh slą na początku szeregu dokumentów aryszukiwanych, powiedzmy wśród pierwszych 50 p o z y c ji, albo ta k ic h ,o któ rych wiadomo, że są relewantne w stosunku do potrzeb użytkowni ków. Awansowanie dokumentów odbywa sią przez przesuwanie ' ich b l i ż e j odpowiednich pytań, tam gd zie koncentrują s ią za in te re sowania użytkowników. Równocześnie degraduje sią dokumenty od dalone od p ro filó w pytań, lub dokumenty pojaw iające s ią na od le g ły c h miejscach w szeregu dokumentów wyszukiwanych,np. wśród ostatn ich 50 p o z y c ji, albo ta k ie , o których wiadomo, że n ie są relewantne w stosunku do potrzeb użytkowników; degradacja od bywa sią przez przesuwanie d a le j od p o z y c ji bieżących pytań. Gdyby taką metodą prawidłowo rea lizo w a ć, okazałoby s ią , że do kumenty nigdy n ie żądane, lub pojaw iające sią przy końcu sze regu dokumentów wyszukiwanych, bądą sią przesuwać na kraniec, coraz d a le j od aktywnej oząści zb ioru , aż w końcu ich wyszuka n ie stan ie sią niem ożliwe. Jednocześnie dokumenty awansowane bądą stawały s ię ła tw ie js z e do wyszukania, pod warunkiem,że py tan ia wpływające w p rz y s zło ś c i bądą podobne do pytań aktual nie aktywnych. - R e a liz a c ja takiego aktywnego układu wycofywania nastręczy n iew ątp liw ie szereg tru dności. Po pierwsze is to tn e je s t odpo wiednie dobranie parametrów regulowania wskaźników ważności terminów, gdyż wskaźniki powinny być d ostateczn ie duże, żeby były "wyczuwalne", le c z nie za duże, by nie powodowały poważ nych dj'sproporc.ji w p rzes trze n i dokumentów. Przypuszczalnie od mienne parametry muszą być stosowane do p o z y c ji,o których wia domo coś pewnego, na przykład a ocen użytkowników dotyczących relew antności, inne natomiast wobec tych dokumentów, które wy bierane są jedynie sporadycznie z b liż s z ą lub dalszą lokatą w •szeregu dokumentów stanowiących odpowiedź. Po dru gie, przy de gradowaniu dokumentów, tzn . gdy odsuwa sią je d a le j,a n ie z b l i ża do pewnego obszaru, należy sp ec ja ln ie uważać, aby zapobiec "zn ik n ię c iu " wektora, c z y li zredukowaniu wszystkich wskaźników ■vażnoścl do zera. ~3 szczegó ln o ści, 'crzeba n iek tó re terminy - 1Д2 - wzimacniać wtedy, g,dy irme są degradowane. Wykorzystać należy w t e j s y tu a c ji procedury, za pomocą których automatycznie ro z poznaje s ią terminy dobrze w yróżniające i terminy n ie wyróżnia jące (terminy p osp olite^ ; d z ię k i takim; procedurom można spowo dować, żeby terminy n a jle p ie j wyróżniające były wzmacniane,przy zmniejszaniu ważności innych terminów. Procedury automatycznego wycofywania wymagają je s zc ze vfielu badań i eksperymentów. Sądząc z dobrych rezu ltatów uzyska nych na drodze dynamicznego modyfikowania wektorów pytań i do kumentów we wzajemnym oddziaływaniu użytkownik-system i na sku tek dodawania nowych dokumentów, można oczekiwać, że podobne pozytywne wyniki zostaną o sią g n ięte przy wycofywaniu dokumen tów. Układ w p e łn i dynamiczny należy jeszcze ponadto zbadać pod względem kosztów. Oczywiście jakikolvfiek proces dynamiczny pizeprowadzany na zbiorach będzie wymagał pewnego dodatkowego apa ratu , który nie je s t potrzebny w układzie statycznym. Z drugiej strony ponoszone obecnie koszty utrzymywania wciąż rosnących zbiorów są ogromne, coraz tru d n iej także o wyszkolony personel oraz po prostu o fizy czn ą p rzestrzeń do przechowywania dokumen tów. Zatem automatycznie kontrolowany układ dynamiczny w rodza ju przedstawionego może okazać s ię h a rd ziej umotywowany ekono micznie i tech n iczn ie, niżhy to się d z is ia j wydawało. X X X Ka zakończenie k rótk iej r e l a c j i z paru wybranych prac S a ltona warto przytoczyć jego 7?łasny wniosek i często wyrażane przekonanie, że właśnie stosowanie w tych zagadnieniach najpro stszych metod przynosi cenne,praktycznie użyteczne rezu ltaty i to kosztem nieoczekiwanie n iew ielk ich nakładów pracy i środków technicznych. Prezentowane przez niego prohlemj’ trzeba dalej intensywnie badać, rozv?ijać i eksperymentować w ich zakresie, z jednym zawsze naczelnym zadaniem maksymalnie skutecznej a za razem ekonomicznej obsługi uzytkovmikow. - 1ЛЗ PE03L:2!^S or AUTO?;ATIC DIDEXIHG S u m и a 'r у Recent studies and experiraents in automatic indexing deve loped Ъу G.Salton at C ornell U n iversity are presented. In the review the fo llo w in g s p e c ific prohlems are included: automatic content a n alysis, indexing and c la s s ific a t io n , automatic d ic tio n a ry con stru ction, aynamio document processing. ПРОБЛЕМЫ АВТОМАТИЧЕСКОГО ИНДЕКСИРОВАНИЯ Резюме В статье представлены исследования и эксперименты, прово димые Сальтоном в Cornell University В Области автоматизации индексирования и поиска информации. Рассматриваются проблемы автоматизации отдельных этапов этих процессов и конкретные ме тоды исследуемые с помощью компютеров: анализ содержания доку ментов, индексирование и классификация, составление словаря /тезауруса/, динамическое индексирование.