Nr wniosku: 149468, nr raportu: 13630. Kierownik (z rap.): dr hab

Transkrypt

Nr wniosku: 149468, nr raportu: 13630. Kierownik (z rap.): dr hab
Nr wniosku: 149468, nr raportu: 13630. Kierownik (z rap.): dr hab. Sławomir Piotr Zadrożny
W ramach realizacji projektu sformułowano i przeanalizowano ważne zadanie z zakresu przetwarzania informacji
tekstowej z użyciem technik informatycznych oraz opracowano sposoby jego rozwiązania. Istotę rozważanego zadania
najlepiej przedstawić na praktycznym przykładzie zarządzania dokumentami w instytucji administracji publicznej, który
stanowił inspirację dla podjęcia badań. Zasady zarządzania dokumentami przetwarzanymi przez taką instytucję, zarówno
tymi napływającymi do niej, jak i przez nią przygotowywanymi, są szczegółowo uregulowane odpowiednimi przepisami
prawa. W szczególności, dokumenty te muszą być jednoznacznie przypisane do jednej z kategorii wymienionych w tzw.
jednolitym rzeczowym wykazie akt (JRWA) i dodatkowo w ramach tej kategorii do akt konkretnej sprawy, której dany
dokument dotyczy. W trakcie tego przypisywania może się okazać, że dokument nie jest związany z żadną z
prowadzonych spraw, a raczej rozpoczyna on nową sprawę i należy utworzyć nowe akta dla tej sprawy i umieścić tam
klasyfikowany dokument jako pierwszy. Dokumenty w ramach danej sprawy są przechowywane w porządku
chronologicznym. Celem projektu było opracowanie metod, które pozwolą na wspomaganie człowieka przez komputer
przy przypisywaniu dokumentów do kategorii i akt spraw, wyłącznie na podstawie analizy treści dokumentu. Takie
wspomaganie jest pożądane ze względu na czasochłonność i trudność rozważanego zadania klasyfikacji dokumentów,
szczególnie przy dynamicznym wzroście liczby przetwarzanych dokumentów. Przyjmujemy, że zasadniczo wspomaganie
człowieka polega na generowaniu przez komputer podpowiedzi co do właściwej dla rozpatrywanego dokumentu kategorii
i sprawy. Zakłada się przy tym, że do dyspozycji mamy pewną liczbę dokumentów o znanej przynależności do
poszczególnych kategorii JRWA oraz przypisanych w ich ramach do akt konkretnych spraw. Na ich podstawie,
opracowane przez nas metody mają się automatycznie „nauczyć” cech charakterystycznych dokumentów i ich grup, które
decydują o ich przynależności do kategorii i akt spraw.
Tak sformułowane zadanie praktyczne można łatwo uogólnić na zagadnienie zarządzania dowolną kolekcją dokumentów,
dla których istotne jest ich przyporządkowanie do pewnych klas, a w ramach tych klas do pewnych sekwencji
dokumentów. Taka kolekcja dokumentów może na przykład odpowiadać dokumentom udostępnianym przez serwis
internetowy, przy czym ważne jest ich pogrupowanie tematyczne oraz uporządkowanie w sekwencje w ramach
poszczególnych tematów. Cel pozostaje ten sam co w oryginalnym zadaniu: automatyczne przyporządkowywanie nowych
dokumentów do kategorii i wewnątrz nich do właściwych sekwencji dokumentów.
Rozważane przez nas w projekcie zadanie wieloaspektowej kategoryzacji dokumentów tekstowych polega więc, ogólnie
biorąc, na złożonej klasyfikacji dokumentów tekstowych względem dwóch schematów: ich przynależności do kategorii i
do wyodrębnionych w ich ramach sekwencji dokumentów, w których kolejność dokumentów odgrywa istotną rolę. O ile
pierwszy z tych aspektów klasyfikacji, traktowany indywidualnie, odpowiada klasycznemu zadaniu kategoryzacji
dokumentów tekstowych, o tyle drugi aspekt nie jest rozpatrywany explicite w literaturze, a stanowi duże wyzwanie w
sensie koncepcyjnym i obliczeniowym. Tak więc w pierwszym wypadku można względnie łatwo i bezpośrednio
zastosować metody dotychczas wypracowane i znane w literaturze. Jednak przypisanie dokumentu do odpowiedniej
sekwencji wewnątrz kategorii jest znacznie trudniejsze i wykracza poza zakres dotychczas rozważany w literaturze.
Podstawowa trudność wynika z faktu, że lista sekwencji nie jest zawczasu ustalona i, jak to wcześniej wspomniano,
napływające dokumenty mogą tworzyć nowe sekwencje, nieznane wcześniej systemowi. Ponadto, o ile zazwyczaj
możemy zakładać, że dysponujemy dostateczną liczbą „dokumentów uczących” reprezentujących poszczególne kategorie,
to w przypadku sekwencji dokumentów takie założenie będzie zazwyczaj nieprawdziwe.
W ramach projektu opracowano metody rozwiązywania postawionego zadania. Obok samych algorytmów klasyfikacji
opracowano również odpowiednie sposoby reprezentacji dokumentów tekstowych, wychodzące poza klasyczne
rozwiązania stosowane w tym względzie dotychczas. Stworzono odpowiednie oprogramowanie do przeprowadzenia
testów, opracowano metodę konstrukcji danych testowych i przeprowadzono eksperymenty obliczeniowe. Opracowane
metody potwierdziły swoją przydatność, ale badania nad nimi będą nadal prowadzone, również po formalnym
zakończeniu projektu. Przewiduje się poszukiwanie możliwości wdrożenia opracowanych rozwiązań we współpracy z
jednostkami administracji publicznej, z którymi już nawiązano kontakt.