Nr wniosku: 149468, nr raportu: 13630. Kierownik (z rap.): dr hab
Transkrypt
Nr wniosku: 149468, nr raportu: 13630. Kierownik (z rap.): dr hab
Nr wniosku: 149468, nr raportu: 13630. Kierownik (z rap.): dr hab. Sławomir Piotr Zadrożny W ramach realizacji projektu sformułowano i przeanalizowano ważne zadanie z zakresu przetwarzania informacji tekstowej z użyciem technik informatycznych oraz opracowano sposoby jego rozwiązania. Istotę rozważanego zadania najlepiej przedstawić na praktycznym przykładzie zarządzania dokumentami w instytucji administracji publicznej, który stanowił inspirację dla podjęcia badań. Zasady zarządzania dokumentami przetwarzanymi przez taką instytucję, zarówno tymi napływającymi do niej, jak i przez nią przygotowywanymi, są szczegółowo uregulowane odpowiednimi przepisami prawa. W szczególności, dokumenty te muszą być jednoznacznie przypisane do jednej z kategorii wymienionych w tzw. jednolitym rzeczowym wykazie akt (JRWA) i dodatkowo w ramach tej kategorii do akt konkretnej sprawy, której dany dokument dotyczy. W trakcie tego przypisywania może się okazać, że dokument nie jest związany z żadną z prowadzonych spraw, a raczej rozpoczyna on nową sprawę i należy utworzyć nowe akta dla tej sprawy i umieścić tam klasyfikowany dokument jako pierwszy. Dokumenty w ramach danej sprawy są przechowywane w porządku chronologicznym. Celem projektu było opracowanie metod, które pozwolą na wspomaganie człowieka przez komputer przy przypisywaniu dokumentów do kategorii i akt spraw, wyłącznie na podstawie analizy treści dokumentu. Takie wspomaganie jest pożądane ze względu na czasochłonność i trudność rozważanego zadania klasyfikacji dokumentów, szczególnie przy dynamicznym wzroście liczby przetwarzanych dokumentów. Przyjmujemy, że zasadniczo wspomaganie człowieka polega na generowaniu przez komputer podpowiedzi co do właściwej dla rozpatrywanego dokumentu kategorii i sprawy. Zakłada się przy tym, że do dyspozycji mamy pewną liczbę dokumentów o znanej przynależności do poszczególnych kategorii JRWA oraz przypisanych w ich ramach do akt konkretnych spraw. Na ich podstawie, opracowane przez nas metody mają się automatycznie „nauczyć” cech charakterystycznych dokumentów i ich grup, które decydują o ich przynależności do kategorii i akt spraw. Tak sformułowane zadanie praktyczne można łatwo uogólnić na zagadnienie zarządzania dowolną kolekcją dokumentów, dla których istotne jest ich przyporządkowanie do pewnych klas, a w ramach tych klas do pewnych sekwencji dokumentów. Taka kolekcja dokumentów może na przykład odpowiadać dokumentom udostępnianym przez serwis internetowy, przy czym ważne jest ich pogrupowanie tematyczne oraz uporządkowanie w sekwencje w ramach poszczególnych tematów. Cel pozostaje ten sam co w oryginalnym zadaniu: automatyczne przyporządkowywanie nowych dokumentów do kategorii i wewnątrz nich do właściwych sekwencji dokumentów. Rozważane przez nas w projekcie zadanie wieloaspektowej kategoryzacji dokumentów tekstowych polega więc, ogólnie biorąc, na złożonej klasyfikacji dokumentów tekstowych względem dwóch schematów: ich przynależności do kategorii i do wyodrębnionych w ich ramach sekwencji dokumentów, w których kolejność dokumentów odgrywa istotną rolę. O ile pierwszy z tych aspektów klasyfikacji, traktowany indywidualnie, odpowiada klasycznemu zadaniu kategoryzacji dokumentów tekstowych, o tyle drugi aspekt nie jest rozpatrywany explicite w literaturze, a stanowi duże wyzwanie w sensie koncepcyjnym i obliczeniowym. Tak więc w pierwszym wypadku można względnie łatwo i bezpośrednio zastosować metody dotychczas wypracowane i znane w literaturze. Jednak przypisanie dokumentu do odpowiedniej sekwencji wewnątrz kategorii jest znacznie trudniejsze i wykracza poza zakres dotychczas rozważany w literaturze. Podstawowa trudność wynika z faktu, że lista sekwencji nie jest zawczasu ustalona i, jak to wcześniej wspomniano, napływające dokumenty mogą tworzyć nowe sekwencje, nieznane wcześniej systemowi. Ponadto, o ile zazwyczaj możemy zakładać, że dysponujemy dostateczną liczbą „dokumentów uczących” reprezentujących poszczególne kategorie, to w przypadku sekwencji dokumentów takie założenie będzie zazwyczaj nieprawdziwe. W ramach projektu opracowano metody rozwiązywania postawionego zadania. Obok samych algorytmów klasyfikacji opracowano również odpowiednie sposoby reprezentacji dokumentów tekstowych, wychodzące poza klasyczne rozwiązania stosowane w tym względzie dotychczas. Stworzono odpowiednie oprogramowanie do przeprowadzenia testów, opracowano metodę konstrukcji danych testowych i przeprowadzono eksperymenty obliczeniowe. Opracowane metody potwierdziły swoją przydatność, ale badania nad nimi będą nadal prowadzone, również po formalnym zakończeniu projektu. Przewiduje się poszukiwanie możliwości wdrożenia opracowanych rozwiązań we współpracy z jednostkami administracji publicznej, z którymi już nawiązano kontakt.