optyczne rozpoznawanie znaków w elektronicznych dokumentach

Transkrypt

optyczne rozpoznawanie znaków w elektronicznych dokumentach
Seria III: ePublikacje Instytutu INiB UJ. Red. Maria Kocójowa
Nr 7 2010: Biblioteki, informacja, książka: interdyscyplinarne badania i praktyka w XXI wieku
Rafał Lewandowski*
Zakład Systemów Informacyjnych
Instytut Językoznawstwa
Uniwersytet im. Adama Mickiewicza w Poznaniu
OPTYCZNE ROZPOZNAWANIE ZNAKÓW
W ELEKTRONICZNYCH DOKUMENTACH HISTORYCZNYCH
[OPTICAL CHARACTER RECOGNITION
IN ELECTRONIC HISTORICAL PUBLICATIONS]
Abstrakt: Większość zbiorów w polskich bibliotekach cyfrowych stanowią zasoby historyczne. Są one otrzymywane w procesie skanowania, a ich wyszukiwanie odbywa się dzięki wprowadzanym do systemu metadanym.
Aby umożliwić przeszukiwanie pełnotekstowe, niezbędne jest wykorzystanie technologii OCR (ang. Optical Character Recognition). Niestety, automatyczne rozpoznanie tekstów wydawnictw historycznych jest bardzo utrudnione. Wpływa na to kilka czynników: niska jakość materiału wejściowego, spowodowana nieprecyzyjnym drukiem
(zamazane znaki, duplikowane litery, niewielki rozmiar czcionki), papier o niskiej gramaturze, co powoduje efekt
przebijania strony odwrotnej podczas skanowania. Złe warunki przechowywania (wilgotność) powodują marszczenie papieru, falowanie jego powierzchni. Z kolei niepoprawne przechowywanie sprawia, że tekst nie jest skanowany w linii prostej. Do podstawowych sposobów, które wspomagają proces rozpoznania tekstu, należy korekta słownikowa (często w czasie rzeczywistym). Niestety, niedostatek słowników języka polskiego z terminami historycznymi w postaci elektronicznej utrudnia to zadanie. Nowe rozwiązania technologiczne oraz programistyczne
zwiększają trafność rozpoznania historycznych tekstów. Coraz częściej również biblioteki elektroniczne sięgają
do społecznej, zbiorowej korekty danych post-OCR (public collaborative OCR text correction). Cechuje się ona
wysoką trafnością oraz niskim nakładem kosztów.
BIBLIOTEK CYFROWA – KOREKTA TEKSTU – OCR – OPTYCZNE ROZPOZNAWANIE ZNAKÓW – PUBLIKACJE
HISTORYCZNE
Abstract: Most collections in Polish digital libraries consist of historical resources obtained through a process
of scanning and searchable owing to metadata entered into the system. To enable full-text searching, it is necessary to make use of Optical Character Recognition (OCR) technology. Unfortunately, automatic recognition
of texts in historical publications is made difficult by several factors, including low quality of the input due to imprecise printing (smudged characters, duplicated letters, small font size), and the thinness of the paper, which
causes the reverse side to show through during scanning. Poor storage conditions (humidity) cause the paper to
wrinkle. Improper storage also means that the text is not scanned in a straight line. One of the basic methods
used to support the text recognition process is dictionary-based correction (often in real time). Unfortunately, this
task is hampered by the lack of Polish dictionaries containing historical terms. New technological and programming solutions are increasing the accuracy of historical text recognition. Also, more and more often, electronic
libraries are making use of public collaborative OCR text correction. This offers a high level of accuracy at low
cost.
DIGITAL LIBRARY – HISTORICAL PUBLICATIONS – OCR – OPTICAL CHARACTER RECOGNITION – TEXT
CORRECTION
* Dr RAFAŁ LEWANDOWSKI, adiunkt w Zakładzie Systemów Informacyjnych Instytutu Językoznawstwa,
Uniwersytet im. Adama Mickiewicza w Poznaniu; doktor nauk humanistycznych w zakresie bibliologii. Dwie najważniejsze
publikacje: (2003) Metody wizualizacji dokumentów XML. [W:] Acta Universitatis Wratislaviensis. Bibliotekoznawstwo
T. XXIV, s. 235–239; (1998). Porównanie nośnika papierowego oraz elektronicznego w kontekście biblioteki cyfrowej. [W:]
M. Górny, M. Nowak red. (1998). Problemy i metody nauki o informacji. Poznań: Sorus, s. 25–34. E-mail: [email protected]
[RAFAŁ LEWANDOWSKI, PhD; Chair of the Infomation Systems, Institute of Linguistics, Adam Mickiewicz
University in Poznań. Two the most important publications: (2003) Metody wizualizacji dokumentów XML [Methos
of Visualization of HTML Documents]. [In:] Acta Universitatis Wratislaviensis. Bibliotekoznawstwo T. XXIV, s. 235–239;
(1998). Porównanie nośnika papierowego oraz elektronicznego w kontekście biblioteki cyfrowej [Comparizon between Paper
and Electronic Support in the Context of Digital Laibrary]. [In:] M. Górny, M. Nowak eds. (1998). Problemy i metody nauki
o informacji [Issues and Methods of Information Science]. Poznań: Sorus, s. 25–34. E-mail: [email protected]].
3843
8
Seria III: ePublikacje Instytutu INiB UJ. Red. Maria Kocójowa
Nr 7 2010: Biblioteki, informacja, książka: interdyscyplinarne badania i praktyka w XXI wieku
*
*
*
1. OPTICAL CHARACTER RECOGNITION – OPIS TECHNOLOGII
OCR (ang. Optical Character Recognition) to technologia rozpoznawania znaków i ich konwersji z obrazu
rastrowego do postaci edytowalnego tekstu. Oprogramowanie OCR przypisuje wizualizacji graficznej określonego symbolu jego kod z tablicy znaków – w przypadku tekstów polskich są to najczęściej standardy ISO-88592 lub UTF-8. Wynik może być zapisany w pliku tekstowym lub tylko wyświetlony na ekranie komputera.
Współczesne programy OCR potrafią również zachować więcej informacji o OCR-owanym dokumencie – krój
czcionki, rozmiary marginesów oraz układ wszystkich elementów na stronie. Wynikowy tekst jest zapisywany
wówczas w formacie DOC lub PDF.
Rozpoznanie dokumentu może odbywać się z wcześniej przygotowanego pliku rastrowego lub zostać wykonane podczas skanowania. W obu przypadkach niezbędne będzie oprogramowanie OCR, w drugim przypadku
również skaner. W niektórych zastosowaniach użyć można również fotograficznego aparatu cyfrowego.
Współczynnik rozpoznania tekstu jest uzależniony m.in. od jakości materiału wejściowego. Ważnym parametrem jest rozdzielczość – do większości zastosowań wystarcza 300 dpi. W wybranych przypadkach, kiedy
skanuje się obraz zawierający detale lub tekst drukowany mały rozmiarem czcionki (6 punktów typograficznych
lub mniej), wymagana będzie większość rozdzielczość.
Technologia OCR znalazła wiele zastosowań [Bieniecki 2005, dok. elektr.]:
•
archiwizacja i udostępnianie dokumentów: przekształcanie do postaci elektronicznej książek, gazet
i pozostałych materiałów drukowanych,
•
systemy identyfikacji, monitorowania i sterowania: np. rozpoznawanie tablic rejestracyjnych w pojazdach, identyfikacja oznaczeń na obiektach;
•
analiza zdjęć w diagnostyce medycznej;
•
systemy czytające dla osób niewidomych, interfejs komunikacji w palmtopach, systemy weryfikacji dokumentów wypełnianych ręcznie.
2. OPTICAL CHARACTER RECOGNITION – POWSTANIE I ROZWÓJ
Pierwsze komputerowe systemy OCR zostały wprowadzone w czasopiśmie „Reader’s Digest” w 1954 r.
[Eikvil 1993, dok. elektr.]. Zamieniały one raporty sprzedaży pisane na maszynie na postać kart perforowanych,
które z kolei wprowadzano do systemu komputerowego.
Eikvil dokonuje podziału rozwoju systemów OCR na trzy generacje. Pierwsza obejmuje komercyjne systemy, które pojawiły się w latach 1960–1965. Rozpoznawały one tylko czcionkę, która została zaprojektowana
specjalnie dla nich. Druga generacja, której pojawienie przypadło na okres od połowy lat 60. do wczesnych lat
70. XX w., miały zdolność rozpoznawania tekstów pochodzących z maszyny do pisania, a nawet wybranych
znaków z pisma ręcznego (cyfry, wybrane litery i symbole). W 1968 r. American Type Founders opracowała
OCR-A, specjalną czcionkę dla systemów OCR, która jest z łatwością rozpoznawana przez systemy OCR, jed-
3853
8
Seria III: ePublikacje Instytutu INiB UJ. Red. Maria Kocójowa
Nr 7 2010: Biblioteki, informacja, książka: interdyscyplinarne badania i praktyka w XXI wieku
nak tekst nią pisany nie jest zbyt czytelny dla człowieka. American National Standards Institute (ANSI) ustanowił ją standardem pod numerem X3.4-1977 [OCR-A, dok. elektr.]. Font OCR-B opracował w 1968 r. Adrian
Frutiger dla firmy Monotype. Font ten został uznany za standard międzynarodowy, dostępny pod numerem ISO
1073-2:1976. Spełnia podobne cele jak OCR-A, jednak tekst drukowany tą czcionką jest łatwiejszy do przeczytania, ma również mniej techniczny wygląd [OCR-B, dok. elektr.]. Trzecia generacja systemów OCR pojawiała
się w połowie lat 70. ubiegłego wieku. Ich twórcy postawili sobie za cel rozpoznanie dokumentów słabej jakości
oraz pisma odręcznego. Starano się również zmniejszyć koszty systemów i zwiększyć ich wydajność. Jednym
z ich twórców był Raymond Kurzweil, który w 1974 r. założył firmę Kurzweil Computer Products. Prowadził
w niej prace nad systemem OCR, który miał być zdolny do rozpoznania tekstu pisanego dowolnym krojem
czcionki. Dwa lata później zaprezentował Kurzweil Reading Machine – urządzenie, które jako pierwsze było
wyposażone w skaner CCD, a także procesor mowy. Potrafiło przeczytać zeskanowany tekst, a jego adresatem
były osoby niewidome.
Pojawienie się komputerów osobistych spowodowało wzrost popularności technologii OCR. Wiązał się
z tym skok technologiczny systemów, spadek cen urządzeń oraz wydajności oprogramowania. Pojawiły się systemy do zadań specjalnych: pracujące z bardzo wysoką prędkością lub takie, które w minimalnym stopniu ingerowały w skanowany materiał.
3. DLACZEGO OCR?
Proces optycznego rozpoznawania znaków jest często żmudny, kosztowny i długotrwały. Wiele instytucji
podejmuje się jednak tego zadania. Dlaczego? Można wymienić przynajmniej trzy korzyści, które przynosi
OCR-owanie dokumentów:
•
dane po OCR-owaniu dają możliwość generowania indeksów, dzięki czemu pełne teksty publikacji
mogą stać się przeszukiwalne,
•
dane po OCR-owaniu są znacznie mniejsze w porównaniu do wejściowych danych rastrowych; do
przechowywania dokumentów potrzeba mniej miejsca na pamięciach masowych; krócej także trwa ich
przesyłanie,
•
dane po OCR-owaniu stają się edytowalne – można zmieniać ich zawartość, dopisywać, usuwać.
4. OCR MATERIAŁÓW HISTORYCZNYCH
Przeglądając zasoby bibliotek cyfrowych, nie tylko polskich, można szybko zorientować się, że są to głównie zasoby historyczne. Można znaleźć kilka powodów takiego stanu rzeczy. Po pierwsze, chęć zachowania i udostępnienia dziedzictwa narodowego. Pragniemy ocalić dla potomności zbiory, które często stopniowo ulegają
degradacji. Wiele zasobów nie jest również udostępniania czytelnikom ze względu na ryzyko wyrządzenia dodatkowych szkód zbiorom. Zamiana na postać cyfrową i ich udostępnienie w Internecie daje możliwość dostępu
znacznej liczbie czytelników. Istotnym powodem są z pewnością również prawa autorskie i wydawnicze, które
w stosunku do publikacji historycznych wygasły. Dużo łatwiej, bez dodatkowych formalności i związanych
z tym kosztów, można publikacje historyczne zamienić na postać cyfrową i udostępnić czytelnikom.
3863
8
Seria III: ePublikacje Instytutu INiB UJ. Red. Maria Kocójowa
Nr 7 2010: Biblioteki, informacja, książka: interdyscyplinarne badania i praktyka w XXI wieku
Warto zwrócić uwagę, że podobne trendy można zaobserwować we wszystkich europejskich bibliotekach.
Raport EDL [EDL Report on Digitisation in European National Libraries 2008, dok. elektr.] przewiduje, że w latach 2006–2012 książki i czasopisma historyczne staną się najbardziej popularnym materiałem podlegającym
digitalizacji – zaobserwuje się wzrost o 350% w stosunku do lat poprzednich. Jednocześnie w raporcie zauważono, że tylko 1–2% publikacji przechowywanych w bibliotekach narodowych będzie w najbliższej przyszłości
dostępna w postaci cyfrowej. Struktura zbiorów ucyfrowionych odpowiada tym w postaci analogowej, jednak
zakres digitalizowanych zbiorów jest mniejszy od oczekiwań. Znaczna większość ucyfrowionych zbiorów jest
jednak w postaci pełnoobrazowej (rastrowej), dlatego też prowadzone są dwa projekty europejskie: TELplus
(eContentplus) oraz IMPACT (FP7), które mają zmienić ten stan rzeczy. Celem projektu IMPACT jest poprawa
dostępu do tekstów historycznych. Jak zauważają twórcy projektu, realizacja tego zadania możliwa jest przez
pełnotekstową digitalizację. Materiały cyfrowe stają się dostępne jednak zbyt wolno, w zbyt małych ilościach
i ze zbyt małej liczby źródeł. Twórcy projektu IMPACT zwracają uwagę na trzy powody takiego stanu rzeczy:
•
Instytucjom brakuje wiedzy i ekspertów, co powoduje nieskuteczność działania. Jest to problem większości bibliotek, muzeów i archiwów w Europie.
•
Koszt utworzenia w pełni funkcjonalnych dokumentów historycznych w postaci elektronicznej jest bardzo wysoki. Ręczne wprowadzanie tekstu do komputera kosztuje około 1 euro za stronę, w związku
z czym koszt typowej książki w postaci elektronicznej może sięgnąć kwoty 400, 500 lub nawet 1000
euro.
•
Automatyczne rozpoznawanie tekstu realizowane przez systemy OCR w wielu przypadkach nie przynosi zadowalających rezultatów. Wskaźniki prawidłowego rozpoznania historycznego tekstu są tak niskie,
że czynią dokument bezużytecznym [Impact, dok. elektr.].
5. PODSTAWOWE PROBLEMY OCR-OWANIA
MATERIAŁÓW HISTORYCZNYCH
Optyczne rozpoznawanie dokumentów historycznych napotyka wiele problemów. Można je podzielić na
dwie podstawowe grupy:
Fizyczne
Dotyczą niskiej jakości materiału wejściowego. Wpływa na to kilka czynników:
•
Degradacja papieru. Paradoksalnie publikacje liczące kilkaset lat są często w lepszym stanie aniżeli te
wydane w wieku 19. oraz pierwszej połowie 20. wieku. Wpływ na ten fakt ma proces zwany zakwaszaniem papieru. Powodem tego zjawiska są dwa „udoskonalenia” wprowadzone w 19 w. – nowego sposobu zaklejania papieru oraz zmiana surowca, z którego papier był wytwarzany [Łotewski, dok. elektr].
Zaklejanie papieru wymagało dodatku siarczanu glinu, substancji powodującej zakwaszanie papieru.
Drugim powodem było używanie masy drzewnej do produkcji papieru zamiast szmat, jak to miało
miejsce wcześniej. Od roku 1996 nie produkuje się już kwaśnego papieru, pozostaje jednak kwestia
wielu publikacji historycznych, które ulegają powolnej degradacji. Z jednej strony wydawnictwa rozpadają się w rękach, z drugiej należy je utrwalić dla potomnych. O skali problemu mówią fakty: w Bibliotece Jagiellońskiej 82% druków zwartych, czyli około 1 500 000 pozycji, zostało wydrukowanych na
papierze kwaśnym [Barański 2006, dok. elektr.].
3873
8
Seria III: ePublikacje Instytutu INiB UJ. Red. Maria Kocójowa
Nr 7 2010: Biblioteki, informacja, książka: interdyscyplinarne badania i praktyka w XXI wieku
•
Niska gramatura papieru używana w gazetach (poniżej 80 g/m2) powoduje podczas skanowania powstawanie zjawiska przebijania zawartości strony odwrotnej [Bednarek 2008, dok. elektr.]. Im gramatura papieru niższa, tym zjawisko to jest bardziej zauważalne.
•
Nieprecyzyjny druk. Wiele gazet, szczególnie regionalnych, pochodzących z małych miejscowości, było drukowanych na wysłużonych maszynach drukarskich. Już wkrótce po wydrukowaniu treść była mało czytelna. Dodatkowe zniszczenia poczyniła degradacja powodująca powstawanie przerwań (nieciągłości) w literach. Jeżeli zniszczeniu uległ tylko fragment jednej litery w wyrazie, można to poprawić
podczas korekty. Gorzej, jeżeli proces ten dotyczy całych wyrazów lub większych partii tekstu. Również jeżeli uszkodzenia znaków są regularne, można to naprawić programowo. Zanikanie części liter
może powodować trudności w czytaniu również u ludzi – poprawne zrozumienie możliwe jest tylko
dzięki kontekstowi (np. litera „e”, która wygląda jak „c”). Do występujących często błędów drukarskich
zaliczyć można również podwójne odbicie tekstu, niedodrukowane miejsca, zafarbowania.
•
Niewłaściwe przechowywanie. Jak zauważa Grzegorz Bednarek: „Zwyczajowo, roczniki gazet oprawione w sztywną oprawę przechowywane są tak, że grzbiet oprawy widoczny jest dla oczu bibliotekarza. Jest to normalne z punktu widzenia konieczności stałego odszukiwania w bibliotece określonego
woluminu. Zaś z punktu widzenia nie obniżania jakości przechowywanych gazet, grzbiet musiałby być
u góry, by nie dopuścić do trwałych odkształceń arkuszy. Aby ocenić jak w danej bibliotece przechowywany jest zasób czasopism, wystarczy ogląd części strony przeciwległej do zszytego boku. (...) Niestety, testy wykazały, że takie odkształcenia znacząco obniżają jakość rozpoznania tekstu OCR” [Bednarek 2008, dok. elektr.].
•
Pofalowana powierzchnia gazet i książek. Powodem może być wysoka kwasowość papieru lub zmiany
wilgotności pomieszczenia, gdzie przechowywane były publikacje. Pofalowanie stanowi poważny problem dla oprogramowania OCR.
•
Czcionki nieużywane obecnie. Do niedawna poważny problem stanowiło rozpoznawanie tekstów drukowanych historycznymi czcionkami (np. gotykiem). Obecnie część systemów OCR radzi sobie z tym
utrudnieniem coraz lepiej.
•
Zniszczenia powstałe podczas użytkowania. Wymienić można w tym punkcie m.in. poplamienia publikacji, ich przedarcie lub wytarcie.
Leksykalne
Stosowane słownictwo w dokumentach historycznych ma w znacznej mierze charakter archaiczny. Są to archaizmy:
•
fonetyczne – wyraz współczesny różni się od archaizmu tylko jedną wymawianą głoską,
•
fleksyjne – wyrazy inaczej niż współcześnie się odmieniające,
•
słowotwórcze – wyrazy utworzone za pomocą przyrostków lub przedrostków, które wyszły już z użycia,
•
leksykalne – wyrazy, które były powszechnie używane dawniej [Archaizm, dok. elektr.].
Ma to, oczywiście, ogromny wpływ na automatyczną korektę, która nie może zostać poprawnie przeprowadzona bez zastosowania specjalnych słowników zawierających archaiczne słownictwo. Uwaga ta dotyczy również nazw własnych. Warto również wspomnieć o znakach oraz skrótach, które obecnie nie są w użyciu. Więk-
3883
8
Seria III: ePublikacje Instytutu INiB UJ. Red. Maria Kocójowa
Nr 7 2010: Biblioteki, informacja, książka: interdyscyplinarne badania i praktyka w XXI wieku
szość systemów OCR jest ograniczona tylko do zestawu znaku ISO 8859 lub podzestawu UNICODE. Część
używanych wcześniej znaków nie zostanie uwzględniona podczas automatycznej korekty.
6. JAKOŚĆ MATERIAŁÓW HISTORYCZNYCH – BADANIA
O tym, że jakość OCR-u historycznych wydawnictw jest niska świadczą badania przeprowadzone w British
Library [Tanner 2009, dok. elektr.]. Znajdują się tutaj dwie bazy czasopism: The 19th Century British Library
Newspapers Database – baza danych gazet z Anglii, Walii, Szkocji i Irlandii licząca 2 miliony stron. Kolekcja
jest prezentowana zarówno w postaci obrazowej, jak i pełnotekstowej. Druga baza, Burney, obejmuje swoim
zakresem 17. i 18. wiek. Łącznie bazy udostępniają pełne treści czasopism od 1620 r. do końca 19 wieku.
Badaniami objęto około 1% z 2 milionów stron zasobów. Na wstępie wybierano na stronie gazety dwa obszary. Należały one do najwyraźniejszych, z ponadprzeciętną jakością. Unikano grafik, tabel oraz list wyliczeniowych. Badano trafność OCR-u na poziomie znaku, słowa, słowa znaczącego, słów zaczynających się od
wielkiej litery oraz grup numerycznych. Rozróżnienie to jest bardzo istotne, gdyż wpływa na czytelność tekstu
po OCR-owaniu. Zakładając, że wybrany fragment gazety liczy 5000 znaków (statystycznie 1000 słów) i program OCR błędnie rozpozna 500 znaków, trafność rozpoznania na poziomie znaku wyniesie 90%. Wydawać by
się mogło, że to wynik dobry. Teoretycznie zdarzyć się jednak może, że każdy z błędnie rozpoznanych znaków
znajduje się w osobnym słowie. Wówczas trafność rozpoznania na poziomie słowa wyniesie zaledwie 50%,
a więc będzie bardzo niska. Twórców bibliotek cyfrowych z pewnością ten drugi współczynnik będzie bardziej
interesował (słowo jest jednostką leksykalną, która znajdzie się w indeksie) i podczas badań szczególnie powinien być brany pod uwagę.
Uzyskane wyniki prezentowały się następująco:
The 19th Century Newspaper Project:
•
Trafność na poziomie znaku (ang. Character accuracy) = 83.6%
•
Trafność na poziomie słowa (ang. Word accuracy) = 78%
•
Trafność na poziomie słowa znaczącego (ang. Significant word accuracy) = 68.4%
•
Trafność na poziomie słowa zaczynającego się od dużej litery (ang. Words with capital letter start accuracy) = 63.4%
•
Trafność na poziomie grup numerycznych (ang. Number group accuracy) = 64.1%
Burney Collection:
•
Trafność na poziomie znaku = 75.6%
•
Trafność na poziomie słowa (ang. Word accuracy) = 65%
•
Trafność na poziomie słowa znaczącego (ang. Significant word accuracy) = 48.4%
•
Trafność na poziomie słowa zaczynającego się od dużej litery (ang. Words with capital letter start accuracy) = 47.4%
•
Trafność na poziomie grup numerycznych (ang. Number group accuracy) = 59.3%
Z wyników wyraźnie widać, że upływ czasu znacząco wpływa na jakość rozpoznania tekstu. W przypadku
starszych czasopism pochodzących z bazy Burney trafność na poziomie słowa znaczącego wyniosła zaledwie
48,4%, co oznacza, że ponad połowa słów znaczących została rozpoznana niepoprawnie.
3893
8
Seria III: ePublikacje Instytutu INiB UJ. Red. Maria Kocójowa
Nr 7 2010: Biblioteki, informacja, książka: interdyscyplinarne badania i praktyka w XXI wieku
7. WSPOMAGANIE PROCESU ROZPOZNAWANIA TEKSTU
– METODY PROGRAMOWE
Bezpośrednio po skanowaniu, a przed procesem rozpoznawania tekstu implementuje się do obrazu metody
programowe. Mają one za zadanie polepszenie jakości materiału rastrowego, a tym samym zwiększenia współczynnika rozpoznania tekstu. Wraz z rozwojem technologii OCR ulepszano istniejące, a także wprowadzano
nowe algorytmy. Do podstawowych metod programowych zaliczyć można [Lin 2009, dok. elektr.]:
Poziomowanie (ang. de-skew)
Często dokumenty zostają zeskanowane ukośnie. Powodem może być nieprecyzyjne ułożenie materiału
w skanerze, ale również tego typu błąd może powstać podczas druku. Do wyprostowania linii tekstu stosuje się
różne algorytmy, w zależności od typu opracowywanych dokumentów. Procedura ta musi być wykonana przed
OCR-em, w przeciwnym wypadku współczynnik rozpoznania tekstu będzie obniżony.
Usuwanie szumów (ang. noise-removal)
Różnego rodzaju „szumy” mogą powstawać podczas skanowania. Ich powodem są kurz, brud, inne zanieczyszczenia znajdujące się na szybie skanera lub obiektywie kamery cyfrowej. Wiele zanieczyszczeń może
znajdować się na samym dokumencie – szczególnie uwaga ta dotyczy dokumentów historycznych. Szumy można oczywiście usuwać ręcznie, jest to jednak proces bardzo czaso- i kosztochłonny. W automatyczną eliminację
zanieczyszczeń są wyposażone programy graficzne (np. Adobe Photoshop). Istnieje również grupa algorytmów,
które wykorzystuje oprogramowanie OCR.
Analiza układu strony (dokumentu) (ang. document layout analysis)
Zapis rastrowy nie przechowuje informacji o strukturze dokumentu, dlatego przed wykonaniem OCR-u konieczne jest dokonanie analizy układu dokumentu. Etap ten zawiera automatyczną identyfikację i klasyfikację
elementów występujących na stronie. Proces ten jest również jest określanym mianem segmentacji (ang. segmentation) lub wykonaniem podziału na strefy (ang. zoning). Rodzaj ekstrahowanych elementów ze strony jest
uzależniony od typu dokumentu. W przypadku gazet i czasopism są to: tekst, tytuł, tytuł inwersyjny, linia pozioma, linia pionowa, zdjęcia, grafika.
Binaryzacja (ang. binarization)
Etap ten polega na zamianie obrazu rastrowego z odcieni szarości na obraz binarny (wartość piksela zapisywana jest na 1 bicie).
Do wielu dokumentów historycznych stosuje się dodatkowe, specjalizowane algorytmy. Michael Droettboom w swojej pracy Correcting broken characters in the recognition of historical printed documents [Droettboom 2003, dok. elektr.] proponuje korektę poprzerywanych znaków. Badania nad tym zagadnienie były
prowadzone w ramach projektu GAMERA, którego celem jest stworzenie narzędzia do rozpoznawania tekstów
w dokumentach humanistycznych. Artykuł prezentuje algorytm, które ponownie łączy przerwane elementy znaków. Dzięki temu mogą one następnie zostać poprawnie zidentyfikowane przez system OCR. Algorytm zastosowano do publikacji Statistical Accounts of Scotland, która została wydrukowana w 1799 r. Badania przeprowadzono na pięciu stronach z tej publikacji. Na wstępie dokonano podliczenia poprawnych (pełnych) znaków
oraz uszkodzonych (przerwanych lub stykających się ze sobą). Wyniki były następujące:
•
pełne znaki
81.3%
3903
9
Seria III: ePublikacje Instytutu INiB UJ. Red. Maria Kocójowa
Nr 7 2010: Biblioteki, informacja, książka: interdyscyplinarne badania i praktyka w XXI wieku
•
przerwane znaki
10.7%
•
znaki przerwane zgodnie z regułami pisowni (i, j, ;, : itd.)
6.2%
•
znaki stykające się ze sobą (scalone)
1.8%
Algorytm BCC (ang. broken character connection) prawidłowo odnalazł 71% przerwanych znaków. Po dodatkowym „nauczeniu” i wskazaniu przykładowych przerwanych znaków z publikacji rozpoznanie wzrosło do
91%. Algorytm również prawidłowo rozpoznał znaczną część znaków, które zgodnie z regułą pisowni składają
się z dwóch części (i, j, ;,;) – rozpoznał i prawidłowo połączył 93%.
8. WSPOMAGANIE PROCESU ROZPOZNAWANIA TEKSTU – KOREKTA
Korekta post-OCR bazuje na słownikach. Część systemów OCR (ABBYY FineReader, ExperVision TypeReader & OpenRTK, OmniPage) jest wyposażona w słowniki w różnych językach. Do innych trzeba dołączać
słownik zewnętrzny. Jakość korekty jest determinowana przez jakość słownika. Systemy OCR porównują każdy
wyraz z rozpoznawanego tekstu z wystąpieniami słowniku. Może się zdarzyć, że wyraz zostanie błędnie rozpoznany, a jego wystąpienie zostanie znalezione w słowniku. Zjawisko to określane jest mianem false friend. Idealny (czysto hipotetycznie) słownik to taki, który zawiera wyłącznie wyrazy znajdujące się w sprawdzanym tekście. Jeżeli będzie liczył ich mniej, wówczas część wyrazów nie zostanie rozpoznana. Jeżeli słownik będzie zbyt
obszerny – sprawdzanie wydłuży się. Dodatkowo zbyt duża liczba podpowiedzi może spowodować, że zostanie
wybrana nieodpowiednia propozycja.
Korekta post-OCR może odbywać się w dwóch trybach:
•
Półautomatycznym – tekst jest rozpoznawany i porównywany ze słownikiem, a następnie wyrazy nierozpoznane zostają wyróżniane. W kolejnym etapie dla wyrazów nierozpoznanych są wyświetlane propozycje. Konieczna jest ingerencja operatora (człowieka), który wybiera odpowiednie wyrażenie.
•
Automatycznym – w pełni automatyczna korekta nie wymaga obecności człowieka. Oczywiście, zaletą
takiego rozwiązania jest szybkość działania: duże zbiory danych mogą zostać poprawione w krótkim
czasie. Automatyczna korekta post-OCR odbywa się w trzech etapach: tokenizacja – system OCR generuje wyrazy, wyszukiwanie słów w słowniku, korekta – zostają podstawione odpowiednie terminy ze
słownika [Hauser 2007, dok. elektr.]:.
Podstawą korekty wydawnictw historycznych jest posiadanie odpowiednich słowników. Odpowiednich,
a więc zawierających historyczne słownictwo, idealnie z formami fleksyjnymi. Zasięg chronologiczny słownika
oraz korygowanego dokumentu powinien się pokrywać. Wiele krajów posiada takie słowniki, które wykorzystywane są do korekty post-OCR dokumentów historycznych. Warto wspomnieć o słowniku niemieckim Hunspell de_DE. Należy on do najobszerniejszych słowników, zawierających również słownictwo historyczne. Jego
zasięg chronologiczny obejmuje okres od 19. wieku do współczesności. Ma status Open Source i jest również
wykorzystywany jest do sprawdzania pisowni w innych program Open Source: OpenOffice, Firefox, Thunderbird. Słownik składa się z dwóch plików: w jednym zostały umieszczone formy podstawowe, w drugim reguły
fleksyjne. Łącznie liczy 1 500 000 słów. Wersja francuska Hunspell fr_FR zawiera również 1 500 000 terminów
z okresu od 14. do 17. wieku.
Kolejnym niemieckim słownikiem jest Deutsches Wörterbuch (DWB), którego tworzenie rozpoczęli bracia
Jacob i Wilhelm Grimm w roku 1854. Obejmuje okres od 16. do 19. wieku i liczy 300 000 słów, a także wiele
3913
9
Seria III: ePublikacje Instytutu INiB UJ. Red. Maria Kocójowa
Nr 7 2010: Biblioteki, informacja, książka: interdyscyplinarne badania i praktyka w XXI wieku
artykułów i cytatów dokumentujących użycie słów. Do korekty wykorzystuje się dwa słowniki. Obok słownika
głównego używa się słownika uzyskanego z korpusu zawierającego artykuły ze słownika.
Korpusy językowe często stanowią podstawę tworzenia słowników z terminami historycznymi. Piotrowski
definiuje korpus jako „zbiór tekstów zapisanych w postaci cyfrowej i stanowiących reprezentatywną próbkę danego języka. Korpus różni się od dowolnego zbioru tekstów tym, że stanowi pewną przemyślaną całość. Cechą
wyróżniającą korpusów komputerowych jest też ich rozmiar” [Piotrowski 2003]. Największe tworzone obecnie
korpusy językowe zawierają powyżej 500 milionów słów. Przykładem takiego korpusu jest Bank of English lub
Collins-Cobuild Corpus. Służą one głównie badaczom języka, np. do obserwacji zachodzących w nim zmian,
oraz twórcom słowników lub opracowań gramatycznych. Również w Polsce dostępnych jest kilka korpusów
językowych. Niestety, są one budowane w oparciu o słownictwo współczesne:
•
Korpus Języka Polskiego Wydawnictwa Naukowego PWN (http://korpus.pwn.pl). Wydawnictwo Naukowe PWN przygotowało i udostępniło sieciową wersję Korpusu Języka Polskiego PWN wielkości
40 milionów słów. Korpus składa się z fragmentów 386 różnych książek, 977 numerów 185 różnych
gazet i czasopism, 84 nagranych rozmów, 207 stron internetowych oraz kilkuset ulotek reklamowych.
Pełna wersja sieciowa korpusu jest dostępna odpłatnie, a bezpłatnie wersja demonstracyjna wielkości
ponad 7,5 miliona słów. Większość tekstów pochodzi z lat 1990–2005.
•
Narodowy Korpus Języka Polskiego (http://nkjp.pl). Narodowy Korpus Języka Polskiego jest wspólną
inicjatywą Instytutu Podstaw Informatyki PAN (koordynator), Instytutu Języka Polskiego PAN, Wydawnictwa Naukowego PWN oraz Zakładu Językoznawstwa Komputerowego i Korpusowego Uniwersytetu Łódzkiego, zarejestrowaną jako projekt badawczy rozwojowy Ministerstwa Nauki i Szkolnictwa
Wyższego. Lista źródeł korpusu zawiera nie tylko klasykę literatury polskiej, ale też prasę codzienną
i specjalistyczną, nagrania rozmów, teksty ulotne i internetowe. Kilka pozycji jest z wieku 19., większość pochodzi z wieku 20. i początku 21.
•
Korpus PELCRA (http://pelcra.ia.uni.lodz.pl). Korpus referencyjny języka polskiego PELCRA składa
się z około 100 000 000 słów, reprezentujących rejestry polszczyzny pisanej oraz mówionej. Korpus
PELCRA jest korpusem współczesnej polszczyzny, 95% zawartych w nim tekstów pochodzi z lat
1992–2003.
•
Korpus IPI PAN (http://korpus.pl). Korpus IPI PAN jest dużym (obecnie ponad 250 milionów segmentów), anotowanym morfosyntaktycznie, publicznie dostępnym korpusem języka polskiego, stworzonym
przez Zespół Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki PAN (IPI PAN), w ramach
projektów Komitetu Badań Naukowych oraz w ramach badań statutowych IPI PAN. Teksty wchodzące
w skład Korpusu IPI PAN są dostępne w postaci binarnej, umożliwiającej łatwe i efektywne przeszukiwanie za pomocą dedykowanego oprogramowania o nazwie Poliqarp.
Warto również wspomnieć o trzech słownikach języka polskiego, które stanowiłyby znakomity punkt wyjścia do stworzenia słownika historycznego. Są to:
•
Słownik języka polskiego (1807–1814) w 6. tomach Samuela B. Lindego – pierwszy słownik jednojęzyczny języka polskiego. Znajduje się w nim ok. 60 000 haseł, przy czym jako jedyny jednojęzyczny
słownik języka polskiego zawiera on ok. 2 000 nazw własnych. Obejmuje słownictwo od wieku 16. do
początków 19. Pojedyncze hasło zawiera, oprócz wyrazu hasłowego, warianty ortograficzne tego wyrazu oraz, w kolejnych znaczeniach, kwalifikatory gramatyczne (stosowane zgodnie z gramatyką łaciń-
3923
9
Seria III: ePublikacje Instytutu INiB UJ. Red. Maria Kocójowa
Nr 7 2010: Biblioteki, informacja, książka: interdyscyplinarne badania i praktyka w XXI wieku
ską), odpowiedniki w innych językach słowiańskich, polską definicję, ekwiwalenty niemieckie. We
wszystkich znaczeniach znajdują się cytaty, dość dokładnie zlokalizowane, zaczerpnięte z dzieł 400 pisarzy. Na końcu podane są derywaty słowotwórcze. Zarówno znaczenia, jak i cytaty, porządkowane są
logicznie, od konkretnych do abstrakcyjnych i wyspecjalizowanych, np. naukowych. Słownik... jest dostępny w postaci elektronicznej w Kujawsko-Pomorskiej Bibliotece Cyfrowej (w formacie DjVu).
•
Słownik wileński (1861, Wilno, przedrukowany Warszawa 1986). Ten liczący około 110 000 haseł dwutomowy słownik poszedł dalej, jeśli idzie o bogactwo zarejestrowanej leksyki, ukazanie jej zróżnicowania stylistycznego dzięki rozbudowanym kwalifikatorom, a przede wszystkim dzięki notowaniu
słownictwa regionalnego (zwłaszcza kresowego) i kolokwialnego. W odróżnieniu od wielu słowników
wcześniejszych, a zwłaszcza Lindego, hasła są w Słowniku wileńskim ułożone ściśle alfabetycznie.
Użyto także wielkiej liczby kwalifikatorów, których lista znajduje się na początku Słownika..., czego
wcześniej nie stosowano. Hasła obejmują niemal wszystkie hasła ze słowników Lindego i Mrongowiusza. Ze słownika Lindego nie przejęto niektórych wyrazów przestarzałych. Prawie 2 000 haseł jest
oznaczonych jako gwarowych, a słownik zawiera wiele dialektyzmów ze wschodnich terenów Polski
oraz Litwy, jak też wiele wyrazów potocznych oraz naukowych. Słownik został częściowo zdigitalizowany i jest dostępne pod adresem http://swil.zozlak.org
•
Słownik warszawski jest największym ze wszystkich słowników wydanych na początku 19. wieku
w Polsce. Zawiera prawdopodobnie ok. 280 000 haseł (dokładnych danych brak). Słownik warszawski
wchłonął materiał wcześniejszych słowników, przede wszystkim Lindego oraz słownika gwar Karłowicza, dodając wybór wyrazów z tekstów średniowiecznych, nie odnotowanych przez Lindego. Obejmuje
więc słownictwo od polszczyzny średniowiecznej do 19. wieku, wszystkich warstw społecznych i wszystkich odmian stylistycznych. Dlatego można znaleźć w nim np. gwarę złodziejską i wyrażenia obsceniczne. Notowane są w nim warianty wyrazów (ortograficzne i fleksyjne), przy czym dyskretnie podaje się wskazówki poprawnościowe, w formie ostrzeżeń dla użytkownika przed posługiwaniem się danym wyrazem lub jego formą. Słownik jest dostępny w postaci elektronicznej w Ebibliotece Uniwersytetu Warszawskiego (w formacie DjVu).
Z pewnością budowa polskiego słownika historycznego przyczyniłaby się do szybszego OCR-u wydawnictw historycznych.
9. WSPOMAGANIE PROCESU ROZPOZNAWANIA TEKSTU
– KOREKTA SPOŁECZNA
Coraz częściej do pracy w sieci wykorzystuje się społeczności. Jeff Howe użył w czerwcu 2006 r. w artykule do magazynu „Wired” neologizmu crowdsourcing. Oznacza on przypisywanie tradycyjnych obowiązków pracowników najemnych grupie (crowd – z ang. tłum; sourcing – z ang. czerpanie źródeł) ludzi lub społeczności.
[Crowdsourcing, dok. elektr.]. Zjawisko to jest również wykorzystywane do prowadzenia korekty post-OCR. Do
pionierskich działań tego rodzaju należy projekt Distributed Proofreaders (http://www.pgdp.net/c/), [Distributed
Proofreaders, dok. elektr.]. Celem założonego przez Charlesa Franksa projektu w 2000 r. było wsparcie Projektu
Gutenberg. Publikacje o statusie Public Domain są najpierw skanowane, a następnie OCR-owane. Ich jakość jest
niezadowalająca, dlatego teksty przed publikacją muszą być korygowane. Dokonują tego wolontariusze pracujący nad książkami w sieci. Na stronie internetowej, obok zeskanowanej strony, pojawia się tekst do korekty. Pro-
3933
9
Seria III: ePublikacje Instytutu INiB UJ. Red. Maria Kocójowa
Nr 7 2010: Biblioteki, informacja, książka: interdyscyplinarne badania i praktyka w XXI wieku
jekt Distributed Proofreaders posiada własne oprogramowanie, a także forum i wiki. Każda strona jest sprawdzana wielokrotnie, a następnie udostępniana w Internecie. Do maja 2009 r. powstało 15000 tekstów skorygowanych przez współuczestników projektu DP.
Na bardzo szczególną metodę korekty tekstów post-OCR wpadli twórcy projektu reCAPTCHA [Ahn 2008].
Postanowili oni zmodyfikować technologię stosowaną do weryfikacji osób i maszyn – CAPTCHA (Completely
Automated Public Turing test to tell Computers and Humans Apart). CAPTCHA stosowana jest często podczas
przesyłania danych przy pomocy formularzy. Test ten chroni przed masowym przesyłaniem wiadomości przez
automaty. Spotyka się go przy zakładaniu kont w serwisach, forach dyskusyjnych, wysyłaniu wiadomości, wpisywaniu komentarzy. CAPTCHA stosowana jest najczęściej w formie wyświetlanych znaków (cyfr, liter) lub
wyrazów w postaci rastrowej. Jest ona poddana zniekształceniom, co ma to chronić serwis internetowy przed
użyciem oprogramowania OCR. System ten jest używany częściej aniżeli 100 milionów razy dziennie.
ReCAPTCHA spełnia identyczną funkcję co wspomniana wyżej CAPTCHA, dodatkowo jednak pomaga
w korekcie OCR-wanego tekstu. Zamiast jednego, użytkownik proszony jest o przepisanie dwóch wyrazów.
Jeden z nich jest wyrazem kontrolnym, służących weryfikacji, drugi natomiast jest wyrazem pochodzącym z korekty post-OCR.
Twórcy projektu do rozpoznania tekstu na etapie OCR-u wykorzystywali dwa niezależne programy OCR.
Każdy wyraz, który został rozpoznany różnie przez każdy z dwóch programów, albo taki, którego nie ma
w słowniku języka angielskiego, został oznaczony jako „podejrzany”. Wedle statystyk, 96% wyrazów podejrzanych jest rozpoznawanych nieprawidłowo przynajmniej przez jeden z programów OCR. Podejrzany wyraz jest
zapisywany jako obraz i podsyłany z drugim wyrazem, którego znaczenie jest znane. Użytkownik jest proszony
o wpisanie dwóch wyrazów: kontrolnego oraz wyrazu nieznanego. Ten sam wyraz nieznany jest wysyłany do
różnych użytkowników, za każdym razem z innym zniekształceniem. Jeżeli trzy pierwsze osoby rozpoznają wyraz tak samo, staje się on wyrazem kontrolnym. W przeciwnym wypadku (jeżeli zaistnieją rozbieżności), system
przesyła wyraz nieznany kolejnym użytkownikom. Jeżeli sześciu użytkowników zażąda nowej pary wyrazów,
wówczas wyraz zostaje oznaczony jako „nieczytelny”.
System reCAPTCHA okazał się bardzo skuteczny. Do celów statystycznych wybrano 50 przypadkowych
artykułów z czasopisma „New York Times” z różnych lat (1860, 1865, 1908, 1935 i 1970). Ogólna liczba słów
do rozpoznania wyniosła 24 080. Po podliczeniu wyników okazało się, że system działa ze skutecznością 99,1%
(216 błędów na 24 080 słów). Skuteczność systemu OCR (bez korekty) wyniosła 83.5% (3 976 błędów). Po roku
funkcjonowania systemu użytkownicy rozpoznali 1,2 miliarda CAPTCHA pomagając rozszyfrować ponad 444
milionów podejrzanych wyrazów, co daje średnio 17 600 książek.
Rose Holley w swoim artykule Many Hands Make Light Work: Public Collaborative OCR Text Correction
in Australian Historic Newspapers [Holley 2009, dok. elektr.] opisuje społeczną korektę tekstu post-OCR, wykonywaną w ramach projektu ANDP (Australian Newspapers Digitisation Program). Celem projektu jest digitalizacja australijskich czasopism historycznych z lat 1803–1954. Nie są one obciążone prawami autorskimi, dzięki czemu pełne teksty można udostępnić czytelnikom. Uczestnicy projektu od początku borykali się z niską jakością materiałów wyjściowych. Pierwsze australijskie gazety były drukowane na maszynach drukarskich, które
zostały wycofane z użycia w Anglii. Problemem był również brak odpowiedniego papieru. Wyniki projektu zostały udostępnione w wersji beta w lipcu 2008 r. Zasób liczył wówczas 3,5 miliona artykułów (360 000 stron
czasopism). Docelowo w 2011 r. ma być przygotowanych 40 milionów artykułów (4,4 mln stron czasopism).
3943
9
Seria III: ePublikacje Instytutu INiB UJ. Red. Maria Kocójowa
Nr 7 2010: Biblioteki, informacja, książka: interdyscyplinarne badania i praktyka w XXI wieku
Dzięki zastosowaniu korekty społecznej udało się poprawić część tekstów. Początkowo grupa społecznych korektorów liczyła 1 300 osób. W ciągu pierwszych 6 miesięcy istnienia systemu skorygowali oni 2 miliony wierszy tekstu w 100 000 artykułach. Skorygowane dane opublikowano w styczniu 2009 r.
Holley zwraca uwagę na istotne zalety, ale również zagrożenia związane ze społeczną korektą tekstów:
•
potencjalny wandalizm (korektorzy będą celowo wprowadzali błędy do tekstu),
•
duże zużycie bazy/zasobów serwerów z powodu masowego dostępu,
•
użytkownicy nie zechcą korygować tekstów i czas przeznaczony na korektę będzie zmarnowany,
•
użytkownicy nie zrozumieją koncepcji korygowania tekstu post-OCR,
•
użytkownicy „wystraszą się” pełnego błędów, niekiedy mało zrozumiałego tekstu.
10. PODSUMOWANIE
OCR publikacji historycznych jest bardzo trudnym zadaniem, są jednak technologie, które ten proces wspierają. Istnieje wiele rozwiązań programistycznych, ciągle pojawiają się nowe algorytmy. Podstawowym narzędziem wykorzystywanym przy korekcie post-OCR tekstów pozostają słowniki. Ciągle brakuje polskich słowników z terminami historycznymi, które mogłyby w znaczny sposób ułatwić i przyspieszyć proces rozpoznawania
tekstów. Ważnym pomysłem jest praca społeczna nad korektą tekstów. Coraz częściej biblioteki cyfrowe sięgają
po tę technologię. Zaletą są niewielkie nakłady finansowe i promocja cyfrowych wydawnictw. Również w Polsce warto rozpowszechnić podobne projekty.
WYKORZYSTANE ŹRÓDŁA I OPRACOWANIA
Ahn von L.; B. Maurer; B. McMillen B.; D. Abraham; M. Blum (2008). reCAPTCHA: Human-Based Character Recognition
via Web Security Measures. Science Vol. 321, p. 1465–1468.
Archaizm. [W:] Wikipedia. The free encyclopedia. http://pl.wikipedia.org/wiki/Archaizm [odczyt: 29.03.2010].
Barański, A., dok. elektr. (2006). Kwaśny papier. http://www3.uj.edu.pl/alma/alma/82/09.pdf [odczyt: 29.03.2010].
Bednarek, G., dok. elektr. (2008). Format DjVu a problem digitalizacji gazet i czasopism.
http://www.djvu.com.pl/galeria/UJ/Gazety_czasopisma.php [odczyt: 29.03.2010].
Bieniecki, W., dok. elektr. (2005). Analiza wymagań dla metod przetwarzania wstępnego obrazów w automatycznym rozpoznawaniu tekstu. http://wbieniec.kis.p.lodz.pl/research/files/05_Bronislawow_OCR.pdf [odczyt: 29.03.2010].
Crowdsourcing. [In:] Wikipedia. The free encyclopedia. http://pl.wikipedia.org/wiki/Crowdsourcing [odczyt: 29.03.2010].
Distributed Proofreaders. [In:] Wikipedia. The free encyclopedia. http://en.wikipedia.org/wiki/Distributed_Proofreaders
[odczyt: 29.03.2010].
Droettboom, M., dok. elektr. (2003), Correcting Broken Characters in the Recognition of Historical Printed Documents.
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.93.7866&rep=rep1&type=pdf [odczyt: 29.03.2010].
EDL Report on Digitisation in European National Libraries 2006–2012 (2008).
http://www.cenl.org/docs/Report_digitisation_NLs.pdf [odczyt: 29.03.2010].
Eikvil, L., dok. elektr. (1993). OCR – Optical Character Recognition. Report No. 876. http://www.nr.no/~eikvil/OCR.pdf
[odczyt: 29.03.2010].
Hauser, W.A., dok. elektr. (2007). OCR Postcorrection of Historical Texts.
http://www.cip.ifi.lmu.de/~hauser/papers/histOCRNachkorrektur.pdf [odczyt: 29.03.2010].
3953
9
Seria III: ePublikacje Instytutu INiB UJ. Red. Maria Kocójowa
Nr 7 2010: Biblioteki, informacja, książka: interdyscyplinarne badania i praktyka w XXI wieku
Holley, R. dok. elektr. (2009). Many Hands Make Light Work: Public Collaborative OCR Text Correction in Australian Historic Newspapers. http://www.nla.gov.au/ndp/project_details/documents/ANDP_ManyHands.pdf [odczyt: 29.03.2010].
Impact: Improving access to text: Concept, dok. elektr., http://www.impact-project.eu/about-the-project/concept/ [odczyt:
29.03.2010].
Lin, L., dok. elektr. (2009). Improving Digital Library Support for Historic Newspaper Collections.
http://researchcommons.waikato.ac.nz/bitstream/10289/3262/1/thesis.pdf [odczyt: 29.03.2010].
Łotewski, T., dok. elektr. Kwaśny papier – chemiczna katastrofa w bibliotekach.
http://kangur.uek.krakow.pl/biblioteka/konferencja/Aktualnosci/005.pdf [odczyt: 29.03.2010].
OCR-A. [In:] Wikipedia. The free encyclopedia. http://en.wikipedia.org/wiki/OCR-A [odczyt: 29.03.2010].
OCR-B. [In:] Wikipedia. The free encyclopedia. http://en.wikipedia.org/wiki/OCR-B [odczyt: 29.03.2010].
Piotrowski T. (2003). Językoznawstwo korpusowe – wstęp do problematyki. [W:] Gajda S. Językoznawstwo w Polsce. Stan
i perspektywy. Wydaw. Uniwersytetu Opolskiego.
Piotrowski T., dok. elektr. (2005). Digitization of Polish Historic(al) Dictionaries. Review of the National Center for Digitization Issue 6. http://www.ncd.matf.bg.ac.yu/casopis/06/Piotrowski/Piotrowski.pdf [odczyt: 29.03.2010].
Tanner, S.; T. Muñoz; P.H. Ros, dok. elektr. (2009). Measuring Mass Text Digitization Quality and Usefulness. D-Lib Magazine. http://www.dlib.org/dlib/july09/munoz/07munoz.html [odczyt: 29.03.2010].
Vamvakas G.; B. Gatos; N. Stamatopoulos; S.J. Perantonis, dok. elektr. (2008). A Complete Optical Character Recognition
Methodology for Historical Documents. The Eighth IAPR International Workshop on Document Analysis Systems.
http://iit.demokritos.gr/~bgat/3337a525.pdf [odczyt: 29.03.2010].
3963
9

Podobne dokumenty