Skanowanie OCR w aplikacji „Kancelaria Komornika”

Transkrypt

Skanowanie OCR w aplikacji „Kancelaria Komornika”
Skanowanie OCR
w aplikacji „Kancelaria Komornika”
Instrukcja dla użytkownika
Spis treści
1. Zakładka „Wyrażenia” .................................................................................. 3
2. Zakładka „Grupy wyrażeń” ........................................................................... 5
3. Opcje Skanowania / OCR ............................................................................ 7
4. Rozpoznawanie Danych .............................................................................. 8
5. Wyrażeni regularne .................................................................................... 10
1. Zakładka „Wyrażenia”
Zakładka wyrażenia służy do definiowania reguł rozpoznawania dokumentów.
Reguła to…..
Dodana została kolumna „Nazwa”. Nazwa używana jest podczas
dodawania wyrażenia do grupy. Usunięte zostały kolumny „pomiń z początku” i „pomiń
z końca”, które służyły do zawężenia zwracanej wartości. Teraz można to zrobić poprzez
umieszczenie części wyrażenia pomiędzy znacznikami „<<!” oraz „!>>”.
 Przykład :
(?i)(((sygn[\.]*)|(sygnatura))\s*akt:*)\s*<<![IVX]+\s*[0-9A-Za-z]{1,4}\s*[0-9]{1,8}/[0-9]{2}!>>
- dopasowuje całość wyrażenia, ale zwracane jest jedynie:
[IVX]+\s*[0-9A-Za-z]{1,4}\s*[0-9]{1,8}/[0-9]{2}
Rysunek 1 Zakładka „Wyrażenia”

„Typ wyrażenia” – sposób w jaki wyszukane dane mają być interpretowane:

„Sygnatura sprawy” – dane interpretowane jako sygnatura sprawy;

„Opis skanu” – dane interpretowane jako opis skanu;

„Kod kreskowy” – dane interpretowane jako kod kreskowy pisma lub
koperty zwrotki;

„Pesel” – dane interpretowane jako pesel dłużnika. Jeżeli zostanie
znaleziony dłużnik tylko w jednej sprawie to skan zostanie dopasowany
do znalezionej sprawy;

„Tytuł wykonawczy” – dane interpretowane jako tytuł wykonawczy.
Dopasowanie skanu do sprawy po tytule wykonawczym.
Jeżeli w wyniku kilku warunków zostanę znalezione różne sprawy, zostanie ustawiony
status błędu dla skanu i nie będzie można zatwierdzić rozpoznanych danych.

„Nazwa” – nazwa wyrażenia wyświetlana z zakładce grupy wyrażeń;

„Wyrażenie” – wyszukiwane wzorzec;


„?” – podpowiedź;
„Typ skanu” – jeżeli wzorzec zostanie znaleziony, to taki typ skanu zostanie
ustawiony;

„Opis skanu” - jeżeli wzorzec zostanie znaleziony, to taki opis skanu zostanie
ustawiony;

„Aktualizuj” – aktualizuje wyrażenie wartościami z pól edycji. Wyrażenia
można edytować z poziomu tabeli;

„Dodaj” – dodaje nowe wyrażenie wypełnione podanymi danymi. Jeżeli podana
nazwa już istnieje wyświetlony zostanie komunikat i akcja zostanie przerwana;

„Usuń” – usuwa zaznaczone wyrażenie. Wyświetlone zostanie okno proszące
o potwierdzenie akcji, informujące o ilości grup, w których dane wyrażenie jest
wykorzystywane.
2. Zakładka „Grupy wyrażeń”
Została dodana zakładka „Grupy wyrażeń”. Grupa wyrażeń jest to zbiór wyrażeń,
które będą wyszukiwane podczas rozpoznawania dokumentów. W zakładce import pod
przyciskiem rozpoznaj znajduje się pole wyboru, w którym należy wybrać jaka grupa
wyrażeń będzie użyta do rozpoznania. Żeby stworzyć nową grupę należy w polu „Nazwa:
wprowadzić nazwę grupy (jeżeli podana nazwa już istnieje pojawi się komunikat),
następnie należy dodać do niej wyrażenia. Wybieramy nazwę zdefiniowanego wcześniej
wyrażenia i dodajemy. To samo wyrażenie w danej grupie może znajdować się tylko raz,
więc przy próbie ponownego dodania istniejącego już wyrażenia nic się nie stanie. W
obrębie grupy ważna jest kolejność w jakiej umieszczone są wyrażenia, ponieważ jeżeli
wyrażenie danego typu zostanie rozpoznane, pozostałe (tego samego typu) już nie są
rozpoznawane.
Rysunek 2 Zakładka „Grupy wyrażeń”

Pole „Grupy”:

„Nazwa” – nazwa nowej grupy;

„Dodaj” – dodaj grupę. Podana nazwa musi być unikalna. Nazwę grupy
można edytować z poziomu tabeli. Jeżeli nazwa się powtarza
wyświetlany jest komunikat;


„Usuń” – usuwa zaznaczoną grupę.
Pole „Wyrażenia”:

„Nazwa” – pole wyboru z którego można wybrać wyrażenie
zdefiniowane w zakładce „Wyrażenia”;

„Dodaj” – dodaje wybrane wyrażenie do zaznaczonej grupy wyrażeń.
Jeżeli wybrane wyrażenie już występuje to nic nie zostanie dodane;


„Usuń” – usuwa zaznaczone wyrażenie z grupy.
„/\” i „\/”
- przesuwa zaznaczone wyrażenie pozycje w górę lub w dół. Przy
rozpoznawaniu ważna jest kolejność wyrażeń. Dla danego typu wyrażenia brane
pod uwagę jest pierwsze rozpoznane, a następne są pomijane.
3. Opcje Skanowania / OCR
Poniżej opisano opcje skanowania:

„Domyślne źródło skanowania” – plik lub skaner – Jeżeli nazwa skanera nie
jest wybrana, to opcja skaner jest zablokowana. Jeżeli zaznaczona jest opcja

„skaner” to najpierw jest wykonywane skanowanie dokumentów do folderu
skanów, a następnie wykonywane jest rozpoznawanie zeskanowanych plików.

„Parametry skanowania”:

„Nazwa” – nazwa skanera który ma zostać użyty. Jeżeli żadna nazwa
nie jest wybrana to opcje dotyczące skanera są zablokowane;

„Tryb” – (czarno-biały, kolorowy, skala szarości) – docelowe kolory dla
skanu;

„Opcje urządzenia”:

„Wyświetl okno skanowania” – przed skanowaniem zostanie
wyświetlone okno konfiguracji urządzenia;


„DPI” - jakość z jaką zostaną zeskanowane dokumenty;

„Format” – format pliku do jakiego dokument zostanie zeskanowany;

„Podajnik” – czy skaner korzysta z podajnika;
„Rozpoznawanie dokumentów (OCR)”:

„Włącz funkcję OCR” – (wymagana biblioteka LeadTools) –włączenie
funkcji rozpoznawanie treści skanowanych dokumentów;

„Pokaż komunikat o braku licencji” – jeżeli w danym momencie z
funkcji OCR chce korzystać więcej stanowisk niż jest wykupionych
licencji, pojawi się komunikat o braku możliwości skorzystania z funkcji
OCR;

„Automatyczne rozpoznawanie treści” – czy treść dokumentów ma
być automatycznie rozpoznana zaraz po wczytaniu skanów;

„Automatycznie zatwierdzaj dla rozpoznanych” – czy rozpoznane
dane mają być automatycznie zatwierdzone dla skanu. Jeżeli opcja jest
niezaznaczona czynność trzeba będzie wykonać z poziomu menu
kontekstowego;

„OCR DPI” – jakość z jaką zostaną zeskanowane dokumenty dla funkcji
rozpoznawania treści (OCR).
Rysunek 3 Opcje skanowania / OCR
4. Rozpoznawanie Danych
Pod przyciskiem „Rozpoznaj dodane” zostało pole wyboru grupy wyrażeń. Do
rozpoznawania danych brane są pod uwagę tylko wyrażenia, które przypisane są do
danej grupy.
Po najechaniu kursorem myszy na wiersz w tabeli skanów, wyświetla się okno
informujące o rozpoznanych danych dla danego skanu. Po lewej stronie znajduje się
typ wyrażenia jakie zostało rozpoznane, a po prawej stronie wartość jaka została
znaleziona. Jeżeli żadne dane nie zostaną rozpoznane wyświetli się informacja „nie
rozpoznano”.
Rysunek 4 Okno informacji dla skanu
Jeżeli wystąpi jakiś błąd podczas rozpoznawania, okno informacyjne będzie miało kolor
czerwony, a na dole pojawi się informacja dotycząca błędu.
Rysunek 5 Okno informacji dla skanu (błąd)
Do tabeli skanów zostało dodane menu kontekstowe :
Rysunek 6 Menu kontekstowe tabeli skanów
Jeżeli opcja automatycznego zatwierdzania danych jest wyłączona po wykonaniu
rozpoznawania danych trzeba przypisać rozpoznane dane do skanów. Z poziomu
menu można to wykonać dla zaznaczonych pozycji lub dla wszystkich pozycji. Jeżeli
rozpoznane dane mają status błędu (okno informacyjne na czerwono) to dane nie
zostaną zatwierdzone.
5. Wyrażeni regularne
Tabela 1 - Wyrażenia regularne zmienne znakowe:
Operator
Opis
Wyrażenie Dopasowanie
[grupa_znaków]
Dopasowuje pojedynczy znak
[a]
„a” w „las”
[ls]
„l”, „s” w „las”
[a-d]
„c”, „a” w „cena”
[1-5]
„3”, „5” w „0356”
pasujący go zadanej grupy
znaków
[^grupa_znaków]
Negacja – dopasowuje
[^a]
„l”, „s” w „las”
[^ls]
„s” w „las”
[^a-d]
„e”, „n” w „cena”
[^1-5]
„0”, „6” w „0356”
\s
„
pojedynczy znak nie pasujący
do zadanej grupy znaków
\s
Dopasowuje pojedynczy
‘biały znak’ czyli spacja,
” w „Ala ma kota”
tabulator, znak nowej linii
\S
Dopasowuje pojedynczy znak
\S
„m”, „a” w „ ma”
drukowalny (nie biały znak)
\d
Dopasowuje cyfrę
\d
„1”, „3” w „1dwa3”
\D
Dopasowuje znak różny od
\D
„d” w „1dwa3”
cyfry
\w
Dopasowuje Litery i cyfry
\w
„a”, „3” w „a .3”
\W
Dopasowuje Białe znaki i
\w
„ ”, „.” w„a .3”
znaki interpunkcyjne
\r
Znak nowej linii
\n
Znak powrotu karetki
.
Dowolny znak
\.
Znak ‘.’
Tabela 2 - Wyrażenia regularne krotność wystąpień:
Operator
Znaczenie
?
Dopasowuje poprzedzające wyrażenie 0 lub 1 raz
*
Dopasowuje poprzedzające wyrażenie zero lub więcej razy
+
Dopasowuje poprzedzające wyrażenie jeden lub więcej razy
{n}
Dopasowuje poprzedzające wyrażenie dokładnie n razy
{n,}
Dopasowuje poprzedzające wyrażenie n razy lub więcej
{n, m}
Dopasowuje poprzedzające wyrażenie n razy lecz nie więcej niż m
razy
Tabela 3 - Wyrażenia regularne dodatkowe opcje:
Operator
Znaczenie
(wyrażenie)
Tworzenie z części wyrażenia pojedynczej grupy aby traktować ją jako
całość np.
W wyrażeniu sygn.. akt? Znak ‘?’ dotyczy tylko litery ‘t’ Jeżeli chcemy
żeby znak ‘?’ dotyczył całości musimy napisać
(sygn. akt)?
Lub, czyli jeżeli chcemy wybrać jedną z kilku opcji np.
|
(sygn\.|sygnatura) będzie szukał ciągu sygn. lub sygnatura
(?i)
Wyłączenie rozróżniania wielkości liter
(?-i)
Włączenie rozróżniania wielkości liter
Krotność wystąpień dotyczy wyrażenia poprzedzającego i określa ile znaków ma
zostać dopasowanych. Ważne jest, że zostanie znaleziony pierwszy ciąg, jaki pasuje
do podanego wzorca. Najczęściej jest to mylące przy operatorach „*” i „?”, które nie
wymagają dopasowania żadnego elementu i mogą zwrócić wynik inny niż oczekiwany.
Przykłady:
[0-9]{4} – szuka 4 cyfr
[a-zA-Z0-9]{5,10} szuka ciągu znaków (liter małych i dużych oraz cyfr). Ciąg musi mieć
długość od 5 do 10 znaków
\d{4}.\d{2}.\d{2} – przykładowy format daty np. 2014-01-01. Znak ‘.’ Ponieważ ‘.’
oznacza dowolny znak ciąg ‘1234567890’ również pasuje do tego wzorca. Żeby
zawęzić do separatorów daty można napisać:
\d{4}[\.\\/-]\d{2}[\.\\/-]\d{2}
W tym przypadku jako separator zostały podane znaki ‘.’, ‘\’, ‘/’, ‘-’ ponieważ znaki ‘.’ i ‘\’
są znakami specjalnymi muszą zostać poprzedzone znakiem ‘\’ czyli ‘\.’ i ‘\\’
Km[s,p]?\s*[0-9]{1,8}[A-Z]?/[0-9]{2}

Km – musi zawierać ciąg Km;

[s,p]? litery s lub p występujące 0 lub jeden raz;

Km[s,p]? da kombinację Km (brak wystąpienia s lub p) , Kmp (pojedyncze
wystąpienie p) lub Kms (pojedyncze wystąpienie s);

\s* biały znak występujący dowolną ilość razy (może nie występować wcale);

[0-9]{1,8} – od jednej do ośmiu cyfr (numer sprawy);

[A-Z]? 0 lub 1 wystąpienie wielkiej litery (postfix);

/ - ukośnik;

[0-9]{2} dokładnie 2 cyfry (rok sprawy).
Podane wyrażenie dopasuje sygnaturę sprawy która rozpoczyna się od wielkiej litery, i
w której (jeżeli występuje) napisany jest wielką literą. Żeby wyłączyć rozróżnianie
wielkości liter możemy użyć operatora (?i) na początku czyli:
(?i)Km[s,p]?\s*[0-9]{1,8}[A-Z]?/[0-9]{2}  (?i)km[s,p]?\s*[0-9]{1,8}[a-z]?/[0-9]{2}
Grupę cyfr [0-9] możemy zastąpić wyrażeniem \d .Otrzymamy wyrażenie:
(?i)km[s,p]?\s*\d{1,8}[a-z]?/\d{2}

Podobne dokumenty