Narzędzia i formaty plików wykorzystywane w pracy
Transkrypt
Narzędzia i formaty plików wykorzystywane w pracy
DSI III OCR jest skrótem od Optical Character Recognition i oznacza optyczne rozpoznawanie znaków, potocznie zwane rozpoznawaniem tekstu. Jest to technika pozwalająca z obrazu w postaci cyfrowej wyodrębnić tekst, ewentualnie cechy czcionek użytych do jego złożenia (krój, wielkość) i inne elementy dokumentu, np. formatowanie, tabele, formularze. ICR (Intelligent Character Recognition) to inteligentne rozpoznawanie znaków. Podstawowym zadaniem systemów ICR jest rozpoznanie znaków alfanumerycznych zapisanych odręcznie. OMR (Optical Mark Recognition) — oznacza optyczne rozpoznawanie znaczników. Polega na rozpoznawaniu znaków innych niż alfanumeryczne, np. pól wyboru lub kodów kreskowych. Czytniki OMR znacznie ułatwiają analizę dużej ilości zestandaryzowanych formularzy oraz umożliwiają kontrolę poprawności ich wypełnienia. Rozpoznanie znacznika polega na zmierzeniu ilości światła odbitego lub przechodzącego przez ściśle określony fragment skanowanego dokumentu. Jednym z zastosowań techniki OMR jest system skanowania i rozliczania wyników egzaminów gimnazjalnych, czy maturalnych stosowany przez okręgowe komisje egzaminacyjne. Dokument egzaminacyjny z kodem kreskowym naklejonym w formie etykiety pozwalana na szybką identyfikację osoby zdającej egzamin, a szablon z zamalowanymi polami umożliwia szybkie odczytanie odpowiedzi i przeniesienie ich do arkusza reCAPTCHA –to nowoczesna metoda współpracy technologii OCR z ludźmi, wykorzystywana głównie przy digitalizacji zasobów bibliotek. Gdy są trudności z odczytaniem fragmentów tekstu albo wątpliwości, czy tekst został prawidłowo rozpoznany, potrzebna jest weryfikacja przez człowieka. CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) – rodzaj techniki stosowanej jako zabezpieczenie na stronach www, celem której jest dopuszczenie do przesłania danych tylko wypełnionych przez człowieka. Technika ta chroni m.in.: formularze – przed spamem portale – przed zakładaniem kont przez automaty fora dyskusyjne usługi Whois – przed automatycznymi zapytaniami blogi – przed reklamami w komentarzach