Praktyczne metody pozyskiwania i przetwarzania danych cyfrowych

Transkrypt

Praktyczne metody pozyskiwania i przetwarzania danych cyfrowych
Praktyczne metody pozyskiwania i przetwarzania danych cyfrowych.
Na początku XXI wieku jesteśmy zalewani powodzią danych. Dane te przekazywane są za
pośrednictwem współczesnych mediów: prasy, radia, telewizji, internetu oraz pochodzą z lokalnych źródeł
informacji. Jednym z istotnych problemów jest wyodrębnienie z tej powodzi istotnych informacji. Drugim
przekształcenie tych informacji do postaci umożliwiającej ich dalsze wykorzystanie.
Trudność z wyodrębnieniem istotnych informacji można pokonać przez ścisłe sprecyzowanie
przedmiotu i zakresu naszego zainteresowania. Pozwala to, na ogół określić w jakich mediach znajdziemy
potrzebną informację. To z kolei determinuje sposób przeszukiwania tych mediów.
Na przełomie XX i XXI wieku dokonała się rewolucja w zakresie szybkich i efektywnych metod
wyszukiwania informacji. Rozwój sieci, sprzętu, metod i oprogramowania komputerowego pozwala obecnie
uzyskać istotne informacje w ciągu sekund lub minut. Uzyskane tą drogą informacje cyfrowe, na ogół nadają się
bezpośrednio do dalszego przetworzenia.
Problemem jest gdy ich postać nie jest zgodna z naszymi potrzebami.
Przykłady:
 W artykule specjalistycznym znaleziona została istotna dla nas informacja w postaci wykresu.
Wykres ten otrzymaliśmy drogą elektroniczną w postaci pliku graficznego. Tymczasem potrzebna
jest nam zależność ilustrowana przez wykres w postaci wartości liczbowych typu (x,y). Niestety w
znalezionym artykule brak jest takiej informacji. W takim przypadku wyjściem jest
DIGITALIZACJA wykresu.
 Lokalnym źródłem informacji może być dla nas przyrząd pomiarowy. Lecz co zrobić gdy,
producent tego sprzętu przewidział wyjście strumienia istotnych dla nas danych, tylko na drukarkę?
Pertraktacje z producentem na ten temat kończą się z reguły niepowodzeniem. W takim przypadku
wyjściem jest zeskanowanie wydruku i zastosowanie programu do optycznego rozpoznawania
znaków (OCR). To pozwoli uzyskać postać cyfrową.
 W bibliotece odnaleźliśmy czasopismo z istotnym dla nas artykułem. Jak wynieść zawarte w
artykule informacje z biblioteki nie wynosząc czasopisma (nasza pamięć jest ograniczona)? Jak
przekształcić te informacje tak, aby mogły być dalej wykorzystane? W tym przypadku wyjściem
jest wykonanie fotografii cyfrowej i dalsze opracowanie jedną z dwu wyżej wspomnianych metod.
W ramach tego ćwiczenia poznamy właśnie praktyczne sposoby pozyskiwania i przetwarzania danych
cyfrowych. Jako źródło danych cyfrowych wykorzystamy dostęp do Internetu, skaner oraz aparat cyfrowy.
SPRZĘT
SKANER
Skaner jest urządzeniem do rejestrowania i przetwarzania dwuwymiarowych obrazów, grafiki,
rysunków, fotografii oraz tekstów na dane w formacie cyfrowym, które są następnie przesyłane do komputera.
Skaner działa więc jak kopiarka, z tą różnicą, że kopia zapisywana jest w postaci obrazu cyfrowego w pamięci
komputera.
Wszystkie urządzenia służące do digitalizacji - skanery, kamery wideo, cyfrowe aparaty fotograficzne,
mają kilka cech wspólnych. Przekształcają one informacje analogowe (rzeczywiste) do postaci cyfrowej,
zrozumiałej dla komputera. Tworzą obrazy rastrowe, które składają się z siatki czarno-białych lub kolorowych
pikseli (elementów obrazu). Odczytują - próbkują oryginalny obraz punkt po punkcie, sprawdzając przy każdym
punkcie próbkowania intensywność barwy lub odcień szarości.
Uzyskany ze skanowania obraz, można następnie poddać obróbce przy pomocy oprogramowania do
edycji obrazu. Można także dokonać konwersji obrazu, przy pomocy oprogramowania do rozpoznawania tekstu,
do postaci pliku tekstowego.
Dodatkowo skaner służyć może do przeniesienia slajdów i negatywów do pamięci komputera. Do tego
celu służą specjalne przystawki oferowane w niektórych urządzeniach. Zapewniają one dodatkowe źródło
światła "zza pleców" skanowanego obiektu.
Jak działa skaner płaski?
W typowym płaskim skanerze, oryginalny dokument umieszcza się na powierzchni skanującej (jest to
płyta szklana z pokrywą zabezpieczającą dokument przed dopływem światła z zewnątrz) i podświetla się go
przy pomocy lampy. Pod płytą przesuwa się wózek z lampą, lustrem, zestawem soczewek oraz odpowiednim
przetwornikiem światłoczułym wykonanym w technologii CCD (Charge Coupled Device - układ ze
sprzężeniem ładunkowym) lub CMOS (Complementary Metal Oxide Semiconductor – układ
półprzewodnikowy wytworzony z użyciem tlenków metali).
Podzespołem odpowiedzialnym w największym stopniu za jakość skanowanych obrazów jest właśnie
przetwornik współpracujący z odpowiednią lampą. Element ten odpowiada za rejestrowanie tego co znajduje się
na szybie urządzenia.
W przypadku CCD używana jest tzw. zimna lampa katodowa, dająca światło zbliżone do naturalnego.
Światło odbite od oryginału dokumentu, przechodzi przez układ luster i soczewek, które kierują je do tablicy
detektorów. Detektory CCD odczytują każdą linię punktów oraz rejestrują dla nich parametry jasności i kolor.
Czujniki te mają stosunkowo dużą głębię ostrości sięgającą kilku cm. Dzięki temu z powodzeniem udaje się
zeskanować grubą książkę bez nadmiernego dociskania jej do szyby.
Układ CCD składa się z cząstek światłoczułych. Cząstki te powodują rozszczepianie docierających do
nich promieni świetlnych na trzy strumienie w podstawowych barwach, czyli czerwonej, niebieskiej i żółtej, z
zastosowaniem układu barw RGB (powszechnie stosowanego w urządzeniach optycznych), po czym następuje
konwersja strumieni światła w napięcie elektryczne. Napięcie z kolei przekazywane jest do konwertera A/D
(analog-to-digital – przekształcenie danych z formatu analogowego na format cyfrowy), który przekłada dane na
format "zrozumiały" dla komputera. Optyka urządzenia (soczewki i lustra) ma również niemałe znaczenie dla
jakości utrwalonych obrazów. Niedoskonałości tych elementów występują czasami w postaci aberracji
chromatycznej, widzianej jako tęczowe obwódki elementów obrazu.
W skanerze wykonanym w technologii CMOS, tablica detektorów obrazu znajduje się bezpośrednio tuż
pod skanowanym dokumentem - detektory reagują bezpośrednio na odbite światło. Czujnik współpracuje z
zespołem diod LED oświetlających skanowany obiekt, o świetle zbliżonym do naturalnego, lecz z dominacją
niebieskiego. Wymaga to, by obiekt przylegał ściśle do powierzchni szyby. Zaletami skanerów opartych o
technologię CMOS są niewątpliwie niski pobór mocy, bardzo długa żywotność oraz niewielka grubość
urządzenia. Skanery te są tańsze w produkcji, mniejsze i trwalsze, ale jakość uzyskanego w nich obrazu nie jest
tak dobra jak w skanerach CCD. Sprawdzają się lepiej w przypadku ograniczonej przestrzeni do pracy i w
systemach przenośnych.
Uruchamianie przy pomocy pojedynczego przycisku
Opcja push-button (uruchamianie przy pomocy pojedynczego przycisku) pozwala na zainicjowanie, w
skanerze posiadającym taką możliwość, procedury skanowania za pomocą pojedynczego przycisku. Zalety tej
opcji to łatwość obsługi nawet dla niedoświadczonych użytkowników, szeroki zakres dostępnych możliwości
konfiguracyjnych, możliwość przetwarzania obrazu przy pomocy wybranego przez użytkownika programu.
Wystarczy umieścić dokument na skanerze, wcisnąć przycisk w wyświetlanym oknie i wybrać aplikację, na
której format mają zostać przekształcone dane ze skanera. Resztę wykonuje urządzenie.
Rozdzielczość
Liczba cząstek światłoczułych pojedynczego modułu CCD pozwala na określenie parametru
maksymalnej rozdzielczości optycznej skanera. Jeśli zatem na powierzchni 2.54 cm (= 1 cala) układu występuje
600 cząstek światłoczułych, to rozdzielczość takiego urządzenia wynosi 600 dpi (dots per inch - punktów na
cal). Im większa jest rozdzielczość skanera, tym dokładniej odtwarzany jest obraz poddawany skanowaniu.
Jakość poszczególnych elementów konstrukcyjnych jest podstawowym czynnikiem wpływającym na jakość
skanów otrzymanych z urządzenia. Współczesne skanery wykorzystują technologię pozwalającą na uzyskanie
najwyższej jakości. Stosuje się w nich technologię Double CCD Array (układy CCD z podwójnym
sprzężeniem). Zastosowanie tej technologii powoduje, iż urządzenia te mają znaczną przewagę technologiczną
nad starszymi urządzeniami. Dzięki specyficznemu układowi cząstek światłoczułych skanery te łączą wysoką
liczbę dpi z niezwykłą dokładnością kodowania kolorów. W celu uniknięcia obniżki prędkości (spowodowanej
koniecznością przetwarzania olbrzymich ilości danych) stosuje się najwyższej klasy konwertery danych
analogowych na format cyfrowy. W rezultacie urządzenia te oferują maksymalną prędkość i najwyższą jakość.
Rodzaje rozdzielczości:



Rozdzielczość optyczna - rzeczywista ilość informacji jaką jest w stanie zarejestrować czujnik
światłoczuły. Zależy ona od ilości pojedynczych czujników w liniowym układzie przetworników
CCD na głowicy skanującej. Na ten element powinno się zwracać uwagę w głównej mierze.
Rozdzielczość interpolowana polega na programowym zwiększeniu sprzętowych parametrów.
Oprogramowanie wylicza wartości pośrednie kolorów pikseli. Można dzięki temu uzyskać większy
obraz bez efektów "ząbkowania", jednak ilość szczegółów się nie zwiększy. Interpolacja powoduje
utratę ostrości krawędzi obrazu. Jest to bardziej chwyt marketingowy i w domowych warunkach się
z niego nie korzysta.
Rozdzielczość bitowa (głębia barw) określa zdolność skanera do rozróżniania stopni jasności
skanowanego obrazu. Po spotęgowaniu wyraża maksymalną liczbę barw lub poziomów szarości
odczytywaną dla jednego piksela obrazu. Skaner kolorowy rejestrujący kolory z dokładnością 48b
próbkuje każdą ze składowych RGB w 16b (48=3*16). Daje to w sumie 65536 odcieni każdego
składowego koloru. W sumie skaner jest w stanie zarejestrować aż 2 48 barw. Teoretycznie daje to
bardzo wierne odwzorowanie kopii do oryginału. W praktyce jednak jeśli nie zamierzamy
wykonywać skomplikowanych operacji na obrazie, różnice między 24b a 48b kolorem są
niezauważalne.
Urządzenia docelowe
Po zakończeniu procesu skanowania następuje odtworzenie obrazu - zazwyczaj na monitorze
komputera lub na drukarce. Jednak parametry rozdzielczości tych trzech urządzeń są zazwyczaj różne. Monitory
wyświetlają zwykle obraz w rozdzielczości 72 lub 96 dpi (niezależnie od ustawień skanera). Należy zatem
pamiętać o następującej zasadzie: rozdzielczość uzyskanego ostatecznie obrazu powinna określać ustawienia
skanera (wprowadzane w odpowiednich programach sterujących). Nie ma bowiem sensu skanować obrazów w
rozdzielczości 600 dpi, jeśli ma on być następnie drukowany na drukarce o maksymalnej rozdzielczości 300 dpi,
gdyż w tym przypadku znaczna ilość danych przetwarzana będzie wolniej, zaś drukarka tak czy inaczej nie
będzie w stanie odtworzyć dostarczonych jej informacji (związanej z dodatkowymi punktami). Należy także
pamiętać, iż podwojenie wartości rozdzielczości zwiększa objętość danych czterokrotnie, gdyż liczba pikseli
podwaja się w odniesieniu do parametrów pionowych oraz poziomych.
APARAT CYFROWY
Fotograficzne aparaty cyfrowe z punktu widzenia sposobu działania są połączeniem klasycznych
"analogowych" aparatów i skanera. W konstrukcji aparatów cyfrowych znajdziemy elementy charakterystyczne
dla obu wspomnianych urządzeń. Z aparatu pochodzi układ optyczny skupiający światło na światłoczuły element
ze skanera pochodzi sposób zamiany obrazu na zapis cyfrowy.
Sposób działania aparatu cyfrowego i analogowego różnią pewne szczegóły technologiczne. Aparat
cyfrowy posiada, tak jak analogowy, soczewki i migawkę regulującą czas naświetlania. Zamiast światłoczułego
filmu, światło pada na tablicę detektorów obrazu - komórek światłoczułych. Tablicę tą stanowi mikroukład o
przekątnej 1/3, 1 lub 2/3 cala. Detektory obrazu są elementami wykonanymi w technologii CCD,
zamieniającymi światło na ładunek elektryczny, tak samo jak elementy krzemowe stosowane w światłomierzach
(efekt fotowoltaiczny). Ładunki elektryczne powstałe w każdym z detektorów tablicy są z postaci analogowej
zamieniane na postać cyfrową, przez urządzenie nazywane przetwornikiem analogowo cyfrowym(ADC –
Analog to Digital Converter). Te nadzwyczaj czułe na światło detektory – komórki światłoczułe, noszą nazwę
pikseli i przechowują informację o natężeniu światła padającego na nie. Tak jak w aparacie analogowym, gdy
zostanie naciśnięty spust migawki, światło wpada do aparatu cyfrowego przez obiektyw. Padając na tablicę
detektorów oświetla każdy z pikseli z natężeniem odpowiednim do szczegółów fotografowanego obrazu.
Tak więc błona fotograficzna w aparacie cyfrowym została zastąpiona płytką z sensorami CCD.
Wymiar tablicy i liczba komórek decyduje o optycznej rozdzielczości rejestrowanych obrazów cyfrowych. W
opisie aparatu rozdzielczość podawana jest jako iloraz liczby komórek na bokach płytki z elementami CCD.
Stosunek liczby sensorów na bokach płytki wynosi 1,333.
Obecnie w aparatach stosuje się płytki CCD o przekątnych 1, 2/3 lub 1/3 cala. Układ pomiarowy
aparatu dobiera najbardziej optymalne parametry naświetlenia (wartość przesłony i czas otwarcia migawki).
Czułość sensorów CCD odpowiada czułości 100 - 400 ASA i w wielu przypadkach jest zmienna "dopasowując"
się do warunków oświetlenia.
Cyfrowa postać zdjęcia przechowywana jest w pamięci aparatu lub na wymiennych nośnikach tzw.
kartach pamięci. Ze względu na stosunkowo duże rozmiary danych opisujących poszczególne zdjęcia
poddawane są kompresji, najczęściej stratnym algorytmem JPEG. Większość aparatów umożliwia dokonanie
wyboru rozdzielczości oraz stopnia kompresji zapamiętywanych zdjęć. Silniejsza kompresja pozwala na
przechowanie większej ilości zdjęć na karcie pamięci, ale będą się one charakteryzować gorszą jakością.
Zarejestrowany obraz cyfrowy możemy natychmiast po wykonaniu skontrolować na ekranie
ciekłokrystalicznego monitora znajdującego się najczęściej na tylniej ściance aparatu, możemy obejrzeć na
ekranie telewizora lub przesłać do komputera.
Do transmisji między aparatem a komputerem wykorzystywane jest zwykle złącze szeregowe USB, ale
czasem stosowane są łącza równoległe portu drukarki lub łącza na podczerwień IrDA. Odpowiednie najczęściej
dołączone do aparatu oprogramowanie umożliwia transfer zdjęć, założenie albumów, niewielką korektę
graficzną zdjęć.
Zdjęcie w komputerze staje się zwykłym obrazem bitmapowym który za pomocą odpowiedniego
oprogramowania graficznego możemy montować, retuszować, korygować itp.
Dostępne na rynku drukarki atramentowe przy stosowaniu odpowiednich papierów tzw. fotograficznych
umożliwiają wykonanie wydruku z jakością zbliżoną do tradycyjnej fotografii.
Oprogramowanie
Optyczne rozpoznawanie tekstu - OCR (Optical Character Recognition)
Program do OCR jest niezbędny aby z zeskanowanego dokumentu uzyskać tekst w postaci zrozumiałej
przez komputer, nadającej się do dalszej edycji. Bezpośrednio po skanowaniu, dokument może być odczytany na
ekranie monitora, lecz w pamięci komputera istnieje on jako obrazek (zbiór pikseli) a nie tekst nadający się do
edycji.
Dopiero program do rozpoznawania tekstu, zamienia obraz na ciąg znaków ASCII, z których składa się
tekst nadający się do edycji i przetworzenia w edytorze tekstu (np. edytor Word), arkuszu kalkulacyjnym (np.
Excel) czy bazie danych (np. Access). Ciąg znaków może być następnie zapisany w postaci pliku tekstowego.
OCR to oprogramowanie ściśle powiązane ze skanerami.




Czynności które należy wykonać korzystając z programu do OCR to:
Zeskanownie dokumentu, ustawiając: rozdzielczość na 300 dpi, rodzaj obrazu na czarno biały skala odcieni
szarości, oraz wybierając środkowe wartości dla jasności i kontrastu.
Zapisanie zeskanowanego dokumentu jako pliku graficznego np. w formacie JPG.
Wczytanie tego pliku w programie do OCR i polecenie wykonania rozpoznawania tekstu.
Wynik należy zapisać w postaci pliku: TXT, DOC, XLS lub wykorzystać poprzez schowek.
Program do digitalizacji (próbkowania) wykresów i map.
Program taki służy do zamiany obrazu graficznego w postaci sekwencji pikseli-punktów, na postać
liczbową, podającą współrzędne tych punktów w przestrzeni dwuwymiarowej. Uzyskana w ten sposób tabela
może być następnie przetwarzana jako zbiór danych liczbowych. W szczególności dane te mogą być w dowolny
sposób skalowane i transformowane, służyć jako podstawa do utworzenia obrazu wektorowego czy zapamiętane
w bazie danych.
Często spotykanym problemem jest uzyskanie oryginalnych danych liczbowych typu (x,y) z obrazka
np. z zeskanowanego wykresu lub z wykresu w postaci pliku graficznego ściągniętego z określonej lokalizacji w
Internecie. Wtedy digitalizacja jest na ogół jedyną metodą pozwalającą uzyskać takie dane liczbowe.
Czynności które należy wykonać w takim przypadku to:
 Otwarcie pliku graficznego
 Ustawienie skali – wybór czterech punktów na osiach x i y wykresu i podanie ich współrzędnych w
odpowiednich dla wykresu jednostkach
 Digitalizacja (automatycznie lub z ręcznym wyborem punktów próbkowania)
 Skopiowanie uzyskanych danych do schowka lub zapisanie w odpowiednim pliku np. TXT czy XLS.

Podobne dokumenty