Praktyczne metody pozyskiwania i przetwarzania danych cyfrowych
Transkrypt
Praktyczne metody pozyskiwania i przetwarzania danych cyfrowych
Praktyczne metody pozyskiwania i przetwarzania danych cyfrowych. Na początku XXI wieku jesteśmy zalewani powodzią danych. Dane te przekazywane są za pośrednictwem współczesnych mediów: prasy, radia, telewizji, internetu oraz pochodzą z lokalnych źródeł informacji. Jednym z istotnych problemów jest wyodrębnienie z tej powodzi istotnych informacji. Drugim przekształcenie tych informacji do postaci umożliwiającej ich dalsze wykorzystanie. Trudność z wyodrębnieniem istotnych informacji można pokonać przez ścisłe sprecyzowanie przedmiotu i zakresu naszego zainteresowania. Pozwala to, na ogół określić w jakich mediach znajdziemy potrzebną informację. To z kolei determinuje sposób przeszukiwania tych mediów. Na przełomie XX i XXI wieku dokonała się rewolucja w zakresie szybkich i efektywnych metod wyszukiwania informacji. Rozwój sieci, sprzętu, metod i oprogramowania komputerowego pozwala obecnie uzyskać istotne informacje w ciągu sekund lub minut. Uzyskane tą drogą informacje cyfrowe, na ogół nadają się bezpośrednio do dalszego przetworzenia. Problemem jest gdy ich postać nie jest zgodna z naszymi potrzebami. Przykłady: W artykule specjalistycznym znaleziona została istotna dla nas informacja w postaci wykresu. Wykres ten otrzymaliśmy drogą elektroniczną w postaci pliku graficznego. Tymczasem potrzebna jest nam zależność ilustrowana przez wykres w postaci wartości liczbowych typu (x,y). Niestety w znalezionym artykule brak jest takiej informacji. W takim przypadku wyjściem jest DIGITALIZACJA wykresu. Lokalnym źródłem informacji może być dla nas przyrząd pomiarowy. Lecz co zrobić gdy, producent tego sprzętu przewidział wyjście strumienia istotnych dla nas danych, tylko na drukarkę? Pertraktacje z producentem na ten temat kończą się z reguły niepowodzeniem. W takim przypadku wyjściem jest zeskanowanie wydruku i zastosowanie programu do optycznego rozpoznawania znaków (OCR). To pozwoli uzyskać postać cyfrową. W bibliotece odnaleźliśmy czasopismo z istotnym dla nas artykułem. Jak wynieść zawarte w artykule informacje z biblioteki nie wynosząc czasopisma (nasza pamięć jest ograniczona)? Jak przekształcić te informacje tak, aby mogły być dalej wykorzystane? W tym przypadku wyjściem jest wykonanie fotografii cyfrowej i dalsze opracowanie jedną z dwu wyżej wspomnianych metod. W ramach tego ćwiczenia poznamy właśnie praktyczne sposoby pozyskiwania i przetwarzania danych cyfrowych. Jako źródło danych cyfrowych wykorzystamy dostęp do Internetu, skaner oraz aparat cyfrowy. SPRZĘT SKANER Skaner jest urządzeniem do rejestrowania i przetwarzania dwuwymiarowych obrazów, grafiki, rysunków, fotografii oraz tekstów na dane w formacie cyfrowym, które są następnie przesyłane do komputera. Skaner działa więc jak kopiarka, z tą różnicą, że kopia zapisywana jest w postaci obrazu cyfrowego w pamięci komputera. Wszystkie urządzenia służące do digitalizacji - skanery, kamery wideo, cyfrowe aparaty fotograficzne, mają kilka cech wspólnych. Przekształcają one informacje analogowe (rzeczywiste) do postaci cyfrowej, zrozumiałej dla komputera. Tworzą obrazy rastrowe, które składają się z siatki czarno-białych lub kolorowych pikseli (elementów obrazu). Odczytują - próbkują oryginalny obraz punkt po punkcie, sprawdzając przy każdym punkcie próbkowania intensywność barwy lub odcień szarości. Uzyskany ze skanowania obraz, można następnie poddać obróbce przy pomocy oprogramowania do edycji obrazu. Można także dokonać konwersji obrazu, przy pomocy oprogramowania do rozpoznawania tekstu, do postaci pliku tekstowego. Dodatkowo skaner służyć może do przeniesienia slajdów i negatywów do pamięci komputera. Do tego celu służą specjalne przystawki oferowane w niektórych urządzeniach. Zapewniają one dodatkowe źródło światła "zza pleców" skanowanego obiektu. Jak działa skaner płaski? W typowym płaskim skanerze, oryginalny dokument umieszcza się na powierzchni skanującej (jest to płyta szklana z pokrywą zabezpieczającą dokument przed dopływem światła z zewnątrz) i podświetla się go przy pomocy lampy. Pod płytą przesuwa się wózek z lampą, lustrem, zestawem soczewek oraz odpowiednim przetwornikiem światłoczułym wykonanym w technologii CCD (Charge Coupled Device - układ ze sprzężeniem ładunkowym) lub CMOS (Complementary Metal Oxide Semiconductor – układ półprzewodnikowy wytworzony z użyciem tlenków metali). Podzespołem odpowiedzialnym w największym stopniu za jakość skanowanych obrazów jest właśnie przetwornik współpracujący z odpowiednią lampą. Element ten odpowiada za rejestrowanie tego co znajduje się na szybie urządzenia. W przypadku CCD używana jest tzw. zimna lampa katodowa, dająca światło zbliżone do naturalnego. Światło odbite od oryginału dokumentu, przechodzi przez układ luster i soczewek, które kierują je do tablicy detektorów. Detektory CCD odczytują każdą linię punktów oraz rejestrują dla nich parametry jasności i kolor. Czujniki te mają stosunkowo dużą głębię ostrości sięgającą kilku cm. Dzięki temu z powodzeniem udaje się zeskanować grubą książkę bez nadmiernego dociskania jej do szyby. Układ CCD składa się z cząstek światłoczułych. Cząstki te powodują rozszczepianie docierających do nich promieni świetlnych na trzy strumienie w podstawowych barwach, czyli czerwonej, niebieskiej i żółtej, z zastosowaniem układu barw RGB (powszechnie stosowanego w urządzeniach optycznych), po czym następuje konwersja strumieni światła w napięcie elektryczne. Napięcie z kolei przekazywane jest do konwertera A/D (analog-to-digital – przekształcenie danych z formatu analogowego na format cyfrowy), który przekłada dane na format "zrozumiały" dla komputera. Optyka urządzenia (soczewki i lustra) ma również niemałe znaczenie dla jakości utrwalonych obrazów. Niedoskonałości tych elementów występują czasami w postaci aberracji chromatycznej, widzianej jako tęczowe obwódki elementów obrazu. W skanerze wykonanym w technologii CMOS, tablica detektorów obrazu znajduje się bezpośrednio tuż pod skanowanym dokumentem - detektory reagują bezpośrednio na odbite światło. Czujnik współpracuje z zespołem diod LED oświetlających skanowany obiekt, o świetle zbliżonym do naturalnego, lecz z dominacją niebieskiego. Wymaga to, by obiekt przylegał ściśle do powierzchni szyby. Zaletami skanerów opartych o technologię CMOS są niewątpliwie niski pobór mocy, bardzo długa żywotność oraz niewielka grubość urządzenia. Skanery te są tańsze w produkcji, mniejsze i trwalsze, ale jakość uzyskanego w nich obrazu nie jest tak dobra jak w skanerach CCD. Sprawdzają się lepiej w przypadku ograniczonej przestrzeni do pracy i w systemach przenośnych. Uruchamianie przy pomocy pojedynczego przycisku Opcja push-button (uruchamianie przy pomocy pojedynczego przycisku) pozwala na zainicjowanie, w skanerze posiadającym taką możliwość, procedury skanowania za pomocą pojedynczego przycisku. Zalety tej opcji to łatwość obsługi nawet dla niedoświadczonych użytkowników, szeroki zakres dostępnych możliwości konfiguracyjnych, możliwość przetwarzania obrazu przy pomocy wybranego przez użytkownika programu. Wystarczy umieścić dokument na skanerze, wcisnąć przycisk w wyświetlanym oknie i wybrać aplikację, na której format mają zostać przekształcone dane ze skanera. Resztę wykonuje urządzenie. Rozdzielczość Liczba cząstek światłoczułych pojedynczego modułu CCD pozwala na określenie parametru maksymalnej rozdzielczości optycznej skanera. Jeśli zatem na powierzchni 2.54 cm (= 1 cala) układu występuje 600 cząstek światłoczułych, to rozdzielczość takiego urządzenia wynosi 600 dpi (dots per inch - punktów na cal). Im większa jest rozdzielczość skanera, tym dokładniej odtwarzany jest obraz poddawany skanowaniu. Jakość poszczególnych elementów konstrukcyjnych jest podstawowym czynnikiem wpływającym na jakość skanów otrzymanych z urządzenia. Współczesne skanery wykorzystują technologię pozwalającą na uzyskanie najwyższej jakości. Stosuje się w nich technologię Double CCD Array (układy CCD z podwójnym sprzężeniem). Zastosowanie tej technologii powoduje, iż urządzenia te mają znaczną przewagę technologiczną nad starszymi urządzeniami. Dzięki specyficznemu układowi cząstek światłoczułych skanery te łączą wysoką liczbę dpi z niezwykłą dokładnością kodowania kolorów. W celu uniknięcia obniżki prędkości (spowodowanej koniecznością przetwarzania olbrzymich ilości danych) stosuje się najwyższej klasy konwertery danych analogowych na format cyfrowy. W rezultacie urządzenia te oferują maksymalną prędkość i najwyższą jakość. Rodzaje rozdzielczości: Rozdzielczość optyczna - rzeczywista ilość informacji jaką jest w stanie zarejestrować czujnik światłoczuły. Zależy ona od ilości pojedynczych czujników w liniowym układzie przetworników CCD na głowicy skanującej. Na ten element powinno się zwracać uwagę w głównej mierze. Rozdzielczość interpolowana polega na programowym zwiększeniu sprzętowych parametrów. Oprogramowanie wylicza wartości pośrednie kolorów pikseli. Można dzięki temu uzyskać większy obraz bez efektów "ząbkowania", jednak ilość szczegółów się nie zwiększy. Interpolacja powoduje utratę ostrości krawędzi obrazu. Jest to bardziej chwyt marketingowy i w domowych warunkach się z niego nie korzysta. Rozdzielczość bitowa (głębia barw) określa zdolność skanera do rozróżniania stopni jasności skanowanego obrazu. Po spotęgowaniu wyraża maksymalną liczbę barw lub poziomów szarości odczytywaną dla jednego piksela obrazu. Skaner kolorowy rejestrujący kolory z dokładnością 48b próbkuje każdą ze składowych RGB w 16b (48=3*16). Daje to w sumie 65536 odcieni każdego składowego koloru. W sumie skaner jest w stanie zarejestrować aż 2 48 barw. Teoretycznie daje to bardzo wierne odwzorowanie kopii do oryginału. W praktyce jednak jeśli nie zamierzamy wykonywać skomplikowanych operacji na obrazie, różnice między 24b a 48b kolorem są niezauważalne. Urządzenia docelowe Po zakończeniu procesu skanowania następuje odtworzenie obrazu - zazwyczaj na monitorze komputera lub na drukarce. Jednak parametry rozdzielczości tych trzech urządzeń są zazwyczaj różne. Monitory wyświetlają zwykle obraz w rozdzielczości 72 lub 96 dpi (niezależnie od ustawień skanera). Należy zatem pamiętać o następującej zasadzie: rozdzielczość uzyskanego ostatecznie obrazu powinna określać ustawienia skanera (wprowadzane w odpowiednich programach sterujących). Nie ma bowiem sensu skanować obrazów w rozdzielczości 600 dpi, jeśli ma on być następnie drukowany na drukarce o maksymalnej rozdzielczości 300 dpi, gdyż w tym przypadku znaczna ilość danych przetwarzana będzie wolniej, zaś drukarka tak czy inaczej nie będzie w stanie odtworzyć dostarczonych jej informacji (związanej z dodatkowymi punktami). Należy także pamiętać, iż podwojenie wartości rozdzielczości zwiększa objętość danych czterokrotnie, gdyż liczba pikseli podwaja się w odniesieniu do parametrów pionowych oraz poziomych. APARAT CYFROWY Fotograficzne aparaty cyfrowe z punktu widzenia sposobu działania są połączeniem klasycznych "analogowych" aparatów i skanera. W konstrukcji aparatów cyfrowych znajdziemy elementy charakterystyczne dla obu wspomnianych urządzeń. Z aparatu pochodzi układ optyczny skupiający światło na światłoczuły element ze skanera pochodzi sposób zamiany obrazu na zapis cyfrowy. Sposób działania aparatu cyfrowego i analogowego różnią pewne szczegóły technologiczne. Aparat cyfrowy posiada, tak jak analogowy, soczewki i migawkę regulującą czas naświetlania. Zamiast światłoczułego filmu, światło pada na tablicę detektorów obrazu - komórek światłoczułych. Tablicę tą stanowi mikroukład o przekątnej 1/3, 1 lub 2/3 cala. Detektory obrazu są elementami wykonanymi w technologii CCD, zamieniającymi światło na ładunek elektryczny, tak samo jak elementy krzemowe stosowane w światłomierzach (efekt fotowoltaiczny). Ładunki elektryczne powstałe w każdym z detektorów tablicy są z postaci analogowej zamieniane na postać cyfrową, przez urządzenie nazywane przetwornikiem analogowo cyfrowym(ADC – Analog to Digital Converter). Te nadzwyczaj czułe na światło detektory – komórki światłoczułe, noszą nazwę pikseli i przechowują informację o natężeniu światła padającego na nie. Tak jak w aparacie analogowym, gdy zostanie naciśnięty spust migawki, światło wpada do aparatu cyfrowego przez obiektyw. Padając na tablicę detektorów oświetla każdy z pikseli z natężeniem odpowiednim do szczegółów fotografowanego obrazu. Tak więc błona fotograficzna w aparacie cyfrowym została zastąpiona płytką z sensorami CCD. Wymiar tablicy i liczba komórek decyduje o optycznej rozdzielczości rejestrowanych obrazów cyfrowych. W opisie aparatu rozdzielczość podawana jest jako iloraz liczby komórek na bokach płytki z elementami CCD. Stosunek liczby sensorów na bokach płytki wynosi 1,333. Obecnie w aparatach stosuje się płytki CCD o przekątnych 1, 2/3 lub 1/3 cala. Układ pomiarowy aparatu dobiera najbardziej optymalne parametry naświetlenia (wartość przesłony i czas otwarcia migawki). Czułość sensorów CCD odpowiada czułości 100 - 400 ASA i w wielu przypadkach jest zmienna "dopasowując" się do warunków oświetlenia. Cyfrowa postać zdjęcia przechowywana jest w pamięci aparatu lub na wymiennych nośnikach tzw. kartach pamięci. Ze względu na stosunkowo duże rozmiary danych opisujących poszczególne zdjęcia poddawane są kompresji, najczęściej stratnym algorytmem JPEG. Większość aparatów umożliwia dokonanie wyboru rozdzielczości oraz stopnia kompresji zapamiętywanych zdjęć. Silniejsza kompresja pozwala na przechowanie większej ilości zdjęć na karcie pamięci, ale będą się one charakteryzować gorszą jakością. Zarejestrowany obraz cyfrowy możemy natychmiast po wykonaniu skontrolować na ekranie ciekłokrystalicznego monitora znajdującego się najczęściej na tylniej ściance aparatu, możemy obejrzeć na ekranie telewizora lub przesłać do komputera. Do transmisji między aparatem a komputerem wykorzystywane jest zwykle złącze szeregowe USB, ale czasem stosowane są łącza równoległe portu drukarki lub łącza na podczerwień IrDA. Odpowiednie najczęściej dołączone do aparatu oprogramowanie umożliwia transfer zdjęć, założenie albumów, niewielką korektę graficzną zdjęć. Zdjęcie w komputerze staje się zwykłym obrazem bitmapowym który za pomocą odpowiedniego oprogramowania graficznego możemy montować, retuszować, korygować itp. Dostępne na rynku drukarki atramentowe przy stosowaniu odpowiednich papierów tzw. fotograficznych umożliwiają wykonanie wydruku z jakością zbliżoną do tradycyjnej fotografii. Oprogramowanie Optyczne rozpoznawanie tekstu - OCR (Optical Character Recognition) Program do OCR jest niezbędny aby z zeskanowanego dokumentu uzyskać tekst w postaci zrozumiałej przez komputer, nadającej się do dalszej edycji. Bezpośrednio po skanowaniu, dokument może być odczytany na ekranie monitora, lecz w pamięci komputera istnieje on jako obrazek (zbiór pikseli) a nie tekst nadający się do edycji. Dopiero program do rozpoznawania tekstu, zamienia obraz na ciąg znaków ASCII, z których składa się tekst nadający się do edycji i przetworzenia w edytorze tekstu (np. edytor Word), arkuszu kalkulacyjnym (np. Excel) czy bazie danych (np. Access). Ciąg znaków może być następnie zapisany w postaci pliku tekstowego. OCR to oprogramowanie ściśle powiązane ze skanerami. Czynności które należy wykonać korzystając z programu do OCR to: Zeskanownie dokumentu, ustawiając: rozdzielczość na 300 dpi, rodzaj obrazu na czarno biały skala odcieni szarości, oraz wybierając środkowe wartości dla jasności i kontrastu. Zapisanie zeskanowanego dokumentu jako pliku graficznego np. w formacie JPG. Wczytanie tego pliku w programie do OCR i polecenie wykonania rozpoznawania tekstu. Wynik należy zapisać w postaci pliku: TXT, DOC, XLS lub wykorzystać poprzez schowek. Program do digitalizacji (próbkowania) wykresów i map. Program taki służy do zamiany obrazu graficznego w postaci sekwencji pikseli-punktów, na postać liczbową, podającą współrzędne tych punktów w przestrzeni dwuwymiarowej. Uzyskana w ten sposób tabela może być następnie przetwarzana jako zbiór danych liczbowych. W szczególności dane te mogą być w dowolny sposób skalowane i transformowane, służyć jako podstawa do utworzenia obrazu wektorowego czy zapamiętane w bazie danych. Często spotykanym problemem jest uzyskanie oryginalnych danych liczbowych typu (x,y) z obrazka np. z zeskanowanego wykresu lub z wykresu w postaci pliku graficznego ściągniętego z określonej lokalizacji w Internecie. Wtedy digitalizacja jest na ogół jedyną metodą pozwalającą uzyskać takie dane liczbowe. Czynności które należy wykonać w takim przypadku to: Otwarcie pliku graficznego Ustawienie skali – wybór czterech punktów na osiach x i y wykresu i podanie ich współrzędnych w odpowiednich dla wykresu jednostkach Digitalizacja (automatycznie lub z ręcznym wyborem punktów próbkowania) Skopiowanie uzyskanych danych do schowka lub zapisanie w odpowiednim pliku np. TXT czy XLS.