Opis i rozpoznawanie kształtów na obrazach z wykorzystaniem

Transkrypt

Opis i rozpoznawanie kształtów na obrazach z wykorzystaniem
Instytut Badań Systemowych
Polskiej Akademii Nauk
Mgr Krzysztof Bartyzel
Studia Doktoranckie IBS PAN
Techniki informacyjne - teoria i zastosowania
Streszczenie rozprawy doktorskiej
Opis i rozpoznawanie kształtów na obrazach
z wykorzystaniem łańcuchów Browna
Promotor: prof. dr hab. inż. Piotr S. Szczepaniak
Warszawa 2012
Opis i rozpoznawanie kształtów na obrazach z wykorzystaniem łańcuchów Browna
Krzysztof Bartyzel
1 Cel i zakres pracy
Celem pracy jest opracowanie metody umożliwiającej wykorzystanie łańcuchów Browna
do automatycznego opisu i rozpoznawania obiektów na obrazach cyfrowych.
W niniejszej rozprawie doktorskiej postawiono i udowodniono następującą tezę:
Dzięki łącznemu wykorzystaniu gramatyki ciągowej w postaci łańcuchów Browna oraz
metody aktywnego konturu możliwe jest rozpoznawanie obiektów na obrazach cyfrowych.
W rozprawie przedstawiono odpowiednie algorytmy autorskie i ich programowe
implementacje. Uzyskane wyniki pozwalają stwierdzić, że podana teza jest prawdziwa
w odniesieniu do obiektów, które można rozpoznać wyznaczając ich krawędzie.
Osiągnięcie postawionego celu badawczego wymagało wykonania szeregu zadań,
a w szczególności:
• Przeglądu badań, mechanizmów i rozwiązań już istniejących. Według najlepszej
wiedzy autora nie zostało opracowane wykorzystanie łańcuchów Browna do
rozpoznawania obiektów na obrazach.
• Zastosowania klasyfikacji hierarchicznej do rozpoznawania obiektów.
• Opracowania modyfikacji filtru Kuwahary.
• Zaproponowania nowego sposobu optymalizowania łańcuchów Browna (nowego
generatora ruchu).
• Zmodyfikowania odległości Levensteina do potrzeb łańcuchów Browna.
• Opracowania metody porównywania obiektów opisanych przy pomocy łańcuchów
Browna.
• Sprawdzenia działania opracowanych mechanizmów.
• Zoptymalizowania algorytmów pod względem szybkości działania.
2 Układ rozprawy
Rozprawa została podzielona na pięć rozdziałów, których układ jest podporządkowany
weryfikacji postawionej tezy. Praca rozpoczyna się od wstępu, gdzie umieszczony został cel
i zakres badań oraz teza będąca przedmiotem rozprawy.
Pierwsze dwa rozdziały mają charakter teoretyczny i stanową wprowadzenie w tematykę
rozpoznawania kształtów na obrazach, metod aktywnego konturu oraz lingwistycznego opisu
2
Opis i rozpoznawanie kształtów na obrazach z wykorzystaniem łańcuchów Browna
Krzysztof Bartyzel
obrazów. W rozdziale trzecim w sposób szczegółowy jest przedstawiana budowa oraz
opracowane operacje na łańcuchach Browna. W kolejnym rozdziale znajduje się omówienie
otrzymanych rezultatów przeprowadzonych badań oraz prezentacja stworzonego systemu
komputerowego.
Ostatni rozdział poświęcony został podsumowaniu rezultatów oraz przedstawieniu
dalszych planów badawczych autora pracy. Rozprawę kończy bibliografia.
3 Tematyka rozprawy
Ważnym aspektem automatyzacji rozumienia obrazów jest połączenie pomiędzy
metodologią, a matematycznym językiem opisującym obraz. Powodem, dla którego często
wybierany jest lingwistyczny opis obrazów, jest fakt nieznajomości a priori klas i wzorców,
jakie mogą zostać rozpoznane. W związku z tym, że liczba kategorii obiektów może dążyć do
nieskończoności, ponieważ nie narzucamy jeszcze żadnych ograniczeń na zbiór oczekiwanych
rozwiązań,
potrzebne
jest
narzędzie
umożliwiające
wygenerowanie
potencjalnie
nieskończenie wielu kategorii. Każdy mechanizm generujący skończony zbiór elementów jest
w tym przypadku nieprzydatny. Dzięki nieskończonej liczbie kategorii jest możliwa
klasyfikacja dowolnego obiektu na podstawie wektora cech opisującego dany obiekt do
jednej ze zdefiniowanych kategorii.
Kolejnym powodem użycia metod lingwistycznych jest fakt, że po wstępnym
przetworzeniu obrazu otrzymamy opis zawartości obrazu wolny od jakiejkolwiek klasyfikacji
znanej a priori. Jest to możliwe, ponieważ w proces konstrukcji opisu lingwistycznego
wbudowany jest bardzo ogólny mechanizm generalizacji. Technologia matematycznej
lingwistycznej generalizacji jest polecana jako najlepsza metoda generalizacji.
Prace nad utworzeniem lingwistycznego modelu i wykorzystaniu go przy rozpoznawaniu
obrazów prowadzone są od wielu lat. Już w roku 1962 powstała publikacja R. Narasimhana
(A linguistic approach to pattern recognition, Digital Computer Laboratory University of
Illinois) poruszająca tę tematykę.
Tworzenie języka opisującego obrazy należy rozpocząć od zdefiniowania podstawowych
elementów należących do budowanej gramatyki obrazowej. Analizując poszczególne obrazy
dochodzimy do wniosku, że zawierają one pewne klasy podstawowych (pierwotnych)
graficznych obiektów oraz klasy reprezentujące relacje pomiędzy tymi obiektami. Obiekty te
możemy interpretować jak rzeczowniki, natomiast relacje między obiektami będą
odpowiadać czasownikom. Używając zaproponowanego słownictwa możemy zastąpić każdy
obraz równoważnym schematem. Wykorzystanie symbolicznej notacji dla elementów
słownika, w rezultacie umożliwia otrzymanie dla każdego obrazu ciągu symboli opisujących
3
Opis i rozpoznawanie kształtów na obrazach z wykorzystaniem łańcuchów Browna
Krzysztof Bartyzel
ten obraz przy pomocy napisów należących do tworzonego języka. Po wykonaniu
symbolicznego opisu obrazu należy zbudować model kognitywnego wnioskowania,
wyjaśniający procesy myślowe oraz umożliwiający ich symulację komputerową. Oczywiście
jest to najtrudniejsza część całego zadania.
Struktury symboliczne
Podstawową ideą wykorzystania struktur symbolicznych jest odwzorowanie obiektu lub
modelowanie klasy obiektów. Najprostszą strukturą symboliczną jest ciąg, nazywany również
łańcuchem. Ciąg składa się z pojedynczych, prymitywnych elementów, będących najbardziej
podstawowymi, niepodzielnymi częściami obrazu. Te niepodzielne elementy postrzegane są
jako całość lub część większego obiektu lecz nigdy jako składające się z mniejszych części.
Model obiektu tworzony jest poprzez łączenie ze sobą, pojedynczych prymitywnych
elementów.
Oprócz struktur ciągowych wyróżnia się również struktury drzewiaste, grafowe i relacyjne.
Zostały one wprowadzone, ponieważ struktury ciągowe, mimo niewątpliwych zalet (np.
łatwość generowania i porównywania), mają dość mocno ograniczone możliwości
odwzorowywania obiektów dwu- i trójwymiarowych.
Dysponując strukturą nieznanego obiektu możemy go porównać z prototypami różnych
klas w celu określenia ich podobieństwa. W rzeczywistym świecie nigdy nie uzyskamy
idealnego podobieństwa; dwie porównywane struktury zawsze będą się różniły. Celem
porównania ma być określenie kosztu transformacji jednej struktury w drugą. Koszt
transformacji może być traktowany jak miara podobieństwa i jest nazywany odległością
strukturalną.
Łańcuchy Browna
Łańcuchy Browna (ang. Brownian Strings) powstały z połączenia metody Freemana
i techniki segmentacji obrazów Kassa. Po raz pierwszy technika ta została opisana przez R. P.
Grzeszczuka i D.N. Levina. Opracowali oni technikę segmentacji obrazu, w której arbitrażowo
naszkicowany kontur był stochastycznie deformowany do momentu dopasowania się do
żądanego kształtu obiektu.
Segmentacja obiektów polega na poprowadzeniu zamkniętej skierowanej krzywej
łamanej złożonej z tzw. segmentów „crack edges”. Wewnątrz tej krzywej powinien znaleźć
się obiekt. Każdy z tych segmentów oddziela na obrazie dwa sąsiadujące ze sobą piksele.
Ważny do odnotowania jest fakt, że skoro każdy segment oddziela dwa piksele, to również
długość każdego segmentu jest identyczna i równa długości piksela na obrazie.
4
Opis i rozpoznawanie kształtów na obrazach z wykorzystaniem łańcuchów Browna
Krzysztof Bartyzel
Ponieważ segmenty oddzielają piksele, więc istnieją cztery możliwe kierunki segmentów
oddzielające piksele: z lewej na prawą, z prawej na lewą, z góry do dołu i z dołu do góry.
Zostały one symbolicznie nazwane R (ang. Right), L (ang. Left), D (ang. Down) i U (ang. Up).
Po wprowadzeniu skierowania segmentów można już zapisać kontur obiektu jako kod
łańcuchowy krzywej łamanej składający się ze skierowanych segmentów.
Łatwo można zauważyć następujące własności łańcuchów Browna:

segmenty tworzą pary: R-L oraz D-U;

liczba segmentów R i L tworzących kontur jest taka sama, analogicznie
w przypadku segmentów U i D;

po segmencie X może wystąpić dowolny inny segment oprócz segmentu
tworzącego parę z segmentem X np.: po segmencie R może wystąpić R, D lub U ale
nie L;

kontur obiektu opisany za pomocą łańcucha Browna jest cyklem. W zależności od
wyboru elementu początkowego (miejsca przecięcia cyklu) otrzymujemy inny
łańcuch odpowiadający temu samemu obiektowi;

postać łańcucha zależy też od kierunku, w którym poruszamy się po brzegu
obiektu.
Na rysunku 1 umieszczono przykładowy obiekt z różnie wybranym elementem
początkowym.
DDRDDDLDRRRURRUULLDDLUUURURULLLL
LLLLDDRDDDLDRRRURRUULLDDLUUURURU
a
b
Rys. 1: Wpływ wyboru elementu początkowego na wygląd łańcucha Browna.
5
Opis i rozpoznawanie kształtów na obrazach z wykorzystaniem łańcuchów Browna
Krzysztof Bartyzel
Deformacja konturów Browna
Zostało wprowadzone pojęcie energii konturu. Każdemu konturowi w przeszukiwanej
przestrzeni można przypisać energię, która zależy od całościowej charakterystyki konturu.
Energia ta określa prawdopodobieństwo wybrania konkretnego konturu, jako zarysu
poszukiwanego obszaru. Optymalizacja konturu polega na minimalizacji wartości tej energii.
Można rozpatrywać dwa typy energii:

energię zewnętrzną – związaną z lokalnymi cechami analizowanego obrazu, takimi
jak jasność, gradient;

energię wewnętrzną – związaną wyłącznie z geometrycznymi charakterystykami
konturu, takimi jak krągłość, długość lub pole.
Deformacja konturu jest algorytmicznym iteracyjnym procesem automatycznej zmiany
kształtu konturu. Algorytmy takie nazywane są generatorami ruchu (ang. move generator),
natomiast ich zadaniem jest doprowadzenie do sytuacji kiedy obszar objęty konturem będzie
w jak najlepszym stopniu przybliżać obiekt. Oczywiście na jakość tego przybliżenia będzie
wpływać konkretna sytuacja, ostrość krawędzi obiektu oraz przyjęta metoda segmentacji.
Autorzy łańcuchów Browna zaproponowali dwa algorytmy zmieniające kontur. W obu,
nowy kontur tworzony jest na podstawie poprzedniego poprzez wprowadzenie lokalnych
zaburzeń,
polegających
na
wybraniu
części
konturu
i
zastąpieniu
go
innym,
zmodyfikowanym.
Niestety po dokładniejszych analizach okazało się, że zaproponowane generatory zmian
nie są pozbawione wad. Może się zdarzyć, że kilka kolejnych iteracji nie przybliża
użytkownika do osiągnięcia pożądanego rezultatu. Co więcej, może dojść do tak zwanego
„zapętlenia” algorytmu tzn. poprawnie działający mechanizm może wygenerować taką serię
kolejnych iteracji, że na początku i na końcu wystąpi identyczny kontur oraz, że nie pozyska
się żadnych dodatkowych informacji o obiekcie lub poszukiwanym optymalnym konturze.
Kolejnym problemem jest możliwość wygenerowania w kolejnych iteracjach konturów
o energii gorszej niż aktualny kontur. W szczególnym przypadku w każdej iteracji może
zostać wygenerowany ten sam mniej optymalny kontur. Oczywiście gorszy kontur zostanie
odrzucony i nie będzie punktem wejścia kolejnej iteracji, ale sam fakt dopuszczenia do
możliwości zajścia takiej sytuacji jest niepokojący.
Ostatnim zauważonym problemem jest brak możliwości zrównoleglenia obliczeń.
Większość nowoczesnych procesorów komputerowych wyposażona jest w więcej niż jeden
rdzeń, przez co możliwe jest przeprowadzanie obliczeń równolegle na każdym ze rdzeni.
6
Opis i rozpoznawanie kształtów na obrazach z wykorzystaniem łańcuchów Browna
Krzysztof Bartyzel
Takie podejście jest znacznie bardziej wydajne i umożliwia bardziej optymalne wykorzystanie
zasobów sprzętowych.
Autor niniejszej rozprawy opracował trzeci generator ruchu eliminujący wszystkie
wymienione problemy. Proponowane rozwiązanie polega na rozdzieleniu energii
wewnętrznej od zewnętrznej podczas procesu optymalizacji konturu. W tym celu
przeprowadzane są następujące etapy:
1) poszukiwanie obszaru na obrazie posiadającego pożądane cechy,
2) przeprowadzenie
analizy
sąsiedztwa
elementów
zaklasyfikowanych,
jako
należących do obiektu,
3) odrzucenie obszarów zbyt małych,
4) optymalizacja geometrycznego kształtu konturu.
W dwóch pierwszych etapach, analizując obraz, optymalizuje się energię zewnętrzną
konturu. Drugi etap wpływa już na energię wewnętrzną poprzez sprawdzenie sąsiedztwa
poszczególnych pikseli. Ma to na celu wygładzenie konturu. W trzecim etapie odrzucane są
małe obszary zgodnie z przyjętym ograniczeniem. W ostatnim etapie należy zadbać, aby
kontur miał pożądany kształt zgodnie z przyjętymi zasadami optymalizacji, np. aby był
pozbawiony pojedynczych odstających elementów, bądź nie posiadał ostrych rogów.
Opracowany algorytm umożliwia wykrycie wszystkich, nawet rozłącznych obiektów.
Ponieważ łańcuchy Browna nie dopuszczają występowania niepewności, każdy piksel musi
zostać jednoznacznie zaklasyfikowany jako należący do obiektu albo należący do tła.
W związku z tym, że etap analizy obrazu został oddzielony od etapu optymalizacji
geometrycznego
kształtu
konturu,
to
każdy
piksel
obrazu
będzie
analizowany
i rozpoznawany jako należący do obiektu bądź tła co najwyżej jeden raz. Oznacza to, że
procedura badania poszczególnych pikseli może zostać zrównoleglona, co w znaczący sposób
wpływa na wydajność działania proponowanego rozwiązania.
Porównywanie łańcuchów
Istnieje wiele metod umożliwiających porównywanie łańcuchów. Do najpopularniejszych
należą:

odległość Hamminga,

odległość Levenstaina,

metoda n-gramów,

uogólniona metoda n-gramów.
7
Opis i rozpoznawanie kształtów na obrazach z wykorzystaniem łańcuchów Browna
Krzysztof Bartyzel
Niestety, żadna z tych metod nie sprawdzała się w przypadku konturów Browna.
Głównym ograniczeniem istniejących metod jest nie uwzględnianie cyklicznej budowy
łańcuchów Browna. Również proste operacje polegające na odbiciu lustrzanym figury, bądź
obrocie o 90 stopni w sposób znaczący ograniczają możliwość wykorzystania znanych metod
porównujących łańcuchy. Otrzymywane wyniki są znacząco różne od intuicyjnych oczekiwań.
W celu usunięcia wymienionych problemów została opracowana modyfikacja odległości
Levenstaina przystosowana do cyklicznej budowy konturów Browna.
Operacje na łańcuchach Browna
W celu umożliwienia porównywania łańcuchów zostało opracowanych kilkanaście metod
przekształcających bądź opisujących cechy konturu i obiektu na podstawie, którego dany
kontur został wygenerowany. Wspólnym wyróżnikiem wszystkich opracowanych metod jest
założenie, że obliczenia wykonywane są wyłącznie w oparciu o łańcuch Browna bez żadnej
wiedzy o oryginalnym obiekcie.
Do najważniejszych opracowanych metod można zaliczyć:

cykliczne przesunięcie konturu;

wyznaczanie askonomicznej szerokości i wysokości obiektu;

wyznaczanie pola obiektu;

odtwarzanie obiektu na podstawie konturu;

badanie konturu pod kontem występowania czterosegmentowych wierzchołków;

określanie skierowania konturu;

wyznaczanie projekcji obiektu;

wyznaczanie Centroidy;

zmiana kierunku skierowania konturu;

obrót konturu o 90 stopni w prawo i w lewo;

obrót konturu o 180 stopni;

odbicie lustrzane konturu w pionie i w poziomie.
Adaptacyjny filtr Kuwahary
Podczas przeprowadzania badań i wstępnego przetwarzania zdjęć, mającego na celu
poprawę jakości, pojawił się poważny problem. Dotyczył on nierównomiernego oświetlenia
sceny oraz użycia trybu automatycznego podczas wykonywania zdjęć. Sprawiło to, że różnice
pomiędzy kolejnymi obrazami były tak duże, a dokładniej, niedoskonałości na nich
występujące były na tyle poważne, że nie udało się dopasować przekształcenia dostatecznie
dobrze poprawiającego wszystkie niedoskonałości, a jednocześnie niezaburzającego
kolejnych faz analizy. Wypróbowano użycie kilku efektów m.in.:
8
Opis i rozpoznawanie kształtów na obrazach z wykorzystaniem łańcuchów Browna
Krzysztof Bartyzel

rozciąganie histogramu,

wyrównywanie histogramu,

filtr uśredniający,

filtr selektywnie uśredniający,

filtr uśredniający Gaussa,

filtr selektywnie uśredniający Gaussa,

filtr medianowy,

adaptacyjny filtr medianowy,

filtr Kuwahary.
Rozwiązaniem tego problemu było opracowanie zupełnie nowego filtru posiadającego
wszystkie pożądane cechy. Filtr ten został nazwany adaptacyjnym filtrem Kuwahary. Przed
rozpoczęciem jakiejkolwiek analizy na każdym z przetwarzanych obrazów był stosowany
zaproponowany filtr. Jego użycie dało najbardziej pożądane wyniki spośród wszystkich
przebadanych metod.
Algorytm adaptacyjnego filtru Kuwahary powstał z połączenia dwóch innych filtrów:
adaptacyjnego filtru medianowego i filtru Kuwahary. Najważniejszą cechą adaptacyjnego
filtru medianowego jest dostosowywanie rozmiaru okna działania filtru do wyników
częściowej analizy uzyskanych w trakcie działania. Natomiast zadaniem filtru Kuwahary jest
wygładzanie kolorów oraz usuwanie drobnych szumów przy jednoczesnym zachowaniu
krawędzi. Niestety, oba te filtry nie są pozbawione wad. Pierwszy z nich rozmywa krawędzie,
co bardzo utrudnia dalszą analizę. Ponadto, w związku ze zmiennym rozmiarem okna
złożoność obliczeniowa tego filtru jest znacznie większa niż innych filtrów. Natomiast filtr
Kuwahary wprawdzie zachowuje krawędzie, ale wymagane jest podanie rozmiaru okna.
Niepożądanym efektem działania drugiego filtru jest bardzo wyraźna pikselizacja, czyli
mozaika dużych, jednorodnych, często prostokątnych obszarów.
Opracowany filtr ma następujące cechy:

zachowuje krawędzie przetwarzanego obrazu,

krawędzie obiektów po zastosowaniu adaptacyjnego filtru Kuwahary są znacznie
mniej zmodyfikowane niż w przypadku użycia standardowego filtru Kuwahary
z większym oknem,

tendencja do pikselizacji w porównaniu ze standardowym filtrem Kuwahary została
znacznie zmniejszona,

posiada możliwości usuwania szumu z obrazu porównywalną do adaptacyjnego
filtru medianowego oraz filtru Kuwahary,

zachowuje większą różnorodność intensywności kolorów w odniesieniu do filtru
9
Opis i rozpoznawanie kształtów na obrazach z wykorzystaniem łańcuchów Browna
Krzysztof Bartyzel
Kuwahary,

jest bardzo szybką operacją, szczególnie w porównaniu z adaptacyjnym filtrem
medianowym.
Porównywanie obiektów
Proces rozpoznawania obiektów został podzielony na dwie fazy: ograniczenie zbioru
możliwych rezultatów za pomocą klasyfikacji hierarchicznej oraz porównywanie badanego
konturu z konkretnymi reprezentacjami wzorcowych konturów zapamiętanych w bazie. Jest
to zastosowanie wnioskowania na podstawie przykładów (ang. case-based reasoning). Druga
z wymienionych faza może być przetwarzana równolegle. Każdy z możliwych rezultatów
może być analizowany w osobnym wątku. Następnie po uzyskaniu informacji o wszystkich
badanych wzorcach wyniki są porównywane i wybierany jest ten, który uzyskał najlepszą
ocenę.
Pierwsza faza jest modyfikacją klasyfikatora hierarchicznego. Rozpoczynając od
pojedynczego skupienia zawierającego wszystkie elementy, poprzez kolejne etapy, w których
skupienie początkowe jest ograniczane aż do uzyskania skupienia o minimalnej liczbie
elementów. Jedyną różnicą pomiędzy proponowanym podejściem a standardową koncepcją
klasyfikatorów jest dopuszczenie, aby na końcu procesu klasyfikacji ostatnie skupienie mogło
składać się z więcej niż jednego elementu. Wynika to z faktu, że niektóre elementy mogą być
bardzo zbliżone i nie zawsze możliwe jest jednoznaczne rozdzielenie skupień na tym etapie
analizy. Oczywiście, pociąga to za sobą konieczność użycia dodatkowych mechanizmów, aby
rozpoznać obiekt.
Bardzo ważną cechą opracowanej klasyfikacji hierarchicznej jest znaczne uproszczenie
całego procesu rozpoznawania oraz znaczna poprawa wydajności obliczeniowej. Dzięki
określeniu pewnych uniwersalnych cech, jakie posiadają znane obiekty było istotne
ograniczenie zbioru możliwych rezultatów.
Zostały określone następujące etapy:

porównywanie liczby elementów składających się na reprezentację obiektu,

porównywanie rozpiętości,

porównywanie zwartości,

porównywanie pola,

porównywanie długości,

porównywanie centroidy.
Każdy etap na wejściu otrzymuje listę dopuszczalnych skupień. Następnie porównuje się
wartości wzorcowe, zapisane w bazie, z wartościami wyliczonymi dla konkretnego badanego
10
Opis i rozpoznawanie kształtów na obrazach z wykorzystaniem łańcuchów Browna
Krzysztof Bartyzel
konturu.
Ostatecznie,
otrzymujemy
listę
dopuszczalnych
skupień
pomniejszoną
o rozwiązania odrzucone w danym etapie.
W ramach poszczególnych etapów następuje sprawdzenie, czy analizowany kontur ma
cechy odpowiadające wcześniej znanym wzorcom lub czy dopuszczalnie różni się od tych
wzorców. Optymalną sytuacją byłoby posiadanie wszystkich możliwych wzorców danej klasy
obiektów bądź przynajmniej pewnej reprezentatywnej grupy zawierającej przypadki
brzegowe. Jednakże zazwyczaj dysponujemy tylko pewną bardzo ograniczoną liczbą
wzorców, dla której nie możemy stwierdzić, czy ma rozkład normalny czy jednorodny.
Dodatkowo, jedną z cech gramatyk lingwistycznych jest możliwość generowania wzorców
o praktycznie nieograniczonej postaci. Należy to rozpatrywać raczej jako zaletę niż wadę,
gdyż dzięki temu metody lingwistyczne mogą w lepszy sposób odzwierciedlić rzeczywiste
obiekty.
Natomiast,
najważniejszym
zadaniem
badacza
jest
opracowanie
miary
podobieństwa w taki sposób, aby uwzględniała charakter wzorców.
Każdy z etapów klasyfikacji jest podobny i składa się z dwóch części. Na początku
sprawdzamy, czy analizowany kontur, a właściwie wartości badanej cechy, zawierają się
w zakresie: średnia ± 3*odchylenie standardowe. Zakres ten, zgodnie z własnościami
rozkładu normalnego, powinien zawierać 99,73% wszystkich obserwacji. Tak jak zostało
wspomniane wcześniej, nie mamy pewności, czy rozkład danych wzorcowych jest rozkładem
normalnym, zatem musimy dopuścić również te obiekty, które nie zawierają się
w określonym zakresie, ale są wystarczająco podobne do elementów wzorcowych.
Określenie tego podobieństwa zostało wykonane poprzez sprawdzenie prawdziwości
następującej pary nierówności:
Wartość współczynnika
została określona na poziomie 120% dla porównywania pola
oraz 140% w pozostałych etapach. Jeśli para nierówności jest spełniona, to można przyjąć, że
dana cecha analizowanego konturu jest podobna do wartości wzorcowej w sposób znaczący
i badany kontur można dopuścić do dalszych etapów klasyfikacji.
Oczywiście, pierwszy etap jest inny. Służy do identyfikacji obiektów składających się
z większej liczby elementów. Na przykład podczas rozpoznawania znaków drukowanych
umożliwia identyfikację liter i, j, ć, ń, ó, ś, ż i ź dzięki przekazaniu informacji, że składają się
one z dwóch części.
W fazie porównywania ze wzorcem można wyróżnić następujące etapy:

ocena podobieństwa rozpiętości,

ocena podobieństwa zwartości,
11
Opis i rozpoznawanie kształtów na obrazach z wykorzystaniem łańcuchów Browna
Krzysztof Bartyzel

ocena podobieństwa pola,

ocena podobieństwa długości,

obliczanie odległości Levenstaina,

ocena podobieństwa projekcji,

wyliczanie ostatecznej oceny poprzez zastosowanie wag dla wcześniej wyliczonych
ocen.
Każda z ocen wyrażana jest w postaci liczby z przedziału [0,1] gdzie 0 oznacza całkowitą
zgodność, natomiast 1 zupełnie odmienny charakter obiektu. Sposób oceny podobieństwa
można interpretować jako wyznaczenie miary podobieństwa pomiędzy analizowanymi
obiektami. Matematyczne postulaty miary nie były sprawdzane.
Jak zostało wspomniane, druga faza może być realizowana równolegle, przy czym
równolegle przetwarzane są nie poszczególne operacje oceniające cechy badanego konturu,
ale operacje oceniające całe klasy wzorców. Praktyka pokazała, że nie opłaca się realizować
zrównoleglenia na niższym poziomie, bo skutkowałoby to koniecznością zbyt częstego
przełączania zadań, a w rezultacie zmniejszoną wydajnością.
Opracowany proces jest na tyle uniwersalny, że został wykorzystany do analizy wszystkich
badanych zagadnień.
4 Wyniki badań
Celem badań było wykorzystanie gramatyki ciągowej w postaci łańcuchów Browna oraz
metod aktywnego konturu do rozpoznawania obiektów na obrazach cyfrowych. Badania
zostały podjęte, ponieważ:

Nie istniały badania pokazujące możliwość wykorzystania ciągowych struktur
symbolicznych do opisywania obiektów na obrazach cyfrowych. Obecnie
wykorzystywane metody symboliczne używają gramatyk drzewiastych i grafowych.

Gramatyki drzewiaste i grafowe są skomplikowane oraz mało intuicyjne. Użycie
łańcuchów Browna znacznie upraszcza zapis oraz ułatwia interpretacje.

Łańcuchy
Browna
zastosowaniach
bez
łatwo
można
wprowadzania
wykorzystać
zmian
w
w
bardzo
różnorodnych
konstrukcji
mechanizmu
rozpoznawania obiektów.

Metody ciągowe w zapisie komputerowym mają znacznie prostszą budowę,
a obiekty zbudowane przy użyciu łańcuchów Browna wymagają znacznie mniej
miejsca w pamięci.

Nie zostały opracowane żadne operacje (np.: pole, aksonomiczna szerokość
12
Opis i rozpoznawanie kształtów na obrazach z wykorzystaniem łańcuchów Browna
Krzysztof Bartyzel
i wysokość, centroid) na łańcuchach Browna, umożliwiające badanie cech oraz
porównywanie obiektów.
W niniejszej pracy przeprowadzono badania w oparciu o trzy zagadnienia:

rozpoznawanie znaków tekstu drukowanego,

rozpoznawanie liści wybranych drzew,

rozpoznawanie kształtów dłoni dla wybranych liter języka migowego.
Każdy z badanych problemów odnosi się do zupełnie innego zagadnienia, co ma na celu
pokazanie, że jest możliwe wykorzystanie gramatyki ciągowej w postaci łańcuchów Browna
oraz metod aktywnego konturu do rozpoznawania obiektów na obrazach cyfrowych.
Jako przykład skuteczności opracowanej metody można rozważyć wyniki otrzymane
podczas rozpoznawania liter tekstu drukowanego. Obrazy do tego eksperymentu zostały
pozyskane poprzez wydrukowanie a następnie zeskanowanie fragmentu artykułu popularnonaukowego. Ze względu na chęć uproszczenia zagadnienia separacji tekstu na poszczególne
znaki użyto czcionki „Courier New”, w której każdy znak ma stałą szerokość. Spośród
wszystkich znaków w danym kroju ograniczono się do znaków alfanumerycznych.
W poniższej tabeli umieszczono otrzymane rezultaty.
Znak
Poprawnie
Niepoprawnie
zaklasyfikowane zaklasyfikowane
Procent
poprawnie
zaklasyfikowanych
a
231
0
100,00%
ą
31
0
100,00%
b
50
0
100,00%
c
115
0
100,00%
ć
6
0
100,00%
d
76
0
100,00%
e
254
0
100,00%
ę
16
0
100,00%
f
11
1
91,67%
g
32
0
100,00%
h
34
0
100,00%
i
198
0
100,00%
13
Opis i rozpoznawanie kształtów na obrazach z wykorzystaniem łańcuchów Browna
Krzysztof Bartyzel
Uzyskano
j
62
0
100,00%
k
76
0
100,00%
l
61
0
100,00%
ł
32
0
100,00%
m
61
0
100,00%
n
147
2
98,66%
ń
6
0
100,00%
o
189
0
100,00%
ó
27
0
100,00%
p
83
0
100,00%
r
132
2
98,51%
s
104
0
100,00%
ś
11
0
100,00%
t
123
0
100,00%
u
72
4
94,74%
w
131
0
100,00%
y
102
0
100,00%
z
132
0
100,00%
ż
18
2
90,00%
ź
3
0
100,00%
Łącznie
2626
11
99,58%
doskonałą
skuteczność,
porównywalną
z
komercyjnymi
narzędziami
dostępnymi na rynku. Warty podkreślenia jest fakt, że podczas rozpoznawania nie były
dostarczone żadne informacje dotyczące kontekstu tekstu. W zagadnieniu celowo pominięto
możliwość wykorzystania słowników wyrazów oraz prawdopodobieństwa występowania
poszczególnych znaków i par znaków. Miało to na celu uzyskanie jak najbardziej klarownych
rezultatów, dotyczących tylko i wyłącznie możliwości wykorzystanie gramatyki ciągowej
w postaci łańcuchów Browna oraz metod aktywnego konturu do rozpoznawania obiektów.
Ponieważ poddany analizie został prawdziwy, posiadający sens artykuł, a nie
spreparowany dokument, to liczba niektórych znaków, w szczególności diakrytycznych, była
stosunkowo niewielka. Nie powinno jednak mieć to większego wpływu na całościową ocenę
eksperymentu ponieważ budowa tych znaków jest bardzo charakterystyczna. Potwierdzają
to również przeprowadzone dodatkowe badania. Jedynym problemem jest rozróżnienie
14
Opis i rozpoznawanie kształtów na obrazach z wykorzystaniem łańcuchów Browna
Krzysztof Bartyzel
znaków „ż” i „ź”. Jednakże jak zostało wspomniane wcześniej, dołączając kontekstowe
informacje możliwe byłoby osiągnięcie jeszcze lepszej skuteczności.
Wyniki rozpoznawania liści najpopularniejszych drzew występujących w parkach były
również satysfakcjonujące. Z przebadanych 109 obrazów tylko 6 zostało niepoprawnie
zaklasyfikowanych bądź nie udało się zidentyfikować, żadnego obiektu. Oznacza to, że łączny
procent poprawnie rozpoznanych liści wyniósł 94,50%.
Najwięcej problemów pojawiło się podczas identyfikacji liści jarzębiny. Pojedynczy liść
tego gatunku składa się tak jakby z kilkunastu mniejszych listków połączonych z ogonkiem
(osadką). Jest to przykład liścia złożonego nieparzysto-pierzastego. W procesie przetwarzania
i analizy obrazów czasami miała miejsce sytuacja, w której zamiast jednego pojedynczego
obiektu system wykrywał wiele pojedynczych elementów niepołączonych ze sobą.
Dodatkowo wiotkość liścia i sposób ułożenia na ekranie skanera w sposób znaczący wpływały
na wynik rozpoznawania.
Należy zwrócić uwagę na ogromną różnorodność obiektów, zarówno mnogość gatunków
jak i odmian wewnątrz danego gatunku. Osoba bez odpowiedniego wykształcenia, bądź
zamiłowania do roślin jest co najwyżej w stanie rozpoznać gatunek kilku rodzajów drzew.
Usuwając informacje o fakturze, kolorystyce i przestrzennym ułożeniu nerwów zazwyczaj
uniemożliwia dokładne określenie gatunku. Różnorodność jest tak ogromna, że często do
pewnej identyfikacji konieczne jest również uwzględnienie wysokości drzewa, układu
konarów drzewa oraz gęstości korony.
Ostatnim analizowanym zagadnieniem było rozpoznawanie kształtów dłoni dla wybranych
liter języka migowego. Głównym celem eksperymentu było sprawdzenie, czy możliwe jest
usprawnienie komunikacji komputer-człowiek. Mysz i klawiatura komputerowa zostały
wprowadzone w celu usprawnienia komunikacji (wcześniej wykorzystywano karty
perforowane), ale nie są to naturalne kanały. Wszystko wskazuje na to, że w najbliższej
przyszłości rozwój branży IT będzie podążał w kierunku eliminacji wszelkich kontrolerów,
a komunikacja będzie odbywać się za pomocą głosu, dotyku, gestu a w przyszłości zapewni
i myśli. Język migowy został wybrany w celu uściślenia i ujednolicenia wykonywanych
gestów. Równie dobrym rozwiązaniem byłoby opracowanie innego zestawu gestów znacznie
prostszych do identyfikacji. Wybór konkretnych gestów spośród wszystkich znaków
polskiego alfabetu migowego miał zarówno pokazać różnorodność dostępnych gestów jak
i stopień podobieństwa pomiędzy znakami.
W poniższej tabeli umieszczono wyniki rozpoznawania wybranych znaków języka
migowego. Uzyskano bardzo zadowalające wyniki, gdyż dla 380 przeanalizowanych zdjęć
poprawny znak został rozpoznany w 323 przypadkach, co stanowi 85%. Głównym
15
Opis i rozpoznawanie kształtów na obrazach z wykorzystaniem łańcuchów Browna
Krzysztof Bartyzel
problemem jest różny sposób wykonywania gestów przez różne osoby. Niestety mimo
wkładanego wysiłku dwie osoby nie mogą w sposób identyczny pokazać złożonego gestu.
A
M
1
25
2
1
32
2
T
W
2
Y
2
1
1
3
W
1
Y
36
34
4
1
2
30
30
32
100,00%
27
96,30%
33
75,76%
40
80,00%
40
90,00%
2
39
74,36%
2
24
7
33
72,73%
2
35
77,14%
31
1
36
86,11%
1
30
34
88,24%
33
47
380
85,00%
2
39
100,00%
3
27
37
31
29
1
2
1
4
36
2
1
2
S
Łącznie
S
1
N
T
O
26
F
O
N
32
C
Powinno zostać rozpoznane
F
31
B
M
C
poprawnych
B
Procent
A
Łącznie
Zostało rozpoznane
33
29
32
Rozpoznawanie przy użyciu łańcuchów Browna można porównać do próby rozpoznania
obiektu na podstawie rzucanego przez niego cienia. Tracona jest w ten sposób informacja
o wzajemnym ułożeniu palców dłoni, co często jest jedyną istotną różnicą odróżniającą dwa
znaki. Dodatkowo, dysponując wiedzą specjalistyczną często usuwając ze zdjęć, teksturę
pozostawiając jedynie obrys dłoni również nie można jednoznacznie określić jaki znak został
poddany rozpoznawaniu. Należy też zauważyć, że człowiek również mylnie odczytuje
pojedyncze znaki. Jednak składając je w słowa uwzględnia sąsiedztwo (kontekst) oraz wiedzę
o temacie, na który prowadzona jest rozmowa migowa.
Oczywiście, nic nie szkodzi na przeszkodzie, aby pominąć uniwersalność i stworzyć system
dedykowany dla danej osoby. Należałoby stworzyć bazę wiedzy złożoną tylko i wyłącznie
z łańcuchów Browna odpowiadającym gestom wykonywanym przez jedną osobę. Można
przypuszczać, że system zbudowany o takie zasady posiadałby skuteczność bliską 100%.
16
Opis i rozpoznawanie kształtów na obrazach z wykorzystaniem łańcuchów Browna
Krzysztof Bartyzel
Każdy z badanych problemów odnosił się do zupełnie innej tematyki, co miało na celu
pokazanie, że łańcuchy Browna cechuje bardzo duża uniwersalność i możliwość
wykorzystania w różnorodnych zastosowaniach. Bez wprowadzenia większych zmian
w algorytmie było możliwe wykorzystanie opracowanych mechanizmów do rozpoznawania
zupełnie różnych obiektów. Można stwierdzić, że zbudowany system posiada pożądane
własności. Liczba danych treningowych, z jednej strony, nie była zbyt duża, natomiast
z drugiej strony pozwoliła na ekstrakcję istotnych cech badanych obiektów, w taki sposób,
aby wyniki klasyfikacji były zadowalające. System i sposób doboru cech posiada oczekiwane
własności. Dostarcza potrzebnych i wyczerpujących informacji na temat badanych obiektów
oraz umożliwia podzielenie badanej przestrzeni na klasy w sposób wyczerpujący oraz
rozłączny. Cel pracy udało się zrealizować, a otrzymane rezultaty są satysfakcjonujące.
17
Opis i rozpoznawanie kształtów na obrazach z wykorzystaniem łańcuchów Browna
Krzysztof Bartyzel
5 Wybrana literatura
R. Tadeusiewicz, M. R. Ogiela, P. S. Szczepaniak, Notes on a Linguistic Description as the
Basis for Automatic Image Understanding, Applied Mathematics and Computer Science, pp.
143-150, 2009.
R. Tadeusiewicz, P. S. Szczepaniak, Basic concepts of knowledge-based image
understanding, Agent and Multi-Agent Systems: Technologies and Applications. Springer
Berlin/Heidelberg, 2008, pp. 42-52.
R. Tadeusiewicz, M. R. Ogiela, Medical Image Understanding Technology, Springer
Berlin/Heidelberg, 2004.
L. Ogiela, R. Tadeusiewicz, M. R. Ogiela, Cognitive techniques in medical information
systems, Computers in Biology and Medicine, pp. 501-507, 2008.
K. Stępor, Automatyczna klasyfikacja obiektów. Warszawa: Exit, 2005.
P. S. Szczepaniak, R. Tadeusiewicz, The Role of Artificial Intelligence, Knowledge and
Wisdom in Automatic Image Understanding, Journal of Applied Computer Science, 2010.
R. Narasimhan, A linguistic approach to pattern recognition, Digital Computer Laboratory
University of Illinois, 1962.
D. Lu, Q. Weng, A survey of image classification methods and techniques for improving
classification performance, International Journal of Remote Sensing, vol. 28, no. 5, pp. 823870, Mar. 2007.
H. Birk, T. B. Moeslund, C. B. Madsen, Real-Time Recognition of Hand Alphabet Gestures
Using Principal Component Analysis, in Proceedings of the 10th Scandinavian Conference on
Image Analysis , 1997.
M. H. Yang, N. Ahuja, M. Tabb, Extraction of 2-D Motion Trajectories and its Application to
Hand Gesture Recognition, IEEE Transactions on Pattern Analysis and Machine Intelligence,
vol. 29, no. 8, pp. 1062–1074, 2002.
18
Opis i rozpoznawanie kształtów na obrazach z wykorzystaniem łańcuchów Browna
Krzysztof Bartyzel
S. P. Kaustubh, D. R. Sumantra, Hand gesture modelling and recognition involving
changing shapes and trajectories, using a Predictive EigenTracker, Pattern Recognition
Letters, vol. 28, no. 3, pp. 329-334, 2007.
P. Kakumanu, S. Makrogiannis, N. Bourbakis, A survey of skin-color modeling and
detection methods, Pattern Recognition, vol. 40, p. 1106–1122, 2007.
P. Peer, J. Kovac, F. Solina, Human skin colour clustering for face detection, in EUROCON
2003 – International Conference on Computer as a Tool, vol. 2, 2003, pp. 144-148.
M. J. Jones, J. M. Rehg, Statistical color models with application to skin detection, in Proc.
of the CVPR’99, vol. 1, 1999, p. 274–280.
J. Brand, J. Mason, A comparative assessment of three approaches to pixel level human
skin-detection, in ICPR01, vol. 1, 2000, p. 1056–1059.
H. Freeman, On the encoding of arbitrary geometric configurations, IRE Trans. Electron.
Computers EC-10, pp. 260-268, 1961.
M. Kass, W. Witkin, D. Terzopoulos, Snakes: Active Contour Models, International Journal
of Computer Vision, 1988.
R. P. Grzeszczuk, D. N. Levin, “Brownian strings”: Segmenting images with stochastically
deformable contours, IEEE Transactions on Pattern Analysis and Machine Intelligence, pp.
1100-1114, 1997.
A. Blake, M. Isard, Active Contours The Application of Techniques from Graphics, Vision,
Control Theory and Statistics to Visual Tracking of Shapes in Motion. Springer-Verlag, 1998.
19

Podobne dokumenty