Wykład 5

Transkrypt

Wykład 5
Wykład 9
Algorytmy kodowania obrazów
Świat pełen wrażeń i bodźców
… a my mamy tylko dwoje oczu
Obliczeniowe teorie widzenia
• Dlaczego widzimy świat tak a nie inaczej?
• Które atrybuty bodźców są reprezentowane w
naszej świadomości?
• Z czego mózg składa widziany obraz?
• Jak na algorytm kodowania wpływa cel tegoż?
• Teoria obliczeniowa to abstrakcyjny opis relacji
pomiędzy światem, bodźcem i zadaniem.
Obliczeniowa teoria widzenia
1.
2.
3.
4.
5.
Cechy bodźca ważne dla zadania
Sposób wyodrębnienia tych cech
Reprezentacja ważnych cech bodźca
Sposób ich przetwarzania
Sposób realizacji każdego z etapów
Teoria obliczeniowa analizuje teoretyczne granice
tego co możliwe i biologiczne granice tego co
praktyczne  próba odgadnięcia sposobu pracy
mózgu
Obliczeniowa teoria widzenia
• Wzrok spełnia różne zadania
–
–
–
–
–
–
Rozpoznawanie obiektów
Orientacja przestrzenna
Śledzenie obiektów
Utrzymywanie równowagi
Określanie pozycji własnego ciała
Kierowanie interakcjami społecznymi
 nie ma jednej teorii obliczeniowej!
 dla zamodelowania niezbędna jest
interakcja między modułami dla
różnych zadań
Obliczeniowy schemat Marra
rozpoznawania obiektów
Obraz
Szkic
pierwotny
Szkic 2½D
Modelowa
reprezentacja
3D
Hipoteza 1
• Wszystkie użyteczne atrybuty sceny
trójwymiarowej, takie jak znaczenie
poszczególnych powierzchni, kontury
obiektów i cienie, można odczytać z
podstawowego sygnału wejścia na siatkówce,
lokalizując i opisując miejsca, w których
dochodzi do względnie gwałtownej zmiany
natężenia obrazów
Rozpoznawanie obiektów
Prosty szkic
pierwotny
• Kodowanie
i analizowanie
indywidualnych
zmian natężenia
w obrębie mapy
obrazu
siatkówkowego
Pełny szkic
pierwotny
• Bardziej złożona
analiza Informacji
z pogrupowanie
fragmentów
krawędzi w zbiory
o większym
znaczeniu w
odniesieniu do
płaszczyzn
Szkic 2½D
• Dodane
informacje na
temat
odległości
i ułożenia
płaszczyzn
względem
siebie
Szkic 2½D
• Opisuje jedynie widoczne części sceny (a więc
nie całą scenę trójwymiarową)
• Nie jest wystarczający do rozpoznania
obiektów, wymaga konfrontacji z
reprezentacją zmagazynowaną w pamięci
• Zmienia się w zależności od punktu widzenia
(musielibyśmy pamiętać wszystkie możliwe
kąty widzenia przedmiotów)
Modelowa reprezentacja 3D
• Części obiektów są kodowane w odniesieniu
do jakiejś charakterystycznej części całego
obiekty  reprezentacja nie zależy od punktu
widzenia
Kierunek percepcji
• Z dołu do góry (bottom-up) – percepcja powstaje
na podstawie prostego obrazu i jest kodowana w
użyteczny opis świata
• Z góry do dołu (top-down) – wiedza na temat
obiektu determinuje jego postrzeganie,
zakodowany obraz jest przekształcany w widziany
obraz
• Teorie obliczeniowe skupiają się głównie na
pierwszej z tych koncepcji ze względu na to że
łatwiej jest opisywać wczesne etapy percepcji.
Odwzorowanie obiektów
• Gdy poprosi się kogoś o narysowanie jakiegoś
przedmiotu zacznie on od kreślenia prostych
linii, a nie od nakładania plam kolorów
• Podkreśla to dwa użyteczne rodzaje granic
krawędź – obiekt
– Ekonomiczny opis ogólnego kształtu obiektu
– Pozycja i kształt konkretnych cech i płaszczyzn
przedmiotu
Rozpoznawanie obiektów
• Co to jest krawędź? Gwałtowna zmiana
oświetlenia  nieciągłość luminancji
• Opis niekompletny
– nie wszystkie krawędzie dają efekt nieciągłości,
niektóre są ukryte
– nie wszystkie nieciągłości odpowiadają cechom
obiektu, niektóre są cieniem  drugi etap
rozpoznawania
Wykrywanie nieciągłości luminancji
• Najprościej – odejmujemy wartości luminancji
w dwóch sąsiednich punktach 
różniczkowanie przestrzenne
– Nieciągłości występują w różnych skalach (ostrych
lub stopniowanych) z których żadna nie jest lepsza
od pozostałych
– Nieciągłości mogą przebiegać w różnych
kierunkach
– Obrazy są bardzo „zaszumione” – luminancja różni
się losowo pomiędzy punktami
Wygładzanie obrazu
• Cel: likwidacja szumu
• Zbyt duży obszar uśredniania  usuniecie
informacji
• Zbyt mały obszar uśrednienia  fałszywy
sygnał
• Średnia ważona – waga Gaussowska
względem odległości od rozpatrywanego
punktu  pola receptywne komórek
zwojowych!
Komórki zwojowe
• Dwa podregiony uśredniają oświetlenie
sąsiednich punktów obrazu
• Dzięki antagonistycznemu ustawieniu tych
podregionów możliwe jest wychwycenie różnic
między tymi średnimi,
• Ich okrągły kształt zapewnia dokonywanie
porównać we wszystkich kierunkach
• W różnych miejscach siatkówki znajdują się
komórki zwojowe z różnymi wielkościami pól
receptywnych dzięki czemu porównywanie
odbywa się w różnych skalach
Komórki zwojowe
• Dwa podregiony uśredniają oświetlenie sąsiednich
punktów obrazu
• Dzięki antagonistycznemu ustawieniu tych
podregionów możliwe jest wychwycenie różnic między
tymi średnimi,
• Ich okrągły kształt zapewnia dokonywanie porównać
we wszystkich kierunkach
• W różnych miejscach siatkówki znajdują się komórki
zwojowe z różnymi wielkościami pól receptywnych
dzięki czemu porównywanie odbywa się w różnych
skalach
• Czułość (funkcja wagowa) daje się modelować przez
dwukrotne zróżniczkowanie funkcji gaussa
Model komórki kory
mózgowej
• Pozycja nieciągłości luminancji
dana jest przez pozycję miejsca
zerowego w opisie, wynikającą z
wygładzenia i różniczkowania
• Jeśli połączymy dwa równoległe
rzędy komórek zwojowych
logicznym „i” to sygnał
wyjściowy pojawi się jedynie
gdy oba rzędy jednocześnie
reagują pozytywnie 
ukierunkowana krawędź.
• Dla każdego kierunku i skali
przestrzennej oddzielne
połączenie pól receptywnych
Tworzenie asercji krawędzi
• Rezultatem procesu reprezentowanego przez
komórki zwojowe jest zbiór miejsc zerowych
obrazu, z których każda odzwierciedla inną skalę
przestrzenną
• W odróżnieniu od szumu rzeczywiste cechy
przedmiotu prowadzą do pojawienia się miejsca
zerowego w kilku skalach przestrzennych
• Każda asercja krawędzi może być opisana w
kategoriach swojej pozycji, kontrastu, kierunku,
skali itd. poprzez analizę wzorca reakcji na
poszczególnych mapach
Prosty szkic pierwotny
• Rezultatem tych procesów jest szkic pierwotny
- lista symboli tworząca pewne zdanie na
temat świata zewnętrznego i mogąca z
łatwością ulegać manipulacji w trakcie
dalszych procesów
• Jego status różni się istotnie od prostej mapy
pozycji miejsc zerowych, która opisuje obraz.
Uwagi
• Obraz nieruchomy, statyczny
– Ruch można wykrywać w dalszych etapach obróbki sygnału
– Niewielka modyfikacja powyższego schematu prowadzi do
wykrywania zmian w czasie a nie przestrzeni
• Analiza neurofizjologincza sugeruje raczej podłużny
kształt pól receptywnych komórek zwojowych
selektywny dla orientacji przestrzennych
• Nie ma dowodów na operację operacji „i” w
komórkach korowych wzroku
– Wykrywanie na podstawie maksimów/minimów
– Zdarzenia rzadkie
Pełny szkic pierwotny
• Prosty szkic pierwotny (reprezentacja
obliczeniowa lub neuronowa) przypomina
elementy układanki – pojedyncze klocki
zawierają cechy informacyjne dotyczące
obrazu, lecz nie wystarczają do uchwycenia
znaczącej struktury obrazu w kategoriach
krawędzi i przedmiotów
Hipoteza 2
• Materia jest spójna
– symbole znajdujące się blisko siebie na obrazie z
reguły należą do tego samego obrazi
• Symbole posiadające wspólny atrybut
deskryptywny (np. wspólną orientację)
najprawdopodobniej będą miały wspólną fizyczną
przyczynę
– można je pogrupować razem w celu utworzenia
symboli dużej skali z nowymi atrybutami
deskryptywnymi (kształt, tekstura),
– następnie proces ten można powtarzać
Szkoła psychologii
Gestalt
• Zasady
grupowania
– Prawo
bliskości
– Prawo
podobieństwa
– Wspólna
forma
– Kontynuacja
krawędzi
– Wspólny
wzorzec ruchu
Mona Lisa
Uwagi
• Powyższy opis bierze pod uwagę jedynie cechy
dwuwymiarowe, podczas gdy doświadczenie sugeruje,
że mózg równie łatwo stosuje założenia co do głębi
– Szybkie kodowanie relacji przestrzennych pomiędzy
krawędziami już w dwóch wymiarach
– Świat jest trójwymiarowy, a przy wierzchołkach stałych
przedmiotów często tworzą się kąty proste
• Procesy neuronowe odpowiadające kodowaniu
pełnego szkicu pierwotnego pozostają dla nas
niezrozumiałe
– obszar V2 uzyskujący informację z pierwotnej kory
mózgowej reaguje na istnienie iluzorycznych krawędzi
– Procesy wieloneuronowe
Szkic 2½D
• Rekonstrukcja głębi obrazu świata na
podstawie dwóch płaskich obrazów
siatkówkowych:
• Wskazówki głębi:
– Perspektywa liniowa
– Cień
– Tekstura
– Ruch
– Steroskopia
Stereoskopia
• Dysponujemy dwoma oddzielnymi wizjami
świata, z których każda pochodzi z jednego oka,
czyli innego punktu widzenia
– Niezgodności (diparities) zawierają informacje na
temat odległości pomiędzy obiektami
• Nie ma problemu w przypadku gdy obrazy zostały
już rozpoznane, lecz doświadczenia (np.
streogramy punktów losowych) wskazuje, że
steroskopia stanowi element pomocniczy (a nie
konsekwencję) procesu rozpoznania.
Sterogramy
Problem korespondencji
D
A
23 i 24
24 i 14
B
C
14 i 13
13 i 23
24 i 13
12
3 4
Hipoteza 3
1. Jednocześnie może być widziany tylko jeden
przedmiot na każdej linii wzroku
2. Przedmioty generalnie mają gładkie
powierzchnie, przez co odległości zmieniają
się stopniowo między poszczególnymi
miejscami
• Znajdujemy wszystkie korespondencje, a
następnie osłabiamy niekompatybilne
Uwagi
• Stereoskopia nie spełnia wszystkich zadań jeśli
chodzi o widzenie głębi
• Dostarcza informacji o względnym położeniu
przedmiotów wobec obserwatora, ale
niewiele mówi np. o na temat nachylenia
powierzchni
• Dlatego równie ważne są inne wskazówki głębi
(np. ruch)
Reprezentacja przedmiotu
• Niezależnie od tego, jak dokładna i bogatą w
informacje reprezentację udało się stworzyć na
dotychczasowych etapach, najistotniejszym i
najtrudniejszym krokiem rozpoznania
wzrokowego jest dopasowanie powstałego opisu
do jakiejś uprzednio zachowanej reprezentacji
przedmiotu w pamięci
• Jest to istota rozpoznania – pozwala zmobilizować
posiadaną wiedzę i nadać światu sens
Metoda reprezentowania obiektów
• Metoda taka powinna być wystarczająco
elastyczna by objąć szeroki zakres (jeśli nie
wszystkie) rozpoznawanych obiektów
• Powinna być łatwo dostępna, niezależnie od
typu reprezentacji opracowanej na podstawie
obrazu
• Musi zapewniać rozpoznanie obiektu
niezależnie od punktu widzenia, opisując
strukturę trójwymiarową obiektu
Metoda rozwiniętych stożków
• Dla każdego obiektu reprezentowanego w
pamięci definiujemy jakąś oś odniesienia (np.
oś symetrii, oś największego wymiaru, pion)
• Następnie opisujemy jak wygląda przekrój
obiektu prostopadły do tej osi
• Na koniec opisujemy zmiany tego przekroju
wzdłuż osi
Tworzenie modeli
na podstawie szkicu 2½ D
• Wyobraźmy sobie, że dzbanek jest zakodowany
jako przedmiot posiadający półkolistą rączkę
biegnącą wzdłuż długiej osi dzbanka, a po
przeciwnej stronie zaopatrzony w dziobek
• Taki opis dzbanka pozostaje niezmieniony nawet
jeśli dzbanek jest obracany aby nalać kawę,
mimo, że obraz siatkówkowy zmienia się znacząco
• Ważne aby główną oś zakodować
niezależnie od innych kierunków
Dzbanek do kawy
• Główną osią dzbanka może być oś długości
zdeterminowana wysokością, ale istnieją także
inne ważne osie, np. oś rączki i oś dziobka
• Również sama rączka i dziobek mogą być
przedmiotem reprezentacji, kiedy np. chcemy
rozpoznać rodzaj dziobka na konkretnym dzbanku
• Hierarchiczne odkodowanie przedmiotów – każda
część umieszczana względem osi głównej
następnej, większej całości
Reprezentacja a ruch
• Reprezentacje nie mogą być statyczne – wtedy
przedmiot w ruchu (np. człowiek poruszający
nogami podczas marszu) przestałby być
rozpoznawany.
• W rzeczywistości okazuje się, że czasem
wystarczy jedynie ruch by rozpoznać obiekt
(np. ruch w ciemności z światełkami
przymocowanymi do stawów)
Uwagi
• Powyższy schemat jest uzależniony od właściwych
procedur wyszukiwania odpowiednich osi i
dzielenia całych przedmiotów na części
– Wykrywanie punktów o silnej wklęsłości (ostrych
brzegach)
• Z danych eksperymentalnych wynika, że
najszybciej można identyfikować przedmioty na
poszczególnych poziomach specyficzności
– Kot = zwierzę  kot  rasa kota
Teoria rozpoznania przez komponenty
I.Biedermana (RBC)
• Irving Biederman, Recognition-by-Components: A
Theory of Human Image Understanding,
Psychological Review 1987, Vol. 94, No. 2,115147
1. Przedmioty są reprezentowane przez
ograniczony zestaw specyficznych „geonów”
2. Geony powstają przez połączenie
nieprzypadkowych cech odnajdowanych z reguły
w obrazach, np. linia prosta na obrazie ogólnie
mówi o prostej krawędzi trójwymiarowej
Co to jest?
Przykład „sam-to-zrób”
• Co to jest?
– Jeden z tych przedmiotów, które nie przypominają
niczego…
– W pierwszej chwili opisujemy to jako kostki,
prostopadłościany, walce, lejki, itp.
– Część kształtów możemy
interpretować jako
niedokończone tekstury lub też
podzielić na fragmenty
połączone ze sobą
– Po chwili jednak dochodzimy do
wniosku, że jest to np. wóz z
hot-dogami, kominem, kółkiem
itd.
Mowa a widzenie
• W mowie jesteśmy w stanie opisać praktycznie
wszystkie obiekty jakie rozpoznajemy
• Język nasz składa się z ok. 50 zgłosek. Tak mało
elementów składowych wystarcza do reprezentacji
każdego przedmiotu. Wszystkie zgłoski są opisywane
przez proste dychotomie (ew. trychotomie), np.
głosowa – nosowa, dźwięczna - bezdźwięczna, itp.
• Ważne są także relacje między zgłoskami np. kos i sok
mają te same zgłoski, lecz różne znaczenie
• Może da się także zdefiniować zbiór „liter”
reprezentujących bezpośrednio obrazy siatkówkowe i
reprezentacje obrazów w pamięci, definiowanych na
podstawie prostych dychotomii (np. proste - krzywe,
symetryczne - niesymetryczne itp.)
Geony
• Skromna liczba prostych składników
geometrycznych – ogólnie wypukłych i
objętościowych, takich jak walce, kostki, kliny,
stożki.
• Przedmioty są segmentowane, zwykle w
miejscach ostrych wklęsłości i powstałe części są
dopasowywane do najlepiej pasujących
składników podstawowych
• Zbiór składników zależy od kombinacji
charakterystyki kontrastu na brzegach w
dwuwymiarowym obrazie (proste czy krzywe,
symetryczne czy asymetryczne) który definiują
różnice w danym zestawie prostych brył.
Charakterystyki powierzchni
• W mowie część przedmiotów jest postrzegana
konkretnie, objętościowo może być stosowana z
liczebnikami, np. krzesło, trzy krzesła,
• Inne pojęcia nie mają takiego statusu, np. woda,
śnieg
– Nie powiemy trzy wody, ale już np. trzy krople wody
• Przedmioty nieobjetościowe muszą być
reprezentowane za pomocą geonów
charakteryzujących powierzchnię, teksturę itp.
Podstawowe zjawiska rozpoznawania
obrazów
• 5 faktów empirycznych rozpoznawania
obiektów. Obiekty rozpoznawane są
– Szybko
– W większości położeń i obrotów
– Przy umiarkowanym stopniu szumu
– Częściowo zasłonięte
– Nawet jeśli są nowym przykładem danej kategorii
Wymagania wobec teorii
rozpoznawania
1. Dostęp do reprezentacji umysłowej
przedmiotu powinien być niezależny od
absolutnego osądu szczegółów ilościowych,
ponieważ takie osądy są wolne i podatne na
błędy. Np. ocena promienia krzywizny czy
absolotnej długości elementu jest zadaniem
zbyt wolnym i trudnym do udziału w
bezpośrednim procesie rozpoznania
Wymagania wobec teorii
rozpoznawania
2. Informacja będąca podstawa rozpoznania
powinna być stosunkowo niezależna od
orientacji i niewielkich braków
3. Częściowe dopasowania powinny być
obliczalne. Teoria interpretacji przedmiotów
powinna posiadać pewne podstawowe
założenia dla obliczania dopasowania w
przypadku zasłonięcia, częściowości lub też
nowych przykładów w danej kategorii
Schemat rozpoznania
Wyróżnienie
brzegów
Wykrycie rzadkich właściwości
Podział na regiony
Wyznaczenie komponentów
Dopasowanie komponentów do
reprezentacji przedmiotów
Identyfikacja przedmiotu
Kolor i tekstura
• Kolor i tekstura zdają się pełnić drugorzędną
rolę przy identyfikacji przedmiotów
objętościowych, będąc być może nawet
częściowo konsekwencją rozpoznania
• Istotą rozpoznania krzesła jest jego kształt, a
kolor i tekstura nie zmieniają w żaden sposób
tego rozpoznania
Uporządkowanie geonów
5 aspektów obrazu dwuwymiarowego,
które są przenoszone na obraz 3D
•
•
•
•
•
Koliniowość
Krzywoliniowość
Symetria
Równoległość
Rozgałezienia
Koliniowość vs krzywoliniowość
N
A
N
A
W
W
V
N
M
M
M
V
W
N
N
V
N
V
Z
M
N
M
W
W
V
Koliniowość vs krzywoliniowość
C
C
O
C
G
G
Q
G
O
C
Q
Z
O
G
O
O
C
C
C
G
C
Q
Q
O
C
Symetria vs równoległość
Rozgałęzienia
Geon
Proste (S)
Zakrz. (C)
2 pł. sym
(++)
Jedna pł.
(+)
Asymetr.
(-)
Stała
wielkość
przekroju
(++)
Rozszerzają
ce się
(+)
Rozszerzają
ce się i
zwężające
(-)
Geony
Proste (+)
Zakrzywion
e (-)
Tylko 36 kombinacji!
•
•
•
•
Krawędź (prosta,
zakrzywiona)
Symetria
(jednopłaszczyznowa,
dwupłaszczyznowa, brak)
Wielkość (stała,
zwiększające się,
zwiększające i
zmniejszające się
Oś (prosta, zakrzywiona)