Autoreferat

Transkrypt

Autoreferat
Załącznik II
Autoreferat
Spis treści
1
Curriculum Vitae
1
2
Badania naukowe przed doktoratem
4
3
Badania naukowe po doktoracie
5
3.1
Rozpoznawanie obiektów na podstawie wyglądu . . . . . . . . . . . . .
6
3.2
Segmentacja zębów w trójwymiarowych modelach szczęk . . . . . . . .
7
3.3
Metody szkieletyzacji w rozpoznawaniu obiektów . . . . . . . . . . . .
8
3.4
Adaptacyjne uczenie kontekstu w rozpoznawaniu obiektów . . . . . . .
9
4
Lista publikacji proponowana jako osiągnięcie naukowe
11
5
Wykłady naukowe na zaproszenie
12
6
Udział w projektach naukowych
13
1
Curriculum Vitae
Prof. Dr.-Ing.1 Marcin Grzegorzek
Kierownik Grupy Naukowej Rozpoznawania Wzorców
Instytut Informatyki Obrazu, Uniwersytet Siegen
Hölderlinstraße 3, D-57076 Siegen, Niemcy
Tel.: +49 271 740 3972, Fax: +49 271 740 1 3972
http://www.pr.informatik.uni-siegen.de
Email: [email protected]
Wykształcenie
12/2002 – 04/2007
Doktorat (Dr.-Ing.) z wyróżnieniem w zakresie statystycznego rozpoznawania obiektów w Katedrze Rozpoznawania Wzorców Uniwersytetu
Erlangen-Norymberga (promotor i recenzent: Prof. Dr.-Ing. Heinrich
Niemann, recenzent: prof. dr hab. inż. Ryszard Tadeusiewicz)
10/1996 – 11/2002
Studia informatyczne (mgr inż.) na Politechnice Śląskiej w Gliwicach
(praca magisterska w zakresie przetwarzania obrazów medycznych w
Bawarskim Centrum Systemów Opartych na Wiedzy w Erlangen, promotorzy: prof. dr hab. inż. Katarzyna Stąpor, Prof. Dr.-Ing. habil. Dietrich Paulus)
Zatrudnienie
od 11/2012
(praca dodatkowa)
od 10/2010
(praca główna)
03/2012 – 07/2012
(praca dodatkowa)
03/2008 – 09/2010
(praca główna)
03/2008 – 09/2010
(praca główna)
07/2006 – 02/2008
(praca główna)
Kierownik projektu “Robotyka Kognitywna” w fundacji (think tank)
“Stiftung Neue Verantwortung” w Berlinie
Profesor w Instytucie Informatyki Obrazu i kierownik Grupy Naukowej
Rozpoznawanie Wzorców na Uniwersytecie w Siegen
Profesor Wizytujący w Katedrze Inżynierii Wiedzy na Uniwersytecie
Ekonomicznym w Katowicach
Docent w Instytucie Technologii Internetowych i kierownik Grupy Multimedia w Internecie na Uniwersytecie w Koblencji
Docent w Instytucie Wizualizacji Komputerowej i pracownik naukowy
w Katedrze Aktywnego Widzenia na Uniwersytecie w Koblencji
Adiunkt w Grupie Naukowej Multimedia i Widzenie na Uniwersytecie
w Londynie (Qeen Mary College)
1
Oficjalny tytuł nadany w Niemczech 1 października 2010 roku podany z pełną świadomością tego, iż nie
ma on bezpośredniego przełożenia na stopnie i tytuły naukowe obowiązujące w Polsce.
1
12/2002 – 06/2006
(praca główna)
06/2002 – 01/2004
(praca dodatkowa)
Asystent w Katedrze Rozpoznawania Wzorców na Uniwersytecie
Erlangen-Norymberga
Programista w firmie Siemens w Erlangen
Stypendia i wyróżnienia
06/2012
Wyróżnienie I stopnia zespołu uczniów klasy maturalnej (opiekun) w
konkursie na najlepszy projekt techniczny Uniwersytetu w Siegen
10/2010
Wyróżnienie III stopnia w konkursie na najlepszy artykuł podczas konferencji MMAP 2010
03/2010
Nagroda za najlepszą pracę magisterską (promotor) na styku nauki i
przemysłu
12/2002 – 11/2005
Stypendium doktoranckie Niemieckiej Wspólnoty Badawczej (DFG) na
Uniwersytecie Erlangen-Norymberga
04/2001 – 09/2001
Studia na Uniwersytecie Erlangen-Norymberga finansowane w ramach
programu Erasmus/Sokrates
03/2000 – 09/2000
Stypendium Międzynarodowego Instytutu IHI Zittau finansujące intensywny kurs języka niemieckiego zakończony egzaminem DSH
Działalność akademicka
Recenzent
Czasopisma: Pattern Recognition, Multimedia Tools and Applications,
Image and Graphics, ACM Transactions on the Web, Biometrics, Pattern Recognition and Artificial Intelligence, Image and Vision Computing; Konferencje: ACM Multimedia, i-KNOW, MMEDIA, SAMT,
THEMIS, Mirage, CORES, etc.
Wydawca
Czasopisma: 2 specjalne wydania MTAP (Multimedia Tools and Applications Journal); książki: Springer LNCS 6725 “Semantic Multimedia”,
Springer LNCS ”ToF Technology“
GRK 1564
Kierownik w projekcie Niemieckiej Wspólnoty Badawczej (DFG) “Imaging New Modalities” na Uniwersytecie w Siegen
PSSI
Członek Polskiego Stowarzyszenia Sztucznej Inteligencji
2
Think Tank SNV
Członek fundacji (think tank) “Stiftung Neue Verantwortung” w projekcie “The Business Web”
Erasmus/Sokrates
Koordynator wydziałowy programu Erasmus/Sokrates na Uniwersytecie w Siegen
EUCog
Członek EUCogII (2nd European Network for the Advancement of Artificial Cognitive Systems, Interaction and Robotics)
MTI Mittelrhein
Członek komitetu założycielskiego Instytutu Inżynierii Medycznej w Koblencji
SMaRT Society
Członek zarządu stowarzyszenia SMaRT (Semantic Multimedia Research and Technology Association)
SAMT 2010
Organizator (General Chair) konferencji SAMT 2010 (5th International
Conference on Semantic and Digital Media Technologies)
SSMS 2009
Organizator szkoły letniej SSMS 2009 (Summer School on Multimedia
Semantics)
SAMT 2008
Organizator (Publicity Chair) konferencji SAMT 2008 (3rd International Conference on Semantic and Digital Media Technologies)
Znajomość języków
Polski
Niemiecki
Angielski
ojczysty
płynnie w mowie i w piśmie
płynnie w mowie i w piśmie
3
2
Badania naukowe przed doktoratem
Segmentacja naczyń krwionośnych: Moim pierwszym projektem o charakterze naukowym była praca magisterska w zakresie przetwarzania obrazów medycznych (temat: Segmentacja naczyń krwionośnych w obrazach siatkówki oka) zrealizowana w 2002 roku w Bawarskim
Centrum Systemów Opartych na Wiedzy w Erlangen (Niemcy). Moim bezpośrednim promotorem był Prof. Dr.-Ing. habil. Dietrich Paulus z Uniwersytetu Erlangen-Norymberga, natomiast
opiekę od strony Politechniki Śląskiej przejęła prof. dr hab. inż. Katarzyna Stąpor. Praca ta
stanowiła finalną część moich studiów informatycznych na Wydziale Automatyki, Elektroniki i
Informatyki Politechniki Śląskiej w Gliwicach.
Celem nadrzędnym projektu, w którym brało udział kilku naukowców Uniwersytetu w Erlangen, było zrealizowanie systemu do wczesnej, automatycznej i profilaktycznej diagnostyki
jaskry. Mój udział w tym projekcie polegał na zaimplementowaniu algorytmu detekcji krawędzi
naczyń krwionośnych w obrazach HRT (ang. Heidelberg Retina Tomograph) wizualizujących
odcienie szarości dna oka. W ramach wstępnego przetwarzania obrazu dokonałem normalizacji
oświetlenia. Potem użyłem metody Canny’ego do detekcji krawędzi. Jednakże moim najbardziej znaczącym wkładem naukowym w tym projekcie było zaproponowanie algorytmu, który
nazwałem CEM (ang. Clean Edge Map), transformującego rezultat metody Canny’ego do
obrazu o wymaganej jakości poprzez usunięcie zbędnych krawędzi. Metoda ta wykorzystuje
wiedzę kontekstową niniejszego zastosowania, mianowicie wymóg równoległości krawędzi naczyń krwionośnych względem siebie oraz ich minimalną, akceptowalną długość w relacji do
rozmiarów plamki ślepej. Kontynuację tej pracy opublikowałem w [15]2 .
Statystyczne rozpoznawanie obiektów: Po studiach na Politechnice Śląskiej podjąłem
pracę jako asystent i doktorant w Katedrze Rozpoznawania Wzorców na Uniwersytecie ErlangenNorymberga. Tematem mojego przewodu doktorskiego, który zakończyłem z wyróżnieniem w
kwietniu 2007 roku, było: Bazujące na wyglądzie, statystyczne rozpoznawanie obiektów z wykorzystaniem modelowania koloru i kontekstu [44]. Moim promotorem i pierwszym recenzentem
był Prof. Dr.-Ing. Heinrich Niemann, natomiast drugą recenzję sporządził prof. dr hab. inż.
Ryszard Tadeusiewicz.
W ramach pracy doktorskiej zaproponowałem, zaimplementowałem i poddałem szczegółowej ewaluacji system do statystycznej klasyfikacji i lokalizacji obiektów w obrazach dwuwymiarowych. System stosuje metodę uczenia nadzorowanego (ang. supervised learning) i nie wykorzystuje informacji kontekstowych ze względu na apriorycznie niezdefiniowane zastosowanie.
Jedyne wymogi stawiane obiektom poddawanym analizie to ich rozróżnialność na podstawie
wyglądu (tekstury lub koloru) oraz sztywna, niedeformowalna budowa.
W fazie uczenia (treningu) obiekty zapisywane są dwuwymiarową kamerą wizyjną zmieniającą kąt widzenia tak, aby wszystkie widoki obiektu zostały zarejestrowane. W warunkach laboratoryjnych pozycje obiektów w takich obrazach (wektor translacji i macierz obrotu względem
obiektu referencyjnego w trójwymiarowym układzie współrzędnych) są znane. W warunkach
rzeczywistych obrazy treningowe pozyskiwane są za pomocą kamery prowadzonej ręcznie (ang.
handheld camera). Wówczas pozycje obiektów nie są znane i szacowane są metodą rekonstrukcji trójwymiarowej SfM (ang. Structure from Motion) [45, 47, 53]. Kolejnym krokiem systemu
jest ekstrakcja lokalnych, dwuwymiarowych wektorów cech z wykorzystaniem transformacji falkowej. Pozyskane w ten sposób wektory dzielone są później na te, które opisują obiekt i te,
które należą do tła [46, 50]. Oszacowany dzięki temu obszar obiektu traktować można jako
funkcję dyskretną parametrów transformacji (translacji i obrotu) w trójwymiarowym układzie
2
Cytowania numeryczne w formacie [n] odnoszą się do pełnego wykazu moich publikacji (załącznik III).
4
współrzędnych. Dziedziną tej funkcji jest zbiór wszystkich pozycji obiektu przewidzianych w
procesie rejestrowania obrazów treningowych. Po odpowiedniej interpolacji funkcja ta otrzymuje przebieg ciągły, co umożliwia lokalizację obiektów w dowolnych pozycjach, również tych,
które nie były przewidziane w fazie treningu. Elementy wektorów cech opisujących obiekt traktowane są jako niezależne statystycznie zmienne losowe podlegające rozkładowi normalnemu.
Są one modelowane odpowiednimi funkcjami gęstości prawdopodobieństwa szacowanymi na
podstawie dużej ilości przykładów treningowych. W przypadku scen wieloobiektowych statystyczne zależności pomiędzy obiektami modelowane są za pomocą sieci Bayesa [51].
W fazie rozpoznawania system dokonuje automatycznej klasyfikacji i lokalizacji obiektów
w obrazach z tłem niejednolitym. Metodologia przewiduje cztery warianty przebiegu tej fazy.
Są to: (I) klasyfikacja i lokalizacja obiektów w scenach jednoobiektowych na podstawie pojedynczych obrazów [49], (II) klasyfikacja i lokalizacja obiektów w scenach jednoobiektowych
na podstawie sekwencji obrazów [54], (III) klasyfikacja i lokalizacja obiektów w scenach wieloobiektowych bez uwzględnienia modelowania kontekstowego [52] oraz (IV) klasyfikacja i lokalizacja obiektów w scenach wieloobiektowych z uwzględnieniem modelowania kontekstowego
[51]. Niezależnie od wariantu algorytmu podstawą zdeterminowania klasy i pozycji obiektu
jest wyznaczenie wartości funkcji gęstości prawdopodobieństwa oszacowanych w fazie treningowej dla wszystkich elementów wektorów cech pozyskanych z obrazu testowego, przy czym
uwzględniane są jedynie wektory opisujące obiekt i nienależące do tła. Proces ten odbywa się
dla każdego obiektu w dużej ilości hipotetycznych jego pozycji w sześciowymiarowej przestrzeni
parametrów (trzy parametry translacji, trzy parametry obrotu). Ze względu na daleko idące
założenia statystycznej niezależności dotyczące wektorów cech i ich elementów, porównanie
obrazu testowego z modelem treningowym danego obiektu w danej pozycji sprowadza się do
wyznaczenia ilorazu odpowiednich wartości funkcji gęstości prawdopodobieństwa. Maksymalna
wartość tego ilorazu dla wszystkich przewidzianych hipotez determinuje klasę i pozycję analizowanego obiektu.
Eksperymenty przeprowadzone dla ponad trzydziestu tysięcy obrazów z niejednolitym tłem
pokazały, iż wykorzystanie koloru do ekstrakcji wektorów cech obiektu znacznie poprawia skuteczność klasyfikacji i nieznacznie lokalizacji. Podczas, gdy dla obrazów w odcieniach szarości
system klasyfikował obiekty prawidłowo w 54,1% przypadków, odsetek ten wzrósł dla obrazów
kolorowych RGB do 82,3%. Podobną, chociaż nie aż tak wyraźną, tendencję zaobserwowano
dla lokalizacji - poprawa odpowiednio z 69% do 73,6%.
3
Badania naukowe po doktoracie
Głównym wątkiem moich badań naukowych po doktoracie jest rozpoznawanie obiektów. Biorąc
pod uwagę własności wprowadzonych przeze mnie algorytmów w tym zakresie można podsumować go tytułem
Wielowymiarowa analiza, klasyfikacja i rozpoznawanie
obiektów trójwymiarowych w obrazach scen rzeczywistych.
Lista moich dziesięciu najważniejszych publikacji z tej tematyki, którą proponuję jako osiągnięcie naukowe w sensie art. 16 ust. 2 ustawy o stopniach i tytule naukowym z dnia 14 marca 2003
roku, przedstawiona jest w rozdziale 4, a kopie tych artykułów zostały załączone. Bezpośrednio po doktoracie znacząco rozbudowałem system do bazującego na wyglądzie rozpoznawania
obiektów w obrazach rejestrowanych dwuwymiarową kamerą wizualną uzupełniając go o innowacyjne algorytmy i przeprowadzając szereg nowych eksperymentów, w tym dla zastosowań
5
rzeczywistych (podrozdział 3.1). Nieco później zacząłem również brać pod uwagę obiekty rejestrowane przez skanery trójwymiarowe oraz kamery głębi. W podrozdziale 3.2 streszczone
są moje prace nad segmentacją zębów w trójwymiarowych modelach szczęk, natomiast podrozdział 3.3 opisuje moje badania w zakresie rozpoznawania obiektów opisanych przy użyciu
metod szkieletyzacji. Wyniki tych prac stanowią podstawę mojej nadrzędnej wizji badawczej w
dziedzinie rozpoznawania obiektów, która przedstawiona jest pokrótce w podrozdziale 3.4.
3.1
Rozpoznawanie obiektów na podstawie wyglądu
Rozpoznawanie obiektów na podstawie wyglądu (ang. appearance-based object recognition)
stanowi bardzo ważny wątek moich badań naukowych po doktoracie. Bazując na fundamencie
opisanym w rozdziale 2 rozwinąłem szereg nowych algorytmów w tym zakresie i dokonałem
ich szczegółowej ewaluacji pozwalającej na ciekawe wnioski naukowe.
W [2007-ContextModelling4ObjectRecognition]3 opisałem swój nowy algorytm uczenia
kontekstu w scenach wieloobiektowych. Metoda ta nie zakłada równomiernego rozkładu prawdopodobieństwa apriorycznego dla zbioru wszystkich możliwych obiektów. Prawdopodobieństwa te uczone są w trybie nadzorowanym na podstawie przykładów treningowych. Przeprowadzone eksperymenty pokazały znaczną poprawę wyników w porównaniu z przypadkiem rozpoznawania obiektów w scenach wieloobiektowych bez modelowania kontekstu. Poprawność
klasyfikacji dla obrazów z kompleksowym, niejednolitym tłem wzrosła z 62,9% do 87,5%,
natomiast odsetek przypadków, w których algorytm poprawnie wyznaczył liczbę obiektów w
obrazach, poprawił się z 43,2% do 59,2%. Prof. Ebroul Izquierdo z Queen Mary University of
London konsultował mnie podczas prac prowadzących do tego artykułu.
Znaczne, metodologiczne rozszerzenia mojego systemu do klasyfikacji i lokalizacji obiektów oraz jego zupełnie nowe zastosowanie do automatycznego rozpoznawania eksponatów
muzealnych opisałem w [2010-WaveletFeatures4ObjectRecognition]. Coraz większa liczba turystów rejestruje swoje wrażenia za pomocą kamer cyfrowych. W tak niezliczonej ilości obrazów
trudno jest rozpoznać i zinterpretować eksponaty, które miało się okazję zobaczyć w muzeum.
Metodologia zaproponowana w [2010-WaveletFeatures4ObjectRecognition] służy nie tylko automatycznej klasyfikacji eksponatów, ale dostarcza również wszelkich informacji na ich temat
za pomocą odpowiedniego interfejsu internetowego. Projekt prowadzący do tego systemu zrealizowałem we współpracy z naukowcami z Dublin City University (Prof. Noel E. O’Connor udział konsultacyjny; Dr. Sorin Sav - pomoc w eksperymentach) oraz z Queen Mary University
of London (Prof. Ebroul Izquierdo - udział konsultacyjny).
Kolejne rozszerzenia systemu do rozpoznawania obiektów na podstawie wyglądu w kierunku
rzeczywistych zastosowań opublikowałem w [2010-ProbabilisticObjectRecognition]. Jednym z
opisanych tutaj zastosowań jest automatyczna klasyfikacja obrazów metalograficznych do celów oceny jakości. Aby rozwiązać ten problem musiałem dokonać gruntownych zmian w metodzie statystycznego modelowania wektorów cech wyznaczanych za pomocą transformacji
falkowej. Lokalne wektory cech opisujące sąsiednie obszary traktowane są tutaj jako rezultaty
pomiaru wektora losowego o normalnym rozkładzie wartości dla każdego z jego wymiarów. Dla
reprezentatywnego zbioru obrazów metalurgicznych, który otrzymałem od inżynierów huty ArcelorMittal Ostrava a.s, system działał niemalże bezbłędnie i jest obecnie używany w praktyce
przemysłowej. W artykule tym przedstawiłem ponadto nowy szereg testów ogólnych przeprowadzonych na bazie danych COIL (ang. Columbia Object Image Library) celem uzyskania
porównywalności systemu z metodami innych autorów. Dla podbazy COIL-20 (20 obiektów)
3
Cytowania za pomocą etykiet hasłowych w stylu [2007-ContextModelling4ObjectRecognition] odnoszą
się do listy publikacji proponowanej jako osiągnięcie naukowe, która zamieszczona jest w rozdziale 4.
6
prawidłowy wynik klasyfikacji uzyskany został w 100% przypadków, dla pełnej bazy COIL-100
wynik testu oceny klasyfikacji to 98,9%.
W kolejnej pracy z tego cyklu [2010-ColorBasedObjectRecognition] udoskonaliłem znacznie metodę modelowania obiektów używając wektorów cech wyznaczanych na postawie koloru.
Przeprowadzając zestaw porównywalnych testów dla różnych przestrzeni barw pokazałem, iż
system najpoprawniej rozpoznaje obiekty w przestrzeni LAB. Podczas, gdy dla formatu RGB
system klasyfikuje obiekty poprawnie w 82,3% przypadków (w obrazach z rzeczywistym, kompleksowym tłem), odsetek ten wzrasta dla przestrzeni barw LAB aż do 90,2%. W przypadku
lokalizacji odnotowano poprawę odpowiednio z 73,6% do 77,8%. W przestrzeni LAB zaobserwowano również znacznie większą odporność systemu na redukcję ilości przykładów treningowych. I tak np. dla obniżenia liczby obrazów treningowych wykorzystywanych do modelowania
jednej klasy z 3360 do 240 poprawność klasyfikacji spada jedynie z 90,2% do 83,9%. Analogiczna redukcja ilości przykładów treningowych w formacie RGB powoduje spadek odpowiednio
z 82,3% do 68,6%. Badania prowadzące do tej publikacji przeprowadziłem we współpracy z
naukowcami Uniwersytetu w Koblencji (Prof. Dietrich Paulus, Dr. Frank Schmidt i Alexandra
Wolyniec), przy czym ich udział miał charakter pomocniczo-konsultacyjny.
W ramach pracy opisanej w [2011-Statistical-vs-FeatureBased] wprowadziłem alternatywną
strategię rozpoznawania obiektów metodą z treningiem nadzorowanym, w której obiekty opisywane są za pomocą cech SURF (ang. Speeded Up Robust Features). W fazie klasyfikacji obiekt
w obrazie testowym porównywany jest z wszystkimi dostępnymi w bazie danych obiektami w
innych obrazach. Geometryczne metody dopasowywania cech SURF pozwalają na wyznaczenie podobieństwa pomiędzy zapytaniem (obrazem testowym), a każdym innym obrazem w
bazie danych. Klasa obiektu o najwyższym podobieństwie do zapytania traktowana jest jako
ostateczny rezultat klasyfikacji. Korzystając z tej samej bazy danych obrazów testowych porównałem działanie tej nowej metody z wynikami statystycznego systemu do rozpoznawania
obiektów opisanego w rozdziale 2. Dla obrazów z kompleksowym tłem rzeczywistym pokazałem, iż metoda statystyczna wykazuje dużo większą wrażliwość na redukcję liczby obrazów
treningowych aniżeli algorytm wykorzystujący cechy SURF. Dla spadku liczby obrazów treningowych (reprezentowanych w przestrzeni RGB) wykorzystywanych do modelowania jednej
klasy z 3360 do 240 metoda statystyczna pogarsza skuteczność swojej klasyfikacji z 82,3%
do 68,6%. Dla identycznej redukcji liczby obrazów treningowych metoda bazująca na cechach
SURF praktycznie nie zmienia swojego działania (spadek odpowiednio z 74,3% do 73,4%). Badania prowadzące do tej publikacji przeprowadziłem w kooperacji z naukowcami Uniwersytetu
w Koblencji (Prof. Dietrich Paulus, Peter Decker i Susanne Thierfelder).
3.2
Segmentacja zębów w trójwymiarowych modelach szczęk
Segmentacja zębów w trójwymiarowych modelach szczęk stanowi również bardzo istotny wątek moich badań naukowych po doktoracie. W przeciwieństwie do algorytmów streszczonych w
podrozdziale 3.1 chodzi tutaj o analizę obiektów w obrazach rejestrowych skanerem głębi. W
ramach tego projektu współpracowałem z naukowcami Uniwersytetu w Koblencji (Prof. Dietrich Paulus i Marina Trierscheid) oraz z firmą RV realtime visions GmbH (Dimitri Papoutsis).
Współpraca ta miała na celu zaprojektowanie i wdrożenie tzw. wirtualnego artykulatora.
Artykulatory to urządzenia stosowane w stomatologii wykorzystywane w przebudowie zgryzu,
jak i przy wykonywaniu prac protetycznych. Mechaniczne artykulatory stosują modele gipsowe
do rejestracji zwarciowych powierzchni zgryzu. Wirtualny artykulator zbudowany w ramach
tego projektu stosuje trójwymiarowe modele szczęk rejestrowane kamerą głębi oraz odpowiednie oprogramowanie automatycznie wyznaczające powierzchnie zgryzu zębów i ich anta7
gonistów. Centralną częścią tego oprogramowania jest wprowadzony przeze mnie algorytm do
segmentacji trójwymiarowych modeli poszczególnych zębów z trójwymiarowego modelu szczęki
[2010-TeethSegmentation].
Metoda ta działa półautomatycznie. Na wstępie użytkownik wybiera manualnie jeden punkt
w części środkowej zęba, którego segmentacji chce dokonać. Później trójwymiarowy model
szczęki transformowany jest do mapy głębi (ang. range image), która binaryzowana jest dla
różnych wartości progowych (na różnych poziomach głębi). Następnie dla każdego poziomu
głębi stosowana jest metoda aktywnych konturów [2010-ActiveContours4TeethSegmentation].
Uzyskane w ten sposób kontury nie są jednak zamknięte ze względu na to, iż sąsiadujące zęby
stykają się ze sobą. Dlatego w kolejnym kroku brakujące części konturów rekonstruowane są za
pomocą odpowiedniej interpolacji. Eksperymentalnie stwierdzono, iż otrzymane w ten sposób
kontury zwykle nie obejmują segmentowanych zębów w całości. Dlatego wynik ten optymalizowany jest tzw. algorytmem snakes. Wyniki segmentacji uzyskane w dwuwymiarowych obrazach
binarnych na różnych poziomach głębi są ostatecznie scalane do trójwymiarowego modelu zęba.
W eksperymentach użyłem 28 par trójwymiarowych modeli szczęk, które podzieliłem na
trzy kategorie. Pierwsza z nich (8 par) to obrazy sztucznych modeli szczęk reprezentujących
uzębienie w idealnym stanie. Druga kategoria (17 par) to obrazy rzeczywistych szczęk pacjentów ze zdrowym uzębieniem. Ostatnia kategoria to 4 pary obrazów rzeczywistych przedstawiających uzębienie w mocno zaniedbanym stanie. Manualne segmentacje zębów służące jako
referencje do oceny jakości automatycznego algorytmu sporządzone zostały przez eksperta
z dziedziny stomatologii. Dla pierwszej kategorii obrazów średnia czułość (ang. sensitivity)
algorytmu wynosi 90% natomiast średnia swoistość (ang. specificity) 99%. Dla drugiej kategorii uzyskano wyniki odpowiednio 92% i 98%, natomiast dla trzeciej kategorii: 80% i 93%
[2010-DentitionModels].
3.3
Metody szkieletyzacji w rozpoznawaniu obiektów
Moim najbardziej aktualnym wątkiem naukowym w zakresie rozpoznawania obiektów jest wykorzystanie metod szkieletyzacji w obrazach rejestrowanych zarówno kamerami dwuwymiarowymi, sensorami głębi jak i skanerami trójwymiarowymi. Badania te przeprowadzam współpracując z naukowcami z Uniwersytetu w Koblencji (Prof. Dietrich Paulus, Jens Hedrich, Simone
Schäfer, David Barnowsky) jak i z Prof. Longinem Lateckim z Temple University w Filadelfii.
W [2013-ObjectSkeletonisation] zaproponowałem innowacyjny algorytm do wyznaczania
podobieństw obiektów w obrazach rejestrowanych skanerem trójwymiarowym. W pierwszym
kroku obiekty opisywane są szkieletami powierzchniowymi (ang. surface skeletons), co jednak nie pozwala na wyznaczenie stosownych wektorów cech. Dlatego największym wkładem
naukowym tej pracy jest zręczna ich redukcja do szkieletów krawędziowych (ang. curve skeletons). Początkowo grubość niektórych ścieżek tych szkieletów (ang. skeleton paths) przekracza
w pewnych obszarach jeden woksel, co znacznie utrudnia ilościowy opis obiektów. Zastosowanie odpowiedniego algorytmu zwężania (ang. thinning algorithm) rozwiązuje ten problem.
Struktura tak wyznaczonych szkieletów służy do obliczenia pięciowymiarowych, ilościowych
wektorów cech opisujących każdy obiekt. Wektory te używane są później do analitycznego
szacowania podobieństw między obiektami. Eksperymenty przeprowadzone dla bardzo wymagającej bazy danych obiektów referencyjnych przyniosły obiecujące wyniki. Średnia precyzja
algorytmu (ang. precision) wynosi 0,34, natomiast średnia jego pełność (ang. recall) 0,72.
W [2013-SkeletonGraphMatching] opisałem swoją obszerną analizę badawczą algorytmu
dopasowywania grafów pochodzących od szkieletów (ang. skeleton graph matching) opisujących obiekty rejestrowane kamerą dwuwymiarową. Szkieletyzacja dwuwymiarowa obiektów
8
niesztywnych (np. zwierząt) może prowadzić do zupełnie różnych topologicznie grafów dla
różnych obrazów tego samego obiektu (np. boczny obraz konia z głową zwróconą ku górze,
a boczny obraz konia z głową zwróconą w dół). Standardowe metody dopasowywania takich grafów zwracają niskie wartości podobieństwa mimo, iż semantycznie chodzi o ten sam
obiekt. Aby rozwiązać ten problem w [2013-SkeletonGraphMatching] brane są pod uwagę jedynie części grafów, a dokładniej najkrótsze ścieżki pomiędzy ich węzłami końcowymi. Każda
najkrótsza ścieżka w każdym z dwóch porównywanych grafów opisywana jest numerycznym
wektorem cech. W tym celu każda ścieżka dzielona jest w równoodległych punktach, przy
czym liczba tych punktów odpowiada liczbie wymiarów przestrzeni cech. Długości promieni
okręgów otrzymanych w procesie szkieletyzacji dla tych punktów determinują wartości poszczególnych elementów odpowiedniego wektora cech. Aby porównać ilościowo dwie dowolne
ścieżki zdefiniowano odpowiednią funkcję odległości, która normalizuje wartości wektorów cech
gwarantując niezmienność algorytmu względem skali (ang. scale invariance). Odległości wyznaczone za pomocą tej funkcji dla wszystkich możliwych par najkrótszych ścieżek jednego i
drugiego grafu służą jako podstawa do ustalenia odpowiadających sobie węzłów końcowych
(ang. corresponding end nodes) w obu grafach. Ostateczna wartość miary niepodobieństwa
dwóch grafów wyznaczana jest na podstawie odległości pomiędzy odpowiadającymi sobie węzłami końcowymi. W eksperymentach użyłem m.in. zbioru testowego Kimia-216 składającego
się z 216 obrazów przedstawiających 18 klas obiektów. Zakładając idealny wynik szkieletyzacji
i poddając pod ewaluację jedynie algorytm dopasowywania grafów klasyfikacja na podstawie
najbardziej podobnego obiektu powiodła się w 100% przypadków. W przypadku szkieletyzacji
bez interwencji manualnej algorytm klasyfikuje prawidłowo w 97,2% przypadków.
Metodologię opisaną powyżej i w [2013-SkeletonGraphMatching] znacznie rozwinąłem w
ostatnich miesiącach w kierunku analizy obiektów rejestrowanych kamerą głębi. Pracę tę opisałem w artykule pt.: Matching of 3D Objects Based on 3D Curves złożonym na konferencję
ICCV 2013 (International Conference on Computer Vision). Algorytm zaczyna od detekcji
krawędzi obiektu w obrazie głębi, które następnie transformowane są do przestrzeni trójwymiarowej. Później następuje detekcja charakterystycznych punktów w scenie oraz wyznaczanie
najkrótszych ścieżek pomiędzy tymi punktami. Samo dopasowywanie obiektów (ang. object
matching) sprowadzono do problemu podgrafów o maksymalnej wadze (ang. maximum weight subgraph). Eksperymenty przeprowadzone dla zbioru testowego 213 obiektów przyniosły
obiecujące rezultaty. Średnia precyzja algorytmu wynosi 0,74.
3.4
Adaptacyjne uczenie kontekstu w rozpoznawaniu obiektów
Moją nadrzędną wizją badawczą jest adaptacyjne uczenie kontekstu w rozpoznawaniu obiektów. Prace opisane powyżej wykorzystują różne kamery (2D, 2.5D, 3D), różne metody opisywania obiektów (na podstawie cech koloru, tekstury, czy kształtu) oraz różne algorytmy klasyfikacji (statystyczne, działające na podstawie porównywania grafów, itd.). Zbiór tych metod
integrowany jest w chwili obecnej w spójnym systemie do rozpoznawania obiektów przedstawionym na rysunku 1. System ten działa w trzech fazach: generacji, uczenia i rozpoznawania.
W fazie generacji (patrz rysunek 1) obiekty rejestrowane są za pomocą dwuwymiarowych kamer wizualnych, kamer głębi, jak i kamer multispektralnych. Następnie opisywane
są licznymi cechami pozyskiwanymi z kształtu (przy pomocy dwu- i trójwymiarowej szkieletyzacji na podstawie np. [2013-SkeletonGraphMatching, 11]), wyglądu (na podstawie np.
[2010-WaveletFeatures4ObjectRecognition]) oraz informacji multispektralnej. To prowadzi do
nadmiarowego opisu obiektów, które w kolejnej fazie działania systemu (adaptacyjne uczenie) zostaje zoptymalizowane. Wyjątkowo interesującym wyzwaniem naukowym w tej fazie
9
Feedback to the supervisor
Skeleton-based representations
Appearance-based representations
Depth
Dynamic
environment
RGB
Multispec
tral
}
Temporary
supervision
Representations for multi-spectral data
Multi sensory
imaging setup
Object model of
representations
Adaptive learning
Skeleton-based mapping
Retrieval
Representation measurements
Generation phase
Recognition phase
Learning phase
Rysunek 1: Schemat systemu do rozpoznawania obiektów przewidującego adaptacyjne uczenie
kontekstu.
jest szacowanie pełnych, trójwymiarowych szkieletów obiektu korzystając ze zbioru częściowych szkieletów wyznaczonych z obrazów głębi przedstawiających obiekt z różnych punktów
widzenia (swego rodzaju rekonstrukcja trójwymiarowa na poziomie reprezentacji obiektu).
W fazie adaptacyjnego uczenia (patrz rysunek 1) nadmiarowy i redundancyjny opis obiektu
uzyskany w fazie generacji optymalizowany jest podczas pracy systemu dla konkretnego zastosowania. Po każdym procesie klasyfikacji system automatycznie aktualizuje wagi przyporządkowane wszystkim cechom obliczonym na podstawie danych pochodzących z wszystkich
stosowanych kamer zależnie od oceny nadzorcy (klasyfikacja prawidłowa, albo klasyfikacja
błędna). Początkowo z każdą oceną nadzorcy odsetek pomyłek w klasyfikacji maleje, a system
adaptacyjnie optymalizuje swoje działanie w kontekście konkretnego zastosowania. Po osiągnięciu optimum (tzn. w chwili, kiedy poprawa przestaje być widoczna) udział nadzorcy nie
jest już konieczny i system może przejść do trybu całkowicie automatycznego.
W fazie rozpoznawania (patrz rysunek 1) system używa aktualnych modeli reprezentujących obiekty do klasyfikacji. W tym celu stosowane są bazujące na grafach metody dopasowywania (ang. graph-based matching) [12] jak również klasyfikatory statystyczne. Jednym z
proponowanych rozwiązań problemu rozpoznawania jest algorytm najkrótszych ścieżek (ang.
shortest path algorithm) [2013-SkeletonGraphMatching] stosowany w wersji zarówno dwu- jak
i trójwymiarowej. Szczególnym wyzwaniem było tutaj zaimplementowanie metody do automatycznego wyznaczania szkieletów krawędziowych (ang. curve skeletons) opisujących obiekty
trójwymiarowe [2013-ObjectSkeletonisation]. Szkieletyzacja obiektów w danych trójwymiarowych metodami standardowymi prowadzi bowiem do szkieletów powierzchniowych (ang. surface skeletons), które nie zawierają informacji topologicznej niezbędnej do interpretowania ich
jako grafy.
Zbudowanie systemu do adaptacyjnego rozpoznawania obiektów jest pierwszym krokiem w
kierunku semantycznej analizy scen. Dodatkowa informacja kontekstowa potrzebna do opisu
scen na wyższym poziome abstrakcji pochodzić będzie z ontologicznego modelu wiedzy zbudowanego dla konkretnego zastosowania. W dziedzinie semantycznej interpretacji danych multimedialnych opublikowałem po doktoracie szereg artykułów [1, 5, 14, 25, 27, 29, 30, 31, 33, 35,
39, 48], które w połączeniu z wynikami badań dotyczących rozpoznawania obiektów opisanymi
powyżej stanowią solidną podstawę do kontynuowania pracy naukowej w zakresie interpretacji
scen rzeczywistych.
10
4
Lista publikacji proponowana jako osiągnięcie naukowe
Poniżej przedstawiam listę wybranych dziesięciu swoich artykułów opublikowanych po doktoracie, które stanowią jednotematyczny cykl publikacji w sensie art. 16 ust. 2 ustawy o stopniach
i tytule naukowym z dnia 14 marca 2003 roku. Ich spójna myśl badawcza o tytule
Wielowymiarowa analiza, klasyfikacja i rozpoznawanie
obiektów trójwymiarowych w obrazach scen rzeczywistych
omówiona została szczegółowo w rozdziale 3. W nawiasach za nazwiskami autorów podany
jest ich procentowy udział w badaniach prowadzących do danej publikacji. Kopie poniższych
publikacji wraz z oświadczeniami autorów potwierdzającymi ich procentowy w nich udział
zostały załączone.
[2007-ContextModelling4ObjectRecognition] M. Grzegorzek (80%) and E. Izquierdo (20%).
Statistical 3D Object Classification and Localization with Context Modeling. In M. Domanski, R. Stasinski, and M. Bartkowiak, editors, 15th European Signal Processing Conference, pages 1585–1589, Poznan, Poland, September 2007. PTETiS, Poznan.
[2010-WaveletFeatures4ObjectRecognition] M. Grzegorzek (70%), S. Sav (10%), E. Izquierdo
(10%), and N. E. O’Connor (10%). Local Wavelet Features for Statistical Object Classification and Localisation. IEEE Multimedia, 17(1):56–66, January–March 2010.
[2010-ProbabilisticObjectRecognition] M. Grzegorzek (100%). A System for 3D TextureBased Probabilistic Object Recognition and Its Applications. International Journal on
Pattern Analysis and Applications, 13(3):333–348, July 2010.
[2010-ColorBasedObjectRecognition] M. Grzegorzek (60%), A. Wolyniec (20%), F. Schmitt
(10%), and D. Paulus (10%). Recognition of Objects Represented in Different Color
Spaces. In J. Parkkinen, T. Jääskeläinen, T. Gevers, and A. Tremeau, editors, 5th European Conference on Colour in Graphics, Imaging, and Vision, pages 338–345, Joensuu,
Finland, June 2010. Society for Imaging Science and Technology.
[2011-Statistical-vs-FeatureBased] P. Decker (20%), S. Thierfelder (20%), D. Paulus (10%),
and M. Grzegorzek (50%). Dense Statistical versus Sparse Feature-Based Approach for
3D Object Recognition. Pattern Recognition and Image Analysis, 21(2):238–241, January
2011.
[2010-TeethSegmentation] M. Grzegorzek (50%), M. Trierscheid (30%), D. Papoutsis (10%),
and D. Paulus (10%). 3D Teeth Segmentation from Dentition Surfaces. ICGST International Journal on Graphics, Vision and Image Processing, GVIP, 10(6):29–35, December
2010.
[2010-ActiveContours4TeethSegmentation] M. Grzegorzek (50%), M. Trierscheid (30%),
D. Papoutsis (10%), and D. Paulus (10%). A Multi-Stage Approach for 3D Teeth
Segmentation Including Active Contrours. In A. Elmoataz, O. Lezoray, F. Nouboud,
D. Mammass, and J. Meunier, editors, International Conference on Image and Signal
Processing, pages 521–530, Trois-Rivieres, Canada, June 2010. Springer, LNCS 6134.
11
[2010-DentitionModels] M. Grzegorzek (50%), D. Paulus (10%), M. Trierscheid (30%), and
D. Papoutsis (10%). Teeth Segmentation in 3D Dentition Models for the Virtual Articulator. In IEEE International Conference on Image Processing, pages 3609–3612, Hong
Kong, September 2010. IEEE Computer Society.
[2013-ObjectSkeletonisation] C. Feinen (30%), M. Grzegorzek (50%), D. Barnowsky (10%),
and D. Paulus (10%). Robust 3D Object Skeletonisation for the Similarity Measure. In
M. De Marsico and A. Fred, editors, 2nd International Conference on Pattern Recognition,
Applications and Methods, pages 167–175, Barcelona, Spain, February 2013. Springer,
Berlin, Heidelberg.
[2013-SkeletonGraphMatching] J. Hedrich (10%), C. Yang (10%), C. Feinen (10%), S. Schäfer
(10%), D. Paulus (10%), and M. Grzegorzek (50%). Extended Investigations on Skeleton
Graph Matching for Object Recognition. In 8th International Conference on Computer
Recognition Systems, page to appear, Milkow, Poland, May 2013. Springer LNCS.
5
Wykłady naukowe na zaproszenie
Kiedy
Temat
Instytucja
04/2013
Adaptive Learning of Context for Pattern Recognition
AGH w Krakowie
02/2013
Adaptive Learning of Context for Pattern Recognition
Universität Heidelberg
01/2013
Adaptive Learning of Context for Pattern Recognition
Fraunhofer-Institut,
Berlin
03/2012
Adaptive Learning of Context for Pattern Recognition
DFKI Robotics Innovation Center, Bremen
03/2012
Adaptive Learning of Context for Pattern Recognition
UE w Katowicach
02/2012
Adaptive Learning of Context for Pattern Recognition
Universität Bonn
12/2011
Path Similarity Skeleton Graph Matching
Politechnika Śląska
w Gliwicach
02/2011
Selected Problems of Pattern Analysis
Including Cognitive Object Recognition
Politechnika Śląska
w Gliwicach
10/2010
Pattern Recognition Tutorial
Universität Siegen
11/2009
Selected Problems of Pattern Analysis
Including Statistical Object Recognition
Universität Siegen
10/2009
Integrating Domain Specific Knowledge
into the Process of Digital Image Analysis
TU Wien
10/2009
Integrating Domain Specific Knowledge
into the Process of Digital Image Analysis
Frankfurt Institute
for Advanced Studies
04/2009
Semantic Analysis of Multimedia
Universität Freiburg
12
02/2009
Multimedia Semantics and Retrieval
TU München
01/2009
Multimedia Semantics and Retrieval
Universität Magdeburg
12/2008
Multimedia Semantics and Retrieval
TU Kaiserslautern
12/2007
A System for Appearance-Based Probabilistic
3D Object Recognition and Its Applications
UE w Pradze
11/2007
Image Segmentation, Object Recognition,
and Video Analysis
LMU München
10/2007
Image Segmentation, Object Recognition,
and Video Analysis
Universität KoblenzLandau
08/2007
A System for Appearance-Based Probabilistic
3D Object Recognition and Its Applications
Technische Universität
Darmstadt
02/2007
Appearance-Based Statistical Object Recognition
Dublin City University
03/2006
Appearance-Based Statistical Object
Classification and Localisation
Temple University
Philadelphia
10/2005
Appearance-Based Statistical Object Recognition
Including Colour and Context Modelling
Forschungsinstitut für
Optronik und Mustererkennung, Ettlingen
6
Udział w projektach naukowych
Rola
Tytuł projektu
Tryb
Kwota4
Kiedy
Kierownik
projektu
Multimodal Scene and Object Analysis
NRW5
200k e
10/2013
09/2016
Kierownik
projektu
Cognitive Robotics
SNV6
100k e
11/2012
09/2013
Kierownik
projektu
Stypendium doktoranckie dla Cong Yang z
zakresu:“Graph-Based Object Retrieval”
CSC7
60k e
10/2012
09/2016
Kierownik
projektu
Stypendium doktoranckie dla Chen Li z
zakresu: “Content-Based Multimedia Retrieval”
CSC
60k e
10/2011
09/2015
Kierownik
projektu
Research Training Group 1564 “Imaging
New Modalities”
DFG8
300k e
10/2010
03/2014
4
Kwota przeznaczona na część projektu realizowaną przez Marcina Grzegorzek i jego grupę naukową
NRW (Nordrhein-Westfalen) - program rządowy Nadrenii Północnej-Westfalii
6
SNV (Stiftung Neue Verantwortung) - finansowanie w ramach fundacji SNV (think tank)
7
CSC (China Scholarship Council) - chiński program rządowy
8
DFG (Deutsche Forschungsgemeinschaft) - Niemiecka Wspólnota Badawcza
5
13
Kierownik
projektu
Stylus-3D - Development of Inspection
Strategies for Quality Safeguard in the Inline Production of 3D Objects
AiF9
168k e
03/2010
02/2012
Kierownik
projektu
X-Media - Knowledge Sharing and Reuse
across Media
EU FP6
150k e
03/2008
02/2010
Kierownik
projektu
RUSHES - Retrieval of Multimedia Semantic Units for Enhanced Reusability
EU FP6
£70k
01/2007
02/2008
Kierownik
projektu
K-Space - Knowledge Space of Semantic
Inference for Automatic Annotation and
Retrieval of Multimedia Content
EU FP6
£100k
07/2006
02/2008
Stypendysta
Research Training Group “3D Image Analysis and Synthesis”
DFG
60k e
12/2002
11/2005
Siegen, 28 maja 2013,
(Marcin Grzegorzek)
9
AiF (Arbeitsgemeinschaft industrieller Forschungsvereinigungen) – finansowanie projektów z przemysłem
14

Podobne dokumenty