Autoreferat
Transkrypt
Autoreferat
Załącznik II Autoreferat Spis treści 1 Curriculum Vitae 1 2 Badania naukowe przed doktoratem 4 3 Badania naukowe po doktoracie 5 3.1 Rozpoznawanie obiektów na podstawie wyglądu . . . . . . . . . . . . . 6 3.2 Segmentacja zębów w trójwymiarowych modelach szczęk . . . . . . . . 7 3.3 Metody szkieletyzacji w rozpoznawaniu obiektów . . . . . . . . . . . . 8 3.4 Adaptacyjne uczenie kontekstu w rozpoznawaniu obiektów . . . . . . . 9 4 Lista publikacji proponowana jako osiągnięcie naukowe 11 5 Wykłady naukowe na zaproszenie 12 6 Udział w projektach naukowych 13 1 Curriculum Vitae Prof. Dr.-Ing.1 Marcin Grzegorzek Kierownik Grupy Naukowej Rozpoznawania Wzorców Instytut Informatyki Obrazu, Uniwersytet Siegen Hölderlinstraße 3, D-57076 Siegen, Niemcy Tel.: +49 271 740 3972, Fax: +49 271 740 1 3972 http://www.pr.informatik.uni-siegen.de Email: [email protected] Wykształcenie 12/2002 – 04/2007 Doktorat (Dr.-Ing.) z wyróżnieniem w zakresie statystycznego rozpoznawania obiektów w Katedrze Rozpoznawania Wzorców Uniwersytetu Erlangen-Norymberga (promotor i recenzent: Prof. Dr.-Ing. Heinrich Niemann, recenzent: prof. dr hab. inż. Ryszard Tadeusiewicz) 10/1996 – 11/2002 Studia informatyczne (mgr inż.) na Politechnice Śląskiej w Gliwicach (praca magisterska w zakresie przetwarzania obrazów medycznych w Bawarskim Centrum Systemów Opartych na Wiedzy w Erlangen, promotorzy: prof. dr hab. inż. Katarzyna Stąpor, Prof. Dr.-Ing. habil. Dietrich Paulus) Zatrudnienie od 11/2012 (praca dodatkowa) od 10/2010 (praca główna) 03/2012 – 07/2012 (praca dodatkowa) 03/2008 – 09/2010 (praca główna) 03/2008 – 09/2010 (praca główna) 07/2006 – 02/2008 (praca główna) Kierownik projektu “Robotyka Kognitywna” w fundacji (think tank) “Stiftung Neue Verantwortung” w Berlinie Profesor w Instytucie Informatyki Obrazu i kierownik Grupy Naukowej Rozpoznawanie Wzorców na Uniwersytecie w Siegen Profesor Wizytujący w Katedrze Inżynierii Wiedzy na Uniwersytecie Ekonomicznym w Katowicach Docent w Instytucie Technologii Internetowych i kierownik Grupy Multimedia w Internecie na Uniwersytecie w Koblencji Docent w Instytucie Wizualizacji Komputerowej i pracownik naukowy w Katedrze Aktywnego Widzenia na Uniwersytecie w Koblencji Adiunkt w Grupie Naukowej Multimedia i Widzenie na Uniwersytecie w Londynie (Qeen Mary College) 1 Oficjalny tytuł nadany w Niemczech 1 października 2010 roku podany z pełną świadomością tego, iż nie ma on bezpośredniego przełożenia na stopnie i tytuły naukowe obowiązujące w Polsce. 1 12/2002 – 06/2006 (praca główna) 06/2002 – 01/2004 (praca dodatkowa) Asystent w Katedrze Rozpoznawania Wzorców na Uniwersytecie Erlangen-Norymberga Programista w firmie Siemens w Erlangen Stypendia i wyróżnienia 06/2012 Wyróżnienie I stopnia zespołu uczniów klasy maturalnej (opiekun) w konkursie na najlepszy projekt techniczny Uniwersytetu w Siegen 10/2010 Wyróżnienie III stopnia w konkursie na najlepszy artykuł podczas konferencji MMAP 2010 03/2010 Nagroda za najlepszą pracę magisterską (promotor) na styku nauki i przemysłu 12/2002 – 11/2005 Stypendium doktoranckie Niemieckiej Wspólnoty Badawczej (DFG) na Uniwersytecie Erlangen-Norymberga 04/2001 – 09/2001 Studia na Uniwersytecie Erlangen-Norymberga finansowane w ramach programu Erasmus/Sokrates 03/2000 – 09/2000 Stypendium Międzynarodowego Instytutu IHI Zittau finansujące intensywny kurs języka niemieckiego zakończony egzaminem DSH Działalność akademicka Recenzent Czasopisma: Pattern Recognition, Multimedia Tools and Applications, Image and Graphics, ACM Transactions on the Web, Biometrics, Pattern Recognition and Artificial Intelligence, Image and Vision Computing; Konferencje: ACM Multimedia, i-KNOW, MMEDIA, SAMT, THEMIS, Mirage, CORES, etc. Wydawca Czasopisma: 2 specjalne wydania MTAP (Multimedia Tools and Applications Journal); książki: Springer LNCS 6725 “Semantic Multimedia”, Springer LNCS ”ToF Technology“ GRK 1564 Kierownik w projekcie Niemieckiej Wspólnoty Badawczej (DFG) “Imaging New Modalities” na Uniwersytecie w Siegen PSSI Członek Polskiego Stowarzyszenia Sztucznej Inteligencji 2 Think Tank SNV Członek fundacji (think tank) “Stiftung Neue Verantwortung” w projekcie “The Business Web” Erasmus/Sokrates Koordynator wydziałowy programu Erasmus/Sokrates na Uniwersytecie w Siegen EUCog Członek EUCogII (2nd European Network for the Advancement of Artificial Cognitive Systems, Interaction and Robotics) MTI Mittelrhein Członek komitetu założycielskiego Instytutu Inżynierii Medycznej w Koblencji SMaRT Society Członek zarządu stowarzyszenia SMaRT (Semantic Multimedia Research and Technology Association) SAMT 2010 Organizator (General Chair) konferencji SAMT 2010 (5th International Conference on Semantic and Digital Media Technologies) SSMS 2009 Organizator szkoły letniej SSMS 2009 (Summer School on Multimedia Semantics) SAMT 2008 Organizator (Publicity Chair) konferencji SAMT 2008 (3rd International Conference on Semantic and Digital Media Technologies) Znajomość języków Polski Niemiecki Angielski ojczysty płynnie w mowie i w piśmie płynnie w mowie i w piśmie 3 2 Badania naukowe przed doktoratem Segmentacja naczyń krwionośnych: Moim pierwszym projektem o charakterze naukowym była praca magisterska w zakresie przetwarzania obrazów medycznych (temat: Segmentacja naczyń krwionośnych w obrazach siatkówki oka) zrealizowana w 2002 roku w Bawarskim Centrum Systemów Opartych na Wiedzy w Erlangen (Niemcy). Moim bezpośrednim promotorem był Prof. Dr.-Ing. habil. Dietrich Paulus z Uniwersytetu Erlangen-Norymberga, natomiast opiekę od strony Politechniki Śląskiej przejęła prof. dr hab. inż. Katarzyna Stąpor. Praca ta stanowiła finalną część moich studiów informatycznych na Wydziale Automatyki, Elektroniki i Informatyki Politechniki Śląskiej w Gliwicach. Celem nadrzędnym projektu, w którym brało udział kilku naukowców Uniwersytetu w Erlangen, było zrealizowanie systemu do wczesnej, automatycznej i profilaktycznej diagnostyki jaskry. Mój udział w tym projekcie polegał na zaimplementowaniu algorytmu detekcji krawędzi naczyń krwionośnych w obrazach HRT (ang. Heidelberg Retina Tomograph) wizualizujących odcienie szarości dna oka. W ramach wstępnego przetwarzania obrazu dokonałem normalizacji oświetlenia. Potem użyłem metody Canny’ego do detekcji krawędzi. Jednakże moim najbardziej znaczącym wkładem naukowym w tym projekcie było zaproponowanie algorytmu, który nazwałem CEM (ang. Clean Edge Map), transformującego rezultat metody Canny’ego do obrazu o wymaganej jakości poprzez usunięcie zbędnych krawędzi. Metoda ta wykorzystuje wiedzę kontekstową niniejszego zastosowania, mianowicie wymóg równoległości krawędzi naczyń krwionośnych względem siebie oraz ich minimalną, akceptowalną długość w relacji do rozmiarów plamki ślepej. Kontynuację tej pracy opublikowałem w [15]2 . Statystyczne rozpoznawanie obiektów: Po studiach na Politechnice Śląskiej podjąłem pracę jako asystent i doktorant w Katedrze Rozpoznawania Wzorców na Uniwersytecie ErlangenNorymberga. Tematem mojego przewodu doktorskiego, który zakończyłem z wyróżnieniem w kwietniu 2007 roku, było: Bazujące na wyglądzie, statystyczne rozpoznawanie obiektów z wykorzystaniem modelowania koloru i kontekstu [44]. Moim promotorem i pierwszym recenzentem był Prof. Dr.-Ing. Heinrich Niemann, natomiast drugą recenzję sporządził prof. dr hab. inż. Ryszard Tadeusiewicz. W ramach pracy doktorskiej zaproponowałem, zaimplementowałem i poddałem szczegółowej ewaluacji system do statystycznej klasyfikacji i lokalizacji obiektów w obrazach dwuwymiarowych. System stosuje metodę uczenia nadzorowanego (ang. supervised learning) i nie wykorzystuje informacji kontekstowych ze względu na apriorycznie niezdefiniowane zastosowanie. Jedyne wymogi stawiane obiektom poddawanym analizie to ich rozróżnialność na podstawie wyglądu (tekstury lub koloru) oraz sztywna, niedeformowalna budowa. W fazie uczenia (treningu) obiekty zapisywane są dwuwymiarową kamerą wizyjną zmieniającą kąt widzenia tak, aby wszystkie widoki obiektu zostały zarejestrowane. W warunkach laboratoryjnych pozycje obiektów w takich obrazach (wektor translacji i macierz obrotu względem obiektu referencyjnego w trójwymiarowym układzie współrzędnych) są znane. W warunkach rzeczywistych obrazy treningowe pozyskiwane są za pomocą kamery prowadzonej ręcznie (ang. handheld camera). Wówczas pozycje obiektów nie są znane i szacowane są metodą rekonstrukcji trójwymiarowej SfM (ang. Structure from Motion) [45, 47, 53]. Kolejnym krokiem systemu jest ekstrakcja lokalnych, dwuwymiarowych wektorów cech z wykorzystaniem transformacji falkowej. Pozyskane w ten sposób wektory dzielone są później na te, które opisują obiekt i te, które należą do tła [46, 50]. Oszacowany dzięki temu obszar obiektu traktować można jako funkcję dyskretną parametrów transformacji (translacji i obrotu) w trójwymiarowym układzie 2 Cytowania numeryczne w formacie [n] odnoszą się do pełnego wykazu moich publikacji (załącznik III). 4 współrzędnych. Dziedziną tej funkcji jest zbiór wszystkich pozycji obiektu przewidzianych w procesie rejestrowania obrazów treningowych. Po odpowiedniej interpolacji funkcja ta otrzymuje przebieg ciągły, co umożliwia lokalizację obiektów w dowolnych pozycjach, również tych, które nie były przewidziane w fazie treningu. Elementy wektorów cech opisujących obiekt traktowane są jako niezależne statystycznie zmienne losowe podlegające rozkładowi normalnemu. Są one modelowane odpowiednimi funkcjami gęstości prawdopodobieństwa szacowanymi na podstawie dużej ilości przykładów treningowych. W przypadku scen wieloobiektowych statystyczne zależności pomiędzy obiektami modelowane są za pomocą sieci Bayesa [51]. W fazie rozpoznawania system dokonuje automatycznej klasyfikacji i lokalizacji obiektów w obrazach z tłem niejednolitym. Metodologia przewiduje cztery warianty przebiegu tej fazy. Są to: (I) klasyfikacja i lokalizacja obiektów w scenach jednoobiektowych na podstawie pojedynczych obrazów [49], (II) klasyfikacja i lokalizacja obiektów w scenach jednoobiektowych na podstawie sekwencji obrazów [54], (III) klasyfikacja i lokalizacja obiektów w scenach wieloobiektowych bez uwzględnienia modelowania kontekstowego [52] oraz (IV) klasyfikacja i lokalizacja obiektów w scenach wieloobiektowych z uwzględnieniem modelowania kontekstowego [51]. Niezależnie od wariantu algorytmu podstawą zdeterminowania klasy i pozycji obiektu jest wyznaczenie wartości funkcji gęstości prawdopodobieństwa oszacowanych w fazie treningowej dla wszystkich elementów wektorów cech pozyskanych z obrazu testowego, przy czym uwzględniane są jedynie wektory opisujące obiekt i nienależące do tła. Proces ten odbywa się dla każdego obiektu w dużej ilości hipotetycznych jego pozycji w sześciowymiarowej przestrzeni parametrów (trzy parametry translacji, trzy parametry obrotu). Ze względu na daleko idące założenia statystycznej niezależności dotyczące wektorów cech i ich elementów, porównanie obrazu testowego z modelem treningowym danego obiektu w danej pozycji sprowadza się do wyznaczenia ilorazu odpowiednich wartości funkcji gęstości prawdopodobieństwa. Maksymalna wartość tego ilorazu dla wszystkich przewidzianych hipotez determinuje klasę i pozycję analizowanego obiektu. Eksperymenty przeprowadzone dla ponad trzydziestu tysięcy obrazów z niejednolitym tłem pokazały, iż wykorzystanie koloru do ekstrakcji wektorów cech obiektu znacznie poprawia skuteczność klasyfikacji i nieznacznie lokalizacji. Podczas, gdy dla obrazów w odcieniach szarości system klasyfikował obiekty prawidłowo w 54,1% przypadków, odsetek ten wzrósł dla obrazów kolorowych RGB do 82,3%. Podobną, chociaż nie aż tak wyraźną, tendencję zaobserwowano dla lokalizacji - poprawa odpowiednio z 69% do 73,6%. 3 Badania naukowe po doktoracie Głównym wątkiem moich badań naukowych po doktoracie jest rozpoznawanie obiektów. Biorąc pod uwagę własności wprowadzonych przeze mnie algorytmów w tym zakresie można podsumować go tytułem Wielowymiarowa analiza, klasyfikacja i rozpoznawanie obiektów trójwymiarowych w obrazach scen rzeczywistych. Lista moich dziesięciu najważniejszych publikacji z tej tematyki, którą proponuję jako osiągnięcie naukowe w sensie art. 16 ust. 2 ustawy o stopniach i tytule naukowym z dnia 14 marca 2003 roku, przedstawiona jest w rozdziale 4, a kopie tych artykułów zostały załączone. Bezpośrednio po doktoracie znacząco rozbudowałem system do bazującego na wyglądzie rozpoznawania obiektów w obrazach rejestrowanych dwuwymiarową kamerą wizualną uzupełniając go o innowacyjne algorytmy i przeprowadzając szereg nowych eksperymentów, w tym dla zastosowań 5 rzeczywistych (podrozdział 3.1). Nieco później zacząłem również brać pod uwagę obiekty rejestrowane przez skanery trójwymiarowe oraz kamery głębi. W podrozdziale 3.2 streszczone są moje prace nad segmentacją zębów w trójwymiarowych modelach szczęk, natomiast podrozdział 3.3 opisuje moje badania w zakresie rozpoznawania obiektów opisanych przy użyciu metod szkieletyzacji. Wyniki tych prac stanowią podstawę mojej nadrzędnej wizji badawczej w dziedzinie rozpoznawania obiektów, która przedstawiona jest pokrótce w podrozdziale 3.4. 3.1 Rozpoznawanie obiektów na podstawie wyglądu Rozpoznawanie obiektów na podstawie wyglądu (ang. appearance-based object recognition) stanowi bardzo ważny wątek moich badań naukowych po doktoracie. Bazując na fundamencie opisanym w rozdziale 2 rozwinąłem szereg nowych algorytmów w tym zakresie i dokonałem ich szczegółowej ewaluacji pozwalającej na ciekawe wnioski naukowe. W [2007-ContextModelling4ObjectRecognition]3 opisałem swój nowy algorytm uczenia kontekstu w scenach wieloobiektowych. Metoda ta nie zakłada równomiernego rozkładu prawdopodobieństwa apriorycznego dla zbioru wszystkich możliwych obiektów. Prawdopodobieństwa te uczone są w trybie nadzorowanym na podstawie przykładów treningowych. Przeprowadzone eksperymenty pokazały znaczną poprawę wyników w porównaniu z przypadkiem rozpoznawania obiektów w scenach wieloobiektowych bez modelowania kontekstu. Poprawność klasyfikacji dla obrazów z kompleksowym, niejednolitym tłem wzrosła z 62,9% do 87,5%, natomiast odsetek przypadków, w których algorytm poprawnie wyznaczył liczbę obiektów w obrazach, poprawił się z 43,2% do 59,2%. Prof. Ebroul Izquierdo z Queen Mary University of London konsultował mnie podczas prac prowadzących do tego artykułu. Znaczne, metodologiczne rozszerzenia mojego systemu do klasyfikacji i lokalizacji obiektów oraz jego zupełnie nowe zastosowanie do automatycznego rozpoznawania eksponatów muzealnych opisałem w [2010-WaveletFeatures4ObjectRecognition]. Coraz większa liczba turystów rejestruje swoje wrażenia za pomocą kamer cyfrowych. W tak niezliczonej ilości obrazów trudno jest rozpoznać i zinterpretować eksponaty, które miało się okazję zobaczyć w muzeum. Metodologia zaproponowana w [2010-WaveletFeatures4ObjectRecognition] służy nie tylko automatycznej klasyfikacji eksponatów, ale dostarcza również wszelkich informacji na ich temat za pomocą odpowiedniego interfejsu internetowego. Projekt prowadzący do tego systemu zrealizowałem we współpracy z naukowcami z Dublin City University (Prof. Noel E. O’Connor udział konsultacyjny; Dr. Sorin Sav - pomoc w eksperymentach) oraz z Queen Mary University of London (Prof. Ebroul Izquierdo - udział konsultacyjny). Kolejne rozszerzenia systemu do rozpoznawania obiektów na podstawie wyglądu w kierunku rzeczywistych zastosowań opublikowałem w [2010-ProbabilisticObjectRecognition]. Jednym z opisanych tutaj zastosowań jest automatyczna klasyfikacja obrazów metalograficznych do celów oceny jakości. Aby rozwiązać ten problem musiałem dokonać gruntownych zmian w metodzie statystycznego modelowania wektorów cech wyznaczanych za pomocą transformacji falkowej. Lokalne wektory cech opisujące sąsiednie obszary traktowane są tutaj jako rezultaty pomiaru wektora losowego o normalnym rozkładzie wartości dla każdego z jego wymiarów. Dla reprezentatywnego zbioru obrazów metalurgicznych, który otrzymałem od inżynierów huty ArcelorMittal Ostrava a.s, system działał niemalże bezbłędnie i jest obecnie używany w praktyce przemysłowej. W artykule tym przedstawiłem ponadto nowy szereg testów ogólnych przeprowadzonych na bazie danych COIL (ang. Columbia Object Image Library) celem uzyskania porównywalności systemu z metodami innych autorów. Dla podbazy COIL-20 (20 obiektów) 3 Cytowania za pomocą etykiet hasłowych w stylu [2007-ContextModelling4ObjectRecognition] odnoszą się do listy publikacji proponowanej jako osiągnięcie naukowe, która zamieszczona jest w rozdziale 4. 6 prawidłowy wynik klasyfikacji uzyskany został w 100% przypadków, dla pełnej bazy COIL-100 wynik testu oceny klasyfikacji to 98,9%. W kolejnej pracy z tego cyklu [2010-ColorBasedObjectRecognition] udoskonaliłem znacznie metodę modelowania obiektów używając wektorów cech wyznaczanych na postawie koloru. Przeprowadzając zestaw porównywalnych testów dla różnych przestrzeni barw pokazałem, iż system najpoprawniej rozpoznaje obiekty w przestrzeni LAB. Podczas, gdy dla formatu RGB system klasyfikuje obiekty poprawnie w 82,3% przypadków (w obrazach z rzeczywistym, kompleksowym tłem), odsetek ten wzrasta dla przestrzeni barw LAB aż do 90,2%. W przypadku lokalizacji odnotowano poprawę odpowiednio z 73,6% do 77,8%. W przestrzeni LAB zaobserwowano również znacznie większą odporność systemu na redukcję ilości przykładów treningowych. I tak np. dla obniżenia liczby obrazów treningowych wykorzystywanych do modelowania jednej klasy z 3360 do 240 poprawność klasyfikacji spada jedynie z 90,2% do 83,9%. Analogiczna redukcja ilości przykładów treningowych w formacie RGB powoduje spadek odpowiednio z 82,3% do 68,6%. Badania prowadzące do tej publikacji przeprowadziłem we współpracy z naukowcami Uniwersytetu w Koblencji (Prof. Dietrich Paulus, Dr. Frank Schmidt i Alexandra Wolyniec), przy czym ich udział miał charakter pomocniczo-konsultacyjny. W ramach pracy opisanej w [2011-Statistical-vs-FeatureBased] wprowadziłem alternatywną strategię rozpoznawania obiektów metodą z treningiem nadzorowanym, w której obiekty opisywane są za pomocą cech SURF (ang. Speeded Up Robust Features). W fazie klasyfikacji obiekt w obrazie testowym porównywany jest z wszystkimi dostępnymi w bazie danych obiektami w innych obrazach. Geometryczne metody dopasowywania cech SURF pozwalają na wyznaczenie podobieństwa pomiędzy zapytaniem (obrazem testowym), a każdym innym obrazem w bazie danych. Klasa obiektu o najwyższym podobieństwie do zapytania traktowana jest jako ostateczny rezultat klasyfikacji. Korzystając z tej samej bazy danych obrazów testowych porównałem działanie tej nowej metody z wynikami statystycznego systemu do rozpoznawania obiektów opisanego w rozdziale 2. Dla obrazów z kompleksowym tłem rzeczywistym pokazałem, iż metoda statystyczna wykazuje dużo większą wrażliwość na redukcję liczby obrazów treningowych aniżeli algorytm wykorzystujący cechy SURF. Dla spadku liczby obrazów treningowych (reprezentowanych w przestrzeni RGB) wykorzystywanych do modelowania jednej klasy z 3360 do 240 metoda statystyczna pogarsza skuteczność swojej klasyfikacji z 82,3% do 68,6%. Dla identycznej redukcji liczby obrazów treningowych metoda bazująca na cechach SURF praktycznie nie zmienia swojego działania (spadek odpowiednio z 74,3% do 73,4%). Badania prowadzące do tej publikacji przeprowadziłem w kooperacji z naukowcami Uniwersytetu w Koblencji (Prof. Dietrich Paulus, Peter Decker i Susanne Thierfelder). 3.2 Segmentacja zębów w trójwymiarowych modelach szczęk Segmentacja zębów w trójwymiarowych modelach szczęk stanowi również bardzo istotny wątek moich badań naukowych po doktoracie. W przeciwieństwie do algorytmów streszczonych w podrozdziale 3.1 chodzi tutaj o analizę obiektów w obrazach rejestrowych skanerem głębi. W ramach tego projektu współpracowałem z naukowcami Uniwersytetu w Koblencji (Prof. Dietrich Paulus i Marina Trierscheid) oraz z firmą RV realtime visions GmbH (Dimitri Papoutsis). Współpraca ta miała na celu zaprojektowanie i wdrożenie tzw. wirtualnego artykulatora. Artykulatory to urządzenia stosowane w stomatologii wykorzystywane w przebudowie zgryzu, jak i przy wykonywaniu prac protetycznych. Mechaniczne artykulatory stosują modele gipsowe do rejestracji zwarciowych powierzchni zgryzu. Wirtualny artykulator zbudowany w ramach tego projektu stosuje trójwymiarowe modele szczęk rejestrowane kamerą głębi oraz odpowiednie oprogramowanie automatycznie wyznaczające powierzchnie zgryzu zębów i ich anta7 gonistów. Centralną częścią tego oprogramowania jest wprowadzony przeze mnie algorytm do segmentacji trójwymiarowych modeli poszczególnych zębów z trójwymiarowego modelu szczęki [2010-TeethSegmentation]. Metoda ta działa półautomatycznie. Na wstępie użytkownik wybiera manualnie jeden punkt w części środkowej zęba, którego segmentacji chce dokonać. Później trójwymiarowy model szczęki transformowany jest do mapy głębi (ang. range image), która binaryzowana jest dla różnych wartości progowych (na różnych poziomach głębi). Następnie dla każdego poziomu głębi stosowana jest metoda aktywnych konturów [2010-ActiveContours4TeethSegmentation]. Uzyskane w ten sposób kontury nie są jednak zamknięte ze względu na to, iż sąsiadujące zęby stykają się ze sobą. Dlatego w kolejnym kroku brakujące części konturów rekonstruowane są za pomocą odpowiedniej interpolacji. Eksperymentalnie stwierdzono, iż otrzymane w ten sposób kontury zwykle nie obejmują segmentowanych zębów w całości. Dlatego wynik ten optymalizowany jest tzw. algorytmem snakes. Wyniki segmentacji uzyskane w dwuwymiarowych obrazach binarnych na różnych poziomach głębi są ostatecznie scalane do trójwymiarowego modelu zęba. W eksperymentach użyłem 28 par trójwymiarowych modeli szczęk, które podzieliłem na trzy kategorie. Pierwsza z nich (8 par) to obrazy sztucznych modeli szczęk reprezentujących uzębienie w idealnym stanie. Druga kategoria (17 par) to obrazy rzeczywistych szczęk pacjentów ze zdrowym uzębieniem. Ostatnia kategoria to 4 pary obrazów rzeczywistych przedstawiających uzębienie w mocno zaniedbanym stanie. Manualne segmentacje zębów służące jako referencje do oceny jakości automatycznego algorytmu sporządzone zostały przez eksperta z dziedziny stomatologii. Dla pierwszej kategorii obrazów średnia czułość (ang. sensitivity) algorytmu wynosi 90% natomiast średnia swoistość (ang. specificity) 99%. Dla drugiej kategorii uzyskano wyniki odpowiednio 92% i 98%, natomiast dla trzeciej kategorii: 80% i 93% [2010-DentitionModels]. 3.3 Metody szkieletyzacji w rozpoznawaniu obiektów Moim najbardziej aktualnym wątkiem naukowym w zakresie rozpoznawania obiektów jest wykorzystanie metod szkieletyzacji w obrazach rejestrowanych zarówno kamerami dwuwymiarowymi, sensorami głębi jak i skanerami trójwymiarowymi. Badania te przeprowadzam współpracując z naukowcami z Uniwersytetu w Koblencji (Prof. Dietrich Paulus, Jens Hedrich, Simone Schäfer, David Barnowsky) jak i z Prof. Longinem Lateckim z Temple University w Filadelfii. W [2013-ObjectSkeletonisation] zaproponowałem innowacyjny algorytm do wyznaczania podobieństw obiektów w obrazach rejestrowanych skanerem trójwymiarowym. W pierwszym kroku obiekty opisywane są szkieletami powierzchniowymi (ang. surface skeletons), co jednak nie pozwala na wyznaczenie stosownych wektorów cech. Dlatego największym wkładem naukowym tej pracy jest zręczna ich redukcja do szkieletów krawędziowych (ang. curve skeletons). Początkowo grubość niektórych ścieżek tych szkieletów (ang. skeleton paths) przekracza w pewnych obszarach jeden woksel, co znacznie utrudnia ilościowy opis obiektów. Zastosowanie odpowiedniego algorytmu zwężania (ang. thinning algorithm) rozwiązuje ten problem. Struktura tak wyznaczonych szkieletów służy do obliczenia pięciowymiarowych, ilościowych wektorów cech opisujących każdy obiekt. Wektory te używane są później do analitycznego szacowania podobieństw między obiektami. Eksperymenty przeprowadzone dla bardzo wymagającej bazy danych obiektów referencyjnych przyniosły obiecujące wyniki. Średnia precyzja algorytmu (ang. precision) wynosi 0,34, natomiast średnia jego pełność (ang. recall) 0,72. W [2013-SkeletonGraphMatching] opisałem swoją obszerną analizę badawczą algorytmu dopasowywania grafów pochodzących od szkieletów (ang. skeleton graph matching) opisujących obiekty rejestrowane kamerą dwuwymiarową. Szkieletyzacja dwuwymiarowa obiektów 8 niesztywnych (np. zwierząt) może prowadzić do zupełnie różnych topologicznie grafów dla różnych obrazów tego samego obiektu (np. boczny obraz konia z głową zwróconą ku górze, a boczny obraz konia z głową zwróconą w dół). Standardowe metody dopasowywania takich grafów zwracają niskie wartości podobieństwa mimo, iż semantycznie chodzi o ten sam obiekt. Aby rozwiązać ten problem w [2013-SkeletonGraphMatching] brane są pod uwagę jedynie części grafów, a dokładniej najkrótsze ścieżki pomiędzy ich węzłami końcowymi. Każda najkrótsza ścieżka w każdym z dwóch porównywanych grafów opisywana jest numerycznym wektorem cech. W tym celu każda ścieżka dzielona jest w równoodległych punktach, przy czym liczba tych punktów odpowiada liczbie wymiarów przestrzeni cech. Długości promieni okręgów otrzymanych w procesie szkieletyzacji dla tych punktów determinują wartości poszczególnych elementów odpowiedniego wektora cech. Aby porównać ilościowo dwie dowolne ścieżki zdefiniowano odpowiednią funkcję odległości, która normalizuje wartości wektorów cech gwarantując niezmienność algorytmu względem skali (ang. scale invariance). Odległości wyznaczone za pomocą tej funkcji dla wszystkich możliwych par najkrótszych ścieżek jednego i drugiego grafu służą jako podstawa do ustalenia odpowiadających sobie węzłów końcowych (ang. corresponding end nodes) w obu grafach. Ostateczna wartość miary niepodobieństwa dwóch grafów wyznaczana jest na podstawie odległości pomiędzy odpowiadającymi sobie węzłami końcowymi. W eksperymentach użyłem m.in. zbioru testowego Kimia-216 składającego się z 216 obrazów przedstawiających 18 klas obiektów. Zakładając idealny wynik szkieletyzacji i poddając pod ewaluację jedynie algorytm dopasowywania grafów klasyfikacja na podstawie najbardziej podobnego obiektu powiodła się w 100% przypadków. W przypadku szkieletyzacji bez interwencji manualnej algorytm klasyfikuje prawidłowo w 97,2% przypadków. Metodologię opisaną powyżej i w [2013-SkeletonGraphMatching] znacznie rozwinąłem w ostatnich miesiącach w kierunku analizy obiektów rejestrowanych kamerą głębi. Pracę tę opisałem w artykule pt.: Matching of 3D Objects Based on 3D Curves złożonym na konferencję ICCV 2013 (International Conference on Computer Vision). Algorytm zaczyna od detekcji krawędzi obiektu w obrazie głębi, które następnie transformowane są do przestrzeni trójwymiarowej. Później następuje detekcja charakterystycznych punktów w scenie oraz wyznaczanie najkrótszych ścieżek pomiędzy tymi punktami. Samo dopasowywanie obiektów (ang. object matching) sprowadzono do problemu podgrafów o maksymalnej wadze (ang. maximum weight subgraph). Eksperymenty przeprowadzone dla zbioru testowego 213 obiektów przyniosły obiecujące rezultaty. Średnia precyzja algorytmu wynosi 0,74. 3.4 Adaptacyjne uczenie kontekstu w rozpoznawaniu obiektów Moją nadrzędną wizją badawczą jest adaptacyjne uczenie kontekstu w rozpoznawaniu obiektów. Prace opisane powyżej wykorzystują różne kamery (2D, 2.5D, 3D), różne metody opisywania obiektów (na podstawie cech koloru, tekstury, czy kształtu) oraz różne algorytmy klasyfikacji (statystyczne, działające na podstawie porównywania grafów, itd.). Zbiór tych metod integrowany jest w chwili obecnej w spójnym systemie do rozpoznawania obiektów przedstawionym na rysunku 1. System ten działa w trzech fazach: generacji, uczenia i rozpoznawania. W fazie generacji (patrz rysunek 1) obiekty rejestrowane są za pomocą dwuwymiarowych kamer wizualnych, kamer głębi, jak i kamer multispektralnych. Następnie opisywane są licznymi cechami pozyskiwanymi z kształtu (przy pomocy dwu- i trójwymiarowej szkieletyzacji na podstawie np. [2013-SkeletonGraphMatching, 11]), wyglądu (na podstawie np. [2010-WaveletFeatures4ObjectRecognition]) oraz informacji multispektralnej. To prowadzi do nadmiarowego opisu obiektów, które w kolejnej fazie działania systemu (adaptacyjne uczenie) zostaje zoptymalizowane. Wyjątkowo interesującym wyzwaniem naukowym w tej fazie 9 Feedback to the supervisor Skeleton-based representations Appearance-based representations Depth Dynamic environment RGB Multispec tral } Temporary supervision Representations for multi-spectral data Multi sensory imaging setup Object model of representations Adaptive learning Skeleton-based mapping Retrieval Representation measurements Generation phase Recognition phase Learning phase Rysunek 1: Schemat systemu do rozpoznawania obiektów przewidującego adaptacyjne uczenie kontekstu. jest szacowanie pełnych, trójwymiarowych szkieletów obiektu korzystając ze zbioru częściowych szkieletów wyznaczonych z obrazów głębi przedstawiających obiekt z różnych punktów widzenia (swego rodzaju rekonstrukcja trójwymiarowa na poziomie reprezentacji obiektu). W fazie adaptacyjnego uczenia (patrz rysunek 1) nadmiarowy i redundancyjny opis obiektu uzyskany w fazie generacji optymalizowany jest podczas pracy systemu dla konkretnego zastosowania. Po każdym procesie klasyfikacji system automatycznie aktualizuje wagi przyporządkowane wszystkim cechom obliczonym na podstawie danych pochodzących z wszystkich stosowanych kamer zależnie od oceny nadzorcy (klasyfikacja prawidłowa, albo klasyfikacja błędna). Początkowo z każdą oceną nadzorcy odsetek pomyłek w klasyfikacji maleje, a system adaptacyjnie optymalizuje swoje działanie w kontekście konkretnego zastosowania. Po osiągnięciu optimum (tzn. w chwili, kiedy poprawa przestaje być widoczna) udział nadzorcy nie jest już konieczny i system może przejść do trybu całkowicie automatycznego. W fazie rozpoznawania (patrz rysunek 1) system używa aktualnych modeli reprezentujących obiekty do klasyfikacji. W tym celu stosowane są bazujące na grafach metody dopasowywania (ang. graph-based matching) [12] jak również klasyfikatory statystyczne. Jednym z proponowanych rozwiązań problemu rozpoznawania jest algorytm najkrótszych ścieżek (ang. shortest path algorithm) [2013-SkeletonGraphMatching] stosowany w wersji zarówno dwu- jak i trójwymiarowej. Szczególnym wyzwaniem było tutaj zaimplementowanie metody do automatycznego wyznaczania szkieletów krawędziowych (ang. curve skeletons) opisujących obiekty trójwymiarowe [2013-ObjectSkeletonisation]. Szkieletyzacja obiektów w danych trójwymiarowych metodami standardowymi prowadzi bowiem do szkieletów powierzchniowych (ang. surface skeletons), które nie zawierają informacji topologicznej niezbędnej do interpretowania ich jako grafy. Zbudowanie systemu do adaptacyjnego rozpoznawania obiektów jest pierwszym krokiem w kierunku semantycznej analizy scen. Dodatkowa informacja kontekstowa potrzebna do opisu scen na wyższym poziome abstrakcji pochodzić będzie z ontologicznego modelu wiedzy zbudowanego dla konkretnego zastosowania. W dziedzinie semantycznej interpretacji danych multimedialnych opublikowałem po doktoracie szereg artykułów [1, 5, 14, 25, 27, 29, 30, 31, 33, 35, 39, 48], które w połączeniu z wynikami badań dotyczących rozpoznawania obiektów opisanymi powyżej stanowią solidną podstawę do kontynuowania pracy naukowej w zakresie interpretacji scen rzeczywistych. 10 4 Lista publikacji proponowana jako osiągnięcie naukowe Poniżej przedstawiam listę wybranych dziesięciu swoich artykułów opublikowanych po doktoracie, które stanowią jednotematyczny cykl publikacji w sensie art. 16 ust. 2 ustawy o stopniach i tytule naukowym z dnia 14 marca 2003 roku. Ich spójna myśl badawcza o tytule Wielowymiarowa analiza, klasyfikacja i rozpoznawanie obiektów trójwymiarowych w obrazach scen rzeczywistych omówiona została szczegółowo w rozdziale 3. W nawiasach za nazwiskami autorów podany jest ich procentowy udział w badaniach prowadzących do danej publikacji. Kopie poniższych publikacji wraz z oświadczeniami autorów potwierdzającymi ich procentowy w nich udział zostały załączone. [2007-ContextModelling4ObjectRecognition] M. Grzegorzek (80%) and E. Izquierdo (20%). Statistical 3D Object Classification and Localization with Context Modeling. In M. Domanski, R. Stasinski, and M. Bartkowiak, editors, 15th European Signal Processing Conference, pages 1585–1589, Poznan, Poland, September 2007. PTETiS, Poznan. [2010-WaveletFeatures4ObjectRecognition] M. Grzegorzek (70%), S. Sav (10%), E. Izquierdo (10%), and N. E. O’Connor (10%). Local Wavelet Features for Statistical Object Classification and Localisation. IEEE Multimedia, 17(1):56–66, January–March 2010. [2010-ProbabilisticObjectRecognition] M. Grzegorzek (100%). A System for 3D TextureBased Probabilistic Object Recognition and Its Applications. International Journal on Pattern Analysis and Applications, 13(3):333–348, July 2010. [2010-ColorBasedObjectRecognition] M. Grzegorzek (60%), A. Wolyniec (20%), F. Schmitt (10%), and D. Paulus (10%). Recognition of Objects Represented in Different Color Spaces. In J. Parkkinen, T. Jääskeläinen, T. Gevers, and A. Tremeau, editors, 5th European Conference on Colour in Graphics, Imaging, and Vision, pages 338–345, Joensuu, Finland, June 2010. Society for Imaging Science and Technology. [2011-Statistical-vs-FeatureBased] P. Decker (20%), S. Thierfelder (20%), D. Paulus (10%), and M. Grzegorzek (50%). Dense Statistical versus Sparse Feature-Based Approach for 3D Object Recognition. Pattern Recognition and Image Analysis, 21(2):238–241, January 2011. [2010-TeethSegmentation] M. Grzegorzek (50%), M. Trierscheid (30%), D. Papoutsis (10%), and D. Paulus (10%). 3D Teeth Segmentation from Dentition Surfaces. ICGST International Journal on Graphics, Vision and Image Processing, GVIP, 10(6):29–35, December 2010. [2010-ActiveContours4TeethSegmentation] M. Grzegorzek (50%), M. Trierscheid (30%), D. Papoutsis (10%), and D. Paulus (10%). A Multi-Stage Approach for 3D Teeth Segmentation Including Active Contrours. In A. Elmoataz, O. Lezoray, F. Nouboud, D. Mammass, and J. Meunier, editors, International Conference on Image and Signal Processing, pages 521–530, Trois-Rivieres, Canada, June 2010. Springer, LNCS 6134. 11 [2010-DentitionModels] M. Grzegorzek (50%), D. Paulus (10%), M. Trierscheid (30%), and D. Papoutsis (10%). Teeth Segmentation in 3D Dentition Models for the Virtual Articulator. In IEEE International Conference on Image Processing, pages 3609–3612, Hong Kong, September 2010. IEEE Computer Society. [2013-ObjectSkeletonisation] C. Feinen (30%), M. Grzegorzek (50%), D. Barnowsky (10%), and D. Paulus (10%). Robust 3D Object Skeletonisation for the Similarity Measure. In M. De Marsico and A. Fred, editors, 2nd International Conference on Pattern Recognition, Applications and Methods, pages 167–175, Barcelona, Spain, February 2013. Springer, Berlin, Heidelberg. [2013-SkeletonGraphMatching] J. Hedrich (10%), C. Yang (10%), C. Feinen (10%), S. Schäfer (10%), D. Paulus (10%), and M. Grzegorzek (50%). Extended Investigations on Skeleton Graph Matching for Object Recognition. In 8th International Conference on Computer Recognition Systems, page to appear, Milkow, Poland, May 2013. Springer LNCS. 5 Wykłady naukowe na zaproszenie Kiedy Temat Instytucja 04/2013 Adaptive Learning of Context for Pattern Recognition AGH w Krakowie 02/2013 Adaptive Learning of Context for Pattern Recognition Universität Heidelberg 01/2013 Adaptive Learning of Context for Pattern Recognition Fraunhofer-Institut, Berlin 03/2012 Adaptive Learning of Context for Pattern Recognition DFKI Robotics Innovation Center, Bremen 03/2012 Adaptive Learning of Context for Pattern Recognition UE w Katowicach 02/2012 Adaptive Learning of Context for Pattern Recognition Universität Bonn 12/2011 Path Similarity Skeleton Graph Matching Politechnika Śląska w Gliwicach 02/2011 Selected Problems of Pattern Analysis Including Cognitive Object Recognition Politechnika Śląska w Gliwicach 10/2010 Pattern Recognition Tutorial Universität Siegen 11/2009 Selected Problems of Pattern Analysis Including Statistical Object Recognition Universität Siegen 10/2009 Integrating Domain Specific Knowledge into the Process of Digital Image Analysis TU Wien 10/2009 Integrating Domain Specific Knowledge into the Process of Digital Image Analysis Frankfurt Institute for Advanced Studies 04/2009 Semantic Analysis of Multimedia Universität Freiburg 12 02/2009 Multimedia Semantics and Retrieval TU München 01/2009 Multimedia Semantics and Retrieval Universität Magdeburg 12/2008 Multimedia Semantics and Retrieval TU Kaiserslautern 12/2007 A System for Appearance-Based Probabilistic 3D Object Recognition and Its Applications UE w Pradze 11/2007 Image Segmentation, Object Recognition, and Video Analysis LMU München 10/2007 Image Segmentation, Object Recognition, and Video Analysis Universität KoblenzLandau 08/2007 A System for Appearance-Based Probabilistic 3D Object Recognition and Its Applications Technische Universität Darmstadt 02/2007 Appearance-Based Statistical Object Recognition Dublin City University 03/2006 Appearance-Based Statistical Object Classification and Localisation Temple University Philadelphia 10/2005 Appearance-Based Statistical Object Recognition Including Colour and Context Modelling Forschungsinstitut für Optronik und Mustererkennung, Ettlingen 6 Udział w projektach naukowych Rola Tytuł projektu Tryb Kwota4 Kiedy Kierownik projektu Multimodal Scene and Object Analysis NRW5 200k e 10/2013 09/2016 Kierownik projektu Cognitive Robotics SNV6 100k e 11/2012 09/2013 Kierownik projektu Stypendium doktoranckie dla Cong Yang z zakresu:“Graph-Based Object Retrieval” CSC7 60k e 10/2012 09/2016 Kierownik projektu Stypendium doktoranckie dla Chen Li z zakresu: “Content-Based Multimedia Retrieval” CSC 60k e 10/2011 09/2015 Kierownik projektu Research Training Group 1564 “Imaging New Modalities” DFG8 300k e 10/2010 03/2014 4 Kwota przeznaczona na część projektu realizowaną przez Marcina Grzegorzek i jego grupę naukową NRW (Nordrhein-Westfalen) - program rządowy Nadrenii Północnej-Westfalii 6 SNV (Stiftung Neue Verantwortung) - finansowanie w ramach fundacji SNV (think tank) 7 CSC (China Scholarship Council) - chiński program rządowy 8 DFG (Deutsche Forschungsgemeinschaft) - Niemiecka Wspólnota Badawcza 5 13 Kierownik projektu Stylus-3D - Development of Inspection Strategies for Quality Safeguard in the Inline Production of 3D Objects AiF9 168k e 03/2010 02/2012 Kierownik projektu X-Media - Knowledge Sharing and Reuse across Media EU FP6 150k e 03/2008 02/2010 Kierownik projektu RUSHES - Retrieval of Multimedia Semantic Units for Enhanced Reusability EU FP6 £70k 01/2007 02/2008 Kierownik projektu K-Space - Knowledge Space of Semantic Inference for Automatic Annotation and Retrieval of Multimedia Content EU FP6 £100k 07/2006 02/2008 Stypendysta Research Training Group “3D Image Analysis and Synthesis” DFG 60k e 12/2002 11/2005 Siegen, 28 maja 2013, (Marcin Grzegorzek) 9 AiF (Arbeitsgemeinschaft industrieller Forschungsvereinigungen) – finansowanie projektów z przemysłem 14