Piotr Romaniak Lucjan Janowski Mikołaj Leszczuk Zdzisław Papir
Transkrypt
Piotr Romaniak Lucjan Janowski Mikołaj Leszczuk Zdzisław Papir
Piotr Romaniak Lucjan Janowski Mikołaj Leszczuk Zdzisław Papir Akademia Górniczo-Hutnicza {romaniak, janowski, leszczuk, papir}@kt.agh.edu.pl Warszawa, 17-19 czerwca 2009 r.. OCENA JAKOŚCI SEKWENCJI WIZYJNYCH DLA APLIKACJI STRUMIENIOWANIA „NA ŻYWO” W ŚRODOWISKU MOBILNYM Streszczenie: Aplikacje strumieniowania „na żywo” w środowisku mobilnym będą jednymi z najistotniejszych aplikacji przyszłych bezprzewodowych systemów multimedialnych. Dla ich poprawnego funkcjonowania konieczne będą mechanizmy oceny i kontroli jakości postrzeganej przez użytkownika (ang. Quality of Experience, QoE) służące zapewnieniu odpowiedniej jakości transmitowanych sekwencji wizyjnych, podtrzymania zainteresowania obecnych i nowych użytkowników, a w konsekwencji, maksymalizacji zysków dostawców usług. Artykuł ten uwidacznia potrzebę oceny artefaktów obrazowych dla aplikacji strumieniowania „na żywo” w środowisku mobilnym oraz opisuje modele oceny jakości postrzeganej w scenariuszu bez referencji (ang. No-Reference, NR). Zaproponowane modele zostały zweryfikowane na podstawie wyników eksperymentów psychofizycznych. Otrzymane wyniki dowodzą przydatności zaproponowanych mechanizmów w zakresie oceny jakości dla aplikacji strumieniowania „na żywo” w środowisku mobilnym oraz potwierdzają dużą korelację z odczuciami użytkowników. 1. WSTĘP Znaczenie rozwiązań strumieniowania „na żywo” w środowisku mobilnym, funkcjonujących w oparciu o sieci bezprzewodowe, zostało pozytywnie zweryfikowane w ostatnich latach przez powstanie licznych aplikacji, takich jak mobilna telewizja IP czy systemy monitoringu wizyjnego w obszarach miejskich. W odróżnieniu od tradycyjnych zastosowań, takich jak przeglądanie stron WWW, aplikacje multimedialne czasu rzeczywistego wymagają mechanizmów przesyłu treści o niskim poziomie negatywnego wpływu na odczuwaną przez użytkowników jakość obrazu przekazu [1]. Aby sprostać temu wymaganiu, zwiększać zadowolenie użytkowników, a w konsekwencji zwiększać zyski dostawców usług, musi zostać stworzony i wdrożony system oceny/weryfikacji artefaktów wideo. Rozwiązanie to powinno być zaprojektowane na potrzeby bezprzewodowej infrastruktury przesyłowej w celu pseudo-subiektywnej kontroli jakości sekwencji wizyjnych przesyłanych w scenariuszu „na żywo” [1]. Termin „pseudosubiektywna” oznacza kontrolę z wykorzystaniem metryk obiektywnych, zweryfikowanych na podstawie ocen subiektywnych. Z uwagi na ograniczenia tradycyjnych rozwiązań opartych na pojęciu jakości usługi (ang. Quality of Service, QoS), konieczne jest wprowadzanie rozwiązań takich jak opisanych w pracy [3], czyli biorących pod uwagę multimedialne cechy transmisji, system wizyjny człowieka (ang. Human Visual System, HVS) oraz poziom jakości postrzeganej przez użytkownika (ang. Quality of Experience, QoE). Jednakże, większość z obec- nie dostępnych systemów oceny QoE, zostało zaprojektowanych albo pod kątem jednego specyficznego typu treści wizyjnej/aplikacji albo pod kątem jednego specyficznego scenariusza usługi bezprzewodowej. Dodatkowo, rozwój nowych modeli QoE pracujących w scenariuszu bez referencji (ang. No-Reference, NR) jest wciąż dużym wyzwaniem badawczym z uwagi na ograniczenia obecnych metryk, które muszą charakteryzować się aplikacyjnością w środowisku poza-laboratoryjnym, zróżnicowaniem oceny z uwagi na treść i profil użytkownika, odpornością na wielorakość pojawiających się zniekształceń, a także koniecznością spełniania wymagania niskiej złożoności obliczeniowej. Artykuł ten uwidacznia potrzebę oceny artefaktów obrazowych dla aplikacji strumieniowania „na żywo” w środowisku mobilnym oraz opisuje modele oceny w scenariuszu NR. Zaproponowane rozwiązania zostały zweryfikowane z wykorzystaniem wyników eksperymentów psychofizycznych. Otrzymane rezultaty pokazują przydatność zaproponowanych mechanizmów do oceny jakości aplikacji strumieniowania „na żywo” w środowisku mobilnym oraz potwierdzają dużą korelację z odczuciami użytkowników. 2. PROPONOWANA KONCEPCJA Ideą prezentowaną w tym artykule jest stworzenie technologii i narzędzi, które mogą być wdrożone przez dostawców usług w celu ustawicznego monitorowania ogólnej jakości usług strumieniowania sekwencji wizyjnych. Wyniki badań (technologia i narzędzia) jest przewidziana do implementacji w powszechnych, komercyjnych usługach mobilnych. Najbardziej innowacyjną i charakterystyczną funkcjonalnością systemu jest wprowadzenie metryk NR pozwalających na ocenę i monitorowanie QoE. Należy przy tym zauważyć, że zaproponowana wiarygodna ocena odczuwalnej jakości sekwencji wizyjnych, kontrola jakości oparta na numerycznych estymacjach QoE oraz obliczanie dokładności rekonstrukcji sygnału wizyjnego w kontekście konkretnych parametrów i warunków odtwarzania transmisji, odgrywają fundamentalną rolę w procesach zapewniania QoE dla usług opartych na strumieniowaniu sekwencji wizyjnych. Jak wspominano, rozwiązanie estymacji jakości, umożliwiające ocenę sekwencji wizyjnych w sytuacji kiedy brak jest dostępnej referencji, jest wciąż wyzwaniem. W odróżnieniu od wszystkich metod opartych na referencji (rozwiązania z pełną referencją, ang. FullReference, FR i rozwiązania ze zredukowana referencją, ang. Reduced-Reference, RR), które ograniczone są niedoskonałością jakości źródłowych sekwencji wizyjnych, podejście NR ocenia jakość bezwzględną, widzianą z punktu widzenia użytkownika. Rozwiązanie NR nie wymaga dodatkowego, idealnego kanału do przesyłania danych służących potem jako referencja. Dodatkowo, rozwiązania NR pozwalają na śledzenie sesji przesyłanych „na żywo”, co pozwala na dostarczanie rezultatów estymacji w czasie rzeczywistym. W przypadku rzeczywistych aplikacji jesteśmy zainteresowani bezwzględną jakością w zakresie od początku do końca (ang. end-to-end) łańcucha dostarczania mediów. Metody oceny jakości typu NR są więc naturalną odpowiedzią na potrzeby rzeczywistych scenariuszy strumieniowania sekwencji wizyjnych. Reasumując, na prezentowaną przez nas ideę składa się stworzenie i implementacja metryk QoE, które oparte są na preferencjach użytkownika, ocenach subiektywnych, charakterystykach obserwatora a także na sprzężeniu zwrotnym powstałym przez iteracyjne weryfikacje metryk, modyfikujące ich parametry na podstawie wspomnianych ocen subiektywnych. 3. SZCZEGÓŁY Sekcja ta zawiera szczegółowy opis zaproponowanego podejścia do percepcyjnej oceny jakości sekwencji wideo w oparciu o analizę artefaktów obrazu. Przedstawione metryki adresują najważniejsze artefakty typowe dla materiału źródłowego (przed kompresją i transmisją) jak i zniekształcenia wprowadzane przez stratną kompresję [1], [2]. W pierwszym przypadku najważniejszymi artefaktami są zaszumienie i rozmycie (typowe dla amatorskich sekwencji wizyjnych), natomiast kompresja wprowadza dobrze znany artefakt blokowy oraz migotanie bloków (opisane w dalszej części). Zaprezentowane zostały szczegóły implementacji poszczególnych metryk, sposób przeprowadzenia testów subiektywnych, metodyka analizy otrzymanych rezultatów oraz wyniki korelacji zaproponowanych miar z odczuciami użytkowników. 3.1. Metryki obiektywne do pomiaru artefaktów wideo Podrozdział ten zawiera opis czterech metryk służących do oceny artefaktów wideo w scenariuszu bez referencji. Dwie pierwsze metryki odnoszą się do oceny jakości materiału źródłowego, natomiast kolejne dwie do oceny artefaktów spowodowanych stratną kompresją wewnątrzklatkową (artefakt blokowy) oraz międzyklatkową (migotanie bloków obrazu). Pierwsza z zaproponowanych metryk dotyczy pomiaru zaszumienia obrazu. Pierwotna koncepcja pomiaru została opisana przez Lee w [3] i opiera się na stwierdzeniu, że najbardziej efektywną metodą oceny stopnia zaszumienia obrazu jest identyfikacja jednorodnych obszarów a następnie policzenie dla nich prostych statystyk, ograniczających się do średnich oraz odchyleń standardowych jasności pojedynczych pikseli. Bardziej aktualne badania korzystające z tej koncepcji zaprezentował Dosselmann w [5]. W proponowanym przez autorów niniejszego artykułu podejściu zastosowano udoskonaloną metodę wykrywania jednorodnych obszarów, która zapewnia wybór porównywalnej liczby obszarów dla obrazów prezentujących zróżnicowane pod względem ilości detali treści. Jest to zaletą w porównaniu z dotychczasowymi rozwiązaniami zakładającymi stałe kryterium klasyfikacji obszarów (w skrajnych przypadkach cały obraz zakwalifikowany jako obszar jednorodny lub zupełny brak obszarów spełniających kryterium dla obrazów prezentujących duża ilość detali). W prezentowanym podejściu swoje odbicie znajduje także zjawisko maskowania przestrzennego przez odpowiednie ważenie miary dla pojedynczej ramki ze względu na ilość detali obrazu. Najpopularniejszym sposobem określania stopnia rozmycia obrazu jest uwzględnienie faktu, że rozmycie wpływa na zmniejszenie ostrości krawędzi znajdujących się na obrazie. Aktualne wyniki badań korzystających z tego faktu znajdują się w [5]. Zaproponowana metryka oceny rozmycia obrazu bazuje na pomiarze szerokości tylko i wyłącznie najostrzejszych krawędzi wykrytych w obrazie. Należy założyć, że każdy, nawet najbardziej jednorodny obraz, posiada przynajmniej kilka ostrych krawędzi. Dzięki takiemu podejściu wyeliminowany zostaje niekorzystny efekt zależności miary od treści prezentowanej w sekwencji wizyjnej. Pierwszym krokiem w pomiarze jest detekcja ostrych krawędzi obrazu z użyciem filtru ‘sobel’. W następnym kroku dokonywany jest pomiar ich średniej szerokości wyrażonej w ilości pikseli znajdujących się na lewo oraz prawo od środka krawędzi, które spełniają następujące kryteria: 1) jasność pikseli na prawo rośnie/maleje monotonicznie dla podnoszącej się/opadającej krawędzi, 2) analogicznie dla pikseli na lewo, oraz 3) nachylenie krawędzi (czyli różnica pomiędzy wartościami jasności kolejnych pikseli) nie spada poniżej określonego poziomu. Poziom ten określany jest dynamicznie, na podstawie odchylenia standardowego jasności sąsiadujących pikseli. Metryka do pomiaru artefaktu blokowego bazuje na założeniu, że każdy pojedynczy artefakt blokowy posiada przynajmniej jeden widoczny róg, wyrównany do granic bloków kodowych. Dotychczasowe osiągnięcia w dziedzinie implementacji metryk do pomiaru artefaktu blokowego zaprezentowane zostały w [5]. W zaproponowanym przez autorów podejściu miara obliczana jest lokalnie, dla każdego bloku kodowego obrazu. Absolutna różnica w jasności pikseli liczona jest oddzielnie dla 1) par pikseli znajdujących się w obszarze jednego bloku, oraz 2) par pikseli z sąsiadujących bloków. Stosunek tych wielkości stanowi miarę artefaktu blokowego. Pomiar migotania bloków obrazu (ang. flickering) zainspirowany został pracą przedstawioną przez Pandela w [6]. Zgodnie z pracą, migotanie jest najważniejszym typem zniekształcenia występującego dla sekwencji wideo z kodowaniem międzyramkowych. Zjawisko to jest widoczne dla sekwencji wizyjnych zakodowanych z użyciem np. kodeków H.264 (w badaniach użyto implementacji x264). Szczególnie podatnymi na ten efekt są sekwencje wideo zawierające powolną zmianę perspektywy (przemieszczająca się kamera, przybliżenie, oddalenie lub obrót). W schematach kodowania międzyramkowego wartości poszczególnych bloków nie są aktualizowane (kodowane) dopóki różnica pomiędzy odpowiadającym blokiem z kolejnych ramek nie przekracza dopuszczalnej wartości. Im większa kompresja tym większa jest ta wartość. Sugeruje to, że bloki obrazu mogą pozostawać w jednym z dwóch stanów: 1) brak aktualizacji lub 2) aktualizacja. Częste przejścia pomiędzy tymi stanami oznaczać będą mocny efekt migotania. Dwustanowy model z histerezą do pomiaru migotania zaprezentował Pandel w [6]. Miara obliczana jest lokalnie dla każdego bloku obrazu, jako liczba przejść pomiędzy stanami normalizowana względem czasu (większa ilość przejść oznacza większy poziom migotania). Naszą wartość dodaną do pracy Pandela stanowią trzy elementy. Po pierwsze, definicja progu przełączania pomiędzy stanami. W [6] zastosowano inny sposób obliczania tego poziomu a jego wartość nie została podana. W naszych badania obliczamy ten próg dynamicznie, jako sumę różnic w jasności pikseli dla każdego z bloków obrazu, każdy rozmiaru 8x8 pikseli. Z przebadanego zakresu od 0,3 do 1,4 (gdzie 1 oznacza maksymalny poziom jasności) wybrano 0,9, jako wartość dającą najlepsze wyniki. Kolejnym dodanym elementem jest zaproponowanie metody uśredniania wartości miary dla całej ramki wideo (ang. spatial pooling), zakładającej uśrednianie bloków posiadających największą wartość miary. Pozwala to uwzględnić fakt, że człowiek oglądający sekwencję wizyjną wyrabia sobie opinię o jakości na podstawie kilku najgorszych punktów obrazu, bez uśredniania całości. Przebadanym zakresem ilości bloków używanych do obliczania miary dla całej ramki był przedział od 0,5% do 10% całkowitej liczby. Najlepszy wyniki osiągnięto dla wartości 2%. Ostatnim i najważniejszym elementem dodanym jest fakt takiego wyboru opisanych powyżej parametrów (próg przełączania oraz % bloków) aby uzyskać maksymalną korelację powstałej miary z odczuciami użytkowników, obliczoną na podstawie porównania z wynikami testów subiektywnych. 3.2. Testy subiektywne i tworzenie modeli Metryki obiektywne mierzące zniekształcenia opisane w rozdziale 3.1 są niewystarczające, ponieważ celem prezentowanej analizy jest oszacowanie wpływu danego zniekształcenia na jakość postrzeganą przez użytkownika (czyli stworzenie modelu). W celu uwzględnienia oceny subiektywnej muszą zostać przeprowadzone odpowiednie testy [7]. Testy polegają na ocenie jakości postrzeganej przez testerów w pewnej skali. Rekomendacja [7] podaje wiele sposobów zarówno na sam sposób oceniania (z referencją, ukrytą referencją oraz bez referencji) oraz różne skale, różniące się nawet dla tego samego sposobu oceniania. Dla przykładu dla scenariusza bez referencji można użyć skal dyskretnych o 5, 9 lub 11 wartościach lub nawet skali ciągłej. Najpopularniejszym sposobem prezentowania wyników subiektywnych jest wartość MOS (ang. Mean Opinion Score) będąca średnią otrzymanych wyników. Gdy dysponujemy już wynikami testów subiektywnych (w badaniach wzięło udział 100 studentów), kolejnym krokiem jest odwzorowania wartości miar obiektywnych opisanych w rozdziale 3.1 na wartość subiektywną (wynik testów). Odwzorowanie takie może odbywać się za pomocą różnych metod statystycznych dostosowanych do konkretnych wyników. W przypadku, gdy testy subiektywne obejmowały małą liczbę odpowiedzi (np. skala pięciostopniowa), poprawnym statystycznie modelem jest model GLZ (ang. Generalized Linear Model) [8], [9]. W naszych badaniach użyliśmy 11-sto stopniowej skali ocen (zgodnie z najnowszymi wytycznymi grupy VQEG) co pozwoliło zastosować model regresyjny. Zaproponowanym przez nas modelem jest asymetryczna funkcja logitowa [10] dana wzorem: exp( ax b) f ( x) 10 1 exp( ax b) c (1) Ponieważ funkcja (1) jest silnie nieliniowa nie otrzymaliśmy przeprowadziliśmy statystycznej analizy otrzymanych współczynników. Rys. 1. Wykres korelacji i dopasowania miary zaszumienia w funkcji MOS Rys. 2. Wykres korelacji i dopasowania miary artefaktu blokowego w funkcji MOS Otrzymane wyniki silnie zależą od tego, jak bardzo dana miara obiektywna wpływa na postrzeganą jakość sekwencji wizyjnej. Przykład korelacji dwóch miar obiektywnych z wynikami testów subiektywnych przedstawiają Rys. 1 i 2. Są to miary dopasowane najlepiej (miara szumu) i najgorzej (miara artefaktu blokowego). Wyniki dokładności dopasowania dla wszystkich miar są następujące: 𝑅2 = 0,98 dla miary szumu, 𝑅2 = 0,90 dla miary rozmycia, 𝑅2 = 0,89 dla miary migotania bloków oraz 𝑅2 = 0,74 dla miary artefaktu blokowego. Należy zauważyć, że same odpowiedzi testerów są dość silnie rozrzucone, co wynika z niejednoznaczności oceny jakości podejmowanej przez każdego testera. Ze względu na powyższe, współczynnik dopasowania na poziomie 0.9 jest bardzo dobrym i obiecującym rezulta- tem. Jedyna miara, która znacząco dobiega od tego poziomu, jest miara artefaktu blokowego, choć nawet w tym przypadku jedynie kilka punktów znacząco odstaje od dopasowanej krzywej. 4. PODOBNE ROZWIĄZANIA Nowe podejście do oceny QoE dla celów zarządzania jakością, nazwane modelem warstwy strumienia bitowego (ang. bit-stream-layer model), umożliwiające estymowanie poziomu jakości usług IPTV, zostało przedstawione w pracy [11]. Zaproponowany model obiektywnej oceny jakości, analizując informacje ze strumienia bitowego, bierze pod uwagę efekty zależności oceny jakości od treści. Rozwiązanie to ocenia QoE indywidualnego użytkownika końcowego, zbierając informacje (związane z sekwencjami wizyjnymi) w różnych warstwach, w tym w warstwie mediów, strumienia elementarnego, strumienia transportowego lub strumienia MP4, protokołu RTP (ang. Real Time Protocol), protokołu UDP i protokołu IP. Niestety, rozwiązanie to wprowadza skomplikowany system pracujący w wielu warstwach i wykazujący braki w zakresie uniwersalności co do metryk, które mogą być użyte w procesie oceny. Dodatkowo, składowe metryki QoE użyte w systemie, należą do najprostszych i w konsekwencji wykazują niska korelację z ocenami subiektywnymi. Inne rozwiązanie, proponujące ocenę i kontrolę jakości obrazów nieruchomych i sekwencji wizyjnych, zostało przedstawione w pracy [12]. Rozwiązanie to zostało stworzone przy użyciu sieci neuronowej, wspiera pomiar szczytowego stosunku sygnału do szumu (ang. Peak Signal-to-Noise Ratio, PSNR) oraz indeksu podobieństwa strukturalnego (ang. Structure Similarity, SSIM). Sieć neuronowa została użyta do określenia obiektywnych indeksów oceny jakości oraz do subiektywnej oceny jakości. Rozwiązanie to nie pozwala na pomiar jakości w rzeczywistym czasie świadczenia usługi ani nie zapewnia też możliwości skorzystania ze scenariusza NR w procesie oceny jakości. Dodatkowo, metryka PSNR dostarcza jedynie ilościowych informacji na temat różnicy pomiędzy otrzymana ramką a sygnałem referencyjnym, natomiast inne istotne aspekty, takie jak charakterystyki HVS, nie są brane pod uwagę. Innym problemem wspomnianego rozwiązania jest brak możliwości dostarczenia dostawcom usług rozwiązania pozwalającego na wybór metryk, które powinny być użyte w zależności od specyficznych scenariuszy. Z przedstawionej analizy podobnych rozwiązań wynika, że dla oceny rzeczywistych usług odpowiednie są wyłącznie metryki NR. Wiele rozwiązań korzysta jednak dla celów oceny jakości z metryk FR, które nie są dostosowane do potrzeb oceny jakości aplikacji wizyjnych czasu rzeczywistego. W konsekwencji, koniecznym wydaje się zastosowanie elastycznego rozwiązania, które pozwoliłoby na konfigurację różnych metryk lub umożliwiałoby dopasowanie systemu oceny do różnych sytuacji transmisyjnych. 5. PODSUMOWANIE W artykule przedstawiono system oceny QoE, który umożliwia dokonywanie pomiaru artefaktów wystę- pujących w sekwencjach wizyjnych. Otrzymane rezultaty pokazują, że zaproponowane metryki charakteryzują się bardzo wysoką korelacją z ocenami subiektywnymi. Jedynie miara artefaktu blokowego osiąga trochę niższą, lecz wciąż satysfakcjonującą korelację (𝑅2 = 0,74). W najbliższej przyszłości prowadzone będą prace zmierzające do stworzenia metryk do pomiaru ekspozycji obrazu (prześwietlenie i niedoświetlenie są częstym problemem dla sekwencji wizyjnych nagrywanych przez amatorów). 6. PODZIĘKOWANIA Zaprezentowana praca była wspierana przez Komisję Europejską, w ramach projektu „Sieci Doskonałości CONTENT” (Numer Grantu FP6-0384239) oraz przez Ministerstwo Nauki i Szkolnictwa Wyższego w ramach projektu o Numerze Grantu PBZ-MNiSW-02/II/2007. SPIS LITERATURY [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] P. Romaniak, Towards Realization of a Framework for Integrated Video Quality of Experience Assessment, INFOCOM Student workshop 2009, Rio de Janeiro, Brazil, April 2009 P. Romaniak i in., A Framework for integrated video quality assessment, 18th ITC Specialist Seminar on Quality of Experience, 2008 H. Derbel i in., Autonomic network management architecture to support self-configuration and self-optimization in IP networks, Comput. Netw. 53(3), 2009, 418-430 J. Lee, K. Hoppel, Noise Modeling and Estimation of Remotely-sensed Images, In Proc. International Geoscience and Remote Sensing, Vancouver, Canada 2 (1989), 1005-1008 R. Dosselmann, X. D. Yang, A Prototype NoReference Video Quality System, Fourth Canadian Conference on Computer and Robot Vision, CRV '07 2007 (May 2007) 411-417 J. Pandel, Measuring of Flickering Artifacts in Predictive Coded Video Sequences”, Ninth International Workshop on Image Analysis for Multimedia Interactive Services, Klagenfurt, Austria, May 7-9, 2008 ITU-T: Subjective Video Quality Assessment Methods for Multimedia Applications, 1999 A. Agresti, Categorical Data Analysis, 2nd edn. Wiley 2002 Z. Papir i in., Pomiary i modelowanie postrzeganej jakości (QoE) usług komunikacji multimedialnej za pomocą uogólnionego modelu liniowego (GLZ), PTiWT, 2009 K. Fukumoto, Taking bounded variables seriously: Extended beta binomial, asymmetric logit, and time series. In: Research Workshop in Applied Statistics 2004 K. Watanabe i in., Proposal of new QoE assessment approach for quality management of IPTV services, In: ICIP, IEEE, 2008, 2060-2063 W. Ding, Y. Tong, Q. Zhang, D. Yang, Image and video quality assessment using neural network and SVM, Tsinghua Science and Technology Journal 3(1), February 2008