Benchmarking the Quality of Experience for Video Streaming and
Transkrypt
Benchmarking the Quality of Experience for Video Streaming and
Lucjan Janowski, Mikołaj Leszczuk, Zdzisław Papir, Piotr Romaniak Katedra Telekomunikacji Akademia Górniczo-Hutnicza w Krakowie Ocena postrzeganej jakości (Quality of Experience) usług strumieniowania wideo, w scenariuszu bez referencji (No-Reference), ze skalowaniem przepływności W artykule zaprezentowano wyniki badań wpływu skalowania przepływności wideo na jakość postrzeganą przez użytkownika końcowego QoE (ang. Quality of Experience), dla trzech niezależnych metod skalowania (domena kompresji, przestrzeni i czasu). Dla każdej z metod zaproponowano modele pozwalające określić jakość QoE. Dodatkowo, dla skalowania w domenie kompresji zaproponowano metryki do pomiaru artefaktów wideo. Przeprowadzono testy subiektywne na użytkownikach i przedstawiono analizę statystyczną trzymanych wyników. Pierwszą wartością dodaną prezentowanych badań jest uwzględnienie wszystkich możliwych metod skalowania przepływności wideo w jednych testach subiektywnych, co daje możliwość porównania otrzymanych wyników dla wszystkich metod. Do oceny jakości użyto innowacyjnej 11-stopniowej skali jakości. Kolejnym nowatorskim elementem jest miara jakości dla skalowania w dziedzinie kompresji – miara ta charakteryzuje się bardzo wysoką korelacją z ocenami subiektywnymi. Dokonano także szczegółowej oceny statystycznej otrzymanych wyników pod kątem korelacji z MOS (ang. Mean Opinion Score) i wiarygodności statystycznej. Otrzymane rezultaty potwierdzają poprawności kierunku prowadzonych badań. 1. Wprowadzenie Zdobywające coraz większą popularność usługi strumieniowania sekwencji wizyjnych borykają się wciąż z problemem ograniczonej przepustowości łączy dostępowych. O ile w przypadku połączeń przewodowych, z reguły dostępne są już przepustowości rzędu megabitów, o tyle dla łączy bezprzewodowych, wyższe szybkości bitowe nie są już tak powszechne. Problem ten dotyczy zwłaszcza użytkowników mobilnych, którzy nie mogą oczekiwać stabilnego łącza o wysokiej przepustowości. Wobec powyższego, rozwiązaniem umożliwiającym uruchamianie usług strumieniowania sekwencji wizyjnych dla takich łączy dostępowych jest transkodowanie „w locie” strumieni wizyjnych. Efektem transkodowania jest skalowanie przepływności (i zarazem jakości) pozwalające dostosować przesyłany strumień do aktualnych parametrów łącza dostępowego. Skalowanie jakości dla sekwencji wizyjnych odbywa się zazwyczaj w (często nierozłącznych) domenach kompresji, przestrzeni i czasu. Skalowanie w domenie kompresji sprowadza się zazwyczaj do operowania współczynnikiem kwantyzacji kodeka. Skalowanie w domenie przestrzeni oznacza zmniejszanie efektywnej rozdzielczości obrazu skutkujące zwiększaniem jego granularności (przy próbie przywrócenia oryginalnych rozmiarów wyświetlanych treści). Skalowanie w domenie czasu sprowadza się do odrzucania klatek, czyli zmniejszaniem liczby przesyłanych klatek na sekundę (ang. Frames Per Second, FPS). Wspomniane powyżej metody skalowania nieuchronnie prowadzą do obniżania jakości postrzeganej przez użytkownika końcowego usługi (ang. Quality of Experience, QoE). Dlatego też, proces skalowania powinien być monitorowany pod kątem poziomu QoE. Daje nam to możliwość nie tylko kontroli ale także maksymalizacji poziomu QoE, w czasie rzeczywistym, w zależności od panujących warunków transmisyjnych. W sytuacji niemożności osiągnięcia zadowalającego poziomu QoE, operator może intencjonalnie przerwać świadczenie usługi, co być może pozwoli zaoszczędzone w ten sposób zasoby sieciowe przeznaczyć dla innych użytkowników. Niestety, określanie poziomu QoE w żadnym wypadku nie może sprowadzać się do prostej maksymalizacji parametrów ilościowych zadawanych w każdej z trzech domen. Percepcja użytkownika, oparta na systemie wizyjnym człowieka (ang. Human Visual System, HVS) jest bowiem silnie nieliniowa i zależna od wielu zmiennych (na przykład treści wizyjnej). Wobec tego, podejmuje się próby tworzenia modeli służących automatycznemu określaniu poziomu QoE przy pomocy analizy treści wizyjnej odbieranej przez użytkownika. W ostatnich latach, szczególnego znaczenia nabrały tzw. modele NR (ang. No Reference), które do oceny jakości QoE nie potrzebują dostępu do sekwencji referencyjnych (przed skalowaniem). W praktyce są to jedyne modele aplikowalne w środowisku rzeczywistym (poza-laboratoryjnym). Szczególnie trudne są próby określania wpływu skalowania w domenie kompresji na jakość postrzeganą QoE. Sam współczynnik kompresji nie jest wystarczającym wskaźnikiem jakości postrzeganej. Konieczne jest określenie (w modelu NR) wpływu tej manipulacji na efekty wywołane w obrazie. Najważniejszymi efektami towarzyszącymi stratnej kompresji są artefakt blokowy i migotanie bloków. Do określenia jakości QoE niezbędne jest dokładne, ilościowe oszacowanie nasilenia tych efektów. Podane w pozycjach literatury [1,8,9] liczne modele zazwyczaj nie osiągają wystarczającej korelacji z rzeczywistymi ocenami użytkowników. Znacznie łatwiejsze jest modelowanie wpływu skalowania w domenie czasu, gdyż tutaj przynajmniej wartość współczynnika FPS jest jawnie dostępna. Próby modelowania wpływu skalowania w tej domenie na jakość postrzeganą podjęto m.in. w pracy [7]. Podobnie, relatywnie mniej skomplikowanym jest określenie wpływu spadku efektywnej rozdzielczości (czyli wzrostu granularności) obrazu ruchomego na efekty wizualne. Efekty te były badane w pracach [2,9] (choć dla drugiej z prac – w innych zastosowaniach). Metodologia prezentowanych w artykule badań, opiera się na testach subiektywnego odbioru jakości dla niezależnego wpływu trzech wspomnianych powyżej metod skalowania. Dodatkowo, przeprowadzone zostały badania nad stworzeniem metryk oceny każdego z parametrów jakości, a także przedstawione zostały wyniki analizy statystycznej otrzymanych wyników. Pierwszą wartością dodaną prezentowanych badań jest zapewnienie identycznego środowiska eksperymentu psychofizycznego dla wszystkich trzech domen skalowania jakości, wraz z innowacyjnym zastosowaniem 11-stopniowej skali jakości. Daję to możliwość porównania uzyskanych wyników dla wszystkich rozważanych metod skalowania, a także budowę w przyszłości zintegrowanego modelu, uwzględniającego jednoczesne kombinacje metod. Drugim nowatorskim elementem jest miara oceny spadku jakości spowodowanej dużą wartości QP – miara ta charakteryzuje się bardzo wysoką korelacją z ocenami subiektywnymi. Kolejną wartością dodaną jest szczegółowa analiza statystyczna otrzymanych wyników pod kątem korelacji z MOS (ang. Mean Opinion Score) i wiarygodności statystycznej. Jest to element często pomijany w pracach poświęconych modelowaniu QoE. Co więcej, różne sekwencje wizyjne użyte w testach subiektywnych były rozważane jako dodatkowa zmienna niezależna, pozwoliło to w niektórych przypadkach na statystyczną analizę wpływu danej sekwencji na dokładność otrzymanej miary. Konstrukcja dalszych sekcji artykułu jest następująca. Sekcja 2 przedstawia środowisko eksperymentu psychofizycznego. Sekcja trzecia traktuje o pomiarze artefaktów (artefaktu blokowego i migotania bloków). Sekcja czwarta prezentuje analizę wyników w zakresie skalowania w domenie kompresji, przestrzeni i czasu. Wnioski i plany dalszych badań zostały zawarte w Sekcji piątej, zaś Sekcja szósta zawiera podziękowania. 2. Środowisko eksperymentu psychofizycznego W celu prawidłowego zamodelowania parametrów jakości obrazu na oceny testerów, stworzono stosowne środowisko do przeprowadzenia eksperymentu psychofizycznego. Eksperyment wykonano w Akademii Górniczo-Hutniczej w Krakowie. Wzięło w nim udział około 100 studentów. Zapewniono jednakowe warunki (monitory LCD i oświetlenie) dla wszystkich stanowisk testowych (patrz Rys. 1.). Rys. 1. Środowisko eksperymentu psychofizycznego. W eksperymencie użyte zostały cztery Sekwencje Testowe VQEG (Video Quality Experts Group) [11,12]: „Betes” (#16, Rys. 2(a)), „Autumn” (#18, Rys. 2(b)), „Football” (#19, Rys. 2(c)) i „Susie” (#21, Rys. 2(d)). Sekwencje te odzwierciedlają dwie różne charakterystyki treści (ruch i ilość detali obrazu). (a) „Betes” (b) „Autumn” (c) „Football” (d) „Susie” Rys. 2. Cztery Sekwencje Testowe VQEG. Sekwencje wideo zostały zakodowane przy użyciu kodeka H.264 (implementacja X264) mainprofile (Level 40). Zgodnie z zaleceniami VQEG, tak dobrano QP aby otrzymać średnie przepływności strumieni rzędu 5000 kbit/s (współczynnik kompresji, ang. Compression Ratio, CR, równy 50,38848), 1000 kbit/s (CR=251,9424), 500 kbit/s (CR=503,8848), 300 kbit/s (CR=839,808), 200 kbit/s (CR=1259,712) oraz 100 kbit/s (CR=2519,424). Początkowy współczynnik liczby klatek na sekundę wynosił 30. Dodatkowo zbadano FPS o wartościach 15, 10, 7.5, 6 i 5. Efektywną rozdzielczością początkową była rozdzielczość SD/D-1 NTSC (720×486). Dodatkowo zbadano rozdzielczości 525 HHR (352×480), SIF (352×240), QCIF (176×144) oraz SQCIF (128×96). Do określania ocen jakości obrazu użyto metodologii ITU-T ACR (ang. Absolute Category Rating). Metodologia testów subiektywnych pochodzi z raportu Multimedia (MM) [10], przygotowanego przez VQEG. Sama metodologia ACR została opisana w Zaleceniu ITU-T P.910 [4]. Metodologia reprezentuje podejście typu Single-Stimulus (SS), co oznacza, że wszystkie sekwencje wizyjne zawarte w zbiorze testowym prezentowane są jedna po drugiej bez możliwości porównania z referencją. Sekwencje referencyjne są zawarte w zbiorze testowym i poddawane ocenie na takich samych zasadach jak pozostałe. Takie podejście jest nazywane ACR-HR (ang. ACR with Hidden Reference). Zgodnie z nowymi wytycznymi VQEG dotyczącymi metodologii ACR, użyta została jedenastostopniowa, numeryczna skala jakości [4]. Jest to podejście innowacyjne, gdyż dotychczas w testach stosowano zazwyczaj pięciostopniową skalę MOS [1]. 3. Pomiar artefaktów wideo spowodowanych skalowaniem w dziedzinie kompresji Jak zaznaczono we wprowadzeniu, skalowanie w domenie kompresji jest jedyną metodą wymagającą stworzenia metryk do pomiaru artefaktów obrazu. Sam współczynnik kompresji nie jest wystarczający do określenia poziomu utraty jakości postrzeganej QoE. Rozdział ten zawiera opis metryk służących do oceny typowych artefaktów wideo spowodowanych stratną kompresją przy użyciu kodeka H.264 implementacji X264. Pomiar dokonywany jest w scenariuszu bez referencji. Pierwsza metryka służy do oceny artefaktu blokowego (spowodowanego stratną kompresją wewnątrz-klatkową), natomiast druga do oceny migotania bloków obrazu (spowodowanego kompresją między-klatkową). 3.1. Artefakt blokowy Konstrukcja metryki do pomiaru artefaktu blokowego została oparta na założeniu, że każdy pojedynczy artefakt blokowy posiada przynajmniej jeden widoczny róg, wyrównany do granic bloków kodowych [8]. W zaproponowanym przez autorów podejściu miara obliczana jest lokalnie, dla każdego bloku kodowego obrazu. Absolutna różnica w jasności pikseli liczona jest oddzielnie dla 1) par pikseli znajdujących się w obszarze jednego bloku, oraz 2) par pikseli z sąsiadujących bloków. Stosunek tych wielkości stanowi miarę artefaktu blokowego. 3.2. Efekt migotania bloków Pomiar migotania bloków obrazu (ang. flickering) zainspirowany został pracą przedstawioną przez Pandela w [5]. Zgodnie z pracą, migotanie jest najważniejszym typem zniekształcenia występującego dla sekwencji wideo z kodowaniem między-ramkowych. Zjawisko to jest widoczne dla sekwencji wizyjnych zakodowanych z użyciem np. kodeków H.264 (w badaniach użyto implementacji X264). Szczególnie podatnymi na ten efekt są sekwencje wideo zawierające powolną zmianę perspektywy (przemieszczająca się kamera, przybliżenie, oddalenie lub obrót). W schematach kodowania między-ramkowego wartości poszczególnych bloków nie są aktualizowane (kodowane) dopóki różnica pomiędzy odpowiadającym blokiem z kolejnych ramek nie przekracza dopuszczalnej wartości. Im większa kompresja tym większa jest ta wartość. Sugeruje to, że bloki obrazu mogą pozostawać w jednym z dwóch stanów: 1) brak aktualizacji lub 2) aktualizacja. Częste przejścia pomiędzy tymi stanami oznaczać będą mocny efekt migotania. Dwustanowy model z histerezą do pomiaru migotania zaprezentował Pandel w [5]. Miara obliczana jest lokalnie dla każdego bloku obrazu, jako liczba przejść pomiędzy stanami normalizowana względem czasu (większa ilość przejść oznacza większy poziom migotania). Naszą wartość dodaną do pracy Pandela stanowią trzy elementy, opisane w [8]. Po pierwsze, definicja progu przełączania pomiędzy stanami. W [5] zastosowano inny sposób obliczania tego poziomu a jego wartość nie została podana. W naszych badania obliczamy ten próg dynamicznie, jako sumę różnic w jasności pikseli dla każdego z bloków obrazu, każdy rozmiaru 8×8 pikseli. W celu wyboru odpowiedniej wartości progu przeanalizowano zakres od 0,3 do 1,4 (gdzie 1 oznacza maksymalny poziom jasności). Kolejnym dodanym elementem jest zaproponowanie metody uśredniania wartości miary dla całej ramki wideo (ang. spatial pooling), zakładającej uśrednianie bloków posiadających największą wartość miary. Pozwala to uwzględnić fakt, że człowiek oglądający sekwencję wizyjną wyrabia sobie opinię o jakości na podstawie kilku najgorszych punktów obrazu, bez uśredniania całości. Przebadanym zakresem ilości bloków używanych do obliczania miary dla całej ramki był przedział od 0,5% do 10% całkowitej liczby. Ostatnim i najważniejszym elementem dodanym jest fakt takiego wyboru opisanych powyżej parametrów (próg przełączania oraz procent bloków) aby uzyskać maksymalną korelację powstałej miary z odczuciami użytkowników, obliczoną na podstawie porównania z wynikami testów subiektywnych. 4. Analiza wyników testów subiektywnych i wpływu skalowania przepływności na jakość postrzeganą QoE Otrzymane odpowiedzi testerów są dyskretnymi liczbami od 0 do 10, gdzie odpowiedzi 0 i 10 nie powinny być wybierane (zgodnie z ich opisem jakość sekwencji dla odpowiedzi 0 jest skrajnie niska natomiast dla odpowiedzi 10 jest praktycznie perfekcyjna). Taka konstrukcja skali odpowiedzi pozwala estymować miarę jakości postrzeganej przez użytkownika QoE w funkcji metryk za pomocą klasycznej teorii regresji liniowej. W [6] można znaleźć opis modelowania miary QoE w przypadku mniejszej liczby odpowiedzi udzielanych przez testerów. Pozostaje otwartym problem wyboru funkcji, jaką będziemy estymować. W wielu publikacjach oraz samych standardach używane są funkcje liniowe, jednak w tej pracy użyto funkcji logit opisanej w [3]. Głównym powodem jest fakt, że funkcja logit rzutuje zbiór liczb rzeczywistych na przedział (0,1), co pozwala modelować za pomocą metryk posiadających dowolne wartości odpowiedzi testerów, które są ograniczone do pewnego przedziału (w tych badaniach jest to przedział (0, 11)). Funkcja logit dana jest wzorem: 1 f x . (1) 1 exp( x) Ponieważ w rozważanym przypadku odpowiedzi ograniczone są do przedziału (0, 10) oraz metryka jakości może mieć różną skalę ostateczna estymowana funkcja ma postać: 10 MOSx , (2) 1 exp( ax b) gdzie a i b to estymowane parametry a x to metryka użyta do estymacji miary MOS. W dalszej części dokumentu będziemy odwoływać się do otrzymanych wartości a i b, parametryzujących otrzymaną miarę jakości postrzeganej przez użytkownika. Oddzielnie zostały rozważone trzy skalowania: w domenie kompresji, przestrzeni oraz czasu. 4.1. Skalowanie w domenie kompresji Wykres korelacji dla metryk do pomiaru artefaktu blokowego i migotania bloków przedstawiony jest na Rys. 3. Dla migotania bloków najlepsze wyniki korelacji z MOS uzyskano dla następujących parametrów: wartości progu 0,9 i 2% bloków użytych do obliczenia miary dla całej ramki. 9 MOS/Model 7 2 Logit, R = 0.69 MOS/Model 8 9 Odpowiedzi 6 5 4 3 8 Odpowiedzi 7 Logit, R2 = 0.87 6 5 4 3 2 2 1 1 0 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 0 1.05 0 Metryka artefaktu blokowego 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Metryka migotania blokow (a) Miara artefaktu blokowego (b) Miara migotania bloków Rys. 3. Wykresy korelacji dla metryk do pomiaru artefaktu blokowego i migotania bloków. Przedziały ufności wartości MOS zostały pominięte dla zwiększenia czytelności wykresu. Wszystkie otrzymane szerokości przedziału ufności są mniejsze od 0,81. Pierwszym spostrzeżeniem nasuwającym się podczas analizy wykresu dla miary artefaktu blokowego jest zbyt duży rozrzut odpowiedzi otrzymany dla tej samej wartości miary. W celu głębszej analizy przydane są wykresy przedstawione na Rys. 4, pokazujące jak punkty układają się dla poszczególnych sekwencji. 9 MOS/Model 7 6 7 5 4 3 6 5 4 3 2 2 1 1 0 0.65 0.7 Betes Autumn Football Susie 8 MOS/Model 8 9 Betes Autumn Football Susie 0.75 0.8 0.85 0.9 0.95 1 Metryka artefaktu blokowego 1.05 0 0 1000 2000 3000 4000 5000 6000 7000 8000 Metryka artefaktu blokowego (a) Miary artefaktu blokowego otrzymane dla (b) Miara migotania bloków otrzymana z pomisekwencji „Football” i „Susie” nięciem sekwencji „Autumn” Rys. 4. Porównanie dopasowania miar dla wybranych sekwencji w przypadku metryki artefaktu blokowego oraz z pominięciem sekwencji „Autumn” w przypadku metryki migotania bloków. Sekwencja „Football”, dla metryki artefaktu blokowego, została oceniona znacznie lepiej przez testerów niż przez obiektywną metrykę (zobacz Rys. 4(a)). Odpowiedź na taką rozbieżność ocen znaleźć można w analizie charakterystyk sekwencji wideo (ilość ruchu i detali obrazu) zestawionej z własnością ludzkiego systemu postrzegania zwaną maskowaniem [13]. Teoria maskowania mówi, że percepcja wybranego celu na obrazie jest zawsze funkcją otaczającego tła. Co więcej, próg dostrzegalności obranego celu zależy od kontrastu i charakterystyk tła [13]. W naszym przypadku bardzo duża ilość ruchu i duża ilość detali obrazu nie pozwalają dostrzec zniekształceń blokowych (a raczej ograniczają ich wpływ na wizualne pogorszenie jakości). Innymi słowy, artefakt blokowy będzie bardziej widoczny dla jednorodnych i wolnozmiennych sekwencji wideo. Najprostszym rozwiązaniem przedstawionego problemu jest obniżanie wartości (ważenie) miary artefaktu blokowego w przypadku sekwencji o charakterystykach przypominających „Football”. Ograniczona liczba sekwencji wizyjnych użytych w testach uniemożliwia zbudowanie odpowiedniego modelu. Konieczne jest przeprowadzenie testów na znacznie bogatszym materiale testowym. Kolejną sekwencją, która odstaje od średniej jest „Autumn”. Tym razem sekwencja ta została oceniona znacznie gorzej przez testerów niż przez obiektywną metrykę migotania bloków (krzyżyki na wykresie Rys. 4(b)). Inspekcja wizualna rozpatrywanej sekwencji ujawniła, że silna kompresja H.264 w rzeczywistości nie spowodowała silnego artefaktu blokowego. Innym, dominującym w tym przypadku zniekształceniem jest migotanie bloków. Tak jak opisano we wcześniejszych rozdziałach, najbardziej narażone na migotanie bloków są sekwencje zawierające powolną zmianę perspektywy zakodowane z użyciem H.264. Jest to dokładnie przypadek sekwencji „Autumn”. Zgodnie z oczekiwaniami, odwrotny efekt wystąpił przy porównaniu ocen subiektywnych i wyników obiektywnej metryki do pomiaru migotania bloków. Tym razem sekwencja „Autumn” została oceniona znacznie lepiej przez testerów niż przez metrykę (tak jak pokazano na Rys. 4(b)). Zaprezentowana analiza wyników sugeruje, że wpływ kompresji H.264 na jakość postrzeganą dla zróżnicowanego materiału wideo, nie może być poprawnie oceniony z użyciem tylko jednej metryki. Kombinacja dwóch zaprezentowanych metryk daje znacznie lepsze wyniki (w rozumieniu korelacji z MOS). Otrzymany współczynnik korelacji R^2 dla wykresu na Rys. 5 wynosi 0,90, czyli jest lepszy od tych otrzymanych oddzielnie dla każdej z metryk. 9 MOS kombinacji metryk 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 MOS Rys. 5. Wykres wartości otrzymanych z miary w funkcji wartości obserwowanych w rzeczywistości dla kombinacji metryk artefaktu blokowego i migotania bloków. Wykres na Rys 5. przekonuje, że metryki do oceny artefaktu blokowego i pomiaru migotania bloków uzupełniają się wzajemnie w zadaniu percepcyjnej oceny jakości kompresji H.264, co jest zgodne z naszą intuicją. Wykres Rys 5. jest inny od wykresów prezentowanych dla miar pojedynczych, ponieważ dla zintegrowanej metryki musielibyśmy przedstawić wykres 3D, który jest nieczytelny. Ostatecznie przedstawiamy wykres pokazujący zależność pomiędzy wartością obserwowaną (oceny testerów) a estymowaną (wynik działania miary) za pomocą kombinacji metryk. Współczynniki modelu otrzymane dla wspólnej miary podane są w Tab. 1. Wzór opisujący wspólną miarę jest prostym uogólnieniem wzoru (2) do postaci: 10 MOS( xm , xa ) , (3) 1 exp( am xm aa xa b) gdzie am jest współczynnik dla metryki migotania bloków, aa jest współczynnik dla metryki artefaktu blokowego. Tab. 1. Współczynniki miary jakości kompresji wraz z przedziałami ufności. Współczynniki Wartość Minimum Maksimum 1,88 0,033 3,72 b 4,05 2,93 5,18 am aa -3,52 -5,32 -1,72 Otrzymane współczynniki posiadają szerokie przedziały ufności. Spowodowane jest to relatywnie niedużą liczbą punktów, z których estymowany jest model. Ponieważ współczynnik dopasowania R^2 jest wysoki to uważamy, że otrzymana miara jest dokładna. W dalszych badaniach będziemy chcieli potwierdzić to dla innych sekwencji. 4.2. Skalowanie w domenie przestrzeni Kolejnym sposobem na zmniejszenie ilości przesyłanych danych jest zmniejszenie rozdzielczości obrazu. W takim przypadku jakość spada ze względu na mniejszą dostrzegalną liczbę szczegółów. Wydaje się, że taką metrykę bardzo łatwo stworzyć, ponieważ strumień wideo wysyła informację na temat rozdzielczości przesyłanego obrazu. Na Rys. 6 przedstawiono miarę MOS w funkcji pierwiastka liczby punktów obrazu wideo. 9 8 MOS/Model 7 6 5 4 Odpowiedzi 3 2 100 Logit, R2 = 0.86 150 200 250 300 350 400 450 500 550 600 Pierwiastek liczby punktow Rys. 6. Rozrzut odpowiedzi dla skalowania w dziedzinie przestrzeni. Przedziały ufności wartości MOS zostały pominięte dla zwiększenia czytelności wykresu. Wszystkie otrzymane szerokości przedziału ufności są mniejsze od 0,88. Na podstawie Rys. 6 można stwierdzić, że sama informacja na temat liczby wyświetlanych punktów nie jest wystarczająca. Niemniej jednak w tym przypadku nie udało się znaleźć dodatkowej miary w sposób ewidentny poprawiającej otrzymany współczynnik R^2. Planowane testy subiektywne z wykorzystaniem znacznie bogatszego zbioru sekwencji testowych pozwolą rozwiązać ten problem. Otrzymany model opisany jest parametrami przedstawionymi w Tab. 2. Tab. 2. Współczynniki miary jakości skalowania przestrzeni wraz z przedziałami ufności. Współczynniki Wartość Minimum Maksimum 1,05 0,74 1,37 b a -2,66 -3,28 -2,04 Współczynniki przedstawione w Tab. 2. otrzymano po znormalizowaniu pierwiastka liczby punktów. Normalizacja polegała na podzieleniu pierwiastka liczby punktów przez 600. Celem tej normalizacji było otrzymanie stabilniejszych wyników. Nie ma to wpływu na stosowalność otrzymanego modelu. 4.3. Skalowanie w domenie czasu Skalowanie w domenie czasu związane jest ze sterowaniem przesyłania liczby klatek wyświetlanych na sekundę. Oczywiście sekwencje wizyjne posiadające mniejszą liczbę klatek na sekundę są mniej płynne co w powinno wpłynąć na ich jakość. Można zauważyć, że w tym przypadku sama miara jest perfekcyjna ponieważ posiadamy informację na temat liczby klatek na sekundę. Okazuje się jednak, że znów taka informacja jest niewystarczająca (patrz Rys. 7). 9 8 8 7 7 MOS/Model MOS/Model 9 6 5 4 Odpowiedzi 2 5 10 15 20 25 Liczba klatek na sekunde 5 Filmy a i d Filmy b i c 4 2 Logit, R2 = 0.83 3 6 Logit, R = 0.95 3 30 2 5 2 Logit, R = 0.95 10 15 20 25 30 Liczba klatek na sekunde (a) Miara wpływu zmiany liczby klatek na se(b) Miary wpływu zmiany liczby klatek na sekundę dla wszystkich sekwencji kundę dla grup sekwencji Rys. 7. Rozrzut odpowiedzi dla skalowania w dziedzinie czasu. Przedziały ufności wartości MOS zostały pominięte dla zwiększenia czytelności wykresu. Wszystkie otrzymane szerokości przedziału ufności są mniejsze od 0,93. Analiza statystyczna pozwoliła wykazać, że wyniki otrzymane dla dwóch sekwencji wizyjnych: „Betes” i „Susie”, statystycznie się nie różnią od siebie. Podobnie wyniki otrzymane dla sekwencji „Autumn” i „Football”, są statystycznie takie same. Pozwoliło to na stworzenie dwóch oddzielnych modeli o znacznie lepszym współczynniku dopasowania niż te otrzymane dla modelu uwzględniającego wszystkie sekwencje. Powodem powstania takiej różnicy jest duża ilość detali obraz i ruchu odpowiednie dla sekwencji „Autumn” i „Football”. Sugeruje to odpowiednie warzenie wartości miary opartej na ilość klatek na sekundę w przypadku nasilenia jednej lub obydwu cech jednocześnie. Ponieważ zbudowanie modelu umożliwiającego uwzględnienie pewnych specyficznych cech sekwencji nie było możliwe, ostateczne wyniki przedstawione w Tab. 3 są wynikami modelu przedstawionego na Rys. 7(a). Podobnie jak w przypadku skalowania w domenie przestrzeni, odpowiedni model zostanie stworzony na podstawie wyników planowanych testów subiektywnych. Tab. 3. Współczynniki miary jakości skalowania w dziedzinie czasu, wraz z przedziałami ufności. Współczynniki Wartość Minimum Maksimum 1,01 0,77 1,26 b a -0,082 -0,102 -0,062 5. Wnioski i plany dalszych badań W artykule zaprezentowano wyniki badań nad modelowaniem subiektywnego odbioru jakości dla niezależnego wpływu trzech metod skalowania (domena kompresji, przestrzeni i czasu). Analiza statystyczna otrzymanych wyników pokazuje, że możliwe było uzyskanie stosunkowo wysokich (jak na miarę NR) współczynników korelacji rzędu (odpowiednio): 0.90, 0.86 i 0.83. Otrzymane rezultaty wydają się potwierdzać poprawności kierunku prowadzonych badań. Zaprezentowane wyniki pokazują jednakże, że bardzo istotny wpływ na korelację miar jakości, ma treść sekwencji wizyjnych. Wobec powyższego, w najbliższym czasie planuje się przeprowadzić serię eksperymentów psychofizycznych, gdzie nacisk zostanie położony na różnorodność (w sensie ruchu i ilości detali obrazu) prezentowanych sekwencji wizyjnych. Pozwoli to na modyfikację zaprezentowanych miar, mająca na celu poprawę ich korelacji z odpowiedziami subiektywnymi, dla każdego rodzaju prezentowanych treści. 6. Podziękowania Zaprezentowana praca była wspierana przez Komisję Europejską, w ramach projektu „Sieci Doskonałości CONTENT” (Numer Grantu FP6-0384239) oraz przez Ministerstwo Nauki i Szkolnictwa Wyższego w ramach projektu o Numerze Grantu PBZ-MNiSW-02/II/2007. Literatura 1. A. Leontaris, A. R. Reibman, Comparison of blocking and blurring metrics for video compression, IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005, Proceedings (ICASSP ‘05), Vol. 2, pp. 585-588, 2005. 2. H. Knoche, J. D. McCarthy, M. A. Sasse, Can small be beautiful?: assessing image resolution requirements for mobile TV, Proceedings of the 13th annual ACM international conference on Multimedia, Singapur 2005. 3. International Telecommunication Union, Recommendation BT.500-11, Methodology for the subjective assessment of the quality of television pictures, Geneva 2002. 4. International Telecommunication Union, Recommendation ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Geneva 1999. 5. J. Pandel, Measuring of Flickering Artifacts in Predictive Coded Video Sequences”, Ninth Inter-national Workshop on Image Analysis for Multi-media Interactive Services, Klagenfurt, Austria, May 7-9, 2008. 6. L. Janowski, Z. Papir, Modeling Subjective Tests of Quality of Experience with a Generalized Linear Model, First International Workshop on Quality of Multimedia Experience QoMEX 2009, San Diego 2009. 7. M. Ries, O. Nemethova, M. Rupp, Performance Evaluation of Mobile Video Quality Estimators, European Signal Processing Conference (EUSIPCO 2007), Poznań 2007. 8. P. Romaniak, L. Janowski, M. Leszczuk, Z. Papir, Ocena jakości sekwencji wizyjnych dla aplikacji strumieniowania na żywo w środowisku mobilnym, Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT 2009, Warszawa 2009. 9. S. Tourancheau, P. Le Callet, D. Barba, Impact of the Resolution on the Difference of Perceptual Video Quality Between CRT and LCD, IEEE International Conference on Image Processing, 2007, ICIP 2007, Vol. 3, pp. 441- 444, 2007. 10. VQEG, Draft Final Report from the Video Quality Experts Group on the Validation of Objective Models of Multimedia Quality Assessment, Phase I, 2008. 11. VQEG, Index VQEG Test Sequences, dostępne pod adresem http://media.xiph.org/vqeg/TestSeqences/ThumbNails/, 2008. 12. VQEG, Video Quality Experts Group, dostępne pod adresem http://www.its.bldrdoc.gov/vqeg/, 2009. 13. S. Winkler, Digital Video Quality - Vision Models and Metrics, John Wiley & Sons, Ltd, 2005.