Benchmarking the Quality of Experience for Video Streaming and

Transkrypt

Benchmarking the Quality of Experience for Video Streaming and
Lucjan Janowski, Mikołaj Leszczuk, Zdzisław Papir, Piotr Romaniak
Katedra Telekomunikacji
Akademia Górniczo-Hutnicza w Krakowie
Ocena postrzeganej jakości (Quality of Experience) usług strumieniowania wideo, w scenariuszu bez referencji (No-Reference), ze
skalowaniem przepływności
W artykule zaprezentowano wyniki badań wpływu skalowania przepływności wideo na jakość postrzeganą przez użytkownika końcowego QoE (ang. Quality of Experience), dla trzech niezależnych metod skalowania (domena kompresji,
przestrzeni i czasu). Dla każdej z metod zaproponowano modele pozwalające określić jakość QoE. Dodatkowo, dla
skalowania w domenie kompresji zaproponowano metryki do pomiaru artefaktów wideo. Przeprowadzono testy subiektywne na użytkownikach i przedstawiono analizę statystyczną trzymanych wyników. Pierwszą wartością dodaną prezentowanych badań jest uwzględnienie wszystkich możliwych metod skalowania przepływności wideo w jednych testach subiektywnych, co daje możliwość porównania otrzymanych wyników dla wszystkich metod. Do oceny jakości
użyto innowacyjnej 11-stopniowej skali jakości. Kolejnym nowatorskim elementem jest miara jakości dla skalowania w
dziedzinie kompresji – miara ta charakteryzuje się bardzo wysoką korelacją z ocenami subiektywnymi. Dokonano także
szczegółowej oceny statystycznej otrzymanych wyników pod kątem korelacji z MOS (ang. Mean Opinion Score) i
wiarygodności statystycznej. Otrzymane rezultaty potwierdzają poprawności kierunku prowadzonych badań.
1. Wprowadzenie
Zdobywające coraz większą popularność usługi strumieniowania sekwencji wizyjnych borykają się wciąż z problemem ograniczonej przepustowości łączy dostępowych. O ile w przypadku połączeń przewodowych, z reguły dostępne są już przepustowości rzędu megabitów, o tyle dla łączy
bezprzewodowych, wyższe szybkości bitowe nie są już tak powszechne. Problem ten dotyczy
zwłaszcza użytkowników mobilnych, którzy nie mogą oczekiwać stabilnego łącza o wysokiej przepustowości.
Wobec powyższego, rozwiązaniem umożliwiającym uruchamianie usług strumieniowania sekwencji wizyjnych dla takich łączy dostępowych jest transkodowanie „w locie” strumieni wizyjnych. Efektem transkodowania jest skalowanie przepływności (i zarazem jakości) pozwalające dostosować przesyłany strumień do aktualnych parametrów łącza dostępowego. Skalowanie jakości
dla sekwencji wizyjnych odbywa się zazwyczaj w (często nierozłącznych) domenach kompresji,
przestrzeni i czasu. Skalowanie w domenie kompresji sprowadza się zazwyczaj do operowania
współczynnikiem kwantyzacji kodeka. Skalowanie w domenie przestrzeni oznacza zmniejszanie
efektywnej rozdzielczości obrazu skutkujące zwiększaniem jego granularności (przy próbie przywrócenia oryginalnych rozmiarów wyświetlanych treści). Skalowanie w domenie czasu sprowadza
się do odrzucania klatek, czyli zmniejszaniem liczby przesyłanych klatek na sekundę (ang. Frames
Per Second, FPS).
Wspomniane powyżej metody skalowania nieuchronnie prowadzą do obniżania jakości postrzeganej przez użytkownika końcowego usługi (ang. Quality of Experience, QoE). Dlatego też,
proces skalowania powinien być monitorowany pod kątem poziomu QoE. Daje nam to możliwość
nie tylko kontroli ale także maksymalizacji poziomu QoE, w czasie rzeczywistym, w zależności od
panujących warunków transmisyjnych. W sytuacji niemożności osiągnięcia zadowalającego poziomu QoE, operator może intencjonalnie przerwać świadczenie usługi, co być może pozwoli zaoszczędzone w ten sposób zasoby sieciowe przeznaczyć dla innych użytkowników.
Niestety, określanie poziomu QoE w żadnym wypadku nie może sprowadzać się do prostej
maksymalizacji parametrów ilościowych zadawanych w każdej z trzech domen. Percepcja użytkownika, oparta na systemie wizyjnym człowieka (ang. Human Visual System, HVS) jest bowiem
silnie nieliniowa i zależna od wielu zmiennych (na przykład treści wizyjnej). Wobec tego, podejmuje się próby tworzenia modeli służących automatycznemu określaniu poziomu QoE przy pomocy
analizy treści wizyjnej odbieranej przez użytkownika. W ostatnich latach, szczególnego znaczenia
nabrały tzw. modele NR (ang. No Reference), które do oceny jakości QoE nie potrzebują dostępu
do sekwencji referencyjnych (przed skalowaniem). W praktyce są to jedyne modele aplikowalne w
środowisku rzeczywistym (poza-laboratoryjnym).
Szczególnie trudne są próby określania wpływu skalowania w domenie kompresji na jakość
postrzeganą QoE. Sam współczynnik kompresji nie jest wystarczającym wskaźnikiem jakości postrzeganej. Konieczne jest określenie (w modelu NR) wpływu tej manipulacji na efekty wywołane
w obrazie. Najważniejszymi efektami towarzyszącymi stratnej kompresji są artefakt blokowy i migotanie bloków. Do określenia jakości QoE niezbędne jest dokładne, ilościowe oszacowanie nasilenia tych efektów. Podane w pozycjach literatury [1,8,9] liczne modele zazwyczaj nie osiągają wystarczającej korelacji z rzeczywistymi ocenami użytkowników.
Znacznie łatwiejsze jest modelowanie wpływu skalowania w domenie czasu, gdyż tutaj przynajmniej wartość współczynnika FPS jest jawnie dostępna. Próby modelowania wpływu skalowania
w tej domenie na jakość postrzeganą podjęto m.in. w pracy [7]. Podobnie, relatywnie mniej skomplikowanym jest określenie wpływu spadku efektywnej rozdzielczości (czyli wzrostu granularności) obrazu ruchomego na efekty wizualne. Efekty te były badane w pracach [2,9] (choć dla drugiej
z prac – w innych zastosowaniach).
Metodologia prezentowanych w artykule badań, opiera się na testach subiektywnego odbioru
jakości dla niezależnego wpływu trzech wspomnianych powyżej metod skalowania. Dodatkowo,
przeprowadzone zostały badania nad stworzeniem metryk oceny każdego z parametrów jakości, a
także przedstawione zostały wyniki analizy statystycznej otrzymanych wyników.
Pierwszą wartością dodaną prezentowanych badań jest zapewnienie identycznego środowiska
eksperymentu psychofizycznego dla wszystkich trzech domen skalowania jakości, wraz z innowacyjnym zastosowaniem 11-stopniowej skali jakości. Daję to możliwość porównania uzyskanych
wyników dla wszystkich rozważanych metod skalowania, a także budowę w przyszłości zintegrowanego modelu, uwzględniającego jednoczesne kombinacje metod. Drugim nowatorskim elementem jest miara oceny spadku jakości spowodowanej dużą wartości QP – miara ta charakteryzuje się
bardzo wysoką korelacją z ocenami subiektywnymi. Kolejną wartością dodaną jest szczegółowa
analiza statystyczna otrzymanych wyników pod kątem korelacji z MOS (ang. Mean Opinion Score)
i wiarygodności statystycznej. Jest to element często pomijany w pracach poświęconych modelowaniu QoE. Co więcej, różne sekwencje wizyjne użyte w testach subiektywnych były rozważane
jako dodatkowa zmienna niezależna, pozwoliło to w niektórych przypadkach na statystyczną analizę wpływu danej sekwencji na dokładność otrzymanej miary.
Konstrukcja dalszych sekcji artykułu jest następująca. Sekcja 2 przedstawia środowisko eksperymentu psychofizycznego. Sekcja trzecia traktuje o pomiarze artefaktów (artefaktu blokowego i
migotania bloków). Sekcja czwarta prezentuje analizę wyników w zakresie skalowania w domenie
kompresji, przestrzeni i czasu. Wnioski i plany dalszych badań zostały zawarte w Sekcji piątej, zaś
Sekcja szósta zawiera podziękowania.
2. Środowisko eksperymentu psychofizycznego
W celu prawidłowego zamodelowania parametrów jakości obrazu na oceny testerów, stworzono stosowne środowisko do przeprowadzenia eksperymentu psychofizycznego. Eksperyment wykonano w Akademii Górniczo-Hutniczej w Krakowie. Wzięło w nim udział około 100 studentów.
Zapewniono jednakowe warunki (monitory LCD i oświetlenie) dla wszystkich stanowisk testowych
(patrz Rys. 1.).
Rys. 1. Środowisko eksperymentu psychofizycznego.
W eksperymencie użyte zostały cztery Sekwencje Testowe VQEG (Video Quality Experts
Group) [11,12]: „Betes” (#16, Rys. 2(a)), „Autumn” (#18, Rys. 2(b)), „Football” (#19, Rys. 2(c)) i
„Susie” (#21, Rys. 2(d)). Sekwencje te odzwierciedlają dwie różne charakterystyki treści (ruch i
ilość detali obrazu).
(a) „Betes”
(b) „Autumn”
(c) „Football”
(d) „Susie”
Rys. 2. Cztery Sekwencje Testowe VQEG.
Sekwencje wideo zostały zakodowane przy użyciu kodeka H.264 (implementacja X264) mainprofile (Level 40). Zgodnie z zaleceniami VQEG, tak dobrano QP aby otrzymać średnie przepływności strumieni rzędu 5000 kbit/s (współczynnik kompresji, ang. Compression Ratio, CR, równy
50,38848), 1000 kbit/s (CR=251,9424), 500 kbit/s (CR=503,8848), 300 kbit/s (CR=839,808), 200
kbit/s (CR=1259,712) oraz 100 kbit/s (CR=2519,424).
Początkowy współczynnik liczby klatek na sekundę wynosił 30. Dodatkowo zbadano FPS o
wartościach 15, 10, 7.5, 6 i 5.
Efektywną rozdzielczością początkową była rozdzielczość SD/D-1 NTSC (720×486). Dodatkowo zbadano rozdzielczości 525 HHR (352×480), SIF (352×240), QCIF (176×144) oraz SQCIF
(128×96).
Do określania ocen jakości obrazu użyto metodologii ITU-T ACR (ang. Absolute Category Rating). Metodologia testów subiektywnych pochodzi z raportu Multimedia (MM) [10], przygotowanego przez VQEG. Sama metodologia ACR została opisana w Zaleceniu ITU-T P.910 [4]. Metodologia reprezentuje podejście typu Single-Stimulus (SS), co oznacza, że wszystkie sekwencje wizyjne zawarte w zbiorze testowym prezentowane są jedna po drugiej bez możliwości porównania z
referencją. Sekwencje referencyjne są zawarte w zbiorze testowym i poddawane ocenie na takich
samych zasadach jak pozostałe. Takie podejście jest nazywane ACR-HR (ang. ACR with Hidden
Reference). Zgodnie z nowymi wytycznymi VQEG dotyczącymi metodologii ACR, użyta została
jedenastostopniowa, numeryczna skala jakości [4]. Jest to podejście innowacyjne, gdyż dotychczas
w testach stosowano zazwyczaj pięciostopniową skalę MOS [1].
3. Pomiar artefaktów wideo spowodowanych skalowaniem w dziedzinie kompresji
Jak zaznaczono we wprowadzeniu, skalowanie w domenie kompresji jest jedyną metodą wymagającą stworzenia metryk do pomiaru artefaktów obrazu. Sam współczynnik kompresji nie jest
wystarczający do określenia poziomu utraty jakości postrzeganej QoE.
Rozdział ten zawiera opis metryk służących do oceny typowych artefaktów wideo spowodowanych stratną kompresją przy użyciu kodeka H.264 implementacji X264. Pomiar dokonywany jest
w scenariuszu bez referencji. Pierwsza metryka służy do oceny artefaktu blokowego (spowodowanego stratną kompresją wewnątrz-klatkową), natomiast druga do oceny migotania bloków obrazu
(spowodowanego kompresją między-klatkową).
3.1. Artefakt blokowy
Konstrukcja metryki do pomiaru artefaktu blokowego została oparta na założeniu, że każdy pojedynczy artefakt blokowy posiada przynajmniej jeden widoczny róg, wyrównany do granic bloków
kodowych [8]. W zaproponowanym przez autorów podejściu miara obliczana jest lokalnie, dla każdego bloku kodowego obrazu. Absolutna różnica w jasności pikseli liczona jest oddzielnie dla 1)
par pikseli znajdujących się w obszarze jednego bloku, oraz 2) par pikseli z sąsiadujących bloków.
Stosunek tych wielkości stanowi miarę artefaktu blokowego.
3.2. Efekt migotania bloków
Pomiar migotania bloków obrazu (ang. flickering) zainspirowany został pracą przedstawioną
przez Pandela w [5]. Zgodnie z pracą, migotanie jest najważniejszym typem zniekształcenia występującego dla sekwencji wideo z kodowaniem między-ramkowych. Zjawisko to jest widoczne dla
sekwencji wizyjnych zakodowanych z użyciem np. kodeków H.264 (w badaniach użyto implementacji X264). Szczególnie podatnymi na ten efekt są sekwencje wideo zawierające powolną zmianę
perspektywy (przemieszczająca się kamera, przybliżenie, oddalenie lub obrót). W schematach kodowania między-ramkowego wartości poszczególnych bloków nie są aktualizowane (kodowane)
dopóki różnica pomiędzy odpowiadającym blokiem z kolejnych ramek nie przekracza dopuszczalnej wartości. Im większa kompresja tym większa jest ta wartość. Sugeruje to, że bloki obrazu mogą
pozostawać w jednym z dwóch stanów: 1) brak aktualizacji lub 2) aktualizacja. Częste przejścia
pomiędzy tymi stanami oznaczać będą mocny efekt migotania. Dwustanowy model z histerezą do
pomiaru migotania zaprezentował Pandel w [5]. Miara obliczana jest lokalnie dla każdego bloku
obrazu, jako liczba przejść pomiędzy stanami normalizowana względem czasu (większa ilość
przejść oznacza większy poziom migotania).
Naszą wartość dodaną do pracy Pandela stanowią trzy elementy, opisane w [8]. Po pierwsze,
definicja progu przełączania pomiędzy stanami. W [5] zastosowano inny sposób obliczania tego
poziomu a jego wartość nie została podana. W naszych badania obliczamy ten próg dynamicznie,
jako sumę różnic w jasności pikseli dla każdego z bloków obrazu, każdy rozmiaru 8×8 pikseli. W
celu wyboru odpowiedniej wartości progu przeanalizowano zakres od 0,3 do 1,4 (gdzie 1 oznacza
maksymalny poziom jasności). Kolejnym dodanym elementem jest zaproponowanie metody uśredniania wartości miary dla całej ramki wideo (ang. spatial pooling), zakładającej uśrednianie bloków
posiadających największą wartość miary. Pozwala to uwzględnić fakt, że człowiek oglądający sekwencję wizyjną wyrabia sobie opinię o jakości na podstawie kilku najgorszych punktów obrazu,
bez uśredniania całości. Przebadanym zakresem ilości bloków używanych do obliczania miary dla
całej ramki był przedział od 0,5% do 10% całkowitej liczby. Ostatnim i najważniejszym elementem
dodanym jest fakt takiego wyboru opisanych powyżej parametrów (próg przełączania oraz procent
bloków) aby uzyskać maksymalną korelację powstałej miary z odczuciami użytkowników, obliczoną na podstawie porównania z wynikami testów subiektywnych.
4. Analiza wyników testów subiektywnych i wpływu skalowania przepływności na jakość postrzeganą QoE
Otrzymane odpowiedzi testerów są dyskretnymi liczbami od 0 do 10, gdzie odpowiedzi 0 i 10
nie powinny być wybierane (zgodnie z ich opisem jakość sekwencji dla odpowiedzi 0 jest skrajnie
niska natomiast dla odpowiedzi 10 jest praktycznie perfekcyjna). Taka konstrukcja skali odpowiedzi pozwala estymować miarę jakości postrzeganej przez użytkownika QoE w funkcji metryk za
pomocą klasycznej teorii regresji liniowej. W [6] można znaleźć opis modelowania miary QoE w
przypadku mniejszej liczby odpowiedzi udzielanych przez testerów.
Pozostaje otwartym problem wyboru funkcji, jaką będziemy estymować. W wielu publikacjach
oraz samych standardach używane są funkcje liniowe, jednak w tej pracy użyto funkcji logit opisanej w [3]. Głównym powodem jest fakt, że funkcja logit rzutuje zbiór liczb rzeczywistych na przedział (0,1), co pozwala modelować za pomocą metryk posiadających dowolne wartości odpowiedzi
testerów, które są ograniczone do pewnego przedziału (w tych badaniach jest to przedział (0, 11)).
Funkcja logit dana jest wzorem:
1
f x  
.
(1)
1  exp( x)
Ponieważ w rozważanym przypadku odpowiedzi ograniczone są do przedziału (0, 10) oraz metryka jakości może mieć różną skalę ostateczna estymowana funkcja ma postać:
10
MOSx  
,
(2)
1  exp( ax  b)
gdzie a i b to estymowane parametry a x to metryka użyta do estymacji miary MOS.
W dalszej części dokumentu będziemy odwoływać się do otrzymanych wartości a i b, parametryzujących otrzymaną miarę jakości postrzeganej przez użytkownika. Oddzielnie zostały rozważone trzy skalowania: w domenie kompresji, przestrzeni oraz czasu.
4.1. Skalowanie w domenie kompresji
Wykres korelacji dla metryk do pomiaru artefaktu blokowego i migotania bloków przedstawiony jest na Rys. 3. Dla migotania bloków najlepsze wyniki korelacji z MOS uzyskano dla następujących parametrów: wartości progu 0,9 i 2% bloków użytych do obliczenia miary dla całej ramki.
9
MOS/Model
7
2
Logit, R = 0.69
MOS/Model
8
9
Odpowiedzi
6
5
4
3
8
Odpowiedzi
7
Logit, R2 = 0.87
6
5
4
3
2
2
1
1
0
0.65
0.7
0.75
0.8
0.85
0.9
0.95
1
0
1.05
0
Metryka artefaktu blokowego
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Metryka migotania blokow
(a) Miara artefaktu blokowego
(b) Miara migotania bloków
Rys. 3. Wykresy korelacji dla metryk do pomiaru artefaktu blokowego i migotania bloków.
Przedziały ufności wartości MOS zostały pominięte dla zwiększenia czytelności wykresu.
Wszystkie otrzymane szerokości przedziału ufności są mniejsze od 0,81.
Pierwszym spostrzeżeniem nasuwającym się podczas analizy wykresu dla miary artefaktu blokowego jest zbyt duży rozrzut odpowiedzi otrzymany dla tej samej wartości miary. W celu głębszej
analizy przydane są wykresy przedstawione na Rys. 4, pokazujące jak punkty układają się dla poszczególnych sekwencji.
9
MOS/Model
7
6
7
5
4
3
6
5
4
3
2
2
1
1
0
0.65
0.7
Betes
Autumn
Football
Susie
8
MOS/Model
8
9
Betes
Autumn
Football
Susie
0.75
0.8
0.85
0.9
0.95
1
Metryka artefaktu blokowego
1.05
0
0
1000
2000
3000
4000
5000
6000
7000
8000
Metryka artefaktu blokowego
(a) Miary artefaktu blokowego otrzymane dla
(b) Miara migotania bloków otrzymana z pomisekwencji „Football” i „Susie”
nięciem sekwencji „Autumn”
Rys. 4. Porównanie dopasowania miar dla wybranych sekwencji w przypadku metryki artefaktu blokowego oraz z pominięciem sekwencji „Autumn” w przypadku metryki migotania
bloków.
Sekwencja „Football”, dla metryki artefaktu blokowego, została oceniona znacznie lepiej przez
testerów niż przez obiektywną metrykę (zobacz Rys. 4(a)). Odpowiedź na taką rozbieżność ocen
znaleźć można w analizie charakterystyk sekwencji wideo (ilość ruchu i detali obrazu) zestawionej
z własnością ludzkiego systemu postrzegania zwaną maskowaniem [13]. Teoria maskowania mówi,
że percepcja wybranego celu na obrazie jest zawsze funkcją otaczającego tła. Co więcej, próg dostrzegalności obranego celu zależy od kontrastu i charakterystyk tła [13]. W naszym przypadku
bardzo duża ilość ruchu i duża ilość detali obrazu nie pozwalają dostrzec zniekształceń blokowych
(a raczej ograniczają ich wpływ na wizualne pogorszenie jakości). Innymi słowy, artefakt blokowy
będzie bardziej widoczny dla jednorodnych i wolnozmiennych sekwencji wideo. Najprostszym
rozwiązaniem przedstawionego problemu jest obniżanie wartości (ważenie) miary artefaktu blokowego w przypadku sekwencji o charakterystykach przypominających „Football”. Ograniczona liczba sekwencji wizyjnych użytych w testach uniemożliwia zbudowanie odpowiedniego modelu. Konieczne jest przeprowadzenie testów na znacznie bogatszym materiale testowym.
Kolejną sekwencją, która odstaje od średniej jest „Autumn”. Tym razem sekwencja ta została
oceniona znacznie gorzej przez testerów niż przez obiektywną metrykę migotania bloków (krzyżyki
na wykresie Rys. 4(b)). Inspekcja wizualna rozpatrywanej sekwencji ujawniła, że silna kompresja
H.264 w rzeczywistości nie spowodowała silnego artefaktu blokowego. Innym, dominującym w
tym przypadku zniekształceniem jest migotanie bloków. Tak jak opisano we wcześniejszych rozdziałach, najbardziej narażone na migotanie bloków są sekwencje zawierające powolną zmianę perspektywy zakodowane z użyciem H.264. Jest to dokładnie przypadek sekwencji „Autumn”. Zgodnie z oczekiwaniami, odwrotny efekt wystąpił przy porównaniu ocen subiektywnych i wyników
obiektywnej metryki do pomiaru migotania bloków. Tym razem sekwencja „Autumn” została oceniona znacznie lepiej przez testerów niż przez metrykę (tak jak pokazano na Rys. 4(b)).
Zaprezentowana analiza wyników sugeruje, że wpływ kompresji H.264 na jakość postrzeganą
dla zróżnicowanego materiału wideo, nie może być poprawnie oceniony z użyciem tylko jednej
metryki. Kombinacja dwóch zaprezentowanych metryk daje znacznie lepsze wyniki (w rozumieniu
korelacji z MOS). Otrzymany współczynnik korelacji R^2 dla wykresu na Rys. 5 wynosi 0,90, czyli
jest lepszy od tych otrzymanych oddzielnie dla każdej z metryk.
9
MOS kombinacji metryk
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
MOS
Rys. 5. Wykres wartości otrzymanych z miary w funkcji wartości obserwowanych w rzeczywistości dla kombinacji metryk artefaktu blokowego i migotania bloków.
Wykres na Rys 5. przekonuje, że metryki do oceny artefaktu blokowego i pomiaru migotania
bloków uzupełniają się wzajemnie w zadaniu percepcyjnej oceny jakości kompresji H.264, co jest
zgodne z naszą intuicją. Wykres Rys 5. jest inny od wykresów prezentowanych dla miar pojedynczych, ponieważ dla zintegrowanej metryki musielibyśmy przedstawić wykres 3D, który jest nieczytelny. Ostatecznie przedstawiamy wykres pokazujący zależność pomiędzy wartością obserwowaną (oceny testerów) a estymowaną (wynik działania miary) za pomocą kombinacji metryk.
Współczynniki modelu otrzymane dla wspólnej miary podane są w Tab. 1. Wzór opisujący
wspólną miarę jest prostym uogólnieniem wzoru (2) do postaci:
10
MOS( xm , xa ) 
,
(3)
1  exp( am xm  aa xa  b)
gdzie am jest współczynnik dla metryki migotania bloków, aa jest współczynnik dla metryki artefaktu blokowego.
Tab. 1. Współczynniki miary jakości kompresji
wraz z przedziałami ufności.
Współczynniki Wartość Minimum Maksimum
1,88
0,033
3,72
b
4,05
2,93
5,18
am
aa
-3,52
-5,32
-1,72
Otrzymane współczynniki posiadają szerokie przedziały ufności. Spowodowane jest to relatywnie niedużą liczbą punktów, z których estymowany jest model. Ponieważ współczynnik dopasowania R^2 jest wysoki to uważamy, że otrzymana miara jest dokładna. W dalszych badaniach
będziemy chcieli potwierdzić to dla innych sekwencji.
4.2. Skalowanie w domenie przestrzeni
Kolejnym sposobem na zmniejszenie ilości przesyłanych danych jest zmniejszenie rozdzielczości obrazu. W takim przypadku jakość spada ze względu na mniejszą dostrzegalną liczbę szczegółów. Wydaje się, że taką metrykę bardzo łatwo stworzyć, ponieważ strumień wideo wysyła informację na temat rozdzielczości przesyłanego obrazu. Na Rys. 6 przedstawiono miarę MOS w funkcji
pierwiastka liczby punktów obrazu wideo.
9
8
MOS/Model
7
6
5
4
Odpowiedzi
3
2
100
Logit, R2 = 0.86
150
200
250
300
350
400
450
500
550
600
Pierwiastek liczby punktow
Rys. 6. Rozrzut odpowiedzi dla skalowania w dziedzinie przestrzeni. Przedziały ufności wartości MOS zostały pominięte dla zwiększenia czytelności wykresu. Wszystkie otrzymane szerokości przedziału ufności są mniejsze od 0,88.
Na podstawie Rys. 6 można stwierdzić, że sama informacja na temat liczby wyświetlanych
punktów nie jest wystarczająca. Niemniej jednak w tym przypadku nie udało się znaleźć dodatkowej miary w sposób ewidentny poprawiającej otrzymany współczynnik R^2. Planowane testy subiektywne z wykorzystaniem znacznie bogatszego zbioru sekwencji testowych pozwolą rozwiązać
ten problem.
Otrzymany model opisany jest parametrami przedstawionymi w Tab. 2.
Tab. 2. Współczynniki miary jakości skalowania
przestrzeni wraz z przedziałami ufności.
Współczynniki Wartość Minimum Maksimum
1,05
0,74
1,37
b
a
-2,66
-3,28
-2,04
Współczynniki przedstawione w Tab. 2. otrzymano po znormalizowaniu pierwiastka liczby
punktów. Normalizacja polegała na podzieleniu pierwiastka liczby punktów przez 600. Celem tej
normalizacji było otrzymanie stabilniejszych wyników. Nie ma to wpływu na stosowalność otrzymanego modelu.
4.3. Skalowanie w domenie czasu
Skalowanie w domenie czasu związane jest ze sterowaniem przesyłania liczby klatek wyświetlanych na sekundę. Oczywiście sekwencje wizyjne posiadające mniejszą liczbę klatek na sekundę
są mniej płynne co w powinno wpłynąć na ich jakość. Można zauważyć, że w tym przypadku sama
miara jest perfekcyjna ponieważ posiadamy informację na temat liczby klatek na sekundę. Okazuje
się jednak, że znów taka informacja jest niewystarczająca (patrz Rys. 7).
9
8
8
7
7
MOS/Model
MOS/Model
9
6
5
4
Odpowiedzi
2
5
10
15
20
25
Liczba klatek na sekunde
5
Filmy a i d
Filmy b i c
4
2
Logit, R2 = 0.83
3
6
Logit, R = 0.95
3
30
2
5
2
Logit, R = 0.95
10
15
20
25
30
Liczba klatek na sekunde
(a) Miara wpływu zmiany liczby klatek na se(b) Miary wpływu zmiany liczby klatek na sekundę dla wszystkich sekwencji
kundę dla grup sekwencji
Rys. 7. Rozrzut odpowiedzi dla skalowania w dziedzinie czasu. Przedziały ufności wartości
MOS zostały pominięte dla zwiększenia czytelności wykresu. Wszystkie otrzymane szerokości
przedziału ufności są mniejsze od 0,93.
Analiza statystyczna pozwoliła wykazać, że wyniki otrzymane dla dwóch sekwencji wizyjnych: „Betes” i „Susie”, statystycznie się nie różnią od siebie. Podobnie wyniki otrzymane dla sekwencji „Autumn” i „Football”, są statystycznie takie same. Pozwoliło to na stworzenie dwóch oddzielnych modeli o znacznie lepszym współczynniku dopasowania niż te otrzymane dla modelu
uwzględniającego wszystkie sekwencje. Powodem powstania takiej różnicy jest duża ilość detali
obraz i ruchu odpowiednie dla sekwencji „Autumn” i „Football”. Sugeruje to odpowiednie warzenie wartości miary opartej na ilość klatek na sekundę w przypadku nasilenia jednej lub obydwu
cech jednocześnie. Ponieważ zbudowanie modelu umożliwiającego uwzględnienie pewnych specyficznych cech sekwencji nie było możliwe, ostateczne wyniki przedstawione w Tab. 3 są wynikami
modelu przedstawionego na Rys. 7(a). Podobnie jak w przypadku skalowania w domenie przestrzeni, odpowiedni model zostanie stworzony na podstawie wyników planowanych testów subiektywnych.
Tab. 3. Współczynniki miary jakości skalowania
w dziedzinie czasu, wraz z przedziałami ufności.
Współczynniki Wartość Minimum Maksimum
1,01
0,77
1,26
b
a
-0,082
-0,102
-0,062
5. Wnioski i plany dalszych badań
W artykule zaprezentowano wyniki badań nad modelowaniem subiektywnego odbioru jakości
dla niezależnego wpływu trzech metod skalowania (domena kompresji, przestrzeni i czasu). Analiza statystyczna otrzymanych wyników pokazuje, że możliwe było uzyskanie stosunkowo wysokich
(jak na miarę NR) współczynników korelacji rzędu (odpowiednio): 0.90, 0.86 i 0.83. Otrzymane
rezultaty wydają się potwierdzać poprawności kierunku prowadzonych badań.
Zaprezentowane wyniki pokazują jednakże, że bardzo istotny wpływ na korelację miar jakości,
ma treść sekwencji wizyjnych. Wobec powyższego, w najbliższym czasie planuje się przeprowadzić serię eksperymentów psychofizycznych, gdzie nacisk zostanie położony na różnorodność (w
sensie ruchu i ilości detali obrazu) prezentowanych sekwencji wizyjnych. Pozwoli to na modyfikację zaprezentowanych miar, mająca na celu poprawę ich korelacji z odpowiedziami subiektywnymi,
dla każdego rodzaju prezentowanych treści.
6. Podziękowania
Zaprezentowana praca była wspierana przez Komisję Europejską, w ramach projektu „Sieci
Doskonałości CONTENT” (Numer Grantu FP6-0384239) oraz przez Ministerstwo Nauki i Szkolnictwa Wyższego w ramach projektu o Numerze Grantu PBZ-MNiSW-02/II/2007.
Literatura
1. A. Leontaris, A. R. Reibman, Comparison of blocking and blurring metrics for video compression, IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005, Proceedings (ICASSP ‘05), Vol. 2, pp. 585-588, 2005.
2. H. Knoche, J. D. McCarthy, M. A. Sasse, Can small be beautiful?: assessing image resolution
requirements for mobile TV, Proceedings of the 13th annual ACM international conference on
Multimedia, Singapur 2005.
3. International Telecommunication Union, Recommendation BT.500-11, Methodology for the
subjective assessment of the quality of television pictures, Geneva 2002.
4. International Telecommunication Union, Recommendation ITU-T P.910, Subjective video quality assessment methods for multimedia applications, Geneva 1999.
5. J. Pandel, Measuring of Flickering Artifacts in Predictive Coded Video Sequences”, Ninth Inter-national Workshop on Image Analysis for Multi-media Interactive Services, Klagenfurt,
Austria, May 7-9, 2008.
6. L. Janowski, Z. Papir, Modeling Subjective Tests of Quality of Experience with a Generalized
Linear Model, First International Workshop on Quality of Multimedia Experience QoMEX
2009, San Diego 2009.
7. M. Ries, O. Nemethova, M. Rupp, Performance Evaluation of Mobile Video Quality Estimators, European Signal Processing Conference (EUSIPCO 2007), Poznań 2007.
8. P. Romaniak, L. Janowski, M. Leszczuk, Z. Papir, Ocena jakości sekwencji wizyjnych dla aplikacji strumieniowania na żywo w środowisku mobilnym, Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT 2009, Warszawa 2009.
9. S. Tourancheau, P. Le Callet, D. Barba, Impact of the Resolution on the Difference of Perceptual Video Quality Between CRT and LCD, IEEE International Conference on Image
Processing, 2007, ICIP 2007, Vol. 3, pp. 441- 444, 2007.
10. VQEG, Draft Final Report from the Video Quality Experts Group on the Validation of Objective Models of Multimedia Quality Assessment, Phase I, 2008.
11. VQEG,
Index
VQEG
Test
Sequences,
dostępne
pod
adresem
http://media.xiph.org/vqeg/TestSeqences/ThumbNails/, 2008.
12. VQEG, Video Quality Experts Group, dostępne pod adresem http://www.its.bldrdoc.gov/vqeg/,
2009.
13. S. Winkler, Digital Video Quality - Vision Models and Metrics, John Wiley & Sons, Ltd, 2005.