Ocena postrzeganej jakości usług strumieniowania wideo w

Transkrypt

Ocena postrzeganej jakości usług strumieniowania wideo w
Lucjan JANOWSKI*, Mikołaj LESZCZUK*,
Zdzisław PAPIR*, Piotr ROMANIAK*
Ocena postrzeganej jakości usług
strumieniowania wideo
w scenariuszu bez referencji
ze skalowaniem przepływności
Zdobywające coraz większą popularność usługi strumieniowania sekwencji wizyjnych borykają się wciąż z problemem ograniczonej przepływności łączy dostępowych. O ile w przypadku połączeń przewodowych, z reguły są już dostępne przepływności
rzędu megabitów, o tyle dla łączy bezprzewodowych wyższe
szybkości bitowe nie są już tak powszechne. Problem ten dotyczy zwłaszcza użytkowników mobilnych, którzy nie mogą oczekiwać stabilnego łącza o wysokiej przepływności.
Wobec powyższego, rozwiązaniem umożliwiającym uruchamianie usług strumieniowania sekwencji wizyjnych dla takich łączy dostępowych jest transkodowanie „w locie” strumieni wizyjnych. Efektem transkodowania jest skalowanie przepływności (i
zarazem jakości) umożliwiające dostosowanie przesyłanego
strumienia do aktualnych parametrów łącza dostępowego. Skalowanie jakości dla sekwencji wizyjnych odbywa się zazwyczaj
w (często nierozłącznych) domenach kompresji, przestrzeni i czasu. Skalowanie w domenie kompresji sprowadza się zwykle do
operowania współczynnikiem kwantyzacji kodeka. Skalowanie
w domenie przestrzeni oznacza zmniejszanie efektywnej rozdzielczości obrazu powodujące zwiększanie jego granularności (przy
próbie przywrócenia oryginalnych rozmiarów wyświetlanych treści). Skalowanie w domenie czasu sprowadza się do odrzucania
klatek, czyli zmniejszania liczby przesyłanych klatek na sekundę
(Frames Per Secondo – FPS).
Wspomniane powyżej metody skalowania nieuchronnie prowadzą do obniżania jakości postrzeganej przez użytkownika końcowego usługi (Quality of Experience – QoE). Dlatego też proces
skalowania powinien być monitorowany pod względem poziomu
QoE. Daje to możliwość nie tylko kontroli ale także maksymalizacji poziomu QoE w czasie rzeczywistym, w zależności od panujących warunków transmisyjnych. W sytuacji niemożności osiągnięcia zadowalającego poziomu QoE, operator może intencjonalnie przerwać świadczenie usługi, co być może pozwoli zaoszczędzone w ten sposób zasoby sieciowe przeznaczyć dla innych
użytkowników.
Niestety, określanie poziomu QoE w żadnym wypadku nie może sprowadzać się do prostej maksymalizacji parametrów ilościowych zadawanych w każdej z trzech domen. Percepcja użytkownika, oparta na systemie wizyjnym człowieka (Human Visual
System HVS) jest bowiem silnie nieliniowa i zależna od wielu
zmiennych (na przykład treści wizyjnej). Wobec tego podejmuje
się próby tworzenia modeli służących automatycznemu określaniu poziomu QoE za pomocą analizy treści wizyjnej odbieranej
przez użytkownika. W ostatnich latach szczególnego znaczenia
nabrały tzw. modele NR (No Reference), które do oceny jakości
QoE nie potrzebują dostępu do sekwencji referencyjnych (przed
skalowaniem). W praktyce są to jedyne modele aplikowalne
w środowisku rzeczywistym (pozalaboratoryjnym).
* Katedra Telekomunikacji, Akademia Górniczo-Hutnicza
w Krakowie, e-mail: [email protected], [email protected],
800
Szczególnie trudne są próby określania wpływu skalowania
w domenie kompresji na jakość postrzeganą QoE. Sam współczynnik kompresji nie jest wystarczającym wskaźnikiem jakości
postrzeganej. Konieczne jest określenie (w modelu NR) wpływu
tej manipulacji na efekty wywołane w obrazie. Najważniejszymi
efektami towarzyszącymi stratnej kompresji są artefakt blokowy
i migotanie bloków. Do określenia jakości QoE jest niezbędne dokładne ilościowe oszacowanie nasilenia tych efektów. Podane
w pozycjach literatury ([1], [8], [9]) liczne modele zazwyczaj nie
osiągają wystarczającej korelacji z rzeczywistymi ocenami użytkowników.
Znacznie łatwiejsze jest modelowanie wpływu skalowania w domenie czasu, gdyż tutaj przynajmniej wartość współczynnika FPS
jest jawnie dostępna. Próby modelowania wpływu skalowania
w tej domenie na jakość postrzeganą podjęto m. in. w pracy [7].
Podobnie relatywnie mniej skomplikowane jest określenie wpływu spadku efektywnej rozdzielczości (czyli wzrostu granularności) obrazu ruchomego na efekty wizualne. Efekty te były badane w pracach ([2], [9]) (choć dla drugiej z prac – w innych
zastosowaniach).
Metodyka prezentowanych w artykule badań opiera się na testach subiektywnego odbioru jakości dla niezależnego wpływu
trzech wspomnianych powyżej metod skalowania. Dodatkowo zostały przeprowadzone badania nad stworzeniem metryk oceny
każdego z parametrów jakości, a także zostały przedstawione wyniki analizy statystycznej otrzymanych wyników.
Pierwszą wartością dodaną prezentowanych badań jest zapewnienie identycznego środowiska eksperymentu psychofizycznego dla wszystkich trzech domen skalowania jakości, wraz z innowacyjnym zastosowaniem 11-stopniowej skali jakości. Daje to
możliwość porównania uzyskanych wyników dla wszystkich rozważanych metod skalowania, a także budowy w przyszłości zintegrowanego modelu, uwzględniającego jednoczesne kombinacje metod. Drugim nowatorskim elementem jest miara oceny
spadku jakości spowodowanej dużą wartością QP – miara ta charakteryzuje się bardzo wysoką korelacją z ocenami subiektywnymi. Kolejną wartością dodaną jest szczegółowa analiza statystyczna otrzymanych wyników pod względem korelacji z MOS (Mean
Opinion Score) i wiarygodności statystycznej. Jest to element często pomijany w pracach poświęconych modelowaniu QoE. Co
więcej, różne sekwencje wizyjne użyte w testach subiektywnych
były rozważane jako dodatkowa zmienna niezależna, umożliwiło
to, w niektórych przypadkach, na statystyczną analizę wpływu danej sekwencji na dokładność otrzymanej miary.
Konstrukcja dalszych sekcji artykułu jest następująca. Sekcja
następna przedstawia środowisko eksperymentu psychofizycznego. Sekcja kolejna traktuje o pomiarze artefaktów (artefaktu blokowego i migotania bloków). Sekcja przedostatnia prezentuje
analizę wyników w zakresie skalowania w domenie kompresji,
przestrzeni i czasu. Wnioski i plany dalszych badań zostały zawarte w sekcji ostatniej.
PRZEGLĄD TELEKOMUNIKACYJNY z ROCZNIK LXXXII z nr 8–9/2009
ŚRODOWISKO EKSPERYMENTU
PSYCHOFIZYCZNEGO
W celu prawidłowego zmodelowania parametrów jakości obrazu, stworzono stosowne środowisko do przeprowadzenia eksperymentu psychofizycznego. Eksperyment wykonano w Akademii Górniczo-Hutniczej w Krakowie. Wzięło w nim udział około 100
studentów. Zapewniono jednakowe warunki (monitory LCD i oświetlenie) dla wszystkich stanowisk testowych (rys. 1).
Do określania ocen jakości obrazu użyto metodyki ITU-T ACR
(Absolute Category Rating). Metodyka testów subiektywnych pochodzi z raportu Multimedia (MM) [10], przygotowanego przez
VQEG. Sama metodyka ACR została opisana w Zaleceniu ITU-T
P. 910 [4]. Metodyk reprezentuje podejście typu Single-Stimulus
(SS), co oznacza, że wszystkie sekwencje wizyjne zawarte w zbiorze testowym są prezentowane jedna po drugiej bez możliwości
porównania z referencją. Sekwencje referencyjne są zawarte
w zbiorze testowym i poddawane ocenie na takich samych zasadach jak pozostałe. Takie podejście jest nazywane ACR-HR (ACR
with Hidden Reference). Zgodnie z nowymi wytycznymi VQEG dotyczącymi metodyki ACR, użyta została jedenastostopniowa numeryczna skala jakości [4]. Jest to podejście innowacyjne, gdyż
dotychczas w testach stosowano zazwyczaj pięciostopniową skalę MOS [1].
POMIAR ARTEFAKTÓW WIDEO
SPOWODOWANYCH SKALOWANIEM
W DZIEDZINIE KOMPRESJI
„ Rys. 1. Środowisko eksperymentu psychofizycznego.
W eksperymencie zostały użyte cztery sekwencje testowe
VQEG (Video Quality Experts Group) [11], [12]: Betes (rys. 2a),
Autumn (rys. 2b), Football (rys. 2c), Susie (rys. 2d). Sekwencje te
odzwierciedlają dwie różne charakterystyki treści (ruch i liczbę detali obrazu).
a)
b)
c)
d)
Jak zaznaczono we wprowadzeniu, skalowanie w domenie
kompresji jest jedyną metodą wymagającą stworzenia metryk do
pomiaru artefaktów obrazu. Sam współczynnik kompresji nie jest
wystarczający do określenia poziomu utraty jakości postrzeganej
QoE.
Rozdział ten zawiera opis metryk służących do oceny typowych
artefaktów wideo spowodowanych stratną kompresją przy użyciu kodeka H. 264 implementacji X264. Pomiar dokonywany jest
w scenariuszu bez referencji. Pierwsza metryka służy do oceny
artefaktu blokowego (spowodowanego stratną kompresją wewnątrzklatkową), natomiast druga do oceny migotania bloków obrazu (spowodowanego kompresją międzyklatkową).
Artefakt blokowy
Konstrukcja metryki do pomiaru artefaktu blokowego została
oparta na założeniu, że każdy pojedynczy artefakt blokowy ma
przynajmniej jeden widoczny róg, wyrównany do granic bloków
kodowych [8]. W zaproponowanym przez autorów podejściu miara obliczana jest lokalnie, dla każdego bloku kodowego obrazu.
Absolutna różnica w jasności pikseli liczona jest oddzielnie dla
par pikseli znajdujących się w obszarze jednego bloku, oraz par
pikseli z sąsiadujących bloków. Stosunek tych wielkości stanowi
miarę artefaktu blokowego.
Efekt migotania bloków
„ Rys. 2. Cztery sekwencje testowe VQEG
Sekwencje wideo zostały zakodowane przy użyciu kodeka H.
264 (implementacja X264) main-profile (Level 40). Zgodnie z zaleceniami VQEG, tak dobrano QP, aby otrzymać średnie przepływności strumieni rzędu 5000 kbit/s (współczynnik kompresji, Compression Ratio, CR, równy 50,38848), 1000 kbit/s (CR=251,9424),
500 kbit/s (CR=503,8848), 300 kbit/s (CR=839,808), 200 kbit/s
(CR=1259,712) oraz 100 kbit/s (CR=2519,424).
Początkowy współczynnik liczby klatek na sekundę wynosił 30.
Dodatkowo zbadano FPS o wartościach 15, 10, 7.5, 6 i 5.
Efektywną rozdzielczością początkową była rozdzielczość
SD/D-1 NTSC (720×486). Dodatkowo zbadano rozdzielczości
525 HHR (352×480), SIF (352×240), QCIF (176×144) oraz
SQCIF (128×96).
PRZEGLĄD TELEKOMUNIKACYJNY z ROCZNIK LXXXII z nr 8–9/2009
Pomiar migotania bloków obrazu (flickering) został zainspirowany pracą przedstawioną przez Pandela w [5]. Zgodnie z nią migotanie jest najważniejszym typem zniekształcenia występującego dla sekwencji wideo z kodowaniem międzyramkowym.
Zjawisko to jest widoczne dla sekwencji wizyjnych zakodowanych
z użyciem np. kodeków H. 264 (w badaniach użyto implementacji X264). Szczególnie podatne na ten efekt są sekwencje wideo
zawierające powolną zmianę perspektywy (przemieszczająca się
kamera, przybliżenie, oddalenie lub obrót). W schematach kodowania międzyramkowego wartości poszczególnych bloków nie są
aktualizowane (kodowane), dopóki różnica pomiędzy odpowiadającym blokiem z kolejnych ramek nie przekracza dopuszczalnej wartości. Im większa kompresja, tym większa jest ta wartość.
Sugeruje to, że bloki obrazu mogą pozostawać w jednym
z dwóch stanów: 1) brak aktualizacji lub 2) aktualizacja. Częste
przejścia pomiędzy tymi stanami będą oznaczać mocny efekt migotania. Dwustanowy model z histerezą do pomiaru migotania
zaprezentował Pandel w [5]. Miara jest obliczana lokalnie dla każdego bloku obrazu, jako liczba przejść pomiędzy stanami norma-
801
Otrzymane odpowiedzi testerów są dyskretnymi liczbami od
0 do 10, gdzie odpowiedzi 0 i 10 nie powinny być wybierane
(zgodnie z ich opisem jakość sekwencji dla odpowiedzi 0 jest
skrajnie niska natomiast dla odpowiedzi 10 jest praktycznie perfekcyjna). Taka konstrukcja skali odpowiedzi pozwala estymować
miarę jakości postrzeganej przez użytkownika QoE w funkcji metryk za pomocą klasycznej teorii regresji liniowej. W [6] można
znaleźć opis modelowania miary QoE w przypadku mniejszej liczby odpowiedzi udzielanych przez testerów.
Pozostaje otwarty problem wyboru funkcji, jaką będziemy estymować. W wielu publikacjach oraz samych standardach są używane funkcje liniowe, jednak w tej pracy użyto funkcji logit opisanej
w [3]. Głównym powodem jest fakt, że funkcja logit rzutuje zbiór liczb
rzeczywistych na przedział (0,1), co umożliwia modelować za pomocą metryk mających dowolne wartości odpowiedzi testerów, które są ograniczone do pewnego przedziału (w tych badaniach jest
to przedział (0, 11)). Funkcja logit dana jest wzorem:
f (x ) =
1
.
1 + exp( x )
(1)
Ponieważ w rozważanym przypadku odpowiedzi ograniczone
są do przedziału (0, 10) oraz metryka jakości może mieć różną
skalę, ostateczna estymowana funkcja ma postać:
MOS(x ) =
10
,
1 + exp( ax + b )
(2)
gdzie a i b to estymowane parametry zaś x to metryka użyta do
estymacji miary MOS.
W dalszej części artykułu będziemy odwoływać się do otrzymanych wartości a i b, parametryzujących otrzymaną miarę jakości postrzeganej przez użytkownika. Oddzielnie zostały rozważone trzy skalowania: w domenie kompresji, przestrzeni oraz czasu.
Skalowanie w domenie kompresji
Wykres korelacji dla metryk do pomiaru artefaktu blokowego
i migotania bloków jest przedstawiony na rys. 3. Dla migotania
802
8
7
ODPOWIEDZI
LOGIT, R2=0,69
7
MOS/MODEL
5
5
4
4
3
3
2
2
1
0
ODPOWIEDZI
LOGIT, R2=0,87
8
6
MOS/MODEL
6
b)9
1
0,65 0,7 0,75 0,8 0,85 0,9 0,95 1
METRYKA ARTEFAKTU BLOKOWEGO
0
0
0,1 0,2 0,3 0,4 0,5 0,6 0,7
METRYKA MIGOTANIA BLOKU
„ Rys. 3. Wykresy korelacji dla metryk do pomiaru artefaktu blokowego i migotania bloków. Przedziały ufności wartości MOS zostały pominięte dla zwiększenia czytelności wykresu. Wszystkie otrzymane
szerokości przedziału ufności są mniejsze od 0,81: a) miara artefaktu
blokowego; b) miara migotania bloków
bloków najlepsze wyniki korelacji z MOS uzyskano dla następujących parametrów: wartości progu 0,9 i 2% bloków użytych do
obliczenia miary dla całej ramki.
Pierwszym spostrzeżeniem nasuwającym się podczas analizy
wykresu dla miary artefaktu blokowego jest zbyt duży rozrzut odpowiedzi otrzymany dla tej samej wartości miary. W celu głębszej
analizy są przydane wykresy przedstawione na rys. 4, pokazujące, jak punkty układają się dla poszczególnych sekwencji.
a)9
8
7
6
BETES
8
FOOTBALL
7
SUSIE
5
BETES
AUTUMN
FOOTBALL
SUSIE
6
5
4
4
3
3
2
2
1
0
b)9
AUTUMN
MOS/MODEL
ANALIZA WYNIKÓW TESTÓW SUBIEKTYWNYCH I WPŁYWU SKALOWANIA
PRZEPŁYWNOŚCI NA JAKOŚĆ
POSTRZEGANĄ QoE
a)9
MOS/MODEL
lizowana względem czasu (większa przejść oznacza większy poziom migotania).
Naszą wartość dodaną do pracy Pandela stanowią trzy elementy opisane w [8]. Po pierwsze, definicja progu przełączania pomiędzy stanami. W [5] zastosowano inny sposób obliczania tego poziomu, a jego wartość nie została podana. W naszych
badaniach obliczamy ten próg dynamicznie, jako sumę różnic
w jasności pikseli dla każdego z bloków obrazu, każdy rozmiaru
8×8 pikseli. W celu wyboru odpowiedniej wartości progu przeanalizowano zakres od 0,3 do 1,4 (gdzie 1 oznacza maksymalny
poziom jasności). Kolejnym dodanym elementem jest zaproponowanie metody uśredniania wartości miary dla całej ramki wideo (spatial pooling), zakładającej uśrednianie bloków mających
największą wartość miary. Uwzględnia to fakt, że człowiek oglądający sekwencję wizyjną wyrabia sobie opinię o jej jakości na
podstawie kilku najgorszych punktów obrazu, bez uśredniania całości. Przebadanym zakresem liczby bloków używanych do obliczania miary dla całej ramki był przedział od 0,5% do 10% całkowitej liczby. Ostatnim i najważniejszym elementem dodanym
jest fakt takiego wyboru opisanych powyżej parametrów (próg
przełączania oraz procent bloków), aby uzyskać maksymalną korelację powstałej miary z odczuciami użytkowników, obliczoną na
podstawie porównania z wynikami testów subiektywnych.
1
0,65 0,7 0,75 0,8 0,85 0,9 0,95 1
METRYKA ARTEFAKTU BLOKOWEGO
0
0
100 200 300 400 500 600 700
METRYKA ARTEFAKTU BLOKOWEGO
„ Rys. 4. Porównanie dopasowania miar dla wybranych sekwencji
w przypadku metryki artefaktu blokowego oraz z pominięciem sekwencji Autumn w przypadku metryki migotania bloków: a) miary artefaktu
blokowego otrzymane dla sekwencji Football i Susie; b) miara migotania bloków otrzymana z pominięciem sekwencji Autumn
Sekwencja Football, dla metryki artefaktu blokowego, została
oceniona znacznie lepiej przez testerów, niż przez obiektywną metrykę (zobacz rys. 4 (a)). Odpowiedź na taką rozbieżność ocen
można znaleźć w analizie charakterystyk sekwencji wideo (liczba ruchu i detali obrazu) zestawionej z własnością ludzkiego systemu postrzegania zwaną maskowaniem [13]. Teoria maskowania mówi, że percepcja wybranego celu na obrazie jest zawsze
funkcją otaczającego tła. Co więcej, próg dostrzegalności obranego celu zależy od kontrastu i charakterystyk tła [13]. W naszym
przypadku bardzo duże liczby dotyczące ruchu i detali obrazu
uniemożliwiają dostrzeżenie zniekształceń blokowych (a raczej
ograniczają ich wpływ na wizualne pogorszenie jakości). Innymi
słowy, artefakt blokowy będzie bardziej widoczny dla jednorodnych i wolnozmiennych sekwencji wideo. Najprostszym rozwiązaniem przedstawionego problemu jest obniżanie wartości (ważenie) miary artefaktu blokowego w przypadku sekwencji o charakterystykach przypominających Football. Ograniczona liczba sekwencji wizyjnych użytych w testach uniemożliwia zbudowanie
odpowiedniego modelu. Konieczne jest przeprowadzenie testów
na znacznie bogatszym materiale testowym.
Kolejną sekwencją, która odstaje od średniej, jest Autumn. Tym
razem sekwencja ta została oceniona znacznie gorzej przez
testerów, niż przez obiektywną metrykę migotania bloków (krzyżyki na wykresie (rys. 4). Inspekcja wizualna rozpatrywanej sekwencji ujawniła, że silna kompresja H. 264 w rzeczywistości nie
spowodowała silnego artefaktu blokowego. Innym dominującym
PRZEGLĄD TELEKOMUNIKACYJNY z ROCZNIK LXXXII z nr 8–9/2009
poziom jakości obniża się ze względu na mniejszą dostrzegalną
liczbę szczegółów. Wydaje się, że taką metrykę bardzo łatwo
stworzyć, ponieważ strumień wideo wysyła informację na temat
rozdzielczości przesyłanego obrazu. Na rys. 6 przedstawiono miarę MOS w funkcji pierwiastka liczby punktów obrazu wideo.
9
8
7
MOS/MODEL
w tym przypadku zniekształceniem jest migotanie bloków. Tak jak
opisano we wcześniejszych rozdziałach, najbardziej narażone na
migotanie bloków są sekwencje zawierające powolną zmianę perspektywy zakodowane z użyciem H. 264. Jest to dokładnie przypadek sekwencji Autumn. Zgodnie z oczekiwaniami, odwrotny
efekt wystąpił przy porównaniu ocen subiektywnych i wyników
obiektywnej metryki do pomiaru migotania bloków. Tym razem sekwencja Autumn została oceniona znacznie lepiej przez testerów,
niż przez metrykę (tak jak pokazano na (b)).
Zaprezentowana analiza wyników sugeruje, że wpływ kompresji
H. 264 na jakość, postrzeganą dla zróżnicowanego materiału wideo,
nie może być poprawnie oceniony z użyciem tylko jednej metryki.
Kombinacja dwóch zaprezentowanych metryk daje znacznie lepsze
wyniki (w rozumieniu korelacji z MOS). Otrzymany współczynnik korelacji R^2 dla wykresu na rys. 5 wynosi 0,90, czyli jest lepszy od
tych otrzymanych oddzielnie dla każdej z metryk.
6
5
4
2
100 150
9
MOS KOMBINACJI METRYK
8
200 250 300 350 400 450 500 550 600
PIERWIASTEK LICZBY PUNKTÓW
„ Rys. 6. Rozrzut odpowiedzi dla skalowania w dziedzinie przestrzeni. Przedziały ufności wartości MOS zostały pominięte dla zwiększenia czytelności wykresu. Wszystkie otrzymane szerokości przedziału
ufności są mniejsze od 0,88
7
6
5
Na podstawie rys. 6 można stwierdzić, że sama informacja na temat liczby wyświetlanych punktów nie jest wystarczająca. Jednak
w tym przypadku nie udało się znaleźć dodatkowej miary w sposób
ewidentny poprawiającej otrzymany współczynnik R^2. Planowane testy subiektywne z wykorzystaniem znacznie bogatszego zbioru sekwencji testowych umożliwią rozwiązanie tego problemu.
4
3
2
1
0
ODPOWIEDZI
LOGIT, R2=0,86
3
0
1
2
4
3
5
MOS
6
7
8
9
„ Rys. 5. Wykres wartości otrzymanych z miary w funkcji wartości obserwowanych w rzeczywistości dla kombinacji metryk artefaktu blokowego i migotania bloków
Wykres na rys 5. przekonuje, że metryki do oceny artefaktu blokowego i pomiaru migotania bloków uzupełniają się wzajemnie
w zadaniu percepcyjnej oceny jakości kompresji H. 264, co jest
zgodne z naszą intuicją. Wykres na rys 5 jest inny od wykresów prezentowanych dla miar pojedynczych, ponieważ dla zintegrowanej
metryki musielibyśmy przedstawić wykres 3D, który jest nieczytelny. Ostatecznie przedstawiamy wykres pokazujący zależność pomiędzy wartością obserwowaną (oceny testerów) a estymowaną
(wynik działania miary) za pomocą kombinacji metryk.
„ Tabela 1. Współczynniki miary jakości kompresji wraz z przedziałami ufności
Współczynniki
Wartość
Minimum
Maksimum
b
am
am
1,88
4,05
-3,52
0,033
2,93
-5,32
3,72
5,18
–1,72
Współczynniki modelu otrzymane dla wspólnej miary podane
są w tabeli 1. Wzór opisujący wspólną miarę jest prostym uogólnieniem wzoru (2) do postaci:
„ Tabela 2. Współczynniki miary jakości skalowania przestrzeni wraz
z przedziałami ufności
Współczynniki
Wartość
Minimum
Maksimum
b
a
1,05
–2,66
0,74
–3,28
1,37
–2,04
Otrzymany model jest opisany parametrami przedstawionymi
w tabeli 2. Współczynniki przedstawione w tej tabeli. 2. otrzymano po znormalizowaniu pierwiastka liczby punktów. Normalizacja
polegała na podzieleniu pierwiastka liczby punktów przez 600.
Celem tej normalizacji było otrzymanie stabilniejszych wyników.
Nie ma to wpływu na stosowalność otrzymanego modelu.
Skalowanie w domenie czasu
Skalowanie w domenie czasu jest związane ze sterowaniem przesyłania liczby klatek wyświetlanych na sekundę. Oczywiście sekwencje wizyjne mające mniejszą liczbę klatek na sekundę są mniej płynne, co powinno wpłynąć na ich jakość. Można zauważyć, że w tym
przypadku sama miara jest perfekcyjna, ponieważ posiadamy informację na temat liczby klatek na sekundę. Okazuje się jednak, że
znów taka informacja jest niewystarczająca (rys. 7).
8
gdzie am jest współczynnikiem dla metryki migotania bloków,
aa jest współczynnikiem dla metryki artefaktu blokowego.
Otrzymane współczynniki mają szerokie przedziały ufności.
Spowodowane jest to relatywnie niedużą liczbą punktów, z których estymowany jest model. Ponieważ współczynnik dopasowania R^2 jest wysoki, to uważamy, że otrzymana miara jest dokładna. W dalszych badaniach będziemy chcieli potwierdzić to dla
innych sekwencji.
7
7
Skalowanie w domenie przestrzeni
Kolejnym sposobem zmniejszenia liczby przesyłanych danych
jest zmniejszenie rozdzielczości obrazu. W takim przypadku
PRZEGLĄD TELEKOMUNIKACYJNY z ROCZNIK LXXXII z nr 8–9/2009
MOS/MODEL
b)9
8
10
,
1 + exp( am x m + aa x a + b )
MOS/MODEL
a) 9
(3)
MOS( x m , x a ) =
6
6
5
5
4
4
ODPOWIEDZI
LOGIT, R2=0,83
3
2
5
10
15
20
25
LICZBA KLATEK NA SEKUNDĘ
30
3
2
5
FILMY A I D
FILMY B I C
LOGIT, R2=0,95
LOGIT, R2=0,95
10
15
20
25
LICZBA KLATEK NA SEKUNDĘ
30
„ Rys. 7. Rozrzut odpowiedzi dla skalowania w dziedzinie czasu. Miary wpływu zmiany liczby klatek na sekundę: a) dla wszystkich sekwencji, b) dla grup sekwencji. Przedziały ufności wartości MOS zostały pominięte dla zwiększenia czytelności wykresu. Wszystkie otrzymane
szerokości przedziału ufności są mniejsze od 0,93
803
Analiza statystyczna pozwoliła wykazać, że wyniki otrzymane
dla dwóch sekwencji wizyjnych: Betes i Susie statystycznie się nie
różnią od siebie. Podobnie wyniki otrzymane dla sekwencji Autumn i Football są statystycznie takie same. Pozwoliło to na stworzenie dwóch oddzielnych modeli o znacznie lepszym współczynniku dopasowania niż te otrzymane dla modelu uwzględniającego
wszystkie sekwencje. Powodem powstania takiej różnicy jest duża liczba detali obrazu i ruchu odpowiednich dla sekwencji Autumn i Football. Sugeruje to odpowiednie warzenie wartości miary opartej na liczbie klatek na sekundę w przypadku nasilenia
jednej lub obydwu cech jednocześnie. Ponieważ zbudowanie modelu umożliwiającego uwzględnienie pewnych specyficznych
cech sekwencji nie było możliwe, ostateczne wyniki przedstawione w tabeli 3 są wynikami modelu przedstawionego na rys. 7a.
„ Tab. 3. Współczynniki miary jakości skalowania w dziedzinie czasu, wraz z przedziałami ufności
Współczynniki
Wartość
Minimum
Maksimum
b
a
1,01
–0,082
0,77
–0,102
1,26
–0,062
Podobnie jak w przypadku skalowania w domenie przestrzeni, odpowiedni model zostanie stworzony na podstawie wyników planowanych testów subiektywnych.
WNIOSKI I PLANY DALSZYCH BADAŃ
W artykule przedstawiono wyniki badań nad modelowaniem subiektywnego odbioru jakości dla niezależnego wpływu trzech metod skalowania (domena kompresji, przestrzeni i czasu). Analiza
statystyczna otrzymanych wyników pokazuje, że było możliwe
uzyskanie stosunkowo wysokich (jak na miarę NR) współczynników korelacji rzędu (odpowiednio): 0,90, 0,86 i 0,83. Otrzymane
rezultaty wydają się potwierdzać poprawność kierunku prowadzonych badań.
Zaprezentowane wyniki pokazują jednakże, że bardzo istotny
wpływ na korelację miar jakości, ma treść sekwencji wizyjnych.
Wobec powyższego w najbliższym czasie planuje się przeprowadzić serię eksperymentów psychofizycznych, w których nacisk zostanie położony na różnorodność (w sensie ruchu i liczby detali
obrazu) prezentowanych sekwencji wizyjnych. Umożliwi to modyfikację zaprezentowanych miar, mająca na celu poprawę ich korelacji z odpowiedziami subiektywnymi, dla każdego rodzaju prezentowanych treści.
LITERATURA
[1] Leontaris A., Reibman A. R.: Comparison of blocking and blurring
metrics for video compression, IEEE International Conference on
Acoustics, Speech, and Signal Processing, 2005, Proceedings
(ICASSP '05), Vol. 2
[2] Knoche H., J. D. McCarthy J. D., Sasse M. A.: Can small be beautiful?: Assessing image resolution requirements for mobile TV, Proceedings of the 13th annual ACM international conference on Multimedia, Singapur 2005
[3] International Telecommunication Union, Recommendation BT. 50011, Methodology for the subjective assessment of the quality of television pictures, Geneva 2002
[4] International Telecommunication Union, Recommendation ITU-T P.
910, Subjective video quality assessment methods for multimedia
applications, Geneva 1999
[5] Pandel J.: Measuring of Flickering Artifacts in Predictive Coded Video Sequences, Ninth International Workshop on Image Analysis
for Multimedia Interactive Services, Klagenfurt, Austria, May 7-9,
2008
[6] Janowski L., Papir Z.: Modeling Subjective Tests of Quality of Experience with a Generalized Linear Model, First International Workshop on Quality of Multimedia Experience QoMEX 2009, San Diego 2009
[7] Ries M., Nemethova O., Rupp M.: Performance Evaluation of Mobile Video Quality Estimators, European Signal Processing Conference (EUSIPCO 2007), Poznań 2007
[8] Romaniak P., Janowski L., Leszczuk M., Papir Z.: Ocena jakości sekwencji wizyjnych dla aplikacji strumieniowania na żywo w środowisku mobilnym, Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT 2009, Warszawa 2009
[9] Tourancheau S., Le Callet P., Barba D.: Impact of the Resolution on
the Difference of Perceptual Video Quality Between CRT and LCD,
IEEE International Conference on Image Processing, 2007, ICIP
2007, Vol. 3
[10] VQEG, Draft Final Report from the Video Quality Experts Group on
the Validation of Objective Models of Multimedia Quality Assessment, Phase I, 2008
[11] VQEG, Index VQEG Test Sequences, dostępne pod adresem http:
//media.xiph.org/vqeg/TestSeqences/ThumbNails/, 2008
[12] VQEG, Video Quality Experts Group, dostępne pod adresem http:
//www.its.bldrdoc.gov/vqeg/, 2009
[13] S. Winkler, Digital Video Quality – Vision Models and Metrics, John
Wiley & Sons, Ltd, 2005
Przedstawiona praca była wspierana przez Komisję Europejską w ramach projektu Sieci Doskonałości CONTENT
(Numer Grantu FP6-0384239) oraz przez Ministerstwo Nauki
i Szkolnictwa Wyższego w ramach projektu o Numerze Grantu PBZ-MNiSW-02/II/2007.
Zapraszamy na stronę internetową
Przeglądu Telekomunikacyjnego
i W iadomości Telekomunikacyjnych
www.ptiwtel.neostrada.pl
Większość informacji jest zamieszczona również w angielskiej wersji językowej
804
PRZEGLĄD TELEKOMUNIKACYJNY z ROCZNIK LXXXII z nr 8–9/2009