Ocena postrzeganej jakości usług strumieniowania wideo w
Transkrypt
Ocena postrzeganej jakości usług strumieniowania wideo w
Lucjan JANOWSKI*, Mikołaj LESZCZUK*, Zdzisław PAPIR*, Piotr ROMANIAK* Ocena postrzeganej jakości usług strumieniowania wideo w scenariuszu bez referencji ze skalowaniem przepływności Zdobywające coraz większą popularność usługi strumieniowania sekwencji wizyjnych borykają się wciąż z problemem ograniczonej przepływności łączy dostępowych. O ile w przypadku połączeń przewodowych, z reguły są już dostępne przepływności rzędu megabitów, o tyle dla łączy bezprzewodowych wyższe szybkości bitowe nie są już tak powszechne. Problem ten dotyczy zwłaszcza użytkowników mobilnych, którzy nie mogą oczekiwać stabilnego łącza o wysokiej przepływności. Wobec powyższego, rozwiązaniem umożliwiającym uruchamianie usług strumieniowania sekwencji wizyjnych dla takich łączy dostępowych jest transkodowanie „w locie” strumieni wizyjnych. Efektem transkodowania jest skalowanie przepływności (i zarazem jakości) umożliwiające dostosowanie przesyłanego strumienia do aktualnych parametrów łącza dostępowego. Skalowanie jakości dla sekwencji wizyjnych odbywa się zazwyczaj w (często nierozłącznych) domenach kompresji, przestrzeni i czasu. Skalowanie w domenie kompresji sprowadza się zwykle do operowania współczynnikiem kwantyzacji kodeka. Skalowanie w domenie przestrzeni oznacza zmniejszanie efektywnej rozdzielczości obrazu powodujące zwiększanie jego granularności (przy próbie przywrócenia oryginalnych rozmiarów wyświetlanych treści). Skalowanie w domenie czasu sprowadza się do odrzucania klatek, czyli zmniejszania liczby przesyłanych klatek na sekundę (Frames Per Secondo – FPS). Wspomniane powyżej metody skalowania nieuchronnie prowadzą do obniżania jakości postrzeganej przez użytkownika końcowego usługi (Quality of Experience – QoE). Dlatego też proces skalowania powinien być monitorowany pod względem poziomu QoE. Daje to możliwość nie tylko kontroli ale także maksymalizacji poziomu QoE w czasie rzeczywistym, w zależności od panujących warunków transmisyjnych. W sytuacji niemożności osiągnięcia zadowalającego poziomu QoE, operator może intencjonalnie przerwać świadczenie usługi, co być może pozwoli zaoszczędzone w ten sposób zasoby sieciowe przeznaczyć dla innych użytkowników. Niestety, określanie poziomu QoE w żadnym wypadku nie może sprowadzać się do prostej maksymalizacji parametrów ilościowych zadawanych w każdej z trzech domen. Percepcja użytkownika, oparta na systemie wizyjnym człowieka (Human Visual System HVS) jest bowiem silnie nieliniowa i zależna od wielu zmiennych (na przykład treści wizyjnej). Wobec tego podejmuje się próby tworzenia modeli służących automatycznemu określaniu poziomu QoE za pomocą analizy treści wizyjnej odbieranej przez użytkownika. W ostatnich latach szczególnego znaczenia nabrały tzw. modele NR (No Reference), które do oceny jakości QoE nie potrzebują dostępu do sekwencji referencyjnych (przed skalowaniem). W praktyce są to jedyne modele aplikowalne w środowisku rzeczywistym (pozalaboratoryjnym). * Katedra Telekomunikacji, Akademia Górniczo-Hutnicza w Krakowie, e-mail: [email protected], [email protected], 800 Szczególnie trudne są próby określania wpływu skalowania w domenie kompresji na jakość postrzeganą QoE. Sam współczynnik kompresji nie jest wystarczającym wskaźnikiem jakości postrzeganej. Konieczne jest określenie (w modelu NR) wpływu tej manipulacji na efekty wywołane w obrazie. Najważniejszymi efektami towarzyszącymi stratnej kompresji są artefakt blokowy i migotanie bloków. Do określenia jakości QoE jest niezbędne dokładne ilościowe oszacowanie nasilenia tych efektów. Podane w pozycjach literatury ([1], [8], [9]) liczne modele zazwyczaj nie osiągają wystarczającej korelacji z rzeczywistymi ocenami użytkowników. Znacznie łatwiejsze jest modelowanie wpływu skalowania w domenie czasu, gdyż tutaj przynajmniej wartość współczynnika FPS jest jawnie dostępna. Próby modelowania wpływu skalowania w tej domenie na jakość postrzeganą podjęto m. in. w pracy [7]. Podobnie relatywnie mniej skomplikowane jest określenie wpływu spadku efektywnej rozdzielczości (czyli wzrostu granularności) obrazu ruchomego na efekty wizualne. Efekty te były badane w pracach ([2], [9]) (choć dla drugiej z prac – w innych zastosowaniach). Metodyka prezentowanych w artykule badań opiera się na testach subiektywnego odbioru jakości dla niezależnego wpływu trzech wspomnianych powyżej metod skalowania. Dodatkowo zostały przeprowadzone badania nad stworzeniem metryk oceny każdego z parametrów jakości, a także zostały przedstawione wyniki analizy statystycznej otrzymanych wyników. Pierwszą wartością dodaną prezentowanych badań jest zapewnienie identycznego środowiska eksperymentu psychofizycznego dla wszystkich trzech domen skalowania jakości, wraz z innowacyjnym zastosowaniem 11-stopniowej skali jakości. Daje to możliwość porównania uzyskanych wyników dla wszystkich rozważanych metod skalowania, a także budowy w przyszłości zintegrowanego modelu, uwzględniającego jednoczesne kombinacje metod. Drugim nowatorskim elementem jest miara oceny spadku jakości spowodowanej dużą wartością QP – miara ta charakteryzuje się bardzo wysoką korelacją z ocenami subiektywnymi. Kolejną wartością dodaną jest szczegółowa analiza statystyczna otrzymanych wyników pod względem korelacji z MOS (Mean Opinion Score) i wiarygodności statystycznej. Jest to element często pomijany w pracach poświęconych modelowaniu QoE. Co więcej, różne sekwencje wizyjne użyte w testach subiektywnych były rozważane jako dodatkowa zmienna niezależna, umożliwiło to, w niektórych przypadkach, na statystyczną analizę wpływu danej sekwencji na dokładność otrzymanej miary. Konstrukcja dalszych sekcji artykułu jest następująca. Sekcja następna przedstawia środowisko eksperymentu psychofizycznego. Sekcja kolejna traktuje o pomiarze artefaktów (artefaktu blokowego i migotania bloków). Sekcja przedostatnia prezentuje analizę wyników w zakresie skalowania w domenie kompresji, przestrzeni i czasu. Wnioski i plany dalszych badań zostały zawarte w sekcji ostatniej. PRZEGLĄD TELEKOMUNIKACYJNY z ROCZNIK LXXXII z nr 8–9/2009 ŚRODOWISKO EKSPERYMENTU PSYCHOFIZYCZNEGO W celu prawidłowego zmodelowania parametrów jakości obrazu, stworzono stosowne środowisko do przeprowadzenia eksperymentu psychofizycznego. Eksperyment wykonano w Akademii Górniczo-Hutniczej w Krakowie. Wzięło w nim udział około 100 studentów. Zapewniono jednakowe warunki (monitory LCD i oświetlenie) dla wszystkich stanowisk testowych (rys. 1). Do określania ocen jakości obrazu użyto metodyki ITU-T ACR (Absolute Category Rating). Metodyka testów subiektywnych pochodzi z raportu Multimedia (MM) [10], przygotowanego przez VQEG. Sama metodyka ACR została opisana w Zaleceniu ITU-T P. 910 [4]. Metodyk reprezentuje podejście typu Single-Stimulus (SS), co oznacza, że wszystkie sekwencje wizyjne zawarte w zbiorze testowym są prezentowane jedna po drugiej bez możliwości porównania z referencją. Sekwencje referencyjne są zawarte w zbiorze testowym i poddawane ocenie na takich samych zasadach jak pozostałe. Takie podejście jest nazywane ACR-HR (ACR with Hidden Reference). Zgodnie z nowymi wytycznymi VQEG dotyczącymi metodyki ACR, użyta została jedenastostopniowa numeryczna skala jakości [4]. Jest to podejście innowacyjne, gdyż dotychczas w testach stosowano zazwyczaj pięciostopniową skalę MOS [1]. POMIAR ARTEFAKTÓW WIDEO SPOWODOWANYCH SKALOWANIEM W DZIEDZINIE KOMPRESJI Rys. 1. Środowisko eksperymentu psychofizycznego. W eksperymencie zostały użyte cztery sekwencje testowe VQEG (Video Quality Experts Group) [11], [12]: Betes (rys. 2a), Autumn (rys. 2b), Football (rys. 2c), Susie (rys. 2d). Sekwencje te odzwierciedlają dwie różne charakterystyki treści (ruch i liczbę detali obrazu). a) b) c) d) Jak zaznaczono we wprowadzeniu, skalowanie w domenie kompresji jest jedyną metodą wymagającą stworzenia metryk do pomiaru artefaktów obrazu. Sam współczynnik kompresji nie jest wystarczający do określenia poziomu utraty jakości postrzeganej QoE. Rozdział ten zawiera opis metryk służących do oceny typowych artefaktów wideo spowodowanych stratną kompresją przy użyciu kodeka H. 264 implementacji X264. Pomiar dokonywany jest w scenariuszu bez referencji. Pierwsza metryka służy do oceny artefaktu blokowego (spowodowanego stratną kompresją wewnątrzklatkową), natomiast druga do oceny migotania bloków obrazu (spowodowanego kompresją międzyklatkową). Artefakt blokowy Konstrukcja metryki do pomiaru artefaktu blokowego została oparta na założeniu, że każdy pojedynczy artefakt blokowy ma przynajmniej jeden widoczny róg, wyrównany do granic bloków kodowych [8]. W zaproponowanym przez autorów podejściu miara obliczana jest lokalnie, dla każdego bloku kodowego obrazu. Absolutna różnica w jasności pikseli liczona jest oddzielnie dla par pikseli znajdujących się w obszarze jednego bloku, oraz par pikseli z sąsiadujących bloków. Stosunek tych wielkości stanowi miarę artefaktu blokowego. Efekt migotania bloków Rys. 2. Cztery sekwencje testowe VQEG Sekwencje wideo zostały zakodowane przy użyciu kodeka H. 264 (implementacja X264) main-profile (Level 40). Zgodnie z zaleceniami VQEG, tak dobrano QP, aby otrzymać średnie przepływności strumieni rzędu 5000 kbit/s (współczynnik kompresji, Compression Ratio, CR, równy 50,38848), 1000 kbit/s (CR=251,9424), 500 kbit/s (CR=503,8848), 300 kbit/s (CR=839,808), 200 kbit/s (CR=1259,712) oraz 100 kbit/s (CR=2519,424). Początkowy współczynnik liczby klatek na sekundę wynosił 30. Dodatkowo zbadano FPS o wartościach 15, 10, 7.5, 6 i 5. Efektywną rozdzielczością początkową była rozdzielczość SD/D-1 NTSC (720×486). Dodatkowo zbadano rozdzielczości 525 HHR (352×480), SIF (352×240), QCIF (176×144) oraz SQCIF (128×96). PRZEGLĄD TELEKOMUNIKACYJNY z ROCZNIK LXXXII z nr 8–9/2009 Pomiar migotania bloków obrazu (flickering) został zainspirowany pracą przedstawioną przez Pandela w [5]. Zgodnie z nią migotanie jest najważniejszym typem zniekształcenia występującego dla sekwencji wideo z kodowaniem międzyramkowym. Zjawisko to jest widoczne dla sekwencji wizyjnych zakodowanych z użyciem np. kodeków H. 264 (w badaniach użyto implementacji X264). Szczególnie podatne na ten efekt są sekwencje wideo zawierające powolną zmianę perspektywy (przemieszczająca się kamera, przybliżenie, oddalenie lub obrót). W schematach kodowania międzyramkowego wartości poszczególnych bloków nie są aktualizowane (kodowane), dopóki różnica pomiędzy odpowiadającym blokiem z kolejnych ramek nie przekracza dopuszczalnej wartości. Im większa kompresja, tym większa jest ta wartość. Sugeruje to, że bloki obrazu mogą pozostawać w jednym z dwóch stanów: 1) brak aktualizacji lub 2) aktualizacja. Częste przejścia pomiędzy tymi stanami będą oznaczać mocny efekt migotania. Dwustanowy model z histerezą do pomiaru migotania zaprezentował Pandel w [5]. Miara jest obliczana lokalnie dla każdego bloku obrazu, jako liczba przejść pomiędzy stanami norma- 801 Otrzymane odpowiedzi testerów są dyskretnymi liczbami od 0 do 10, gdzie odpowiedzi 0 i 10 nie powinny być wybierane (zgodnie z ich opisem jakość sekwencji dla odpowiedzi 0 jest skrajnie niska natomiast dla odpowiedzi 10 jest praktycznie perfekcyjna). Taka konstrukcja skali odpowiedzi pozwala estymować miarę jakości postrzeganej przez użytkownika QoE w funkcji metryk za pomocą klasycznej teorii regresji liniowej. W [6] można znaleźć opis modelowania miary QoE w przypadku mniejszej liczby odpowiedzi udzielanych przez testerów. Pozostaje otwarty problem wyboru funkcji, jaką będziemy estymować. W wielu publikacjach oraz samych standardach są używane funkcje liniowe, jednak w tej pracy użyto funkcji logit opisanej w [3]. Głównym powodem jest fakt, że funkcja logit rzutuje zbiór liczb rzeczywistych na przedział (0,1), co umożliwia modelować za pomocą metryk mających dowolne wartości odpowiedzi testerów, które są ograniczone do pewnego przedziału (w tych badaniach jest to przedział (0, 11)). Funkcja logit dana jest wzorem: f (x ) = 1 . 1 + exp( x ) (1) Ponieważ w rozważanym przypadku odpowiedzi ograniczone są do przedziału (0, 10) oraz metryka jakości może mieć różną skalę, ostateczna estymowana funkcja ma postać: MOS(x ) = 10 , 1 + exp( ax + b ) (2) gdzie a i b to estymowane parametry zaś x to metryka użyta do estymacji miary MOS. W dalszej części artykułu będziemy odwoływać się do otrzymanych wartości a i b, parametryzujących otrzymaną miarę jakości postrzeganej przez użytkownika. Oddzielnie zostały rozważone trzy skalowania: w domenie kompresji, przestrzeni oraz czasu. Skalowanie w domenie kompresji Wykres korelacji dla metryk do pomiaru artefaktu blokowego i migotania bloków jest przedstawiony na rys. 3. Dla migotania 802 8 7 ODPOWIEDZI LOGIT, R2=0,69 7 MOS/MODEL 5 5 4 4 3 3 2 2 1 0 ODPOWIEDZI LOGIT, R2=0,87 8 6 MOS/MODEL 6 b)9 1 0,65 0,7 0,75 0,8 0,85 0,9 0,95 1 METRYKA ARTEFAKTU BLOKOWEGO 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 METRYKA MIGOTANIA BLOKU Rys. 3. Wykresy korelacji dla metryk do pomiaru artefaktu blokowego i migotania bloków. Przedziały ufności wartości MOS zostały pominięte dla zwiększenia czytelności wykresu. Wszystkie otrzymane szerokości przedziału ufności są mniejsze od 0,81: a) miara artefaktu blokowego; b) miara migotania bloków bloków najlepsze wyniki korelacji z MOS uzyskano dla następujących parametrów: wartości progu 0,9 i 2% bloków użytych do obliczenia miary dla całej ramki. Pierwszym spostrzeżeniem nasuwającym się podczas analizy wykresu dla miary artefaktu blokowego jest zbyt duży rozrzut odpowiedzi otrzymany dla tej samej wartości miary. W celu głębszej analizy są przydane wykresy przedstawione na rys. 4, pokazujące, jak punkty układają się dla poszczególnych sekwencji. a)9 8 7 6 BETES 8 FOOTBALL 7 SUSIE 5 BETES AUTUMN FOOTBALL SUSIE 6 5 4 4 3 3 2 2 1 0 b)9 AUTUMN MOS/MODEL ANALIZA WYNIKÓW TESTÓW SUBIEKTYWNYCH I WPŁYWU SKALOWANIA PRZEPŁYWNOŚCI NA JAKOŚĆ POSTRZEGANĄ QoE a)9 MOS/MODEL lizowana względem czasu (większa przejść oznacza większy poziom migotania). Naszą wartość dodaną do pracy Pandela stanowią trzy elementy opisane w [8]. Po pierwsze, definicja progu przełączania pomiędzy stanami. W [5] zastosowano inny sposób obliczania tego poziomu, a jego wartość nie została podana. W naszych badaniach obliczamy ten próg dynamicznie, jako sumę różnic w jasności pikseli dla każdego z bloków obrazu, każdy rozmiaru 8×8 pikseli. W celu wyboru odpowiedniej wartości progu przeanalizowano zakres od 0,3 do 1,4 (gdzie 1 oznacza maksymalny poziom jasności). Kolejnym dodanym elementem jest zaproponowanie metody uśredniania wartości miary dla całej ramki wideo (spatial pooling), zakładającej uśrednianie bloków mających największą wartość miary. Uwzględnia to fakt, że człowiek oglądający sekwencję wizyjną wyrabia sobie opinię o jej jakości na podstawie kilku najgorszych punktów obrazu, bez uśredniania całości. Przebadanym zakresem liczby bloków używanych do obliczania miary dla całej ramki był przedział od 0,5% do 10% całkowitej liczby. Ostatnim i najważniejszym elementem dodanym jest fakt takiego wyboru opisanych powyżej parametrów (próg przełączania oraz procent bloków), aby uzyskać maksymalną korelację powstałej miary z odczuciami użytkowników, obliczoną na podstawie porównania z wynikami testów subiektywnych. 1 0,65 0,7 0,75 0,8 0,85 0,9 0,95 1 METRYKA ARTEFAKTU BLOKOWEGO 0 0 100 200 300 400 500 600 700 METRYKA ARTEFAKTU BLOKOWEGO Rys. 4. Porównanie dopasowania miar dla wybranych sekwencji w przypadku metryki artefaktu blokowego oraz z pominięciem sekwencji Autumn w przypadku metryki migotania bloków: a) miary artefaktu blokowego otrzymane dla sekwencji Football i Susie; b) miara migotania bloków otrzymana z pominięciem sekwencji Autumn Sekwencja Football, dla metryki artefaktu blokowego, została oceniona znacznie lepiej przez testerów, niż przez obiektywną metrykę (zobacz rys. 4 (a)). Odpowiedź na taką rozbieżność ocen można znaleźć w analizie charakterystyk sekwencji wideo (liczba ruchu i detali obrazu) zestawionej z własnością ludzkiego systemu postrzegania zwaną maskowaniem [13]. Teoria maskowania mówi, że percepcja wybranego celu na obrazie jest zawsze funkcją otaczającego tła. Co więcej, próg dostrzegalności obranego celu zależy od kontrastu i charakterystyk tła [13]. W naszym przypadku bardzo duże liczby dotyczące ruchu i detali obrazu uniemożliwiają dostrzeżenie zniekształceń blokowych (a raczej ograniczają ich wpływ na wizualne pogorszenie jakości). Innymi słowy, artefakt blokowy będzie bardziej widoczny dla jednorodnych i wolnozmiennych sekwencji wideo. Najprostszym rozwiązaniem przedstawionego problemu jest obniżanie wartości (ważenie) miary artefaktu blokowego w przypadku sekwencji o charakterystykach przypominających Football. Ograniczona liczba sekwencji wizyjnych użytych w testach uniemożliwia zbudowanie odpowiedniego modelu. Konieczne jest przeprowadzenie testów na znacznie bogatszym materiale testowym. Kolejną sekwencją, która odstaje od średniej, jest Autumn. Tym razem sekwencja ta została oceniona znacznie gorzej przez testerów, niż przez obiektywną metrykę migotania bloków (krzyżyki na wykresie (rys. 4). Inspekcja wizualna rozpatrywanej sekwencji ujawniła, że silna kompresja H. 264 w rzeczywistości nie spowodowała silnego artefaktu blokowego. Innym dominującym PRZEGLĄD TELEKOMUNIKACYJNY z ROCZNIK LXXXII z nr 8–9/2009 poziom jakości obniża się ze względu na mniejszą dostrzegalną liczbę szczegółów. Wydaje się, że taką metrykę bardzo łatwo stworzyć, ponieważ strumień wideo wysyła informację na temat rozdzielczości przesyłanego obrazu. Na rys. 6 przedstawiono miarę MOS w funkcji pierwiastka liczby punktów obrazu wideo. 9 8 7 MOS/MODEL w tym przypadku zniekształceniem jest migotanie bloków. Tak jak opisano we wcześniejszych rozdziałach, najbardziej narażone na migotanie bloków są sekwencje zawierające powolną zmianę perspektywy zakodowane z użyciem H. 264. Jest to dokładnie przypadek sekwencji Autumn. Zgodnie z oczekiwaniami, odwrotny efekt wystąpił przy porównaniu ocen subiektywnych i wyników obiektywnej metryki do pomiaru migotania bloków. Tym razem sekwencja Autumn została oceniona znacznie lepiej przez testerów, niż przez metrykę (tak jak pokazano na (b)). Zaprezentowana analiza wyników sugeruje, że wpływ kompresji H. 264 na jakość, postrzeganą dla zróżnicowanego materiału wideo, nie może być poprawnie oceniony z użyciem tylko jednej metryki. Kombinacja dwóch zaprezentowanych metryk daje znacznie lepsze wyniki (w rozumieniu korelacji z MOS). Otrzymany współczynnik korelacji R^2 dla wykresu na rys. 5 wynosi 0,90, czyli jest lepszy od tych otrzymanych oddzielnie dla każdej z metryk. 6 5 4 2 100 150 9 MOS KOMBINACJI METRYK 8 200 250 300 350 400 450 500 550 600 PIERWIASTEK LICZBY PUNKTÓW Rys. 6. Rozrzut odpowiedzi dla skalowania w dziedzinie przestrzeni. Przedziały ufności wartości MOS zostały pominięte dla zwiększenia czytelności wykresu. Wszystkie otrzymane szerokości przedziału ufności są mniejsze od 0,88 7 6 5 Na podstawie rys. 6 można stwierdzić, że sama informacja na temat liczby wyświetlanych punktów nie jest wystarczająca. Jednak w tym przypadku nie udało się znaleźć dodatkowej miary w sposób ewidentny poprawiającej otrzymany współczynnik R^2. Planowane testy subiektywne z wykorzystaniem znacznie bogatszego zbioru sekwencji testowych umożliwią rozwiązanie tego problemu. 4 3 2 1 0 ODPOWIEDZI LOGIT, R2=0,86 3 0 1 2 4 3 5 MOS 6 7 8 9 Rys. 5. Wykres wartości otrzymanych z miary w funkcji wartości obserwowanych w rzeczywistości dla kombinacji metryk artefaktu blokowego i migotania bloków Wykres na rys 5. przekonuje, że metryki do oceny artefaktu blokowego i pomiaru migotania bloków uzupełniają się wzajemnie w zadaniu percepcyjnej oceny jakości kompresji H. 264, co jest zgodne z naszą intuicją. Wykres na rys 5 jest inny od wykresów prezentowanych dla miar pojedynczych, ponieważ dla zintegrowanej metryki musielibyśmy przedstawić wykres 3D, który jest nieczytelny. Ostatecznie przedstawiamy wykres pokazujący zależność pomiędzy wartością obserwowaną (oceny testerów) a estymowaną (wynik działania miary) za pomocą kombinacji metryk. Tabela 1. Współczynniki miary jakości kompresji wraz z przedziałami ufności Współczynniki Wartość Minimum Maksimum b am am 1,88 4,05 -3,52 0,033 2,93 -5,32 3,72 5,18 –1,72 Współczynniki modelu otrzymane dla wspólnej miary podane są w tabeli 1. Wzór opisujący wspólną miarę jest prostym uogólnieniem wzoru (2) do postaci: Tabela 2. Współczynniki miary jakości skalowania przestrzeni wraz z przedziałami ufności Współczynniki Wartość Minimum Maksimum b a 1,05 –2,66 0,74 –3,28 1,37 –2,04 Otrzymany model jest opisany parametrami przedstawionymi w tabeli 2. Współczynniki przedstawione w tej tabeli. 2. otrzymano po znormalizowaniu pierwiastka liczby punktów. Normalizacja polegała na podzieleniu pierwiastka liczby punktów przez 600. Celem tej normalizacji było otrzymanie stabilniejszych wyników. Nie ma to wpływu na stosowalność otrzymanego modelu. Skalowanie w domenie czasu Skalowanie w domenie czasu jest związane ze sterowaniem przesyłania liczby klatek wyświetlanych na sekundę. Oczywiście sekwencje wizyjne mające mniejszą liczbę klatek na sekundę są mniej płynne, co powinno wpłynąć na ich jakość. Można zauważyć, że w tym przypadku sama miara jest perfekcyjna, ponieważ posiadamy informację na temat liczby klatek na sekundę. Okazuje się jednak, że znów taka informacja jest niewystarczająca (rys. 7). 8 gdzie am jest współczynnikiem dla metryki migotania bloków, aa jest współczynnikiem dla metryki artefaktu blokowego. Otrzymane współczynniki mają szerokie przedziały ufności. Spowodowane jest to relatywnie niedużą liczbą punktów, z których estymowany jest model. Ponieważ współczynnik dopasowania R^2 jest wysoki, to uważamy, że otrzymana miara jest dokładna. W dalszych badaniach będziemy chcieli potwierdzić to dla innych sekwencji. 7 7 Skalowanie w domenie przestrzeni Kolejnym sposobem zmniejszenia liczby przesyłanych danych jest zmniejszenie rozdzielczości obrazu. W takim przypadku PRZEGLĄD TELEKOMUNIKACYJNY z ROCZNIK LXXXII z nr 8–9/2009 MOS/MODEL b)9 8 10 , 1 + exp( am x m + aa x a + b ) MOS/MODEL a) 9 (3) MOS( x m , x a ) = 6 6 5 5 4 4 ODPOWIEDZI LOGIT, R2=0,83 3 2 5 10 15 20 25 LICZBA KLATEK NA SEKUNDĘ 30 3 2 5 FILMY A I D FILMY B I C LOGIT, R2=0,95 LOGIT, R2=0,95 10 15 20 25 LICZBA KLATEK NA SEKUNDĘ 30 Rys. 7. Rozrzut odpowiedzi dla skalowania w dziedzinie czasu. Miary wpływu zmiany liczby klatek na sekundę: a) dla wszystkich sekwencji, b) dla grup sekwencji. Przedziały ufności wartości MOS zostały pominięte dla zwiększenia czytelności wykresu. Wszystkie otrzymane szerokości przedziału ufności są mniejsze od 0,93 803 Analiza statystyczna pozwoliła wykazać, że wyniki otrzymane dla dwóch sekwencji wizyjnych: Betes i Susie statystycznie się nie różnią od siebie. Podobnie wyniki otrzymane dla sekwencji Autumn i Football są statystycznie takie same. Pozwoliło to na stworzenie dwóch oddzielnych modeli o znacznie lepszym współczynniku dopasowania niż te otrzymane dla modelu uwzględniającego wszystkie sekwencje. Powodem powstania takiej różnicy jest duża liczba detali obrazu i ruchu odpowiednich dla sekwencji Autumn i Football. Sugeruje to odpowiednie warzenie wartości miary opartej na liczbie klatek na sekundę w przypadku nasilenia jednej lub obydwu cech jednocześnie. Ponieważ zbudowanie modelu umożliwiającego uwzględnienie pewnych specyficznych cech sekwencji nie było możliwe, ostateczne wyniki przedstawione w tabeli 3 są wynikami modelu przedstawionego na rys. 7a. Tab. 3. Współczynniki miary jakości skalowania w dziedzinie czasu, wraz z przedziałami ufności Współczynniki Wartość Minimum Maksimum b a 1,01 –0,082 0,77 –0,102 1,26 –0,062 Podobnie jak w przypadku skalowania w domenie przestrzeni, odpowiedni model zostanie stworzony na podstawie wyników planowanych testów subiektywnych. WNIOSKI I PLANY DALSZYCH BADAŃ W artykule przedstawiono wyniki badań nad modelowaniem subiektywnego odbioru jakości dla niezależnego wpływu trzech metod skalowania (domena kompresji, przestrzeni i czasu). Analiza statystyczna otrzymanych wyników pokazuje, że było możliwe uzyskanie stosunkowo wysokich (jak na miarę NR) współczynników korelacji rzędu (odpowiednio): 0,90, 0,86 i 0,83. Otrzymane rezultaty wydają się potwierdzać poprawność kierunku prowadzonych badań. Zaprezentowane wyniki pokazują jednakże, że bardzo istotny wpływ na korelację miar jakości, ma treść sekwencji wizyjnych. Wobec powyższego w najbliższym czasie planuje się przeprowadzić serię eksperymentów psychofizycznych, w których nacisk zostanie położony na różnorodność (w sensie ruchu i liczby detali obrazu) prezentowanych sekwencji wizyjnych. Umożliwi to modyfikację zaprezentowanych miar, mająca na celu poprawę ich korelacji z odpowiedziami subiektywnymi, dla każdego rodzaju prezentowanych treści. LITERATURA [1] Leontaris A., Reibman A. R.: Comparison of blocking and blurring metrics for video compression, IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005, Proceedings (ICASSP '05), Vol. 2 [2] Knoche H., J. D. McCarthy J. D., Sasse M. A.: Can small be beautiful?: Assessing image resolution requirements for mobile TV, Proceedings of the 13th annual ACM international conference on Multimedia, Singapur 2005 [3] International Telecommunication Union, Recommendation BT. 50011, Methodology for the subjective assessment of the quality of television pictures, Geneva 2002 [4] International Telecommunication Union, Recommendation ITU-T P. 910, Subjective video quality assessment methods for multimedia applications, Geneva 1999 [5] Pandel J.: Measuring of Flickering Artifacts in Predictive Coded Video Sequences, Ninth International Workshop on Image Analysis for Multimedia Interactive Services, Klagenfurt, Austria, May 7-9, 2008 [6] Janowski L., Papir Z.: Modeling Subjective Tests of Quality of Experience with a Generalized Linear Model, First International Workshop on Quality of Multimedia Experience QoMEX 2009, San Diego 2009 [7] Ries M., Nemethova O., Rupp M.: Performance Evaluation of Mobile Video Quality Estimators, European Signal Processing Conference (EUSIPCO 2007), Poznań 2007 [8] Romaniak P., Janowski L., Leszczuk M., Papir Z.: Ocena jakości sekwencji wizyjnych dla aplikacji strumieniowania na żywo w środowisku mobilnym, Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT 2009, Warszawa 2009 [9] Tourancheau S., Le Callet P., Barba D.: Impact of the Resolution on the Difference of Perceptual Video Quality Between CRT and LCD, IEEE International Conference on Image Processing, 2007, ICIP 2007, Vol. 3 [10] VQEG, Draft Final Report from the Video Quality Experts Group on the Validation of Objective Models of Multimedia Quality Assessment, Phase I, 2008 [11] VQEG, Index VQEG Test Sequences, dostępne pod adresem http: //media.xiph.org/vqeg/TestSeqences/ThumbNails/, 2008 [12] VQEG, Video Quality Experts Group, dostępne pod adresem http: //www.its.bldrdoc.gov/vqeg/, 2009 [13] S. Winkler, Digital Video Quality – Vision Models and Metrics, John Wiley & Sons, Ltd, 2005 Przedstawiona praca była wspierana przez Komisję Europejską w ramach projektu Sieci Doskonałości CONTENT (Numer Grantu FP6-0384239) oraz przez Ministerstwo Nauki i Szkolnictwa Wyższego w ramach projektu o Numerze Grantu PBZ-MNiSW-02/II/2007. Zapraszamy na stronę internetową Przeglądu Telekomunikacyjnego i W iadomości Telekomunikacyjnych www.ptiwtel.neostrada.pl Większość informacji jest zamieszczona również w angielskiej wersji językowej 804 PRZEGLĄD TELEKOMUNIKACYJNY z ROCZNIK LXXXII z nr 8–9/2009