automatyzacja metod oceny jako ci obrazów i mowy

Transkrypt

automatyzacja metod oceny jako ci obrazów i mowy
2003
Stefan BrachmaĔski
Instytut Telekomunikacji i Akustyki
Politechnika Wrocławska
50-370 Wrocław, WybrzeĪe WyspiaĔskiego 27
[email protected]
Poznañskie Warsztaty Telekomunikacyjne
Poznañ 11-12 grudnia 2003
AUTOMATYZACJA METOD OCENY JAKOĝCI OBRAZÓW I MOWY
Streszczenie: W pracy omówiono zalecane przez
International Telecommunication Union (ITU) najczĊĞciej
stosowane metody oceny jakoĞci obrazu oraz mowy.
Przedstawiono komputerowe stanowisko laboratoryjne do
subiektywnej i obiektywnej oceny jakoĞci obrazów
nieruchomych oraz subiektywnej oceny jakoĞci mowy
metodą ACR (Absolute Category Rating) oraz DCR
(Degradation Category Rating).
1.WSTĉP
Rozwijające siĊ współczeĞnie społeczeĔstwo
informacyjne wymaga usług telekomunikacyjnych,
pozwalających na zintegrowane uĪycie dĨwiĊku, obrazu
oraz danych w jednym Ğrodowisku telekomunikacyjnym.
Przesyłając sygnały multimedialne (m.in. obraz,
mowa) na odległoĞü wykorzystuje siĊ Ğrodki techniczne
o ograniczonych moĪliwoĞciach. Transmisja obrazów
oraz mowy z wykorzystaniem urządzeĔ analogowych
moĪe powodowaü m.in. zmniejszenie dynamiki sygnału
(zmniejsza
siĊ
odstĊp
sygnału
od
szumu),
zniekształcenia czĊstotliwoĞciowe sygnału. Natomiast
dla sygnału cyfrowego najwiĊksze zniekształcenia
związane są z zastosowaną metodą kompresji, bez której
nie byłoby moĪliwe powstanie systemów komunikacji
multimedialnej. Kompresja jest potrzebna nie tylko do
transmisji obrazów czy mowy, ale równieĪ do
zwiĊkszenia efektywnoĞci multimedialnych baz danych.
Sygnały multimedialne mogą byü poddane kompresji z
róĪnym współczynnikiem kompresji czyli stosunkiem
długoĞci oryginalnego łaĔcucha danych do długoĞci
łaĔcucha danych po kompresji. Osiągana wartoĞü
współczynnika kompresji zaleĪy od bardzo wielu
czynników, np. od treĞci obrazu, mowy lub sekwencji
wizyjnej. ZwiĊkszenie współczynnika kompresji, a tym
samym zmniejszeniu strumienia pociąga za sobą
pogorszenie siĊ jakoĞci sygnału multimedialnego
(obrazu, mowy) odtwarzanego w dekoderze. Kontrola
jakoĞci sygnału poddanego kompresji jak równieĪ
testowanie
nowych
rozwiązaĔ
kompresji
multimedialnych sygnałów cyfrowych moĪe byü
realizowana na podstawie pomiarów subiektywnych,
bądĨ obiektywnych [1 - 9].
odbywaü siĊ metodą wymuszenia pojedynczego lub
podwójnego.
W metodzie pojedynczego wymuszenia obserwator
ocenia badany obraz bez porównywania go z obrazem
wzorcowym. Obrazy prezentowane są w sekwencji
obraz badany – obraz szary. Czas ekspozycji obrazu
ocenianego wynosi 10s, a szarego 5s.
W metodzie podwójnego wymuszenia prezentacja
obrazów realizowana jest w dwóch wariantach.
Wariant I. Obraz wzorcowy lub sekwencja obrazów
oraz obraz oceniany lub ich sekwencja prezentowane są
tylko jeden raz (rys. 1a).
Wariant II. Obraz wzorcowy lub ich sekwencja
oraz obraz oceniany lub sekwencja tych obrazów
przedstawiane są dwukrotnie (rys. 1b).
Wariant II, który jest bardziej czasochłonny niĪ
wariant I, moĪe byü stosowany wówczas jeĪeli Īądana
jest bardzo dokładna dyskryminacja lub oceniana jest
sekwencja obrazów ruchomych.
W obu wariantach czas ekspozycji obrazu
wzorcowego (T1) i ocenianego (T3) wynosi 10s. Obrazy
wzorcowy i badany rozdzielone są obrazem szarym (T2),
wyĞwietlanym przez 3s. Ocena musi byü podana przed
upływem czasu przeznaczonego na ocenĊ (T4) i
wynoszącego od 5 do 11 s [4].
a)
T1
T2
T3
T4
Ocena
b)
T1 T2 T3 T2 T1 T2 T3
T4
Ocena
2. SUBIEKTYWNA OCENA JAKOĝCI OBRAZÓW
Subiektywna ocena jakoĞci obrazu, zalecana przez
International Telecommunication Union ITU-R [4, 5],
polega na uĞrednieniu ocen podanych przez widzów
biorących udział w pomiarze. Prezentacja obrazów moĪe
Rys. 1. Prezentacja obrazów podczas pomiarów jakoĞci
obrazów. Poszczególne fazy prezentacji oznaczają:
T1 - 10s – obraz wzorcowy, T2 - 3s - obraz szary,
T3 - 10s - obraz oceniany, T4 – 5-11s – obraz szary
Oceny dokonuje grupa obserwatorów złoĪona z co
najmniej 15 osób nie bĊdących ekspertami. WłaĞciwa
sesja pomiarowa rozpoczyna siĊ - po krótkim, trwającym
30 min treningu - od sekwencji piĊciu prezentacji
mających na celu stabilizacjĊ opinii obserwatorów.
Ocena tych sekwencji nie jest brana pod uwagĊ w
obliczeniach koĔcowych. W trakcie trwania sesji
dokonuje siĊ prezentacji obrazów lub sekwencji obrazów
stosownie do wybranego wariantu. Po kaĪdej prezentacji
obserwatorzy dokonują oceny w piĊciostopniowej skali
jakoĞci. ITU-R zaleca stosowanie dwóch skal (Tab. 1):
1. skalĊ jakoĞci,
2. skalĊ degradacji
Tab.1 Skale ocen obrazu zalecane przez ITU-R [4].
PiĊciostopniowa skala
jakoĞci
degradacji
Obraz:
Pogorszenie:
5 - bardzo dobry
4 - dobry
3 - dostateczny
2 - mierny, słaby
1 - zły, niedostateczny
5 – niezauwaĪalne
4 – zauwaĪalne, lecz niedokuczliwe
3 – lekko dokuczliwe
2 – dokuczliwe
1 – bardzo dokuczliwe
Ocena moĪe byü równieĪ podawana na skali
ciągłej, co pozwala uniknąü wpływu zaokrąglania ocen
na wartoĞü Ğrednią liczoną
3. SUBIEKTYWNA OCENA JAKOĝCI MOWY
Obecnie, najczĊĞciej stosowaną metodą oceny
jakoĞci mowy oprócz pomiaru wyrazistoĞci logatomowej
jest metoda ACR (Absolute Category Rating) lub
metoda DCR (Degradation Category Rating) [6].
Metoda ACR (Absolute Category Rating) jest
zalecana przez International Telecommunication Union
(ITU) do oceny jakoĞci transmisji sygnału mowy w
analogowych i cyfrowych kanałach telekomunikacyjnych oraz systemów kodowania mowy. W tej metodzie
wykorzystywane są listy testowe złoĪone z prostych,
krótkich, nie związanych z sobą semantycznie zdaĔ.
Lista podzielona jest na grupy złoĪone z piĊciu zdaĔ.
Zdania nie powinny byü zbyt krótkie, jak równieĪ zbyt
długie; powinny trwaü 2-3s. Materiał testowy powinien
byü odpowiednio przygotowany i zarejestrowany.
Mówca powinien wypowiadaü zdania płynnie; nie moĪe
mieü Īadnych wad wymowy (np. jąkanie siĊ,
seplenienie, itp.). PoniewaĪ głosy mĊski i ĪeĔski
charakteryzują siĊ odmiennymi właĞciwoĞciami, w
pomiarach powinny byü uwzglĊdnione obydwa typy
głosów. Wyniki otrzymane dla głosów mĊskich i
ĪeĔskich powinny byü oceniane oddzielnie; uĞredniaü
moĪna je tylko wówczas, gdy nie róĪnią siĊ istotnie.
Celem ograniczenia wpływu indywidualnych cech głosu
mówcy
na
otrzymany
wynik,
powinno
siĊ
przeprowadzaü pomiaru z udziałem kilku mówców.
Odsłuch przeprowadzany jest w pomieszczeniu o
objĊtoĞci 30-120m3 i czasie pogłosu mniejszym niĪ 0.5s
(najlepiej w przedziale 0.2-0.3s). Poziom szumów w
pomieszczeniu nie powinien przekraczaü 30dBA. Zaleca
siĊ wykonanie pomiaru poziomu hałasu, co najmniej
dwukrotnie, tzn. na początku i koĔcu pomiarów. JeĪeli
pomiĊdzy wynikami pomiarów wystĊpuje znaczna
róĪnica, wówczas prowadzący odsłuchy musi oceniü,
jaki wpływ moĪe mieü to na wynik eksperymentu.
EkipĊ odsłuchową stanowią osoby wybrane losowo
spoĞród populacji uĪytkowników telefonów, przy czym
nie mogą to byü:
- osoby związane z pracami dotyczącymi oceny
działania
systemów
telefonicznych
lub
kodowania mowy,
- osoby biorące udział w jakichkolwiek pomiarach
subiektywnych w ciągu ostatnich szeĞciu
miesiĊcy,
- osoby, które wczeĞniej słyszały listy uĪywane w
eksperymencie.
Przed rozpoczĊciem pomiarów słuchacze zapoznają
siĊ z instrukcją objaĞniającą eksperyment, w tym ze
sposobem dokonywania oceny materiału dĨwiĊkowego.
Prowadzący pomiary ma do wyboru trzy róĪne skale
ocen zalecane przez ITU (tab.2):
a) skala jakoĞci odsłuchu,
b) skala wysiłku słuchowego
c) skala preferowanej głoĞnoĞci
Ocena Ğrednia obliczana jest dla kaĪdego badanego
warunku transmisji mowy oraz dla kaĪdej skali ocen,
jako wynik uĞrednienia po słuchaczach i mówcach.
Ocena wyników dokonywana jest w oparciu o analizĊ
wariancyjną.
Alternatywnym rozwiązaniem dla metody ACR,
która nie daje satysfakcjonującej dokładnoĞci przy
rozróĪnianiu systemów o wysokiej jakoĞci jest metoda
DCR (Degradation Category Rating) [6].
Pomiar polega na porównaniu wzorcowego
systemu o wysokiej jakoĞci z badanym, okreĞlając
stopieĔ degradacji jakoĞci sygnału w piĊciopunktowej
skali (od „niesłyszalnego” do „bardzo dokuczliwego”).
Metoda jest stosowana głównie do optymalizacji
systemów przy małych zmianach jakoĞci transmisji
mowy, spowodowanych np. stosowaniem cyfrowych
algorytmów kodowania.
Materiał testowy wykorzystywany w metodzie
DCR jest taki sam jak w metodzie ACR, jedynie inny
jest sposób prezentacji. Próbki mowy, czyli róĪne
zdania, są wybierane z wiĊkszej, zrównowaĪonej listy
testowej, a nastĊpnie prezentowane słuchaczom w
pojedynczych parach (A - B) lub powtarzających siĊ
parach (A - B - A - B), gdzie A jest wzorcową próbką
oryginalną, natomiast B jest badaną próbką. KaĪda para
poddawana jest odrĊbnej ocenie. Wskazane jest
zastosowanie kilku „par zerowych” (A - A) w celu
jakoĞciowego sprawdzenia dokładnoĞci i czułoĞci ocen
podawanych przez uczestników eksperymentu. Próbki A
i B powinny byü oddzielone 0,5-1 s. przerwą. Dla testów
z powtarzalną procedurą (A- B - A - B) przerwa
pomiĊdzy dwiema parami powinna wynosiü 1-1,5 s.
Słuchacze dokonują oceny w piĊciostopniowej skali
pogorszenia jakoĞci, oceniając stopieĔ degradacji jakoĞci
drugiego zdania wzglĊdem pierwszego z transmitowanej
pary.
Tab. 2. Skale ocen zalecane przez ITU-T [6]
PiĊciostopniowa skala
jakoĞci
JakoĞü mowy:
5 - doskonała
4 - dobra
3 - dostateczna
2 - mierna
1 - niedostateczna
wysiłku słuchowego
Wysiłek potrzebny do zrozumienia tekstu:
Preferowana głoĞnoĞü:
5 - Rozumienie mowy bez najmniejszego natĊĪenia uwagi.
4 - Rozumienie mowy bez trudnoĞci z lekkim natĊĪeniem uwagi.
3 - Rozumienie mowy z umiarkowanym natĊĪeniem uwagi.
2 - Rozumienie mowy z duĪym natĊĪeniem uwagi.
1 - Brak moĪliwoĞci pełnego rozumienia mowy.
Wymagania dotyczące warunków nagrania,
prowadzenia odsłuchów, doboru ekipy odsłuchowej oraz
właĞciwoĞci akustycznych pomieszczenia odsłuchowego
są takie same jak dla metody ACR.
Przed rozpoczĊciem pomiarów słuchacze zapoznają
siĊ z instrukcją objaĞniającą eksperyment, a prowadzący
badania dodatkowo wyjaĞnia sposób dokonywania oceny
w jedynej obowiązującej w tej metodzie skali,
mianowicie skali degradacji jakoĞci.
4. KOMPUTEROWE STANOWISKO DO
OCENY JAKOĝCI OBRAZÓW
System pomiarowy do oceny jakoĞci obrazów,
którym zarządza program napisany w jĊzyku C++ [7],
umoĪliwia wykonanie:
- pomiarów subiektywnych metodą pojedynczego i
podwójnego wymuszenia
- pomiarów obiektywnych – obliczenie wartoĞci PSNR
(peak signal-to-noise ratio) i NMSE (normalized
mean square error),
- kompresji wczytanych obrazków.
Po uruchomieniu programu naleĪy wczytaü pliki
przeznaczone do oceny oraz dokonaü wyboru rodzaju
pomiarów (subiektywne lub obiektywne) i metody oceny
(wymuszenie pojedyncze lub podwójne). W głównym
oknie dialogowym podawane są podstawowe parametry
(format, rozmiar, wielkoĞü) wczytanych obrazków.
Obrazki prezentowane są widzom stosownie do
wybranego wariantu wymuszenia. KaĪdy uczestnik sesji
pomiarowej podaje swoją ocenĊ korzystając z ciągłej
skali ocen. (Rys. 2)
Rys. 2. Okno dialogowe oceny obrazka przez widza.
preferowanej głoĞnoĞci
5 - DuĪo głoĞniejsza niĪ optymalna
4 - GłoĞniejsza niĪ optymalna
3 - Optymalna
2 - Cichsza niĪ optymalna
1 - Zbyt cicha
Po wykonaniu zaplanowanych pomiarów pojawia
siĊ okno raportu, w którym wyĞwietlone są uzyskane
wyniki. JeĪeli program wykorzystywany był do
przetestowania technik kompresji obrazu, to podawane
są równieĪ informacje o rodzaju wybranej kompresji,
rozmiarze pliku, wielkoĞci obrazka, stopniu kompresji,
itp. Raport moĪe byü równieĪ zapisany w postaci pliku
tekstowego niesformatowanego.
5. KOMPUTEROWE STANOWISKO DO OCENY
JAKOĝCI MOWY
Komputerowym systemem pomiarowym do oceny
jakoĞci mowy zarządza program napisany w jĊzyku
programowania Delphi v.5.0, który po skompilowaniu
zajmuje 558 KB. Minimalna konfiguracja sprzĊtowa:
komputer klasy PC 486 DX4 100 MHz, 16 MB RAM,
karta dĨwiĊkowa (np. Sound Blaster), Windows 95.
Układ pomiarowy przedstawiony jest na rys.3 [1].
Po uruchomieniu programu naleĪy wybraü numer
słuchacza (1 -15) biorącego udział w eksperymencie, a
nastĊpnie w menu Opcje listy (1-100), liczbĊ grup w
liĞcie (5 lub 10) oraz liczbĊ zdaĔ w grupie (3-5). Po
ustaleniu powyĪszych warunków w menu Skala ocen
ustala siĊ skalĊ, według której słuchacz bĊdzie oceniał
zdania.
Po naciĞniĊciu przycisku Start słuchaczowi
eksponowane są zdania w grupach po 5 zdaĔ. Słuchacz
podaje ocenĊ grupy zdaĔ w skali piĊciostopniowej. Po
ocenie wszystkich grup zdaĔ z zadanej listy program
oblicza Ğrednią ocenĊ dla danego słuchacza i danego
warunku transmisji mowy. Zdania odtwarzane przez
program wybierane są losowo w grupach, natomiast
grupy z list wybierane są po kolei. Słuchacze na podanie
oceny mają trzy sekundy. W przypadku, gdy słuchacz
nie poda swojej oceny w ciągu trzech sekund program
automatycznie wybierze najniĪszą ocenĊ, czyli 1. Po
przeprowadzenie pomiarów dla wszystkich słuchaczy
oraz zaplanowanych róĪnych warunków transmisji
sygnału mowy (np. róĪne stosunki sygnał/szum, róĪne
techniki kodowania), z menu programu moĪna wybraü
opcjĊ ĝrednia, dziĊki której program obliczy Ğrednie
oceny jakoĞci sygnału mowy dla wszystkich słuchaczy.
Rys. 3. Schemat blokowy systemu do pomiaru jakoĞci mowy
.
6. PODSUMOWANIE
Zaprezentowane systemy do oceny jakoĞci obrazów
i mowy stanowią nie tylko narzĊdzie do badaĔ ale takĪe
pomoc dydaktyczną do üwiczeĔ laboratoryjnych.
Przeprowadzone pomiary testowe z wykorzystaniem
omówionych systemów, w szczególnoĞci do oceny
jakoĞci mowy wykazały ich uniwersalnoĞü, łatwoĞü
obsługi oraz skrócenie czasu trwania pomiarów
subiektywnych [1, 2, 7].
Wadą zaprezentowanych metod subiektywnych jest
brak precyzji w zdefiniowaniu zadania dla grupy
odsłuchowej (róĪne skale jakoĞciowe) i naturalna
niezdolnoĞü słuchaczy do stabilnej i powtarzalnej oceny
w skali punktowej takiej cechy, jak „jakoĞü mowy” czy
„jakoĞü obrazu”. Jest tu, wiĊc konieczne wykonanie
pomiaru dla licznej ekipy widzów lub słuchaczy,
staranne przeszkolenie i trenowanie ekipy.
SPIS LITERATURY
[1] S. BrachmaĔski, Ocena jakoĞci transmisji mowy
subiektywną metodą ACR (Absolute Category
Rating), Krajowe Sympozjum Telekomunikacji, tom
B, Bydgoszcz 2001
[2] S. BrachmaĔski, VoIP – ocena jakoĞci transmisji
mowy metodą ACR i DCR, Przegląd Telekomunikacyjny i WiadomoĞci Telekomunikacyjne, nr 8-9,
str. 424-427, 2003
[3] M. DomaĔski, Zaawansowane techniki kompresji
obrazów i sekwencji wizyjnych, Politechnika
PoznaĔska 2000,
[4] ITU-R, Recommendation BT.500-11, Methodology
for subjective assessment of the quality of television
pictures, 2003
[5] ITU-T, Recommendation BT.710-3, Subjective
assessment for image quality in high-definition
television, 1997,
[6] ITU-T Recommendation P.800, Method for
subjective determination of transmission quality,
1996
[7] R. Miłosierny, Stanowisko laboratoryjne do symulacji wybranych metod kompresji obrazów, Praca
dyplomowa, Wrocław 2003,
[8] Z.Wang, L.Lu, A.C. Bovik, Video Quality
Assessment Based on Structural Distortion
Measurement,
Signal
Processing:
Image
Communication,
vol.19,
no
1,
2004,
http://live.ece.utexas.edu/publications
[9] Z.Wang, A.C.Bovik, H.R.Sheikh, E.P.Simoncelli,
Image
Quality
Assessment:
From
Error
Measurement to Structural Similarity, IEEE Trans.
on Image Processing, vol.13, no.1, 2004,
http://live.ece.utexas.edu/publications

Podobne dokumenty