Pobierz

Transkrypt

Pobierz
OCENA SŁUCHOWA JAKOŚCI DŹWIĘKU
(Sound Quality Assessment SQA, Perceptual Evaluation of Audio, Subjective Assessment of
Audio Quality)
Wybrane wiadomości teoretyczne
Celem oceny słuchowej jest ilościowa charakterystyka właściwości badanych bodźców,
skalowanie wrażeń lub też przyporządkowywanie ocenianym sygnałom określonych kategorii
jakościowych.
Uproszczony schemat percepcji informacji słuchowej można przedstawić jak na Rys.1.
S
bodziec
→
P
obraz
słuchowy
→
D
decyzja
Ds
reakcja wrażeniowa
→ De
reakcja emocjonalna
→
Rys.1 Najprostszy schemat percepcji słuchowej
Reakcja wrażeniowa jest efektem procesów fizjologicznych zachodzących w trakcie słuchania
związanych z cechami bodźca.
Reakcja emocjonalna jest odbiciem stosunku człowieka do obrazu słuchowego związana z
jego gustem i przyzwyczajeniami.
Różnice w ocenie wrażeniowej są mniejsze niż w ocenie emocjonalnej. Obiektywizacja ocen
słuchowych wymaga ograniczenia wpływu reakcji emocjonalnej na wynik. Uzyskuje się to
przez: odpowiednie formułowanie zadań testowych, dobór i szkolenie słuchaczy oraz
statystyczną obróbkę wyników.
Ocena słuchowa opiera się głównie na czterech zjawiskach psychologicznych:
detekcji – zdolności do usłyszenia dźwięku w ciszy lub na tle zakłóceń;
dyskryminacji – zdolności do usłyszenia różnicy między dźwiękami;
identyfikacji – zdolności do rozpoznania dźwięku;
skalowaniu – zdolności do określenia wielkości badanego parametru dźwięku.
Każde z tych zjawisk jest bardzo złożone, więc wykorzystanie człowieka jako „urządzenia
pomiarowego” wymaga wiedzy i doświadczenia oraz umiejętności rozwiązywania różnych
problemów z psychologii. Przykładem spotykanego problemu jest zależność odpowiedzi
słuchacza zarówno od wrażliwości na bodźce jak i od postawy wobec decyzji. Postawa wobec
decyzji różniąca słuchaczy polega na tym, że np. jedni mówią „tak”, gdy są absolutnie pewni,
inni udzielają częściej jednego rodzaju odpowiedzi („tak”) itp. Są badania, które pozwalają
ocenić postawę słuchacza wobec decyzji, a ich wyniki są wykorzystywane przy statystycznej
obróbce wyników.
Systemy opisu obrazów słuchowych
Najczęściej są to zbiory określeń werbalnych, zwykle przymiotników używanych w mowie
potocznej, które wiązane są z pewnymi cechami dźwięku (szkolenie słuchaczy) np. wysoki,
ostry, jasny, dudniący, nosowy, itp.
Stosowane są także skale dyferencjału semantycznego. Są to skale jednowymiarowe danego
parametru (wymiaru wrażeniowego), których bieguny stanowią przymiotniki przeciwstawne
(np.dla przejrzystości – zamazany.......przejrzysty, dla ostrości – łagodny......ostry, dla
chropowatości – gładki.....szorstki, dla barwy - ciemny......jasny,), a słuchacz na skali opisuje
ilościowo badany parametr.
Do oceny jakości nagrań często stosuje się systemy hierarchiczne, gdzie wymiarom
nadrzędnym przyporządkowuje się wymiary szczegółowe.
Rodzaje ocen
Ocena bezwzględna (bezpośrednia) polega na ocenie obiektu badanego – dźwięku - (np.
zawartości w nim danej cechy ), gdy nie ma możliwości porównania z wzorcem
zewnętrznym. W rzeczywistości porównuje się z wzorcem wewnętrznym, a więc na ocenę ma
duży wpływ reakcja emocjonalna. Ocenę bezwzględną stosuje się, gdy niemożliwe jest
znalezienie wzorca, np. przy ocenie akustyki sal, jakości nagrań, naturalności efektów.
Ocena względna (porównawcza) polega na porównywaniu obiektów badanych między sobą
lub z ustalonym wzorcem. Ocena względna zwykle daje lepsze zróżnicowanie obiektów i
większą zgodność ocen (większy udział oceny wrażeniowej).
Zakres oceny
Ocena globalna jest ogólną oceną jakości dźwięku, tzn. jakości obiektu lub różnic między
obiektami.
Ocena parametryczna
jest oceną poszczególnych cech dźwięku, np. przejrzystość,
przestrzenność, barwa, równowaga, słyszalność zakłóceń itd. Stosowane są systemy liniowe
oceny parametrycznej (związek między wartością parametru, a jakością jest liniowy) i
systemy hierarchiczne ( kilka poziomów skal, w których parametry dzielone są na
drobniejsze, np. poziom wyższy :przestrzenność ; poziom niższy - perspektywa, panorama,
pogłos). Ponieważ parametry niższego rzędu nie zawsze dają w sumie parametr wyższego
rzędu można stosować system hierarchiczny pierścieniowy ( parametry niższego rzędu
obejmują nie tylko jeden parametr rzędu wyższego). Do niedawna większość systemów oceny
parametrycznej zdominowana była przez parametry związane z widmem, ale badania
wykazały, ze istotniejsze dla jakości dźwięku są parametry związane z właściwościami
przestrzennymi, więc one obecnie są częściej wykorzystywane.
Z eksperymentów wynika, że ocena parametryczna nie jest jednoznacznie powiązana z oceną
globalną, tzn. suma ocen parametrów nie odpowiada ocenie globalnej – suma może być
większa dla obiektu globalnie ocenionego gorzej. Płynie stąd wniosek, że należy
przeprowadzać oprócz oceny parametrycznej także ocenę globalną.
Metody oceniania słuchowego
Stosowane metody oparte są na:
dyskryminacji obiektów tzn. rozróżnianiu przez słuchacza bodźców albo przez
wykrywanie różnic między sygnałami (detekcja) albo przez porządkowanie sygnałów ze
względu na zawartość danej cechy (relacje porządkowe);
przyporządkowywaniu obiektów do określonych klas (kategoryzacja); istotne
znaczenie ma w tych metodach pamięć słuchacza; przyjmuje się, że rozdzielczość jest duża,
gdy słuchacz używa 7 stopni na skali.
Przykłady metod detekcyjnych:
- ocena zgodności (jednakowe-różne);
- wyboru wymuszonego (jeden sygnał różni się od pozostałych).
Przykłady metod relacji porządkowych:
- szeregowania (porządkowanie ze względu na intensywność danej cechy;
- preferencji dwójkowych (lepszy-gorszy);
- podobieństw triadowych (z trzech bodźców wybór najbardziej podobnych albo różnych).
Przykłady metod przyporządkowywania:
- oszacowań liczbowych ( na skali liczbowej ograniczonej, na skali bez ograniczeń);
- skal graficznych;
- skal werbalnych na ogół o nieparzystej liczbie 3, 5, 7 (typu absolutnego- dobry, przeciętny,
zły; typu porównawczego – lepszy, taki sam, gorszy).
Wybór metody oceny zależy od celu badania, warunków, możliwości technicznych, wygody ,
ekonomii. Metoda ma wpływ na wynik badania. Metody dyskryminacyjne pozawalają na
lepsze różnicowanie obiektów i są łatwiejsze dla słuchaczy. Metody przyporządkowywania
umożliwiają łatwiejsze porównywanie wyników różnych badań.
Do oceny jakości dźwięku - zwłaszcza przy spodziewanych niezbyt dużych różnicach –
wydaje się lepsza metoda niesformalizowana polegająca na słuchaniu sygnałów o dowolnym
czasie trwania i przy różnym sposobie opisu wrażeń. Wyniki osiągane w tego typu metodach
często różnią się istotnie od wyników uzyskanych metodami sformalizowanymi, ale
porównywać wyniki różnych eksperymentów „nieformalnych” jest dość trudno.
W projektowaniu testów słuchowych w ostatnich latach widać wyraźnie wzrost znaczenia
przestrzenności dźwięku ( dźwięk wielokanałowy) oraz
możliwość przewidywania
preferencji konsumentów na podstawie ocen ekspertów (koszty). Daje się zauważyć trzy
główne kierunki działań:
- rozwijanie metod opisu językowego (każde określenie właściwe dla bodźca, poszczególne
określenia mało zachodzą na siebie, precyzyjne, akceptowalne dla słuchaczy, nieżargonowe);
- skalowanie wielowymiarowe MDS (proste arkusze ocen, wyniki daje obróbka
matematyczna);
- metody graficzne (słuchacze rysują, co słyszą, obróbka komputerowa).
Organizacja oceny słuchowej
Przeprowadzenie oceny słuchowej dającej możliwie poprawne wyniki wymaga rozwiązania
wielu problemów, które są zarysowane poniżej.
Problemy merytoryczne.
1. Sprecyzowanie, co podlega ocenie i jaki jest jej cel.
2 .Wybór rodzaju, zakresu i metody oceny.
Problemy techniczne.
3. Konstrukcja testu.
4. Wybór pomieszczenia odsłuchowego.
5. Skompletowanie urządzeń toru odsłuchowego.
6. Zapewnienie właściwych warunków odsłuchu.
7. Zorganizowanie grupy słuchaczy (ocena ich przydatności do oceny).
8. Zebranie i analiza wyników.
Problemy merytoryczne muszą być rozwiązywane dla konkretnego zadania. Problemy
techniczne powinny być rozstrzygane według pewnych zasad.
ad 3. Konstrukcja testu.
Sygnały testowe powinny być:
reprezentatywne dla danego badania;
różnorodne w sensie prezentowanych sygnałów;
o treści powszechnie akceptowanej (minimalizacja oceny emocjonalnej).
W przypadku oceny sformalizowanej podstawowym elementem testu jest zadanie
dźwiękowe, tzn. odpowiednio uporządkowane sekwencje dźwięków podlegające ocenie.
T1
T2
T3
T1 – czas prezentacji obiektu,
T2 – przerwa między prezentacjami kolejnych obiektów,
T3 – czas decyzji.
Rys. 2 Ogólny schemat budowy zadania dźwiękowego
Na blok zadań ( 20-30 min) składa się kilkanaście do kilkudziesięciu zadań.
Czasy T1, T2, T3 w rytmie wymuszonym są odpowiednio dobrane (5-10s, 2-5s, 5s), a w rytmie
swobodnym słuchacz je reguluje indywidualnie.
Oprócz zadań dźwiękowych test może obejmować instrukcję testową, sygnały kontrolne do
regulacji warunków odsłuchu, przykłady dźwiękowe, zadania treningowe.
ad 4. Wybór pomieszczenia odsłuchowego.
Pomieszczenie odsłuchowe powinno spełniać wymagania sprecyzowane w normach IEC
(objętość do 110 m3, pow. podłogi do 50m 2, czas pogłosu ok 0,3 s- warunki zbliżone do
wnętrza mieszkalnego). Nie zawsze to jest możliwe, więc często przeprowadza się badania
we wnętrzach o zblizonych parametrach. Należy zauważyć, że właściwości wnętrza mają
znaczenie przy odsłuchu głośnikowym, a nie mają przy słuchawkowym.
ad 5. Urządzenia toru odsłuchowego.
Powinny spełniać określone wymagania techniczne. W przypadku badania urządzeń muszą
być co najmniej o klasę od nich lepsze. Istotna jest decyzja czy wykorzystywane będą
głośniki czy słuchawki w torze odsłuchowym. Zdecydowanie preferowany jest odsłuch
głośnikowy jako bardziej naturalny, ale ważne są wówczas właściwości pomieszczenia
odsłuchowego i grupa słuchaczy nie może być zbyt liczna (koncentracja, warunki oceniania
pogarszają się wraz ze wzrostem liczby słuchaczy). Te ograniczenia znikają przy
wykorzystywaniu odsłuchu słuchawkowego – w dowolnym wnętrzu, duża grupa słuchaczy
może się koncentrować na przeprowadzanym badaniu. Tak więc wybór rodzaju odsłuchu
zależy od konkretnych uwarunkowań. Uwagi powyższe nie mają znaczenia, jeśli badanie
obejmuje zestaw urządzeń ze słuchawkami, bo wybór słuchawek wtedy jest oczywisty.
ad 6. Zapewnienie właściwych warunków odsłuchu.
Warunki odsłuchu rozumiane są jako warunki komfortu ogólnego, nie tylko akustycznego,
tzn. obejmują rozmieszczenie źródeł, poziom odsłuchu zbliżony do fizjologicznie
najwygodniejszego (różny dla różnych sygnałów), oświetlenie, temperaturę, siedziska itp.
Komfort „pozaakustyczny” ma wpływ na emocjonalną część oceny.
ad 7. Grupa słuchaczy.
Grupę oceniającą mogą tworzyć:
eksperci czyli ludzie o dużej wrażliwości słuchowej, osłuchani z muzyką, znający
problemy toru elektroakustycznego (muzycy, realizatorzy dźwięku) – grupa może być
nieliczna 8-10 osób (precyzja, stabilność);
słuchacze laicy, wybrani losowo z interesującej populacji – grupa musi być liczna 20 70 osób.
W obu przypadkach osoby oceniające powinny być otologicznie normalne (bez
stwierdzonych chorób uszu czy patologii,wczesniej nie narażone na hałas). Natomiast wpływ
położenia krzywej progowej na powtarzalność wyników występuje dopiero przy jej
odchyleniu od standardowej (ISO 389) powyżej 15 dB.
Słuchacze eksperci rozróżniają mniejsze różnice między sygnałami, a ich oceny są do siebie
zbliżone (odchylenie standardowe σ kilka razy mniejsze niż u laików). Oceny ekspertów na
ogół zgadzają się z ocenami laików, tzn. lokują się w niższej części skali, ale proporcje są
podobne, więc można je ekstrapolować na populację. Ma to znaczenie ze względu na
trudności organizacyjne badań i ich koszty.
ad 8. Zebranie i analiza wyników.
Wyniki mogą być rejestrowane w postaci zapisu na papierze (wypełnianie ankiet oceny) lub
w pamięci komputera, co wpływa na wygodę ich opracowywania. Analiza wyników jest
analizą statystyczną.
Opis ćwiczenia
W ćwiczeniu prezentowanych jest sześć testów, które mogą posłużyć do przeprowadzenia
różnych ocen.
Zadaniem wykonujących ćwiczenie jest:
zaproponowanie ocen;
przygotowanie arkuszy oceny (dla 16 słuchaczy);
opracowanie statystyczne wyników dla całej grupy słuchaczy;
sformułowanie wniosków.
Połowa grupy realizuje podane wyżej zadania dla:
testu 1 (jnd, poziom), testu 3 (jnd, poziom), testu 3 (ocena jakości, poziom), testu 5 (ocena
jakości przy filtracji nierównomiernej), testu 6 (zauważalność zmiany rozdzielczości bitowej).
Druga połowa grupy realizuje podane wyżej zadania dla:
Testu 2(jnd, pasmo), testu 4(jnd, pasmo), testu 4 (ocena jakości, pasmo), testu 5
(zauważalność filtracji nierównomiernej), testu 6 (ocena jakości przy zmianie rozdzielczości
bitowej).
Należy porównać wyniki określania jnd różnymi metodami (test 1 –test 3) oraz ocenę jakości
przy filtracji równomiernej i nierównomiernej (test 5 – test 4) – obie grupy.
Opis testów
Sygnały poddawane ocenie trwają na ogół 10 – 20 sek.
Test 1. Procedura A –B –A –B ( różne poziomy).
W każdym zadaniu prezentowane są dwie próbki:
A- próbka odniesienia (wzorzec) o poziomie 0 dB;
B- próbka testowa o poziomie wyższym lub niższym w zakresie  2 dB ze skokiem 0,5 dB.
Po przerwie 2 sek powtórzone są próbki w tej samej kolejności, przerwa 5 sek na decyzję i
następne zadanie.
Kolejność A -B jest losowa.
Zadań jest 20, wśród nich zadania sprawdzajace typu A -A.
Propozycja oceny:
wykrywanie najmniejszej słyszalnej różnicy (jnd) poziomu.
Test 2. Procedura A –B –A -B ( różna szerokość pasma).
W każdym zadaniu prezentowane są dwie próbki:
A- próbka odniesienia (wzorzec) w pełnym paśmie 20 Hz- 22 kHz;
B- próbka testowa w paśmie zawężonym od góry i od dołu;
(pasma: 50 Hz -18 kHz, 70 Hz – 16 kHz, 90 Hz – 14 kHz, 110 Hz – 12 kHz,
140 Hz – 10 kHz, 200 Hz – 8 kHz )
Po przerwie 2 sek powtórzone są próbki w tej samej kolejności, przerwa 5 sek na decyzję i
następne zadanie.
Kolejność A -B jest losowa.
Zadań jest 20, wśród nich zadania sprawdzajace typu A -A.
Propozycja oceny:
wykrywanie najmniejszej słyszalnej różnicy (jnd) szerokości pasma.
Test 3. Procedura X –A -B (różne poziomy).
W każdym zadaniu prezentowane są trzy próbki:
X – próbka odniesienia (wzorzec) o poziomie 0 dB;
A – próbka testowa identyczna z próbką odniesienia (A=X);
B – próbka testowa o poziomie wyższym lub niższym w zakresie  2 dB ze skokiem 0,5 dB,
(w każdym zadaniu dwa razy jest wzorzec – zawsze na miejscu pierwszym i losowo na
drugim lub trzecim).
Odstępy między próbkami 1 sek, przerwa 5 sek na decyzję i następne zadanie.
Kolejność A -B jest losowa.
Zadań jest 20, wśród nich zadania sprawdzające typu X –X -X.
Propozycja oceny:
wykrywanie najmniejszej słyszalnej różnicy (jnd) poziomu;
ocena jakości przy zmianie poziomu.
Test 4. Procedura X –A -B (różna szerokość pasma – filtracja równomierna).
W każdym zadaniu prezentowane są trzy próbki:
X – próbka odniesienia (wzorzec) w pełnym paśmie 20 Hz – 22 kHz;
A – próbka testowa identyczna z próbką odniesienia (A=X);
B- próbka testowa w paśmie zawężonym od góry i od dołu;
(pasma: 50 Hz -18 kHz, 70 Hz – 16 kHz, 90 Hz – 14 kHz, 110 Hz – 12 kHz,
140 Hz – 10 kHz, 200 Hz – 8 kHz ),
(w każdym zadaniu dwa razy jest wzorzec – zawsze na miejscu pierwszym i losowo na
drugim lub trzecim).
Odstępy między próbkami 1 sek, przerwa 5 sek na decyzję i następne zadanie.
Kolejność A -B jest losowa.
Zadań jest 20, wśród nich zadania sprawdzające typu X –X -X.
Propozycja oceny:
wykrywanie najmniejszej słyszalnej różnicy (jnd) szerokości pasma;
ocena jakości przy zmianie szerokosci pasma.
Test 5. Procedura X –A –X (filtracja nierównomierna – zafalowania charakterystyki
częstotliwościowej).
W każdym zadaniu prezentowane są dwie próbki:
X – próbka odniesienia (wzorzec) w paśmie 20 Hz – 22 kHz, charakterystyka płaska;
A – próbka testowa, charakterystyka częstotliwościowa zafalowana;
(filtry rezonansowe: 1,5 kHz +5 dB; 100 Hz +6,6 dB; 8 kHz +6 dB; 300 Hz -6 dB;
4 kHz – 4,6 dB; cztery filtry rezonansowe ),
(w każdym zadaniu dwa razy wzorzec, na miejscu pierwszym i trzecim, na miejscu drugim
próbka testowa).
Odstępy między próbkami 1 sek, przerwa 5 sek na decyzję i następne zadanie.
Zadań jest 20, nie ma zadań sprawdzających.
Propozycja oceny:
zauważalność filtracji nierównomiernej;
ocena jakości przy filtracji nierównomiernej.
Test 6. Procedura X –A –X (zmienna rozdzielczość bitowa).
W każdym zadaniu prezentowane są dwie próbki:
X – próbka odniesienia (wzorzec) – próbka 16 bitowa po rekwantyzacji 16 bitowej;
A – próbka testowa o różnej długości bitowej ( 16 bitowa przed rekwantyzacją; 14 bitowa po
rekwantyzacji; 12 bitowa po rekwantyzacji ).
(w każdym zadaniu dwa razy wzorzec, na miejscu pierwszym i trzecim, na miejscu drugim
próbka testowa).
Odstępy między próbkami 1 sek, przerwa 10 sek na decyzję i następne zadanie.
Zadań jest 20, nie ma zadań sprawdzających.
Propozycja oceny:
zauważalność zmiennej rozdzielczości bitowej;
ocena jakości przy zmiennej rozdzielczości bitowej.
Wyniki otrzymane w teście 1 (A –B –A –B ) i teście 3 (X –A- B ) należy porównać pod
kątem wykrywania jnd poziomu różnymi metodami. Analogicznie należy porównać wyniki
testu 2 (A –B –A –B ) i testu 4 (X –A- B ) odnośnie do szerokości pasma (jak podano wyżej
w zadaniach do wykonania).
Po dokonaniu przez słuchaczy wszystkich ocen będą udostępnione klucze do testów
umożliwiające opracowanie wyników.
Dodatek
Przykłady skal oceny:
dla testu A –B –A –B
jednakowe – różne
0
- 1
dla testu X – A – B
jednakowe – jeden inny
0
1
jeden lepszy – jednakowe – jeden gorszy
1
0
-1
dla testu X – A – X
A X
AX
dużo gorszy gorszy
-2
-1
A=X
AX
jednakowy lepszy
0
1
A  X
dużo lepszy
2

Podobne dokumenty