Pobierz
Transkrypt
Pobierz
OCENA SŁUCHOWA JAKOŚCI DŹWIĘKU (Sound Quality Assessment SQA, Perceptual Evaluation of Audio, Subjective Assessment of Audio Quality) Wybrane wiadomości teoretyczne Celem oceny słuchowej jest ilościowa charakterystyka właściwości badanych bodźców, skalowanie wrażeń lub też przyporządkowywanie ocenianym sygnałom określonych kategorii jakościowych. Uproszczony schemat percepcji informacji słuchowej można przedstawić jak na Rys.1. S bodziec → P obraz słuchowy → D decyzja Ds reakcja wrażeniowa → De reakcja emocjonalna → Rys.1 Najprostszy schemat percepcji słuchowej Reakcja wrażeniowa jest efektem procesów fizjologicznych zachodzących w trakcie słuchania związanych z cechami bodźca. Reakcja emocjonalna jest odbiciem stosunku człowieka do obrazu słuchowego związana z jego gustem i przyzwyczajeniami. Różnice w ocenie wrażeniowej są mniejsze niż w ocenie emocjonalnej. Obiektywizacja ocen słuchowych wymaga ograniczenia wpływu reakcji emocjonalnej na wynik. Uzyskuje się to przez: odpowiednie formułowanie zadań testowych, dobór i szkolenie słuchaczy oraz statystyczną obróbkę wyników. Ocena słuchowa opiera się głównie na czterech zjawiskach psychologicznych: detekcji – zdolności do usłyszenia dźwięku w ciszy lub na tle zakłóceń; dyskryminacji – zdolności do usłyszenia różnicy między dźwiękami; identyfikacji – zdolności do rozpoznania dźwięku; skalowaniu – zdolności do określenia wielkości badanego parametru dźwięku. Każde z tych zjawisk jest bardzo złożone, więc wykorzystanie człowieka jako „urządzenia pomiarowego” wymaga wiedzy i doświadczenia oraz umiejętności rozwiązywania różnych problemów z psychologii. Przykładem spotykanego problemu jest zależność odpowiedzi słuchacza zarówno od wrażliwości na bodźce jak i od postawy wobec decyzji. Postawa wobec decyzji różniąca słuchaczy polega na tym, że np. jedni mówią „tak”, gdy są absolutnie pewni, inni udzielają częściej jednego rodzaju odpowiedzi („tak”) itp. Są badania, które pozwalają ocenić postawę słuchacza wobec decyzji, a ich wyniki są wykorzystywane przy statystycznej obróbce wyników. Systemy opisu obrazów słuchowych Najczęściej są to zbiory określeń werbalnych, zwykle przymiotników używanych w mowie potocznej, które wiązane są z pewnymi cechami dźwięku (szkolenie słuchaczy) np. wysoki, ostry, jasny, dudniący, nosowy, itp. Stosowane są także skale dyferencjału semantycznego. Są to skale jednowymiarowe danego parametru (wymiaru wrażeniowego), których bieguny stanowią przymiotniki przeciwstawne (np.dla przejrzystości – zamazany.......przejrzysty, dla ostrości – łagodny......ostry, dla chropowatości – gładki.....szorstki, dla barwy - ciemny......jasny,), a słuchacz na skali opisuje ilościowo badany parametr. Do oceny jakości nagrań często stosuje się systemy hierarchiczne, gdzie wymiarom nadrzędnym przyporządkowuje się wymiary szczegółowe. Rodzaje ocen Ocena bezwzględna (bezpośrednia) polega na ocenie obiektu badanego – dźwięku - (np. zawartości w nim danej cechy ), gdy nie ma możliwości porównania z wzorcem zewnętrznym. W rzeczywistości porównuje się z wzorcem wewnętrznym, a więc na ocenę ma duży wpływ reakcja emocjonalna. Ocenę bezwzględną stosuje się, gdy niemożliwe jest znalezienie wzorca, np. przy ocenie akustyki sal, jakości nagrań, naturalności efektów. Ocena względna (porównawcza) polega na porównywaniu obiektów badanych między sobą lub z ustalonym wzorcem. Ocena względna zwykle daje lepsze zróżnicowanie obiektów i większą zgodność ocen (większy udział oceny wrażeniowej). Zakres oceny Ocena globalna jest ogólną oceną jakości dźwięku, tzn. jakości obiektu lub różnic między obiektami. Ocena parametryczna jest oceną poszczególnych cech dźwięku, np. przejrzystość, przestrzenność, barwa, równowaga, słyszalność zakłóceń itd. Stosowane są systemy liniowe oceny parametrycznej (związek między wartością parametru, a jakością jest liniowy) i systemy hierarchiczne ( kilka poziomów skal, w których parametry dzielone są na drobniejsze, np. poziom wyższy :przestrzenność ; poziom niższy - perspektywa, panorama, pogłos). Ponieważ parametry niższego rzędu nie zawsze dają w sumie parametr wyższego rzędu można stosować system hierarchiczny pierścieniowy ( parametry niższego rzędu obejmują nie tylko jeden parametr rzędu wyższego). Do niedawna większość systemów oceny parametrycznej zdominowana była przez parametry związane z widmem, ale badania wykazały, ze istotniejsze dla jakości dźwięku są parametry związane z właściwościami przestrzennymi, więc one obecnie są częściej wykorzystywane. Z eksperymentów wynika, że ocena parametryczna nie jest jednoznacznie powiązana z oceną globalną, tzn. suma ocen parametrów nie odpowiada ocenie globalnej – suma może być większa dla obiektu globalnie ocenionego gorzej. Płynie stąd wniosek, że należy przeprowadzać oprócz oceny parametrycznej także ocenę globalną. Metody oceniania słuchowego Stosowane metody oparte są na: dyskryminacji obiektów tzn. rozróżnianiu przez słuchacza bodźców albo przez wykrywanie różnic między sygnałami (detekcja) albo przez porządkowanie sygnałów ze względu na zawartość danej cechy (relacje porządkowe); przyporządkowywaniu obiektów do określonych klas (kategoryzacja); istotne znaczenie ma w tych metodach pamięć słuchacza; przyjmuje się, że rozdzielczość jest duża, gdy słuchacz używa 7 stopni na skali. Przykłady metod detekcyjnych: - ocena zgodności (jednakowe-różne); - wyboru wymuszonego (jeden sygnał różni się od pozostałych). Przykłady metod relacji porządkowych: - szeregowania (porządkowanie ze względu na intensywność danej cechy; - preferencji dwójkowych (lepszy-gorszy); - podobieństw triadowych (z trzech bodźców wybór najbardziej podobnych albo różnych). Przykłady metod przyporządkowywania: - oszacowań liczbowych ( na skali liczbowej ograniczonej, na skali bez ograniczeń); - skal graficznych; - skal werbalnych na ogół o nieparzystej liczbie 3, 5, 7 (typu absolutnego- dobry, przeciętny, zły; typu porównawczego – lepszy, taki sam, gorszy). Wybór metody oceny zależy od celu badania, warunków, możliwości technicznych, wygody , ekonomii. Metoda ma wpływ na wynik badania. Metody dyskryminacyjne pozawalają na lepsze różnicowanie obiektów i są łatwiejsze dla słuchaczy. Metody przyporządkowywania umożliwiają łatwiejsze porównywanie wyników różnych badań. Do oceny jakości dźwięku - zwłaszcza przy spodziewanych niezbyt dużych różnicach – wydaje się lepsza metoda niesformalizowana polegająca na słuchaniu sygnałów o dowolnym czasie trwania i przy różnym sposobie opisu wrażeń. Wyniki osiągane w tego typu metodach często różnią się istotnie od wyników uzyskanych metodami sformalizowanymi, ale porównywać wyniki różnych eksperymentów „nieformalnych” jest dość trudno. W projektowaniu testów słuchowych w ostatnich latach widać wyraźnie wzrost znaczenia przestrzenności dźwięku ( dźwięk wielokanałowy) oraz możliwość przewidywania preferencji konsumentów na podstawie ocen ekspertów (koszty). Daje się zauważyć trzy główne kierunki działań: - rozwijanie metod opisu językowego (każde określenie właściwe dla bodźca, poszczególne określenia mało zachodzą na siebie, precyzyjne, akceptowalne dla słuchaczy, nieżargonowe); - skalowanie wielowymiarowe MDS (proste arkusze ocen, wyniki daje obróbka matematyczna); - metody graficzne (słuchacze rysują, co słyszą, obróbka komputerowa). Organizacja oceny słuchowej Przeprowadzenie oceny słuchowej dającej możliwie poprawne wyniki wymaga rozwiązania wielu problemów, które są zarysowane poniżej. Problemy merytoryczne. 1. Sprecyzowanie, co podlega ocenie i jaki jest jej cel. 2 .Wybór rodzaju, zakresu i metody oceny. Problemy techniczne. 3. Konstrukcja testu. 4. Wybór pomieszczenia odsłuchowego. 5. Skompletowanie urządzeń toru odsłuchowego. 6. Zapewnienie właściwych warunków odsłuchu. 7. Zorganizowanie grupy słuchaczy (ocena ich przydatności do oceny). 8. Zebranie i analiza wyników. Problemy merytoryczne muszą być rozwiązywane dla konkretnego zadania. Problemy techniczne powinny być rozstrzygane według pewnych zasad. ad 3. Konstrukcja testu. Sygnały testowe powinny być: reprezentatywne dla danego badania; różnorodne w sensie prezentowanych sygnałów; o treści powszechnie akceptowanej (minimalizacja oceny emocjonalnej). W przypadku oceny sformalizowanej podstawowym elementem testu jest zadanie dźwiękowe, tzn. odpowiednio uporządkowane sekwencje dźwięków podlegające ocenie. T1 T2 T3 T1 – czas prezentacji obiektu, T2 – przerwa między prezentacjami kolejnych obiektów, T3 – czas decyzji. Rys. 2 Ogólny schemat budowy zadania dźwiękowego Na blok zadań ( 20-30 min) składa się kilkanaście do kilkudziesięciu zadań. Czasy T1, T2, T3 w rytmie wymuszonym są odpowiednio dobrane (5-10s, 2-5s, 5s), a w rytmie swobodnym słuchacz je reguluje indywidualnie. Oprócz zadań dźwiękowych test może obejmować instrukcję testową, sygnały kontrolne do regulacji warunków odsłuchu, przykłady dźwiękowe, zadania treningowe. ad 4. Wybór pomieszczenia odsłuchowego. Pomieszczenie odsłuchowe powinno spełniać wymagania sprecyzowane w normach IEC (objętość do 110 m3, pow. podłogi do 50m 2, czas pogłosu ok 0,3 s- warunki zbliżone do wnętrza mieszkalnego). Nie zawsze to jest możliwe, więc często przeprowadza się badania we wnętrzach o zblizonych parametrach. Należy zauważyć, że właściwości wnętrza mają znaczenie przy odsłuchu głośnikowym, a nie mają przy słuchawkowym. ad 5. Urządzenia toru odsłuchowego. Powinny spełniać określone wymagania techniczne. W przypadku badania urządzeń muszą być co najmniej o klasę od nich lepsze. Istotna jest decyzja czy wykorzystywane będą głośniki czy słuchawki w torze odsłuchowym. Zdecydowanie preferowany jest odsłuch głośnikowy jako bardziej naturalny, ale ważne są wówczas właściwości pomieszczenia odsłuchowego i grupa słuchaczy nie może być zbyt liczna (koncentracja, warunki oceniania pogarszają się wraz ze wzrostem liczby słuchaczy). Te ograniczenia znikają przy wykorzystywaniu odsłuchu słuchawkowego – w dowolnym wnętrzu, duża grupa słuchaczy może się koncentrować na przeprowadzanym badaniu. Tak więc wybór rodzaju odsłuchu zależy od konkretnych uwarunkowań. Uwagi powyższe nie mają znaczenia, jeśli badanie obejmuje zestaw urządzeń ze słuchawkami, bo wybór słuchawek wtedy jest oczywisty. ad 6. Zapewnienie właściwych warunków odsłuchu. Warunki odsłuchu rozumiane są jako warunki komfortu ogólnego, nie tylko akustycznego, tzn. obejmują rozmieszczenie źródeł, poziom odsłuchu zbliżony do fizjologicznie najwygodniejszego (różny dla różnych sygnałów), oświetlenie, temperaturę, siedziska itp. Komfort „pozaakustyczny” ma wpływ na emocjonalną część oceny. ad 7. Grupa słuchaczy. Grupę oceniającą mogą tworzyć: eksperci czyli ludzie o dużej wrażliwości słuchowej, osłuchani z muzyką, znający problemy toru elektroakustycznego (muzycy, realizatorzy dźwięku) – grupa może być nieliczna 8-10 osób (precyzja, stabilność); słuchacze laicy, wybrani losowo z interesującej populacji – grupa musi być liczna 20 70 osób. W obu przypadkach osoby oceniające powinny być otologicznie normalne (bez stwierdzonych chorób uszu czy patologii,wczesniej nie narażone na hałas). Natomiast wpływ położenia krzywej progowej na powtarzalność wyników występuje dopiero przy jej odchyleniu od standardowej (ISO 389) powyżej 15 dB. Słuchacze eksperci rozróżniają mniejsze różnice między sygnałami, a ich oceny są do siebie zbliżone (odchylenie standardowe σ kilka razy mniejsze niż u laików). Oceny ekspertów na ogół zgadzają się z ocenami laików, tzn. lokują się w niższej części skali, ale proporcje są podobne, więc można je ekstrapolować na populację. Ma to znaczenie ze względu na trudności organizacyjne badań i ich koszty. ad 8. Zebranie i analiza wyników. Wyniki mogą być rejestrowane w postaci zapisu na papierze (wypełnianie ankiet oceny) lub w pamięci komputera, co wpływa na wygodę ich opracowywania. Analiza wyników jest analizą statystyczną. Opis ćwiczenia W ćwiczeniu prezentowanych jest sześć testów, które mogą posłużyć do przeprowadzenia różnych ocen. Zadaniem wykonujących ćwiczenie jest: zaproponowanie ocen; przygotowanie arkuszy oceny (dla 16 słuchaczy); opracowanie statystyczne wyników dla całej grupy słuchaczy; sformułowanie wniosków. Połowa grupy realizuje podane wyżej zadania dla: testu 1 (jnd, poziom), testu 3 (jnd, poziom), testu 3 (ocena jakości, poziom), testu 5 (ocena jakości przy filtracji nierównomiernej), testu 6 (zauważalność zmiany rozdzielczości bitowej). Druga połowa grupy realizuje podane wyżej zadania dla: Testu 2(jnd, pasmo), testu 4(jnd, pasmo), testu 4 (ocena jakości, pasmo), testu 5 (zauważalność filtracji nierównomiernej), testu 6 (ocena jakości przy zmianie rozdzielczości bitowej). Należy porównać wyniki określania jnd różnymi metodami (test 1 –test 3) oraz ocenę jakości przy filtracji równomiernej i nierównomiernej (test 5 – test 4) – obie grupy. Opis testów Sygnały poddawane ocenie trwają na ogół 10 – 20 sek. Test 1. Procedura A –B –A –B ( różne poziomy). W każdym zadaniu prezentowane są dwie próbki: A- próbka odniesienia (wzorzec) o poziomie 0 dB; B- próbka testowa o poziomie wyższym lub niższym w zakresie 2 dB ze skokiem 0,5 dB. Po przerwie 2 sek powtórzone są próbki w tej samej kolejności, przerwa 5 sek na decyzję i następne zadanie. Kolejność A -B jest losowa. Zadań jest 20, wśród nich zadania sprawdzajace typu A -A. Propozycja oceny: wykrywanie najmniejszej słyszalnej różnicy (jnd) poziomu. Test 2. Procedura A –B –A -B ( różna szerokość pasma). W każdym zadaniu prezentowane są dwie próbki: A- próbka odniesienia (wzorzec) w pełnym paśmie 20 Hz- 22 kHz; B- próbka testowa w paśmie zawężonym od góry i od dołu; (pasma: 50 Hz -18 kHz, 70 Hz – 16 kHz, 90 Hz – 14 kHz, 110 Hz – 12 kHz, 140 Hz – 10 kHz, 200 Hz – 8 kHz ) Po przerwie 2 sek powtórzone są próbki w tej samej kolejności, przerwa 5 sek na decyzję i następne zadanie. Kolejność A -B jest losowa. Zadań jest 20, wśród nich zadania sprawdzajace typu A -A. Propozycja oceny: wykrywanie najmniejszej słyszalnej różnicy (jnd) szerokości pasma. Test 3. Procedura X –A -B (różne poziomy). W każdym zadaniu prezentowane są trzy próbki: X – próbka odniesienia (wzorzec) o poziomie 0 dB; A – próbka testowa identyczna z próbką odniesienia (A=X); B – próbka testowa o poziomie wyższym lub niższym w zakresie 2 dB ze skokiem 0,5 dB, (w każdym zadaniu dwa razy jest wzorzec – zawsze na miejscu pierwszym i losowo na drugim lub trzecim). Odstępy między próbkami 1 sek, przerwa 5 sek na decyzję i następne zadanie. Kolejność A -B jest losowa. Zadań jest 20, wśród nich zadania sprawdzające typu X –X -X. Propozycja oceny: wykrywanie najmniejszej słyszalnej różnicy (jnd) poziomu; ocena jakości przy zmianie poziomu. Test 4. Procedura X –A -B (różna szerokość pasma – filtracja równomierna). W każdym zadaniu prezentowane są trzy próbki: X – próbka odniesienia (wzorzec) w pełnym paśmie 20 Hz – 22 kHz; A – próbka testowa identyczna z próbką odniesienia (A=X); B- próbka testowa w paśmie zawężonym od góry i od dołu; (pasma: 50 Hz -18 kHz, 70 Hz – 16 kHz, 90 Hz – 14 kHz, 110 Hz – 12 kHz, 140 Hz – 10 kHz, 200 Hz – 8 kHz ), (w każdym zadaniu dwa razy jest wzorzec – zawsze na miejscu pierwszym i losowo na drugim lub trzecim). Odstępy między próbkami 1 sek, przerwa 5 sek na decyzję i następne zadanie. Kolejność A -B jest losowa. Zadań jest 20, wśród nich zadania sprawdzające typu X –X -X. Propozycja oceny: wykrywanie najmniejszej słyszalnej różnicy (jnd) szerokości pasma; ocena jakości przy zmianie szerokosci pasma. Test 5. Procedura X –A –X (filtracja nierównomierna – zafalowania charakterystyki częstotliwościowej). W każdym zadaniu prezentowane są dwie próbki: X – próbka odniesienia (wzorzec) w paśmie 20 Hz – 22 kHz, charakterystyka płaska; A – próbka testowa, charakterystyka częstotliwościowa zafalowana; (filtry rezonansowe: 1,5 kHz +5 dB; 100 Hz +6,6 dB; 8 kHz +6 dB; 300 Hz -6 dB; 4 kHz – 4,6 dB; cztery filtry rezonansowe ), (w każdym zadaniu dwa razy wzorzec, na miejscu pierwszym i trzecim, na miejscu drugim próbka testowa). Odstępy między próbkami 1 sek, przerwa 5 sek na decyzję i następne zadanie. Zadań jest 20, nie ma zadań sprawdzających. Propozycja oceny: zauważalność filtracji nierównomiernej; ocena jakości przy filtracji nierównomiernej. Test 6. Procedura X –A –X (zmienna rozdzielczość bitowa). W każdym zadaniu prezentowane są dwie próbki: X – próbka odniesienia (wzorzec) – próbka 16 bitowa po rekwantyzacji 16 bitowej; A – próbka testowa o różnej długości bitowej ( 16 bitowa przed rekwantyzacją; 14 bitowa po rekwantyzacji; 12 bitowa po rekwantyzacji ). (w każdym zadaniu dwa razy wzorzec, na miejscu pierwszym i trzecim, na miejscu drugim próbka testowa). Odstępy między próbkami 1 sek, przerwa 10 sek na decyzję i następne zadanie. Zadań jest 20, nie ma zadań sprawdzających. Propozycja oceny: zauważalność zmiennej rozdzielczości bitowej; ocena jakości przy zmiennej rozdzielczości bitowej. Wyniki otrzymane w teście 1 (A –B –A –B ) i teście 3 (X –A- B ) należy porównać pod kątem wykrywania jnd poziomu różnymi metodami. Analogicznie należy porównać wyniki testu 2 (A –B –A –B ) i testu 4 (X –A- B ) odnośnie do szerokości pasma (jak podano wyżej w zadaniach do wykonania). Po dokonaniu przez słuchaczy wszystkich ocen będą udostępnione klucze do testów umożliwiające opracowanie wyników. Dodatek Przykłady skal oceny: dla testu A –B –A –B jednakowe – różne 0 - 1 dla testu X – A – B jednakowe – jeden inny 0 1 jeden lepszy – jednakowe – jeden gorszy 1 0 -1 dla testu X – A – X A X AX dużo gorszy gorszy -2 -1 A=X AX jednakowy lepszy 0 1 A X dużo lepszy 2