Wykład 14 - kodowanie podpasmowe
Transkrypt
Wykład 14 - kodowanie podpasmowe
Kodowanie podpasmowe Plan 1. 2. 3. 4. Zasada Filtry cyfrowe Podstawowy algorytm Zastosowania Zasada ogólna Rozkład sygnału źródłowego na części składowe (jak w kodowaniu transformacyjnym) Wada kodowania transformacyjnego – sztuczny podział na bloki. Problemy z rekonstrukcją na krawędziach bloków Tutaj: sposób rozdziału – rozkład na róŜne pasma częstotliwościowe za pomocą filtrów cyfrowych Kodowanie kaŜdego pasma oddzielnie Główny obszar zastosowań: kodowanie mowy (G.722), dźwięku (MPEG audio) Filtry Filtry – układy słuŜące wyodrębnieniu składowych o odpowiednich częstotliwościach Charakterystyka filtra – funkcja przenoszenia modułu Rodzaje filtrów: Dolnoprzepustowe Górnoprzepustowe Środkowoprzepustowe Filtry cyfrowe – działają na ciągi liczb (zwykle są to próbki sygnału ciągłego). Minimalna wymagana częstość próbkowania Uogólnione tw. Nyquista: aby odtworzyć dokładnie sygnał, który zawiera składowe o częstotliwościach pomiędzy f1 a f2 naleŜy go próbkować z częstością f p ≥ 2 * ( f 2 − f1 ) Kodowanie podpasmowe – algorytm Kodowanie podpasmowe – działanie Koder Sygnał wejściowy wchodzi na bank filtrów analizujących – rozkład na podpasma Podpróbkowanie w stosunku (szerokość całego pasma):(szerokość podpasma) Zgodne z reguła Nyquista Ogranicza całkowitą ilość próbek Kodowane podpasm Mechanizm kodowania (DPCM, ADPCM, kwantyzacja; VLC) Sposób rozdziału bitów Przesyłanie zakodowanego sygnału Kodowanie podpasmowe – działanie c.d. Dekoder Dekodowanie w podpasmach Uzupełnianie (wstawienie odpowiedniej ilości zer pomiędzy próbkami) Podanie na filtry syntetyczne Sumowanie zrekonstruowanych sygnałów podpasm Percepcja dźwięku Podstawowe fakty Zakres słyszalności: 20 Hz ÷ 20 kHz, największa czułość w zakresie 2 ÷ 4 kHz Czułość na dźwięk jest funkcją częstotliwości Człowiek przetwarza dźwięk w pewnych podpasmach, zwanych pasmami krytycznymi. Cały zakres akustyczny – około 24 pasm krytycznych Szerokość pasma krytycznego – stała dla małych, rośnie dla częstości > 500 Hz Maskowanie Polega na „przesłanianiu” wraŜenia brzmienia dźwięków przez inne – sąsiadujące w dziedzinie częstotliwości lub czasu. Maskowanie jednoczesne (częstotliwościowe) Silniejszy dźwięk zakłóca współbrzmiące słabsze dźwięki o zbliŜonych częstotliwościach Efekt tym większy im mniejsza separacja w częstotliwości Maskowanie – c.d. Maskowanie niejednoczesne (czasowe) – silny dźwięk maskuje inne juŜ poza jego czasem trwania Premasking – moŜe trwać kilka ÷ kilkanaście milisekund Postmasking – do 200 ms Premasking – mocniejsze dźwięki są przetwarzane szybciej niŜ słabsze Postmasking – wysycenie, długi czas relaksacji neuronów Maskowanie – c.d. Łączne działanie obu typów maskowania Maskowanie – pozwala na opuszczenie części danych bez szkody dla jakości dźwięku Łączny opis progu czułości jako funkcji częstotliwości oraz wpływu maskowania – model psychoakustyczny. Standard MPEG Opracowany na początku lat 90-tych jako standard kodowania video Zawiera definicję standardu kodowania audio – trzy odmiany (warstwy) o coraz większej złoŜoności Działanie oparte na: Kodowaniu podpasmowym Modelu psychoakustycznym słyszenia (przydział bitów) MPEG audio - działanie Dopuszcza sygnał wejściowy próbkowanych 32, 44.1 lub 48 kHz Pozwala na obsługę 1 lub 2 kanałów audio w trybach: mono, dual-mono, joint-stereo, stereo Sekwencja przetwarzania sygnału Podział na ramki po 384 (warstwa 1) lub 3 x 384 (warstwa 2 i 3) próbki Skierowanie na bank 32 filtrów analizujących – podział na 32 podpasma Dzisiątkowanie sygnału – ramka elementarna w podpaśmie zawiera 12 próbek Zastosowanie modelu psychoakustycznego – wyliczenie maskowania oraz progów kwantyzacji w kaŜdym z podpasm Kwantyzacja i kodowanie entropijne sygnału podpasm, uformowanie strumienia bitowego MPEG audio – działanie c.d. Działanie modelu psychoakustycznego: Niech po podziale na podpasma poziomy pierwszych podpasm wynoszą: Nr 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Poziom[dB] 0 8 12 10 6 2 10 60 35 20 15 2 3 5 3 1 Pasmo 8 – poziom 60 dB – daje maskowanie: kanał 7 – 12 dB, kanał 9 – 15 dB Poziom w kanale 7 równy 10 dB (< 12 dB) – kanał 7 moŜna pominąć Poziom w kanale 9 równy 35 dB (> 15 dB). Poziom maskowania wyznacza szerokość przedziału kwantyzacji – do zakodowania efektywnie tylko 20 dB; to wymaga 20 dB/6 dB/bit ≈ 4 bity (zamiast 6 bitów bez uwzględniania maskowania). Warstwy MPEG-1 Warstwa 1 Filtry typu DCT, równy podział w częstotliwości Na filtr jest podawana 1 ramka jednocześnie ( ok. 8 msek) Tylko maskowanie jednoczesne Daje jakość CD dla bitrate 384 kbps (kompresja 4:1) Warstwa 2 Podaje na filtr 3 ramki jednocześnie (1152 próbek) Pozwala na uwzględnienie pewnych elementów maskowania czasowego Daje jakość CD dla bitrate 256 kbps (kompresja 6:1) Warstwa 3 (MP3) Lepsze filtry (nierównomierne w częstotliwości, zbliŜone do pasm krytycznych Model psychoakustyczny zawiera maskowanie czasowe Stosuje kodowanie Huffmana wyjść kwantyzatorów Daje jakość CD dla bitrate 128 kbps (kompresja 12:1)