sygnały video (A)
Transkrypt
sygnały video (A)
Kodowanie źródeł – sygnały video (A) Sygnał video – definicja i podstawowe parametry Liczba klatek na sekundę Przeplot Rozdzielczość obrazu Proporcje obrazu Model barw Przepływność binarna (B) Kompresja MPEG (C) Ocena jakości video (D) Metoda subiektywna Metoda obiektywna Kompresja MPEG-4 (?) Sygnał video – definicja (a) Termin video potocznie odwołuje się do różnych metod i formatów zapisu obrazu: Cyfrowych np. DVD, video strumieniowe (m.in. MPEG-4) Analogowych np. taśma VHS (b) Sygnał video może zostać zapisany np. na taśmie magnetycznej (w systemie PAL, SECAM, NTSC jako elektryczny sygnał analogowy) (c) Sygnał video może zostać zapisany w formie cyfrowej (ciąg bitów zapisanych w odpowiednim formacie, zazwyczaj skompresowanym np. MPEG-1, MPEG-2 itd.) (d) Jakość sygnału zależy zarówno od metody zapisu jak i nośnika informacji Parametry - liczba klatek na sekundę (a) Liczba klatek na sekundę (ang. fps – frames per second) Zależnie od systemu liczba klatek na sekundę może wynosić od 6 do 120 Aby uzyskać złudzenie płynności ruchu potrzeba około 10 klatek na sekundę Typowo, film kinowy zawiera 24 klatki na sekundę (co stwarza problemy przy jego zapisie do postaci cyfrowej) (b) W zależności od systemu liczba klatek na sekundę wynosi: 25 dla PAL i SECAM 29,97 dla NTSC Parametry - przeplot (a) Przeplot ang. Interlacing - wstęp Poziome linie obrazu są numerowane oraz dzielone na parzyste i nieparzyste Odświeżanie obrazu polega na wyświetlaniu na przemian linii parzystych i nieparzystych Technika wykorzystywana w systemach NTSC, PAL, SECAM W zapisie cyfrowym stosuje się przeważnie obraz bez przeplotu (ang. non-interlacing, progressive) (b) Zalety Mniejsze pasmo potrzebne dla przesłania sygnału Zwiększenie pozornej częstotliwości obrazu Wyeliminowanie efektu migotania obrazu (2 razy częściej wyświetlana jest połowa linii obrazu zamiast rzadziej cały obraz) Parametry – przeplot c.d. (a) Aby zapisać sygnał z przeplotem w postaci cyfrowej należy wykonać operację odwrotną – ang. deinterlacing (b) Operacja taka nie gwarantuje jakości sygnału video na poziome tego samego obrazu przesyłanego bez przeplotu (c) Deinterlacing jest wykonywany we wszystkich odbiornikach typu telewizory TFT, projektory czy telewizory plazmowe Parametry – rozdzielczość (a) Sygnał video analogowy – wyrażana w liniach poziomych ang. horizontal scan lines Np. w przypadku SDTV (ang. standard-definition television) wynosi: dla PAL/SECAM - 768/720x576i50 (i – interlaced) dla NTSC - 720/704/650x480i60 (b) Sygnał video cyfrowy – wyrażana w pikselach Np. w przypadku HDTV (ang. high-definition television) wynosi 1920x1080p60 (p - progresive) Parametry – rozdzielczość c.d. Parametry – proporcje obrazu (a) Proporcje obrazu (współczynnik kształtu obrazu – ang. aspect ratio) Określa proporcje obrazu video oraz jego elementów Dla SDTV wynosi 4:3 lub 1.33:1 Dla HDTV wynosi 16:9 lub 1.85:1 (b) Piksel zdefiniowany dla strumienia cyfrowego video często nie jest „kwadratem” (podobnie jak w standardach PAL i NTSC – norma CCIR 601) Np. obraz o rozdzielczości 720x480 pikseli (DV NTSC/VGA) może być wyświetlany w proporcjach 4:3 (standard TV) oraz w proporcjach 16:9 (obraz szerokoekranowy – ang. anamorphic widescreen format) Parametry – proporcje obrazu c.d. Parametry – model barw (a) Model barw opisuje sposób reprezantacji koloru (b) Dla sygnału video analogowego NTSC – YIQ gdzie Y reprezentuje luminancję (jasność) a I,Q reprezentują chrominancję (odcień, nasycenie barwy). I, Q są składowymi - synfazową i kwadraturową, w procesie modulacji kwadraturowej SECAM – YDbDr gdzie Y reprezentuje luminancję Db, Dr chrominancję PAL – YUV (c) Dla sygnału video cyfrowego – przestrzeń RGB Parametry – model barw c.d. YUV – wszystkie kanały Parametry – model barw c.d. YUV – kanał luminancji Y Parametry – model barw c.d. YUV – kanał chrominancji U Parametry – model barw c.d. YUV – kanał chrominancji V Parametry – model barw c.d. (a) Przestrzeń RGB - 3 wiązki światła czerwona (red), zielona (green), niebieska (blue) zmieszane (synteza addytywna) w odpowiednich proporcjach dają dowolną barwę – właściwość ludzkiego oka (b) Nie należy mylić przestrzeni RGB z tradycyjnym modelem mieszania barw – żółty/niebieski/czerwony (d) W cyfrowym sygnale video używa się 24-bitowego zapisu RGB (c) Odwzorowanie przestrzeni RGB jest zależne od urządzenia Parametry – model barw c.d. Parametry – model barw c.d. Parametry – model barw c.d. Parametry – model barw c.d. (a) Model YUV jest bliższy percepcji ludzkiego oka niż model RGB (b) Model YUV jest tworzony na podstawie oryginalnego obrazu RGB – konwersja RGB-YUV Y = 0.299R + 0.587G + 0.114B U = 0.436(B - Y)/(1 - 0.114) V = 0.615(R - Y)/(1 - 0.299) R,G,B,Y∈[0, 1]; U∈[-0.436, 0.436]; V∈[-0.615, 0.615] Parametry – model barw c.d. Parametry – model barw c.d. (a) Oko ludzkie jest bardziej wrażliwe na jaskrawość niż odcień koloru, stąd luminancja podawana jest dla każdego piksela, a chrominancja może być uśredniana np. za blok 2x2 piksele – podpróbkowanie chrominancji ang. chroma subsampling (b) Operacja pozwala zmniejszyć pasmo sygnału bez zauważalnych zmian w obrazie Parametry – model barw c.d. Parametry – model barw c.d. YUV444 – wszystkie kanały mają tą samą częstotliwość próbkowania 4 piksele opisane za pomocą 3 bajtów każdy [Y0 Cb0 Cr0] [Y1 Cb1 Cr1] [Y2 Cb2 Cr2] [Y3 Cb3 Cr3] zostaną odwzorowane w ciąg 12 bajtowy Y0 Cb0 Cr0 Y1 Cb1 Cr1 Y2 Cb2 Cr2 Y3 Cb3 Cr3 Parametry – model barw c.d. YUV422 – kanały chrominancji mają dwukrotnie mniejszą częstotliwość próbkowania 4 piksele opisane za pomocą 3 bajtów każdy [Y0 Cb0 Cr0] [Y1 Cb1 Cr1] [Y2 Cb2 Cr2] [Y3 Cb3 Cr3] zostaną odwzorowane w ciąg 8 bajtowy Y0 Cb0 Y1 Cr1 Y2 Cb2 Y3 Cr3 Parametry – przepływność binarna (a) Przepływność binarna mierzona jest w bps, Mbps – ang. bit per seconds (b) Wyższa przepływność oznacza zazwyczaj lepszą jakość obrazu np. VideoCD – ok. 1 Mbps, DVD – ok. 5 Mbps, HDTV – ok. 20 Mbps (c) CBR – ang. constant bit rate transmisja w czasie rzeczywistym ang. real-time, brak buforowania, ograniczone pasmo kanału komunikacji np. video-konferencja (d) VBR – ang. variable bit rate odtwarzanie z nośników lub strumieniowe, algorytmy adaptacyjne np. sceny typu low motion są kodowane wolniejszym strumieniem niż sceny typ high motion Kompresja MPEG – podstawy Jeśli S=S’ to kodowanie źródła jest bezstratne (pod warunkiem że Sk=Sk’) Kompresja MPEG – podstawy c. d. (a) Kompresja pozwala zredukować ilość informacji zawartej w sekwencji video (b) Redukcja polega na usunięciu informacji nadmiarowej – redundancja (c) Sekwencja video po kompresji jest zbiorem nieskorelowanych elementów Kompresja MPEG – parametry Stopień kompresji ang. compression ratio N1 CR = N2 Gdzie: N2 sygnał oryginalny, N1 sygnał po kompresji Redundancja R = 1 − CR Kompresja MPEG – redundancja (a) Redundancja kodu – polega na optymalnym dobraniu długości słowa kodowego np. kod Huffmana (b) Redundancja przestrzenna (geometryczna) – wykorzystuje fakt, że poziomy jasności sąsiednich pikseli są silnie skorelowane np. kodowanie RLE (c) Redundancja psychowizualna – wykorzystuje fakt, że ludzkie oko wykazuje nierównomierną czułość na poszczególne składowe obrazu np. transformata DCT z kwantyzacją Kompresja MPEG – entropia (dotyczy kanału luminancji) L −1 E = −1⋅ ∑ p(li ) ⋅ log 2 p(li ) i =0 Gdzie p(li) jest prawdopodobieństwem wystąpienia poziomu jasności li w obrazie Entropia określa średnią liczbę bitów potrzebną do zakodowania wszystkich poziomów jasności L obrazu Kompresja MPEG – entropia c.d. E=7,01 E=5,31 Kompresja MPEG – sekwencja video Kompresja MPEG – makroblok (a) Makroblok jest jednostką przetwarzania dla kompresji MPEG (b) Ma rozmiar 16x16 pikseli i składa się z 6 bloków o rozmiarach 8x8 pikseli Kompresja MPEG – przykładowy blok ⎡ ⎢ ⎢ ⎢ f ( j, k ) = ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ 139 144 150 159 159 161 162 162 144 151 155 161 160 161 162 162 149 153 160 162 161 161 161 161 153 156 163 160 162 161 163 161 155 159 158 160 162 160 162 163 155 156 156 159 155 157 157 158 155 156 156 159 155 157 157 158 155 156 156 159 155 157 157 158 ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ Kompresja MPEG – zasada kompresji Kompresja MPEG – dwuwymiarowa transformata DCT 7 7 ( ( 1 2 j + 1)u π 2 k + 1)v π F (u , v ) = C (u )C (v )∑ ∑ f ( j , k ) cos cos 4 16 16 j=0 k =0 C (u ) = 2 2 dla u = 0, C (u ) = 1 dla u ≠ 0 Kompresja MPEG – dwuwymiarowa transformata DCT Kompresja MPEG – dwuwymiarowa transformata DCT c.d. Kompresja MPEG – przykładowy blok po DCT ⎡ 1260 ⎢ - 23 ⎢ - 11 ⎢ - 7 F (u, v ) = ⎢ ⎢ - 1 ⎢ 2 ⎢ - 1 ⎢ ⎣ - 3 - 1 - 12 - 5 2 - 2 - 3 1⎤ - 17 - 6 - 3 - 3 0 0 - 1⎥ - 9 - 2 2 0 - 1 - 1 0⎥ ⎥ - 2 0 1 1 0 0 0⎥ - 1 1 2 0 - 1 1 1⎥ 0 2 0 - 1 1 1 - 1⎥ 0 0 - 1 0 2 1 - 1 ⎥ ⎥ 2 - 4 - 2 2 1 - 1 0 ⎦ Kompresja MPEG – kwantyzacja ⎢ ⎢ Q(u , v) ⎥ ⎥ ( , ) F u v + ⎢ ⎢⎣ 2 ⎥⎦ ⎥ F(u, v) * ⎥ )≈⎢ F (u , v) = Nearest integer ( Q(u, v) ⎢ Q(u , v) ⎥ ⎢⎣ ⎥⎦ ⎡16 ⎢12 ⎢14 ⎢ 14 Q (u, v ) = ⎢ ⎢18 ⎢ 24 ⎢ 49 ⎢ ⎣72 11 12 13 17 22 35 64 92 10 14 16 22 37 55 78 95 16 24 40 19 26 58 24 40 57 29 51 87 56 68 109 64 81 104 87 103 121 98 112 100 51 60 69 80 103 113 120 103 61 ⎤ 55 ⎥ 56 ⎥ ⎥ 62 ⎥ 77 ⎥ 92 ⎥ 101 ⎥ ⎥ 99 ⎦ Kompresja MPEG – kwantyzacja c.d. Kompresja MPEG – przykładowy blok po kwantyzacji ⎡79 ⎢- 2 ⎢- 1 F * (u , v ) = ⎢ 0 ⎢ 0 ⎢ 0 ⎢ 0 ⎢⎣ 0 0 -1 -1 0 0 0 0 0 -1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥⎦ Kompresja MPEG – Zig-Zag Kompresja MPEG – kodowanie RLE Kompresja MPEG – kod Huffmana Kompresja MPEG – kod Huffmana c.d. (a) Kompresja danych metodą statystyczną (b) Krótkie słowa kodowe reprezentują symbole występujące z największym prawdopodobieństwem (c) Długie słowa kodowe reprezentują symbole występujące z najmniejszym prawdopodobieństwem (d) Najważniejsze właściwości: - Żadne słowo kodowe nie jest początkiem innego słowa - Dwa najmniej prawdopodobne symbole mają słowa kodowe równej długości - Dwa najdłuższe symbole różnią się tylko ostatnim symbolem - Żadne dwa słowa kodowe nie mają tej samej postaci Kompresja MJPEG, MPEG-1, MPEG-2, MPEG-4 – ramka I (a) Ramka I – ang. Intra Picutres (I-Pictures) (b) Ramka indeksowa jest kompresowana indywidualnie w całości (c) Nie wymaga dodatkowej informacji do dekompresji (d) Typowy stopień kompresji to 2 bity na kodowany piksel Kompresja MJPEG, MPEG-1, MPEG-2, MPEG-4 – ramka I c.d. Kompresja MPEG-1, MPEG-2, MPEG-4 – ramka P (a) Ramka P – ang. Predictet Picture (P-Picture) (b) Ramka z predykcją – forward prediction (c) W procesie kodowania wykorzystywana jest informacja z poprzedniej ramki P lub I (d) Może zawierać kompensację ruchu (większy stopień kompresji niż ramka I) Kompresja MPEG-1, MPEG-2, MPEG-4 – ramka P c.d. Kompresja MPEG-2, MPEG-4 – ramka B (a) Ramka B – ang. Bidirectional Picture (B-Picture) (b) Ramka kompresowana „dwukierunkowo” - zawiera informacje dotyczące różnic między sąsiednimi ramkami (c) Do dekompresji konieczna jest informacja z ramek poprzedzających i następujących - interpolacja (d) Wysoki stopień kompresji ale duża złożoność obliczeniowa Kompresja MPEG-2, MPEG-4 – ramka B c.d. Kompresja MPEG-2, MPEG-4 – ramka B c.d. Kompresja MPEG-2, MPEG-4 – struktura GOP Ocena jakości video – metoda subiektywna MOS – współczynnik jakości obrazu, ang. Mean Opinion Score (a) Pomiar dokonywany jest przez porównanie obrazu oryginalnego oraz obrazu przetworzonego (b) Dla audio zdefiniowany przez rekomendację ITU-T P.800 (c) Skala ocen od 1 do 5 (d) Ocena przyznawana jest wg kryterium: 1 zła różnice bardzo irytujące 2 słaba różnice irytujące 3 przeciętna różnice lekko irytujące 4 dobra różnice zauważalne ale irytujące 5 doskonała różnice niezauważalne (e) Pod uwagę brana jest ocena średnia dla ustalonej grupy osób (liczność) Ocena jakości video – metoda obiektywna PSNR – wartość szczytowa stosunku sygnał-szum, ang. peak signal-to-noise ratio gdzie: MAXI = 2B-1, B - liczba bitów na piksel (w przypadku przetwarzania liniowego) np. dla 8 bitów MAXI=255 MSE – błąd średniokwadratowy Ocena jakości video – metoda obiektywna c.d. PSNR dla obrazu RGB (typowe wartości 30-40 [dB]) PSNR = 10 ⋅ log10 2552 ⋅ m ⋅ n m −1, n −1 2 ( X − Y ) ∑ ij ij i =0, j =0 gdzie mxn to rozdzielczość obrazu
Podobne dokumenty
Formy cyfrowej informacji - Technologie Informacyjne
• Pliki tego typu zapisywane są w postaci: nazwa.bmp.
Bardziej szczegółowo