n - DSP AGH
Transkrypt
n - DSP AGH
Ekstrakcja mowy z sygnału o dużym poziomie „tła” Rafał Samborski Plan prezentacji ● Zarys problemu ● Propozycja rozwiązania ● Przykład działania ● Podsumowanie Zarys problemu d l1 M ik r o fo n 1 c b a M ik r o fo n 2 l2 Przy częstotliwości próbkowania 44100 Hz wystarczy różnica odległości na poziomie: m 23 s⋅330 ≈7,5 mm s Propozycja algorytmu S we m1 BPF S wy m1 corr =max S S ∑ [ n wy m1 we m1 BPF wy m2 n− S we m1 we m2 S mowa n=S n−−kS n k= ∑S wy 2 m1 n ∑S wy 2 m2 n n n S ] wy m1 Postprocessing ● Autokorelacja sygnału wyjściowego autocorr =max S mowa n−−S mowa ∑ [ ] n Kiedy jest celowe jej stosowanie i dlaczego? ● Filtracja sygnału wyjściowego Prezentacja działania (I) S we m1 S wy m1 S we m1 S wy m2 Prezentacja działania (II) we m1 we m2 S mowa n=S n−−kS n Prezentacja działania (III) S ● we m1 S we m1 Złe uwarunkowanie problemu przez zbyt czytelną warstwę mowy w nagraniach Podsumowanie ● ● Opracowany algorytm dobrze radzi sobie z sygnałem mowy ukrytym głęboko w sygnale tła Wprowadzenie preprocessingu – np. thresholing może zwiększyć skuteczność w przypadku bardzo zaszumionych sygnałów Dziękuję za uwagę Wykorzystano nagrania: ● ● Richard Bona – „O Sen Sen Sen” Wojciech Mann – „Pan Twardowski”