n - DSP AGH

Transkrypt

n - DSP AGH
Ekstrakcja mowy z sygnału o dużym poziomie „tła”
Rafał Samborski
Plan prezentacji
●
Zarys problemu
●
Propozycja rozwiązania
●
Przykład działania
●
Podsumowanie
Zarys problemu
d
l1
M ik r o fo n 1
c
b
a
M ik r o fo n 2
l2
Przy częstotliwości próbkowania 44100 Hz wystarczy różnica odległości na poziomie:
m
23 s⋅330 ≈7,5 mm
s
Propozycja algorytmu
S
we
m1
BPF
S
wy
m1
corr =max 
S
S
∑
[
n
wy
m1
we
m1
BPF
wy
m2
n− S 
we
m1
we
m2
S mowa n=S n−−kS n
k=

∑S
wy 2
m1
n
∑S
wy 2
m2
n
n
n
S
]
wy
m1
Postprocessing
●
Autokorelacja sygnału wyjściowego
autocorr =max 
 S mowa n−−S mowa 
∑
[
]
n
Kiedy jest celowe jej stosowanie i dlaczego?
●
Filtracja sygnału wyjściowego
Prezentacja działania (I)
S
we
m1
S
wy
m1
S
we
m1
S
wy
m2
Prezentacja działania (II)
we
m1
we
m2
S mowa n=S n−−kS n
Prezentacja działania (III)
S
●
we
m1
S
we
m1
Złe uwarunkowanie problemu przez zbyt czytelną warstwę mowy w nagraniach
Podsumowanie
●
●
Opracowany algorytm dobrze radzi sobie z sygnałem mowy ukrytym głęboko w sygnale tła
Wprowadzenie preprocessingu – np. thresholing może zwiększyć skuteczność w przypadku bardzo zaszumionych sygnałów
Dziękuję za uwagę
Wykorzystano nagrania:
●
●
Richard Bona – „O Sen Sen Sen”
Wojciech Mann – „Pan Twardowski”

Podobne dokumenty