Komputerowe przetwarzanie sygnału mowy

Transkrypt

Komputerowe przetwarzanie sygnału mowy
”Komputerowe przetwarzanie
sygnału mowy”
Prof. dr hab. inż. Bożena Kostek
Katedra Systemów Multimedialnych
Wydział Elektroniki, Telekomunikacji i Informatyki
Politechnika Gdańska
Komputerowe przetwarzanie sygnału mowy
Plan wykładu
1. Wprowadzenie – zagadnienia podstawowe
2. Podział systemów rozpoznawania mowy i mówców
3. Charakterystyka metod analizy i rozpoznawania mowy
4. Model fizyczny traktu głosowego
5. Ekstrakcja parametrów sygnału mowy - mikrofonemy
6. Przykładowe algorytmy rozpoznawania mowy
7. Podsumowanie
Komputerowe przetwarzanie sygnału mowy
Cyfrowe techniki przetwarzania sygnału
mowy
Transmisja
i
Rejestracja
Rozpoznawanie
i weryfikacja
mówcy
Ułatwienia dla osób
niewidomych i niesłyszących
Synteza
mowy
Poprawa jakości sygnału
Rozpoznawanie
mowy
Wprowadzenie – komunikacja werbalna
kora ruchowa
tworzenie form
wyrazowych i zdań
pojęcia kolorów
zwoje podstawne
lewej pólkuli
Struktura systemu wytwarzania mowy
Wyższe czynniki psychiczne
(proces myślowy)
Nadrzędne sterowanie
ruchów artykulacyjnych
Kora
Koramózgowa
mózgowa
Koordynacja i synchronizacja
ruchów artykulacyjnych
Sterowanie i regulacja czynności
mięśni artykulacyjnych
Pień
Pieńmózgu
mózgu
Mięśnie, stawy i więzadła
organów artykulacji
Efektory
Efektory
Mowa i proces jej wytwarzania
ja ma nos owa
podnie bie nie
re zonans no s o wy
ja m a g a rd
ło wa
ja ma us tna
artykulac ja
fo nac ja
krta ń
tcha wica
o ddyc hanie
na głoś nia
prze łyk
Przekrój
Przekrój
narządów
narządów
mowy
mowy
Wytwarzanie mowy
Generator
tonu
krtaniowego
Transmitancja
modulująca
Impedancja
emisji
mowy
Generator
szumu
Schemat
Schematzastępczy
zastępczysystemu
systemuartykulacyjnego
artykulacyjnego
Modelowanie fizyczne - model falowodowy
System złożony z N cylindrów o długości Li i powierzchni Ai
(i = 1, 2, ..., N)
Model fizyczny
Zbiór rezonatorów
cylindrycznych
Input
„Cyfrowy”
model
falowodowy
z
1+r1
–d1
r0
z
–r1
z –d1
r1
1–r1
z
–r2
z –d2
Output
1+r2
–d2
–dN
–rN
r2
1–r2
z –dN
Cechy widma sygnału mowy
Przykład
Przykładanalizy
analizyspektrograficznej
spektrograficznej-- wyraz
wyraz„jeden”
„jeden”
Czas
Czasanalizy
analizy==0,56
0,56ss(STFT
(STFT––short
shorttime
timeFourier
Fouriertransform)
transform)
Cechy widma mowy – przykład cech dystynktywnych
• nosowy-ustny - jeżeli widmo mowy wykazuje
więcej niż dwa formanty poniżej 2 kHz, to jest
to fonem nosowy. W przeciwnym przypadku
fonem jest ustny
• dźwięczny-bezdźwięczny – fonemy dźwięczne
charakteryzuje obecność składowej
periodycznej, której z kolei brak w fonemach
bezdźwięcznych
Najprostszy system rozpoznawania fonemów:
cechy dystynktywne
Spółgłoskowe
Spółgłoskowe
Ponadkrtaniowe
Ponadkrtaniowe
Nosowe
Nosowe
Łagodne
Łagodne
Skupione
Skupione
Jasne
Jasne
Niskotonowe
Niskotonowe
Krótkie
Krótkie
Dźwięczne
Dźwięczne
Podział systemów ARM
Rozpoznawanie
mowy
Rozpoznawanie
mowy
ciągłej
Rozpoznawanie
mowy - zależnie od
mówcy
Rozpoznawanie
izolowanych
wyrazów
Rozpoznawanie mowy niezależnie od mówcy
Rozpoznawanie mowy niezależnie od mówcy w
warunkach zakłóceń bądź
ograniczonego pasma
Wielkość
słownika
Podział systemów rozpoznawania mówców
ze względu na cel
rozpoznawania
weryfikacja
mówcy
potwierdzenie
deklarowanej przez
mówcę tożsamości
identyfikacja
mówcy
określenie, który z mówców
się wypowiada, na podstawie
zbioru modeli odniesienia
Podział systemów rozpoznawania mówców
ze względu na
zależność od tekstu
niezależne od
treści
skuteczne dla dowolnej
wypowiedzi,
wykorzystywane gdy
nie można liczyć na
współpracę mówcy
zależne od treści
skuteczne tylko dla niektórych
wypowiedzi, wykorzystywane gdy
można się spodziewać, że mówca
wymówi hasło, numer identyfikacyjny
lub podpowiedziany przez system tekst
Podział systemów rozpoznawania mówców
ze względu na
charakter zbioru
modeli mówców
z zamkniętym
zbiorem
każdemu mówcy musi
odpowiadać jakiś model
odniesienia, wybierany jest
najbliższy spośród
wszystkich modeli mówców
z otwartym
zbiorem
możliwe jest uznanie, że żaden z modeli
odniesienia nie jest wystarczająco podobny
do danej wypowiedzi, wybierany jest
najbliższy spośród wszystkich modeli, pod
warunkiem, że jego podobieństwo
przekracza określony próg
Proces rozpoznawania sygnału mowy
Analiza i przetwarzanie wstępne sygnału
Ekstrakcja parametrów
Identyfikacja elementów
fonetycznych
Analiza leksykalna, gramatyczna,
semantyczna
"Rozumienie"
Analiza mowy – przetwarzanie wstępne
• Normalizacja energetyczna, preemfaza
• Segmentacja sygnału (detekcja granic wyrazów, fonemów)
Przykładowo:
• Segmentacja poprzez analizę obwiedni amplitudowej
pi − pi −1 > k ∨ pi − pi +1 > k
gdzie:
pi - i-ta próbka sygnału
k - arbitralnie przyjęta wartość progowa
t2
t2
∫ ts(t )dt
c=
t1
t2
∫ s(t )dt
t1
d=
∫ (t −c)
2
s(t )dt
t1
t2
∫ s(t )dt
k1 ≅ c − wd
k2 ≅ c + wd
t1
gdzie: c - środek ciężkości, d – dyspersja, t1, t2 – dowolna próbka
„przed” i „za” wyrazem, s(t) – rozkład czasowy funkcji gęstości p,
k1, k2 – granice wyrazu (numer próbki),
Ekstrakcja parametrów - fonemy
samogłoskowe
Formanty
FormantyFF11iiFF22
Momenty
Momentycentralne
centralneM
Mc1
c1ii
M
Mcu2
cu2
Fonemy samogłoskowe
Rozmieszczenie
Rozmieszczeniena
na
płaszczyźnie
polskich
płaszczyźnieFF11iiFF22polskich
samogłosek
samogłosek––kilkunastu
kilkunastu
mówców
mówców
Analiza mowy – parametryzacja
• współczynniki cepstralne (MFCC) w skali
nieliniowej (melowej)
M i = ∑ X k cos[i (k − 0.5)π / 20]
20
k =1
gdzie: i - numer współczynnika cepstralnego;
k - liczba pasm częstotliwości
logarytm energii w danym paśmie
X k - częstotliwości
k
• proste parametry, np. liczba przejść przez zero lub
przez inną wartość (w celu ograniczenia wpływu
składowej stałej)
• analiza LPC – współczynniki LPC
Analiza mowy – parametryzacja
Skala Koeniga służąca do obliczania mel-cepstum
Wykresy cepstrum
Słowo
Słowo„zero”
„zero”-trzech
trzechmówców
mówców
Współczynniki cepstralne - cepstrogramy
Słowo
Słowo„cztery”
„cztery”--dwóch
dwóchmówców
mówców
Analiza czasowo-częstotliwościowa - spektrogramy
Słowo
Słowo„cztery”
„cztery”--dwóch
dwóchmówców
mówców
Współczynniki mel-cepstralne – mel-cepstrogramy
Słowo
Słowo„cztery”
„cztery”--dwóch
dwóchmówców
mówców
Automatyczna klasyfikacja
Segmentacja
Segmentacja
redukcja
redukcja
danych
danych
64kbit/s
64kbit/s
Analiza i
parametryzacja
64÷
÷÷500bit/słowo
64÷
500bit/słowo
Badanie
Badanieodległości
odległości
ciągów
ciągówbinarnych
binarnych
rozpoznawanie
rozpoznawanie
Kalkulacja
podobieństwa
uczenie
uczenie
Pamięć
referencyjna
Osąd
200÷
÷÷500ms
200÷
500ms
ARM – systemy decyzyjne
Metody rozpoznawania izolowanych wyrazów:
•
•
•
•
•
•
•
•
nieliniowa normalizacja czasowa
NN - nearest neighbour
kNN - k nearest neighbours
centroid
kwantyzacja wektorowa VQ (Vector Quantization)
niejawne modele Markowa (HMM)
sztuczne sieci neuronowe
metoda zbiorów przybliżonych
Algorytm nieliniowego dopasowania czasowego
m
M2
Proces
Proces
nieliniowego
nieliniowego
dopasowania
dopasowania
czasowego
czasowego
T(m)
m = w(n)
M1
R(n)
N1
N2
n
Algorytm nieliniowego dopasowania czasowego
O
R
E
Z
Z
E
E
R
O
O
Ilustracja
Ilustracjaprocesu
procesunieliniowego
nieliniowegodopasowania
dopasowaniaczasowego
czasowegoww
przypadku
przypadkuizolowanych
izolowanychwyrazów
wyrazów
Algorytm nieliniowego dopasowania czasowego
•
Dopasowanie można przedstawić jako funkcję:m
przy spełnionych warunkach brzegowych:
= w(n)
M 1 = w( N1 ) M 2 = w( N 2 )
oraz warunków ciągłości (następstwo segmentów)
w(n + 1) − w(n) = 0,1,2 ( w(n) ≠ w(n − 1))
w(n + 1) − w(n) = 1,2
•
( w( n) = w(n − 1))
Dystans skumulowany jest miarą wskazującą na podobieństwo obiektu
do wzorca:
N
DT = min
∑ D ( R(n),T ( w(n)))
{ w ( n )}
n =1
DA (n, m) = D(n, m) + min
D
(
n
−
1
,
q
)
A
q≤m
gdzie:
D A ( n, m ) -
minimalny dystans skumulowany względem
punktu ( n, m) siatki
HMM
• Dane słowo Sm w słowniku M możliwych słów jest
reprezentowane ciągiem m zdarzeń O
• Każde słowo w słowniku jest opisane Łańcuchem Markowa
(HMM), dla M słów ⇒ M⋅HMM {L1, L2,...., LM}
• procedura dopasowania polega na obliczeniu
sumarycznego prawdopodobieństwa (zdarzeń i przejść), że
dany ciąg zdarzeń O został wygenerowany przez dany
model L
• Prawdopodobieństwo to dane jest wzorem:
Pm=Pr(O|Lm)
HMM
aa121
121
aa1111
S1
aa2222
S2
aa211
211
aa321
321
aa231
231
aa131
131
S3
aa311
311
aa3333
Ilustracja
Ilustracjastanów
stanówiiprawdopodobieństwa
prawdopodobieństwazdarzeń
zdarzeńprocesu
procesu
Markowa
Markowa
HMM
Określa się trzy elementy procesów Markowa dla wszystkich
modeli 1≤m≤M:
- N - liczba stanów w modelu S={S1, S2,...,SN}
- M - liczba dyskretnych wartości, jakie może przybierać
obserwacja zdarzeń
- macierz przejścia
- dyskretne obserwacje
a11
.
A= .
.
a1 N
, ... , a1 N
. . . .
. . . .
. . . .
, ... , a NM
b11
.
B= .
.
b1 N
, ... , b1 N
. . . .
. . . .
. . . .
, ... , bMN
HMM
Ilustracja
Ilustracja
wyboru
wyboru
optymalnej
optymalnej
drogi
drogi
przejścia
przejścia
Model
Modelsłowa
słowa
Metoda zbiorów przybliżonych
Rozpoznawanie
Rozpoznawaniemowy
mowyniezależnie
niezależnieod
odmówcy
mówcyww
oparciu
oparciuoosystem
systemdecyzyjny
decyzyjnywykorzystujący
wykorzystującymetodę
metodę
zbiorów
zbiorówprzybliżonych
przybliżonych
Parametry
Parametrymel-cepstralne
mel-cepstralne
Słownik:
Słownik:40
40wyrazów,
wyrazów,33mówców
mówców
.
SYSTEM
POPRAWNA
BŁĘDNA
BŁĄD
DECYZYJNY KLASYFIKACJA KLASYFIKACJA [%]
1 dł. reguł = 1
114
6
5.0
2 dł. reguł = 2
116
4
3.3
3 dł. reguł = 3
113
7
5.8
4 dł. reguł = 4
110
10
8.3
Metoda zbiorów przybliżonych
Skuteczność
Skuteczność
rozpoznawania
rozpoznawania
100
[%]
90
80
r = c ⋅ ( µ RS − nµ )
nµ ∈< 0,1)
gdzie: r – moc reguły
c
µ RS
nµ
70
0,1 0,3 0,5 0,7 0,9 1
Punkt
Punktneutralny
neutralny
miary
miary
przynależnści
przynależnści--
- liczba przypadków potwierdzająca regułę
- miara przynależności
- punkt neutralny
Inne systemy decyzyjne
Y = [Y1 , Y2 ,..., Y10 ]
Zapis
Zapiswektora
wektoracech
cechii
reguły:
reguły:
(Y1=1 ∧ Y2=0 ∧ Y3=0 ∧... ∧ Y10=0) ⇒ cyfra = ”jeden"
(Y1=0 ∧ Y2=1 ∧ Y3=0 ∧... ∧ Y10=0) ⇒ cyfra = ”dwa"
...................................................................................
(Y1=0 ∧ Y2=0 ∧ Y3=0 ∧... ∧ Y10=1) ⇒ cyfra =" zero"
1
2
3
METODA
NN
NN
wspomagany
wnioskow.
rozmytym
zbiory
przybliżone
POPRAWNA
BŁĘDNA
BŁĄD
KLASYFIKACJA KLASYFIKACJA
[%]
6 (+ 8 bez
86
decyzji)
6 (14)
93
7
7
92
8
8
Podsumowanie
Tematyka komputerowego rozpoznawania
sygnału mowy obejmuje trzy główne
dziedziny:
– podstawy akustyki
– cyfrowe przetwarzanie sygnału
– informatykę (uczące się systemy decyzyjne)
Obok ograniczeń technologicznych
automatyczne rozpoznawanie mowy
wciąż napotyka na ograniczenia natury
koncepcyjnej
Dziękuję za uwagę

Podobne dokumenty