AkUstyczne WyznAczniki rytMU W WyPoWiedziAch MóWcóW

Transkrypt

AkUstyczne WyznAczniki rytMU W WyPoWiedziAch MóWcóW
PRACE FILOLOGICZNE, tom LXVI
PF 2015 (LXVI): 249–270
Agnieszka Wagner
Instytut Językoznawstwa
Uniwersytet im. Adama Mickiewicza w Poznaniu
Al. Niepodległości 4
61-874 Poznań
tel. (61) 82 93 663
e-mail: [email protected]
Akustyczne wyznaczniki rytmu
w wypowiedziach mówców natywnych
i nienatywnych języka polskiego1
SŁOWA KLUCZOWE: analiza wielowymiarowa, iloczas, prominencja, frazowanie
KEY WORDS: multidimensional analysis, duration, prominence, phrasing
1. Wstęp
1.1. Rytm mowy – przedmiot i znaczenie badań
W niniejszej pracy pod pojęciem rytmu wypowiedzi rozumiemy percepcyjne
wrażenie struktury składającej się z mniej i bardziej uwydatnionych (prominentnych) jednostek mowy (sylab, taktów – ang. beats) pogrupowanych w taki sposób,
aby stworzyć percepcyjnie różne wzorce np. jamby lub trocheje. Badania w dziedzinie rytmu mają ogromne znaczenie nie tylko w językoznawstwie i fonetyce, ale
także w innych dziedzinach nauki, m.in. w psychologii, patologii i terapii mowy,
czy też w nabywaniu języka. Dzieje się tak dlatego, ponieważ struktura rytmiczna ułatwia analizę składniową, interpretację i zapamiętywanie treści wypowiedzi.
Z drugiej strony, uszkodzenie procesów związanych z przetwarzaniem rytmu ma
negatywny wpływ na zdolności językowe i płynność mówienia.
Badania zostały zrealizowane w ramach grantu finansowanego przez Narodowe Centrum Nauki
„Struktura rytmiczna wypowiedzi: analiza korpusowa” (nr 2013/11/D/HS2/04486) na lata 2014–2016.
1
250
Agnieszka Wagner
Znaczna część dotychczasowych badań nad rytmem pozostaje pod wpływem
hipotezy o rytmicznej klasyfikacji języków, która ma swe źródło w obserwacji, że
różne języki posiadają percepcyjnie różne rytmy. Zgodnie z tą hipotezą języki
można przyporządkować do jednej z trzech kategorii: rytmu sylabicznego (np.
język hiszpański, włoski), rytmu akcentowego (niemiecki, angielski) lub rytmu
opartego na morach (japoński). Tradycyjne badania rytmu (Pike 1946; Abercrombie 1967) szukały potwierdzenia tej hipotezy w izochronizmie, który zakładał, że w językach o rytmie sylabicznym/akcentowym/opartym na morze sylaby/stopy/mory powinny mieć ten sam iloczas. Ponieważ nie udało się potwierdzić empirycznie istnienia izochronizmu, źródeł percepcyjnych różnic między
rytmami języków zaczęto szukać w ich fonetyce i fonologii (Dauer 1987).
Status rytmiczny języka polskiego pozostaje jak dotąd nieustalony. Ogólnie rzecz
biorąc, język polski wykazuje cechy fonologiczne charakterystyczne dla języków
o obu typach rytmu – sylabicznego, m.in. stała pozycja akcentu wyrazowego, brak
redukcji samogłosek nieakcentowanych, i akcentowego, m.in. obecność sylab o złożonej strukturze fonotaktycznej, znaczący udział iloczasu w realizacji akcentu nuklearnego i frazowania (Jassem 1962; Richter 1987; Demenko 1999; Klessa 2006; Wagner
2008b; Malisz 2013). Istnienie języków takich jak język polski, o rytmach niedających
się łatwo sklasyfikować, było kolejną (po braku empirycznego potwierdzenia hipotezy
izochronizmu) przyczyną pojawienia się nowych koncepcji rytmu – rytmicznego kontinuum (Dauer 1987) oraz rytmów współistniejących (Nolan, Asu 2009).
Obecnie panuje pogląd, że nie powinno się stawiać znaku równości między rytmem a wzorcami czasowymi (Arvaniti 2009), ponieważ w produkcji i percepcji rytmu znaczenie mają także czynniki inne niż iloczas, jak wysokość tonu (intonacja),
intensywność czy też tempo mowy, za pomocą których realizowane są struktura rytmiczna (metrum) i grupowanie, związane kolejno z prominencją i frazowaniem. Akustyczna realizacja prominencji i frazowania jest specyficzna dla danego języka, choć
ogólnie obserwuje się tendencję do wydłużania iloczasu w przypadku sylab prominentnych i na granicy fraz prozodycznych (Beckman, Edwards 1994; Turk, White
1999; Wightman i in. 1992; Yoon i in. 2007; Wagner 2010). Dotychczasowe badania
dla języka polskiego nie są zgodne w kwestii akustycznych korelatów prominencji
i frazowania: Dłuska (1950) za główny korelat prominencji związanej z akcentem
wyrazowym (ang. stress) uznaje intensywność, natomiat Jassem (1962) – zmiany wysokości tonu. Badania z ostatnich lat pokazują, że iloczas, obok wysokości tonu i intensywności, jest jednym z akustycznych korelatów prominencji (Terken 1991; Hirschberg 1993; Portele 1998; Tamburini 2003; Sridhar i in. 2008; Rosenberg 2009), i że
zróżnicowanie iloczasu jest mniejsze w przypadku prominencji niższego poziomu,
związanych z akcentem wyrazowym (ang. stress) niż wyższego poziomu, związanych
z akcentem melodycznym (ang. pitch accent) i frazowym (Klessa 2006; Demenko
1999; Wagner 2008b; Wagner 2012; Malisz, Wagner 2012; Klessa 2012). Granice fraz
Akustyczne wyznaczniki rytmu w wypowiedziach mówców natywnych i nienatywnych… 251
prozodycznych są sygnalizowane głównie za pomocą wydłużenia iloczasu sylaby
o końcowej pozycji we frazie i jej samogłoski oraz samogłoski sylaby o przedostatniej
pozycji we frazie, na którą najczęściej przypada akcent nuklearny (Wagner 2008b).
Parametry w dziedzinie częstotliwości podstawowej (f0) opisujące średni poziom,
kształt przebiegu zmian i zróżnicowanie wysokości tonu również odgrywają tutaj
ważną rolę (Wagner 2010). Podobne obserwacje odnośnie udziału cech w dziedzinie
iloczasu i f0 w realizacji granic fraz prozodycznych poczyniono także dla innych języków (Carlson i in. 2005; Kim i in. 2008; Aguilar i in. 2009).
Omawiane tutaj zjawiska mają kluczowe znaczenie dla rozumienia pojęcia
rytmu mowy oraz dla założeń metodologicznych przyszłych badań w dziedzinie
rytmu i prozodii.
1.2. Cel pracy
Niniejsza praca porusza zagadnienia związane z rytmem wypowiedzi w języku
polskim, które dotychczas nie były badane wcale lub tylko w ograniczonym zakresie. Przedmiotem analiz przedstawionych w dalszej części pracy była identyfikacja
akustycznych wyznaczników rytmu w wypowiedziach mówców natywnych i nienatywnych języka polskiego. W tym celu zbadano sposób realizacji przez mówców
dwóch kluczowych dla percepcji rytmu zjawisk – struktury rytmicznej i grupowania rytmicznego, związanych kolejno z prominencją i frazowaniem, przy czym
uwzględniono więcej poziomów prominencji, niż we wcześniejszych pracach2.
O nowatorskim charakterze pracy świadczy również fakt, że do materiału językowego włączono wypowiedzi mówców nienatywnych jezyka polskiego z akcentem niemieckim i koreańskim oraz przeprowadzono analizy porównawcze między różnymi
akcentami. Z uwagi na znaczenie rytmu w percepcji obcego akcentu oraz ogólnie
w komunikacji słownej, wiedza uzyskana w tego rodzaju badaniu może znaleźć zastosowanie w procesie uczenia się i nauczania języka polskiego jako obcego.
Bardzo wiele dotychczasowych prac dotyczących rytmu mowy (White, Mattys
2007; Cumming 2011; Beňuš i Šimko 2012; Prieto i in. 2012) opierało się na metrach rytmicznych, czyli formułach pozwalających określić zmienność iloczasu dowolnych jednostek wypowiedzi, najczęściej interwałów samogłoskowych, spółgłoskowych lub sylab (Ramus i in. 1999; Grabe, Low 2002; Dellwo 2006). W ostatnich
latach stosowanie metrów rytmicznych jest poddawane krytyce z uwagi na wrażliwość, jaką wykazują one na szereg różnych czynników, m.in. tempo mowy i typ wypowiedzi (Dellwo 2008; Wiget i in. 2010; Arvaniti 2012). Kwestionowany jest także
ich status jako „akustycznych korelatów rytmu” (Barry i in. 2009; Arvaniti 2009).
por. (Malisz. Wagner 2012)
2
252
Agnieszka Wagner
Obecnie przyjmuje się, że do zbadania procesów leżących u podstaw struktury
rytmicznej i grupowania rytmicznego konieczne jest zastosowanie podejścia wielowymiarowego (Wagner 2008a; Wagner 2014), uwzględniającego różne poziomy
hierarchii prozodycznej (poziom sylab, stóp i fraz) oraz krótko- i długookresową
zmienność parametrów akustycznych, właczając w to względne relacje iloczasowe
między typami funkcjonalnie różnych przejść (do sylab akcentowanych, nieakcentowanych i na granicy fraz), tendencje do lokalnego przyspieszania i zwalniania,
skracanie kompensacyjne oraz percepcyjne zawężanie iloczasu (ang. time shrinking). Ponadto, zgodnie z obecnie panującym stanowiskiem, że cechy akustyczne
spoza wymiaru iloczasu również odgrywają istotną rolę w produkcji i percepcji
prominencji i frazowania (Arvaniti 2009), w analizach zaprezentowanych w dalszej
części pracy wzięto również pod uwagę dynamikę zmian wysokości tonu3.
2. Metodologia
2.1. Materiał i mówcy
Materiał językowy stanowił krótki tekst literacki H. Ch. Andersena pt. „Imbryk”, składający się z 19 zdań i wybrany pod kątem odpowiedniego dla poziomu
językowego mówców słownictwa i struktur gramatycznych. W badaniu wykorzystano nagrania 5 Polaków, 5 Koreańczyków i 5 Niemców. Nagrania mówców
niemieckich pochodziły z korpusu polskiej mowy nienatywnej (Cylwik i in.
2009). Nagrania Koreańczyków przeprowadzono po ukończeniu przez nich
półrocznego praktycznego kursu fonetyki języka polskiego. Mówcy nienatywni
reprezentowali podobny poziom zaawansowania (B1–B2). Grupę mówców natywnych stanowiły osoby, które zgłosiły chęć udziału w eksperymencie. Mówcy
otrzymali wcześniej tekst oraz jego nagranie i zostali poproszeni o przygotowanie
się do jego płynnego odczytania. W trakcie nagrań wszystkich mówców proszono o jednokrotne przeczytanie tekstu (zdanie po zdaniu) w normalnym tempie.
Wypowiedzi zawierające błędy wymowy lub/i przejęzyczenia były powtarzane.
Nagrania przeprowadzono w kabinie dźwiękoszczelnej bezpośrednio na dysk
komputera z częstotliwością próbkowania 16 kHz.
2.2. Anotacja
Wszystkie nagrania poddano automatycznej transkrypcji fonetycznej i segmentacji na poziomie głosek, sylab i wyrazów (Demenko i in. 2003), których wyniki
por. (Wagner 2008b) oraz (Malisz, Wagner 2012)
3
Akustyczne wyznaczniki rytmu w wypowiedziach mówców natywnych i nienatywnych… 253
później zweryfikowano i poprawiono. Granice sylab wyznaczono zgodnie ze wskazówkami przedstawionymi w pracy Ostaszewskiej i Tambor (2000). Zaznaczono
również wszystkie odstępstwa od wymowy kanonicznej (np. usunięcia, wstawienia
lub substytucje głosek lub sylab). Anotacja prozodyczna uwzględniała cztery poziomy prominencji i dwa poziomy frazowania. W przypadku prominencji każda sylaba
została oznaczona jedną z etykiet: brak akcentu, akcent wyrazowy, akcent melodyczny, akcent frazowy (nuklearny). Zgodnie z założeniami Selkirk (1995) poziom
prominencji wzrasta od akcentu wyrazowego do frazowego4. Strukturę frazową wypowiedzi opisano poprzez umieszczenie na odpowiednich sylabach etykiety brak
granicy lub granica frazy prozodycznej. Weryfikację anotacji segmentalnej i anotację prozodyczną przeprowadzono w aplikacji Praat (Boersma, Weenink 2013).
2.3. Sposób analizy danych – podejście time delay
Jak wyjaśniono we Wstępie, w celu zbadania sposobu realizacji struktury rytmicznej i grupowania rytmicznego należy zastosować podejście wielowymiarowe, uwzględniające strukturę i hierarchię prozodyczną wypowiedzi, a także wykraczające poza dziedzinę iloczasu. Podejście time delay zaproponowane w pracy
Petry Wagner (2008a) spełnia te warunki. Umożliwia ono zbadanie „związków
iloczasowych postrzeganych jako typowe rytmy w mowie”, które „można bezpośrednio zinterpretować w wymiarach związanych z rytmem, podobnych do tych
stosowanych w analizach typologicznych” (Wagner 2008a, str. 155).
Głównym elementem opisywanej tutaj metody są wykresy time delay (por.
rys. 1.), które pozwalają zwizualizować względną zmienność iloczasu między sylabami wchodzącymi w skład funkcjonalnie różnych przejść: do sylab akcentowanych, nieakcentowanych i o końcowej pozycji we frazie.
Rys. 1. Interpretacja kategorialna i ilościowa wykresu time-delay
por. również (Beckman, Edwards 1994), (Prieto i in. 2012)
4
254
Agnieszka Wagner
Wykres powstaje przez naniesienie na osi X iloczasu sylaby aktualnej (syli), a na
osi Y – sylaby następnej (syli+1). Dane umieszczone na wykresach mogą być interpretowane w sposób ciągły lub kategorialny. Z jednej strony, każde przejście jest
realizowane jako lokalne przyspieszenie albo zwolnienie, lub może być lokalnie
izochroniczne, co daje opis ciągły. Z drugiej strony, ze względu na to, w którym
kwadrancie wykresu przejścia są zlokalizowane, można je grupować w kategorie:
krótka-krótka, długa-długa (co wskazuje na lokalny izochronizm), krótka-długa
i długa-krótka (co wskazuje na rytm naprzemienny, alternację). Na przykład, jeżeli
iloczasy sylab aktualnej (syli) i następnej (syli+1) są krótsze/dłuższe niż wynosi średnia, to przejście jest klasyfikowane jako krótka-krótka/długa-długa. Koncentracja
danych w środku wykresu wskazuje na tendencję do globalnego izochronizmu.
Wykresy mogą być interpretowane w sposób ilościowy, np. poprzez przeprowadzenie jednoczynnikowej analizy wariancji z różnicą iloczasów syli – syli+1 jako zmienną zależną i typem przejścia jako predyktorem jakościowym.
Na poziomie stóp, metoda time delay umożliwia analizę zmienności iloczasu między sylabami o różnej pozycji w stopie oraz obserwację dwóch istotnych dla percepcji
rytmu zjawisk: skracania kompensacyjnego (ang. compensatory shortening), polegającego na kompresji sylab nieakcentowanych wraz z wydłużaniem się stopy, czym charakteryzują się języki o rytmie akcentowym, oraz percepcyjnego zawężania iloczasu
(ang. time shrinking), w wyniku którego sekwencje coraz dłuższych sylab postrzegane
są jako izochroniczne, co jest z kolei charakterystyczne dla rytmu sylabicznego.
2.4. Pomiary
Na podstawie anotacji stworzono bazę cech akustycznych. Najpierw, korzystając ze skryptów Praata, dla każdej sylaby automatycznie uzyskano informację o jej iloczasie oraz średniej wartości f0. Następnie wartości iloczasów zostały
znormalizowane względem średniego iloczasu sylaby u danego mówcy (normalizacja z-score). Każda para kolejnych sylab w bazie została sklasyfikowana jako
jedno z trzech funkcjonalnie różnych przejść: do sylaby akcentowanej, do sylaby nieakcentowanej, do sylaby o końcowej pozycji we frazie. Dodatkowo, sylaby
reprezentujące przejścia do sylaby akcentowanej zostały sklasyfikowane zgodnie
z etykietami, które im nadano w anotacji prozodycznej: przejście do akcentu wyrazowego, melodycznego lub frazowego. Inny sposób kategoryzacji polegał na
zlokalizowaniu wszystkich przejść w jednym z czterech kwadrantów wykresu time-delay: krótka-krótka, krótka-długa, długa-długa, długa-krótka.
Aby uzyskać informację, czy dane przejście jest realizowane jako lokalne przyspieszenie lub zwolnienie (co jest formą opisu ciągłego), dla każdej pary sylab obliczono różnicę iloczasu sylaby aktualnej od iloczasu sylaby po niej następującej
(czyli syli+1 – syli).
Akustyczne wyznaczniki rytmu w wypowiedziach mówców natywnych i nienatywnych… 255
Korzystając z anotacji prozodycznej wyznaczono również granice stóp, które
następnie pogrupowano w zależności od długości (liczonej w sylabach) oraz pozycji we frazie (rozróżniono między stopami binarnymi na granicy i wewnątrz
fraz). W badaniu wykorzystano tylko najliczniej reprezentowane typy stóp, czyli
stopy binarne na granicy lub wewnątrz frazy oraz stopy 3- i 4-sylabowe.
W dziedzinie częstotliwości podstawowej dla każdego przejścia obliczono
różnicę średnich wartości f0 na sąsiednich sylabach (wyrażoną w półtonach) opisującą lokalną dynamikę zmian wysokości tonu.
Analizy statystyczne przeprowadzono w programie Statistica 10.
3. Wyniki
3.1.Krótkookresowa względna zmienność iloczasu w funkcjonalnie
różnych przejściach
3.1.1. Opis kategorialny
W pierwszej kolejności, w każdej grupie akcentowej (mówcy natywni i nienatywni z akcentem niemieckim i koreańskim) na podstawie znormalizowanych
iloczasów sylab zbadano dystrybucję funkcjonalnie różnych przejść w czterech
kwadrantach wykresu time delay (por. tab. 1.).
Tab. 1. Dystrybucja funkcjonalnie różnych przejść w czterech kwadrantach wykresu
time-delay. Mówcy natywni
przejście
krótka-długa
długa-długa
długa-krótka
krótka-krótka
akcent
brak akcentu
granica frazy
razem:
37%
21%
29%
28%
15%
7%
57%
18%
16%
23%
3%
19%
32%
49%
11%
35%
W grupie mówców natywnych preferowane są sekwencje krótka-krótka,
głównie z uwagi na przejścia do sylab akcentowanych i nieakcentowanych (kolejno 32% i 49% wszystkich tych przejść). Przejścia do sylab na granicach fraz
zlokalizowane są przede wszystkim w kwadrancie długa-długa (57%) i w mniejszym stopniu w kwadrancie krótka-długa (29%), co pokazuje, że koniec frazy
prozodycznej sygnalizowany jest wydłużeniem iloczasu ostatniej sylaby, i że często wzrasta również iloczas sylaby poprzedniej (akcentowanej). Przejścia do sylab
akcentowanych są realizowane najczęściej jako sekwencje krótka-długa (37%).
Opisane tutaj wzorce krótkookresowej względnej zmienności iloczasu wskazują
256
Agnieszka Wagner
na istnienie wyraźnej tendencji do lokalnego izochronizmu (z uwagi na wysoką
koncentrację przejść w kwadrantach krótka-krótka i długa-długa) i jednocześnie
tendencji do rytmu naprzemiennego (liczne sekwencje krótka-długa), co może
skutkować percepcyjnym wrażeniem rytmu mieszanego lub pośredniego.
W grupie mówców z akcentem niemieckim również dominuje kwadrant krótka-krótka, w którym zlokalizowanych jest 33% wszystkich przejść (por. tab. 2.).
Tendencja do lokalnego izochronizmu jest tylko nieco mniej wyraźna niż w grupie natywnej, o czym świadczy wysoki odsetek przejść do sylab akcentowanych
i nieakcentowanych w kwadrancie krótka-krótka (kolejno 32% i 43% wszystkich
tych przejść), a także liczne, choć mniej niż w wypowiedziach mówców natywnych, skupienie przejść do sylab na granicach fraz w kwadrancie długa-długa
(36%). Wysoki odsetek przejść do sylab akcentowanych i na granicy fraz w kwadrancie krótka-długa (kolejno 35% i 37%) wskazuje z kolei na tendencję do rytmu naprzemiennego (alternacji). Rzadziej niż u mówców natywnych granica
frazy prozodycznej sygnalizowana jest nie tylko wydłużeniem iloczasu sylaby
o końcowej pozycji we frazie, ale również sylaby poprzedniej (akcentowanej).
Tab. 2. Dystrybucja funkcjonalnie różnych przejść w czterech kwadrantach wykresu
time-delay. Mówcy z akcentem niemieckim
przejście
krótka-długa
długa-długa
długa-krótka
krótka-krótka
akcent
brak akcentu
granica frazy
razem:
35%
18%
37%
28%
19%
10%
36%
18%
14%
28%
18%
21%
32%
43%
9%
33%
Tabela 3. przedstawia wyniki dla mówców z akcentem koreańskim. Jak widać,
sekwencje krótka-krótka są prawie tak samo częste jak krótka-długa (kolejno
33% i 31%), co wskazuje na mniejszą niż u pozostałych mówców tendencję do
lokalnego izochronizmu. Jednocześnie, liczniejsza koncentracja przejść do sylab akcentowanych i na granicach fraz w kwadrancie krótka-długa (kolejno 37%
i 47%) wskazuje na większą tendencję do rytmu naprzemiennego.
Tab. 3. Dystrybucja funkcjonalnie różnych przejść w czterech kwadrantach wykresu
time-delay. Mówcy z akcentem koreańskim
przejście
krótka-długa
długa-długa
długa-krótka
krótka-krótka
akcent
brak akcentu
granica frazy
razem:
37%
18%
47%
31%
15%
11%
33%
17%
14%
25%
13%
19%
34%
46%
6%
33%
Akustyczne wyznaczniki rytmu w wypowiedziach mówców natywnych i nienatywnych… 257
Mówcy z akcentem koreańskim znacznie rzadziej sygnalizują granice fraz prozodycznych poprzez wydłużenie iloczasu sylaby poprzedniej (akcentowanej) niż
Niemcy i Polacy, co można stwierdzić na podstawie wyższej koncentracji przejść
do sylab na granicach fraz w kwadrancie krótka-długa (kolejno 47% u Koreańczyków, 37% u Niemców i 29% u Polaków).
3.1.2. Interpretacja ilościowa wyników
W celu zbadania, które z obserwowanych różnic w realizacji funkcjonalnie
różnych przejść w różnych grupach akcentowych są statystycznie istotne, przeprowadzono wieloczynnikową analizę wariancji z typem przejścia i akcentem
(polski – PL, niemiecki – DE, koreański – KOR) jako predyktorami jakościowymi i wartościami wyrażającymi lokalne przyspieszenie i zwolnienie jako zmiennymi zależnymi. Relacje te przedstawiono na rysunku 2.
Rys. 2. Wpływ akcentu (PL, DE, KOR) i typu przejścia (akcent, brak akcentu, granica
frazy) na lokalne przyspieszenie i zwolnienie
Wyniki pokazały istotny wpływ typu przejścia (F=189,2, p<0,01), akcentu
(F=4,1, p<0,05) oraz interakcji między przejściem i akcentem (F=11,3, p<0,01)
na względną zmienność iloczasu sylab. Porównania post-hoc (test HSD Tukeya)
dodatkowo wskazały, że tego rodzaju efekty są głównie rezultatem statystycznie
istotnych różnic między wszystkimi typami przejść wewnątrz poszczególnych grup
akcentowych oraz między Koreańczykami a pozostałymi mówcami w przejściach
do sylab na granicy frazy. Ogólnie rzecz biorąc, można stwierdzić występowanie
258
Agnieszka Wagner
trendu do lokalnego zwalniania w przejściach do sylab akcentowanych i na granicy
fraz oraz lokalnego przyspieszania w przejściach do sylab nieakcentowanych.
3.2. Krótkookresowa względna zmienność iloczasu w realizacji
różnych poziomów prominencji
3.2.1. Opis kategorialny
Podobnie jak w przypadku analizy realizacji funkcjonalnie różnych przejść,
najpierw zbadano rozkład przejść do sylab o percepcyjnie różnym poziomie
prominencji (tj. do sylab z akcentem wyrazowym, melodycznym i frazowym)
w czterech kwadrantach wykresu time delay.
W grupie mówców natywnych (por. rys. 3.) dystrybucja przejść do sylab
z akcentem melodycznym jest podobna do ogólnej (czyli gdy wszystkie sylaby prominentne są pogrupowane razem i sklasyfikowane jako akcentowane)
– przejścia tego typu zlokalizowane są głównie w kwadrantach krótka-krótka (36%) i krótka-długa (33%). Przejścia do sylab z akcentem wyrazowym
zlokalizowane są głównie w kwadrancie krótka-krótka (60%), zaś w przypadku przejść do sylab z akcentem frazowym dominuje kwadrant krótka-długa
(50%).
Rys. 3. Dystrybucja przejść do sylab o różnym poziomie prominencji: z akcentem wyrazowym, melodycznym i frazowym na wykresach time-delay. Mówcy natywni
Obserwacje te są zgodne z wnioskami płynącymi z wcześniejszych prac, w których pokazano, że akcent wyrazowy w języku polskim nie jest istotnie związany
z wydłużeniem iloczasu sylaby (Jassem 1962; Nowak 2006; Klessa 2006; Malisz,
Wagner 2012), szczególnie w porównaniu z językami o rytmie akcentowym (np.
język angielski lub niemiecki). W przeciwieństwie do akcentu wyrazowego, który na poziomie percepcji jest łączony ze słabą prominencją (Selkirk 1995), akcent
Akustyczne wyznaczniki rytmu w wypowiedziach mówców natywnych i nienatywnych… 259
frazowy, dający percepcyjne wrażenie silnej prominencji, jest w sposób istotny sygnalizowany wydłużeniem iloczasu sylaby akcentowanej (Malisz, Wagner 2012).
W przypadku akcentu koreańskiego różnice w dystrybucji między różnymi typami przejść w czterech kwadrantach wykresu time-delay są mniejsze niż
w grupie mówców natywnych (por. rys. 4.). Przejścia do sylab z akcentem wyrazowym zlokalizowane są głównie w kwadrancie krótka-długa (43%), rzadziej
w kwadrancie krótka-krótka (29%), zaś w przejściach do sylab z akcentem melodycznym sekwencje krótka-krótka są prawie tak samo częste jak sekwencje krótka-długa (kolejno 40% i 38%). W odniesieniu do realizacji akcentu frazowego
przez mówców koreańskich obserwujemy dystrybucję przejść podobną do ogólnej, tj. w kwadrancie krótka-krótka (35%) i krótka-długa (36%).
Rys. 4. Dystrybucja przejść do sylab o różnym poziomie prominencji: z akcentem wyrazowym, melodycznym i frazowym na wykresach time-delay. Mówcy z akcentem koreańskim
Wyniki te pokazują, że w przeciwieństwie do mówców natywnych, mówcy
koreańscy wydłużają iloczas sylab wraz ze spadkiem, a nie wzrostem, poziomu
prominencji, co może wynikać ze specyfiki prozodii języka koreańskiego, w którym prominencję realizuje się nie na poziomie akustycznym, ale poprzez przeniesienie uwydatnionego słowa na początek frazy (Jun 2005).
W grupie z akcentem niemieckim (por. rys. 5.) przejścia do sylab z akcentem
wyrazowym są skoncentrowane głównie w kwadrancie krótka-krótka (54%). Dodatkowo, w porównaniu do mówców natywnych, można zaobserwować liczniejszą dystrybucję tych przejść w kwadrancie krótka-długa (31% vs. 16%). Przejścia
do sylab z akcentem melodycznym zlokalizowane są głównie w kwadrancie krótka-długa (40%) i krótka-krótka (29%), natomiast przejścia do sylab z akcentem
frazowym charakteryzują się dystrybucją podobną do ogólnej – głównie w kwadrancie krótka-długa (37%), a także w kwadrancie krótka-krótka (30%). W przypadku mówców z akcentem niemieckim, podobnie jak u mówców natywnych,
260
Agnieszka Wagner
można mówić o tendencji do lokalnego zwalniania wraz ze wzrostem poziomu
prominencji.
Rys. 5. Dystrybucja przejść do sylab o różnym poziomie prominencji: z akcentem wyrazowym, melodycznym i frazowym na wykresach time-delay. Mówcy z akcentem niemieckim
Na podstawie wyników przedstawionych w tej sekcji można stwierdzić większe
podobieństwo w realizacji różnego typu prominencji między mówcami natywnymi i z akcentem niemieckim, niż między Polakami i Koreańczykami. Wyniki te są
zgodne z percepcyjną oceną siły obcego akcentu w wypowiedziach mówców nienatywnych, która pokazała, że wypowiedzi Koreańczyków cechował silny obcy akcent, zaś w mowie Niemców był on postrzegany jako umiarkowany (Wagner 2013).
3.2.2. Interpretacja ilościowa wyników
Wieloczynnikowa analiza wariancji z poziomem prominencji i akcentem jako predyktorami jakościowymi i wartościami wyrażającymi lokalne przyspieszenie i zwolnienie jako zmiennymi zależnymi (por. rys. 6.) wykazała statystycznie istotny wpływ
interakcji między poziomem prominencji i akcentem (F=10,4, p<0,01) na względną
zmienność iloczasu sylab. W testach post-hoc zaobserwowano istotne różnice w realizacji przejść do akcentu wyrazowego między Polakami i pozostałymi mówcami oraz
poziomami prominencji, przejść do akcentu frazowego między Polakami i Koreańczykami, a także istotne różnice w lokalnym przyspieszeniu w realizacji przejść do
akcentu frazowego przez Polaków i akcentu melodycznego przez Niemców. Dodatkowo, z uwagi na mówców natywnych, analiza wariancji pokazała statystycznie istotny wpływ poziomu prominencji (F=5,2, p<0,01), co świadczy o znacznych różnicach
w lokalnym przyspieszeniu/zwolnieniu między trzema poziomami prominencji.
W przypadku wspomnianych w poprzedniej sekcji tendencji do lokalnego zwalniania wraz ze wzrostem poziomu prominencji w grupie z akcentem niemieckim oraz
lokalnego przyspieszania w grupie z akcentem koreańskim, obserwowane różnice
w wartościach lokalnego przyspieszenia/zwolnienia nie są statystycznie istotne.
Akustyczne wyznaczniki rytmu w wypowiedziach mówców natywnych i nienatywnych… 261
Rys. 6. Wpływ akcentu (PL, DE, KOR) i poziomu prominencji na lokalne przyspieszenie
i zwolnienie
3.3 Długookresowa zmienność iloczasu na poziomie stóp
Celem analiz przedstawionych w tym rozdziale było zbadanie regularności
w realizacji iloczasu, w oparciu o które słuchacze formułują pewne długookresowe oczekiwania dotyczące nadchodzących zdarzeń rytmicznych, czyli metrum
(Wagner 2008a, str. 162). Analizie poddano stopy długości 2, 3 i 4 sylab; dodatkowo wprowadzono rozróżnienie między stopami binarnymi (tj. 2-sylabowymi)
o końcowej i niekońcowej pozycji we frazie, z uwagi na istotny wpływ obecności
granicy frazy prozodycznej na iloczas sylab wchodzących w skład tego rodzaju
przejść (Wagner 2010; Carlson i in. 2005; Kim i in. 2008; Aguilar i in. 2009). Analizy w zakresie długookresowej zmienności iloczasu na poziomie stóp pozwalają
na obserwację dwóch kluczowych dla percepcji rytmu zjawisk: skracania kompensacyjnego oraz percepcyjnego zawężania iloczasu (ang. time shrinking).
Na rysunku 7. przedstawiono średnie znormalizowane iloczasy sylab wchodzących w skład stóp o różnej długości i pozycji we frazie.
Rys. 7. Długookresowa zmienność iloczasu na poziomie stóp w mowie natywnej (PL),
z akcentem niemieckim (DE) oraz koreańskim (KOR)
262
Agnieszka Wagner
Jeśli chodzi o mówców natywnych, to bardzo zbliżony iloczas syl1 i syl2
w stopach binarnych niekońcowych wskazuje na tendencję do lokalnego
izochronizmu5. Na granicach stóp binarnych końcowych widzimy znaczne wydłużenie iloczasu, przy czym w porównaniu ze stopami binarnymi niekońcowymi sylaba przedostatnia (akcentowana) również ulega znacznemu wydłużeniu
– jest to zgodne z wynikami analizy krótkookresowej, która pokazała znaczną
koncentrację przejść do sylab na granicy fraz w kwadrancie długa-długa. W realizacji stóp 3- i 4-sylabowych wyraźnie widać tendencję do przyspieszania począwszy od sylaby akcentowanej i zwalniania na granicy stopy – w tym przypadku, w odniesieniu do przedostatniej i ostatniej sylaby można mówić o zjawisku percepcyjnego zawężania iloczasu, które powoduje percepcyjne wrażenie
izochronizmu i braku zmienności w dłuższych stopach.
W wypowiedziach Niemców obserwuje się brak tendencji do lokalnego
izochronizmu w stopach binarnych niekońcowych oraz znaczne wydłużenie
iloczasu na granicach stóp binarnych końcowych (bez znacznego wydłużenia
sylaby poprzedniej, akcentowanej). W stopach 3-sylabowych widać tendencję
do przyspieszania począwszy od sylaby akcentowanej bez, jak to miało miejsce
w wypowiedziach mówców natywnych, zwolnienia na granicy stopy. Natomiast
w realizacji stóp 4-sylabowych pojawia się wyraźna alternacja (naprzemienne
zwalnianie i przyspieszanie). Takie wzorce długookresowej zmienności iloczasu
w stopach wykluczają zjawisko percepcyjnego zawężania iloczasu.
Podobnie jak w grupie z akcentem niemieckim, w wypowiedziach Koreańczyków nie występuje tendencja do lokalnego izochronizmu w stopach binarnych
niekońcowych we frazie, ale zaobserwować można zwolnienie na granicach stóp
binarnych końcowych. W realizacji stóp 3-sylabowych obserwuje się przyspieszanie począwszy od sylaby akcentowanej i zwalnianie na granicy stopy, co może
powodować zjawisko time shrinking. Natomiast w realizacji stóp 4-sylabowych
pojawia się wyraźna alternacja (naprzemienne przyspieszanie i zwalnianie).
Ogólnie rzecz biorąc, w trzech badanych grupach akcentowych obserwujemy
podobny wzorzec realizacji iloczasowej stóp binarnych końcowych we frazie (tj.
lokalne zwolnienie), a także asymetrię w kierunku alternacji we wzorcach realizacji iloczasowej stóp 4-sylabowych między akcentem niemieckim i koreańskim
(naprzemienne zwalnianie i przyspieszanie vs. przyspieszanie i zwalnianie).
W żadnym z badanych akcentów nie można jednoznacznie stwierdzić obecności zjawiska skracania kompensacyjnego, ponieważ znaczna większość statystycznie istotnych efektów (w analizie wariancji i testach post-hoc) zilustrowanych
na rysunku 7. wynika z różnic w iloczasowej realizacji stóp binarnych o końcowej pozycji we frazie i pozostałych stóp. Natomiast w przypadku skracania
Zob. również wyniki w sekcji: Krótkookresowa względna zmienność iloczasu, Opis kategorialny
5
Akustyczne wyznaczniki rytmu w wypowiedziach mówców natywnych i nienatywnych… 263
kompensacyjnego oczekiwać należy istotnych różnic w iloczasach sylab o tej samej pozycji, ale w stopach o różnej długości.
3.4. Analiza w dziedzinie częstotliwości podstawowej (f0)
Obecnie wiadomo, że choć iloczas jest głównym korelatem akustycznym
rytmu mowy, to wchodzi on w interakcję z f0 i intensywnością tworząc pewne wrażenia rytmiczne (Barry i in. 2009). „Dodatkowe” wskazówki akustyczne
w dziedzinie f0 lub/i intensywności odgrywają ważną rolę, gdyż w niektórych
kontekstach same wskazówki iloczasowe mogą okazać się niewystarczające i prowadzić do niejednoznaczności: na przykład wydłużenie iloczasu może sygnalizować początek, jak i koniec grupy rytmicznej.
Poniżej przedstawiono wyniki badania wykorzystania przez mówców dynamiki zmian wysokości tonu w celu rytmicznego grupowania wypowiedzi oraz
nadania jej określonej struktury rytmicznej. Przeprowadzono pod tym kątem
analizy, które miały odpowiedzieć na pytanie, czy dynamika zmian wysokości
tonu różni się istotnie między funkcjonalnie różnymi przejściami, poziomami
prominencji oraz trzema akcentami (PL, DE, KOR).
3.4.1. Udział zmian w dziedzinie f0 w realizacji funkcjonalnie różnych
przejść
Wyniki wielowymiarowej analizy wariancji pokazały statystycznie istotny
wpływ typu przejścia (F=98,2, p<0,01), akcentu (F=37,1, p<0,01) oraz interakcji między typem przejścia i akcentem (F=2,5, p<0,05) na dynamikę zmian
wysokości tonu wyrażoną poprzez różnicę średnich wartości f0 na sąsiednich
sylabach i podaną w półtonach. We wszystkich grupach akcentowych dynamika zmian wysokości tonu jest najmniejsza w przypadku przejść do sylab
nieakcentowanych i największa w przejściach do sylab na granicach fraz, ale
nie wszystkie różnice widoczne na rysunku 8. są statystycznie istotne. Podczas
gdy w mowie natywnej każdy typ przejścia w sposób istotny decyduje o dynamice zmian wysokości tonu, w mowie z akcentem koreańskim istotne są różnice między przejściami do sylab na granicach fraz i pozostałymi, natomiast
w wypowiedziach Niemców – między przejściami do sylab nieakcentowanych
i pozostałymi. Wyniki te wskazują na odmienny sposób wykorzystania przez
te trzy grupy mówców zmian w dziedzinie f0 w celu rytmicznego grupowania
wypowiedzi oraz nadania jej określonej struktury rytmicznej. Spośród trzech
badanych akcentów, akcent koreański charakteryzuje się najmniejszą ogólną
dynamiką zmian f0.
264
Agnieszka Wagner
Rys. 8. Dynamika zmian wysokości tonu w funkcjonalnie różnych przejściach w trzech
badanych akcentach
3.4.2. Udział zmian w dziedzinie f0 w realizacji prominencji
Wyniki wielowymiarowej analizy wariancji pokazały statystycznie istotny
wpływ akcentu (F=45,1, p<0,01), poziomu prominencji (F=38,3, p<0,01), oraz
interakcji między poziomem prominencji i akcentem (F=4,2, p<0,01) na dynamikę zmian wysokości tonu. W mowie natywnej akcenty melodyczne i frazowe
są sygnalizowane poprzez istotnie większe zmiany wysokości tonu niż akcenty
wyrazowe. W wypowiedziach Niemców dynamika zmian rośnie wraz z poziomem prominencji, ale tylko różnica między przejściami do sylab z akcentem frazowym i wyrazowym jest statystycznie istotna. W mowie z akcentem koreańskim
różnice przedstawione na rysunku 9. nie są statystycznie istotne.
Rys. 9. Dynamika zmian wysokości tonu w przejściach do sylab o różnym poziomie
prominencji (słaba: akcent wyrazowy, średnia: akcent melodyczny i silna: akcent frazowy)
w trzech badanych akcentach (PL, DE, KOR)
Akustyczne wyznaczniki rytmu w wypowiedziach mówców natywnych i nienatywnych… 265
Ogólnie rzecz biorąc, zaobserwować można różnice między trzema badanymi akcentami w stosowaniu wysokości tonu jako akustycznego wyznacznika
prominencji, przy czym udział dynamiki zmian w dziedzinie f0 w realizacji prominencji jest największy w mowie natywnej, a najmniejszy w przypadku akcentu
koreańskiego.
Wnioski końcowe
Badania przedstawione w niniejszej pracy miały na celu zidentyfikowanie
cech akustycznych w dziedzinie iloczasu i f0, które pełnią rolę wyznaczników
struktury rytmicznej i grupowania rytmicznego, związanych z prominencją
i frazowaniem, w wypowiedziach języka polskiego zrealizowanych przez mówców natywnych i nienatywnych z akcentem koreańskim i niemieckim. Zastosowano w tym celu podejście wielowymiarowe oparte na wykresach time delay
(Wagner 2008a).
Wyniki krótkookresowej analizy względnej zmienności iloczasu w funkcjonalnie różnych przejściach (tj. do sylab akcentowanych, nieakcentowanych i na
granicy fraz) pokazały, że tendencja do lokalnego izochronizmu jest największa
w wypowiedziach mówców natywnych (głównie z uwagi na stopy binarne niekońcowe), natomiast tendencja do alternacji (rytmu naprzemiennego) – w akcencie koreańskim. Analiza ilościowa pokazała ogólny trend do lokalnego zwalniania w przejściach do sylab akcentowanych (przede wszystkim z uwagi na akcent frazowy) i na granicy fraz oraz lokalnego przyspieszania w przejściach do
sylab nieakcentowanych. Oznacza to, że lokalne zwolnienie jest wyznacznikiem
grupowania rytmicznego na poziomie frazy.
Krótkookresowa analiza względnej zmienności iloczasu w przejściach do
sylab z akcentem wyrazowym, melodycznym i frazowym pozwoliła ustalić, że
w mowie natywnej wyznacznikiem struktury rytmicznej jest lokalne zwolnienie,
które jest wprost proporcjonalne do poziomu prominencji. W wypowiedziach
Niemców zaobserwowano jedynie subtelną, ale nieistotną statystycznie, tendencję do lokalnego zwalniania postępującego wraz ze wzrostem poziomu prominencji (tj. od akcentu wyrazowego do frazowego), natomiast w akcencie koreańskim w miarę wzrostu poziomu prominencji tendencja do lokalnego zwalniania
słabnie, ale różnice nie są statystycznie istotne. Ogólnie rzecz biorąc, spośród
trzech uwzględnionych w badaniu poziomów prominencji, największą różnicę
między mówcami natywnymi i nienatywnymi obserwuje się w realizacji akcentu
wyrazowego, a w drugiej kolejności w realizacji akcentu frazowego.
266
Agnieszka Wagner
Badanie w zakresie długookresowej zmienności iloczasu w stopach o różnej
długości pozwala wyciągnąć wniosek, że rytm wypowiedzi w języku polskim jest
kształtowany przez lokalny izochronizm w stopach binarnych niekońcowych oraz
zjawisko zawężania percepcyjnego (ang. time shrinking), obserwowane w dłuższych stopach, którego brak w wypowiedziach mówców nienatywnych. Tego rodzaju relacje iloczasowe w stopie są charakterystyczne dla rytmu sylabicznego
(np. w języku włoskim lub francuskim) i mogą przyczyniać się do percepcyjnego wrażenia mniejszej zmienności rytmicznej w wypowiedziach natywnych niż
z akcentem koreańskim lub niemieckim oraz ogólnie – do percepcji mniejszej
zmienności rytmicznej języka polskiego w porównaniu z językami o rytmie
akcentowym (np. język angielski lub niemiecki).
Analizy w dziedzinie f0 pokazały, że w polskiej mowie natywnej dynamika
zmian wysokości tonu jest równie istotnym jak iloczas wyznacznikiem struktury
rytmicznej i grupowania rytmicznego, natomiast mówcy nienatywni wykorzystują zmiany w tym zakresie w nieco odmienny sposób. W wypowiedziach z akcentem koreańskim można było zaobserwować istotny wzrost dynamiki zmian
wysokości tonu w realizacji przejść do sylab na granicy fraz, natomiast w mowie
Niemców stanowiła ona istotny wyznacznik akustyczny prominencji i granic
fraz prozodycznych (w porównaniu z przejściami do sylab nieakcentowanych).
W odniesieniu do prominencji, w mowie natywnej zmiany w dziedzinie f0 były
znacząco różne w realizacji przejść do sylab z akcentem wyrazowym (tj. o niskim
poziomie prominencji) z jednej strony oraz przejść do sylab z akcentem melodycznym i frazowym (tj. o średnim i wysokim poziomie prominencji) z drugiej
strony. Mówcy koreańscy nie wykorzystują dynamiki zmian f0 jako akustycznego wyznacznika poziomu prominencji, natomiast mówcy niemieccy korzystają
z niej, aby rozróżnić między słabą a silną prominencją.
Podsumowując, zastosowane w niniejszej pracy podejście wielowymiarowe
pozwoliło na wyłonienie akustycznych wyznaczników rytmu języka polskiego
w dziedzinie iloczasu (m.in. lokalny izochronizm, alternacja, lokalne zwalnianie/
przyspieszanie w realizacji funkcjonalnie różnych przejść i poziomów prominencji, zjawisko time shrinking) i f0 (dynamika zmian wysokości tonu), a także
umożliwiło opis, zarówno kategorialny jak i ilościowy (ciągły), różnic między
mówcami natywnymi i nienatywnymi języka polskiego w realizacji struktury
rytmicznej i grupowania rytmicznego, które mogą przyczyniać się do percepcji
obcego akcentu o różnej sile w wypowiedziach mówców nienatywnych.
Akustyczne wyznaczniki rytmu w wypowiedziach mówców natywnych i nienatywnych… 267
Bibliografia
Abercrombie, D. (1967). Elements of general phonetics. Edinburgh: Edinburgh University
Press.
Aguilar, L., Bonafonte, A., Campillo, F., Mancebo, D.E. (2009). Determining intonational
boundaries from the acoustic signal. W: R. Moore (red.), Proceedings of Interspeech
2009 (2447–2450). Brighton. Pozyskano z http://www.isca-speech.org/archive/archive_papers/interspeech_2009/papers/i09_2447.pdf
Arvaniti, A. (2009). Rhythm, timing and the timing of rhythm, Phonetica, 66 (1–2), 46–63.
Arvaniti, A. (2012). The usefulness of metrics in the quantification of speech rhythm,
Journal of Phonetics, 40 (3), 351–373.
Barry, W., Andreeva, B., Koreman, J. (2009). Do rhythm measures reflect perceived rhythm?, Phonetica, 66 (1–2), 78–94.
Beckman, M.E., Edwards, J. (1994). Articulatory evidence for differentiating stress categories. W: P.A. Keating (red.), Phonological Structure and Phonetic Form: Papers in
Laboratory Phonology III (7–33). Cambridge: Cambridge University Press.
Beňuš, Š., Šimko, J. (2012). Rhythm and tempo in Slovak. W: Q. Ma, H. Ding, D. Hirst (red.),
Proceedings of the 6th International Conference on Speech Prosody (502–505). Shanghaj.
Boersma, P., Weenink, D. (2013). Praat: doing phonetics by computer [Program komputerowy]. Wersja 5.3.59. Pozyskano z http://www.praat.org/.
Carlson, R., Hirschberg, J., Swerts, M. (2005). Cues to upcoming Swedish prosodic boundaries: Subjective judgment studies and acoustic correlates, Speech communication,
46 (3), 326–333.
Cumming, R.E. (2011). Perceptually Informed Quantification of Speech Rhythm in Pairwise Variability Indices, Phonetica, 68 (4), 256–277.
Cylwik, N., Wagner, A., Demenko, G. (2009). The EURONOUNCE corpus of non-native Polish for ASR-based Pronunciation Tutoring System. W: M. Russel (red.), Proceedings of SLaTE 2009. Birmingham: University of Birmingham. Pozyskano z: http://
www.eee.bham.ac.uk/SLaTE2009/papers%5CSLaTE2009-30.pdf
Dauer, R. (1987). Phonetic and phonological components of language rhythm. W: Proceedings of the 11th International Congress of the Phonetic Sciences, 5, (447–450).
Dellwo, V. (2006). Rhythm and speech rate: A variation coefficient for delta C. W: P. Karnowski, I. Szigeti (red.), Language and language processing: Proceedings of the 38th linguistic Colloquium (231–241). Frankfurt: Peter Lang.
Dellwo, V. (2008). The influence of speech rate on speech rhythm (niepublikowana rozprawa doktorska). Universität Bonn.
Demenko, G. (1999). Analiza cech suprasegmentalnych na potrzeby technologii mowy. Poznań: Wydawnictwo UAM.
268
Agnieszka Wagner
Demenko G., Wypych M., Baranowska E. (2003). Implementation of Polish grapheme-to-phoneme rules and extended SAMPA alphabet in Polish text-to-speech synthesis,
Speech and Language Technology, 7, 79–96.
Dłuska, M. (1950). Fonetyka polska. Warszawa: PWN.
Grabe, E., Low, E.L. (2002). Durational variability in speech and the rhythm class hypothesis, Papers in laboratory phonology, 7, 515–546.
Hirschberg J. (1993) Pitch accent in context: predicting intonational prominence from
text, Aritificial Intelligence, 63 (1–2), 305–340.
Jassem, W. (1962). Akcent języka polskiego. Wrocław: Ossolineum
Jun, S.A. (2005) Prosody in Sentence Processing: Korean vs. English, UCLA Working Papers in Phonetics, 104, 26–45.
Kim, J., Davis, C., Cutler, A. (2008). Perceptual tests of rhythmic similarity: II. Syllable
rhythm, Language and speech, 51 (4), 343–359.
Klessa, K. (2006). Analysis of segmental duration for needs of speech synthesis in Polish
(niepublikowana rozprawa doktorska). Wydział Neofilologii Uniwersytetu im. Adama Mickiewicza, Poznań.
Klessa, K. (2012). Polish segmental duration: selected observations based on corpus data,
Speech and Language Technology, 14/15, 95–104.
Malisz, Z. (2013). Speech rhythm variability in Polish and English: A study of interaction
between rhythmic levels (niepublikowana rozprawa doktorska). Wydział Anglistyki
Uniwersytetu im. Adama Mickiewicza, Poznań.
Malisz, Z., Wagner, P. (2012). Acoustic-phonetic realisation of Polish syllable prominence: a corpus study, Speech and Language Technology, 14/15, 105–114.
Nolan, F., Asu, E.L. (2009). The pairwise variability index and coexisting rhythms in language, Phonetica, 66 (1–2), 64–77.
Nowak, P.M. (2006). Vowel reduction in Polish (niepublikowana rozprawa doktorska).
University of California, Berkeley.
Ostaszewska, D., Tambor, J. (2000). Fonetyka i fonologia współczesnego języka polskiego.
Warszawa: PWN.
Pike, K.L. (1945). The Intonation of American English. Ann Arbor: University of Michigan.
Portele, T. (1998). Perceived Prominence and acoustic parameters in American English.
W J. B. Millar (red.), Proceedings of Interspeech 1998, Sydney, 3, 667–670.
Prieto, P., Vanrell, M.D.M., Astruc, L., Payne, E., Post, B. (2012). Phonotactic and phrasal
properties of speech rhythm. Evidence from Catalan, English, and Spanish, Speech
Communication, 54 (6), 681–702.
Ramus, F., Nespor, M., Mehler, J. (1999). Correlates of linguistic rhythm in the speech
signal, Cognition, 73 (3), 1–28.
Richter, L. (1987). Modelling of the rhythmic structure of utterances in Polish, Studia
Phonetica Posnaniensia, 1, 91–125.
Akustyczne wyznaczniki rytmu w wypowiedziach mówców natywnych i nienatywnych… 269
Rosenberg, A. (2009). Automatic detection and classification of prosodic events (niepublikowana rozprawa doktorska). Columbia University, New York.
Selkirk, E.O. (1995). Sentence prosody: Intonation, stress and phrasing. W: J. Goldsmith
(red.), The Handbook of Phonological Theory (550–569). Cambridge Mass. & Oxford:
Blackwell Publishers Ltd.
Sridhar, V.K.R., Nenkova, A., Narayanan, S., Jurafsky, D. (2008). Detecting prominence in
conversational speech: pitch accent, givenness and focus. W: P.A. Barbosa, S. Madureira, C. Reis (red.), Proceedings of Speech Prosody (453–456). Campinas.
Tamburini, F. (2003). Automatic prosodic prominence detection in speech using acoustic
features: an unsupervised system. W: H. Bourlard (red.), Proceedings of Interspeech
2003 (385–388). Geneva.
Terken, J. (1991). Fundamental frequency and perceived prominence of accented syllables, Journal of the Acoustic Society of America, 89, 1768–1776.
Turk, A.E., White, L. (1999). Structural influences on accentual lengthening in English,
Journal of Phonetics, 27, 171–206.
Wagner, P. (2008a). The rhythm of language and speech: Constraining factors, models, metrics and applications (niepublikowana rozprawa habilitacyjna). University of Bonn.
Wagner, A. (2008b). Comprehensive model of intonation for application in speech synthesis. (niepublikowana rozprawa doktorska). Wydział Neofilologii Uniwersytetu im.
Adama Mickiewicza, Poznań.
Wagner, A. (2010). Acoustic cues for automatic determination of phrasing. W: Proceedings of Speech Prosody. Chicago. Pozyskano z http://speechprosody2010.illinois.
edu/papers/100196.pdf
Wagner, A. (2012). Speech rhythm in native and non-native Polish. W: Botinis, A. (red.),
Proceedings of ISCA Workshop on Experimental Linguistics (121–124). Athens: University of Athens.
Wagner, A. (2013). Struktura rytmiczna wypowiedzi w polskiej mowie natywnej i nienatywnej. W: S. Puppel, T. Tomaszkiewicz (red.), Scripta manent – res novae (499–510).
Poznań: Wydawnictwo UAM.
Wagner, A. (2014). Description of Polish speech rhythm using rhythm metrics and time-delay approach: A comparative study. W: N. Campbell, D. Gibbon, D. Hirst (red.),
Proceedings of Speech Prosody (366–370). Dublin: Trinity College.
White, L., Mattys, S.L. (2007). Calibrating rhythm: First language and second language
studies, Journal of Phonetics, 3 (5), 501–522.
Wiget, L., White, L., Schuppler, B., Grenon, I., Rauch, O., Mattys, S.L. (2010). How stable
are acoustic metrics of contrastive speech rhythm?, Journal of the Acoustic Society of
America, 127 (3), 1559–1569.
Wightman, C.W., Shattuck-Hufnagel, S., Ostendorf, M., Price, P. (1992). Segmental durations in the vicinity of prosodic phrase boundaries, Journal of the Acoustic Society of
America, 91, 1707–1717.
270
Agnieszka Wagner
Yoon T.J., Cole J., Hasegawa-Johnson M. (2007). On the edge: Acoustic cues to layered
prosodic domains. W: J. Trouvain, W.J. Barry (red.), Proceedings of the 16th International Congress of Phonetic Sciences (1017–1020). Saarbrücken: University of Saarbrücken. Pozyskano z http://www.icphs2007.de/conference/Papers/1699/1699.pdf
Acoustic exponents of rhythm in utterances of polish native
and non-native speakers
summary
The paper deals with the acoustic correlates of speech rhythm in utterances produced
by native speakers of Polish and non-native speakers of Polish with Korean and German
accent. The research material consisted of recordings of a story, annotated with respect to
different levels of prominence and prosodic phrase boundaries. On the basis of the annotations, a multidimensional analysis was carried out in order to study the realization of rhythmic structure and grouping related, respectively, to prominence and phrasing. The results
made it possible to determine the contribution of duration and fundamental frequency (f0)
parameters in the realization of rhythmic structure and grouping, and to account for the
perceptually noticeable differences in the rhythm of utterances produced by the native and
non-native speakers, as well as the discrepancy between the two non-native accents.

Podobne dokumenty