AkUstyczne WyznAczniki rytMU W WyPoWiedziAch MóWcóW
Transkrypt
AkUstyczne WyznAczniki rytMU W WyPoWiedziAch MóWcóW
PRACE FILOLOGICZNE, tom LXVI PF 2015 (LXVI): 249–270 Agnieszka Wagner Instytut Językoznawstwa Uniwersytet im. Adama Mickiewicza w Poznaniu Al. Niepodległości 4 61-874 Poznań tel. (61) 82 93 663 e-mail: [email protected] Akustyczne wyznaczniki rytmu w wypowiedziach mówców natywnych i nienatywnych języka polskiego1 SŁOWA KLUCZOWE: analiza wielowymiarowa, iloczas, prominencja, frazowanie KEY WORDS: multidimensional analysis, duration, prominence, phrasing 1. Wstęp 1.1. Rytm mowy – przedmiot i znaczenie badań W niniejszej pracy pod pojęciem rytmu wypowiedzi rozumiemy percepcyjne wrażenie struktury składającej się z mniej i bardziej uwydatnionych (prominentnych) jednostek mowy (sylab, taktów – ang. beats) pogrupowanych w taki sposób, aby stworzyć percepcyjnie różne wzorce np. jamby lub trocheje. Badania w dziedzinie rytmu mają ogromne znaczenie nie tylko w językoznawstwie i fonetyce, ale także w innych dziedzinach nauki, m.in. w psychologii, patologii i terapii mowy, czy też w nabywaniu języka. Dzieje się tak dlatego, ponieważ struktura rytmiczna ułatwia analizę składniową, interpretację i zapamiętywanie treści wypowiedzi. Z drugiej strony, uszkodzenie procesów związanych z przetwarzaniem rytmu ma negatywny wpływ na zdolności językowe i płynność mówienia. Badania zostały zrealizowane w ramach grantu finansowanego przez Narodowe Centrum Nauki „Struktura rytmiczna wypowiedzi: analiza korpusowa” (nr 2013/11/D/HS2/04486) na lata 2014–2016. 1 250 Agnieszka Wagner Znaczna część dotychczasowych badań nad rytmem pozostaje pod wpływem hipotezy o rytmicznej klasyfikacji języków, która ma swe źródło w obserwacji, że różne języki posiadają percepcyjnie różne rytmy. Zgodnie z tą hipotezą języki można przyporządkować do jednej z trzech kategorii: rytmu sylabicznego (np. język hiszpański, włoski), rytmu akcentowego (niemiecki, angielski) lub rytmu opartego na morach (japoński). Tradycyjne badania rytmu (Pike 1946; Abercrombie 1967) szukały potwierdzenia tej hipotezy w izochronizmie, który zakładał, że w językach o rytmie sylabicznym/akcentowym/opartym na morze sylaby/stopy/mory powinny mieć ten sam iloczas. Ponieważ nie udało się potwierdzić empirycznie istnienia izochronizmu, źródeł percepcyjnych różnic między rytmami języków zaczęto szukać w ich fonetyce i fonologii (Dauer 1987). Status rytmiczny języka polskiego pozostaje jak dotąd nieustalony. Ogólnie rzecz biorąc, język polski wykazuje cechy fonologiczne charakterystyczne dla języków o obu typach rytmu – sylabicznego, m.in. stała pozycja akcentu wyrazowego, brak redukcji samogłosek nieakcentowanych, i akcentowego, m.in. obecność sylab o złożonej strukturze fonotaktycznej, znaczący udział iloczasu w realizacji akcentu nuklearnego i frazowania (Jassem 1962; Richter 1987; Demenko 1999; Klessa 2006; Wagner 2008b; Malisz 2013). Istnienie języków takich jak język polski, o rytmach niedających się łatwo sklasyfikować, było kolejną (po braku empirycznego potwierdzenia hipotezy izochronizmu) przyczyną pojawienia się nowych koncepcji rytmu – rytmicznego kontinuum (Dauer 1987) oraz rytmów współistniejących (Nolan, Asu 2009). Obecnie panuje pogląd, że nie powinno się stawiać znaku równości między rytmem a wzorcami czasowymi (Arvaniti 2009), ponieważ w produkcji i percepcji rytmu znaczenie mają także czynniki inne niż iloczas, jak wysokość tonu (intonacja), intensywność czy też tempo mowy, za pomocą których realizowane są struktura rytmiczna (metrum) i grupowanie, związane kolejno z prominencją i frazowaniem. Akustyczna realizacja prominencji i frazowania jest specyficzna dla danego języka, choć ogólnie obserwuje się tendencję do wydłużania iloczasu w przypadku sylab prominentnych i na granicy fraz prozodycznych (Beckman, Edwards 1994; Turk, White 1999; Wightman i in. 1992; Yoon i in. 2007; Wagner 2010). Dotychczasowe badania dla języka polskiego nie są zgodne w kwestii akustycznych korelatów prominencji i frazowania: Dłuska (1950) za główny korelat prominencji związanej z akcentem wyrazowym (ang. stress) uznaje intensywność, natomiat Jassem (1962) – zmiany wysokości tonu. Badania z ostatnich lat pokazują, że iloczas, obok wysokości tonu i intensywności, jest jednym z akustycznych korelatów prominencji (Terken 1991; Hirschberg 1993; Portele 1998; Tamburini 2003; Sridhar i in. 2008; Rosenberg 2009), i że zróżnicowanie iloczasu jest mniejsze w przypadku prominencji niższego poziomu, związanych z akcentem wyrazowym (ang. stress) niż wyższego poziomu, związanych z akcentem melodycznym (ang. pitch accent) i frazowym (Klessa 2006; Demenko 1999; Wagner 2008b; Wagner 2012; Malisz, Wagner 2012; Klessa 2012). Granice fraz Akustyczne wyznaczniki rytmu w wypowiedziach mówców natywnych i nienatywnych… 251 prozodycznych są sygnalizowane głównie za pomocą wydłużenia iloczasu sylaby o końcowej pozycji we frazie i jej samogłoski oraz samogłoski sylaby o przedostatniej pozycji we frazie, na którą najczęściej przypada akcent nuklearny (Wagner 2008b). Parametry w dziedzinie częstotliwości podstawowej (f0) opisujące średni poziom, kształt przebiegu zmian i zróżnicowanie wysokości tonu również odgrywają tutaj ważną rolę (Wagner 2010). Podobne obserwacje odnośnie udziału cech w dziedzinie iloczasu i f0 w realizacji granic fraz prozodycznych poczyniono także dla innych języków (Carlson i in. 2005; Kim i in. 2008; Aguilar i in. 2009). Omawiane tutaj zjawiska mają kluczowe znaczenie dla rozumienia pojęcia rytmu mowy oraz dla założeń metodologicznych przyszłych badań w dziedzinie rytmu i prozodii. 1.2. Cel pracy Niniejsza praca porusza zagadnienia związane z rytmem wypowiedzi w języku polskim, które dotychczas nie były badane wcale lub tylko w ograniczonym zakresie. Przedmiotem analiz przedstawionych w dalszej części pracy była identyfikacja akustycznych wyznaczników rytmu w wypowiedziach mówców natywnych i nienatywnych języka polskiego. W tym celu zbadano sposób realizacji przez mówców dwóch kluczowych dla percepcji rytmu zjawisk – struktury rytmicznej i grupowania rytmicznego, związanych kolejno z prominencją i frazowaniem, przy czym uwzględniono więcej poziomów prominencji, niż we wcześniejszych pracach2. O nowatorskim charakterze pracy świadczy również fakt, że do materiału językowego włączono wypowiedzi mówców nienatywnych jezyka polskiego z akcentem niemieckim i koreańskim oraz przeprowadzono analizy porównawcze między różnymi akcentami. Z uwagi na znaczenie rytmu w percepcji obcego akcentu oraz ogólnie w komunikacji słownej, wiedza uzyskana w tego rodzaju badaniu może znaleźć zastosowanie w procesie uczenia się i nauczania języka polskiego jako obcego. Bardzo wiele dotychczasowych prac dotyczących rytmu mowy (White, Mattys 2007; Cumming 2011; Beňuš i Šimko 2012; Prieto i in. 2012) opierało się na metrach rytmicznych, czyli formułach pozwalających określić zmienność iloczasu dowolnych jednostek wypowiedzi, najczęściej interwałów samogłoskowych, spółgłoskowych lub sylab (Ramus i in. 1999; Grabe, Low 2002; Dellwo 2006). W ostatnich latach stosowanie metrów rytmicznych jest poddawane krytyce z uwagi na wrażliwość, jaką wykazują one na szereg różnych czynników, m.in. tempo mowy i typ wypowiedzi (Dellwo 2008; Wiget i in. 2010; Arvaniti 2012). Kwestionowany jest także ich status jako „akustycznych korelatów rytmu” (Barry i in. 2009; Arvaniti 2009). por. (Malisz. Wagner 2012) 2 252 Agnieszka Wagner Obecnie przyjmuje się, że do zbadania procesów leżących u podstaw struktury rytmicznej i grupowania rytmicznego konieczne jest zastosowanie podejścia wielowymiarowego (Wagner 2008a; Wagner 2014), uwzględniającego różne poziomy hierarchii prozodycznej (poziom sylab, stóp i fraz) oraz krótko- i długookresową zmienność parametrów akustycznych, właczając w to względne relacje iloczasowe między typami funkcjonalnie różnych przejść (do sylab akcentowanych, nieakcentowanych i na granicy fraz), tendencje do lokalnego przyspieszania i zwalniania, skracanie kompensacyjne oraz percepcyjne zawężanie iloczasu (ang. time shrinking). Ponadto, zgodnie z obecnie panującym stanowiskiem, że cechy akustyczne spoza wymiaru iloczasu również odgrywają istotną rolę w produkcji i percepcji prominencji i frazowania (Arvaniti 2009), w analizach zaprezentowanych w dalszej części pracy wzięto również pod uwagę dynamikę zmian wysokości tonu3. 2. Metodologia 2.1. Materiał i mówcy Materiał językowy stanowił krótki tekst literacki H. Ch. Andersena pt. „Imbryk”, składający się z 19 zdań i wybrany pod kątem odpowiedniego dla poziomu językowego mówców słownictwa i struktur gramatycznych. W badaniu wykorzystano nagrania 5 Polaków, 5 Koreańczyków i 5 Niemców. Nagrania mówców niemieckich pochodziły z korpusu polskiej mowy nienatywnej (Cylwik i in. 2009). Nagrania Koreańczyków przeprowadzono po ukończeniu przez nich półrocznego praktycznego kursu fonetyki języka polskiego. Mówcy nienatywni reprezentowali podobny poziom zaawansowania (B1–B2). Grupę mówców natywnych stanowiły osoby, które zgłosiły chęć udziału w eksperymencie. Mówcy otrzymali wcześniej tekst oraz jego nagranie i zostali poproszeni o przygotowanie się do jego płynnego odczytania. W trakcie nagrań wszystkich mówców proszono o jednokrotne przeczytanie tekstu (zdanie po zdaniu) w normalnym tempie. Wypowiedzi zawierające błędy wymowy lub/i przejęzyczenia były powtarzane. Nagrania przeprowadzono w kabinie dźwiękoszczelnej bezpośrednio na dysk komputera z częstotliwością próbkowania 16 kHz. 2.2. Anotacja Wszystkie nagrania poddano automatycznej transkrypcji fonetycznej i segmentacji na poziomie głosek, sylab i wyrazów (Demenko i in. 2003), których wyniki por. (Wagner 2008b) oraz (Malisz, Wagner 2012) 3 Akustyczne wyznaczniki rytmu w wypowiedziach mówców natywnych i nienatywnych… 253 później zweryfikowano i poprawiono. Granice sylab wyznaczono zgodnie ze wskazówkami przedstawionymi w pracy Ostaszewskiej i Tambor (2000). Zaznaczono również wszystkie odstępstwa od wymowy kanonicznej (np. usunięcia, wstawienia lub substytucje głosek lub sylab). Anotacja prozodyczna uwzględniała cztery poziomy prominencji i dwa poziomy frazowania. W przypadku prominencji każda sylaba została oznaczona jedną z etykiet: brak akcentu, akcent wyrazowy, akcent melodyczny, akcent frazowy (nuklearny). Zgodnie z założeniami Selkirk (1995) poziom prominencji wzrasta od akcentu wyrazowego do frazowego4. Strukturę frazową wypowiedzi opisano poprzez umieszczenie na odpowiednich sylabach etykiety brak granicy lub granica frazy prozodycznej. Weryfikację anotacji segmentalnej i anotację prozodyczną przeprowadzono w aplikacji Praat (Boersma, Weenink 2013). 2.3. Sposób analizy danych – podejście time delay Jak wyjaśniono we Wstępie, w celu zbadania sposobu realizacji struktury rytmicznej i grupowania rytmicznego należy zastosować podejście wielowymiarowe, uwzględniające strukturę i hierarchię prozodyczną wypowiedzi, a także wykraczające poza dziedzinę iloczasu. Podejście time delay zaproponowane w pracy Petry Wagner (2008a) spełnia te warunki. Umożliwia ono zbadanie „związków iloczasowych postrzeganych jako typowe rytmy w mowie”, które „można bezpośrednio zinterpretować w wymiarach związanych z rytmem, podobnych do tych stosowanych w analizach typologicznych” (Wagner 2008a, str. 155). Głównym elementem opisywanej tutaj metody są wykresy time delay (por. rys. 1.), które pozwalają zwizualizować względną zmienność iloczasu między sylabami wchodzącymi w skład funkcjonalnie różnych przejść: do sylab akcentowanych, nieakcentowanych i o końcowej pozycji we frazie. Rys. 1. Interpretacja kategorialna i ilościowa wykresu time-delay por. również (Beckman, Edwards 1994), (Prieto i in. 2012) 4 254 Agnieszka Wagner Wykres powstaje przez naniesienie na osi X iloczasu sylaby aktualnej (syli), a na osi Y – sylaby następnej (syli+1). Dane umieszczone na wykresach mogą być interpretowane w sposób ciągły lub kategorialny. Z jednej strony, każde przejście jest realizowane jako lokalne przyspieszenie albo zwolnienie, lub może być lokalnie izochroniczne, co daje opis ciągły. Z drugiej strony, ze względu na to, w którym kwadrancie wykresu przejścia są zlokalizowane, można je grupować w kategorie: krótka-krótka, długa-długa (co wskazuje na lokalny izochronizm), krótka-długa i długa-krótka (co wskazuje na rytm naprzemienny, alternację). Na przykład, jeżeli iloczasy sylab aktualnej (syli) i następnej (syli+1) są krótsze/dłuższe niż wynosi średnia, to przejście jest klasyfikowane jako krótka-krótka/długa-długa. Koncentracja danych w środku wykresu wskazuje na tendencję do globalnego izochronizmu. Wykresy mogą być interpretowane w sposób ilościowy, np. poprzez przeprowadzenie jednoczynnikowej analizy wariancji z różnicą iloczasów syli – syli+1 jako zmienną zależną i typem przejścia jako predyktorem jakościowym. Na poziomie stóp, metoda time delay umożliwia analizę zmienności iloczasu między sylabami o różnej pozycji w stopie oraz obserwację dwóch istotnych dla percepcji rytmu zjawisk: skracania kompensacyjnego (ang. compensatory shortening), polegającego na kompresji sylab nieakcentowanych wraz z wydłużaniem się stopy, czym charakteryzują się języki o rytmie akcentowym, oraz percepcyjnego zawężania iloczasu (ang. time shrinking), w wyniku którego sekwencje coraz dłuższych sylab postrzegane są jako izochroniczne, co jest z kolei charakterystyczne dla rytmu sylabicznego. 2.4. Pomiary Na podstawie anotacji stworzono bazę cech akustycznych. Najpierw, korzystając ze skryptów Praata, dla każdej sylaby automatycznie uzyskano informację o jej iloczasie oraz średniej wartości f0. Następnie wartości iloczasów zostały znormalizowane względem średniego iloczasu sylaby u danego mówcy (normalizacja z-score). Każda para kolejnych sylab w bazie została sklasyfikowana jako jedno z trzech funkcjonalnie różnych przejść: do sylaby akcentowanej, do sylaby nieakcentowanej, do sylaby o końcowej pozycji we frazie. Dodatkowo, sylaby reprezentujące przejścia do sylaby akcentowanej zostały sklasyfikowane zgodnie z etykietami, które im nadano w anotacji prozodycznej: przejście do akcentu wyrazowego, melodycznego lub frazowego. Inny sposób kategoryzacji polegał na zlokalizowaniu wszystkich przejść w jednym z czterech kwadrantów wykresu time-delay: krótka-krótka, krótka-długa, długa-długa, długa-krótka. Aby uzyskać informację, czy dane przejście jest realizowane jako lokalne przyspieszenie lub zwolnienie (co jest formą opisu ciągłego), dla każdej pary sylab obliczono różnicę iloczasu sylaby aktualnej od iloczasu sylaby po niej następującej (czyli syli+1 – syli). Akustyczne wyznaczniki rytmu w wypowiedziach mówców natywnych i nienatywnych… 255 Korzystając z anotacji prozodycznej wyznaczono również granice stóp, które następnie pogrupowano w zależności od długości (liczonej w sylabach) oraz pozycji we frazie (rozróżniono między stopami binarnymi na granicy i wewnątrz fraz). W badaniu wykorzystano tylko najliczniej reprezentowane typy stóp, czyli stopy binarne na granicy lub wewnątrz frazy oraz stopy 3- i 4-sylabowe. W dziedzinie częstotliwości podstawowej dla każdego przejścia obliczono różnicę średnich wartości f0 na sąsiednich sylabach (wyrażoną w półtonach) opisującą lokalną dynamikę zmian wysokości tonu. Analizy statystyczne przeprowadzono w programie Statistica 10. 3. Wyniki 3.1.Krótkookresowa względna zmienność iloczasu w funkcjonalnie różnych przejściach 3.1.1. Opis kategorialny W pierwszej kolejności, w każdej grupie akcentowej (mówcy natywni i nienatywni z akcentem niemieckim i koreańskim) na podstawie znormalizowanych iloczasów sylab zbadano dystrybucję funkcjonalnie różnych przejść w czterech kwadrantach wykresu time delay (por. tab. 1.). Tab. 1. Dystrybucja funkcjonalnie różnych przejść w czterech kwadrantach wykresu time-delay. Mówcy natywni przejście krótka-długa długa-długa długa-krótka krótka-krótka akcent brak akcentu granica frazy razem: 37% 21% 29% 28% 15% 7% 57% 18% 16% 23% 3% 19% 32% 49% 11% 35% W grupie mówców natywnych preferowane są sekwencje krótka-krótka, głównie z uwagi na przejścia do sylab akcentowanych i nieakcentowanych (kolejno 32% i 49% wszystkich tych przejść). Przejścia do sylab na granicach fraz zlokalizowane są przede wszystkim w kwadrancie długa-długa (57%) i w mniejszym stopniu w kwadrancie krótka-długa (29%), co pokazuje, że koniec frazy prozodycznej sygnalizowany jest wydłużeniem iloczasu ostatniej sylaby, i że często wzrasta również iloczas sylaby poprzedniej (akcentowanej). Przejścia do sylab akcentowanych są realizowane najczęściej jako sekwencje krótka-długa (37%). Opisane tutaj wzorce krótkookresowej względnej zmienności iloczasu wskazują 256 Agnieszka Wagner na istnienie wyraźnej tendencji do lokalnego izochronizmu (z uwagi na wysoką koncentrację przejść w kwadrantach krótka-krótka i długa-długa) i jednocześnie tendencji do rytmu naprzemiennego (liczne sekwencje krótka-długa), co może skutkować percepcyjnym wrażeniem rytmu mieszanego lub pośredniego. W grupie mówców z akcentem niemieckim również dominuje kwadrant krótka-krótka, w którym zlokalizowanych jest 33% wszystkich przejść (por. tab. 2.). Tendencja do lokalnego izochronizmu jest tylko nieco mniej wyraźna niż w grupie natywnej, o czym świadczy wysoki odsetek przejść do sylab akcentowanych i nieakcentowanych w kwadrancie krótka-krótka (kolejno 32% i 43% wszystkich tych przejść), a także liczne, choć mniej niż w wypowiedziach mówców natywnych, skupienie przejść do sylab na granicach fraz w kwadrancie długa-długa (36%). Wysoki odsetek przejść do sylab akcentowanych i na granicy fraz w kwadrancie krótka-długa (kolejno 35% i 37%) wskazuje z kolei na tendencję do rytmu naprzemiennego (alternacji). Rzadziej niż u mówców natywnych granica frazy prozodycznej sygnalizowana jest nie tylko wydłużeniem iloczasu sylaby o końcowej pozycji we frazie, ale również sylaby poprzedniej (akcentowanej). Tab. 2. Dystrybucja funkcjonalnie różnych przejść w czterech kwadrantach wykresu time-delay. Mówcy z akcentem niemieckim przejście krótka-długa długa-długa długa-krótka krótka-krótka akcent brak akcentu granica frazy razem: 35% 18% 37% 28% 19% 10% 36% 18% 14% 28% 18% 21% 32% 43% 9% 33% Tabela 3. przedstawia wyniki dla mówców z akcentem koreańskim. Jak widać, sekwencje krótka-krótka są prawie tak samo częste jak krótka-długa (kolejno 33% i 31%), co wskazuje na mniejszą niż u pozostałych mówców tendencję do lokalnego izochronizmu. Jednocześnie, liczniejsza koncentracja przejść do sylab akcentowanych i na granicach fraz w kwadrancie krótka-długa (kolejno 37% i 47%) wskazuje na większą tendencję do rytmu naprzemiennego. Tab. 3. Dystrybucja funkcjonalnie różnych przejść w czterech kwadrantach wykresu time-delay. Mówcy z akcentem koreańskim przejście krótka-długa długa-długa długa-krótka krótka-krótka akcent brak akcentu granica frazy razem: 37% 18% 47% 31% 15% 11% 33% 17% 14% 25% 13% 19% 34% 46% 6% 33% Akustyczne wyznaczniki rytmu w wypowiedziach mówców natywnych i nienatywnych… 257 Mówcy z akcentem koreańskim znacznie rzadziej sygnalizują granice fraz prozodycznych poprzez wydłużenie iloczasu sylaby poprzedniej (akcentowanej) niż Niemcy i Polacy, co można stwierdzić na podstawie wyższej koncentracji przejść do sylab na granicach fraz w kwadrancie krótka-długa (kolejno 47% u Koreańczyków, 37% u Niemców i 29% u Polaków). 3.1.2. Interpretacja ilościowa wyników W celu zbadania, które z obserwowanych różnic w realizacji funkcjonalnie różnych przejść w różnych grupach akcentowych są statystycznie istotne, przeprowadzono wieloczynnikową analizę wariancji z typem przejścia i akcentem (polski – PL, niemiecki – DE, koreański – KOR) jako predyktorami jakościowymi i wartościami wyrażającymi lokalne przyspieszenie i zwolnienie jako zmiennymi zależnymi. Relacje te przedstawiono na rysunku 2. Rys. 2. Wpływ akcentu (PL, DE, KOR) i typu przejścia (akcent, brak akcentu, granica frazy) na lokalne przyspieszenie i zwolnienie Wyniki pokazały istotny wpływ typu przejścia (F=189,2, p<0,01), akcentu (F=4,1, p<0,05) oraz interakcji między przejściem i akcentem (F=11,3, p<0,01) na względną zmienność iloczasu sylab. Porównania post-hoc (test HSD Tukeya) dodatkowo wskazały, że tego rodzaju efekty są głównie rezultatem statystycznie istotnych różnic między wszystkimi typami przejść wewnątrz poszczególnych grup akcentowych oraz między Koreańczykami a pozostałymi mówcami w przejściach do sylab na granicy frazy. Ogólnie rzecz biorąc, można stwierdzić występowanie 258 Agnieszka Wagner trendu do lokalnego zwalniania w przejściach do sylab akcentowanych i na granicy fraz oraz lokalnego przyspieszania w przejściach do sylab nieakcentowanych. 3.2. Krótkookresowa względna zmienność iloczasu w realizacji różnych poziomów prominencji 3.2.1. Opis kategorialny Podobnie jak w przypadku analizy realizacji funkcjonalnie różnych przejść, najpierw zbadano rozkład przejść do sylab o percepcyjnie różnym poziomie prominencji (tj. do sylab z akcentem wyrazowym, melodycznym i frazowym) w czterech kwadrantach wykresu time delay. W grupie mówców natywnych (por. rys. 3.) dystrybucja przejść do sylab z akcentem melodycznym jest podobna do ogólnej (czyli gdy wszystkie sylaby prominentne są pogrupowane razem i sklasyfikowane jako akcentowane) – przejścia tego typu zlokalizowane są głównie w kwadrantach krótka-krótka (36%) i krótka-długa (33%). Przejścia do sylab z akcentem wyrazowym zlokalizowane są głównie w kwadrancie krótka-krótka (60%), zaś w przypadku przejść do sylab z akcentem frazowym dominuje kwadrant krótka-długa (50%). Rys. 3. Dystrybucja przejść do sylab o różnym poziomie prominencji: z akcentem wyrazowym, melodycznym i frazowym na wykresach time-delay. Mówcy natywni Obserwacje te są zgodne z wnioskami płynącymi z wcześniejszych prac, w których pokazano, że akcent wyrazowy w języku polskim nie jest istotnie związany z wydłużeniem iloczasu sylaby (Jassem 1962; Nowak 2006; Klessa 2006; Malisz, Wagner 2012), szczególnie w porównaniu z językami o rytmie akcentowym (np. język angielski lub niemiecki). W przeciwieństwie do akcentu wyrazowego, który na poziomie percepcji jest łączony ze słabą prominencją (Selkirk 1995), akcent Akustyczne wyznaczniki rytmu w wypowiedziach mówców natywnych i nienatywnych… 259 frazowy, dający percepcyjne wrażenie silnej prominencji, jest w sposób istotny sygnalizowany wydłużeniem iloczasu sylaby akcentowanej (Malisz, Wagner 2012). W przypadku akcentu koreańskiego różnice w dystrybucji między różnymi typami przejść w czterech kwadrantach wykresu time-delay są mniejsze niż w grupie mówców natywnych (por. rys. 4.). Przejścia do sylab z akcentem wyrazowym zlokalizowane są głównie w kwadrancie krótka-długa (43%), rzadziej w kwadrancie krótka-krótka (29%), zaś w przejściach do sylab z akcentem melodycznym sekwencje krótka-krótka są prawie tak samo częste jak sekwencje krótka-długa (kolejno 40% i 38%). W odniesieniu do realizacji akcentu frazowego przez mówców koreańskich obserwujemy dystrybucję przejść podobną do ogólnej, tj. w kwadrancie krótka-krótka (35%) i krótka-długa (36%). Rys. 4. Dystrybucja przejść do sylab o różnym poziomie prominencji: z akcentem wyrazowym, melodycznym i frazowym na wykresach time-delay. Mówcy z akcentem koreańskim Wyniki te pokazują, że w przeciwieństwie do mówców natywnych, mówcy koreańscy wydłużają iloczas sylab wraz ze spadkiem, a nie wzrostem, poziomu prominencji, co może wynikać ze specyfiki prozodii języka koreańskiego, w którym prominencję realizuje się nie na poziomie akustycznym, ale poprzez przeniesienie uwydatnionego słowa na początek frazy (Jun 2005). W grupie z akcentem niemieckim (por. rys. 5.) przejścia do sylab z akcentem wyrazowym są skoncentrowane głównie w kwadrancie krótka-krótka (54%). Dodatkowo, w porównaniu do mówców natywnych, można zaobserwować liczniejszą dystrybucję tych przejść w kwadrancie krótka-długa (31% vs. 16%). Przejścia do sylab z akcentem melodycznym zlokalizowane są głównie w kwadrancie krótka-długa (40%) i krótka-krótka (29%), natomiast przejścia do sylab z akcentem frazowym charakteryzują się dystrybucją podobną do ogólnej – głównie w kwadrancie krótka-długa (37%), a także w kwadrancie krótka-krótka (30%). W przypadku mówców z akcentem niemieckim, podobnie jak u mówców natywnych, 260 Agnieszka Wagner można mówić o tendencji do lokalnego zwalniania wraz ze wzrostem poziomu prominencji. Rys. 5. Dystrybucja przejść do sylab o różnym poziomie prominencji: z akcentem wyrazowym, melodycznym i frazowym na wykresach time-delay. Mówcy z akcentem niemieckim Na podstawie wyników przedstawionych w tej sekcji można stwierdzić większe podobieństwo w realizacji różnego typu prominencji między mówcami natywnymi i z akcentem niemieckim, niż między Polakami i Koreańczykami. Wyniki te są zgodne z percepcyjną oceną siły obcego akcentu w wypowiedziach mówców nienatywnych, która pokazała, że wypowiedzi Koreańczyków cechował silny obcy akcent, zaś w mowie Niemców był on postrzegany jako umiarkowany (Wagner 2013). 3.2.2. Interpretacja ilościowa wyników Wieloczynnikowa analiza wariancji z poziomem prominencji i akcentem jako predyktorami jakościowymi i wartościami wyrażającymi lokalne przyspieszenie i zwolnienie jako zmiennymi zależnymi (por. rys. 6.) wykazała statystycznie istotny wpływ interakcji między poziomem prominencji i akcentem (F=10,4, p<0,01) na względną zmienność iloczasu sylab. W testach post-hoc zaobserwowano istotne różnice w realizacji przejść do akcentu wyrazowego między Polakami i pozostałymi mówcami oraz poziomami prominencji, przejść do akcentu frazowego między Polakami i Koreańczykami, a także istotne różnice w lokalnym przyspieszeniu w realizacji przejść do akcentu frazowego przez Polaków i akcentu melodycznego przez Niemców. Dodatkowo, z uwagi na mówców natywnych, analiza wariancji pokazała statystycznie istotny wpływ poziomu prominencji (F=5,2, p<0,01), co świadczy o znacznych różnicach w lokalnym przyspieszeniu/zwolnieniu między trzema poziomami prominencji. W przypadku wspomnianych w poprzedniej sekcji tendencji do lokalnego zwalniania wraz ze wzrostem poziomu prominencji w grupie z akcentem niemieckim oraz lokalnego przyspieszania w grupie z akcentem koreańskim, obserwowane różnice w wartościach lokalnego przyspieszenia/zwolnienia nie są statystycznie istotne. Akustyczne wyznaczniki rytmu w wypowiedziach mówców natywnych i nienatywnych… 261 Rys. 6. Wpływ akcentu (PL, DE, KOR) i poziomu prominencji na lokalne przyspieszenie i zwolnienie 3.3 Długookresowa zmienność iloczasu na poziomie stóp Celem analiz przedstawionych w tym rozdziale było zbadanie regularności w realizacji iloczasu, w oparciu o które słuchacze formułują pewne długookresowe oczekiwania dotyczące nadchodzących zdarzeń rytmicznych, czyli metrum (Wagner 2008a, str. 162). Analizie poddano stopy długości 2, 3 i 4 sylab; dodatkowo wprowadzono rozróżnienie między stopami binarnymi (tj. 2-sylabowymi) o końcowej i niekońcowej pozycji we frazie, z uwagi na istotny wpływ obecności granicy frazy prozodycznej na iloczas sylab wchodzących w skład tego rodzaju przejść (Wagner 2010; Carlson i in. 2005; Kim i in. 2008; Aguilar i in. 2009). Analizy w zakresie długookresowej zmienności iloczasu na poziomie stóp pozwalają na obserwację dwóch kluczowych dla percepcji rytmu zjawisk: skracania kompensacyjnego oraz percepcyjnego zawężania iloczasu (ang. time shrinking). Na rysunku 7. przedstawiono średnie znormalizowane iloczasy sylab wchodzących w skład stóp o różnej długości i pozycji we frazie. Rys. 7. Długookresowa zmienność iloczasu na poziomie stóp w mowie natywnej (PL), z akcentem niemieckim (DE) oraz koreańskim (KOR) 262 Agnieszka Wagner Jeśli chodzi o mówców natywnych, to bardzo zbliżony iloczas syl1 i syl2 w stopach binarnych niekońcowych wskazuje na tendencję do lokalnego izochronizmu5. Na granicach stóp binarnych końcowych widzimy znaczne wydłużenie iloczasu, przy czym w porównaniu ze stopami binarnymi niekońcowymi sylaba przedostatnia (akcentowana) również ulega znacznemu wydłużeniu – jest to zgodne z wynikami analizy krótkookresowej, która pokazała znaczną koncentrację przejść do sylab na granicy fraz w kwadrancie długa-długa. W realizacji stóp 3- i 4-sylabowych wyraźnie widać tendencję do przyspieszania począwszy od sylaby akcentowanej i zwalniania na granicy stopy – w tym przypadku, w odniesieniu do przedostatniej i ostatniej sylaby można mówić o zjawisku percepcyjnego zawężania iloczasu, które powoduje percepcyjne wrażenie izochronizmu i braku zmienności w dłuższych stopach. W wypowiedziach Niemców obserwuje się brak tendencji do lokalnego izochronizmu w stopach binarnych niekońcowych oraz znaczne wydłużenie iloczasu na granicach stóp binarnych końcowych (bez znacznego wydłużenia sylaby poprzedniej, akcentowanej). W stopach 3-sylabowych widać tendencję do przyspieszania począwszy od sylaby akcentowanej bez, jak to miało miejsce w wypowiedziach mówców natywnych, zwolnienia na granicy stopy. Natomiast w realizacji stóp 4-sylabowych pojawia się wyraźna alternacja (naprzemienne zwalnianie i przyspieszanie). Takie wzorce długookresowej zmienności iloczasu w stopach wykluczają zjawisko percepcyjnego zawężania iloczasu. Podobnie jak w grupie z akcentem niemieckim, w wypowiedziach Koreańczyków nie występuje tendencja do lokalnego izochronizmu w stopach binarnych niekońcowych we frazie, ale zaobserwować można zwolnienie na granicach stóp binarnych końcowych. W realizacji stóp 3-sylabowych obserwuje się przyspieszanie począwszy od sylaby akcentowanej i zwalnianie na granicy stopy, co może powodować zjawisko time shrinking. Natomiast w realizacji stóp 4-sylabowych pojawia się wyraźna alternacja (naprzemienne przyspieszanie i zwalnianie). Ogólnie rzecz biorąc, w trzech badanych grupach akcentowych obserwujemy podobny wzorzec realizacji iloczasowej stóp binarnych końcowych we frazie (tj. lokalne zwolnienie), a także asymetrię w kierunku alternacji we wzorcach realizacji iloczasowej stóp 4-sylabowych między akcentem niemieckim i koreańskim (naprzemienne zwalnianie i przyspieszanie vs. przyspieszanie i zwalnianie). W żadnym z badanych akcentów nie można jednoznacznie stwierdzić obecności zjawiska skracania kompensacyjnego, ponieważ znaczna większość statystycznie istotnych efektów (w analizie wariancji i testach post-hoc) zilustrowanych na rysunku 7. wynika z różnic w iloczasowej realizacji stóp binarnych o końcowej pozycji we frazie i pozostałych stóp. Natomiast w przypadku skracania Zob. również wyniki w sekcji: Krótkookresowa względna zmienność iloczasu, Opis kategorialny 5 Akustyczne wyznaczniki rytmu w wypowiedziach mówców natywnych i nienatywnych… 263 kompensacyjnego oczekiwać należy istotnych różnic w iloczasach sylab o tej samej pozycji, ale w stopach o różnej długości. 3.4. Analiza w dziedzinie częstotliwości podstawowej (f0) Obecnie wiadomo, że choć iloczas jest głównym korelatem akustycznym rytmu mowy, to wchodzi on w interakcję z f0 i intensywnością tworząc pewne wrażenia rytmiczne (Barry i in. 2009). „Dodatkowe” wskazówki akustyczne w dziedzinie f0 lub/i intensywności odgrywają ważną rolę, gdyż w niektórych kontekstach same wskazówki iloczasowe mogą okazać się niewystarczające i prowadzić do niejednoznaczności: na przykład wydłużenie iloczasu może sygnalizować początek, jak i koniec grupy rytmicznej. Poniżej przedstawiono wyniki badania wykorzystania przez mówców dynamiki zmian wysokości tonu w celu rytmicznego grupowania wypowiedzi oraz nadania jej określonej struktury rytmicznej. Przeprowadzono pod tym kątem analizy, które miały odpowiedzieć na pytanie, czy dynamika zmian wysokości tonu różni się istotnie między funkcjonalnie różnymi przejściami, poziomami prominencji oraz trzema akcentami (PL, DE, KOR). 3.4.1. Udział zmian w dziedzinie f0 w realizacji funkcjonalnie różnych przejść Wyniki wielowymiarowej analizy wariancji pokazały statystycznie istotny wpływ typu przejścia (F=98,2, p<0,01), akcentu (F=37,1, p<0,01) oraz interakcji między typem przejścia i akcentem (F=2,5, p<0,05) na dynamikę zmian wysokości tonu wyrażoną poprzez różnicę średnich wartości f0 na sąsiednich sylabach i podaną w półtonach. We wszystkich grupach akcentowych dynamika zmian wysokości tonu jest najmniejsza w przypadku przejść do sylab nieakcentowanych i największa w przejściach do sylab na granicach fraz, ale nie wszystkie różnice widoczne na rysunku 8. są statystycznie istotne. Podczas gdy w mowie natywnej każdy typ przejścia w sposób istotny decyduje o dynamice zmian wysokości tonu, w mowie z akcentem koreańskim istotne są różnice między przejściami do sylab na granicach fraz i pozostałymi, natomiast w wypowiedziach Niemców – między przejściami do sylab nieakcentowanych i pozostałymi. Wyniki te wskazują na odmienny sposób wykorzystania przez te trzy grupy mówców zmian w dziedzinie f0 w celu rytmicznego grupowania wypowiedzi oraz nadania jej określonej struktury rytmicznej. Spośród trzech badanych akcentów, akcent koreański charakteryzuje się najmniejszą ogólną dynamiką zmian f0. 264 Agnieszka Wagner Rys. 8. Dynamika zmian wysokości tonu w funkcjonalnie różnych przejściach w trzech badanych akcentach 3.4.2. Udział zmian w dziedzinie f0 w realizacji prominencji Wyniki wielowymiarowej analizy wariancji pokazały statystycznie istotny wpływ akcentu (F=45,1, p<0,01), poziomu prominencji (F=38,3, p<0,01), oraz interakcji między poziomem prominencji i akcentem (F=4,2, p<0,01) na dynamikę zmian wysokości tonu. W mowie natywnej akcenty melodyczne i frazowe są sygnalizowane poprzez istotnie większe zmiany wysokości tonu niż akcenty wyrazowe. W wypowiedziach Niemców dynamika zmian rośnie wraz z poziomem prominencji, ale tylko różnica między przejściami do sylab z akcentem frazowym i wyrazowym jest statystycznie istotna. W mowie z akcentem koreańskim różnice przedstawione na rysunku 9. nie są statystycznie istotne. Rys. 9. Dynamika zmian wysokości tonu w przejściach do sylab o różnym poziomie prominencji (słaba: akcent wyrazowy, średnia: akcent melodyczny i silna: akcent frazowy) w trzech badanych akcentach (PL, DE, KOR) Akustyczne wyznaczniki rytmu w wypowiedziach mówców natywnych i nienatywnych… 265 Ogólnie rzecz biorąc, zaobserwować można różnice między trzema badanymi akcentami w stosowaniu wysokości tonu jako akustycznego wyznacznika prominencji, przy czym udział dynamiki zmian w dziedzinie f0 w realizacji prominencji jest największy w mowie natywnej, a najmniejszy w przypadku akcentu koreańskiego. Wnioski końcowe Badania przedstawione w niniejszej pracy miały na celu zidentyfikowanie cech akustycznych w dziedzinie iloczasu i f0, które pełnią rolę wyznaczników struktury rytmicznej i grupowania rytmicznego, związanych z prominencją i frazowaniem, w wypowiedziach języka polskiego zrealizowanych przez mówców natywnych i nienatywnych z akcentem koreańskim i niemieckim. Zastosowano w tym celu podejście wielowymiarowe oparte na wykresach time delay (Wagner 2008a). Wyniki krótkookresowej analizy względnej zmienności iloczasu w funkcjonalnie różnych przejściach (tj. do sylab akcentowanych, nieakcentowanych i na granicy fraz) pokazały, że tendencja do lokalnego izochronizmu jest największa w wypowiedziach mówców natywnych (głównie z uwagi na stopy binarne niekońcowe), natomiast tendencja do alternacji (rytmu naprzemiennego) – w akcencie koreańskim. Analiza ilościowa pokazała ogólny trend do lokalnego zwalniania w przejściach do sylab akcentowanych (przede wszystkim z uwagi na akcent frazowy) i na granicy fraz oraz lokalnego przyspieszania w przejściach do sylab nieakcentowanych. Oznacza to, że lokalne zwolnienie jest wyznacznikiem grupowania rytmicznego na poziomie frazy. Krótkookresowa analiza względnej zmienności iloczasu w przejściach do sylab z akcentem wyrazowym, melodycznym i frazowym pozwoliła ustalić, że w mowie natywnej wyznacznikiem struktury rytmicznej jest lokalne zwolnienie, które jest wprost proporcjonalne do poziomu prominencji. W wypowiedziach Niemców zaobserwowano jedynie subtelną, ale nieistotną statystycznie, tendencję do lokalnego zwalniania postępującego wraz ze wzrostem poziomu prominencji (tj. od akcentu wyrazowego do frazowego), natomiast w akcencie koreańskim w miarę wzrostu poziomu prominencji tendencja do lokalnego zwalniania słabnie, ale różnice nie są statystycznie istotne. Ogólnie rzecz biorąc, spośród trzech uwzględnionych w badaniu poziomów prominencji, największą różnicę między mówcami natywnymi i nienatywnymi obserwuje się w realizacji akcentu wyrazowego, a w drugiej kolejności w realizacji akcentu frazowego. 266 Agnieszka Wagner Badanie w zakresie długookresowej zmienności iloczasu w stopach o różnej długości pozwala wyciągnąć wniosek, że rytm wypowiedzi w języku polskim jest kształtowany przez lokalny izochronizm w stopach binarnych niekońcowych oraz zjawisko zawężania percepcyjnego (ang. time shrinking), obserwowane w dłuższych stopach, którego brak w wypowiedziach mówców nienatywnych. Tego rodzaju relacje iloczasowe w stopie są charakterystyczne dla rytmu sylabicznego (np. w języku włoskim lub francuskim) i mogą przyczyniać się do percepcyjnego wrażenia mniejszej zmienności rytmicznej w wypowiedziach natywnych niż z akcentem koreańskim lub niemieckim oraz ogólnie – do percepcji mniejszej zmienności rytmicznej języka polskiego w porównaniu z językami o rytmie akcentowym (np. język angielski lub niemiecki). Analizy w dziedzinie f0 pokazały, że w polskiej mowie natywnej dynamika zmian wysokości tonu jest równie istotnym jak iloczas wyznacznikiem struktury rytmicznej i grupowania rytmicznego, natomiast mówcy nienatywni wykorzystują zmiany w tym zakresie w nieco odmienny sposób. W wypowiedziach z akcentem koreańskim można było zaobserwować istotny wzrost dynamiki zmian wysokości tonu w realizacji przejść do sylab na granicy fraz, natomiast w mowie Niemców stanowiła ona istotny wyznacznik akustyczny prominencji i granic fraz prozodycznych (w porównaniu z przejściami do sylab nieakcentowanych). W odniesieniu do prominencji, w mowie natywnej zmiany w dziedzinie f0 były znacząco różne w realizacji przejść do sylab z akcentem wyrazowym (tj. o niskim poziomie prominencji) z jednej strony oraz przejść do sylab z akcentem melodycznym i frazowym (tj. o średnim i wysokim poziomie prominencji) z drugiej strony. Mówcy koreańscy nie wykorzystują dynamiki zmian f0 jako akustycznego wyznacznika poziomu prominencji, natomiast mówcy niemieccy korzystają z niej, aby rozróżnić między słabą a silną prominencją. Podsumowując, zastosowane w niniejszej pracy podejście wielowymiarowe pozwoliło na wyłonienie akustycznych wyznaczników rytmu języka polskiego w dziedzinie iloczasu (m.in. lokalny izochronizm, alternacja, lokalne zwalnianie/ przyspieszanie w realizacji funkcjonalnie różnych przejść i poziomów prominencji, zjawisko time shrinking) i f0 (dynamika zmian wysokości tonu), a także umożliwiło opis, zarówno kategorialny jak i ilościowy (ciągły), różnic między mówcami natywnymi i nienatywnymi języka polskiego w realizacji struktury rytmicznej i grupowania rytmicznego, które mogą przyczyniać się do percepcji obcego akcentu o różnej sile w wypowiedziach mówców nienatywnych. Akustyczne wyznaczniki rytmu w wypowiedziach mówców natywnych i nienatywnych… 267 Bibliografia Abercrombie, D. (1967). Elements of general phonetics. Edinburgh: Edinburgh University Press. Aguilar, L., Bonafonte, A., Campillo, F., Mancebo, D.E. (2009). Determining intonational boundaries from the acoustic signal. W: R. Moore (red.), Proceedings of Interspeech 2009 (2447–2450). Brighton. Pozyskano z http://www.isca-speech.org/archive/archive_papers/interspeech_2009/papers/i09_2447.pdf Arvaniti, A. (2009). Rhythm, timing and the timing of rhythm, Phonetica, 66 (1–2), 46–63. Arvaniti, A. (2012). The usefulness of metrics in the quantification of speech rhythm, Journal of Phonetics, 40 (3), 351–373. Barry, W., Andreeva, B., Koreman, J. (2009). Do rhythm measures reflect perceived rhythm?, Phonetica, 66 (1–2), 78–94. Beckman, M.E., Edwards, J. (1994). Articulatory evidence for differentiating stress categories. W: P.A. Keating (red.), Phonological Structure and Phonetic Form: Papers in Laboratory Phonology III (7–33). Cambridge: Cambridge University Press. Beňuš, Š., Šimko, J. (2012). Rhythm and tempo in Slovak. W: Q. Ma, H. Ding, D. Hirst (red.), Proceedings of the 6th International Conference on Speech Prosody (502–505). Shanghaj. Boersma, P., Weenink, D. (2013). Praat: doing phonetics by computer [Program komputerowy]. Wersja 5.3.59. Pozyskano z http://www.praat.org/. Carlson, R., Hirschberg, J., Swerts, M. (2005). Cues to upcoming Swedish prosodic boundaries: Subjective judgment studies and acoustic correlates, Speech communication, 46 (3), 326–333. Cumming, R.E. (2011). Perceptually Informed Quantification of Speech Rhythm in Pairwise Variability Indices, Phonetica, 68 (4), 256–277. Cylwik, N., Wagner, A., Demenko, G. (2009). The EURONOUNCE corpus of non-native Polish for ASR-based Pronunciation Tutoring System. W: M. Russel (red.), Proceedings of SLaTE 2009. Birmingham: University of Birmingham. Pozyskano z: http:// www.eee.bham.ac.uk/SLaTE2009/papers%5CSLaTE2009-30.pdf Dauer, R. (1987). Phonetic and phonological components of language rhythm. W: Proceedings of the 11th International Congress of the Phonetic Sciences, 5, (447–450). Dellwo, V. (2006). Rhythm and speech rate: A variation coefficient for delta C. W: P. Karnowski, I. Szigeti (red.), Language and language processing: Proceedings of the 38th linguistic Colloquium (231–241). Frankfurt: Peter Lang. Dellwo, V. (2008). The influence of speech rate on speech rhythm (niepublikowana rozprawa doktorska). Universität Bonn. Demenko, G. (1999). Analiza cech suprasegmentalnych na potrzeby technologii mowy. Poznań: Wydawnictwo UAM. 268 Agnieszka Wagner Demenko G., Wypych M., Baranowska E. (2003). Implementation of Polish grapheme-to-phoneme rules and extended SAMPA alphabet in Polish text-to-speech synthesis, Speech and Language Technology, 7, 79–96. Dłuska, M. (1950). Fonetyka polska. Warszawa: PWN. Grabe, E., Low, E.L. (2002). Durational variability in speech and the rhythm class hypothesis, Papers in laboratory phonology, 7, 515–546. Hirschberg J. (1993) Pitch accent in context: predicting intonational prominence from text, Aritificial Intelligence, 63 (1–2), 305–340. Jassem, W. (1962). Akcent języka polskiego. Wrocław: Ossolineum Jun, S.A. (2005) Prosody in Sentence Processing: Korean vs. English, UCLA Working Papers in Phonetics, 104, 26–45. Kim, J., Davis, C., Cutler, A. (2008). Perceptual tests of rhythmic similarity: II. Syllable rhythm, Language and speech, 51 (4), 343–359. Klessa, K. (2006). Analysis of segmental duration for needs of speech synthesis in Polish (niepublikowana rozprawa doktorska). Wydział Neofilologii Uniwersytetu im. Adama Mickiewicza, Poznań. Klessa, K. (2012). Polish segmental duration: selected observations based on corpus data, Speech and Language Technology, 14/15, 95–104. Malisz, Z. (2013). Speech rhythm variability in Polish and English: A study of interaction between rhythmic levels (niepublikowana rozprawa doktorska). Wydział Anglistyki Uniwersytetu im. Adama Mickiewicza, Poznań. Malisz, Z., Wagner, P. (2012). Acoustic-phonetic realisation of Polish syllable prominence: a corpus study, Speech and Language Technology, 14/15, 105–114. Nolan, F., Asu, E.L. (2009). The pairwise variability index and coexisting rhythms in language, Phonetica, 66 (1–2), 64–77. Nowak, P.M. (2006). Vowel reduction in Polish (niepublikowana rozprawa doktorska). University of California, Berkeley. Ostaszewska, D., Tambor, J. (2000). Fonetyka i fonologia współczesnego języka polskiego. Warszawa: PWN. Pike, K.L. (1945). The Intonation of American English. Ann Arbor: University of Michigan. Portele, T. (1998). Perceived Prominence and acoustic parameters in American English. W J. B. Millar (red.), Proceedings of Interspeech 1998, Sydney, 3, 667–670. Prieto, P., Vanrell, M.D.M., Astruc, L., Payne, E., Post, B. (2012). Phonotactic and phrasal properties of speech rhythm. Evidence from Catalan, English, and Spanish, Speech Communication, 54 (6), 681–702. Ramus, F., Nespor, M., Mehler, J. (1999). Correlates of linguistic rhythm in the speech signal, Cognition, 73 (3), 1–28. Richter, L. (1987). Modelling of the rhythmic structure of utterances in Polish, Studia Phonetica Posnaniensia, 1, 91–125. Akustyczne wyznaczniki rytmu w wypowiedziach mówców natywnych i nienatywnych… 269 Rosenberg, A. (2009). Automatic detection and classification of prosodic events (niepublikowana rozprawa doktorska). Columbia University, New York. Selkirk, E.O. (1995). Sentence prosody: Intonation, stress and phrasing. W: J. Goldsmith (red.), The Handbook of Phonological Theory (550–569). Cambridge Mass. & Oxford: Blackwell Publishers Ltd. Sridhar, V.K.R., Nenkova, A., Narayanan, S., Jurafsky, D. (2008). Detecting prominence in conversational speech: pitch accent, givenness and focus. W: P.A. Barbosa, S. Madureira, C. Reis (red.), Proceedings of Speech Prosody (453–456). Campinas. Tamburini, F. (2003). Automatic prosodic prominence detection in speech using acoustic features: an unsupervised system. W: H. Bourlard (red.), Proceedings of Interspeech 2003 (385–388). Geneva. Terken, J. (1991). Fundamental frequency and perceived prominence of accented syllables, Journal of the Acoustic Society of America, 89, 1768–1776. Turk, A.E., White, L. (1999). Structural influences on accentual lengthening in English, Journal of Phonetics, 27, 171–206. Wagner, P. (2008a). The rhythm of language and speech: Constraining factors, models, metrics and applications (niepublikowana rozprawa habilitacyjna). University of Bonn. Wagner, A. (2008b). Comprehensive model of intonation for application in speech synthesis. (niepublikowana rozprawa doktorska). Wydział Neofilologii Uniwersytetu im. Adama Mickiewicza, Poznań. Wagner, A. (2010). Acoustic cues for automatic determination of phrasing. W: Proceedings of Speech Prosody. Chicago. Pozyskano z http://speechprosody2010.illinois. edu/papers/100196.pdf Wagner, A. (2012). Speech rhythm in native and non-native Polish. W: Botinis, A. (red.), Proceedings of ISCA Workshop on Experimental Linguistics (121–124). Athens: University of Athens. Wagner, A. (2013). Struktura rytmiczna wypowiedzi w polskiej mowie natywnej i nienatywnej. W: S. Puppel, T. Tomaszkiewicz (red.), Scripta manent – res novae (499–510). Poznań: Wydawnictwo UAM. Wagner, A. (2014). Description of Polish speech rhythm using rhythm metrics and time-delay approach: A comparative study. W: N. Campbell, D. Gibbon, D. Hirst (red.), Proceedings of Speech Prosody (366–370). Dublin: Trinity College. White, L., Mattys, S.L. (2007). Calibrating rhythm: First language and second language studies, Journal of Phonetics, 3 (5), 501–522. Wiget, L., White, L., Schuppler, B., Grenon, I., Rauch, O., Mattys, S.L. (2010). How stable are acoustic metrics of contrastive speech rhythm?, Journal of the Acoustic Society of America, 127 (3), 1559–1569. Wightman, C.W., Shattuck-Hufnagel, S., Ostendorf, M., Price, P. (1992). Segmental durations in the vicinity of prosodic phrase boundaries, Journal of the Acoustic Society of America, 91, 1707–1717. 270 Agnieszka Wagner Yoon T.J., Cole J., Hasegawa-Johnson M. (2007). On the edge: Acoustic cues to layered prosodic domains. W: J. Trouvain, W.J. Barry (red.), Proceedings of the 16th International Congress of Phonetic Sciences (1017–1020). Saarbrücken: University of Saarbrücken. Pozyskano z http://www.icphs2007.de/conference/Papers/1699/1699.pdf Acoustic exponents of rhythm in utterances of polish native and non-native speakers summary The paper deals with the acoustic correlates of speech rhythm in utterances produced by native speakers of Polish and non-native speakers of Polish with Korean and German accent. The research material consisted of recordings of a story, annotated with respect to different levels of prominence and prosodic phrase boundaries. On the basis of the annotations, a multidimensional analysis was carried out in order to study the realization of rhythmic structure and grouping related, respectively, to prominence and phrasing. The results made it possible to determine the contribution of duration and fundamental frequency (f0) parameters in the realization of rhythmic structure and grouping, and to account for the perceptually noticeable differences in the rhythm of utterances produced by the native and non-native speakers, as well as the discrepancy between the two non-native accents.