Pobierz artykuł - Oblicza Komunikacji

Transkrypt

Pobierz artykuł - Oblicza Komunikacji
5/2012
ALEKSANDRA PAWLIKOWSKA
Zastosowanie metod językoznawstwa
korpusowego i lingwistyki kwantytatywnej
w analizie dyskursu
Abstrakt
W artykule poruszono problem możliwości analizy dyskursu za pomocą metod korpusowych i kwantytatywnych. Dyskursologia korzysta z różnych metod badawczych, lecz przeważnie mają one charakter jakościowy. Lingwistyka korpusowa i statystyczna oferują tymczasem wiele narzędzi, które mogą służyć do
badania dyskursu, począwszy od elektronicznej konkordancji, aż do obliczeń pozwalających wykrywać
podobieństwo tekstów i gatunków, nacechowanie leksyki, słowa klucze itp. W artykule metody te zostały
pokrótce opisane. Zostały w nim zawarte również podstawowe informacje na temat budowy korpusu
specjalistycznego oraz doboru reprezentatywnej próby tekstów, które tworzą dany dyskurs.
Słowa kluczowe: językoznawstwo statystyczne, językoznawstwo korpusowe, analiza dyskursu,
korpus, metoda badawcza.
Celem niniejszego artykułu jest przedstawienie metod badawczych lingwistyki korpusowej i kwantytatywnej w kontekście możliwości, jakie stwarzają one analizie
dyskursu. Choć metodologia stosowana w badaniach dyskursologicznych, zwłaszcza z kręgu analizy krytycznej (KAD), ma charakter eklektyczny1, to można zaryzykować stwierdzenie, że językoznawstwo statystyczne i korpusowe znajdowało się do
tej pory na jej peryferiach z uwagi na reprezentowanie podejścia stricte ilościowego.
Obecnie jednak wielu językoznawców, zwłaszcza z kręgu nauki anglosaskiej i francuskojęzycznej2, podejmuje próby łączenia metod korpusowych i kwantytatywnych
z analizą dyskursu, dostrzegając w tym zalety takie, jak: liczbowe potwierdzenie
danych jakościowych, możliwość wykrycia pewnych stałych tendencji w obserwowanej próbie, efektywne porównanie wybranych rodzajów dyskursu. Wszystko to
wiąże się z możliwością wzięcia pod uwagę o wiele większej liczby tekstów bądź ich
1 Por. np. propozycje metodologiczne zebrane w licznych artykułach Teuna van Dijka, Normana
Fairclougha oraz uwagi tychże autorów na temat samej dyscypliny.
2 Mowa o tym w dalszych partiach artykułu.
Oblicza Komunikacji 5, 2012
© for this edition by CNS
Oblicza 5.indb 111
2013-07-04 09:54:58
112
ALEKSANDRA PAWLIKOWSKA
fragmentów niż w przypadku analizy niewykorzystującej narzędzi inżynierii lingwistycznej.
W dalszej części pracy przedstawię stosunek, w jakim pozostają do siebie:
lingwistyka korpusowa, kwantytatywna oraz analiza dyskursu, opiszę narzędzia
i metody badań ilościowych przydatne dla dyskursologii oraz omówię pokrótce
(na wybranych przykładach) dotychczasowe badania łączące wymienione podejścia.
1. Lingwistyka korpusowa, językoznawstwo statystyczne,
analiza dyskursu — paradygmaty, metodologie czy metody?
Pytanie postawione w tytule powyższego punktu ma duże znaczenie z perspektywy metodologicznej. O ile bowiem można łączyć metody ilościowe z jakościowymi, tworząc globalną metodę eklektyczną, o tyle nie należy stosować metodologii
pochodzących z odmiennych paradygmatów w imię spójności badań i prawomocności wyników. Jak zauważa tymczasem Adam Pawłowski (Pawłowski 2003), pojawiają się definicje językoznawstwa korpusowego ujmujące je niejawnie jako zjawisko na kształt paradygmatu w lingwistyce. Pojęcie analizy dyskursu oraz termin
dyskursologia presuponują pewną dyscyplinę (naukę o dyskursie, por. też pojęcie
discourse studies), natomiast lingwistyka kwantytatywna (statystyczna) charakteryzowana jest jako „językoznawstwo wykorzystujące do badań rachunek prawdopodobieństwa i statystykę matematyczną” (Sambor 1972: 13). Stwarza to wrażenie, jakoby mowa była kolejno o paradygmacie, dziale nauki oraz zbiorze metod. Ponadto,
zdaniem niektórych badaczy amerykańskich (np. Virtanen 2009), analiza dyskursu
i podejście korpusowe wykazują trudne do pogodzenia sprzeczności natury ontologicznej — pojawiają się one, gdy dyskurs rozumiany jest jako tekst mówiony, konwersacja będąca dynamicznym zdarzeniem komunikacyjnym, natomiast korpus
zawiera teksty-wytwory (istnieje więc opozycja proces–produkt)3. Konieczne jest
zatem ujednolicenie terminologii.
Należy zacząć od analizy dyskursu jako centralnego zagadnienia niniejszego artykułu. Samo pojęcie dyskurs ma wiele definicji, jak choćby powyższa, na co zwracają uwagę badacze w licznych pracach4. Nie wdając się w szczegółowe rozważania
3 W takim
ujęciu dyskurs ma pięć wymiarów (Virtanen 2009): wymiar strukturalny, retoryczny,
kognitywny, interakcyjny, socjokulturowy. Zdaniem autorki nie wszystkie z tych pięciu wymiarów dadzą się jednakowo objąć przez metody korpusowe. Najbardziej podatny na analizę jest wymiar pierwszy i drugi.
4 Dla przykładu można przytoczyć uwagi Bożeny Witosz (Witosz 2009: 57), która po analizie
zbioru polskich prac rekonstruuje następujące definicje dyskursu:
• konkretną wypowiedź,
• zjawisko na poziomie stylu indywidualnego (Zbigniewa Herberta dyskurs o sztuce),
• zjawisko na poziomie gatunkowym (dyskurs powieściowy),
Oblicza Komunikacji 5, 2012
© for this edition by CNS
Oblicza 5.indb 112
2013-07-04 09:54:58
JĘZYKOZNAWSTWO KORPUSOWE I LINGWISTYKA KWANTYTATYWNA W ANALIZIE DYSKURSU
113
na ten temat, można uznać, iż dyskurs jest formą działania społecznego polegającą na wytwarzaniu i nadawaniu znaczeń — por. Fairclough 2003; Krzyżanowski,
Wodak 2011 (dyskurs nie jest tu zatem tożsamy z tekstem-wytworem ani tekstem-wypowiedzią/procesem, lecz traktowany jest szerzej, natomiast konkretne teksty
stanowią jego przejaw. W ten sposób zdefiniowany, stanowi on przedmiot badań,
a analiza dyskursu jest dyscypliną naukową o charakterze interdyscyplinarnym
(Krzyżanowski, Wodak 2011: 13)5.
Jeśli chodzi o lingwistykę korpusową i kwantytatywną, Pawłowski umieszcza je
w obszarze metod badawczych, a nie paradygmatów czy działów językoznawstwa
(Pawłowski 2003: 21–22). Ich podstawami i wyznacznikami są:
• empiryzm (analiza rzeczywistych tekstów językowych wytworzonych w obrębie określonej społeczności),
• oparcie na obszernych zbiorach tekstów dobieranych według przyjętych zasad, określanych jako korpusy,
• stosowanie komputerów i technik automatycznych.
Warto w tym miejscu zauważyć, że metody korpusowe wykorzystywane są do
badań autentycznych, oryginalnych tekstów (jest to tzw. warunek naturalności —
por. Lewandowska-Tomaszczyk 2005: 163–164), co jest też głównym założeniem
dyskursologii.
Lingwistyka korpusowa wykazuje duże powinowactwo z metodami statystycznymi. Podstawowym elementem jest tu pojęcie częstości (frekwencji) jednostek języka (Sambor 1972: 13). Ponadto, jak twierdzi Pawłowski (Pawłowski 2003: 23),
lingwistyka statystyczna i badania ilościowe z lingwistyką korpusową „są nierozerwalnie związane, bowiem prawdopodobieństwo — podstawowa kategoria metodologiczna lingwistyki statystycznej — estymowane jest na podstawie częstości jednostek językowych w próbie, a próba w sensie statystycznym nie jest niczym innym
jak korpusem”.
Podsumowując, zarówno językoznawstwo korpusowe, jak i statystyczne są zbiorami metod, które można wykorzystać w badaniach nad dyskursem będących samoistną dyscypliną.
• zbiór różnogatunkowych wypowiedzi powiązanych sensem (dyskurs o miłości),
• zbiór wypowiedzi powiązanych ideologicznie (dyskurs ekologiczny),
• zbiór wypowiedzi wyodrębniony ze względu na przynależność instytucjonalną ich podmiotów
(dyskurs naukowy),
• zbiór wypowiedzi wyodrębniony ze względu na ich przynależność do określonej formacji kulturowej (dyskurs średniowiecza).
5 Jak twierdzą Ruth Wodak i Michał Krzyżanowski (2011), „sednem tej dyscypliny pozostaje systematyczna i jawnie wyrażona analiza różnych struktur i strategii na różnych poziomach tekstu i mówienia”. Tak rozumiana analiza dyskursu czerpie nie tylko z językoznawstwa (stylistyki, semantyki,
pragmatyki, tekstologii), ale także socjologii, antropologii, kulturoznawstwa, filozofii, literaturoznawstwa itp. Są jednak badacze, np. Heinemann (2009), którzy używają terminu lingwistyka dyskursu,
uznając, iż dyskurs jest przedmiotem zainteresowania zwłaszcza nauki o języku.
Oblicza Komunikacji 5, 2012
© for this edition by CNS
Oblicza 5.indb 113
2013-07-04 09:54:58
114
ALEKSANDRA PAWLIKOWSKA
2. Narzędzia i metody badań przydatne dla dyskursologii
Spośród wielu metod korpusowych i kwantytatywnych, jakie oferuje współczesna
inżynieria lingwistyczna, przedstawię te, które mogą mieć znaczenie dla analizy
dyskursu rozumianej w sposób przedstawiony powyżej. Należy zacząć od budowy
korpusu.
2.1. Projektowanie korpusu
Istnieje kilka definicji terminu korpus językowy. Współcześni polscy badacze (Pawłowski, Lewandowska-Tomaszczyk i inni) przyjmują jednak w większości wyjaśnienie zaproponowane przez Tony’ego McEnery’ego i Andrew Wilsona. Korpusem
ma być więc zbiór tekstów językowych spełniających następujące kryteria:
• reprezentatywność — pojęcie to zapożyczone jest ze statystyki, gdzie odnosi
się do tzw. metody reprezentatywnej, polegającej na „losowym doborze próby z próby generalnej, opisie tej próby za pomocą charakterystyk statystycznych, a następnie
na uogólnieniu otrzymanych wyników na zbiorowość generalną, z której próba ta
pochodzi” (Pawłowski 2003: 24). Istnieją odpowiednie matematyczne — ilościowe
— wyznaczniki doboru próby (np. wzór na wielkość próby Revekki M. Frumkiny),
a także metody jakościowe (tzw. stopień nasycenia korpusu Ruth Wodak);
• skończona wielkość — postulat ten wiąże się z reprezentatywnością i zakłada
określenie na początku projektu docelowej wielkości budowanego korpusu;
• format elektroniczny — daje to możliwość przetwarzania danych za pomocą
komputera.
Istnieją korpusy ogólne i specjalistyczne. To właśnie te drugie są podstawą do
badań dyskursologicznych. Korpus ogólny ma być próbą odwzorowania języka
ogólnego z pominięciem socjolektów, dialektów itp. Korpus specjalistyczny zawiera
teksty powstałe w określonej społeczności językowej. Mogą to być na przykład teksty z zakresu prawa, ekonomii, teksty religijne, naukowe i inne.
Korpusy można dzielić również na korpusy zawierające teksty w całości i korpusy próbkowane. Korpusy próbkowane służą uzyskaniu jak największej reprezentatywności i różnorodności danych językowych. Do utworzenia korpusu wykorzystuje się wówczas dużą liczbę fragmentów tekstów o określonej wielkości.
Jeśli chodzi o informacje dodatkowe znajdujące się w korpusach, wyróżniamy
korpusy zawierające sam tekst i korpusy indeksowane, przy czym indeksy to informacje o samych tekstach, na przykład o ich przynależności do określonych stylów,
gatunków, autorstwie, dacie powstania itp. Możliwe jest również indeksowanie znaczeń, kategorii gramatycznych, części mowy.
Podstawą do stworzenia korpusu (niezależnie od jego typu) jest zebranie kanonu źródeł. Powinien on być reprezentatywny zarówno jakościowo, jak i ilościowo.
W celu utrzymania reprezentatywności pobiera się odpowiednią próbę, czyli ze-
Oblicza Komunikacji 5, 2012
© for this edition by CNS
Oblicza 5.indb 114
2013-07-04 09:54:58
JĘZYKOZNAWSTWO KORPUSOWE I LINGWISTYKA KWANTYTATYWNA W ANALIZIE DYSKURSU
115
staw tekstów bądź ich fragmentów, które wykazują cechy całego zbioru populacji
generalnej. Aby uzyskać reprezentatywność, według J. Sambor (Sambor 1972: 24),
wyekscerpowane teksty powinny tworzyć zbiorowość jednorodną (jest to tzw. warunek homogeniczności próby), a zatem powinny wykazywać:
• jednorodność terytorialną — przykładowo, w przypadku tworzenia korpusu
referencyjnego w próbie nie powinny się znaleźć teksty emigracyjne;
• jednorodność chronologiczną — teksty powinny pochodzić z jednego okresu
(z wyjątkiem tekstów do korpusu diachronicznego);
• jednorodność socjologiczno-kulturową — w skład próby powinny z reguły
wchodzić teksty rodzime, a nie przekłady, teksty dla danej grupy odbiorców, teksty
jednolite ze względu na kanał przekazu (np. tylko teksty pisane).
Jednocześnie, zdaniem Jadwigi Sambor, „musi istnieć pewna różnorodność populacji generalnej i próby (warunek heterogeniczności próby)”. W odniesieniu do
leksyki są to na przykład jej różne strefy (przynależność stylowa) i rejestry.
Istnieje matematyczny wskaźnik i wzór określania wielkości próby, zaproponowany przez Frumkinę. Opiera się on na dokładności szacowania częstości empirycznych p i możliwej wielkości odchylenia. „Wielkość odchylenia musi być tak
duża, aby zapewniła oszacowanie p z żądaną dokładnością; wielkość odchylenia
jest ustanawiana przez badacza i zależy od potrzeb praktycznych” (Sambor 1972:
27). O sposobie posłużenia się wspomnianym wskaźnikiem wyczerpująco pisze
J. Sambor (Sambor 1972: 27–29). Należy zaznaczyć, że po wstępnym jakościowym
określeniu próby (doborze tekstów) i obliczeniu jej pożądanej wielkości ostatecznie
fragmenty tekstów o danej długości wybiera się losowo, gdyż dzięki temu można
osiągnąć właściwą reprezentatywność.
Niektórzy badacze, na przykład Wodak i Krzyżanowski (Wodak, Krzyżanowski
2011: 59–79), proponują stricte jakościowe wyznaczniki dobierania próby. Populację
generalną nazywają oni „uniwersum dyskursu”. Rekomendują procedurę cykliczną.
Polega ona na wstępnym zebraniu niewielkiej liczby tekstów oraz ich pobieżnej analizie pod kątem zawartości, a następnie dobieranie kolejnych prób do momentu, aż
przestaną one dostarczać nowych reprezentacji (tzw. nasycenie korpusu), czyli będą
zawierały przykłady, które już istnieją w korpusie. Dla równowagi poleca się porównanie własnego zbioru z korpusem referencyjnym (np. dane wyrażenie należy przeanalizować zarówno w tekstach badanego dyskursu, jak i korpusie języka ogólnego,
by stwierdzić ewentualną odrębność jego użycia i konotacji oraz jego istotność dla
reprezentacji i strategii danego dyskursu).
W przypadku korpusu specjalistycznego istnieją dodatkowe wyznaczniki jego
projektowania (Lewandowska-Tomaszczyk 2005: 180–200). Korpusy takie są z reguły dużo mniejsze niż korpusy języka ogólnego, jednak nie powinny zawierać
mniej niż 300 000 słów, a dochodzić mogą nawet do miliona jednostek. Przy dobieraniu próby liczy się, jak bardzo specjalistyczna jest badana dziedzina. O wielkości korpusu decyduje również dostępność tekstów i problem praw autorskich. „Za
mniejszym rozmiarem korpusu przemawia również wysoka powtarzalność tekstów
Oblicza Komunikacji 5, 2012
© for this edition by CNS
Oblicza 5.indb 115
2013-07-04 09:54:58
116
ALEKSANDRA PAWLIKOWSKA
występująca w obrębie określonego typu tekstu lub gatunku” (Lewandowska-Tomaszczyk 2005: 180). Niezwykle ważna jest również reprezentatywność — z reguły
losowane próby opiera się na wybieraniu z tekstów fragmentów o określonej liczbie
wyrazów. Liczy się jednak nie tylko liczba jednostek, ale także liczba wziętych pod
uwagę tekstów, która powinna być jak największa6. Istotne jest zakreślenie tematyki
tekstów, które powinny znaleźć się w korpusie. Niektóre dziedziny są rozległe, ponadto mają charakter interdyscyplinarny i trudno wytyczyć granice pomiędzy nimi.
Podobnie jest z typami tekstów, czyli gatunkami. W obrębie gatunków danego dyskursu istnieje niekiedy spore zróżnicowanie ze względu na przeznaczenie i odbiorcę
tekstów. Konsekwencją jest różny stopień specjalizacji poszczególnych gatunków.
Inne będzie słownictwo i styl tekstu napisanego przez eksperta dla eksperta, a inne,
gdy tekst zostanie napisany dla szerokiego kręgu odbiorów. Wybór tekstów i gatunków jest wówczas uzależniony od typu analizy.
2.2. Analiza dyskursu z perspektywy lingwistyki korpusowej
Z perspektywy metodologicznej można wyróżnić dwa typy analizy korpusowej:
„analizę, która jest oparta na danych językowych (corpus-based analysis) oraz
taką, która jest wynikiem badania danych korpusowych (corpus-driven analysis)”
(Lewandowska-Tomaszczyk 2005: 133). Pierwsza z nich polega na wstępnym postawieniu hipotezy i jej potwierdzeniu bądź zanegowaniu po analizie danych korpusowych. Druga opiera się na zbadaniu korpusu bez wyraźnego nastawienia i wyciągnięciu końcowych wniosków. Niezależnie od typu analizy surowe dane liczbowe
opracowuje się za pomocą metod statystycznych.
Obecnie podstawowymi narzędziami do analizy korpusowej i kwantytatywnej
są: a) konkordancja, b) listy frekwencyjne, c) wyszukiwarka kolokacji oraz tzw.
d) clusterowanie.
Ad a. Konkordancja jest to wykaz szukanych haseł występujących w tekście/
tekstach wraz z ich lokalizacjami i kontekstami. Konkordancja obrazuje „występowanie w języku określonych wzorców użycia wyrazów” (Lewandowska-Tomaszczyk 2005: 37). Ułatwia analizę semantyczno-składniową. Dzięki dużej
liczbie przykładów użyć i łączliwości można badać ideologiczne nacechowanie
jednostek. Za pomocą analizy dystrybucji można ustalać również częstość znaczeń i rozróżniać wyrazy o treści ogólnej od terminów. Dokładność danych zawartych w konkordancji umożliwia wreszcie badanie prozodii semantycznej, czyli wartościującego nacechowania wyrazu, która wytwarza się pod wpływem ich
tekstowego otoczenia.
6 W zależności od celów analizy można budować korpus również z tekstów w całości. Jest to pożądane wówczas, gdy badaczowi zależy na analizie struktury tekstów, np. tytułów, wskaźników nawiązań
międzytekstowych, budowy rozdziałów itp.
Oblicza Komunikacji 5, 2012
© for this edition by CNS
Oblicza 5.indb 116
2013-07-04 09:54:58
JĘZYKOZNAWSTWO KORPUSOWE I LINGWISTYKA KWANTYTATYWNA W ANALIZIE DYSKURSU
117
Wyszukiwarka daje możliwość odnajdywania nie tylko słów, ale też słowoform
i fraz7. Wyniki sortowania mogą być ustalane według wielu kryteriów, na przykład
przy odpowiednim indeksowaniu możliwe jest krzyżujące się wyszukiwanie w obrębie tekstów reprezentujących różne gatunki, style, dyskursy. Można także wybierać wielkość analizowanego fragmentu tekstu — od zdania po kilka zdań, tytuły,
akapity itp.
Ad b. Listy frekwencyjne — są to listy zawierające wykaz wyrazów wraz z ich
częstościami oraz informacjami o rangach jednostek. Ranga wyrazu r to numer wyrazu na liście wyrazów według malejących częstości (Sambor 1972: 22). Słowniki
i listy frekwencyjne przy pewnych ograniczeniach metody mogą służyć badaniu
językowego i dyskursywnego obrazu świata — swoiste dla danej grupy dyskursywnej widzenie świata ma wówczas potwierdzenie poprzez częstości leksemów
w korpusach (pomijając fakt, że cechą stałą wszystkich tekstów językowych jest
przewaga wyrazów funkcyjnych — zaimków, przyimków). Przy opracowywaniu
list frekwencyjnych można wyróżnić klasy częstości. Istnieją różne kryteria podziału słownictwa na klasy częstości (Rachwałowa 1984: 28). Przeważnie wyróżnia się
słownictwo najczęstsze, częste i rzadkie. Leksyka najczęstsza to przede wszystkim
wyrazy gramatyczne, leksyka częsta — słownictwo podstawowe (w zależności od
obiektu badania) dla danego tekstu, stylu, dyskursu itp.; leksyka rzadka — to wyrazy dla danego korpusu charakterystyczne, wyróżniające go spośród innych. Można
mierzyć relację pomiędzy słownikiem badanych tekstów a klasami częstości oraz
samym tekstem (liczbą słowoform) a klasami częstości (jest to tzw. type-token analysis, gdzie typ to klasa wyrazów, np. dom, a tokeny to wyrazy tekstowe, np. domy,
domu, domów itp.).
Listy frekwencyjne z racji swej przejrzystości umożliwiają także łatwy podział
wyrazów na pola leksykalno-semantyczne i domeny tematyczne. Można analizować
wówczas strukturę konkretnego pola leksykalnego w kontekście liczbowym i relacyjnym. Pawłowski (Pawłowski 1999) proponuje na przykład analizę pojęć przeciwstawnych — hasła korpusowe można ułożyć w pary antonimów i bezwzględne
frekwencje zastąpić wartościami proporcjonalnymi, co w przypadku analizy stricte
semantycznej lub dyskursologicznej da wgląd w określone strategie reprezentacji,
por. na przykład opozycję ‘dusza–ciało’ w dyskursie katolickim.
Ad c. Kolokacje za Barbarą Lewandowską-Tomaszczyk można zdefiniować jako
„stałe powtarzające się wzory występowania słów w swoim sąsiedztwie; są to kombinacje słów, które wykazują duże prawdopodobieństwo współwystępowania obok
siebie” (Lewandowska-Tomaszczyk 2005: 39). Do potwierdzenia, iż dana zbitka wyrazowa jest kolokacją, stosuje się odpowiednie obliczenia częstościowe i zależnościowe, które mogą być wykonywane za pomocą odpowiednich programów (por.
Buczyński 2006).
7 Wybrane
jednostki analizy w językoznawstwie korpusowym zwane są tokenami (tokens).
Oblicza Komunikacji 5, 2012
© for this edition by CNS
Oblicza 5.indb 117
2013-07-04 09:54:58
118
ALEKSANDRA PAWLIKOWSKA
Ad d. Clusterowanie — jest to typ współwystępowania wyrazów nieco inny
niż kolokacje i związki frazeologiczne. Połączenia te nazywane są zbitkami międzywyrazowymi, wiązkami leksykalnymi, zbitkami leksykalnymi lub n-gramami
(Lewandowska-Tomaszczyk 2005: 154). Mają one charakter nieregularny, lecz pod
względem struktury lub niesionych treści mogą się powtarzać w niektórych typach
tekstów i wypowiedzi. W analizie zbitek chodzi zatem o analizę ich funkcji dyskursywnych. Dzięki nim można również przeprowadzać typologię tekstów i dyskursów.
Wykazano na przykład, że w angielskim języku mówionym częściej wykorzystywane są zbitki tworzące frazy werbalne, natomiast w prozie akademickiej pojawiają się
frazy nominalne i przyimkowe (Lewandowska-Tomaszczyk 2005: 157)8.
Lingwistyka kwantytatywna oferuje jednak znacznie więcej metod ilościowej analizy tekstu. Już w budowie słowników frekwencyjnych uwzględniano parametry, które przydają się w kontekście korpusowej analizy dyskursów oraz gatunków. Jednym
z nich (oprócz oczywistej częstości wyrazów) jest dyspersja D. Parametr ten wskazuje na rozłożenie (rozkład) częstości cechy (np. wyrazów) w obrębie danej strefy,
np. stylów (Sambor 1972: 31) — dyspersja określa więc stopień rozproszenia cechy
w badanej próbie. Jak zauważa Sambor, „rozkład częstości wyrazów może być albo
maksymalnie równomierny w poszczególnych stylach. Albo też wszystkie użycia skupiają się w jednym stylu; między tymi dwoma wypadkami skrajnymi leżą wszystkie
pośrednie” (1972: 31). Mowa wówczas o rozkładzie równomiernym lub skupionym.
Miarą dyspersji jest odchylenie standardowe, wariancja i współczynnik zmienności
cechy. Odchylenie standardowe pokazuje, w jakim stopniu wartości w próbie odchylają się od średniej. Wariancja jest średnią podniesionych do kwadratu odchyleń.
Na podstawie tych parametrów określić można również strefy leksyki, np. słownictwo podstawowe dla tekstów i leksykę charakterystyczną. Istnieją również metody
obliczania stylistycznych różnic słownictwa. Mowa przykładowo o tzw. parametrze
B z równania Zipfa-Mandelbrota. Wskazuje on „w poszczególnych tekstach na różnice w całej statystycznej strukturze słownictwa” (Sambor 1972: 217). W celach analizy
stylistycznej można wykorzystać także wskaźnik ilościowego bogactwa słownictwa.
Jest to wskaźnik oparty „na stosunku między liczbą różnych wyrazów w tekście, czyli
między słownikiem tekstu (W) a długością tekstu (N)” (Sambor 1972: 219). W stylistyce kwantytatywnej znane są trzy wskaźniki bogactwa słownictwa (Kamińska-Szmaj
1990, Rachwałowa 1984). Warto zaznaczyć, że parametr ten nie ma nic wspólnego
z estetycznym wartościowaniem tekstów, lecz służy określaniu różnic pomiędzy nimi.
Innym wskaźnikiem jest średnia częstość wyrazu. Dostarcza ona informacji
o zbiorczej charakterystyce próby. W odniesieniu do leksyki, jak twierdzi Sambor
(221), „duże wartości tego wskaźnika wskazują na przewagę w tekście wyrazów
o bardzo dużych częstościach, natomiast mała średnia częstości dowodzi przewagi
w tekście słownictwa rzadszego”. Podobnymi miarami wartości centralnej są me8 Rodzaje
stylów można również badać na podstawie częstości występowania w nich poszczególnych części mowy, por. Kamińska-Szmaj 1990.
Oblicza Komunikacji 5, 2012
© for this edition by CNS
Oblicza 5.indb 118
2013-07-04 09:54:58
JĘZYKOZNAWSTWO KORPUSOWE I LINGWISTYKA KWANTYTATYWNA W ANALIZIE DYSKURSU
119
diana i dominanta. Mediana to wartość, która dzieli rozkład na połowy. Dominanta
jest natomiast wyrażana przez liczbę wystąpień badanej formy językowej najczęściej
powtarzających się w próbie (Okulska 2006a: 374).
Znane są również wskaźniki koncentracji i stereotypowości słownictwa (por.
Sambor 1972: 222–223). Koncentracja to „procent tekstu, jaki wyczerpują hasła
o najwyższych frekwencjach. Im tekst uboższy słownikowo, tym większa jest jego
koncentracja. Przy dużej koncentracji w tekście przeważają wyrazy podstawowe,
ogólne, leksyka jest mało zróżnicowana. Koncentracja niewielka, czyli rozproszenie słownictwa, […] oznacza większą przewagę w tekście wyrazów o częstościach
niskich” (Rachwałowa 1984: 26). Z tej perspektywy dla badań dyskursu jest ważny
stopień nasycenia tekstu terminologią i pojęciami konkretnymi bądź abstrakcyjnymi i relacyjnymi. Wskaźnik stereotypowości słownictwa mierzy się przeciętną długością odstępów między kolejnymi użyciami powtarzających się wyrazów (Sambor
1972: 223).
Zarówno w lingwistyce korpusowej, jak i statystycznej, w analizie tekstów wykorzystuje się pojęcie słów kluczy i wyrazów tematycznych. Słowa klucze to wyrazy
będące wyznacznikami badanych tekstów z perspektywy semantycznej i jednocześnie ilościowo różnicujące te teksty względem tekstów z korpusu referencyjnego.
Wyrazy tematyczne to słownictwo mające najwyższe częstości w danych tekstach.
Słowa klucze to niejednokrotnie wyrazy będące nośnikiem treści ideologicznych
i treści o dużym znaczeniu kulturowym dla wspólnoty językowej, stąd ich istotność
dla analizy dyskursu.
W perspektywie badania dyskursu, a dokładniej reprezentujących go gatunków
tekstów, istotny jest stopień ich podobieństwa, czyli filiacja tekstów. Podobieństwo
można stwierdzać ze względu na określoną cechę, na przykład ze względu na słownictwo. Robi się to metodą analizy stopnia korelacji. Współczynnik ten oblicza się
na podstawie odpowiedniego wzoru (por. Sambor 1972, Rachwałowa 1984).
Metody korpusowe i statystyczne są również przydatne do analizy tekstów na
poziomie morfologicznym (czyli na poziomie słowoform), co także jest istotne dla
badań dyskursologicznych. W ramach badania strategii dyskursywnych z perspektywy ilościowo-jakościowej określać można użycie poszczególnych form oraz proporcji części mowy i kategorii gramatycznych. Na tej podstawie można wyróżniać
style nominalne i werbalne, które wpływają na odbiór tekstów, modyfikując sposób
reprezentacji. Warte uwagi jest też stosowanie form adresatywnych, zaimków i czasowników w określonej osobie oraz trybie, ponieważ wpływa to na relacje nadawczo-odbiorcze oraz modalność tekstów. Pozostałe zaś kategorie, takie jak czas czy
aspekt, decydują o faktywności predykacji i tym samym perswazyjności oraz ideologizacji wypowiedzi. Podobnie jest ze stroną, która służy obrazowaniu „aktorów”/
uczestników dyskursu. Dzięki konkordancji i listom kolokacji badać można akty
mowy charakterystyczne dla dyskursu. Pomoże w tym analiza czasowników performatywnych, dyrektywnych itp. Przy odpowiednim indeksowaniu korpusu możliwe
jest także badanie elementów tworzących makrostruktury tekstowe (np. wskaźniki
Oblicza Komunikacji 5, 2012
© for this edition by CNS
Oblicza 5.indb 119
2013-07-04 09:54:58
120
ALEKSANDRA PAWLIKOWSKA
nawiązań tekstowych) bądź całych struktur dyskursu czy stylów konwersacyjnych.
Dla przykładu, za pomocą korpusu wywiadów radiowych Urszula Okulska (Okulska 2006b) analizowała pośredniość i bezpośredniość w polskim i amerykańskim
dyskursie politycznym na podstawie sposobów formułowania pytań i odpowiedzi.
Dla potwierdzenia wszystkich wspomnianych uwag, zwłaszcza gdy celem badań
jest porównanie danych zjawisk, na przykład użycia określonych form czy leksemów w dyskursie, można wykonać testy statystyczne9. „Celem testu statystycznego
jest określenie, czy te różnice są jedynie wynikiem przypadku, czy też rządzi nimi
jakaś prawidłowość” (Lewandowska-Tomaszczyk 2005: 116). Wysokie prawdopodobieństwo występuje wówczas, gdy jest równe 95%, a zatem spełnia warunek
95-procentowego przedziału ufności. Najczęściej wykorzystywane w badaniach językoznawczych testy to: test chi-kwadrat, test Z, test t-Studenta, test F (ANOVA).
Wybór jednego z nich do potwierdzenia hipotez zależy od tego, na jakiej skali
mieszczą się analizowane dane oraz czy tworzą tzw. rozkład normalny, czy też nie10.
Istnieją cztery rodzaje skal pomiarowych: nominalna, porządkowa, przedziałowa
i ilorazowa (Okulska 2006a: 369). „Skala nominalna dostarcza informacji jakościowych o zmiennych, klasyfikując je pod względem posiadanych (lub nie) cech, a nie
natężenia, w jakich one występują” (Okulska 2006a: 369). Na skali nominalnej mogą
znajdować się dla przykładu takie elementy, jak gatunek tekstu (np. kazanie/artykuł
teologiczny/religijny artykuł publicystyczny) bądź forma językowa (stara/nowa).
Zmienne na skali porządkowej informują o tym, czy dana cecha występuje w mniejszym lub większym stopniu u reprezentantów określonej populacji (Okulska 2006a:
370). Wspomniana zmienna „gatunek tekstu” może znaleźć się na omawianej skali,
gdy celem analizy jest na przykład zaszeregowanie gatunków pod względem stopnia występowania jakiejś cechy, choćby częstości wykorzystania określonych form
językowych. W obrębie skali przedziałowej zmienną gatunkową możemy badać pod
kątem szczegółowych wartości. Porównuje się dwie wartości, a istotna jest różnica
między nimi. Można porównać wystąpienie określonej liczby leksemów lub form
językowych w poszczególnych gatunkach i zaklasyfikować je pod względem stylu. Skala ilorazowa służy do opisywania stosunku natężenia zmiennej w badanych
tekstach. Chodzi o to, „ile razy bardziej lub mniej omawiana cecha uwidacznia się
w elementach analizowanej próby” (Okulska 2006a: 373).
Przy wykonywaniu testów niezależności należy postawić dwie alternatywne
hipotezy — hipotezę zerową, która zakłada, że zmienne są niezależne, i hipotezę
alternatywną, mówiącą o tym, że istnieje zależność między zmiennymi. Test chi-kwadrat służy do badania zmiennych na skali nominalnej. Jako przykład jego
użycia można wskazać obliczenia Pawłowskiego (Pawłowski 1999). Badał on pole
9 Testy
na potwierdzanie hipotez dotyczą sprawdzania przypuszczeń, podczas gdy wspomniane
wcześniej obliczenia odchylenia standardowego, wariancji oraz średniej częstości są zwane estymatorami i stanowią środki służące uogólnianiu wyników próby na całą populację, czyli estymacji.
10 O rozkładzie normalnym mówimy wówczas, gdy „taka sama liczba wariantów obserwacji jest
mniejsza niż średnia i większa od niej” (Lewandowska-Tomaszczyk 2005: 123).
Oblicza Komunikacji 5, 2012
© for this edition by CNS
Oblicza 5.indb 120
2013-07-04 09:54:58
JĘZYKOZNAWSTWO KORPUSOWE I LINGWISTYKA KWANTYTATYWNA W ANALIZIE DYSKURSU
121
leksykalno-semantyczne nazw kolorów w różnych językach na podstawie słowników frekwencyjnych. Zastosował test chi-kwadrat w celu sprawdzenia hipotezy
o statystycznej niezależności rozkładów częstości nazw w poszczególnych językach. Potwierdzenie hipotezy przemawiałoby za uniwersalistyczną strukturą pól
i ich niezależności od językowego obrazu świata. Z drugiej strony, odkrycie znacząco różnych rozkładów częstości w danym polu leksykalnym przemawiałoby za
hipotezą relatywistyczną. Wyniki badania potwierdziły relatywizm. Test Z i test
t-Studenta11 wykonywane są dla zmiennych mieszczących się na skali ilorazowej,
natomiast ANOVA (test F) stosuje się wówczas, gdy jedna lub więcej zmiennych
znajduje się na skali nominalnej, a druga/pozostałe na skali ilorazowej. O sposobach sprawdzania hipotez (czyli o tzw. testowaniu hipotez) pisze Sambor (Sambor
1972: 281–292).
3. Przykłady dotychczasowych badań dyskursologicznych
łączących metody ilościowe i jakościowe
Warto omówić w tym miejscu badania, które podejmowano na gruncie angloi francuskojęzycznym z racji ich długoletniego rozwoju i ugruntowania. Obydwie
tradycje badawcze wypracowały własne definicje i metody analizy dyskursu (por.
Grzmil-Tylutki 2009), co wpływa na wykorzystanie narzędzi korpusowych.
Sposoby aplikacji metod ilościowych w pierwszym z wyróżnionych obszarów
można przedstawić na przykładzie analiz dyskursu akademickiego zebranych w tomie Academic Writing. At the Interface of Corpuse and Discourse (Charles, Pecorari,
Hunston 2009). Obecne tam badania dotyczą strukturalnych aspektów tekstów oraz
analizy zawartości12. Zainteresowanie kieruje się ku gatunkom tekstów naukowych
— regułom ich budowy, strukturze i realizacji leksykalno-gramatycznej oraz stosowanym strategiom. Dużą wagę przykłada się również do metod konstrukcji samego
korpusu specjalistycznego i związanej z tym reprezentatywności.
Na dużą skalę wykorzystywana jest zwłaszcza korpusowa analiza jednostek leksykalnych, traktowanych jako jednostki dyskursu (vocabulary-based discourse units,
VBDUs). Stosuje się ją w celu rekonstrukcji strategii (moves) dyskursywnych. Autorem metody jest Justin Biber. Przedstawia się ona następująco:
11 Istnieją
dwie odmiany testu t, dla prób niezależnych i prób zależnych. Pierwszy rodzaj wykonuje się dla małych obserwacji do 30 prób. Przykładem jego zastosowania może być badanie liczby
typów słów występujących w dziesięciu 200-wyrazowych próbach losowo wybranych z przemówień
papieża i Manifestu Partii Komunistycznej pod względem różnorodności słownictwa (Lewandowska-Tomaszczyk 2005: 124). Test dla prób zależnych stosuje się do dużych prób.
12 Poprzez skupienie się na opisie tych właśnie badań oczywiście nie stwierdzam ani nie sugeruję,
iż analiza dyskursu w kręgu anglojęzycznym przybrała taki właśnie kierunek. Chodzi jedynie o ten wycinek, który wykorzystuje metody korpusowe. Ta sama uwaga dotyczy tego, co dalej napisano o szkole
francuskiej.
Oblicza Komunikacji 5, 2012
© for this edition by CNS
Oblicza 5.indb 121
2013-07-04 09:54:58
122
ALEKSANDRA PAWLIKOWSKA
the VBDUs are identified automatically by comparing 50- word ‘windows’, or segments, of text.
The windows are opened one word at a time and, at each point, the two open windows are compared. This occurs throughout the whole text under examination. VBDU beginning and end points
are identified where windows maximally diverge (Charles, Pecorari, Hunston 2009: 17).
Z badaniami tymi łączy się także poszukiwanie elementów retorycznych w tekstach. W ten sposób analizowano na przykład strukturę i strategie obecne w naukowych wnioskach o grant.
W powiązaniu z powyższą metodą analizuje się również słowa klucze oraz kolokacje w celu ukazania, jak ich pojawianie się skorelowane jest z wykrytymi strategiami. Badacze skupiają się także na analizie wybranego pojęcia lub słowa kluczowego
w kontekście, opierając się na konkordancji. Na tej podstawie orzekają o jego miejscu w strukturze gatunku (por. Schematic structure and the case of research, Charles,
Pecorari, Hunston 2009). Liczy się wówczas frekwencja i funkcja badanej jednostki
w konkretnych partiach tekstów, na przykład nagłówkach, tytułach. Dokonuje się
również analizy słownictwa specjalistycznego.
Analizy określonych grup leksemów i kolokacji służą często do porównawczych badań konkretnych gatunków dyskursu akademickiego bądź jego aspektów
w kontekście różnych dyscyplin naukowych i tradycji. Na podstawie list hasłowych i frekwencyjnych badano na przykład zróżnicowanie czasowników odnoszących się do procesów mentalnych w tekstach reprezentujących nauki ścisłe,
socjologiczne i stosowane. Zaciekawienie badaczy wzbudził też stopień schematyczności konstrukcji językowych w dyskursie akademickim, co, przykładowo,
zaowocowało analizą formuliczności w tekstach z zakresu różnych dyscyplin
w oparciu o kolokacje i clusterowanie.
Oprócz analizy stricte gatunkowej podejmowano również badania w sferze interakcji i za pomocą przedstawionych metod śledzono miejsca ujawniania się nadawcy oraz odbiorcy dyskursu, oceniano poziom podmiotowości i subiektywizacji
tekstów naukowych.
Poza obszarem dyskursu akademickiego metody korpusowe aplikowano także do badań różnych aspektów języka mówionego (spoken discourse). Skupiano
się tu głównie na stylach i rejestrach, a wśród badaczy i prac powstałych na ten
temat można wymienić przykładowo (za: Virtanen 2009): Variation across Speech
and Writing (Biber 1988); Conjunction in Sentence and Discourse: Sentence-Initial
And and Discourse Structure (Dorgeloh 2004); Using a Corpus for Stylistics Research: Speech and Thought Representation (Short, Semino, Culpeper 1996); Text
and Corpus Analysis: Computer-Assisted Studies of Language and Culture (Stubbs
1996).
Przedmiotem zainteresowań były również specjalistyczne dyskursy ideologiczne, głównie odmiany dyskursu politycznego, dyskursu prasowego itp. Przykładowe
prace na ten temat zawarte są w tomie Corpora and Discourse. The Challenges of
Different settings (Adel, Reppen 2008). Badania w dużej mierze oparte są na analizie
słów kluczy, znaczeń wybranych pojęć w kontekście oraz prozodii semantycznej
Oblicza Komunikacji 5, 2012
© for this edition by CNS
Oblicza 5.indb 122
2013-07-04 09:54:59
JĘZYKOZNAWSTWO KORPUSOWE I LINGWISTYKA KWANTYTATYWNA W ANALIZIE DYSKURSU
123
w celu wykrycia elementów ideologizujących w strukturach reprezentacji dyskursu.
Ilościowe metody badań stylistycznych wykorzystał na przykład Fairclough, analizując krytycznie przemówienia Blaire’a (Duszak 2010).
Wiele spośród wymienionych badań, zwłaszcza prowadzonych nad dyskursem
akademickim, wykonywano w celu późniejszego wykorzystania ich w pedagogice,
przede wszystkim w nauczaniu uniwersyteckim oraz nauczaniu języka cudzoziemców dla lepszego opanowania reguł komunikacyjnych panujących w danej społeczności. Badania te miały zatem charakter stosowany. Nieco inaczej rzecz się miała we
francuskiej szkole analizy dyskursu, która powstała w kontekście badań nad ideologią. Jej dorobek omawia Halina Grzmil-Tylutki (Grzmil-Tylutki 2010). Jak twierdzi
autorka, badania ilościowe nad dyskursem narodziły się tam pod wpływem metody
dystrybucyjnej Harrisa w latach 60. XX wieku i były oznaką początków formowania
się nowej szkoły (por. Grzmil-Tylutki 2010). Poza tym stosowano metody, które zostały zaprezentowane podczas omawiania dorobku anglojęzycznego, jednak w nieco
innych celach. Analizowano głównie leksykę. Próbowano wyławiać w odpowiednio
dobranych zbiorach tekstów słowa klucze reprezentatywne dla danej ideologii, leksykę nacechowaną ideologicznie, słownictwo wartościujące. Przodowali tu Jacques Dubois i Jacques Pecheaux. Dubois otworzył „nową erę w badaniach nad słownictwem,
łącząc harrisowski dystrybucjonalizm, pozbawiony podmiotu i znaczenia, z analizą
sensu używanych słów, zerwał z tradycyjną leksykologią na rzecz konstrukcji syntagmatycznych powstających w autentycznych kontekstach politycznych, społecznych,
historycznych” (Grzmil-Tylutki 2010:103). Przedmiotem szczegółowego zainteresowania były jednostki takie, jak: socjalizm, socjalista, komunista, robotnik, klasa społeczna itp. Stworzono także metodę leksykometryczną, bliską omówionej statystyce
leksykalnej. W jej ramach analizowano listy frekwencyjne oraz badano poszczególne
słowa w kontekstach ich występowania, stosując minimalny kontekst jedno- lub kilkuzdaniowy. Miało to na celu wykrycie pewnych regularności w korpusie, odkrycie
sieci relacji, która jest odpowiedzialna za tworzenie ideologicznych sensów. Wszelkie
pozycje badawcze z tego zakresu prezentuje Grzmil-Tylutki.
4. Podsumowanie
Lingwistyka korpusowa posiada ściśle zdefiniowany zestaw metod analizy, natomiast badania dyskursu są mniej sformalizowane i cechują się zmiennością w zależności od podejścia badacza. Stwarza to pozorną opozycję metody ilościowe: metody
jakościowe (podejście „twarde” i „miękkie”). Jak jednak wykazano, są one wobec
siebie komplementarne. Do tej pory w analizie dyskursu wykorzystywano podstawowe narzędzia, jakimi dysponuje inżynieria lingwistyczna, a więc konkordancję,
listy frekwencyjne, listy słów kluczy oraz programy rozpoznające kolokacje. Z perspektywy kwantytatywnej najważniejsze było pojęcie częstości. Zaprezentowane
zbiory metod oferują więcej możliwości i pozwalają na analizę wielu poziomów
Oblicza Komunikacji 5, 2012
© for this edition by CNS
Oblicza 5.indb 123
2013-07-04 09:54:59
124
ALEKSANDRA PAWLIKOWSKA
dyskursu, poczynając od jednostek leksykalnych, poprzez style, aż po wykorzystywane strategie dyskursywne i podobieństwo tekstów. Łączenie metod jakościowych
z ilościowymi może być zatem dla dyskursologii bardzo owocne.
Bibliografia
Adel A., Reppen R. (red.) (2008): Corpora and Discourse. The Challenges of Different Settings, London.
Biber D. (1988): Variation across Speech and Writing, Cambridge.
Buczyński A. (2006): Wybrane zastosowania programu „Kolokacje” do badań lingwistycznych, [w:] Korpusy w angielsko-polskim językoznawstwie kontrastywnym, red. A. Duszak, E. Gajek, U. Okulska,
Kraków, s. 198–210.
Charles M., Pecorari D., Hunston S. (red.) (2009): Academic Writing. At the Interface of Corpuse and
Discourse, London.
Dorgeloh H. (2004): Conjunction in Sentence and Discourse: Sentence-Initial And Discourse Structure,
„Journal of Pragmatics” 36, s. 1761–1779.
Duszak A. (2010): Styl jako kategoria krytycznej analizy dyskursu, [w:] Styl–dyskurs–media, red.
B. Bogołębska, M. Worsowicz, Łódź, s. 33–43.
Fairclough N. (2003): Analysing Discourse. Textual Analysis for Social Research, London.
Grzmil-Tylutki H. (2010): Francuska lingwistyczna teoria dyskursu, Kraków.
Heinemann W. (2009): Lingwistyka tekstu kontra lingwistyka dyskursu?, [w:] Lingwistyka tekstu
w Niemczech. Pojęcia, problemy, perspektywy, red. Z. Bilut-Homplewicz, W. Czachur, M. Smykała,
Wrocław, s. 361–373.
Kamińska-Szmaj I. (1990): Różnice leksykalne między stylami funkcjonalnymi polszczyzny pisanej,
Wrocław.
Krzyżanowski M., Wodak R. (2011): Jakościowa analiza dyskursu w naukach społecznych, Warszawa.
Lewandowska-Tomaszczyk B. (red.) (2005): Podstawy językoznawstwa korpusowego, Łódź.
Okulska U. (2006a): Metody statystyczne w językoznawstwie, [w:] Korpusy w angielsko-polskim
językoznawstwie kontrastywnym, red. A. Duszak, E. Gajek, U. Okulska, Kraków, s. 351–386.
Okulska U. (2006b): Pośredniość i bezpośredniość w dyskursie politycznym na przykładzie polskich
i amerykańskich strategii uzyskiwania informacji w wywiadzie radiowym, [w:] Korpusy w angielsko-polskim językoznawstwie kontrastywnym, red. A. Duszak, E. Gajek, U. Okulska, Kraków, s. 89–102.
Pawłowski A. (1999): Metodologiczne podstawy wykorzystania słowników frekwencyjnych w badaniu językowego obrazu świata, [w:] Przeszłość w językowym obrazie świata, red. A. Pajdzińska,
P. Krzyżanowski, Lublin, s. 81–99.
Pawłowski A. (2003): Lingwistyka korpusowa — perspektywy i zagrożenia, „Polonica” XXII–XXIII,
s. 19–32.
Rachwałowa M. (1984): Słownictwo tekstów naukowych, Wrocław.
Sambor J. (1972): Słowa i liczby, Wrocław.
Short M., Semino E., Culpeper J. (1996), Using a corpus for stylistic research: Speech and thought representation, [w:] J. Thomas, M. Short (red.), Using Corpora for Language Research, Studies of Honour
of Geoffrey Leech, London-New York.
Stubbs M. (1996): Text and Corpus Analysis: Computer Assisted Studies of Language and Culture, Oxford-Cambridge.
Virtanen T. (2009): Corpora and discourse analysis, [w:] Corpus Linguistics, red. A. Luteling, M. Kyto,
t. 2, Berlin, s. 1043–1069.
Witosz B. (2009): Dyskurs i stylistyka, Katowice.
Oblicza Komunikacji 5, 2012
© for this edition by CNS
Oblicza 5.indb 124
2013-07-04 09:54:59
JĘZYKOZNAWSTWO KORPUSOWE I LINGWISTYKA KWANTYTATYWNA W ANALIZIE DYSKURSU
125
Application of the methods of corpus linguistics and
quantitative linguistics in discourse analysis
Summary
The article raises the problem of a possibility of carrying out discourse analysis by means of corpusbased and quantitative methods. Discourse studies use various research methods, which are mostly
qualitative. Corpus-based and statistics-based linguistics, on the other hand, offer many tools that
can be used to study discourse, beginning with electronic concordance and ending with calculations
making it possible to discover similarity in texts and genres, marked lexis, key words, etc. The author
briefly describes these methods in the article. She also provides basic information about the structure
of a specialist corpus and the selection of a representative sample of texts, which constitute a given
discourse.
Keywords: quantitative linguistics, corpus linguistics, discourse analysis, corpus, research
method.
Oblicza Komunikacji 5, 2012
© for this edition by CNS
Oblicza 5.indb 125
2013-07-04 09:54:59