pobierz

Transkrypt

pobierz
Sylwia TWARDO
Szkoła Języków Obcych, Uniwersytet Warszawski, Warszawa
KORPUSY TEKSTOWE A TWORZENIE MATERIAŁÓW
NA ZAJĘCIA Z JĘZYKÓW OBCYCH
Streszczenie. Korpusy tekstowe to zbiory tekstów zapisane w postaci cyfrowej. Przykładem
korpusu języka angielskiego, dostępnego w Internecie jest BNC (British National Corpus). Jest on
uŜywany do tworzenia materiałów do nauczania gramatyki i słownictwa (kolokacje). Techniki
korpusowe moŜna wykorzystywać równieŜ przy uŜyciu programów do analizy korpusów
tekstowych. Jednym z nich jest program AntConc. Przy jego uŜyciu moŜna tworzyć materiały
dydaktyczne do nauczania słownictwa (zwłaszcza specjalistycznego) z wykorzystaniem wybranych
przez siebie tekstów lub teŜ tworzyć ćwiczenia do umieszczenia na platformie internetowej.
Ponadto w pracy z tekstem przydatne są programy oznaczające części mowy. Jednym z nich jest
dostępny on-line program Tree Tagger.
1. WSTĘP
Korpusy tekstowe to zbiory tekstów zapisanych w postaci cyfrowej. W nauczaniu języków
obcych wykorzystywane są ich dwa rodzaje: korpusy tekstów tworzonych przez rodzimych
uŜytkowników języka oraz korpusy tekstów tworzonych przez osoby uczące się języka.
Przykładem dostępnego w Internecie korpusu pierwszego typu dla języka angielskiego jest
British National Corpus (BNC). Korpus ten składa się z tekstów róŜnych rodzajów (np.
reprezentujących język literacki lub naukowy, a takŜe transkrypcji nagrań tekstów
mówionych). Drugi rodzaj, to korpusy uczniowskie, tzn. zbiory tekstów pisanych przez
studentów. Dla języka angielskiego przykładem moŜe być International Corpus of Learner
English ( ICLE), tworzony przez Centrum Studiów nad Językiem Angielskim Katolickiego
Uniwersytetu Louvain w Belgii, we współpracy z jednostkami róŜnych krajów (w tym
Instytutem Filologii Angielskiej w Poznaniu - PICLE). Korpus ten składa się z tekstów
pisanych. Ponadto tworzone są korpusy języka mówionego (uczniowski - nagrania audio LINDSEI - Louvain) oraz korpusy multimodalne (nagrania wideo).
W nauczaniu języków obcych korpusy tworzone przez rodzimych uŜytkowników języka
wykorzystywane są na dwa sposoby: do przygotowywania materiałów dydaktycznych
(podręczników) oraz do samodzielnej analizy materiałów zawartych w korpusie przez
uczniów. Przykładem pierwszego zastosowania są np. ćwiczenia na kolokacje, zawarte
w podręczniku języka angielskiego Landmark Advanced. TakŜe nauczyciele mogą korzystać
z korpusu do przygotowywania własnych materiałów na zajęcia. Drugi sposób uŜywania
korpusów w nauczaniu zwany jest Data Driven Learning (DDL). Polega on na tym, Ŝe
uczniowie otrzymują od nauczyciela zadanie, polegające na analizie wyników zapytania
korpusu, dotyczących jakiegoś wyrazu lub struktury gramatycznej (w wersji cyfrowej lub na
wydruku przygotowanym przez nauczyciela). Pionierem tej metody jest Tim Jones.
Niniejszy artykuł przedstawia propozycje wykorzystania darmowych narzędzi do analizy
korpusów do tworzenia materiałów do nauczania języków obcych do wykorzystania na
zajęciach w sali lub do umieszczania na platformie internetowej. Analizowanym 'korpusem' są
pojedyncze teksty (lub zestawy kilku tekstów z tej samej dziedziny), a rezultatem pracy są
ćwiczenia leksykalne lub gramatyczne, dotyczące tych tekstów (lub ich fragmentów). Metoda
ta wydaje się szczególnie interesująca dla lektorów, którzy prowadzą kursy języka
„Języki obce w kontekście współczesnych wyzwań i perspektyw”
technicznego lub specjalistycznego i waŜne jest dla nich tworzenie zadań dotyczących
terminologii z dziedzin, dla których nie istnieją odpowiednie podręczniki. Drugą grupą osób,
mogących korzystać z omawianej metody, są nauczyciele tworzący kursy internetowe lub
komplementarne, na które naleŜy przygotować własne materiały dydaktyczne.
2. NARZĘDZIA DO ANALIZY KORPUSU
Istnieje kilka programów, które moŜna wykorzystać do analizy tekstu. Bardziej znane to
WordSmith Tools (do nabycia) oraz AntConc (darmowy). Pozwalają one oglądać tzw.
konkordancje, wybranego słowa, czyli konteksty, w jakim występuje. Ponadto moŜna dzięki
nim uzyskiwać listy wszystkich typów słów w analizowanym korpusie, listy słów
pomniejszone o tzw. stoplisty, listy słów kluczowych, wyrazy, które występują obok
interesującego nas słowa, oraz listy tzw. n-gramów, tj. par, trójek, itd., słów analizowanego
korpusu. Po oznaczeniu wyrazów korpusu ze względu na to, jakie części mowy reprezentują
(krótkie teksty moŜna oznaczać przy pomocy programu dostępnego on-line, a następnie
zapisywać na własnym komputerze), moŜna równieŜ uzyskać listę interesujących nas par
części mowy (np. wszystkie pary przymiotnik + rzeczownik). W niniejszym artykule
szczegółowo zaprezentowany zostanie program AntConc, którego zaletą jest intuicyjna
obsługa oraz fakt, Ŝe moŜna go za darmo ściągnąć z Interenetu. Jako narzędzie do oznaczania
części mowy (POS-tagging) zaproponowany jest program Tree Tagger udostępniony
w Internecie przez Learning Team Uniwersytetu w Nottingham.
2.1. AntConc
Jest to program autorstwa Laurence Anthony’ego z Uniwersytetu Washeda w Japonii.
PoniŜsze zrzuty ekranu przedstawiają poszczególne opcje tego programu (wersja 3.2.2w),
przydatne do tworzenia materiałów dydaktycznych. W celu wykorzystania programu naleŜy
zapisać interesujący nas dokument jako plik tekstowy (txt).
Rys. 1. Otwieranie pliku
245
V Międzynarodowa Konferencja Edukacyjna
Rys. 2. Konkordancje słowa ‘art’
Rys. 3. Konkordancje słowa ‘art’ posortowane według pierwszego słowa po lewej stronie
246
„Języki obce w kontekście współczesnych wyzwań i perspektyw”
Rys. 3. Lista słów
Rys. 4. Lista par słów
247
V Międzynarodowa Konferencja Edukacyjna
2.2. Tree Tagger
Programu tego uŜywa się on-line. MoŜna go wykorzystywać do oznaczania części mowy
w językach: angielskim, francuskim, hiszpańskim, niemieckim, portugalskim, rosyjskim
i włoskim (autorka artykułu uŜywała go tylko do języka angielskiego). Program został
stworzony przez Institut für Maschinelle Sprachverarbeitung z Uniwersytetu w Stuttgarcie,
zaś interfejs internetowy udostępnił wyŜej wspomniany Learning Team Uniwersytetu
w Nottingham.
Aby oznaczyć części mowy w wybranym tekście, naleŜy ustawić język, wkleić tekst do
okna na górze strony (kasując istniejący tekst i pamiętając, Ŝe wybrany przez nas tekst nie
moŜe mieć więcej niŜ tysiąc słów), a następnie wybrać przycisk ‘submit’. Po krótkim czasie
program umieści oznaczony tekst w okienku w dolnym lewym rogu, który moŜemy
skopiować do pliku tekstowego, a następnie otworzyć w programie AntConc.
Rys. 5. Interfejs programu Tree Tagger
248
„Języki obce w kontekście współczesnych wyzwań i perspektyw”
Rys. 6. Tree Tagger. Wstawiony (górne okienko po lewej stronie) i oznaczony tekst (dolne
okienka)
Oznaczony tekst wstawiamy do programu AntConc i oglądamy konkordancje wybranego
słowa. Dzięki oznaczeniu moŜemy sortować konkordancje ze względu na części mowy.
Rys. 7. Konkordancje słowa ‘works’ uporządkowane ze względu na części mowy po lewej
stronie
249
V Międzynarodowa Konferencja Edukacyjna
2.1. PRZYKŁADOWE ĆWICZENIE
Jako przykład zastosowania metod analizy korpusowej do tworzenia materiałów
dydaktycznych moŜna zaprezentować ćwiczenie do dwóch stron z portalu Europass
(europejski portal pomagający tworzyć niezbędne do znalezienia pracy, np. CV). Przedstawia
ono listę grup rzeczowników (z dwóch tekstów: Europas CV i Europass Language Passport),
a zadaniem studenta jest wybór przymiotników z zamieszczonej powyŜej listy, które w tekście
występują z określonymi rzeczownikami. Zadanie to jednym z trzech ćwiczeń na słownictwo.
Rys. 8. Ćwiczenie na kolokacje
3. PODSUMOWANIE
Narzędzia do analizy korpusów mogą być wykorzystywane do pracy z pojedynczymi
tekstami i tworzenia materiałów dydaktycznych. UŜycie róŜnych opcji programu AntConc
pozwala na dokładniejszą analizę zawartego w analizowanym tekście słownictwa oraz
wydobycie jego specyfiki (np. powtarzających się par przymiotników i rzeczowników). Daje
moŜliwość szybszego stworzenia rozbudowanych ćwiczeń, które moŜna wykorzystać w pracy
w sali oraz na platformie internetowej.
250
„Języki obce w kontekście współczesnych wyzwań i perspektyw”
STRONY INTERNETOWE
AntConc (strona Lawrence Anthony): http://www.antlab.sci.waseda.ac.jp/software.html
BNC (Konsorcjum BNC): http://www.natcorp.ox.ac.uk/
BNC (strona Marka Daviesa, Uniwersytet Brigham Young) http://corpus.byu.edu/bnc/
LINDSEI (Universytet w Louvain): http://cecl.fltr.ucl.ac.be/Cecl-Projects/Lindsei/lindsei.htm
PICLE (Uniwersytet w Louvain): http://ifa.amu.edu.pl/~ifaconc/main.php
Tim Jones (Uniwersytet w Birmingham): http://www.eisu2.bham.ac.uk/johnstf/timconc.htm
Tree Tagger (strona uniwersytetu w Stuttgarcie):
http://www.cele.nottingham.ac.uk/~ccztk/treetagger.php
WordSmith Tools (strona Mike Scotta): http://www.lexically.net/wordsmith/
TEXT CORPORA FOR MAKING TEACHING MATERIALS
FOR LANGUAGE COURSES
Summary. Text corpora are sets of texts saved in digital form. An example of a
corpus of the English language is the British National Corpus. It can be used for
making exercises for teaching grammar and vocabulary (collocations).
Programmes for analysing text corpora may be also used. One of them is
AntConc. It can be used to create teaching materials from chosen texts. This is
especially useful if specialist terminology is to be taught or tasks for an e-learning
platform are to be made. The work is made more efficient is the text is POS
tagged. This can be done on-line with the use of the programme Tree Tagger.
251

Podobne dokumenty