pobierz
Transkrypt
pobierz
Sylwia TWARDO Szkoła Języków Obcych, Uniwersytet Warszawski, Warszawa KORPUSY TEKSTOWE A TWORZENIE MATERIAŁÓW NA ZAJĘCIA Z JĘZYKÓW OBCYCH Streszczenie. Korpusy tekstowe to zbiory tekstów zapisane w postaci cyfrowej. Przykładem korpusu języka angielskiego, dostępnego w Internecie jest BNC (British National Corpus). Jest on uŜywany do tworzenia materiałów do nauczania gramatyki i słownictwa (kolokacje). Techniki korpusowe moŜna wykorzystywać równieŜ przy uŜyciu programów do analizy korpusów tekstowych. Jednym z nich jest program AntConc. Przy jego uŜyciu moŜna tworzyć materiały dydaktyczne do nauczania słownictwa (zwłaszcza specjalistycznego) z wykorzystaniem wybranych przez siebie tekstów lub teŜ tworzyć ćwiczenia do umieszczenia na platformie internetowej. Ponadto w pracy z tekstem przydatne są programy oznaczające części mowy. Jednym z nich jest dostępny on-line program Tree Tagger. 1. WSTĘP Korpusy tekstowe to zbiory tekstów zapisanych w postaci cyfrowej. W nauczaniu języków obcych wykorzystywane są ich dwa rodzaje: korpusy tekstów tworzonych przez rodzimych uŜytkowników języka oraz korpusy tekstów tworzonych przez osoby uczące się języka. Przykładem dostępnego w Internecie korpusu pierwszego typu dla języka angielskiego jest British National Corpus (BNC). Korpus ten składa się z tekstów róŜnych rodzajów (np. reprezentujących język literacki lub naukowy, a takŜe transkrypcji nagrań tekstów mówionych). Drugi rodzaj, to korpusy uczniowskie, tzn. zbiory tekstów pisanych przez studentów. Dla języka angielskiego przykładem moŜe być International Corpus of Learner English ( ICLE), tworzony przez Centrum Studiów nad Językiem Angielskim Katolickiego Uniwersytetu Louvain w Belgii, we współpracy z jednostkami róŜnych krajów (w tym Instytutem Filologii Angielskiej w Poznaniu - PICLE). Korpus ten składa się z tekstów pisanych. Ponadto tworzone są korpusy języka mówionego (uczniowski - nagrania audio LINDSEI - Louvain) oraz korpusy multimodalne (nagrania wideo). W nauczaniu języków obcych korpusy tworzone przez rodzimych uŜytkowników języka wykorzystywane są na dwa sposoby: do przygotowywania materiałów dydaktycznych (podręczników) oraz do samodzielnej analizy materiałów zawartych w korpusie przez uczniów. Przykładem pierwszego zastosowania są np. ćwiczenia na kolokacje, zawarte w podręczniku języka angielskiego Landmark Advanced. TakŜe nauczyciele mogą korzystać z korpusu do przygotowywania własnych materiałów na zajęcia. Drugi sposób uŜywania korpusów w nauczaniu zwany jest Data Driven Learning (DDL). Polega on na tym, Ŝe uczniowie otrzymują od nauczyciela zadanie, polegające na analizie wyników zapytania korpusu, dotyczących jakiegoś wyrazu lub struktury gramatycznej (w wersji cyfrowej lub na wydruku przygotowanym przez nauczyciela). Pionierem tej metody jest Tim Jones. Niniejszy artykuł przedstawia propozycje wykorzystania darmowych narzędzi do analizy korpusów do tworzenia materiałów do nauczania języków obcych do wykorzystania na zajęciach w sali lub do umieszczania na platformie internetowej. Analizowanym 'korpusem' są pojedyncze teksty (lub zestawy kilku tekstów z tej samej dziedziny), a rezultatem pracy są ćwiczenia leksykalne lub gramatyczne, dotyczące tych tekstów (lub ich fragmentów). Metoda ta wydaje się szczególnie interesująca dla lektorów, którzy prowadzą kursy języka „Języki obce w kontekście współczesnych wyzwań i perspektyw” technicznego lub specjalistycznego i waŜne jest dla nich tworzenie zadań dotyczących terminologii z dziedzin, dla których nie istnieją odpowiednie podręczniki. Drugą grupą osób, mogących korzystać z omawianej metody, są nauczyciele tworzący kursy internetowe lub komplementarne, na które naleŜy przygotować własne materiały dydaktyczne. 2. NARZĘDZIA DO ANALIZY KORPUSU Istnieje kilka programów, które moŜna wykorzystać do analizy tekstu. Bardziej znane to WordSmith Tools (do nabycia) oraz AntConc (darmowy). Pozwalają one oglądać tzw. konkordancje, wybranego słowa, czyli konteksty, w jakim występuje. Ponadto moŜna dzięki nim uzyskiwać listy wszystkich typów słów w analizowanym korpusie, listy słów pomniejszone o tzw. stoplisty, listy słów kluczowych, wyrazy, które występują obok interesującego nas słowa, oraz listy tzw. n-gramów, tj. par, trójek, itd., słów analizowanego korpusu. Po oznaczeniu wyrazów korpusu ze względu na to, jakie części mowy reprezentują (krótkie teksty moŜna oznaczać przy pomocy programu dostępnego on-line, a następnie zapisywać na własnym komputerze), moŜna równieŜ uzyskać listę interesujących nas par części mowy (np. wszystkie pary przymiotnik + rzeczownik). W niniejszym artykule szczegółowo zaprezentowany zostanie program AntConc, którego zaletą jest intuicyjna obsługa oraz fakt, Ŝe moŜna go za darmo ściągnąć z Interenetu. Jako narzędzie do oznaczania części mowy (POS-tagging) zaproponowany jest program Tree Tagger udostępniony w Internecie przez Learning Team Uniwersytetu w Nottingham. 2.1. AntConc Jest to program autorstwa Laurence Anthony’ego z Uniwersytetu Washeda w Japonii. PoniŜsze zrzuty ekranu przedstawiają poszczególne opcje tego programu (wersja 3.2.2w), przydatne do tworzenia materiałów dydaktycznych. W celu wykorzystania programu naleŜy zapisać interesujący nas dokument jako plik tekstowy (txt). Rys. 1. Otwieranie pliku 245 V Międzynarodowa Konferencja Edukacyjna Rys. 2. Konkordancje słowa ‘art’ Rys. 3. Konkordancje słowa ‘art’ posortowane według pierwszego słowa po lewej stronie 246 „Języki obce w kontekście współczesnych wyzwań i perspektyw” Rys. 3. Lista słów Rys. 4. Lista par słów 247 V Międzynarodowa Konferencja Edukacyjna 2.2. Tree Tagger Programu tego uŜywa się on-line. MoŜna go wykorzystywać do oznaczania części mowy w językach: angielskim, francuskim, hiszpańskim, niemieckim, portugalskim, rosyjskim i włoskim (autorka artykułu uŜywała go tylko do języka angielskiego). Program został stworzony przez Institut für Maschinelle Sprachverarbeitung z Uniwersytetu w Stuttgarcie, zaś interfejs internetowy udostępnił wyŜej wspomniany Learning Team Uniwersytetu w Nottingham. Aby oznaczyć części mowy w wybranym tekście, naleŜy ustawić język, wkleić tekst do okna na górze strony (kasując istniejący tekst i pamiętając, Ŝe wybrany przez nas tekst nie moŜe mieć więcej niŜ tysiąc słów), a następnie wybrać przycisk ‘submit’. Po krótkim czasie program umieści oznaczony tekst w okienku w dolnym lewym rogu, który moŜemy skopiować do pliku tekstowego, a następnie otworzyć w programie AntConc. Rys. 5. Interfejs programu Tree Tagger 248 „Języki obce w kontekście współczesnych wyzwań i perspektyw” Rys. 6. Tree Tagger. Wstawiony (górne okienko po lewej stronie) i oznaczony tekst (dolne okienka) Oznaczony tekst wstawiamy do programu AntConc i oglądamy konkordancje wybranego słowa. Dzięki oznaczeniu moŜemy sortować konkordancje ze względu na części mowy. Rys. 7. Konkordancje słowa ‘works’ uporządkowane ze względu na części mowy po lewej stronie 249 V Międzynarodowa Konferencja Edukacyjna 2.1. PRZYKŁADOWE ĆWICZENIE Jako przykład zastosowania metod analizy korpusowej do tworzenia materiałów dydaktycznych moŜna zaprezentować ćwiczenie do dwóch stron z portalu Europass (europejski portal pomagający tworzyć niezbędne do znalezienia pracy, np. CV). Przedstawia ono listę grup rzeczowników (z dwóch tekstów: Europas CV i Europass Language Passport), a zadaniem studenta jest wybór przymiotników z zamieszczonej powyŜej listy, które w tekście występują z określonymi rzeczownikami. Zadanie to jednym z trzech ćwiczeń na słownictwo. Rys. 8. Ćwiczenie na kolokacje 3. PODSUMOWANIE Narzędzia do analizy korpusów mogą być wykorzystywane do pracy z pojedynczymi tekstami i tworzenia materiałów dydaktycznych. UŜycie róŜnych opcji programu AntConc pozwala na dokładniejszą analizę zawartego w analizowanym tekście słownictwa oraz wydobycie jego specyfiki (np. powtarzających się par przymiotników i rzeczowników). Daje moŜliwość szybszego stworzenia rozbudowanych ćwiczeń, które moŜna wykorzystać w pracy w sali oraz na platformie internetowej. 250 „Języki obce w kontekście współczesnych wyzwań i perspektyw” STRONY INTERNETOWE AntConc (strona Lawrence Anthony): http://www.antlab.sci.waseda.ac.jp/software.html BNC (Konsorcjum BNC): http://www.natcorp.ox.ac.uk/ BNC (strona Marka Daviesa, Uniwersytet Brigham Young) http://corpus.byu.edu/bnc/ LINDSEI (Universytet w Louvain): http://cecl.fltr.ucl.ac.be/Cecl-Projects/Lindsei/lindsei.htm PICLE (Uniwersytet w Louvain): http://ifa.amu.edu.pl/~ifaconc/main.php Tim Jones (Uniwersytet w Birmingham): http://www.eisu2.bham.ac.uk/johnstf/timconc.htm Tree Tagger (strona uniwersytetu w Stuttgarcie): http://www.cele.nottingham.ac.uk/~ccztk/treetagger.php WordSmith Tools (strona Mike Scotta): http://www.lexically.net/wordsmith/ TEXT CORPORA FOR MAKING TEACHING MATERIALS FOR LANGUAGE COURSES Summary. Text corpora are sets of texts saved in digital form. An example of a corpus of the English language is the British National Corpus. It can be used for making exercises for teaching grammar and vocabulary (collocations). Programmes for analysing text corpora may be also used. One of them is AntConc. It can be used to create teaching materials from chosen texts. This is especially useful if specialist terminology is to be taught or tasks for an e-learning platform are to be made. The work is made more efficient is the text is POS tagged. This can be done on-line with the use of the programme Tree Tagger. 251