Český národní korpus
Transkrypt
Český národní korpus
„Bohemistyka” 2008, nr 1–4, ISSN 1642–9893 ternetu dzia³a obecnie ponad 30 korpusów , z tego a¿ 15 korpusów jêzyków s³owiañskich! – w tej liczbie dwa polskie (IPI PAN", Korpusu Dariusz TKACZEWSKI Katowice – Ostrawa Èeský národní korpus – internetowe Ÿród³o standaryzacji i weryfikacji jêzyka czeskiego oraz nowoczesne narzêdzie dydaktyczne Czy tego chcemy, czy nie, stajemy siê spo³eczeñstwem informatycznym w coraz wiêkszym zakresie. Licz¹ca sobie prawie 30 lat globalna sieæ Internetu to nie tylko nieprzebrany informator – (strony www, Ÿród³o wiedzy o œwiecie i ludziach w prawie wszystkich jêzykach), natychmiastowy komunikator (korespondencja za poœrednictwem ³¹cznoœci mailowej i programów typu Gadu-Gadu), to jakby wszechobecny makler, urzêdnik bankowy czy sprzedawca sklepowy. Internet powoli staje siê tez skutecznym i zawsze podrêcznym nauczycielem, konsultantem oraz „stra¿nikiem” standardu i poprawnoœci jêzykowej wielu jêzyków nowo¿ytnych, w tym wspó³czesnej czeszczyzny. Z biegiem czasu coraz wiêksz¹ popularnoœci¹ wœród u¿ytkowników jêzyków narodowych dbaj¹cych o ich poprawnoœæ staj¹ siê s³owniki internetowe, czyli odpowiednie witryny/strony www. przejmuj¹ rolê purystycznych s³owników jêzyka wspó³czesnego (poprawnego jêzyka, ortograficznego, frekwencyjnego, a tergo itp.). Takie leksykony wirtualne uzupe³niaj¹ te klasyczne s³owniki w formie ksi¹¿ki i multimedialnej p³yty CD, unowoczeœniaj¹ metody konsultacji jêzykowej oraz dostêpu do standardu jêzykowego, poprzez mo¿liwoœæ weryfikacji danej jednostki jêzykowej natychmiast, w czasie rzeczywistym, on line. W odniesieniu do jêzyka wspó³czesnego – zw³aszcza potocznego i mówionego – rolê tak¹ w coraz wiêkszej mierze pe³ni¹ równie¿ tzw. narodowe korpusy jêzykowe, doskonale dokumentuj¹ce te¿ p³aszczyzny stylistyczne jêzyków ogólnonarodowych. W cyberprzestrzeni In363 !"#$ %&"'()#* +,-.%#* /01)2&*034)%056 7&8/3 *.701/09: ;"0<0)6 =3<0&/3> ?&"'() @/3+)<3")-.AB ?&>>0/) ?&C(0>$ D E61 ;3/% &F G/H>0)6B I01<(J0K %3>C&) <1%)<./3)B L3H.3" =17-1<0 M-NJ1H<O"B P?QR? S&"<(H(1)1 5&"'&"3B P71"053/ =3<0&/3> ?&"'()B &"$=1<TB MUMP==G ?&"'()B E61 S1// E"11C3/% S"&+15<B VRM D W&"'&"3 $1" H1)56"01C1/1/ M'"3561B E61)3("() V/$&H1"73/0)561" E1X<D (/$ M'"3D 5673<1"03>01/ EVEUMB GGMEV YVZUMPWEVR @W&"'() 1)<&4)%056 <1%)<#* '"3*/0D 5-.56AB E61 ?&"'() &F M'&%1/ V)"31>0 [1C"1*B =1H"\ 5&"'() @M./<35<053>>. P//&<3<1$ ?&"'() &F Z1"73/ =1*)'3'1" E1X<)AB MS]^W;P=WG= @G/ )'"_%>0H "1F1"1/)$3<3C3) J0$ ZN<1C&"H) (/0J1")0<1<A` W&"'(). /3"&$&*1 +,-.%#* )2&*034)%056: M>&J1/)%a /O"&$/a %&"'()B W&"'() RVPIbZ c`d efg Ph g]B W&"'() VSV SP=B W&"'() f,-.%3 S&>)%01H& .$3*/05D <*3 =3(%&*1H& S =B W&"'() )>&J1/)%1H3 +1-0%3 iVRPB C1)1$3 j ;1)1$0>/0 %&"'() /3 V/k<0<(<( -3 )>&J1/)%0 +1-0% i"3/3 ]37&Jk3 l]? MPlUB /&J3 C1)1$3B W&"'() C&)3/)%06 <1%)<&J3 /3 U/0J1"-0<1<( ( b)>(B ?&"'() &F M1"C03/ I3/H(3H1B ;(>H3"03/ E"11C3/%B ?&"'() ?."0>>&DL1<6&$03/(7 [1>)0/H01/)1 P/ G>15<"&/05 ?&"'() &F b>$ ?6("56 M>3J&/05 E1X<)B ]())03/ ?&"'&"3 0/ EmC0/H1/B Íàöèîíàëüíûé êîðïóñ ðóññêîãî ÿçûêà, Êîìïüþòåðíûé êîðïóñ òåêñòîâ ðóññêèõ ãàçåò êîíöà ÕÕ-îãî âåêà, U''1" M&"C03/ E1X< ?&"'() j [&"/+&)1"C)%0 <1%)<&*. %&"'()` W & " ' ( ) V S V S P = +1)< $(8.7 @&C15/01 '&/3$ noc ccc ccc )1H71/<#*AB 3/&<&*3/.7 7&"F&)./<3%<.5-/01B '(C>05-/01 $&)<,'/.7 %&"'()17 +,-.%3 '&>)%01D H&B )<*&"-&/.7 '"-1- l1)'#2 V/8./01"00 I0/H*0)<.5-/1+ * V/)<.<(501 S&$)<3* V/D F&"73<.%0 SP= @VSV SP=AB * "37356 '"&+1%<#* W&70<1<( ;3$34 =3(%&*.56 &"3* "37356 C3$34 )<3<(<&*.56 VSV SP=` E1%)<. *56&$-p51 * )%23$ W&"'()( VSV SP= )p $&)<,'/1 * '&)<350 C0/3"/1+B (7&8>0*03+p51+ 23<*1 0 1F1%<.*/1 '"-1)-(%0D *3/01 -3 '&7&5p $1$.%&*3/1H& &'"&H"37&*3/03 & /3-*01 S&>0q3"'` r```s )-.)<D %01 -3)&C. *.701/0&/1 '&/081+B - *.+p<%017 W&"'()( !"#$%&' ()*&#*$+,-$*."```B $&)<,'/1 )p &C15/01 /3 -3)3$356 &'0)3/.56 * /0/01+)-1+ (7&*01 >051/5.+/1+B C1-'23</01` r```s n ` * . $ 3 / 0 1 W & " ' ( ) ( V S V S P = @73"-15 ncctA: '"#C%3 W&"'()( VSV SP= $&)<,'/3 /3 )<"&/01 6<<':QQ%&"'()`'>Qu '&/3$ vc 7>/` )1H71/<#*` S&$&C/01 +3% <& 7032& 701+)51 * *.'3$%( *.$3/03 d`B /0/01+)-3 *1")+3 )37'>1 +1)< %&"'()17 "#8/&"&$/.7 & /3)<,'(+p5.7 )%23$-01: '"&-3 *)'#25-1)/3: '&/3$ dcwB '"&-3 $3*/3: '"3*01 dcwB <1%)<. %)0p8%&*1 /01C1>1<".)<.5-/1 @H2#*/01 /3(%&*1A: dcwB '"3)3: ocwB )<1/&H"37. )1+7&*1 0 )1/35%01 @* <.7 - %&70)+0 !>1$5-1+A: dowB ()<3*.: ow` W & " ' ( ) ) 3 7 ' > 1 +1)< %&"'()17 "#8/&"&$/.7B 56&9 C.9 7&81 /01 -3)2(H(+p5.7 /3 703/& "1'"1-1/<3<.*/1H&B -3*01"3+p5.7 /3)<,'(+p51 "&$-3+1 <1%)<#*: '"&-3 *)'#25-1)/3: dcwB '"&-3 $3*/3: dcwB /3(%3: dcwB '"3)3: ocwB ! " 364 Jêzyka Polskiego PWN ) i dwa korpusy czeskie (ÈNK, Korpus DIALOG 0.1!). !"#$%&'() "*($+" , "#'-.," /+ !)( 0 .$(, *, 12"3-0"*45 6789 : !'+)5 78; < 0) !.," !". !)9 0 +)*=!.,"( >&$0) 3'+#"* , #,"2,-0#)-? @&'%("#!A+ >&$0) + >AB-0" #"*9 >$-?$30= 0 $ !'!#,-? 67 2'!; C&$0' 3'+#' !$ >&0"3" + 0) !.,( Dla pe³noœci obrazu w³aœciwym wydaje siê wyjaœnienie terminu k o r p u s". Dopiero 9 znaczenie tego wyrazu wg SJP PWN# spe³nia nasze wymogi: „teksty, dane itp. zgromadzone ze wzglêdu na sw¹ reprezentatywnoœæ, stanowi¹ce podstawê do analizy naukowej”. Mo¿na doprecyzowaæ to znaczenie w interesuj¹cym nas sensie lingwistycznym – jest to zespó³ udokumentowanych dowodów autentycznego 30,"B' 0 .$D-' EFE +; , >$-0=!.: EE +; G"* $H"-#$1I + .$&>: ," :0' '3#,$#' *" ! $H"-#$1-,= !'.,"* >&$0) + 1+,'3$($1-, 0H,$&$+"* C$2'.A+ 0' >$1&"3#,-!+"( 2".!:& 0.$2#)-? , ".&'#,0'-*,; @ & " . ; H , # ; ! ' & ; H 0 J K .$2"*#' +"& *' .$&>: : S³ownika frekwencyjnego polszczyzny wspó³czesnej /L:&-09 M"+,-.,9 N'(H$&9 N0'@&'#9 <$&$#-0'. 6OOP9 F# !)!:! GQ0).' C$2 .,"%$ CRS9 L&'.A+4; L$&>: !"# 0$ !'B !+$&0$#) + 2'!'-? TP; :H,"%B"%$ !:2"-,' , 0'+,"&' >AB (,2,$#' BA+ K >$ 6PP !) ; BA+ 05 !". !A+ >$>:2'&#$#':.$+)-?9 3&$H#)-? +,'3$($1-, >&' $+)-?9 !". !A+ >:H2,-) !)-0#)-?9 >&$0) '&!) !)-0#"* $&'0 3&'('!: '&!) !)-0#"%$; <0H$%'U -$#' >$ !'I !"%$ .$&>: :9 0+'#' !"#$%&#'() *#+,-./) 01#2'34% 5+/42/'&(67 '/$#9 3$ !Q>#' *" ! #' >&'+'-? C$+ 0"-?#"* M,-"#-*, C:H2,-0#"* VSW #' !&$#," ?!!>5XX+++;(,(:+;"3:;>2X>$2 0-0)0#'X; <,Q-"* ,#@$&('-*, $ .$2"*#)-? +"& *'-? .$&>: : ($Y#' 0#'2"ZI + '&!).:2" 3$ !Q>#)( 0" !&$#) ?!!>5XX+++;(,(:+; "3:;>2X[* H,"#X\]XG+CP^X_ /+++;.$&>: ;>24; `<)3'+#,-!+$ S':.$+" C<S >&0)%$!$+'B$ , :3$ !Q>#,B$ L$&>: .B'3' : GQ0).' C$2 ,"-,$+= +"& *Q . , " % $ C < S +,"2.$1-, aP PPP PPP BA+; L$&>: ,Q 0 @&'%("#!A+ ^bT &AY#)-? . ,=Y".9 Occ #:("&A+ 6b7 &AY#)-? %'0"! , -0' $>, (9 ba #'%&'#)-? &$0(A+9 JPc !&$# ,#!"&#"!$+)-? $&'0 .,2.: "! :2$!". &".2'($+)-?; C"B#' +"& *' ,"-,$+' .$&>: : *" ! 3$ !Q>#' $3>B'!#,"9 ' H"0>B'!#," +"& *' 3"($# !&'-)*#' +,"2.$1-, >$#'3 c97 (,2,$#' BA+; d;;;e L$&>: !$ 3$+$2#) 0H,A& !". !A+9 + .!A&)( -0"%$1 0:.'(); ] .$&>: '-? + !)( 0#'-0"#,: (A+,= #'*-0Q1-,"* *Q0).$0#'+-)9 '2" !'.Y" '&-?,+,1-,9 ?, !$&)-) , ,#@$&('!)-); L$&>: !". !A+ >$2 .,-? !$ @&'%("#! B$+#,.$+"* .:-?#,9 -0)2, ':!"#!)-0#) ('!"&,'B *Q0).$+)9 #' .!A&"%$ >$3 !'+," $>, :*"() 0#'-0"#,' BA+ , .$# !&:.-*,; f&A+#$U +'Y"#," .$&>: : *" ! &A+#," +'Y#" *'. *"%$ +,"2.$1I; g&$H#" @&'%("#!) !". !A+ .$&>: : = 0'(," 0-0'#" + >$ !'-, >$*"3)#-0)-? 03'D + >&0).B'3) ,2: !&:*=-" 0#'-0"#,'; d;;;e S' 0 .$&>: .B'3' B$+#,.'-? *'.$ ,Q 0 !". !A+ . ,=Y".9 -0' $>, (9 3&:.A+ :2$!#)-? , '.-)3"# $+)-? /#>; &".2'(9 ,# !&:.-*, $H B:%,9 &"%:U 2'(,#A+9 :2$!". +)H$&-0)-?49 h". !) . ,=Y". !'&'() !&$# ,#!"&#"!$+)-? $&'0 !". !A+ (A+,$#)-?; ,Q >$0) .,+'I $3 +)3'+-A+ + +"& *, "2".!&$#,-0#"*9 >)!'*=- >&0) !)( $ 0%$3Q ':!$&A+; < >AB-0" #" !". !) >&' $+" >&0"%&)+'() 0 +)3'D ,#!"&#"!$+)-? 2:H $!&0)(:*"() $3 &"3'.-*,; N!'& 0" !". !) >&' $+"9 &0'3.$ +0#'+,'#" . ,=Y., $&'0 3&:., :2$!#" .'#:*"(); h". !) (A+,$#" #'%&)+'U () H"0>$1&"3#,$ /0' 0%$3= (A+,=-)-?4 2:H 0 &'3,' , !"2"+,0*,9 >$ -0)( >&0">, :*"U 365 (); N!$ :*"() + #,-? !&'3)-)*#= $&!$%&'@,Q /#," '2@'H"! @$#"!)-0#)49 '2" 0'-?$+:U *"() + 0) !.," >$+!A&0"#,' , >&0"*Q0)-0"#,'; d;;;e C&0)%$!$+:*=- ('!"&,'B 3$ .$&>: : ,#!"&#"!$+"%$9 +)H,"&'2,1() 2$ $+$ @&'%("#!) . ,=Y". , -0' $>, ( 0 &AY#)-? 30,"30,# +,"2.$1-, (#,"* +,Q-"* *"3#"%$ '&.: 0' /aP PPP 0#'.A+9 -0)2, $.$B$ T PPP +)&'0A+49 0'B$Y)+ 0) :>&0"3#,$ !&:.!:&Q !"('!)-0#=; L$&>: ,#!"&U #"!$+) 3$ !Q>#) *" ! + 3+A-? +"& *'-?5 3"($# !&'-)*#"* , >"B#"* +"& *, ,"-,$+"*9 &AY#,=-)-? ,Q $3 ,"H," 2,-0H= >&AH". !". !$+)-? $&'0 >&$>$&-*= Z&A3"B_ /+++; .$&>: ;>+#;>29 +++; *>;>+#;>24; ! C&$*".! 2,#%+, !)-0#) L $ & > : g F R M ] V !$ >"-*'2, !)-0#) .$&>: -0" 0U -0)0#) (A+,$#"*; C&'-" #'3 #,( &$0>$-0Q!$ + &$.: 6OOc9 %3) :&:-?$(,$#$ ,#!"&U 83%9#$ 2 :23/&3/ 9-;!3 3 )%.!(' /83%9#$ </ .<=>= 93;? % .>+#6@4; f'+,"&' +)>$+,"30, >:H2,-0#" !)>: 3,'2$U 3) -)>2,#'&#) >&$*".! %&'#!$+) #' 2'!' 6OOTKJPP6 >!; %$+"%$ /+)+,'39 3) .: *'9 3"H'!'9 >$2"(,.'9 !'2. ?$+4 , $H"*(:*" $# 0'>, ) $.; ^TP >&$%&'(A+ 3) .: )*#)-? >:H2,-0#"* , .$("&-)*#)-? !"2"+,0*, -0" .,-? /#>; 0/;)3A4%B C/;=9'? ,%+>3/B C% ,9#<D+'= .EEEB *+D.'F !>+D>(4; 0'-$+'#' *" ! #' J PPP PPP +)&'0A+; L$&>: <,"2.$1I .$&>: : B:Y) 3$ H'3'D #'3 -0" .,( *Q0).,"( (A+,$#)(9 3$ $>, : !'#: *"%$ +"& *, >:H2,-0#"* $&'0 3$ 12"30"#,' *"%$ !"#3"#-*, &$0+$*$+)-?; <).$&0) !)+'#) *" ! !'.Y" 3$ &$0+$*: !"$&,, +)>$+,"30,9 3,'2$%: , 3) .:& :; g2' 0"&$.,"* >:H2,-0#$1-, ,#!"&#"!$+"* 0$ !'B' :3$ !Q>#,$#' *"%$ .$2"*#' +"& *' K L $ & > : g F R M ] V P ; 6 ; L$&>: !"# >$+ !'B #' H'0," F# !)!:!: GQ0).' i0" .,"%$ R.'3"(,, S':. ji0 /kGl RS lj4 + &'('-? >&$*".!: G!/.43 6H!(4 )I23#'( 2 ;(.4-.(6'(&J ,+#$+%)%&J >/9/23!(6'(&J /K9-</'D A/L>3'% < >/9/<3!'?&J ;3.4-.7 '?&J ,#M%;/&J NOOPQNOOR4; C&$*".! !"# H)B &"'2,0$+'#) +" + >AB>&'-) 0 F# !)!:U %&'#!$+"%$ R%"#-*, V&'#!$+"* RS ji0 /VR Rm lj4 >!; !"( M,#%+, !)., n$&('2#"* , N!$ $+'#"* <)30,'B: \'!"('!)-0#$Un,0)-0#"%$ W#,U +"& )!"!: L'&$2' + C&'30" /knRM \Unn WL4; < >&$*".-," !)( :-0" !#,-0)2, 3$U 1+,'3-0"#, H'3'-0" + >AB-0" #"%$ *Q0).' -0" .,"%$5 Nop!2' l("*&.$oq9 M:-," Gr2.$oq9 C"!& L'3"&.'9 G'#' L2r($oq9 L'(,2' \&q0.$oq9 f3"s.' No$H$3$oq4 $&'0 S,#$ C"!"&". /':!$& &$0+,=0'D !"-?#,-0#)-? >&$*".!:4; L$&>: 30,'B' + $>'&-,: $ ("#'3Y"& $H B:%, \'#'!""Xt$#,!$ $>&'-$+'#) >&0"0 <)30,'B F#@$&('!)., W#,U +"& )!"!: \' '&).' /nF \W4 + t&#,"; f' $H) .$&>: : gFRM]V P;6 $H"*(:*= 366 u¿ycia jêzyka naturalnego, rozleg³y zespó³ elektronicznych tekstów celowo zgromadzony jako referencyjne Ÿród³o dla naukowej analizy jêzyka. Rozbudowuj¹c powy¿sze znaczenie: k o r p u s j ê z y k o w y to bardzo rozleg³y kompleks tekstów jêzyka naturalnego, którego powstanie i dalsze u¿ywanie mo¿liwe jest za pomoc¹ komputera. Jest to zazwyczaj bardzo bogaty i skomplikowany system tekstów umo¿liwiaj¹cy bardzo wydajn¹ metodê analizy jêzykoznawczej nowej generacji. Zastosowanie korpusu jest pewnego rodzaju radykalnym prze³omem w lingwistyce, którego pok³osiem sta³o siê powstanie lingwistyki korpusowej. Korpus stanowi kompleks komputerowo zapisanych tekstów – w wypadku jêzyka mówionego jest nim zapis (a nawet transkrypcja) nagrañ wypowiedzi – stanowi¹cych bazê do dalszych badañ jêzykowych. Do aktywnego korzystania z jego zasobów s³u¿y specjalny program wyszukuj¹cy. Przy jego u¿yciu mo¿na wyszukiwaæ wyrazy i konstrukcje wyrazowe w kontekœcie. Dodatkowo mo¿!"#$% "&'(&!)* +%$,*$%-./(' !"#$%&' 0( %$)$ !"# "*+1 "&%2!3./- 3/4/2# -# ,'5 )/&6%-./- 789: 4!3 ;<<<=>??@A B'&"*$ 'C/-)*-/ > 2/&$-/D ;1 2/&$-! .#/'"&!6'5 2!.! )'&E'4'(#6 .#/ !2#/&!-F6! ;? !"#$G2 ' 2#/4,'H6# <> ??? 2%&! G2 0'"6-/D 6!I'HJK "'$ 6 /(G4./ "&'(&!)%K 2%$ *,#2!.#/1K >!1 2/&$-! &L6 .#/ '"&!6'2!.! 0 &/2#+'2!.!1 )'&E'4'(#6 .#/ !2#/&!-F6! @ !"#$G2 ' 2#/4,'H6# M@ ??? 2%&! G2K >C1 2/&$-! )!$ %.'2' '"&!6'2!.! 0 &/2#+'2!.!1 )'&E'4'(#6 .#/ !2#/&!-F6! < !"#$G2 )'N4#2'H6#F &' $ /& './(' 2%$ *,#2!.#!K '+$I*6O* "& %,I!+G2 +P2#L5 ,'2%6O '&! 2# *!4# !6-L ,& %2/- Q? 0'"6-/D !"#$ +P2#L,#/)K "& /$ *,#2!.#/ !"#$* +P2#L,#/)1A R#L6/- #.E'&)!6-#D 222A*-6A6!$A6 S '++/4/.#S#.+/TA"O"U "!(/VWX:Y8ZA B'&"*$ = [ /$3!2 3/,$3G2 -L %,'2%6O /C&!.% 2 6/4* C!+!.#! -/(' $%$3/)* 4*C "'+$%$3/)*\ 0,*-.&)/0!"$' 123.&/3*'4564' /78)*!7/ ;<<<K $A ];<1A ! ^.!6 /.#/ 2%&! * &/90:5 0'+ I!6A -/90:5 _6#!I'`1 "'+!-L ! #.3/&./3'2%) ;/4*$&$!# 123.&' 0/)5&$!7/ <=>D [;1 6#!I' 6 I'2#/,! 4*C 2#/& L6#! '"&G6 (I'2% # ,'a6 %.b >1 !$!+.#6 ! 6 LHJ 6 /('Hb ]1 (IG2.! 6 LHJ C*+'24#b M1 2 !&6O#5 3/,3*& / "!I!6'2/-D 6/.3&!4.! 6 LHJ C*+%.,*b @1 2 !&6O#3/,3*& / $!,&!4./-D .!2'2! 6 LHJ ,'H6#'I!b c1 (IG2.! 6 LHJK .! ,3G&/- '"!&3! -/$3 6!I'HJ -!,#/('H *& F+ /.#!K "& %& F+* #3"Ab d1 -/+.'$3,! 3!,3%6 .! $,I!+!-F6! $#L ,#4,* +%2# -# 4*C C&%(!+b e1 (&*"! N'I.#/& % )!-F6%6O 3!,# $!) $3'"#/a 2'-$,'2%b <1 3/,$3%K +!./ #3"A (&')!+ './ / 2 (4L+* .! $2F &/"&/ /.3!3%2.'HJK $3!.'2#F6/ "'+$3!2L +' !.!4# % .!*,'2/-\ 0222A$-"A"2.A"41A 367 na okreœliæ ich frekwencjê w korpusie oraz pierwotne Ÿród³o tekstowe. W dalszej kolejnoœci mo¿liwa jest dalsza obróbka (analiza) znalezionych hase³, np. porz¹dkowanie alfabetyczne czy te¿ w wypadku niektórych korpusów ekscerpcja wed³ug przyjêtych kryteriów, np. rodzajów wyrazów. Opracowanie korpusowe jêzyka mówionego polega na stworzeniu dostêpnych Ÿróde³ referencyjnych tego typu komunikacji werbalnej, co czêsto jest trudne i skomplikowane, gdy¿ jêzyk mówiony – jak polszczyzna tak i jêzyk czeski – z filogenetycznego i ontogenetycznego punktu widzenia jest prymarn¹ form¹ komunikacji jêzykowej i w rzeczywistoœci (praktyce codziennej) uczestniczy w niej a¿ w 90% . Tworzenie tego typu wzorcowych zbiorów leksyki i struktur leksykalnych – a w konsekwencji obowi¹zuj¹cych standardów jêzykowych – poprzez zbieranie i obróbkê materia³u jêzykowego, udostêpnianie „zawsze i wszêdzie” oraz wykorzystanie wyników do innych badañ lingwistycznych (np. frekwencja jednostek leksykalnych, psycholingwistyka, socjolingwistyka, itp.) i celów pragmalingwistycznych (np. tworzenie i redakcja podrêczników jêzyka, rozmówek itp.), staje siê dzia³aniem powszechnym tak¿e w zakresie jêzyków s³owiañskich. W wielu oœrodkach jêzykoznawczych budowane s¹ ró¿ne typy elektronicznych korpusów jêzykowych w zale¿noœci od celów badawczych. Z uwagi na ich zakres mo¿emy wyró¿niæ k o r p u s y o g ó l n e i s p e c j a l n e. Typ ogólny staraj¹ siê uchwyciæ jêzyk w jak najpe³niejszym zakresie i pe³ni, s³u¿y do tworzenia s³owników. Typ specjalny obejmuje wê¿szy zakres wed³ug jakiegoœ przyjêtego kryterium; mo¿e to byæ korpus autorski (np. korpus dzie³ A. Mickiewicza czy K. Èapka), korpus okreœlonego gatunku lub dzie³a literackiego (np. dramatu romantycznego, Lalki B. Prusa, Przygód dzielnego wojaka Szwejka J. Haška), b¹dŸ korpus danego dialektu (np. œl¹skiego, hanackiego). Z historycznego punktu widzenia tworzone s¹ k o r p u s y s y n c h r o n i c z n e i d i a c h r o n i c z n e – pierwsze dokumentuj¹ " f' 6#/,!2/K 6O%C! .!-"/I.#/- '"&!6'2!.% # .!-C!&+ #/- &/"&/ /.3!3%2.% g&%3%-$,# B'&"*$ 7!&'+'2% 0g7f1 "'$#!+! .!-2#L,$ F &/"&/ /.3!6-L )G2#'.%6O -/+.'$3/, -L %,'2%6OK C! *-F6 -/+%.#/ .! ;?h 3/,$3G2 )G2#'.%6OA 368 jêzyk wspó³czesny, s¹ szeroko u¿ywane, a z uwagi na Ÿród³a nieocenionym zbiorem informacji o najró¿niejszych zjawiskach jêzykowych i pozajêzykowych oraz ich wystêpowaniu i u¿ywaniu w naturalnych kontekstach. Korpusy diachroniczne obrazuj¹ jêzyk starszy, w przeciwieñstwie do synchronicznych oparte bywaj¹ na wzorcach tekstowych o rozpiêtoœci zazwyczaj 2–5 000 wyrazów, ich tworzenie jest bardzo pracoch³onne (elektroniczne skanowanie i rêczne przepisywanie tekstów), st¹d ich iloœæ jest znacznie ograniczona. Aspekty sposobu komunikacji uwzglêdniaj¹ k o r p u s y j ê z y k a m ó w i o n e g o i k o r p u s y j ê z y k a p i s a n e g o. Z uwagi na pierwotnoœæ komunikacji mówionej, redakcja (zestawienie) takich korpusów jest bardzo czaso- i pracoch³onne (w pierwszej kolejnoœci zapis i transkrypcja nagrañ audio, a nastêpnie opracowanie lingwistyczne tekstów). Korpusy jêzyka pisanego bazuj¹ na gotowych tekstach ksi¹¿ek, gazet i czasopism najczêœciej w zapisie elektronicznym, jednak i te trzeba poddaæ obróbce formalnej – ujednoliciæ format, „wyczyœciæ” z grafiki i ilustracji oraz anotowaæ, czyli opatrzeæ notkami (danymi lub symbolami) o charakterze identyfikacyjnym (bibliograficznym), strukturalnym (segmentacja tekstów ci¹g³ych na rozdzia³y, akapity, zdania i wyrazy) i lingwistycznym (lematyzacja , charakterystyka morfologiczna, s³owotwórcza, syntaktyczna i ew. semantyczna!"). Te czynnoœci wykonywane s¹ teraz automatycznie przez specjalne oprogramowanie komputerowe, podobnie jak konkordacja!! zjawisk i form, czyli wystêpowania danej jednostki korpusowej w wybranym (zadanym) przez u¿ytkownika dostatecznym kontekœcie oraz kombinacja wyrazów. Ostatni podzia³ wyró¿nia korpusy jednojêzykowe i wielojêzykowe (paralelne!#), w których wykorzystywane s¹ specjalne programy zestawiaj¹ce (paruj¹ce) tzw. leaners’ corpora lub aligners, które obydwa zestawy tekstów „uk³adaj¹” obok siebie tak, by zdania, wyrazy i ich po³¹czenia w obu jêzykach korespondowa³y ze sob¹. Takie korpusy maj¹ pierwszorzêdne znaczenie w praktyce translacji, gdy¿ proponuj¹ znacznie bogatsz¹ paletê ekwiwalentów t³umaczeniowych wyjœciowego wyrazu, frazeologizmu lub zdania, ni¿ dotychczasowe s³owniki przek³adowe. Niejednokrotnie ich skonfigurowany zasób leksykalny i frazeologiczny stanowi bazê coraz doskonalszych translatorów komputerowych, których sprawnoœæ ekwiwalencji osi¹ga ostatnio nawet 90%. Na prze³omie XX i XXI wieku Uniwersytet Karola w Pradze!$ i Uniwersytet Masaryka w Brnie oraz Instytut Jêzyka Czeskiego AN RCz (ÚJÈ AV ÈR) sta³y siê bardzo silnymi oœrodkami lingwistyki korpusowej o znaczeniu co najmniej europejskim, o sporym dorobku nie tylko teoretycznym, ale i praktycznym. Du¿ym osi¹gniêciem jêzykoznawców czeskich jest licz¹cy sobie ju¿ prawie 14 lat elektroniczny (internetowy) Czeski Korpus Narodowy – Èeský národní korpus (ÈNK)!%, bêd¹cy rozleg³ym grantem akademickim, którego celem jest stworzenie komputerowego korpusu przede wszystkim czeszczyzny 7%-)27+ )2;+7+ O6*29B ,-2;+D "2)6D )%$7+-6D ,*$!)6D 5!9:&+2D 7!)6*6 )%72)6&,-%D !"#$%&#'(# !" #$%&' )*""#+ )*""#$,- ()*+%$",%-+%./ )! 01234!*2-+% 5$,6 723,6-!*67 5$,%)*2$,2-+8 9:,6;2 -2)8$2<-%#!' =>? @ <%;36;!#$2A++ 5$,65!$,B"C ;!*2-+% 9%"-!3);!7 )%;3)!*67 -2,* 9%"-!3)%; 123%4/ !5+36*2-6&1 * 34!*-+;8D &,6<+ * +3)!&+% -25+3E* 348FB&6&1 "! *5$!*2",2-+2 +&1 "! 34!*-+;2' @ *652";8 -29&,:3)3,67 1234!*2-+% 5!<%#2 -2 5$,65+36*2-+8 34!*8 )%;3)!*%78 A!$76 5!"C 3)2*!*%9 <%;3%78 !5+36*2-%#! * 34!*-+;8D -5' 34!*8 .-# G 12342 ./!- ='''?H 012 3%-)%-&9%D 2<% -29&,:Q&+%9 3B -+7+ 34!*2 5!"2-% ,% 3*!+7+ ;!-)%;3)27+' ='''? TO%&-+% ;!-;!$"2&9: 35!$,B",2 3+: -29&,:Q&+%9 -2 ;!758)%$,% 3)!3!*-+% "! ,27EC *+%-+2 O2"2&,2 G , )%;3)8 <8O ;!$5838 ,25+32-%#! -2 -!Q-+;8 %<%;)$!-+&,-67H '%3),.!4/# (5&%3,&1#6-$6# ,78)1!7, !# 012 IJJJD 3' LIU/' V! )65 ;!$583E* ,%3)2*+29B&6&1 9%"-2;!*! )$%Q&+!*% )%;3)6 * $EF-6&1 9:,6C ;2&1 G )%;3) $!",+76 * 3B3+%",)*+% 9%#! !O&!9:,6&,-%#! 5$,%;42"8 5$,%;42"E*/' '%3),.!4/# (5&%3,&1#6-$6# ,78)1!7, IJJJD 3' KLMD LLN/ !" 9#7,6#1/! )! 5$,65+32-+% ),*' $#786D &,6<+ 367O!<+P,-2;E* "!"2*2-6&1 "! 5$!A' W' X%$7Y;D ;)E$6 0,2$2,+4H 5!7634%7 74!"6&1 O2"2&,6 + 3)*!$,64 , -+&1 A!$7 *6$2,!*6&1D &12$2;)%$6,89B&% 9% 5!" *,#<:"%7 #$272)6&,-67 + 3)6<+3)6&,-67' 5$:F-6 ,%35E4 5$!*2",B&6 ;+<;2 5$!9%;)E* #$2-)!*6&1 ,*+B,2-6&1 , XZ[' !! :,13,;4#'(# !" 42&' ',1',;4/# (,#!"2D 9%"-!QR./ 9%3) )! 0,%3)2*+%-+% *3,63)C ;+&1 %<%7%-)E* "2-%#! )658 *63):589B&6&1 * "2-67 )%;Q&+% <8O ;!$583+%' S<%C 369 !$ !% T9&%7 5$!9%;)8 + 9%#! "8&1%7 35$2*&,67 9%3) *6O+)-6 &,%3;+ 9:,6;!,-2*&2 \"$%3 +-)%$-%)!*6 XZ[] ***'8&-;'AA'&8-+'&,D !" 52^",+%$-+;2 KUU_ $' $E*C -+%F] ***';!$583'&,' 370 pisanej. Projekt ten stanowi prze³om w historii czeskiej lingwistyki, by nie powiedzieæ rewolucjê w podejœciu do badania jêzyka i nawi¹zuje do najlepszych tradycji czeskiego jêzykoznawstwa (np. Praûský lingvistický krouûek). Opis jêzyka zak³ada mo¿liwie na najwiêkszym zasobie danych jêzykowych – na setkach milionów form wyrazowych, których wystêpowanie i frekwencjê mo¿e oceniæ za pomoc¹ ró¿nych metod matematycznych i statystycznych. Zapleczem naukowym ÈNK sta³ siê Instytut Czeskiego Korpusu Narodowego dzia³aj¹cy na Wydziale Filozoficznym Uniwersytetu Karola w Pradze (Ústav Èeského národního korpusu FF UK). ! Od swego powstania w roku 1994 zadaniem ÚÈNK jest opracowanie i rozbudowanie ÈNK oraz dzia³ania wspieraj¹ce, szczególnie w dziedzinie badañ i popularyzacji dziedziny lingwistyki korpusowej. Prze³omowym osi¹gniêciem tego znacz¹cego i zas³u¿onego centrum lingwistyki komputerowej i korpusowej jest opracowanie ponad stumilionowego korpusu synchronicznego tekstów pisanych SYN2000 ". W pracach nad ÈNK aktywnie uczestnicz¹ równie¿ lingwiœci i informatycy z prê¿nego morawskiego oœrodka bohemistycznego – Instytutu Jêzyka Czeskiego Wydzia³u Filozoficznego oraz Wydzia³u Informatyki Uniwersytetu Masaryka w Brnie (Ústav èeského jazyka FF MU, FI MU). Pracownia brneñska od samego pocz¹tku aktywnie uczestniczy w czeskich badaniach dot. lingwistyki korpusowej oraz tworzeniu ÈNK, specjalizuj¹c siê redakcji programów komputerowych do automatycznej analizy morfologicznej jêzyka mówionego oraz gromadzi i elektronicznie opracowuje dla potrzeb ÈNK specyficznie trudne teksty, np. wypowiedzi mówione i teksty prywatnej korespondencji. Obydwie placówki opracowa³y dodatkowo korpusy miej- ! "#$%# &''( $)*+ ,-./ "# 0)12 345!64789 :#;#% <=#>?6 0# .@$)!0A >BA!C D(E F>$+*>+$# >5G) *)$:+3+H >5*3>I :+7=4%I3>I%605 J K'L9 >5*3>I 3:5%M#=43>I%605 J &NL9 >5*3>I 75=5>$I3>I%605 J ONLE # FP.&''' 1 =4%67#%QH 145=*)RS !#0I%Q J & TU9 4=)RS M5!0)3>5* >5*3>)1I%Q J D D'D9 4=)RS 3>$+*>+$ 6!#04)1I%Q J ( KDV D&O9 4=)RS 1I$#6W1 >5*3>)1I%Q X YJ O'' ''' ('Z9 4=)RS $W[0I%Q >I:W1 J O (KD \ODE ! " !"#$% 371 skich (regionalnych) odmian jêzyka czeskiego na bazie SYN2000 #: Praûský mluvený korpus (dzia³a od 2001 roku) a Brnenský mluvený korpus (2002). W placówce praskiej prowadzono tak¿e prace nad korpusami paralelnymi I n t e r C o r p – na lata 2005–2011 przyjêto projekt grantowy pt. Èeský národní korpus a korpusy dalších jazykù, którego celem jest zbudowanie paralelnych korpusów synchronicznych dla wiêkszoœci jêzyków obcych studiowanych na UK w Pradze (w planach 28 jêzyków), zawsze dla danego jêzyka i czeszczyzny. Projekt ten ma szersze niekomercyjne cele; w oparciu o zgromadzone dane bêd¹ prowadzone studia teoretyczne z leksykografii, translatologii, metodyki nauczania jêzyków obcych, opracowane zostan¹ komputerowe aplikacje do nauki i przek³adu jêzyków obcych. W fazie pocz¹tkowej poszczególne pracownie filologii narodowych w obrêbie UK stworz¹ pod nadzorem i opiek¹ merytoryczn¹ koordynatora programu korpusy narodowe jêzyków obcych $, które zostan¹ w fazie póŸniejszej scalone i udostêpnione publicznie na centralnym serwerze projektu. Pierwotnie struktura Czeskiego Korpusu Jêzykowego obejmowa³a kilka korpusów synchronicznych: 1) wspomniany ju¿ korpus tekstów pisanych SYN2000 % (pojemnoœæ 100 mln form wyrazowych); 2) korpus PUBLIC (20 mln, 1/5 ca³oœci leksyki korpusu SYN2000); <$6I *)":)0)1#04+ *)$:+3W1 0#$)!)1I%Q 1 :$)M5*%45 ]0>5$^)$: 1I*)$6I_ 3>#05 6)3>#02 0#3>8:+M2%5 `$W!;# >5*3>)15H :)$>#=5 111 a044 b+$):5M3*45M9 !)*+_ "50>I ab9 :$65:43I :$#105 ab9 :$)M5*>I /)03>I>+%M4 b+$):5M3*45M 4 +3>#1 c$#*_ >#>W1 b+$):5M3*4%Q X&' M86I*W1Y9 Fbbde^ J cQ5 F=#f4% #0! b#3> b+$):5#0 d#0G+#G5 e53)+$%5 ^50>5$9 g4*4:5!4#9 h^ia]F ^ jja.hach]eb j+=>4=40_ G+#= ^)$:+3 X"+=>4M86I*)1I *)$:+3 0# 7#645 >5*3>W1 =5G43=#>I10I%Q ab )! $)*+ OVN' !) 13:W;%6530)R%4Y9 j+=>5k>_b#3> J lOV\Zm ^)$:+39 !#>#7#65a^dE!)% X1I*#6 1)=0) !)3>8:0I%Q `$W!5; ):$#%)1#0I :$656 ]03>I>+> d4>5$#>+$I ^653*45M h. e^6YE % .# 7#645 FP.&''' :)13>#; *)$:+3 nF^&''' 4 M5G) 15$3M# !$+*)1#0#9 78!2%# 3;)104*45" o$5*150%IM0I" M86I*# %653*45G) XnE -5$"@*9 jE /B509 9 <$#Q# &''ZYE $ &'#"(#$)$* %+!($*" )#, -$. 372 3) korpusy na CD ROM – korpus SYNEK (10 mln, 1/10 leksyki), korpus LITERA (ok. 3 mln, bazuje tyko na dzie³ach literackich); korpus ORWELL (zasoby na bazie powieœci Rok 1984 G. Orwell’a); 4) korpusy jêzyka mówionego – PMK (Praûský mluvený korpus, 800 tys. form wyrazowych) i BMK (Brnìnský mluvený korpus, 600 tys.). W paŸdzierniku 2005 roku ÈNK wraz z Czesk¹ Bibliotek¹ Narodow¹ uruchomi³ dla publicznoœci DÈNK (Diachronní sloûky ÈNK), które s¹ dalej rozbudowywane; zasoby tego korpusu obejmuj¹ teksty z ostatnich 700 lat czeskiej literatury (ok. 700 000 form wyrazowych), co roku przybywa ok. 250 000 nowych jednostek. Na bazie DÈNK powsta³ korpus DIAKORP (www.ucnk.ff.cuni.cz/diakorp.html), do którego w³¹czono równie¿ powsta³e do 1989 roku teksty publicystyczne, specjalistyczne oraz artystyczne (do roku 1944). Prze³omowy dla tego korpusu mo¿e byæ rok 2008, gdy planowana jest rozszerzona lematyzacja w oparciu o tzw. hiperlemmaty (np. kùò), czyli wszystkie wersje graficzne wystêpowania leksemu bez wzglêdu na jego ró¿ny historycznie zapis (kóò/kuoò). W latach nastêpnych nast¹pi³y istotne fakty dla bogactwa zasobów i ca³okszta³tu dzia³ania ÈNK, w tym pojawi³y siê kolejne zaktualizowane i unowoczeœnione wersje: – styczeñ 2006 – SYN2005 (100 mln wyrazów tekstowych tzw. tokens) !; – czerwiec ‘2006 – KSK-DOPISY (Korpus korespondencji prywatnej, zawiera zapisy 2 tys. rêcznie pisanych listów z lat 1990-2004, projekt autorstwa ÚÈJ FF MU Brno); – lipiec 2006 – zakoñczenie pe³nej lematyzacjê i adnotacji SYN2005; – listopad 2006 – Èeský mluvený korpus ORAL2006 (Czeski korpus jêzyka mówionego, 221 nagrañ z lat 2002-2006 o pojemnoœci 1 mln wyrazów); ! -,".#) </=>>? 21 .,"419%9*# ' </=>>>; ,.%"5 )*@ 9% 9*(8, *99(A )!"#$B !#"'( 3"40(56 C(D(!"E)!E$% F G>HI .#CD*8E)!E$% F JJHI D*!("%!#"% ).(8A%D*)!E8'9% F =KH7 373 – grudzieñ 2006 – SYN2006PUB (synchroniczny niereprezentatywny korpus publicystyki pisanej o pojemnoœci 300 mln tokens), – styczeñ 2007 – Bonito2 (www.ucnk.ff.cuni.cz/corpora; nowoczesna i wielofunkcyjna przegl¹darka i wyszukiwarka); – grudzieñ 2007 – dodano Inverse Text Sort (program do wstecznego segregowania zasobów); – styczeñ 2008 – pojemnoœæ wszystkich zintegrowanych korpusów w ramach ÈNK wynios³a 500 mln form wyrazowych, najnowsza lematyzacja oraz adnotacja morfologiczna (tagowanie). Wspó³czesn¹ strukturê ÈNK ilustruje tabela 1. Tabela 1. !"#$!#"% &'()$*(+, -,".#)# /%",0,1(+, 23"405,6 1117#89$7::78#9*78'; !"#$ %&'()%* #('+," -./01 2345678495.4: -.;01 <9:5678495.4: =:4> <9:5678495.4;?8 @/.3>: 5.;2>9;?8 !"#$%! +$*)+0 )+!%'. $)*#$ =:4> 2345678495.4;?8 @/.3>: 5.;2>9;?8 !"#$%! &'&%!"#'($ # )*'("$%+'"!($ ")&,-. $)($ . $/ )*#$ +$*)+0 '%! &% $1234!%*56"0) 7*#"!%*5 *'%&7)'"3 #87AB23 A92:4; #87AB23 CDE984; +% $.8 1%7&9 +$*)+0 +%!()/ *%0:'"!($ ;< =2( "0%! ," +$*)+'"0.8>? +$*)+0 +%!()2#/ +$%'"!($ ;'*@ ABB +0)@> # +$*/ )+0 1"!%'"$ ;'*@ <BB +0)@> C'%&7) 4#!.8%'(#. (0 DEF<BBGHIJ DEF<BBK DEF<BBB LDM<BBB CDC/NOHPDE DEFQC RPSQTU OTVQRR #87AB23 A:7:F;F4; H%! )*W =27X$(W *'%&7) J%(Y()*W =27X$(W *'%&7) OTUR<BBG O:$Z=7Z$ "0:,% +$*)+," )+!%'. $)*#.8 '4 &#$%"/ ) 0.8 !.8'"!(0.8 !/ :0+*," 4' 2!+ 7Z5+0.8 " *'%&7)#$ )0(.8%'/ (#. (0= NPUCOTH H%'Z$*+ P(+$%M'%& ÈNK oferuje u¿ytkownikom szerokie zasoby, a w ich obrêbie dane szczegó³owe: 374 1) typowe (wskazanie: centralne czy marginalne), 2) aktualne (synchroniczne i aktualne), 3) nieselektywne (niefiltrowane wed³ug jakiegoœ klucza lub subiektywnie), 4) obiektywne i realistyczne (Ÿród³a udokumentowane, rzeczywiœcie zapisane), 5) dostateczne (wystarczaj¹co rozleg³e do poznania i opisu danego zjawiska). Pos³uguj¹c siê korpusem mo¿emy wyszukaæ: 1) konkretn¹ formê wyrazow¹ (wyraz tekstowy z kontekstem); 2) jednostki wielowyrazowe (np. wyra¿enia przyimkowe, frazelogizmy); 3) leksem lub has³o kluczowe (tzw. Lemmat); 4) czêœci mowy (przymiotnik, symbol/tag: adjektivum = „A.*”), 5) kombinacjê czêœci mowy i lemmatu. $ J5;$):E$(<; "9E"(<025%< ;<?%+.0&( 2<&.9&52%< IJK !MNJOPPP3L '+,19 "9,5B ., *!, 7, "., ?!Q ,)<$)+"%(&L -'%Q -,)91(+0%(&L =!*%8G -,)9.H7"<&L $@Q (1(+%5 A.", A#B2, C+3&.7, D!(-, A'*!)Q (1(+%5 @<R.&(<L E.-#!, A."., F7., G""., H.".Q $)<.&(< 1(5.05L D-.5., I-"', D&:!J, K*(-.7., D-'*(;?'7, K&'0'$3Q &,5;<L LM, NOG, P;0!3%', M$*%', O&'7!"*%', Q-."3#!, D'&*%', R(+&#! Q 1(5.05 )5=,5%($)%<L E'*%7., D.B2@, P!S T'-%, I-.(#*&.7., U'" 8", V.*5#"9('", C2 !J, I!-&2", I-$*!&, W20Q =+?)(%5L XYZYY J(<0,5?9$9;%5 &+2<;%+EA "9.0:-+"5%(5 ;<?%+.0<& "= &,90<B ,(#1 ',<&"<%$9;%<=+L 2($)>9L [, X, \, ], ^, _, Y, `, [Y, a, bQ &+%09%<%09L F7-'/., G0!-#%., G)-#%., G*#!, G$*(-+&#!, G"(.-%(# .Q ?%( 09=+?%(5L *'c'(., "! ;&!, /+(!%, /'" ;&2, *(B! ., d(!-8, =(7-(!%Q 1(<.(8$<L :+B2, &! !", %7;(!", &#*('/. , =!-7!", B2?!", $c!", cB!:!", *-/!", /-'*#"!3, =!-7!"!3, d"'- Q 2505L [bb^, [bb_, [bb], [bb`, [bb\, [bbX, [bba,[bb[, [bbY, [bab, XYYY, [bbb Q -5,0(< -+2(09$)%< !.&,7093L KeO, LOOe, KeG, feN, fOLE, HgeO, fOLQ 090#H9 %5#&+"< ( )5"+?+"< !.&,7093L R"9Z, ENe-Z, ANe-Z, D5e-Z, E9-Z, MPe-Z, e-O3Z, ECe-Z, h5e-Z, D.!e-Z, MOe-Z, I3Z, Mie- !""" #$%& '' $#%( $)*&+,-#.*&+,-#. /0123. )+"<L 1:.&(<L &$)(S.)!5#&)!)-.$!")$"%->8&!-#", -#/('/'&40!-"!6 -!&.(#7#*(#3%435, !(54&!" #'14)!"4&#*'/-'/4&.0#", =!*%'0'-.7*%'*&!:*%'3#%+"*%<5', $%-.?#"*%'7#!(".0*%'&.'*%'=!*%8, (!35"'&'9#3%'!%'"'0#3%')#"."="2, "#%'(#".0# .6 J5;?H#@.)< $)<.&(< "9,5)9L 375 Oprócz charakterystyki statystycznej i frekwencyjnej (czêstotliwoœæ wystêpowania jednostki wyrazowej w korpusie czy jêzyku, najpopularniejsze ! oraz najd³u¿sze wyrazy czeskie), jest to wspania³e narzêdzie daj¹ce mo¿liwoœci weryfikacyjne nie tylko specjalistom (jêzykoznawcom-bohemistom), ale tak¿e mi³oœnikom starannej czeszczyzny, jêzykowym purystom oraz szerokiemu gronu u¿ytkowników, sprzyjaj¹c w ten sposób poprawnoœci jêzykowej, spe³niaj¹c wymogi uzusu semantycznego. Dziêki ÈNK mo¿emy badaæ i opisywaæ ³¹czliwoœæ (tzw. kolokacjê) poszczególnych jednostek leksykalnych z innymi, weryfikowaæ jednostki frazeologiczne oraz walencjê wyrazow¹ czy te¿ rekcjê czasowników ". Jako Ÿród³o elektroniczne „on line” mo¿e reagowaæ natychmiast na pojawienie siê „nowinek” w leksyce wspó³czesnej czeszczyzny, których nawet najnowsze drukowane s³owniki jêzyka nie uwzglêdniaj¹ (np. wyrazy pochodne); sprawdziæ, który typ deklinacyjny dany leksem reprezentuje, czy dany wyraz (neologizm) nie ma odmiany mieszanej #. U¿ytkownicy wspó³czesnego jêzyka czeskiego – rodowici Czesi i obcokrajowcy – dziêki ÈNK mog¹ poznawaæ, wzbogacaæ i porównywaæ ojczysty i obcy zasób leksykalny (np. briefing/brifink, football/fotbal); skonfrontowaæ warianty leksemów (np. alespoò/aspoò, aèkoliv/aèkoli) i ich stylistyczny ³adunek. W korpusie bez trudnoœci mo¿na poznaæ bogactwo cze!"#" #"$%&!'(# )'*)+(, $&(-.*$/!-%'"(-.0$&(#!1(-.$"#%+("2, 34%&'/!"(."'/!-54 -'6 )!"."(-!"'78, 9&43!-.& !54 )'*)+( !54 -'9!"+:'$, %'0$"#*(#3%'*'3#+&"; !0'%-.6 (#3%<5', 54/'(.&.0'54/')4:'. -!"'%'-(#%+&"2, )-."3'$:'=!>(#"'&.'*'-$>(#"'#" '6 =2">(#"'$ !""" #$%& '' $#%( $)*&+,-#.*&+,-#. /0123 ! 425 6+25&7" #$)8$9$/ .(: ;:)9&5 $)<.&(<=+ ,<&$;5 $)5.+"%(&7" $)<.&($/ + >,)1(<%(# -+?+>%91 ?+ -+2.&($/ !$):.0+ 5-,+&.915093 1+@< .-,5"(A "(<2< %(<B .-+?)(5%<& " C)" D$/"(<;%+EAF ,+?)5;# =,51509$)%<=+G %- $)<.&( ,)<$)+"%(& ( ;<=+ D%(<;5.%9F -5,5?9=150 +?1(5%9 ( H8$)2("+EA %- # 6,)9&H5?+"< A"($)<%(5 )5(%.-(,+"5%< IJKG ?+ &07,9$/ ?+H8$)+%9 ;<.0 &2#$)L ! "#$%&% '()%*+,)- ./0'01 !"#$ % &'''''''''( )*+, -.$# /01 23-! 425607*2 %8+ "*2' 9"%-,# :%26*;</* # 10-%2< =-, -,70> &'''''''''( :3$-=5 $ 1=0;*7 8$"!+<' 376 -$%'?02 ) 2($)<>%(&51( skiej synonimii (np. okreœlenia wartoœciuj¹ce). Dla bohemistów-dydaktyków jêzyka czeskiego (zw³aszcza cudzoziemców) jest to œwietny zasób/Ÿród³o æwiczeñ nie tylko leksykalnych ! – mo¿na za jego pomoc¹, poprzez celowe opuszczenie s³ów uczyæ i æwiczyæ poprawnoœæ pozycji danego wyrazu tekstowego w kontekœcie czy te¿ szeregu syntagmatycznym. I chyba ostatnie praktyczne zastosowanie – dane ÈNK s¹ nieocenione przy redagowaniu s³owników, logicznych spisów/wykazów informacji oraz obs³ugi translacyjnej osób nies³ysz¹cych, przy której nale¿y optymalnie ograniczyæ iloœæ œrodków komunikacyjnych do tych najniezbêdniejszych. Jak wynika z powy¿szego funkcjonalnoœæ i wielowymiarowoœæ ÈNK jest coraz bardziej doceniana przez bohemistów (w tym nauczycieli jêzyka i t³umaczy), jêzykoznawców i specjalistów od komunikacji spo³ecznej (dziennikarzy, twórców reklam), ale tak¿e przez ogó³ u¿ytkowników wpó³czesnego jêzyka czeskiego. Jest to Ÿród³o coraz bardziej popularne i opiniotwórcze, o czym œwiadczy rosn¹ca z mie- !"#$%&' ( )*********+ ,-./ &% 0(&1" 234&"5&67( 2(.4** !!!" #! $%&'(' )*+',-.+/ 012)2 . )3',-+* 4'-2 ().%*5 )' 6('%7,- 0' ) 62+62%8.+&+9,- :;8,9,)*06*(12< 0(=8>4+9 826=?'+(.,' +. )3',- @.6=1(;,- 0 A!!!!!!!!!B 1/6.:06/ C206*(2).1. (2(> D%).1 +. 0)/ ;820(> . E*1 C:>4.( . 62?>09? ?2 + +. A!!!!!!!!!B ?>+>0(%. )+>(%. ! F8 %26= GHII +. D',-+ '62+2?>6= ,'1/-2 0(;(= > )3',- 2E&.+J E'K A!!!!!!!!!B! LK' C%2(2 C%;)'? 2&'6;).( 5 ' K'4?/+ M! $%&'('5 ) 6('%/? C;8N 402= C280(.(+; 4?/+. ) =)'8'+7,- 62+('O(',- C2= >(. . ().%* 82C1P('< 02,>;1+9 C24>3(N+9 .(8! .(8! Q E*12 0)N:'+2 A28E2%+96!!!B . C%28'E.(2);+25 (.6 ' C%2R%.? C=E1>62);+9 C:'8 ?2 +20(9 C28%2E>( 0)J4 (.1'+( AK62=3!!!!!!B 2C%.)82)20(>5 ) +9 0?%(> 4'-2 2(,' S=8 %.5 K.0)N(>1 0)J4 0' 1>('%;%+9 >)2( AC2?0(!!!!!!B . T0>19 2 2E+2)'+9 ?2,> 0)/-2 %28= (2 :96.1. 8).6%;(! U-,'(' 0+.8 +*+9 A2(,!!!!!!!!B +N,2 )*(76.( V W +'E2 0+.8!!! !!!" X! Y2C1P(' 012 '+; 012). 0 C%)+9 &;0(9 2(.(8 ) +;1' >(/? ().%=< ?2-2= E7( )701'86* 4'-2 ,'0(* +. Z.1.4067 AC212!!!!!!!!!!B 2E2=0(%.++N C:94'?+7? C:'6). K?N+9 ) ?%K+2=,9 8/3(! [' &()%('6 E=8' AC212!!!!!!!!!!B . 2E1.&+2 . 24'8>+N1' C:'-;P6*! \2&+9 0' 4'8+2 0'(6;+9 FYW 0 )21>&> 62+.12 C:'8 AC212!!!!!!!!!!B 0;16'? ZN0(06/ 6+>-2)+* ) ]%.K'!!! I! Y2C1P(' 012 '+; 012). 0' K;61.8'? )1;8.< 02)N(067 C21>(>6 C20(=C+N ,-;C.(5 ' A!!!!!!)1;8.B +'+9 C%2 62+(%.C%28=6(>)+9 02)N(067 0*0(/? C2?>+' 4.62 3C.(+/ KE2 9! ^'+2? ,;:>5 A!!!!!!)1;8.B . (.62)/ 012(* C2(%).49 )N&+N )N6J) 4.6 377 si¹ca na miesi¹c rzesza osób odwiedzaj¹cych portal ÈNK, wyszukuj¹cych has³a i konsultuj¹cych swe w¹tpliwoœci. W miarê wzbogacania zasobów Korpusu oraz mo¿liwoœci obliczeniowych u¿ytkowanego przez projekt sprzêtu i oprogramowania, jesteœmy œwiadkami powstawania i krzepniêcia oraz dalszego optymalizowania funkcji i mo¿liwoœci tego nowoczesnego i wszechobecnego dziêki Internetowi narzêdzia lingwistycznego, którego dalsze dziedziny zastosowañ w naszym ¿yciu – nie tylko naukowym i akademickim – s¹ wszechstronne i nieodgadnione. Ju¿ niebawem przekonamy siê o tym. Literatura ! " # $ % &'( )**+"( !"#$%&' (!)!*!+$! +,*%-. $%/012( 3,245/( ,' )-( .' /+01/+)' ! " # $ % &'( )**+2( 6%/012 7 12$1),8+9+: 2,+( ;&!/( ,' *( 34"5"( .' )+' 6 7 4 8 % 9 :' " 9;!'( -00+( </,$&,+8+5 2-%&+5$ 4-1&,+= 8,>).+#( 34"5"' 6 7 4 8 % 9 :'( ! " # $ % &'( -00/( 6%/012%&' -.+?&.2).$!@ A)!& ! 4%(,-%&= 0B52)10#( 34"5"' 6 7 4 8 % 9 :'( ! " # $ % &'( -00<( !$ û5&!) C,2$: +'/%(+5 $%/012( 34"5"' 6 7 4 8 % 9 :'( = ! > 8 ; ? % @'( 3 7 # 9 7 ? A , B'( -000( A)1(., " $%/012%&= -.+?&.2).$#( 34"5"' 6 7 4 8 % 9 :'( = C 2 > , 7 9 3'( )**+( !"#$%&: $%/012 ! >$%-!( D67.9E F"GH9 " !A#7I 4"#C4"J KLBMMM( ,' N1O( 34"5"( .' PO1*-' 6 7 4 8 % 9 :'( =Q7$ R'( -00O( </,$&,+8+5 2-%&+5$ 8,>).+#( 34"5"' 6 8 7 F 4 9 ; ? % S'( @ > ! 9 ; ? % L'( = " T 7 4 9 " 3'( -00O( D-1&,+' 8,>).+! & ),-,&."E +5FG (,*!)'FG@ $%/012 HIJKLM( DS!;?; " .!;?7.$;.#J LKB( 34"5"( .' -ON1 1-/*' N+F#$-%0,(.! OP"#$%"+!Q2)Q! %?R-+,?% ( )***( 47T' =' 3;!"U.9A( V..;!A$7C8' = ; W 7 9 @'( = ; X Q A ? ; ? % R'( = C , 7 4 " ='( -000( C,2$: +'/%(+5 $%/012 7 S&%( ! 0B5/18$! 1û.&!),-,( 34"5"' A*%/+5$ J2%F.!F, 18.),-T 8,>).+# O!$% F."5G% O!"#$! UJVCW X YZZ[7YZZ\ ( 34"5" -00<( .' ))1)/' Y C ! W R'( )***( 6%/012%&' -.+?&.2).$!] ^/&+5 &2)10( 34"5"' ZZZ'9;4XC.'X! [.#"$ G )<'0P'-00P 4'\ ZZZ'CFW'TA"!;]H'WG [.#"$ G )<'0P'-00P 4'\ ZZZ'CW$9'^^'WC$A'WG [.#"$ G )<'0P'-00P 4'\ ZZZ'ZZZ'9;4XC.'WG_A$#74W;4X [.#"$ G )<'0P'-00P 4'\ 378 !"#$%&'!% (!%) *'+,( - ./!01!2001 $!3 !'4%!% (!%) *'+,( - ./!01!2001 $!3 !&5("!66!5&(7!5-897,"#$%!:+;) *'+,( - ./!01!2001 $!3