Český národní korpus

Transkrypt

Český národní korpus
„Bohemistyka” 2008, nr 1–4, ISSN 1642–9893
ternetu dzia³a obecnie ponad 30 korpusów , z tego a¿ 15 korpusów jêzyków s³owiañskich! – w tej liczbie dwa polskie (IPI PAN", Korpusu
Dariusz TKACZEWSKI
Katowice – Ostrawa
Èeský národní korpus – internetowe Ÿród³o
standaryzacji i weryfikacji jêzyka czeskiego
oraz nowoczesne narzêdzie dydaktyczne
Czy tego chcemy, czy nie, stajemy siê spo³eczeñstwem informatycznym w coraz wiêkszym zakresie. Licz¹ca sobie prawie 30 lat globalna sieæ Internetu to nie tylko nieprzebrany informator – (strony www,
Ÿród³o wiedzy o œwiecie i ludziach w prawie wszystkich jêzykach),
natychmiastowy komunikator (korespondencja za poœrednictwem
³¹cznoœci mailowej i programów typu Gadu-Gadu), to jakby wszechobecny makler, urzêdnik bankowy czy sprzedawca sklepowy. Internet
powoli staje siê tez skutecznym i zawsze podrêcznym nauczycielem,
konsultantem oraz „stra¿nikiem” standardu i poprawnoœci jêzykowej
wielu jêzyków nowo¿ytnych, w tym wspó³czesnej czeszczyzny. Z biegiem czasu coraz wiêksz¹ popularnoœci¹ wœród u¿ytkowników jêzyków narodowych dbaj¹cych o ich poprawnoœæ staj¹ siê s³owniki internetowe, czyli odpowiednie witryny/strony www. przejmuj¹ rolê purystycznych s³owników jêzyka wspó³czesnego (poprawnego jêzyka, ortograficznego, frekwencyjnego, a tergo itp.). Takie leksykony wirtualne uzupe³niaj¹ te klasyczne s³owniki w formie ksi¹¿ki i multimedialnej p³yty CD, unowoczeœniaj¹ metody konsultacji jêzykowej oraz dostêpu do standardu jêzykowego, poprzez mo¿liwoœæ weryfikacji danej
jednostki jêzykowej natychmiast, w czasie rzeczywistym, on line.
W odniesieniu do jêzyka wspó³czesnego – zw³aszcza potocznego
i mówionego – rolê tak¹ w coraz wiêkszej mierze pe³ni¹ równie¿ tzw.
narodowe korpusy jêzykowe, doskonale dokumentuj¹ce te¿ p³aszczyzny stylistyczne jêzyków ogólnonarodowych. W cyberprzestrzeni In363
!"#$ %&"'()#* +,-.%#* /01)2&*034)%056 7&8/3 *.701/09: ;"0<0)6 =3<0&/3>
?&"'() @/3+)<3")-.AB ?&>>0/) ?&C(0>$ D E61 ;3/% &F G/H>0)6B I01<(J0K %3>C&)
<1%)<./3)B L3H.3" =17-1<0 M-NJ1H<O"B P?QR? S&"<(H(1)1 5&"'&"3B P71"053/
=3<0&/3> ?&"'()B &"$=1<TB MUMP==G ?&"'()B E61 S1// E"11C3/% S"&+15<B VRM
D W&"'&"3 $1" H1)56"01C1/1/ M'"3561B E61)3("() V/$&H1"73/0)561" E1X<D (/$ M'"3D
5673<1"03>01/ EVEUMB GGMEV YVZUMPWEVR @W&"'() 1)<&4)%056 <1%)<#* '"3*/0D
5-.56AB E61 ?&"'() &F M'&%1/ V)"31>0 [1C"1*B =1H"\ 5&"'() @M./<35<053>>.
P//&<3<1$ ?&"'() &F Z1"73/ =1*)'3'1" E1X<)AB MS]^W;P=WG= @G/ )'"_%>0H
"1F1"1/)$3<3C3) J0$ ZN<1C&"H) (/0J1")0<1<A`
W&"'(). /3"&$&*1 +,-.%#* )2&*034)%056: M>&J1/)%a /O"&$/a %&"'()B W&"'()
RVPIbZ c`d efg Ph g]B W&"'() VSV SP=B W&"'() f,-.%3 S&>)%01H& .$3*/05D
<*3 =3(%&*1H& S =B W&"'() )>&J1/)%1H3 +1-0%3 iVRPB C1)1$3 j ;1)1$0>/0
%&"'() /3 V/k<0<(<( -3 )>&J1/)%0 +1-0% i"3/3 ]37&Jk3 l]? MPlUB /&J3 C1)1$3B
W&"'() C&)3/)%06 <1%)<&J3 /3 U/0J1"-0<1<( ( b)>(B ?&"'() &F M1"C03/ I3/H(3H1B
;(>H3"03/ E"11C3/%B ?&"'() ?."0>>&DL1<6&$03/(7 [1>)0/H01/)1 P/ G>15<"&/05
?&"'() &F b>$ ?6("56 M>3J&/05 E1X<)B ]())03/ ?&"'&"3 0/ EmC0/H1/B Íàöèîíàëüíûé êîðïóñ ðóññêîãî ÿçûêà, Êîìïüþòåðíûé êîðïóñ òåêñòîâ ðóññêèõ ãàçåò
êîíöà ÕÕ-îãî âåêà, U''1" M&"C03/ E1X< ?&"'() j [&"/+&)1"C)%0 <1%)<&*. %&"'()`
W & " ' ( ) V S V S P = +1)< $(8.7 @&C15/01 '&/3$ noc ccc ccc )1H71/<#*AB
3/&<&*3/.7 7&"F&)./<3%<.5-/01B '(C>05-/01 $&)<,'/.7 %&"'()17 +,-.%3 '&>)%01D
H&B )<*&"-&/.7 '"-1- l1)'#2 V/8./01"00 I0/H*0)<.5-/1+ * V/)<.<(501 S&$)<3* V/D
F&"73<.%0 SP= @VSV SP=AB * "37356 '"&+1%<#* W&70<1<( ;3$34 =3(%&*.56 &"3* "37356 C3$34 )<3<(<&*.56 VSV SP=` E1%)<. *56&$-p51 * )%23$ W&"'()( VSV
SP= )p $&)<,'/1 * '&)<350 C0/3"/1+B (7&8>0*03+p51+ 23<*1 0 1F1%<.*/1 '"-1)-(%0D
*3/01 -3 '&7&5p $1$.%&*3/1H& &'"&H"37&*3/03 & /3-*01 S&>0q3"'` r```s )-.)<D
%01 -3)&C. *.701/0&/1 '&/081+B - *.+p<%017 W&"'()( !"#$%&' ()*&#*$+,-$*."```B
$&)<,'/1 )p &C15/01 /3 -3)3$356 &'0)3/.56 * /0/01+)-1+ (7&*01 >051/5.+/1+B
C1-'23</01` r```s n ` * . $ 3 / 0 1 W & " ' ( ) ( V S V S P = @73"-15 ncctA: '"#C%3
W&"'()( VSV SP= $&)<,'/3 /3 )<"&/01 6<<':QQ%&"'()`'>Qu '&/3$ vc 7>/` )1H71/<#*`
S&$&C/01 +3% <& 7032& 701+)51 * *.'3$%( *.$3/03 d`B /0/01+)-3 *1")+3 )37'>1 +1)<
%&"'()17 "#8/&"&$/.7 & /3)<,'(+p5.7 )%23$-01: '"&-3 *)'#25-1)/3: '&/3$ dcwB
'"&-3 $3*/3: '"3*01 dcwB <1%)<. %)0p8%&*1 /01C1>1<".)<.5-/1 @H2#*/01 /3(%&*1A:
dcwB '"3)3: ocwB )<1/&H"37. )1+7&*1 0 )1/35%01 @* <.7 - %&70)+0 !>1$5-1+A: dowB
()<3*.: ow` W & " ' ( ) ) 3 7 ' > 1 +1)< %&"'()17 "#8/&"&$/.7B 56&9 C.9 7&81 /01
-3)2(H(+p5.7 /3 703/& "1'"1-1/<3<.*/1H&B -3*01"3+p5.7 /3)<,'(+p51 "&$-3+1
<1%)<#*: '"&-3 *)'#25-1)/3: dcwB '"&-3 $3*/3: dcwB /3(%3: dcwB '"3)3: ocwB
!
"
364
Jêzyka Polskiego PWN ) i dwa korpusy czeskie (ÈNK, Korpus
DIALOG 0.1!).
!"#$%&'()
"*($+" ,
"#'-.," /+ !)( 0 .$(, *, 12"3-0"*45 6789 : !'+)5 78;
< 0) !.," !". !)9 0 +)*=!.,"( >&$0) 3'+#"* , #,"2,-0#)-? @&'%("#!A+ >&$0)
+ >AB-0" #"*9 >$-?$30= 0 $ !'!#,-? 67 2'!; C&$0' 3'+#' !$ >&0"3" + 0) !.,(
Dla pe³noœci obrazu w³aœciwym wydaje siê wyjaœnienie terminu
k o r p u s". Dopiero 9 znaczenie tego wyrazu wg SJP PWN# spe³nia
nasze wymogi: „teksty, dane itp. zgromadzone ze wzglêdu na sw¹
reprezentatywnoœæ, stanowi¹ce podstawê do analizy naukowej”. Mo¿na doprecyzowaæ to znaczenie w interesuj¹cym nas sensie lingwistycznym – jest to zespó³ udokumentowanych dowodów autentycznego
30,"B' 0 .$D-' EFE +; , >$-0=!.: EE +; G"* $H"-#$1I + .$&>: ," :0' '3#,$#' *" !
$H"-#$1-,= !'.,"* >&$0) + 1+,'3$($1-, 0H,$&$+"* C$2'.A+ 0' >$1&"3#,-!+"(
2".!:&
0.$2#)-? , ".&'#,0'-*,; @ & " . ; H , # ; ! ' & ; H 0 J K .$2"*#' +"& *' .$&>: :
S³ownika frekwencyjnego polszczyzny wspó³czesnej
/L:&-09 M"+,-.,9 N'(H$&9
N0'@&'#9 <$&$#-0'. 6OOP9 F# !)!:! GQ0).' C$2 .,"%$ CRS9 L&'.A+4; L$&>:
!"#
0$ !'B !+$&0$#) + 2'!'-? TP; :H,"%B"%$ !:2"-,' , 0'+,"&' >AB (,2,$#' BA+ K >$
6PP !) ; BA+ 05 !". !A+ >$>:2'&#$#':.$+)-?9 3&$H#)-? +,'3$($1-, >&' $+)-?9
!". !A+ >:H2,-) !)-0#)-?9 >&$0) '&!) !)-0#"* $&'0 3&'('!: '&!) !)-0#"%$; <0H$%'U
-$#' >$ !'I !"%$ .$&>: :9 0+'#'
!"#$%&#'() *#+,-./) 01#2'34% 5+/42/'&(67
'/$#9 3$ !Q>#' *" ! #' >&'+'-? C$+ 0"-?#"* M,-"#-*, C:H2,-0#"* VSW #'
!&$#,"
?!!>5XX+++;(,(:+;"3:;>2X>$2 0-0)0#'X; <,Q-"* ,#@$&('-*, $ .$2"*#)-? +"& *'-?
.$&>: : ($Y#' 0#'2"ZI + '&!).:2" 3$ !Q>#)( 0"
!&$#) ?!!>5XX+++;(,(:+;
"3:;>2X[* H,"#X\]XG+CP^X_ /+++;.$&>: ;>24;
`<)3'+#,-!+$ S':.$+" C<S >&0)%$!$+'B$ , :3$ !Q>#,B$
L$&>:
.B'3'
: GQ0).' C$2
,"-,$+= +"& *Q
. , " % $ C < S +,"2.$1-, aP PPP PPP BA+; L$&>:
,Q 0 @&'%("#!A+ ^bT &AY#)-? . ,=Y".9 Occ #:("&A+ 6b7 &AY#)-? %'0"!
, -0' $>, (9 ba #'%&'#)-? &$0(A+9 JPc !&$# ,#!"&#"!$+)-? $&'0 .,2.: "! :2$!".
&".2'($+)-?; C"B#' +"& *' ,"-,$+' .$&>: : *" ! 3$ !Q>#' $3>B'!#,"9 ' H"0>B'!#,"
+"& *' 3"($# !&'-)*#' +,"2.$1-, >$#'3 c97 (,2,$#' BA+; d;;;e L$&>: !$ 3$+$2#)
0H,A& !". !A+9 + .!A&)( -0"%$1
0:.'(); ] .$&>: '-? + !)( 0#'-0"#,: (A+,=
#'*-0Q1-,"* *Q0).$0#'+-)9 '2" !'.Y" '&-?,+,1-,9 ?, !$&)-) , ,#@$&('!)-); L$&>:
!". !A+ >$2 .,-? !$ @&'%("#!
B$+#,.$+"* .:-?#,9 -0)2, ':!"#!)-0#) ('!"&,'B
*Q0).$+)9 #' .!A&"%$ >$3 !'+," $>, :*"() 0#'-0"#,' BA+ , .$# !&:.-*,; f&A+#$U
+'Y"#," .$&>: : *" ! &A+#," +'Y#" *'. *"%$ +,"2.$1I; g&$H#" @&'%("#!) !". !A+
.$&>: :
= 0'(," 0-0'#" + >$ !'-, >$*"3)#-0)-? 03'D +
>&0).B'3) ,2: !&:*=-" 0#'-0"#,'; d;;;e S' 0 .$&>:
.B'3'
B$+#,.'-? *'.$
,Q 0 !". !A+ . ,=Y".9
-0' $>, (9 3&:.A+ :2$!#)-? , '.-)3"# $+)-? /#>; &".2'(9 ,# !&:.-*, $H B:%,9 &"%:U
2'(,#A+9 :2$!". +)H$&-0)-?49
h". !) . ,=Y".
!'&'()
!&$# ,#!"&#"!$+)-? $&'0 !". !A+ (A+,$#)-?;
,Q >$0) .,+'I $3 +)3'+-A+ + +"& *, "2".!&$#,-0#"*9
>)!'*=- >&0) !)( $ 0%$3Q ':!$&A+; < >AB-0" #" !". !) >&' $+" >&0"%&)+'()
0 +)3'D ,#!"&#"!$+)-? 2:H $!&0)(:*"() $3 &"3'.-*,; N!'& 0" !". !) >&' $+"9
&0'3.$ +0#'+,'#" . ,=Y., $&'0 3&:., :2$!#" .'#:*"(); h". !) (A+,$#" #'%&)+'U
() H"0>$1&"3#,$ /0' 0%$3= (A+,=-)-?4 2:H 0 &'3,' , !"2"+,0*,9 >$ -0)( >&0">, :*"U
365
(); N!$ :*"() + #,-? !&'3)-)*#= $&!$%&'@,Q /#," '2@'H"! @$#"!)-0#)49 '2" 0'-?$+:U
*"() + 0) !.," >$+!A&0"#,' , >&0"*Q0)-0"#,'; d;;;e C&0)%$!$+:*=- ('!"&,'B 3$
.$&>: : ,#!"&#"!$+"%$9 +)H,"&'2,1() 2$ $+$ @&'%("#!) . ,=Y". , -0' $>, (
0 &AY#)-? 30,"30,# +,"2.$1-, (#,"* +,Q-"* *"3#"%$ '&.: 0' /aP PPP 0#'.A+9 -0)2,
$.$B$ T PPP +)&'0A+49 0'B$Y)+ 0) :>&0"3#,$ !&:.!:&Q !"('!)-0#=; L$&>: ,#!"&U
#"!$+) 3$ !Q>#) *" ! + 3+A-? +"& *'-?5 3"($# !&'-)*#"* , >"B#"* +"& *, ,"-,$+"*9
&AY#,=-)-?
,Q $3
,"H," 2,-0H= >&AH". !". !$+)-? $&'0 >&$>$&-*= Z&A3"B_ /+++;
.$&>: ;>+#;>29 +++; *>;>+#;>24;
!
C&$*".! 2,#%+, !)-0#) L $ & > :
g F R M ] V !$ >"-*'2, !)-0#) .$&>: -0" 0U
-0)0#) (A+,$#"*; C&'-" #'3 #,( &$0>$-0Q!$ + &$.: 6OOc9 %3) :&:-?$(,$#$ ,#!"&U
83%9#$ 2 :23/&3/ 9-;!3
3 )%.!(' /83%9#$ </ .<=>= 93;? % .>+#6@4; f'+,"&' +)>$+,"30, >:H2,-0#" !)>: 3,'2$U
3) -)>2,#'&#) >&$*".! %&'#!$+) #' 2'!' 6OOTKJPP6 >!;
%$+"%$ /+)+,'39 3) .: *'9 3"H'!'9 >$2"(,.'9 !'2. ?$+4 , $H"*(:*" $# 0'>, ) $.;
^TP >&$%&'(A+ 3) .: )*#)-? >:H2,-0#"* , .$("&-)*#)-? !"2"+,0*, -0" .,-? /#>;
0/;)3A4%B C/;=9'? ,%+>3/B C% ,9#<D+'= .EEEB *+D.'F !>+D>(4;
0'-$+'#' *" ! #' J PPP PPP +)&'0A+; L$&>:
<,"2.$1I .$&>: :
B:Y) 3$ H'3'D #'3 -0" .,(
*Q0).,"( (A+,$#)(9 3$ $>, : !'#: *"%$ +"& *, >:H2,-0#"* $&'0 3$ 12"30"#,' *"%$
!"#3"#-*, &$0+$*$+)-?; <).$&0) !)+'#) *" ! !'.Y" 3$ &$0+$*: !"$&,, +)>$+,"30,9
3,'2$%: , 3) .:& :; g2'
0"&$.,"* >:H2,-0#$1-, ,#!"&#"!$+"* 0$ !'B' :3$ !Q>#,$#'
*"%$ .$2"*#' +"& *' K L $ & > :
g F R M ] V P ; 6 ; L$&>: !"# >$+ !'B #' H'0,"
F# !)!:!: GQ0).' i0" .,"%$ R.'3"(,, S':. ji0 /kGl RS lj4 + &'('-? >&$*".!:
G!/.43 6H!(4 )I23#'(
2 ;(.4-.(6'(&J ,+#$+%)%&J >/9/23!(6'(&J /K9-</'D A/L>3'% < >/9/<3!'?&J ;3.4-.7
'?&J ,#M%;/&J NOOPQNOOR4; C&$*".! !"# H)B &"'2,0$+'#) +" + >AB>&'-) 0 F# !)!:U
%&'#!$+"%$ R%"#-*, V&'#!$+"* RS ji0 /VR Rm lj4 >!;
!"( M,#%+, !)., n$&('2#"* , N!$ $+'#"* <)30,'B: \'!"('!)-0#$Un,0)-0#"%$ W#,U
+"& )!"!: L'&$2' + C&'30" /knRM \Unn WL4; < >&$*".-," !)( :-0" !#,-0)2, 3$U
1+,'3-0"#, H'3'-0" + >AB-0" #"%$ *Q0).' -0" .,"%$5 Nop!2' l("*&.$oq9 M:-,"
Gr2.$oq9 C"!& L'3"&.'9 G'#' L2r($oq9 L'(,2' \&q0.$oq9 f3"s.' No$H$3$oq4 $&'0
S,#$ C"!"&". /':!$& &$0+,=0'D !"-?#,-0#)-? >&$*".!:4; L$&>:
30,'B' + $>'&-,:
$ ("#'3Y"& $H B:%, \'#'!""Xt$#,!$ $>&'-$+'#) >&0"0 <)30,'B F#@$&('!)., W#,U
+"& )!"!: \' '&).' /nF \W4 + t&#,"; f' $H) .$&>: : gFRM]V P;6 $H"*(:*=
366
u¿ycia jêzyka naturalnego, rozleg³y zespó³ elektronicznych tekstów
celowo zgromadzony jako referencyjne Ÿród³o dla naukowej analizy
jêzyka. Rozbudowuj¹c powy¿sze znaczenie: k o r p u s j ê z y k o w y
to bardzo rozleg³y kompleks tekstów jêzyka naturalnego, którego powstanie i dalsze u¿ywanie mo¿liwe jest za pomoc¹ komputera. Jest to
zazwyczaj bardzo bogaty i skomplikowany system tekstów umo¿liwiaj¹cy bardzo wydajn¹ metodê analizy jêzykoznawczej nowej generacji. Zastosowanie korpusu jest pewnego rodzaju radykalnym prze³omem w lingwistyce, którego pok³osiem sta³o siê powstanie lingwistyki korpusowej. Korpus stanowi kompleks komputerowo zapisanych tekstów – w wypadku jêzyka mówionego jest nim zapis (a nawet
transkrypcja) nagrañ wypowiedzi – stanowi¹cych bazê do dalszych
badañ jêzykowych. Do aktywnego korzystania z jego zasobów s³u¿y
specjalny program wyszukuj¹cy. Przy jego u¿yciu mo¿na wyszukiwaæ wyrazy i konstrukcje wyrazowe w kontekœcie. Dodatkowo mo¿!"#$% "&'(&!)* +%$,*$%-./(' !"#$%&' 0( %$)$ !"# "*+1 "&%2!3./- 3/4/2# -# ,'5
)/&6%-./- 789: 4!3 ;<<<=>??@A B'&"*$ 'C/-)*-/ > 2/&$-/D ;1 2/&$-! .#/'"&!6'5
2!.! )'&E'4'(#6 .#/ !2#/&!-F6! ;? !"#$G2 ' 2#/4,'H6# <> ??? 2%&! G2 0'"6-/D
6!I'HJK "'$ 6 /(G4./ "&'(&!)%K 2%$ *,#2!.#/1K >!1 2/&$-! &L6 .#/ '"&!6'2!.!
0 &/2#+'2!.!1 )'&E'4'(#6 .#/ !2#/&!-F6! @ !"#$G2 ' 2#/4,'H6# M@ ??? 2%&! G2K
>C1 2/&$-! )!$ %.'2' '"&!6'2!.! 0 &/2#+'2!.!1 )'&E'4'(#6 .#/ !2#/&!-F6! <
!"#$G2 )'N4#2'H6#F &' $ /& './(' 2%$ *,#2!.#!K '+$I*6O* "& %,I!+G2 +P2#L5
,'2%6O '&! 2# *!4# !6-L ,& %2/- Q? 0'"6-/D !"#$ +P2#L,#/)K "& /$ *,#2!.#/
!"#$*
+P2#L,#/)1A R#L6/- #.E'&)!6-#D 222A*-6A6!$A6 S '++/4/.#S#.+/TA"O"U
"!(/VWX:Y8ZA
B'&"*$ = [ /$3!2 3/,$3G2 -L %,'2%6O /C&!.% 2 6/4* C!+!.#! -/(' $%$3/)*
4*C "'+$%$3/)*\ 0,*-.&)/0!"$' 123.&/3*'4564' /78)*!7/ ;<<<K $A ];<1A
!
^.!6 /.#/ 2%&! * &/90:5 0'+ I!6A -/90:5 _6#!I'`1 "'+!-L ! #.3/&./3'2%)
;/4*$&$!# 123.&' 0/)5&$!7/ <=>D [;1 6#!I' 6 I'2#/,! 4*C 2#/& L6#! '"&G6
(I'2% # ,'a6 %.b >1 !$!+.#6 ! 6 LHJ 6 /('Hb ]1 (IG2.! 6 LHJ C*+'24#b M1 2 !&6O#5
3/,3*& / "!I!6'2/-D 6/.3&!4.! 6 LHJ C*+%.,*b @1 2 !&6O#3/,3*& / $!,&!4./-D .!2'2!
6 LHJ ,'H6#'I!b c1 (IG2.! 6 LHJK .! ,3G&/- '"!&3! -/$3 6!I'HJ -!,#/('H *& F+ /.#!K
"& %& F+* #3"Ab d1 -/+.'$3,! 3!,3%6 .! $,I!+!-F6! $#L ,#4,* +%2# -# 4*C C&%(!+b e1
(&*"! N'I.#/& % )!-F6%6O 3!,# $!) $3'"#/a 2'-$,'2%b <1 3/,$3%K +!./ #3"A
(&')!+ './ / 2 (4L+* .! $2F &/"&/ /.3!3%2.'HJK $3!.'2#F6/ "'+$3!2L +'
!.!4# % .!*,'2/-\ 0222A$-"A"2.A"41A
367
na okreœliæ ich frekwencjê w korpusie oraz pierwotne Ÿród³o tekstowe. W dalszej kolejnoœci mo¿liwa jest dalsza obróbka (analiza) znalezionych hase³, np. porz¹dkowanie alfabetyczne czy te¿ w wypadku
niektórych korpusów ekscerpcja wed³ug przyjêtych kryteriów, np. rodzajów wyrazów. Opracowanie korpusowe jêzyka mówionego polega
na stworzeniu dostêpnych Ÿróde³ referencyjnych tego typu komunikacji werbalnej, co czêsto jest trudne i skomplikowane, gdy¿ jêzyk mówiony – jak polszczyzna tak i jêzyk czeski – z filogenetycznego
i ontogenetycznego punktu widzenia jest prymarn¹ form¹ komunikacji jêzykowej i w rzeczywistoœci (praktyce codziennej) uczestniczy
w niej a¿ w 90% . Tworzenie tego typu wzorcowych zbiorów leksyki
i struktur leksykalnych – a w konsekwencji obowi¹zuj¹cych standardów jêzykowych – poprzez zbieranie i obróbkê materia³u jêzykowego, udostêpnianie „zawsze i wszêdzie” oraz wykorzystanie wyników
do innych badañ lingwistycznych (np. frekwencja jednostek leksykalnych, psycholingwistyka, socjolingwistyka, itp.) i celów pragmalingwistycznych (np. tworzenie i redakcja podrêczników jêzyka, rozmówek itp.), staje siê dzia³aniem powszechnym tak¿e w zakresie jêzyków s³owiañskich.
W wielu oœrodkach jêzykoznawczych budowane s¹ ró¿ne typy elektronicznych korpusów jêzykowych w zale¿noœci od celów badawczych. Z uwagi na ich zakres mo¿emy wyró¿niæ k o r p u s y o g ó l n e i s p e c j a l n e. Typ ogólny staraj¹ siê uchwyciæ jêzyk w jak najpe³niejszym zakresie i pe³ni, s³u¿y do tworzenia s³owników. Typ specjalny obejmuje wê¿szy zakres wed³ug jakiegoœ przyjêtego kryterium; mo¿e to byæ korpus autorski (np. korpus dzie³ A. Mickiewicza
czy K. Èapka), korpus okreœlonego gatunku lub dzie³a literackiego
(np. dramatu romantycznego, Lalki B. Prusa, Przygód dzielnego wojaka Szwejka J. Haška), b¹dŸ korpus danego dialektu (np. œl¹skiego, hanackiego). Z historycznego punktu widzenia tworzone s¹ k o r p u s y
s y n c h r o n i c z n e i d i a c h r o n i c z n e – pierwsze dokumentuj¹
"
f' 6#/,!2/K 6O%C! .!-"/I.#/- '"&!6'2!.% # .!-C!&+ #/- &/"&/ /.3!3%2.%
g&%3%-$,# B'&"*$ 7!&'+'2% 0g7f1 "'$#!+! .!-2#L,$ F &/"&/ /.3!6-L )G2#'.%6O
-/+.'$3/, -L %,'2%6OK C! *-F6 -/+%.#/ .! ;?h 3/,$3G2 )G2#'.%6OA
368
jêzyk wspó³czesny, s¹ szeroko u¿ywane, a z uwagi na Ÿród³a nieocenionym zbiorem informacji o najró¿niejszych zjawiskach jêzykowych i pozajêzykowych oraz ich wystêpowaniu i u¿ywaniu w naturalnych kontekstach. Korpusy diachroniczne obrazuj¹ jêzyk starszy,
w przeciwieñstwie do synchronicznych oparte bywaj¹ na wzorcach
tekstowych o rozpiêtoœci zazwyczaj 2–5 000 wyrazów, ich tworzenie
jest bardzo pracoch³onne (elektroniczne skanowanie i rêczne przepisywanie tekstów), st¹d ich iloœæ jest znacznie ograniczona. Aspekty
sposobu komunikacji uwzglêdniaj¹ k o r p u s y j ê z y k a m ó w i o n e g o i k o r p u s y j ê z y k a p i s a n e g o. Z uwagi na pierwotnoœæ
komunikacji mówionej, redakcja (zestawienie) takich korpusów jest
bardzo czaso- i pracoch³onne (w pierwszej kolejnoœci zapis i transkrypcja nagrañ audio, a nastêpnie opracowanie lingwistyczne tekstów).
Korpusy jêzyka pisanego bazuj¹ na gotowych tekstach ksi¹¿ek, gazet
i czasopism najczêœciej w zapisie elektronicznym, jednak i te trzeba
poddaæ obróbce formalnej – ujednoliciæ format, „wyczyœciæ” z grafiki
i ilustracji oraz anotowaæ, czyli opatrzeæ notkami (danymi lub symbolami) o charakterze identyfikacyjnym (bibliograficznym), strukturalnym (segmentacja tekstów ci¹g³ych na rozdzia³y, akapity, zdania
i wyrazy) i lingwistycznym (lematyzacja , charakterystyka morfologiczna, s³owotwórcza, syntaktyczna i ew. semantyczna!"). Te czynnoœci wykonywane s¹ teraz automatycznie przez specjalne oprogramowanie komputerowe, podobnie jak konkordacja!! zjawisk i form, czyli
wystêpowania danej jednostki korpusowej w wybranym (zadanym)
przez u¿ytkownika dostatecznym kontekœcie oraz kombinacja wyrazów. Ostatni podzia³ wyró¿nia korpusy jednojêzykowe i wielojêzykowe (paralelne!#), w których wykorzystywane s¹ specjalne programy
zestawiaj¹ce (paruj¹ce) tzw. leaners’ corpora lub aligners, które obydwa zestawy tekstów „uk³adaj¹” obok siebie tak, by zdania, wyrazy
i ich po³¹czenia w obu jêzykach korespondowa³y ze sob¹. Takie korpusy maj¹ pierwszorzêdne znaczenie w praktyce translacji, gdy¿ proponuj¹ znacznie bogatsz¹ paletê ekwiwalentów t³umaczeniowych wyjœciowego wyrazu, frazeologizmu lub zdania, ni¿ dotychczasowe s³owniki przek³adowe. Niejednokrotnie ich skonfigurowany zasób leksykalny i frazeologiczny stanowi bazê coraz doskonalszych translatorów komputerowych, których sprawnoœæ ekwiwalencji osi¹ga ostatnio nawet 90%.
Na prze³omie XX i XXI wieku Uniwersytet Karola w Pradze!$
i Uniwersytet Masaryka w Brnie oraz Instytut Jêzyka Czeskiego AN
RCz (ÚJÈ AV ÈR) sta³y siê bardzo silnymi oœrodkami lingwistyki korpusowej o znaczeniu co najmniej europejskim, o sporym dorobku nie
tylko teoretycznym, ale i praktycznym. Du¿ym osi¹gniêciem jêzykoznawców czeskich jest licz¹cy sobie ju¿ prawie 14 lat elektroniczny
(internetowy) Czeski Korpus Narodowy – Èeský národní korpus
(ÈNK)!%, bêd¹cy rozleg³ym grantem akademickim, którego celem jest
stworzenie komputerowego korpusu przede wszystkim czeszczyzny
7%-)27+ )2;+7+ O6*29B ,-2;+D "2)6D )%$7+-6D ,*$!)6D 5!9:&+2D 7!)6*6 )%72)6&,-%D
!"#$%&#'(#
!" #$%&'
)*""#+ )*""#$,-
()*+%$",%-+%./ )! 01234!*2-+% 5$,6
723,6-!*67 5$,%)*2$,2-+8 9:,6;2 -2)8$2<-%#!' =>? @ <%;36;!#$2A++ 5$,65!$,B"C
;!*2-+% 9%"-!3);!7 )%;3)!*67 -2,* 9%"-!3)%;
123%4/ !5+36*2-6&1 * 34!*-+;8D
&,6<+ * +3)!&+% -25+3E* 348FB&6&1 "! *5$!*2",2-+2 +&1 "! 34!*-+;2' @ *652";8
-29&,:3)3,67 1234!*2-+% 5!<%#2 -2 5$,65+36*2-+8 34!*8 )%;3)!*%78 A!$76 5!"C
3)2*!*%9 <%;3%78 !5+36*2-%#! * 34!*-+;8D -5' 34!*8
.-# G 12342 ./!- ='''?H 012
3%-)%-&9%D 2<% -29&,:Q&+%9 3B -+7+ 34!*2 5!"2-% ,% 3*!+7+ ;!-)%;3)27+' ='''?
TO%&-+% ;!-;!$"2&9: 35!$,B",2 3+: -29&,:Q&+%9 -2 ;!758)%$,% 3)!3!*-+% "! ,27EC
*+%-+2 O2"2&,2 G , )%;3)8 <8O ;!$5838 ,25+32-%#! -2 -!Q-+;8 %<%;)$!-+&,-67H
'%3),.!4/# (5&%3,&1#6-$6# ,78)1!7,
!#
012
IJJJD 3' LIU/'
V! )65 ;!$583E* ,%3)2*+29B&6&1 9%"-2;!*! )$%Q&+!*% )%;3)6 * $EF-6&1 9:,6C
;2&1 G )%;3) $!",+76 * 3B3+%",)*+% 9%#! !O&!9:,6&,-%#! 5$,%;42"8 5$,%;42"E*/'
'%3),.!4/# (5&%3,&1#6-$6# ,78)1!7, IJJJD 3' KLMD LLN/
!"
9#7,6#1/! )! 5$,65+32-+% ),*' $#786D &,6<+ 367O!<+P,-2;E* "!"2*2-6&1 "!
5$!A' W' X%$7Y;D ;)E$6 0,2$2,+4H 5!7634%7 74!"6&1 O2"2&,6 + 3)*!$,64 , -+&1
A!$7 *6$2,!*6&1D &12$2;)%$6,89B&% 9% 5!" *,#<:"%7 #$272)6&,-67 + 3)6<+3)6&,-67'
5$:F-6 ,%35E4 5$!*2",B&6 ;+<;2 5$!9%;)E* #$2-)!*6&1 ,*+B,2-6&1 , XZ['
!!
:,13,;4#'(#
!" 42&'
',1',;4/# (,#!"2D 9%"-!QR./ 9%3) )! 0,%3)2*+%-+% *3,63)C
;+&1 %<%7%-)E* "2-%#! )658 *63):589B&6&1 * "2-67 )%;Q&+% <8O ;!$583+%' S<%C
369
!$
!%
T9&%7 5$!9%;)8 + 9%#! "8&1%7 35$2*&,67 9%3) *6O+)-6 &,%3;+ 9:,6;!,-2*&2
\"$%3 +-)%$-%)!*6 XZ[] ***'8&-;'AA'&8-+'&,D !" 52^",+%$-+;2 KUU_ $' $E*C
-+%F] ***';!$583'&,'
370
pisanej. Projekt ten stanowi prze³om w historii czeskiej lingwistyki,
by nie powiedzieæ rewolucjê w podejœciu do badania jêzyka i nawi¹zuje do najlepszych tradycji czeskiego jêzykoznawstwa (np. Praûský lingvistický krouûek). Opis jêzyka zak³ada mo¿liwie na najwiêkszym zasobie danych jêzykowych – na setkach milionów form wyrazowych, których wystêpowanie i frekwencjê mo¿e oceniæ za pomoc¹
ró¿nych metod matematycznych i statystycznych.
Zapleczem naukowym ÈNK sta³ siê Instytut Czeskiego Korpusu
Narodowego dzia³aj¹cy na Wydziale Filozoficznym Uniwersytetu
Karola w Pradze (Ústav Èeského národního korpusu FF UK). ! Od
swego powstania w roku 1994 zadaniem ÚÈNK jest opracowanie
i rozbudowanie ÈNK oraz dzia³ania wspieraj¹ce, szczególnie w dziedzinie badañ i popularyzacji dziedziny lingwistyki korpusowej. Prze³omowym osi¹gniêciem tego znacz¹cego i zas³u¿onego centrum lingwistyki komputerowej i korpusowej jest opracowanie ponad stumilionowego korpusu synchronicznego tekstów pisanych SYN2000 ".
W pracach nad ÈNK aktywnie uczestnicz¹ równie¿ lingwiœci i informatycy z prê¿nego morawskiego oœrodka bohemistycznego – Instytutu Jêzyka Czeskiego Wydzia³u Filozoficznego oraz Wydzia³u Informatyki Uniwersytetu Masaryka w Brnie (Ústav èeského jazyka FF
MU, FI MU). Pracownia brneñska od samego pocz¹tku aktywnie
uczestniczy w czeskich badaniach dot. lingwistyki korpusowej oraz
tworzeniu ÈNK, specjalizuj¹c siê redakcji programów komputerowych do automatycznej analizy morfologicznej jêzyka mówionego
oraz gromadzi i elektronicznie opracowuje dla potrzeb ÈNK specyficznie trudne teksty, np. wypowiedzi mówione i teksty prywatnej korespondencji. Obydwie placówki opracowa³y dodatkowo korpusy miej-
! "#$%# &''( $)*+ ,-./ "# 0)12 345!64789 :#;#% <=#>?6 0# .@$)!0A >BA!C D(E
F>$+*>+$# >5G) *)$:+3+H >5*3>I :+7=4%I3>I%605 J K'L9 >5*3>I 3:5%M#=43>I%605 J
&NL9 >5*3>I 75=5>$I3>I%605 J ONLE
#
FP.&''' 1 =4%67#%QH 145=*)RS !#0I%Q J & TU9 4=)RS M5!0)3>5* >5*3>)1I%Q J
D D'D9 4=)RS 3>$+*>+$ 6!#04)1I%Q J ( KDV D&O9 4=)RS 1I$#6W1 >5*3>)1I%Q X
YJ
O'' ''' ('Z9 4=)RS $W[0I%Q >I:W1 J O (KD \ODE
!
"
!"#$%
371
skich (regionalnych) odmian jêzyka czeskiego na bazie SYN2000 #:
Praûský mluvený korpus (dzia³a od 2001 roku) a Brnenský mluvený
korpus (2002). W placówce praskiej prowadzono tak¿e prace nad korpusami paralelnymi I n t e r C o r p – na lata 2005–2011 przyjêto projekt grantowy pt. Èeský národní korpus a korpusy dalších jazykù, którego celem jest zbudowanie paralelnych korpusów synchronicznych
dla wiêkszoœci jêzyków obcych studiowanych na UK w Pradze
(w planach 28 jêzyków), zawsze dla danego jêzyka i czeszczyzny.
Projekt ten ma szersze niekomercyjne cele; w oparciu o zgromadzone
dane bêd¹ prowadzone studia teoretyczne z leksykografii, translatologii, metodyki nauczania jêzyków obcych, opracowane zostan¹ komputerowe aplikacje do nauki i przek³adu jêzyków obcych. W fazie
pocz¹tkowej poszczególne pracownie filologii narodowych w obrêbie
UK stworz¹ pod nadzorem i opiek¹ merytoryczn¹ koordynatora programu korpusy narodowe jêzyków obcych $, które zostan¹ w fazie
póŸniejszej scalone i udostêpnione publicznie na centralnym serwerze
projektu.
Pierwotnie struktura Czeskiego Korpusu Jêzykowego obejmowa³a
kilka korpusów synchronicznych:
1) wspomniany ju¿ korpus tekstów pisanych SYN2000 % (pojemnoœæ
100 mln form wyrazowych);
2) korpus PUBLIC (20 mln, 1/5 ca³oœci leksyki korpusu SYN2000);
<$6I *)":)0)1#04+ *)$:+3W1 0#$)!)1I%Q 1 :$)M5*%45 ]0>5$^)$: 1I*)$6I_
3>#05 6)3>#02 0#3>8:+M2%5 `$W!;# >5*3>)15H :)$>#=5 111 a044 b+$):5M3*45M9 !)*+_
"50>I ab9 :$65:43I :$#105 ab9 :$)M5*>I /)03>I>+%M4 b+$):5M3*45M 4 +3>#1 c$#*_
>#>W1 b+$):5M3*4%Q X&' M86I*W1Y9 Fbbde^ J cQ5 F=#f4% #0! b#3> b+$):5#0
d#0G+#G5 e53)+$%5 ^50>5$9 g4*4:5!4#9 h^ia]F ^ jja.hach]eb j+=>4=40_
G+#= ^)$:+3 X"+=>4M86I*)1I *)$:+3 0# 7#645 >5*3>W1 =5G43=#>I10I%Q ab )! $)*+
OVN' !) 13:W;%6530)R%4Y9 j+=>5k>_b#3> J lOV\Zm ^)$:+39 !#>#7#65a^dE!)% X1I*#6
1)=0) !)3>8:0I%Q `$W!5; ):$#%)1#0I :$656 ]03>I>+> d4>5$#>+$I ^653*45M h. e^6YE
%
.# 7#645 FP.&''' :)13>#; *)$:+3 nF^&''' 4 M5G) 15$3M# !$+*)1#0#9 78!2%#
3;)104*45" o$5*150%IM0I" M86I*# %653*45G) XnE -5$"@*9 jE /B509
9 <$#Q# &''ZYE
$
&'#"(#$)$*
%+!($*" )#, -$.
372
3) korpusy na CD ROM – korpus SYNEK (10 mln, 1/10 leksyki),
korpus LITERA (ok. 3 mln, bazuje tyko na dzie³ach literackich);
korpus ORWELL (zasoby na bazie powieœci Rok 1984 G. Orwell’a);
4) korpusy jêzyka mówionego – PMK (Praûský mluvený korpus, 800
tys. form wyrazowych) i BMK (Brnìnský mluvený korpus, 600 tys.).
W paŸdzierniku 2005 roku ÈNK wraz z Czesk¹ Bibliotek¹ Narodow¹ uruchomi³ dla publicznoœci DÈNK (Diachronní sloûky ÈNK),
które s¹ dalej rozbudowywane; zasoby tego korpusu obejmuj¹ teksty
z ostatnich 700 lat czeskiej literatury (ok. 700 000 form wyrazowych),
co roku przybywa ok. 250 000 nowych jednostek. Na bazie DÈNK
powsta³ korpus DIAKORP (www.ucnk.ff.cuni.cz/diakorp.html), do
którego w³¹czono równie¿ powsta³e do 1989 roku teksty publicystyczne, specjalistyczne oraz artystyczne (do roku 1944). Prze³omowy
dla tego korpusu mo¿e byæ rok 2008, gdy planowana jest rozszerzona
lematyzacja w oparciu o tzw. hiperlemmaty (np. kùò), czyli wszystkie
wersje graficzne wystêpowania leksemu bez wzglêdu na jego ró¿ny
historycznie zapis (kóò/kuoò).
W latach nastêpnych nast¹pi³y istotne fakty dla bogactwa zasobów
i ca³okszta³tu dzia³ania ÈNK, w tym pojawi³y siê kolejne zaktualizowane i unowoczeœnione wersje:
– styczeñ 2006 – SYN2005 (100 mln wyrazów tekstowych tzw.
tokens) !;
– czerwiec ‘2006 – KSK-DOPISY (Korpus korespondencji prywatnej, zawiera zapisy 2 tys. rêcznie pisanych listów z lat 1990-2004,
projekt autorstwa ÚÈJ FF MU Brno);
– lipiec 2006 – zakoñczenie pe³nej lematyzacjê i adnotacji SYN2005;
– listopad 2006 – Èeský mluvený korpus ORAL2006 (Czeski korpus
jêzyka mówionego, 221 nagrañ z lat 2002-2006 o pojemnoœci 1 mln
wyrazów);
!
-,".#) </=>>? 21 .,"419%9*# ' </=>>>; ,.%"5 )*@ 9% 9*(8, *99(A )!"#$B
!#"'( 3"40(56 C(D(!"E)!E$% F G>HI .#CD*8E)!E$% F JJHI D*!("%!#"% ).(8A%D*)!E8'9% F =KH7
373
– grudzieñ 2006 – SYN2006PUB (synchroniczny niereprezentatywny korpus publicystyki pisanej o pojemnoœci 300 mln tokens),
– styczeñ 2007 – Bonito2 (www.ucnk.ff.cuni.cz/corpora; nowoczesna i wielofunkcyjna przegl¹darka i wyszukiwarka);
– grudzieñ 2007 – dodano Inverse Text Sort (program do wstecznego
segregowania zasobów);
– styczeñ 2008 – pojemnoœæ wszystkich zintegrowanych korpusów w
ramach ÈNK wynios³a 500 mln form wyrazowych, najnowsza lematyzacja oraz adnotacja morfologiczna (tagowanie).
Wspó³czesn¹ strukturê ÈNK ilustruje tabela 1.
Tabela 1. !"#$!#"% &'()$*(+, -,".#)# /%",0,1(+, 23"405,6 1117#89$7::78#9*78';
!"#$ %&'()%* #('+,"
-./01 2345678495.4:
-.;01 <9:5678495.4:
=:4> <9:5678495.4;?8
@/.3>: 5.;2>9;?8
!"#$%! +$*)+0 )+!%'. $)*#$
=:4> 2345678495.4;?8 @/.3>: 5.;2>9;?8
!"#$%! &'&%!"#'($ # )*'("$%+'"!($ ")&,-. $)($ . $/
)*#$ +$*)+0 '%! &% $1234!%*56"0) 7*#"!%*5 *'%&7)'"3
#87AB23 A92:4;
#87AB23 CDE984;
+% $.8 1%7&9 +$*)+0 +%!()/
*%0:'"!($ ;< =2( "0%! ,"
+$*)+'"0.8>? +$*)+0 +%!()2#/
+$%'"!($ ;'*@ ABB +0)@> # +$*/
)+0 1"!%'"$ ;'*@ <BB +0)@>
C'%&7) 4#!.8%'(#. (0
DEF<BBGHIJ
DEF<BBK
DEF<BBB
LDM<BBB
CDC/NOHPDE
DEFQC
RPSQTU
OTVQRR
#87AB23 A:7:F;F4;
H%! )*W =27X$(W
*'%&7)
J%(Y()*W =27X$(W
*'%&7)
OTUR<BBG
O:$Z=7Z$ "0:,% +$*)+,"
)+!%'. $)*#.8 '4 &#$%"/
) 0.8 !.8'"!(0.8 !/
:0+*," 4' 2!+ 7Z5+0.8
" *'%&7)#$ )0(.8%'/
(#. (0=
NPUCOTH
H%'Z$*+ P(+$%M'%&
ÈNK oferuje u¿ytkownikom szerokie zasoby, a w ich obrêbie dane
szczegó³owe:
374
1) typowe (wskazanie: centralne czy marginalne),
2) aktualne (synchroniczne i aktualne),
3) nieselektywne (niefiltrowane wed³ug jakiegoœ klucza lub subiektywnie),
4) obiektywne i realistyczne (Ÿród³a udokumentowane, rzeczywiœcie
zapisane),
5) dostateczne (wystarczaj¹co rozleg³e do poznania i opisu danego
zjawiska).
Pos³uguj¹c siê korpusem mo¿emy wyszukaæ:
1) konkretn¹ formê wyrazow¹ (wyraz tekstowy z kontekstem);
2) jednostki wielowyrazowe (np. wyra¿enia przyimkowe, frazelogizmy);
3) leksem lub has³o kluczowe (tzw. Lemmat);
4) czêœci mowy (przymiotnik, symbol/tag: adjektivum = „A.*”),
5) kombinacjê czêœci mowy i lemmatu.
$
J5;$):E$(<; "9E"(<025%< ;<?%+.0&( 2<&.9&52%< IJK !MNJOPPP3L '+,19 "9,5B
., *!, 7, "., ?!Q ,)<$)+"%(&L -'%Q -,)91(+0%(&L =!*%8G -,)9.H7"<&L $@Q (1(+%5
A.", A#B2, C+3&.7, D!(-, A'*!)Q (1(+%5 @<R.&(<L E.-#!, A."., F7., G"".,
H.".Q $)<.&(< 1(5.05L D-.5., I-"', D&:!J, K*(-.7., D-'*(;?'7, K&'0'$3Q &,5;<L LM,
NOG, P;0!3%', M$*%', O&'7!"*%', Q-."3#!, D'&*%', R(+&#! Q 1(5.05 )5=,5%($)%<L
E'*%7., D.B2@, P!S T'-%, I-.(#*&.7., U'" 8", V.*5#"9('", C2 !J, I!-&2", I-$*!&,
W20Q =+?)(%5L XYZYY J(<0,5?9$9;%5 &+2<;%+EA "9.0:-+"5%(5 ;<?%+.0<& "= &,90<B
,(#1 ',<&"<%$9;%<=+L 2($)>9L [, X, \, ], ^, _, Y, `, [Y, a, bQ &+%09%<%09L F7-'/.,
G0!-#%., G)-#%., G*#!, G$*(-+&#!, G"(.-%(# .Q ?%( 09=+?%(5L *'c'(., "! ;&!, /+(!%,
/'" ;&2, *(B! ., d(!-8, =(7-(!%Q 1(<.(8$<L :+B2, &! !", %7;(!", &#*('/. , =!-7!", B2?!",
$c!", cB!:!", *-/!", /-'*#"!3, =!-7!"!3, d"'- Q 2505L [bb^, [bb_, [bb], [bb`, [bb\,
[bbX, [bba,[bb[, [bbY, [bab, XYYY, [bbb Q -5,0(< -+2(09$)%< !.&,7093L KeO, LOOe,
KeG, feN, fOLE, HgeO, fOLQ 090#H9 %5#&+"< ( )5"+?+"< !.&,7093L R"9Z,
ENe-Z, ANe-Z, D5e-Z, E9-Z, MPe-Z, e-O3Z, ECe-Z, h5e-Z, D.!e-Z, MOe-Z, I3Z,
Mie- !""" #$%& '' $#%( $)*&+,-#.*&+,-#. /0123.
)+"<L
1:.&(<L
&$)(S.)!5#&)!)-.$!")$"%->8&!-#", -#/('/'&40!-"!6
-!&.(#7#*(#3%435, !(54&!" #'14)!"4&#*'/-'/4&.0#", =!*%'0'-.7*%'*&!:*%'3#%+"*%<5',
$%-.?#"*%'7#!(".0*%'&.'*%'=!*%8, (!35"'&'9#3%'!%'"'0#3%')#"."="2, "#%'(#".0# .6
J5;?H#@.)< $)<.&(< "9,5)9L
375
Oprócz charakterystyki statystycznej i frekwencyjnej (czêstotliwoœæ wystêpowania jednostki wyrazowej w korpusie czy jêzyku,
najpopularniejsze ! oraz najd³u¿sze wyrazy czeskie), jest to wspania³e narzêdzie daj¹ce mo¿liwoœci weryfikacyjne nie tylko specjalistom (jêzykoznawcom-bohemistom), ale tak¿e mi³oœnikom starannej
czeszczyzny, jêzykowym purystom oraz szerokiemu gronu u¿ytkowników, sprzyjaj¹c w ten sposób poprawnoœci jêzykowej, spe³niaj¹c
wymogi uzusu semantycznego. Dziêki ÈNK mo¿emy badaæ i opisywaæ ³¹czliwoœæ (tzw. kolokacjê) poszczególnych jednostek leksykalnych z innymi, weryfikowaæ jednostki frazeologiczne oraz walencjê
wyrazow¹ czy te¿ rekcjê czasowników ". Jako Ÿród³o elektroniczne
„on line” mo¿e reagowaæ natychmiast na pojawienie siê „nowinek”
w leksyce wspó³czesnej czeszczyzny, których nawet najnowsze drukowane s³owniki jêzyka nie uwzglêdniaj¹ (np. wyrazy pochodne);
sprawdziæ, który typ deklinacyjny dany leksem reprezentuje, czy dany
wyraz (neologizm) nie ma odmiany mieszanej #. U¿ytkownicy wspó³czesnego jêzyka czeskiego – rodowici Czesi i obcokrajowcy – dziêki
ÈNK mog¹ poznawaæ, wzbogacaæ i porównywaæ ojczysty i obcy zasób leksykalny (np. briefing/brifink, football/fotbal); skonfrontowaæ
warianty leksemów (np. alespoò/aspoò, aèkoliv/aèkoli) i ich stylistyczny ³adunek. W korpusie bez trudnoœci mo¿na poznaæ bogactwo cze!"#" #"$%&!'(# )'*)+(, $&(-.*$/!-%'"(-.0$&(#!1(-.$"#%+("2, 34%&'/!"(."'/!-54 -'6
)!"."(-!"'78, 9&43!-.& !54 )'*)+( !54 -'9!"+:'$, %'0$"#*(#3%'*'3#+&"; !0'%-.6
(#3%<5', 54/'(.&.0'54/')4:'. -!"'%'-(#%+&"2, )-."3'$:'=!>(#"'&.'*'-$>(#"'#" '6
=2">(#"'$ !""" #$%& '' $#%( $)*&+,-#.*&+,-#. /0123
!
425 6+25&7" #$)8$9$/ .(: ;:)9&5 $)<.&(<=+ ,<&$;5 $)5.+"%(&7" $)<.&($/
+ >,)1(<%(# -+?+>%91 ?+ -+2.&($/ !$):.0+ 5-,+&.915093 1+@< .-,5"(A "(<2< %(<B
.-+?)(5%<&
"
C)"
D$/"(<;%+EAF ,+?)5;# =,51509$)%<=+G %-
$)<.&( ,)<$)+"%(&
( ;<=+ D%(<;5.%9F -5,5?9=150 +?1(5%9 ( H8$)2("+EA %-
#
6,)9&H5?+"< A"($)<%(5 )5(%.-(,+"5%< IJKG ?+ &07,9$/ ?+H8$)+%9 ;<.0 &2#$)L
! "#$%&% '()%*+,)- ./0'01
!"#$ % &'''''''''( )*+, -.$# /01 23-! 425607*2 %8+ "*2'
9"%-,# :%26*;</* # 10-%2< =-, -,70> &'''''''''( :3$-=5 $ 1=0;*7 8$"!+<'
376
-$%'?02
) 2($)<>%(&51(
skiej synonimii (np. okreœlenia wartoœciuj¹ce). Dla bohemistów-dydaktyków jêzyka czeskiego (zw³aszcza cudzoziemców) jest to œwietny zasób/Ÿród³o æwiczeñ nie tylko leksykalnych ! – mo¿na za jego pomoc¹, poprzez celowe opuszczenie s³ów uczyæ i æwiczyæ poprawnoœæ
pozycji danego wyrazu tekstowego w kontekœcie czy te¿ szeregu syntagmatycznym. I chyba ostatnie praktyczne zastosowanie – dane
ÈNK s¹ nieocenione przy redagowaniu s³owników, logicznych spisów/wykazów informacji oraz obs³ugi translacyjnej osób nies³ysz¹cych, przy której nale¿y optymalnie ograniczyæ iloœæ œrodków komunikacyjnych do tych najniezbêdniejszych.
Jak wynika z powy¿szego funkcjonalnoœæ i wielowymiarowoœæ
ÈNK jest coraz bardziej doceniana przez bohemistów (w tym nauczycieli jêzyka i t³umaczy), jêzykoznawców i specjalistów od komunikacji spo³ecznej (dziennikarzy, twórców reklam), ale tak¿e przez ogó³
u¿ytkowników wpó³czesnego jêzyka czeskiego. Jest to Ÿród³o coraz
bardziej popularne i opiniotwórcze, o czym œwiadczy rosn¹ca z mie-
!"#$%&' ( )*********+ ,-./ &% 0(&1" 234&"5&67( 2(.4**
!!!"
#! $%&'(' )*+',-.+/ 012)2 . )3',-+* 4'-2 ().%*5 )' 6('%7,- 0' ) 62+62%8.+&+9,- :;8,9,)*06*(12<
0(=8>4+9 826=?'+(.,' +. )3',- @.6=1(;,- 0 A!!!!!!!!!B 1/6.:06/ C206*(2).1. (2(>
D%).1 +. 0)/
;820(> . E*1 C:>4.( .
62?>09? ?2 +
+. A!!!!!!!!!B ?>+>0(%. )+>(%. ! F8 %26= GHII +. D',-+
'62+2?>6= ,'1/-2 0(;(= > )3',- 2E&.+J E'K A!!!!!!!!!B! LK' C%2(2 C%;)'? 2&'6;).( 5
' K'4?/+
M! $%&'('5 ) 6('%/? C;8N 402= C280(.(+; 4?/+. ) =)'8'+7,- 62+('O(',- C2= >(. . ().%* 82C1P('<
02,>;1+9 C24>3(N+9 .(8! .(8! Q E*12 0)N:'+2 A28E2%+96!!!B . C%28'E.(2);+25 (.6 ' C%2R%.?
C=E1>62);+9 C:'8 ?2 +20(9 C28%2E>( 0)J4 (.1'+( AK62=3!!!!!!B 2C%.)82)20(>5 ) +9
0?%(> 4'-2 2(,' S=8 %.5 K.0)N(>1 0)J4
0' 1>('%;%+9
>)2( AC2?0(!!!!!!B . T0>19 2 2E+2)'+9 ?2,> 0)/-2 %28=
(2 :96.1. 8).6%;(! U-,'(' 0+.8 +*+9 A2(,!!!!!!!!B +N,2 )*(76.( V W +'E2 0+.8!!! !!!"
X! Y2C1P(' 012 '+; 012). 0 C%)+9 &;0(9
2(.(8 ) +;1'
>(/? ().%=<
?2-2= E7( )701'86* 4'-2 ,'0(* +. Z.1.4067 AC212!!!!!!!!!!B 2E2=0(%.++N C:94'?+7? C:'6).
K?N+9 ) ?%K+2=,9 8/3(! [' &()%('6 E=8' AC212!!!!!!!!!!B . 2E1.&+2 . 24'8>+N1' C:'-;P6*! \2&+9
0' 4'8+2 0'(6;+9 FYW 0 )21>&> 62+.12 C:'8 AC212!!!!!!!!!!B 0;16'? ZN0(06/ 6+>-2)+* ) ]%.K'!!!
I! Y2C1P(' 012 '+; 012). 0' K;61.8'? )1;8.<
02)N(067 C21>(>6 C20(=C+N ,-;C.(5 ' A!!!!!!)1;8.B +'+9 C%2 62+(%.C%28=6(>)+9 02)N(067 0*0(/?
C2?>+' 4.62 3C.(+/ KE2 9! ^'+2? ,;:>5 A!!!!!!)1;8.B . (.62)/ 012(* C2(%).49 )N&+N )N6J) 4.6
377
si¹ca na miesi¹c rzesza osób odwiedzaj¹cych portal ÈNK, wyszukuj¹cych has³a i konsultuj¹cych swe w¹tpliwoœci. W miarê wzbogacania zasobów Korpusu oraz mo¿liwoœci obliczeniowych u¿ytkowanego przez projekt sprzêtu i oprogramowania, jesteœmy œwiadkami
powstawania i krzepniêcia oraz dalszego optymalizowania funkcji
i mo¿liwoœci tego nowoczesnego i wszechobecnego dziêki Internetowi narzêdzia lingwistycznego, którego dalsze dziedziny zastosowañ
w naszym ¿yciu – nie tylko naukowym i akademickim – s¹ wszechstronne i nieodgadnione. Ju¿ niebawem przekonamy siê o tym.
Literatura
! " # $ % &'( )**+"( !"#$%&' (!)!*!+$! +,*%-. $%/012( 3,245/( ,' )-( .' /+01/+)'
! " # $ % &'( )**+2( 6%/012 7 12$1),8+9+: 2,+( ;&!/( ,' *( 34"5"( .' )+'
6 7 4 8 % 9 :' " 9;!'( -00+( </,$&,+8+5 2-%&+5$ 4-1&,+= 8,>).+#( 34"5"'
6 7 4 8 % 9 :'( ! " # $ % &'( -00/( 6%/012%&' -.+?&.2).$!@ A)!& ! 4%(,-%&= 0B52)10#(
34"5"'
6 7 4 8 % 9 :'( ! " # $ % &'( -00<( !$ &#1û5&!) C,2$: +'/%(+5 $%/012( 34"5"'
6 7 4 8 % 9 :'( = ! > 8 ; ? % @'( 3 7 # 9 7 ? A , B'( -000( A)1(., " $%/012%&= -.+?&.2).$#(
34"5"'
6 7 4 8 % 9 :'( = C 2 > , 7 9 3'( )**+( !"#$%&: $%/012 ! >$%-!( D67.9E F"GH9 " !A#7I
4"#C4"J KLBMMM( ,' N1O( 34"5"( .' PO1*-'
6 7 4 8 % 9 :'( =Q7$ R'( -00O( </,$&,+8+5 2-%&+5$ 8,>).+#( 34"5"'
6 8 7 F 4 9 ; ? % S'( @ > ! 9 ; ? % L'( = " T 7 4 9 " 3'( -00O( D-1&,+' 8,>).+! & ),-,&."E
+5FG (,*!)'FG@ $%/012 HIJKLM( DS!;?; " .!;?7.$;.#J LKB( 34"5"( .' -ON1
1-/*'
N+F#$-%0,(.! OP"#$%"+!Q2)Q! %?R-+,?% ( )***( 47T' =' 3;!"U.9A( V..;!A$7C8'
= ; W 7 9 @'( = ; X Q A ? ; ? % R'( = C , 7 4 " ='( -000( C,2$: +'/%(+5 $%/012 7 S&%( !
0B5/18$! 1û.&!),-,( 34"5"'
A*%/+5$ J2%F.!F, 18.),-T 8,>).+# O!$% F."5G% O!"#$! UJVCW X YZZ[7YZZ\ ( 34"5" -00<(
.' ))1)/'
Y C ! W R'( )***( 6%/012%&' -.+?&.2).$!] ^/&+5 &2)10( 34"5"'
ZZZ'9;4XC.'X! [.#"$ G )<'0P'-00P 4'\
ZZZ'CFW'TA"!;]H'WG [.#"$ G )<'0P'-00P 4'\
ZZZ'CW$9'^^'WC$A'WG [.#"$ G )<'0P'-00P 4'\
ZZZ'ZZZ'9;4XC.'WG_A$#74W;4X [.#"$ G )<'0P'-00P 4'\
378
!"#$%&'!% (!%) *'+,( - ./!01!2001 $!3
!'4%!% (!%) *'+,( - ./!01!2001 $!3
!&5("!66!5&(7!5-897,"#$%!:+;) *'+,( - ./!01!2001 $!3