4. Tworzenie list frekwencyjnych za pomocą korpusów i programu

Transkrypt

4. Tworzenie list frekwencyjnych za pomocą korpusów i programu
WK, FN-1, semestr letni 2010
Tworzenie list frekwencyjnych za
pomocą korpusów i programu
Poliqarp
Natalia Kotsyba, IBI AL UW
24 marca 2010
Plan zajęć
●
●
●
●
●
Praca domowa na zapytania do Korpusu IPI PAN za
pomocą programu Poliqarp
Przegląd ćwiczeń na wyrażenia regularne (regexp):
analiza składni wyrażeń, sprawdzenie odpowiedzi
Metainformacje
Funkcje statystyczne Poliqarpa
Zadanie domowe
Rodzaje metainformacji w KIPI
(drugie wydanie)
autor: autor lub autorzy danego tekstu; odpowiada atrybutowi
author w pierwszym wydaniu Korpusu IPI PAN,
tytuł: tytuł; odpowiada atrybutowi title w pierwszym wydaniu
korpusu
styl (nowy atrybut): styl funkcjonalny; możliwe wartości to:
●
artystyczny (podstyle: proza, poezja, dramat),
●
publicystyczny,
●
literatura faktu,
●
naukowo-dydaktyczny (podstyle: naukowy humanistyczny,
naukowy przyrodniczy, naukowy techniczny, popularnonaukowy, podręcznik),
●
urzędowo-kancelaryjny (podstyle: protokół, ustawa),
●
informacyjno-poradnikowy,
●
potoczny
Rodzaje metainformacji w KIPI
(drugie wydanie)
●
●
●
●
●
●
●
medium (nowy atrybut): kanał publikacji; możliwe wartości to:
{prasa, książka, internet, rękopis}
wydawca (nowy atrybut): wydawca tekstu książkowego lub
prasowego,
miejsce_wydania (nowy atrybut): miejsce wydania tekstu
książkowego lub prasowego,
data_wydania: odpowiada atrybutowi published w pierwszym
wydaniu korpusu,
data_pierwszego_wydania: odpowiada atrybutowi
first_published w pierwszym wydaniu korpusu,
data_powstania: odpowiada atrybutowi created w pierwszym
wydaniu korpusu.
Wyszukiwanie wg metainfo
●
●
●
●
Aby znaleźć sekwencje pięciu rzeczowników
w dowolnym tekście naukowo-dydaktycznym
wydanym w postaci książki, należy zadać
następujące pytanie:
[pos=subst]{5} meta styl=naukowo-dydaktyczny &
medium=książka
Aby znaleźć podobną sekwencję w podstylu
naukowym humanistycznym, można posłużyć się
następującym zapytaniem:
[pos=subst]{5} meta styl=humanistyczny &
medium=książka
Atrybuty dat created, first_published i published
(na przykładzie pierwszego wydania)
●
●
●
●
●
można użyć znaków < i > w celu określenia przedziału
czasowego, np.: [pos=subst]{5} meta created>1950
przeszukiwanie ograniczone do utworów powstałych po roku
1950
Warunki dotyczące metadanych można łączyć za pomocą
operatorów &, | i !:
[pos=subst]{5} meta created>=1951 & created<=1960
utwory powstałe w latach 1951-1960
[pos=subst]{5} meta published>1900 & author!=Sienkiewicz
podaj interpretację tego zapytania
[pos=subst]{5} meta (author=sienkiewicz & title=potop) |
(author=żeromski & title=przedwiośnie) przeszukiwanie
ograniczone do Potopu Sienkiewicza i Przedwiośnia
Żeromskiego
Składnia Poliqarpa: statystyki
Jakie części mowy mogą występować bezpośrednio po
„w”? Czy może występować czasownik?
Jakie czasowniki są wykorzystywane najczęściej w
tekstach ustaw?
Jaki jest rozkład częstości form danego leksemu?
Co jest częściej używane w polszczyźnie kawa czy
herbata? Jaki jest rozkład częstości form tych dwóch
leksemów?
Jaki dzień tygodnia jest najczęściej wymieniany w
Korpusie? Jaki miesiąc? (A jaki dzień i miesiąc
najrzadziej?) Jakie miasto, kraj? Kolor? Co najczęściej
bywa białe, czarne, zielone, niebieskie, itd.?
Podaj regułę użycia form „w” i „we” za pomocą danych
korpusowych.
Składnia Poliqarpa: statystyki
Do zapytania dodajemy opcjonalny element GROUP BY,
informujący o tym, ze nie interesują nas konteksty
poszczególnych wystąpień, ale częstość określonych
zjawisk w rezultatach oryginalnego zapytania (np. form
danego rzeczownika, albo czasowników występujących
po danym wyrazie).
Tutaj i dalej za: Aleksander Buczyński „Propozycja
rozszerzenia składni zapytań programu Poliqarp o
elementy statystyczne” 2006.
Przykłady prostych zapytań
Zapytanie o częstość występowania poszczególnych
form leksemu woda:
[base=woda] group by orth
Jw., ale z rozbiciem na liczby i przypadki:
[base=woda] group by number, case
Jw., ale tak, by w tabelce wyników pojawiła się
również forma odpowiadająca danej liczbie i
przypadkowi:
[base=woda] group by number, case, orth
Zapytania obejmujące kilka segmentów
Częstość występowania poszczególnych czasowników w formach
finitywnych po wyrazie woda:
[base=woda][pos=fin] group by 2.base
Jw., ale z dopuszczeniem przysłówka pomiędzy woda a
czasownikiem:
[base=woda][pos=adv]{0,1}[pos=fin] group by -1.base
-1. oznacza tutaj pierwszy segment od końca wyniku. Analogicznie
-2. oznaczałby drugi segment od końca, -3. – trzeci itd.
Częstości występowania trójek przysłówków obok siebie:
[pos=adv]{3} group by 1.base, 2.base, 3.base
Lub: [pos=adv]{3} group by base, 2.base, 3.base
Sortowanie wyników
sort by freq – według częstości wystąpień
sort a fronte – alfabetycznie
Selekcja wyników
min n – tylko wyniki powtarzające się co najmniej n razy
Raz obliczone wyniki zapytania mogą być grupowane
wielokrotnie wg różnych kryteriów.
Domyślnie statystyka tworzona jest na podstawie próbki 1000
(prawie) losowo wybranych trafień, można zmienić dodając
np. count 10000 albo count all.
Domyślnie pokazywanych jest max. 20 wyników, można
zmienić dodając np. display 100 albo display all.
Kolokacje
Za pomocą wyżej opisanej składni da się wyrazić proste
zapytania o kolokacje, np. [][] group by base, 2.base sort
by freq
[pos="subst" & base="a.*"] group by base, orth sort by freq
488 wyników
[pos="subst"] group by base, orth sort by freq
852 wyniki
O czym świadczy ta różnica w ilościach?
Jakie dwa przypadki są najbardziej używane w języku
polskim? Jakie dwa najrzadziej?
Jak to zależy od znaczenia słowa?
Na jaką literę jest najwięcej przymiotników?
Praca domowa
1) Pisemne odpowiedzi na pytania na czerwono.
2) Proszę stworzyć słownik frekwencyjny języka polskiego na
podstawie 30mln próbki Korpusu IPI PAN z zaznaczeniem
części mowy oraz ograniczając wyniki do dowolnego
wybranego znacznika metadanych
Format pliku txt do wysłania:
lemat
część_mowy
np.: książe
subst
czas
subst
liczba_wystąpień
11
10
Tytuł i nazwa pliku powinny zawierać informację o
ograniczających metadanych, np. 1970-1980, Sienkiewicz,
publicystyka_lata_1960te, itd., np. sienkiewicz.txt

Podobne dokumenty