Forma Główny cel kursu Umiejętności nabywane przez studentów

Transkrypt

Forma Główny cel kursu Umiejętności nabywane przez studentów
WYDOBYWANIE I WYSZUKIWANIE INFORMACJI Z INTERNETU
Forma
wykład: 30 godzin
laboratorium: 30 godzin
Główny cel kursu
W ramach kursu studenci poznają podstawy stosowanych powszechnie metod
wyszukiwania informacji oraz technik implementacji wyszukiwarek internetowych jak i
znaczące ograniczenia tej technologii. Główny nacisk jest położony na poznanie metod
zmierzających do przezwyciężenia tych ograniczeń (elementy inżynierii języka
naturalnego i ekstrakcja informacji).
Ponadto studenci zostaną zapoznani z istniejącymi metodami dostępu do informacji
wielojęzycznej (automatyczne tłumaczenie i wielojęzyczna ekstrakcja informacji).
Umiejętności nabywane przez studentów
Po ukończeniu kursu studenci będą posiadali niezbędne umiejętności aby:
• zastosować metody wyszukiwania informacji w sposób dostosowany do
postawionego zadania,
• posłużyć się dostępnymi zasobami i narzędziami językowymi w wyszukiwaniu
informacji,
• zpersonalizować pracę systemu wyszukiwania informacji,
• uczestniczyć w procesie budowy zasobów językowych,
• skonstruować niektóre narzędzia językowe,
• zaprojektować i skonstruować system ekstrakcji informacji dla postawionego
zadania,
• wykorzystać sieć semantyczną w dostępie do informacji tekstowej,
• skonstruować prosty system automatycznego tłumaczenia,
• śledzić rozwój metod i technologii dostępu przetwarzania informacji tekstowej.
Wymagania wstępne:
Zaliczenie kursu:
Programowanie obiektowe
Program wykładu
1. Wprowadzenie (1h)
1.1.
Morze elektronicznych dokumentów o niedostępnej treści:
• ograniczone możliwości odnalezienia potrzebnej informacji,
• ograniczone możliwości poznanie odnalezionej informacji.
1.2.
Wyszukiwanie informacji jako technologia stosowana powszechnie.
1.3.
Technologie wchodzące do użycia: elementy inżynierii języka naturalnego
w wyszukiwaniu, strukturalizacja oparta na XML i sieciach semantycznych,
ekstrakcja informacji, automatyczne tłumaczenie, ...
2. Elementy wyszukiwania informacji (Information/Document Retrieval) (9h)
2.1.
2.2.
•
•
•
2.3.
•
•
•
•
2.4.
•
•
•
•
2.5.
•
•
•
•
•
2.6.
•
•
Podstawowe pojęcia, zadania i kryteria oceny (dokładność i kompletność)
Modele systemów wyszukiwania informacji:
model boolowski,
model wektorowy,
model probabilistyczny.
Konstrukcja wyszukiwarki internetowej:
przyczyny dominacji modelu boolowskiego,
metody indeksowania: przedmiot indeksowania, organizacja indeksu
(odwrócona lista terminów),
języki zapytań,
metody rankingu dokumentów odpowiedzi.
Elementy inżynierii języka naturalnego
tokenizacja,
analiza morfo-syntaktyczną: steming, konwersja do formy podstawowej,
pełny opis, ujednoznacznianie morfo-syntaktyczne,
płytki parsing (shallow parsing) i rozpoznawanie fraz,
analiza semantyczna w obszarze semantyki leksykalnej: ujednoznacznianie
sensów, identyfikacja klas (pól) semantycznych (tezaurus), relacje
semantyczne (synonimia, hypernimia, meronimia, troponimia itd.)
Elementy inżynierii języka naturalnego w poprawie jakości wyszukiwania:
identyfikacja form w oparciu o analizę morfo-syntaktyczną,
identyfikacja wyrażeń wielosłowowych,
identyfikacja dziedziny (poprzez klasy i pola),
zawężanie/rozszerzanie zapytania w oparciu o podobieństwo znaczeniowe
terminów lub tezaurus
automatyczna konstrukcja tezaurusa (typy tezaurusów)
Personalizacja wyszukiwania:
profil użytkownika i jego dynamika,
wyszukiwanie dokumentów podobnych do wskazanych.
3. Filtrowanie informacji (2h)
3.1.
Możliwości i ograniczenia filtrowania w oparciu o metody wyszukiwania
informacji.
3.2.
Podobieństwo dokumentów, klasy dokumentów i wsparcie w nawigacji.
3.3.
Klastrowanie dokumentów odpowiedzi.
4. Sieci semantyczne (Semantic Networks/Semantic Web) (3h)
4.1.
Sieć semantyczna jako rodzaj leksykonu:
• globalna sieć lokalnych leksykonów specyficznych dla dziedziny,
4.2.
Standardy sieci semantycznych,
4.3.
Wykorzystanie sieci semantycznych do opisu dokumentów,
4.4.
Dokumenty strukturalne.
5. Ekstrakcja informacji (Information Extraction)(4h)
5.1.
Cele, sposób formułowania zadania i obszar zastosowania:
• teksty o charakterze informacyjnym,
• głównie wydobywanie informacji o zdarzeniach i bytach w nie
zaangażowanych,
• konferencja i konkurs serii MUC (Message Understanding Conference),
• przykłady systemów i realizacji zadań,
• ocena istniejących systemów, praktyczne zastosowania, perspektywy rozwoju.
5.2.
Zasoby językowe:
• korpusy (oznaczone/nieoznaczone), zbiory testowe,
• tokenizatory,
• słowniki morfo-syntaktyczne, analizatory morfologiczne, tagery
(dehomonimizatory),
• słowniki wyrażeń wielosłowowych,
• słowniki wzorców wymagań syntaktyczno-składniowych (np. FrameNet),
• leksykony semantyczne,
• tezaurusy hierarchiczne: leksemów (np. WordNet), pól semantycznych (np.
Roget),
• gramatyki,
• bazy wiedzy ogólnej (np. CYC) i dziedzinowej.
5.3.
Paradygmaty konstrukcji systemu
• podejście oparte na inżynierii wiedzy (Knowledge Engineering Approach),
• podejście oparte na maszynowym uczeniu się (Automatic Training Approach)
5.4.
Architektura systemu i dostępne systemy szkieletowe:
• tokenizacja,
• przetwarzanie morfologiczne i leksykalne,
• analiza składniowa,
• analiza dziedzinowa
5.5.
•
•
5.6.
•
•
•
Identyfikacja nazw własnych:
metody,
rozpoznanie synonimii i klasyfikacja.
Koreferencja:
identyczność referenta,
względna lokalizacja w czasie i przestrzeni,
różne formy anafory.
6. Analiza dziedzinowa w obrębie IE (4h)
6.1.
•
•
6.2.
•
•
6.3.
•
•
Wzorce ekstrakcji:
ich sformułowanie/pozyskanie,
zastosowanie wzorców do wydobycia informacji,
Paradygmaty konstrukcji wzorców ekstrakcji:
podejście molekularne (molecular approach),
podejście atomowe (atomic approach).
Ogólna wiedza lingwistyczna
pełny parsing (‘głęboki’) i ograniczenia jego zastosowania
wzorce parametryczne i ich powiązanie ze specyficznymi dla konkretnego
zastosowania.
6.4.
Proces ekstrakcji:
• technologia oparta na transduktorach (maszynach skończenie stanowych),
• konwersja do postaci wymaganej.
7. Automatyczne tłumaczenie (Machine Translation) w dostępie do
informacji (5h)
7.1.
Typy systemów:
• bezpośrednie (direct), oparte na transferze, oparte na języku pośrednim
(interlingua)
7.2.
Istniejące systemy i ich praktyczne zastosowania.
7.3.
Architektura systemu opartego na transferze
7.4.
Dodatkowe zasoby językowe:
• słowniki dwujęzyczne leksemów,
• słowniki dwujęzyczne wyrażeń wielosłowowych (w tym idiomów).
7.5.
Problemy praktyczne stosowania tagerów i parserów.
7.6.
Problem wyboru tłumaczenia niejednoznacznych leksemów/wyrażeń.
7.7.
Konstrukcja reguł transferu.
7.8.
Generacja wypowiedzi w języku docelowym
8. Wybrane metody analizy znaczenia tekstu (2h)
8.1.
8.2.
8.3.
Ekstrakcja wiedzy (Text Mining=IE + Data Mining).
Automatyczna generacja słów kluczowych i streszczenia.
Pełna analiza znaczenia (Text Understanding)
Program laboratorium
Zadanie 1 (4h)
Konstrukcja systemu wyszukiwania w ograniczonym zbiorze dokumentów w oparciu o
model boolowski/wektorowy (do wyboru).
Zadanie 2 (4h)
Konstrukcja funkcji identyfikującej w zbiorze dokumentów dokumenty podobne do
wskazanego/wskazanych.
Zadanie 3 (6h)
Automatyczna konstrukcja tezaurusa na podstawie dostępnego zbioru dokumentów
(wybór metody pozostawiony zostaje studentowi),
lub (drugi wariant do wyboru)
propozycja i implementacja metody rankingu wyszukanych dokumentów.
Zadanie 4 (4h)
Budowa programu wspierającego użytkownika w sformułowaniu zapytania właściwego
do poszukiwanych dokumentów (dla uproszczenia przyjmujemy założenie
ograniczonego zbioru dokumentów).
Zadanie 5 (6h)
Konstrukcja prostego systemu ekstrakcji informacji dla podanego zadania oraz
korpusów tekstów: przykładowych (znanych studentowi) i testowych (nieznanych w
trakcie realizacji), na bazie systemu szkieletowego.
Zadanie 6 (6h)
Budowa prostego systemu automatycznego tłumaczenia dla bardzo ograniczonej
dziedziny w oparciu o istniejący parser.