Pobierz broszurę

Transkrypt

Pobierz broszurę
27.
03.
2014
Wa
r
s
z
a
wa
I
nde
k
s
owa
ni
et
r
e
ś
c
i
wt
e
or
i
i
i
pr
a
k
t
y
c
e
wa
r
s
z
t
a
t
y
Rosnąca liczba informacji cyfrowej uniemożliwia osobiste zapoznanie się z każdym ważnym czy chociażby przydatnym dokumentem. W celu ułatwienia sobie poruszania się w uniwersum cyfrowym korzystamy z wyszukiwarek, najczęściej o zasięgu globalnym. Jednakże również firmowe lub organizacyjne repozytoria danych powoli stają się zbyt duże dla pojedynczego użytkownika. W celu ułatwienia klientom dostępu do interesujących ich dokumentów warto wdrożyć własne narzędzie przeszukujące zbiór instytucjonalnych dokumentów elektronicznych. Celem warsztatów jest zaprezentowanie technik przetwarzania elektronicznych dokumentów tekstowych na potrzeby automatycznego indeksowania oraz wyszukiwania informacji. W trakcie zajęć zostaną również przeprowadzone ćwiczenia instalacji i konfiguracji serwera indeksującego wraz z wyszukiwarką oraz dostosowania zainstalowanego systemu do pracy z polskojęzycznymi dokumentami. Do udziału w zapraszamy: pasjonatów efektywnego wyszukiwania informacji, administratorów serwisów internetowych, administratorów instytucjonalnych repozytoriów dokumentów cyfrowych, bibliotekarzy, kierowników i pracowników działów IT bibliotek tradycyjnych i cyfrowych. KORZYŚCI Podczas warsztatów uczestnicy: • utrwalą i uporządkują sobie podstawy teoretyczne indeksowania treści i wyszukiwania informacji • poznają procesy przygotowania dokumentów do automatycznego indeksowania i wyszukiwania • porównają przydatność oraz skuteczność różnych konfiguracji narzędzi służących wstępnej optymalizacji tekstów do indeksowania • samodzielnie zainstalują system indeksująco wyszukiwawczy i skonfigurują go do pracy z tekstami w języku polskim • będą mieli okazję przetestować różne ustawienia systemu indeksującego oraz sprawdzić ich wpływ na efektywność procesu wyszukiwania informacji • zyskają praktyczne porady usprawnienia procesu indeksowania treści oraz zwiększenia skuteczności wyszukiwania informacji przez własne systemy wyszukiwawcze PROGRAM Zasady indeksowania pełnotekstowego Preprocessing tekstów: •
•
•
•
•
•
•
•
ujednolicenie strony kodowej plików, oczyszczenie ze znaczników (parsing), normalizacja tekstów – ujednolicanie wielkości liter, rozpoznawanie nazw własnych, metody przechowywania oraz identyfikowania tekstów (pojedyncze, zbiorcze), cztery strefy słownictwa (częste, charakterystyczne, gramatyczne, rzadkie), słowa małoznaczące, stoplist – listy słów nieznaczących, zasady tworzenia, dyskusja wpływu rozmiaru listy na efektywność wyszukiwania informacji, ujednolicanie zapisu wyrazów: ‐ stemming – wskazywanie wspólnego rdzenia, algorytmy, ‐ zasady stosowania dla języka polskiego, ‐ wpływ na koszty indeksowania oraz efektywność wyszukiwania informacji, Nova Skills Sp. z o.o. tel. (22) 100 45 55 KRS 0000477594 ul. Kolejowa 47/U23 01‐210 Warszawa fax. (22) 100 45 54 NIP 527‐270‐13‐34 www.novaskills.pl ‐ lematyzacja – wskazywanie podstawowej formy gramatycznej dla wyrazów, ‐ podejście słownikowe, dobór słownika, sposoby rozwiązywania homonimii. ‐ modyfikacja słownika form gramatycznych Indeksowanie treści – tworzenie reprezentacji tekstu: •
popularne sposoby indeksowania: ‐ słowozbiór (bag‐of‐words), ‐ model wektorowy (vector space model). • ważenie wyrazów – określanie znaczenia danego wyrazu w danym tekście ‐ na podstawie częstości, z uwzględnieniem częstości występowania w całej kolekcji, ‐ metody probabilistyczne OKAPI (BM25), ltu.ltu Dopasowywanie zapytań i indeksów: •
•
•
podobieństwo sinusa lub cosinusa kąta pomiędzy wektorami zapytania i dokumentu, metoda semi‐logiczna (logika Boole’a), podobieństwo dokumentów Ranking odpowiedzi Ocena efektywności systemu wyszukiwania informacji: •
miary relewancji: MAP, P@5, P@10, itp. Pakiet Lucene – najpopularniejsze otwarte oprogramowanie do indeksowania i wyszukiwania zasobów •
•
•
•
instalacja i konfiguracja pakietu Lucene, konfiguracja modułów dla języka polskiego, przygotowanie tekstów do indeksowania, ćwiczenia indeksowanie i wyszukiwanie informacji Pakiet SMART •
•
•
•
instalacja i konfiguracja pakietu Lucene, konfiguracja modułów dla języka polskiego, przygotowanie tekstów do indeksowania, ćwiczenia indeksowanie i wyszukiwanie informacji Biblioteki cyfrowe – indeksowanie plików DjVu: •
•
•
•
•
aplikacje do digitalizacji dokumentów w formacie DjVu, sposoby przechowywania plików DjVu, ekstrakcja warstwy tekstowej z plików, dostępne sposoby indeksowania zawartości plików DjVu, próba usprawnienia indeksowania. Nova Skills Sp. z o.o. tel. (22) 100 45 55 KRS 0000477594 ul. Kolejowa 47/U23 01‐210 Warszawa fax. (22) 100 45 54 NIP 527‐270‐13‐34 www.novaskills.pl Pakiet NLP Toolkit – (poziom przygotowania uczestników co najmniej średnio zaawansowany): •
•
•
instalacja pakietu, testowanie możliwości – indeksowanie kolekcji testowych (są w j.angielskim), generowanie statystyk frekwencyjnych tekstów, wyszukiwanie dokumentów podobnych, wyszukiwanie informacji, próba zastosowania pakietu dla zasobów polskich (konieczność programowania, najlepiej w j. Python) EKSPERT: dr Piotr Malak Dr Piotr Malak jest adiunktem w Instytucie Informacji Naukowej i Bibliologii UMK w Toruniu. Jego zainteresowania badawcze dotyczą zarządzania informacją, wyszukiwania informacji w dokumentach oraz inżynierii lingwistycznej. Bada statystyczne prawidłowości języka naturalnego na potrzeby ulepszenia narzędzi wyszukiwawczych. Interesuje się również efektywnym zarządzaniem czasem, zadaniami i komunikacją. Zainteresowania naukowe łączy z praktyczną znajomości technologii komputerowej i języków programowania, tworząc samodzielnie oprogramowanie na potrzeby badań naukowych. Jest stypendystą Funduszu Stypendialnego Szwajcarsko‐Polskiego Programu Współpracy SCIEX‐NMSch w Université de Neuchâtel w Szwajcarii, gdzie prowadził grant badawczy 11.219: 11.219 IRP – Information Retrieval and Text Categorization for Polish. Oprócz zajęć programowych prowadzi również autorskie, jak „Intranety”, „Systemy zarządzania wiedzą i informacją w organizacjach” czy „Projektowanie i zarządzanie systemem informacyjnym w firmie infobrokerskiej”. Prowadził wykłady gościnne na Uniwersytecie w Ankarze, Hogeschool van Amsterdam w Amsterdamie oraz na Uniwersytecie Wileńskim. INFORMACJE ORGANIZACYJNE W ramach uczestnictwa zapewniamy: Miejsce szkolenia: • drukowane materiały warsztatowe Golden Floor Millenium Plaza • kanapki na powitanie, lunch bufet, al. Jerozolimskie 123A nielimitowany bufet kawowy (kawa, 02‐017 Warszawa herbata, soki, woda, ciastka, owoce) Pokaż na mapie • certyfikat ukończenia warsztatów Godziny zajęć: 10:00‐16:00 Nova Skills Sp. z o.o. tel. (22) 100 45 55 KRS 0000477594 ul. Kolejowa 47/U23 01‐210 Warszawa fax. (22) 100 45 54 NIP 527‐270‐13‐34 www.novaskills.pl DANE UCZESTNIKÓW 1 osoba
Imię i Nazwisko Stanowisko Telefon 2 osoba Imię i Nazwisko
Stanowisko Email Telefon 3 osoba Imię i Nazwisko Stanowisko Email Telefon DANE OSOBY ZGŁASZAJĄCEJ (DO KONTAKTU) Imię i Nazwisko Stanowisko Email Telefon DANE FIRMY Nazwa Adres NIP Telefon/fax □ Oświadczam, że zapoznałem się z Regulaminem określającym warunkami uczestnictwa i akceptuję zobowiązanie do zapłaty całości kwot wynikających z niniejszego zgłoszenia. Jednocześnie oświadczam, że jestem osobą upoważnioną do zaciągania wynikających z niniejszego zgłoszenia zobowiązań wobec Nova Skills sp. z o.o. □ Zgodnie z ustawą z dnia 29 sierpnia 1997 r. o ochronie danych osobowych (Dz.U. 1997r. Nr 133 poz. 833) Nova Skills sp. z o. o. z siedzibą w Warszawie (dalej NS), informuje, że jest administratorem danych osobowych. Wyrażam zgodę na przetwarzanie danych osobowych w celach promocji i marketingu działalności prowadzonej przez NS, świadczonych usług oraz oferowanych produktów, a także w celu promocji ofert klientów Zgodnie z ustawą z dnia 18.07.2002 r. (Dz. Ust. 144 poz. 1204) o i partnerów NS. świadczeniu usług drogą elektroniczną wyrażamy zgodę na otrzymywanie drogą elektroniczną ofert oraz informacji handlowych dotyczących NS oraz partnerów i klientów Email NS. Wyrażającemu zgodę na przetwarzanie danych osobowych przysługuje prawo kontroli przetwarzania danych, które jej dotyczą, w tym także prawo ich poprawiania. □ Zgodnie z §3 rozporządzenia Ministra Finansów z dnia 17 grudnia 2010 r. w sprawie przesyłania faktur w formie elektronicznej, zasad przechowywania oraz trybu udostępniania organowi podatkowemu lub organowi kontroli skarbowej (Dz. U. z 2010 r. Nr 249 poz. 1661), oświadczam, iż zgadzam się na wystawianie oraz przesyłanie mi faktur elektronicznych na adres e‐mail księgowości wskazany w formularzu zgłoszeniowym. FORMULARZ ZGŁOSZENIOWY
Indeksowanie treści w teorii i praktyce 27 marca 2014 roku, Warszawa Golden Floor Millenium Plaza 550 zł + VAT do 11 marca 2014, później 1250 zł + VAT W ramach uczestnictwa zapewniamy: materiały drukowane, kanapki na powitanie, lunch bufet, nielimitowany bufet kawowy (kawa, herbata, soki, woda, ciastka, owoce) oraz certyfikat ukończenia szkolenia. REGULAMIN ZGŁOSZENIA 1. Warunkiem uczestnictwa w szkoleniu jest przesłanie do organizatora zgłoszenia oraz dokonanie wpłaty przed rozpoczęciem szkolenia na konto NS wskazane w potwierdzeniu. 2. Po otrzymaniu formularza zgłoszeniowego najpóźniej na 7 dni przed szkoleniem prześlemy Państwu oficjalne potwierdzenie uczestnictwa w szkoleniu na adres e‐mail osoby do kontaktu wskazanej w formularzu. 3. W przypadku wycofania zgłoszenia w terminie późniejszym niż 14 dni przed szkoleniem uczestnik zostanie obciążony kosztem w wysokości 50% wartości zamówienia. Wycofanie zgłoszenia w terminie późniejszym niż 7 dni przed rozpoczęciem szkolenia powoduje powstanie zobowiązania do zapłaty 100 % wartości zamówienia. Odwołanie zgłoszenia musi być dokonane w formie pisemnej. Możliwe jest zgłoszenie zastępstwa uczestnika inną osobą. NS zastrzega sobie prawo do zmiany ekspertów, miejsca szkolenia lub jego odwołania z przyczyn niezależnych. …………………………………………………………………………………………… PODPIS OSOBY UPOWAŻNIONEJ …………………………………………………………………………………………… DATA I PIECZĘĆ Nova Skills Sp. z o.o. tel. (22) 100 45 55 KRS 0000477594 ul. Kolejowa 47/U23 01‐210 Warszawa fax. (22) 100 45 54 NIP 527‐270‐13‐34 www.novaskills.pl