podstawy zarządzania wiedzą

Transkrypt

podstawy zarządzania wiedzą
mgr inż. Jakub Siwiec ([email protected])
mgr inż. Cezary Graul ([email protected])
Katedra Informatyki w Zarządzaniu
Wydział Zarządzania
PODSTAWY ZARZĄDZANIA WIEDZĄ
Ćwiczenia praktyczne nr 2 – Programowanie pierwszego procesu text-mining’owego
Zadanie:
Na podstawie zdobytej na poprzednich zajęciach bazy tekstów anglojęzycznych (30 artykułów, w 30
plikach tekstowych *.txt, w języku angielskim, o minimalnej długości 1800 znaków bez spacji) oraz
zastosowaniu programu RapidMiner, zaprogramuj swój pierwszy proces text-mining’owy.
Środowisko pracy:



stwórz „nowy folder” na pulpicie o nazwie Imie_nazwisko,
przekopiuj 1 plik tekstowy (z poprzednich zajęć) do nowoutworzonego folderu,
otwórz program RapidMiner (Start  Programy  RapidMiner) w razie potrzeby ściągnij i
zainstaluj (Strona WZ – materiały dla studenta).
Pierwsza i druga kostka:




stwórz „new process” i zapisz go jako swoje imię_i_nazwisko, bez polskich znaków,
skorzystaj z lewego drzewka procesów – rozwiń „Text Processing”,
przeciągnij proces „Read Document” na pulpit ekranu projektowego,
o klikając na każdej kostce jednokrotnie masz możliwość sformułować założeń,
o w opcji file wskaż skopiowany wcześniej plik tekstowy,
o use file extesion as type – zaznaczone,
dołącz proces tokenizacji, połącz go z poprzednim oraz doprowadź do punktu wynikowego

uruchom procesy ikonką „play” i zapoznaj się z rezultatami,


następnie wróć do okna projektowego (ikona
)
dodaj kolejny proces „Filter Tokens (by length)
o ustaw następujące założenia: min chars (min. il. Znaków) = 3) max chars= 25
uruchom ponownie procesy i sprawdź wyniki,

1
Autor: mgr inż. Jakub Siwiec
Krok końcowy:





z otrzymanych wyników można wykonać zrzuty ekranu, które następnie zostaną wklejone do
dokumentu np. WORD, w celu ich zachowania i zaobserwowania zmian,
pozostawić swój plik projektowy w programie RapidMiner
usunąć dane z pulpitu,
opróżnić kosz,
wyłączyć komputer.
2
Autor: mgr inż. Jakub Siwiec

Podobne dokumenty