podstawy zarządzania wiedzą
Transkrypt
podstawy zarządzania wiedzą
mgr inż. Jakub Siwiec ([email protected]) mgr inż. Cezary Graul ([email protected]) Katedra Informatyki w Zarządzaniu Wydział Zarządzania PODSTAWY ZARZĄDZANIA WIEDZĄ Ćwiczenia praktyczne nr 2 – Programowanie pierwszego procesu text-mining’owego Zadanie: Na podstawie zdobytej na poprzednich zajęciach bazy tekstów anglojęzycznych (30 artykułów, w 30 plikach tekstowych *.txt, w języku angielskim, o minimalnej długości 1800 znaków bez spacji) oraz zastosowaniu programu RapidMiner, zaprogramuj swój pierwszy proces text-mining’owy. Środowisko pracy: stwórz „nowy folder” na pulpicie o nazwie Imie_nazwisko, przekopiuj 1 plik tekstowy (z poprzednich zajęć) do nowoutworzonego folderu, otwórz program RapidMiner (Start Programy RapidMiner) w razie potrzeby ściągnij i zainstaluj (Strona WZ – materiały dla studenta). Pierwsza i druga kostka: stwórz „new process” i zapisz go jako swoje imię_i_nazwisko, bez polskich znaków, skorzystaj z lewego drzewka procesów – rozwiń „Text Processing”, przeciągnij proces „Read Document” na pulpit ekranu projektowego, o klikając na każdej kostce jednokrotnie masz możliwość sformułować założeń, o w opcji file wskaż skopiowany wcześniej plik tekstowy, o use file extesion as type – zaznaczone, dołącz proces tokenizacji, połącz go z poprzednim oraz doprowadź do punktu wynikowego uruchom procesy ikonką „play” i zapoznaj się z rezultatami, następnie wróć do okna projektowego (ikona ) dodaj kolejny proces „Filter Tokens (by length) o ustaw następujące założenia: min chars (min. il. Znaków) = 3) max chars= 25 uruchom ponownie procesy i sprawdź wyniki, 1 Autor: mgr inż. Jakub Siwiec Krok końcowy: z otrzymanych wyników można wykonać zrzuty ekranu, które następnie zostaną wklejone do dokumentu np. WORD, w celu ich zachowania i zaobserwowania zmian, pozostawić swój plik projektowy w programie RapidMiner usunąć dane z pulpitu, opróżnić kosz, wyłączyć komputer. 2 Autor: mgr inż. Jakub Siwiec