Zadanie 3

Transkrypt

Zadanie 3
Eksploracja Zasobów Internetowych
Pracownia specjalistyczna, studia niestacjonarne, rok 2010/2011
Temat: Struktury danych do przechowywania treści stron WWW
1. Uruchom aplikację Weka Explorer.
2. Załaduj zbiór danych Departments-string.arff za pomocą przycisku Open file.
3. Zastosuj do wczytanych danych filtr StringToNominal. Znajduje się on na gałęzi drzewa
filters → unsupervised → attribute. Wejdź w konfigurację filtra i ustaw pole attributeRange
na first. Zastosuj filtr przyciskiem Apply.
4. Wybierz filtr o nazwie StringToWordVector.
5. Zastosuj filtr i sprawdź efekty jego działania – przycisk Apply, następnie Edit. Zwróć uwagę
na rodzaj powstałych kolumn (atrybutów) oraz wartości pojawiające się w komórkach
macierzy. Po obejrzeniu wyników cofnij działanie zastosowanego filtra wciskając przycisk
Undo.
6. Sprawdź działanie filtru dla innych wartości parametrów (nie wykonuj wszystkich
kombinacji; po wykonaniu danego podpunktu, wróć do wartości domyślnej; pamiętaj
o każdorazowym cofnięciu efektów działania filtra!):
◦ outputWordCounts: true, false,
◦ stemmer: IteratedLovinsStemmer, LovinsStemmer, NullStemmer, SnowballStemmer,
◦ tokenizer: AlphabeticTokenizer, NGramTokenizer, WordTokenizer,
7. Porównaj między sobą różne tryby działania filtra pod względem rodzaju generowanych
nazw kolumn (termów), ilości kolumn (ilości termów) oraz tworzonych wartości
znajdujących się w komórkach macierzy wynikowej.
-1-

Podobne dokumenty