Zadanie 3
Transkrypt
Zadanie 3
Eksploracja Zasobów Internetowych Pracownia specjalistyczna, studia niestacjonarne, rok 2010/2011 Temat: Struktury danych do przechowywania treści stron WWW 1. Uruchom aplikację Weka Explorer. 2. Załaduj zbiór danych Departments-string.arff za pomocą przycisku Open file. 3. Zastosuj do wczytanych danych filtr StringToNominal. Znajduje się on na gałęzi drzewa filters → unsupervised → attribute. Wejdź w konfigurację filtra i ustaw pole attributeRange na first. Zastosuj filtr przyciskiem Apply. 4. Wybierz filtr o nazwie StringToWordVector. 5. Zastosuj filtr i sprawdź efekty jego działania – przycisk Apply, następnie Edit. Zwróć uwagę na rodzaj powstałych kolumn (atrybutów) oraz wartości pojawiające się w komórkach macierzy. Po obejrzeniu wyników cofnij działanie zastosowanego filtra wciskając przycisk Undo. 6. Sprawdź działanie filtru dla innych wartości parametrów (nie wykonuj wszystkich kombinacji; po wykonaniu danego podpunktu, wróć do wartości domyślnej; pamiętaj o każdorazowym cofnięciu efektów działania filtra!): ◦ outputWordCounts: true, false, ◦ stemmer: IteratedLovinsStemmer, LovinsStemmer, NullStemmer, SnowballStemmer, ◦ tokenizer: AlphabeticTokenizer, NGramTokenizer, WordTokenizer, 7. Porównaj między sobą różne tryby działania filtra pod względem rodzaju generowanych nazw kolumn (termów), ilości kolumn (ilości termów) oraz tworzonych wartości znajdujących się w komórkach macierzy wynikowej. -1-