WEKA - wstęp, ARFF, filtry.
Transkrypt
WEKA - wstęp, ARFF, filtry.
Laboratorium 1. Instalacja systemu WEKA. Zapoznanie z formatem ARFF. Działanie filtrów. 1. Sprawdzić narzędzia WEKA do przeglądania danych (Tools/ArffViewer, Visualization/Plot). Otworzyć zbiór danych Contact-lenses z biblioteki WEKA. Sprawdzić ile jest atrybutów w zbiorze, jaki jest ich typ, jakie wartości oraz ile wierszy danych. 2. Powtórzyć te same czynności w środowisku graficznym wybierając Explorer/Preprocess/Open file. 3. Dla zbioru danych weather.arff z wartościami numerycznymi sprawdzić dla każdego atrybutu statystyki: wartość minimalna, maksymalna, średnia, odchylenie standardowe. 4. Zapoznać się z działaniem filtrów: typu Unsupervised/Attribute/Normalize – sprawdzić jak zmienia się wartość minimalna i maksymalna, typu Unsupervised/Attribute/Standardize – jak zmienia się wartość średnia i odchylenie standardowe, prześledzić działanie innych filtrów – help kontekstowy po ustaleniu filtra i kliknięciu prawym przyciskiem myszy na nazwie filtru. 5. Załadować plik weather.arff (numeric). - Podzielić wartości atrybutu humidity na 5 równych przedziałów korzystając z filtru Discretize. Reszta atrybutów numerycznych nie ulega dyskretyzacji. - Dokonaj zmiany kolejności atrybutów. Atrybut outlook musi zostać przesunięty na 4 miejsce. Kolejność reszty jest zachowana. Wykorzystaj filtr Reorder. - Spraw by wartości overcast i rainy były liczone jako jedna wartość overcast_rainy. Jaki filtr do tego wykorzystać ? Zapisz ten plik pod nazwą weather-filter.arff. Otwórz plik w edytorze i prześledź jego strukturę. 6. Utworzyć własny zbiór w formacie ARFF zawierający atrybuty: - ID studenta, -średnia ocen, -dochód na członka rodziny, -działalność społeczna, Klasa – czy stypendium. Zastanowić się nad doborem typów atrybutów i wypełnić 10 wierszy danymi. 7. Stworzyć plik XLS o atrybutach jak z zadania 5. Uzupełnić go również 10 wierszami danych. Skonwertować/zapisać ten plik jako CSV (comma separated values). Skopiować dane z tego pliku do pliku ARFF, który będzie teraz zawierał 20 rekordów.