WEKA - wstęp, ARFF, filtry.

Transkrypt

WEKA - wstęp, ARFF, filtry.
Laboratorium 1.
Instalacja systemu WEKA. Zapoznanie z formatem ARFF. Działanie filtrów.
1. Sprawdzić narzędzia WEKA do przeglądania danych (Tools/ArffViewer, Visualization/Plot).
Otworzyć zbiór danych Contact-lenses z biblioteki WEKA. Sprawdzić ile jest atrybutów w
zbiorze, jaki jest ich typ, jakie wartości oraz ile wierszy danych.
2. Powtórzyć te same czynności w środowisku graficznym wybierając
Explorer/Preprocess/Open file.
3. Dla zbioru danych weather.arff z wartościami numerycznymi sprawdzić dla każdego atrybutu
statystyki: wartość minimalna, maksymalna, średnia, odchylenie standardowe.
4. Zapoznać się z działaniem filtrów:
typu Unsupervised/Attribute/Normalize – sprawdzić jak zmienia się wartość minimalna i
maksymalna,
typu Unsupervised/Attribute/Standardize – jak zmienia się wartość średnia i odchylenie
standardowe,
prześledzić działanie innych filtrów – help kontekstowy po ustaleniu filtra i kliknięciu prawym
przyciskiem myszy na nazwie filtru.
5. Załadować plik weather.arff (numeric).
- Podzielić wartości atrybutu humidity na 5 równych przedziałów korzystając z filtru
Discretize. Reszta atrybutów numerycznych nie ulega dyskretyzacji.
- Dokonaj zmiany kolejności atrybutów. Atrybut outlook musi zostać przesunięty na 4
miejsce. Kolejność reszty jest zachowana. Wykorzystaj filtr Reorder.
- Spraw by wartości overcast i rainy były liczone jako jedna wartość overcast_rainy. Jaki filtr
do tego wykorzystać ?
Zapisz ten plik pod nazwą weather-filter.arff. Otwórz plik w edytorze i prześledź jego
strukturę.
6. Utworzyć własny zbiór w formacie ARFF zawierający atrybuty:
- ID studenta,
-średnia ocen,
-dochód na członka rodziny,
-działalność społeczna,
Klasa – czy stypendium.
Zastanowić się nad doborem typów atrybutów i wypełnić 10 wierszy danymi.
7. Stworzyć plik XLS o atrybutach jak z zadania 5. Uzupełnić go również 10 wierszami danych.
Skonwertować/zapisać ten plik jako CSV (comma separated values). Skopiować dane z tego
pliku do pliku ARFF, który będzie teraz zawierał 20 rekordów.

Podobne dokumenty