Laboratorium 2. Poznanie zbioru danych churn („churn” = „wskaźnik
Transkrypt
Laboratorium 2. Poznanie zbioru danych churn („churn” = „wskaźnik
Laboratorium 2. Poznanie zbioru danych churn („churn” = „wskaźnik utraty klientów”). Zad.1 Przejrzyj plik churnPL.txt. Zamień go na format: XLS (otwórz w Excelu) oraz na format ARFF (otwórz w programie WEKA). Zad.2 Za pomocą Excela zbadać w zbiorze churn zależności między następującymi atrybutami 1. dzień minuty i dzień rozmowy, 2. dzień rozmowy i dzień opłata, 3. dzień minuty i dzień opłata, oraz analogiczne zależności dla atrybutów dotyczących rozmów wieczorem, w nocy i międzynarodowych. Wykorzystać wzór na współczynnik korelacji Pearsona: Zad.3 Wykorzystując histogramy/wykresy w programie WEKA sprawdzić: 1. czy wartość zmiennej churn zależy od wartości atrybutu Plan międzynarodowy, 2. jaka jest zależność churn od atrybutu liczba rozmów z BOK, 3. prześledzić histogram atrybutu - Wieczór minuty - klienci z dużą liczbą wykorzystanych minut wieczorem mają mała tendencją do rezygnacji, 4. klienci z dużą liczbą wykorzystanych minut w ciągu dnia częściej rezygnują. Przekształcić atrybut Noc minuty przy pomocy standaryzacji i sprawdzić, jaka jest wartość średnia i odchylenie standardowe przekształconych danych. Zad.4* Spróbować zbadać korelację jak w zadaniu 2, ale przy użyciu WEKI. WEKA najprawdopodobniej wykorzysuje i wyświetla współczynnik korelacji przy użyciu niektórych narzędzi klasyfikacji. Można jednak spróbować odpalić konsolową wersję WEKI i użyć narzędzia bezpośrednio: correlation public static final double correlation(double y1[], double y2[], int n) Returns the correlation coefficient of two double vectors. Parameters: y1 - double vector 1 y2 - double vector 2 n - the length of two double vectors Returns: the correlation coefficient