Laboratorium 2. Poznanie zbioru danych churn („churn” = „wskaźnik

Transkrypt

Laboratorium 2. Poznanie zbioru danych churn („churn” = „wskaźnik
Laboratorium 2.
Poznanie zbioru danych churn („churn” = „wskaźnik utraty klientów”).
Zad.1 Przejrzyj plik churnPL.txt. Zamień go na format: XLS (otwórz w Excelu) oraz na format ARFF
(otwórz w programie WEKA).
Zad.2 Za pomocą Excela zbadać w zbiorze churn zależności między następującymi atrybutami
1.
dzień minuty i dzień rozmowy,
2.
dzień rozmowy i dzień opłata,
3.
dzień minuty i dzień opłata,
oraz analogiczne zależności dla atrybutów dotyczących rozmów wieczorem, w nocy i
międzynarodowych. Wykorzystać wzór na współczynnik korelacji Pearsona:
Zad.3 Wykorzystując histogramy/wykresy w programie WEKA sprawdzić:
1. czy wartość zmiennej churn zależy od wartości atrybutu Plan międzynarodowy,
2. jaka jest zależność churn od atrybutu liczba rozmów z BOK,
3.
prześledzić histogram atrybutu - Wieczór minuty - klienci z dużą liczbą wykorzystanych minut
wieczorem mają mała tendencją do rezygnacji,
4. klienci z dużą liczbą wykorzystanych minut w ciągu dnia częściej rezygnują.
Przekształcić atrybut Noc minuty przy pomocy standaryzacji i sprawdzić, jaka jest wartość średnia i
odchylenie standardowe przekształconych danych.
Zad.4* Spróbować zbadać korelację jak w zadaniu 2, ale przy użyciu WEKI. WEKA
najprawdopodobniej wykorzysuje i wyświetla współczynnik korelacji przy użyciu niektórych narzędzi
klasyfikacji. Można jednak spróbować odpalić konsolową wersję WEKI i użyć narzędzia bezpośrednio:
correlation
public static final double correlation(double y1[],
double y2[],
int n)
Returns the correlation coefficient of two double vectors.
Parameters:
y1 - double vector 1
y2 - double vector 2
n - the length of two double vectors
Returns:
the correlation coefficient