Analiza danych – wydobywanie wiedzy z danych III Metody

Transkrypt

Analiza danych – wydobywanie wiedzy z danych III Metody
Analiza danych – wydobywanie wiedzy z danych III
Metody wypełniania braków w danych – ang. Missing values in data
W rzeczywistych zbiorach danych dane są często nieczyste:
- niekompletne (brakujące ważne atrybuty, bądź brakujące wartości atrybutów, dane są
pogrupowane)
- niespójne (różnice w kodowaniu nazw atrybutów, obiektów, wartości atrybutów)
- zaszumione (zawierają błędne dane, bądź dane odległe - outliery)
Powody niekompletności danych:
- atrybuty najbardziej pożądane do analizy mogą byd niedostępne
- dane nie były możliwe do zdobycia w określonym czasie, co spowodowało nie zidentyfikowanie
pewnych ważnych zależności
- czasami winą jest błąd pomiaru
- dane mogły byd zapisane ale potem usunięte
- po prostu może brakowad pewnych wartości dla atrybutów.
Istnieje szereg metod wypełniania braków w danych tak by możliwa była analiza danego zbioru
danych. Do najpopularniejszych należą:
1. Metoda ignorowania braków w danych. Jest najprostsza.
2. Metoda zastępowania braków wartością najbardziej dominującą w danym zbiorze:
najczęściej występującą, średnią, medianą.
3. Metoda zastępowania brakujących danych wartościami najbardziej prawdopodobnymi ale w
ramach danej klasy wartości.
4. Można użyd metody regresji do przewidywania wartości brakującej danej.
5. Można także użyd metody k-najbliższych sąsiadów do ustalenia wartości najbardziej
prawdopodobnej dla brakującej danej.
Brakujące dane mają ogromny wpływ na naszą wiedzę o danej dziedzinie. Wpływają na wartości
statystyk opisowych typu: średnia, mediana, moda, ale także na graficzną reprezentację danych. Np.
na wykresie dane brakujące zaburzają interpretację wiedzy o analizowanym zbiorze:
Przykładowo powyższy wykres przedstawia:



w 1 przypadku dane z uwzględnieniem danych brakujących
w 2 przypadku dane z uwzględnieniem metod interpolacji
w 3 przypadku gdy dane brakujące są ignorowane, a więc nie są brane pod uwagę przy
wykreślaniu wykresu.
W pakiecie R i nakładce Rattle bardzo łatwo można poradzid sobie z brakami w danych.
Przypuśdmy, że mamy do czynienia ze zbiorem danych, w którym brak niektórych informacji.
Konkretnie brakuje nam stawki godzinowej w wierszu 2 oraz informacji o czasie pracy w wierszu 11.
W Rattle w zakładce „Transform” możemy użyd jednej z kilku metod radzenia sobie z brakami w
danych:
1. Zero/Missing – zastępowanie braków w danych wartością „0”
2. Mean – zastępowanie braków w danych wartością średnią w danym zbiorze (tutaj można
rozważyd także uśrednianie w ramach danej podgrupy!!!)
3. Median – zastępowanie braków w danych medianą w danym zbiorze
4. Mode– zastępowanie braków w danych modą w danym zbiorze
5. Constant – stała wartośd, którą będą zastępowane wszelkie braki w danych. Może to byd np.
wartośd 0, "unknown", "N/A" lub -
Gdybyśmy dla naszego zbioru przykładowego użyli metody zastąpowania braków wartością
średnią okno Rattle do ustalenia które zmienne mają byd interpolowane którą metodą
wyglądałoby następująco:
Wówczas wynik Rattle byłby następujący:
A w efekcie zbiór danych mógłby mied taką postad:
Gdzie widzimy, że zarówno wiersz 2 jak i 11 mają teraz nowe wartości: będące wartościami średnimi
w zbiorze.
Gdybyśmy dla tego samego zbioru chcieli użyd metody „Zero/missing” okno Rattle wyglądałoby
następująco:
A w wyniku dane w analizowanym zbiorze przybrałyby następującą zawartośd:
Metoda zastępowania braków w danych w dużej mierze zależy od typu danych. Gdy brakuje danych
w kolumnach z danymi numerycznymi często stosuje się uzupełnianie braków w danych wartością
średnią czy medianą np. Jednak jeśli brakuje danych w kolumnach z danymi typu nominalnego
wówczas powinno się wypełniad braki wartością najczęściej występującą w zbiorze !
W literaturze anglojęzycznej metody te noszą odpowiednio nazwy: Global Most Common Attribute
Value for Symbolic Attributes oraz Global Average Value for Numerical Attributes(MC).
Jeśli rozważamy wypełnianie braków w danych wartościami średnimi bądź najczęściej występującymi
ale w danej grupie danych wówczas metody noszą odpowiednio nazwy: Concept Most Common
Attribute Value for Symbolic Attributes oraz Concept Average Value for Numerical Attributes (CMC)
Zastosowanie metody „k-NN” do uzupełniania braków w danych.
Metoda ta polega na tym, by znaleźd K takich przykładów, które są najbardziej podobne do obiektu,
dla którego mamy pewne wartości puste. Wówczas brakująca wartośd jest wyznaczana jako średnia
wartośd tej danej (zmiennej, kolumny) wśród tych K wybranych wartości.
Wówczas wartośd brakująca jest wypełniana jako:
, gdzie IKih
jest zbiorem przykładów wziętych pod uwagę jako najbardziej podobne obserwacje, yjh jest wartością
brakującą. Wadą tej metody jest fakt, że nie wiadomo jaka wartośd liczby K jest najwłaściwsza – i
dobiera się ją czysto doświadczalnie.
Przykład na zajęcia z PED:
Załóżmy, że mamy do dyspozycji bardzo prosty zbiór danych:
Widzimy, że w komórce K1 brakuje wartości. Excel rozpoznaje komórki z błędnymi wartościami – w
tym przypadku będzie to zawartośd tej komórki równa „?” i nie wlicza takich wartości przy
podstawowych statystykach tupu średnia czy mediana.
średnia
mediana
średnia w grupie
3.875
4
1.666667
Zadanie 1
Proszę spróbowad dla zbioru podanego na początku dokumentu zapisad w Excelu formuły do
obliczania wartości brakujących danych za pomocą:
1. Metody zastępowania danych zerem
2. Metody uśredniania
3. Zakładając, że zbiór został rozszerzony o 4 kolumnę typu płed (tak jak na rysunku poniżej),
uśredniaj brakujące wartości w ramach grupy płci.
Zadanie dodatkowe. Zakładając, że także w kolumnie z danymi nominalnymi mamy braki w danych, a
wiec w kolumnie „pled” jak na rysunku poniżej:
Wstaw odpowiednią wartośd w brakującą komórkę.
Krok 1. Metoda wstawienia zamiast znaku „?” tekstu „brak”
Metoda znajdowania wartości najczęściej występującej i wypełniania nią brakujących danych.
Krok 2a. Zliczanie wystąpieo danej wartości tekstowej „K” i „M”.
Krok 2b. wybór tej wartości, która występuje najczęściej.
Krok.2c. Formula logiczna do wypelniania braków wartością najczęściej występującą.