Analiza danych – wydobywanie wiedzy z danych III Metody
Transkrypt
Analiza danych – wydobywanie wiedzy z danych III Metody
Analiza danych – wydobywanie wiedzy z danych III Metody wypełniania braków w danych – ang. Missing values in data W rzeczywistych zbiorach danych dane są często nieczyste: - niekompletne (brakujące ważne atrybuty, bądź brakujące wartości atrybutów, dane są pogrupowane) - niespójne (różnice w kodowaniu nazw atrybutów, obiektów, wartości atrybutów) - zaszumione (zawierają błędne dane, bądź dane odległe - outliery) Powody niekompletności danych: - atrybuty najbardziej pożądane do analizy mogą byd niedostępne - dane nie były możliwe do zdobycia w określonym czasie, co spowodowało nie zidentyfikowanie pewnych ważnych zależności - czasami winą jest błąd pomiaru - dane mogły byd zapisane ale potem usunięte - po prostu może brakowad pewnych wartości dla atrybutów. Istnieje szereg metod wypełniania braków w danych tak by możliwa była analiza danego zbioru danych. Do najpopularniejszych należą: 1. Metoda ignorowania braków w danych. Jest najprostsza. 2. Metoda zastępowania braków wartością najbardziej dominującą w danym zbiorze: najczęściej występującą, średnią, medianą. 3. Metoda zastępowania brakujących danych wartościami najbardziej prawdopodobnymi ale w ramach danej klasy wartości. 4. Można użyd metody regresji do przewidywania wartości brakującej danej. 5. Można także użyd metody k-najbliższych sąsiadów do ustalenia wartości najbardziej prawdopodobnej dla brakującej danej. Brakujące dane mają ogromny wpływ na naszą wiedzę o danej dziedzinie. Wpływają na wartości statystyk opisowych typu: średnia, mediana, moda, ale także na graficzną reprezentację danych. Np. na wykresie dane brakujące zaburzają interpretację wiedzy o analizowanym zbiorze: Przykładowo powyższy wykres przedstawia: w 1 przypadku dane z uwzględnieniem danych brakujących w 2 przypadku dane z uwzględnieniem metod interpolacji w 3 przypadku gdy dane brakujące są ignorowane, a więc nie są brane pod uwagę przy wykreślaniu wykresu. W pakiecie R i nakładce Rattle bardzo łatwo można poradzid sobie z brakami w danych. Przypuśdmy, że mamy do czynienia ze zbiorem danych, w którym brak niektórych informacji. Konkretnie brakuje nam stawki godzinowej w wierszu 2 oraz informacji o czasie pracy w wierszu 11. W Rattle w zakładce „Transform” możemy użyd jednej z kilku metod radzenia sobie z brakami w danych: 1. Zero/Missing – zastępowanie braków w danych wartością „0” 2. Mean – zastępowanie braków w danych wartością średnią w danym zbiorze (tutaj można rozważyd także uśrednianie w ramach danej podgrupy!!!) 3. Median – zastępowanie braków w danych medianą w danym zbiorze 4. Mode– zastępowanie braków w danych modą w danym zbiorze 5. Constant – stała wartośd, którą będą zastępowane wszelkie braki w danych. Może to byd np. wartośd 0, "unknown", "N/A" lub - Gdybyśmy dla naszego zbioru przykładowego użyli metody zastąpowania braków wartością średnią okno Rattle do ustalenia które zmienne mają byd interpolowane którą metodą wyglądałoby następująco: Wówczas wynik Rattle byłby następujący: A w efekcie zbiór danych mógłby mied taką postad: Gdzie widzimy, że zarówno wiersz 2 jak i 11 mają teraz nowe wartości: będące wartościami średnimi w zbiorze. Gdybyśmy dla tego samego zbioru chcieli użyd metody „Zero/missing” okno Rattle wyglądałoby następująco: A w wyniku dane w analizowanym zbiorze przybrałyby następującą zawartośd: Metoda zastępowania braków w danych w dużej mierze zależy od typu danych. Gdy brakuje danych w kolumnach z danymi numerycznymi często stosuje się uzupełnianie braków w danych wartością średnią czy medianą np. Jednak jeśli brakuje danych w kolumnach z danymi typu nominalnego wówczas powinno się wypełniad braki wartością najczęściej występującą w zbiorze ! W literaturze anglojęzycznej metody te noszą odpowiednio nazwy: Global Most Common Attribute Value for Symbolic Attributes oraz Global Average Value for Numerical Attributes(MC). Jeśli rozważamy wypełnianie braków w danych wartościami średnimi bądź najczęściej występującymi ale w danej grupie danych wówczas metody noszą odpowiednio nazwy: Concept Most Common Attribute Value for Symbolic Attributes oraz Concept Average Value for Numerical Attributes (CMC) Zastosowanie metody „k-NN” do uzupełniania braków w danych. Metoda ta polega na tym, by znaleźd K takich przykładów, które są najbardziej podobne do obiektu, dla którego mamy pewne wartości puste. Wówczas brakująca wartośd jest wyznaczana jako średnia wartośd tej danej (zmiennej, kolumny) wśród tych K wybranych wartości. Wówczas wartośd brakująca jest wypełniana jako: , gdzie IKih jest zbiorem przykładów wziętych pod uwagę jako najbardziej podobne obserwacje, yjh jest wartością brakującą. Wadą tej metody jest fakt, że nie wiadomo jaka wartośd liczby K jest najwłaściwsza – i dobiera się ją czysto doświadczalnie. Przykład na zajęcia z PED: Załóżmy, że mamy do dyspozycji bardzo prosty zbiór danych: Widzimy, że w komórce K1 brakuje wartości. Excel rozpoznaje komórki z błędnymi wartościami – w tym przypadku będzie to zawartośd tej komórki równa „?” i nie wlicza takich wartości przy podstawowych statystykach tupu średnia czy mediana. średnia mediana średnia w grupie 3.875 4 1.666667 Zadanie 1 Proszę spróbowad dla zbioru podanego na początku dokumentu zapisad w Excelu formuły do obliczania wartości brakujących danych za pomocą: 1. Metody zastępowania danych zerem 2. Metody uśredniania 3. Zakładając, że zbiór został rozszerzony o 4 kolumnę typu płed (tak jak na rysunku poniżej), uśredniaj brakujące wartości w ramach grupy płci. Zadanie dodatkowe. Zakładając, że także w kolumnie z danymi nominalnymi mamy braki w danych, a wiec w kolumnie „pled” jak na rysunku poniżej: Wstaw odpowiednią wartośd w brakującą komórkę. Krok 1. Metoda wstawienia zamiast znaku „?” tekstu „brak” Metoda znajdowania wartości najczęściej występującej i wypełniania nią brakujących danych. Krok 2a. Zliczanie wystąpieo danej wartości tekstowej „K” i „M”. Krok 2b. wybór tej wartości, która występuje najczęściej. Krok.2c. Formula logiczna do wypelniania braków wartością najczęściej występującą.