Spis treści - Predictive Solutions
Transkrypt
Spis treści - Predictive Solutions
Spis treści Przedmowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0.1. 0.2. 0.3. 0.4. XI Co to jest eksploracja danych? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dlaczego ta ksiażka ˛ jest potrzebna? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Niebezpieczeństwo! Łatwo jest źle przeprowadzić eksploracj˛e danych . . . . . . . . . . . . . Podejście typu „biała skrzynka”: Zrozumienie podstawowych struktur algorytmów i modeli 0.4.1. Omówienie działania algorytmów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0.4.2. Zastosowanie algorytmów do dużego zbioru danych . . . . . . . . . . . . . . . . . . 0.4.3. Ćwiczenia do rozdziałów: Sprawdzenie, aby upewnić si˛e, że rozumiesz . . . . . . . 0.4.4. Ćwiczenia praktyczne: Nauka eksploracji danych poprzez wykonywanie eksploracji danych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Eksploracja danych jako proces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Podejście graficzne, podkreślajace ˛ wst˛epna˛ analiz˛e danych . . . . . . . . . . . . . . . . . . . Jak zorganizowana jest ta ksiażka? ˛ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Odkrywanie wiedzy z danych jako podr˛ecznik . . . . . . . . . . . . . . . . . . . . . . . . . . . Podzi˛ekowania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XIII XIV XIV XIV XV XV 1. Wprowadzenie do eksploracji danych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 0.5. 0.6. 0.7. 0.8. 0.9. 1.1. 1.2. 1.3. 1.4. . . . . . . . . . . . . . . . 2 3 4 4 6 9 10 10 11 12 13 15 16 23 24 2. Wst˛epna obróbka danych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.1. Dlaczego należy obrabiać dane? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Czyszczenie danych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 27 1.5. 1.6. 1.7. 1.8. Co to jest eksploracja danych? . . . . . . . . . . . . . . . . . . Dlaczego eksploracja danych? . . . . . . . . . . . . . . . . . . Konieczność kierowania eksploracja˛ danych przez człowieka Cross-Industry Standard Process: CRISP-DM . . . . . . . . . 1.4.1. CRISP-DM: sześć etapów . . . . . . . . . . . . . . . . Mity o eksploracji danych . . . . . . . . . . . . . . . . . . . . . Jakie zadania może wykonywać eksploracja danych? . . . . . 1.6.1. Opis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.2. Szacowanie (estymacja) . . . . . . . . . . . . . . . . . 1.6.3. Przewidywanie (predykcja) . . . . . . . . . . . . . . . 1.6.4. Klasyfikacja . . . . . . . . . . . . . . . . . . . . . . . . 1.6.5. Grupowanie . . . . . . . . . . . . . . . . . . . . . . . . 1.6.6. Odkrywanie reguł . . . . . . . . . . . . . . . . . . . . . Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XI XI XII XII XIII XIII XIII VIII 2.3. 2.4. 2.5. 2.6. Spis treści . . . . . . . . . 29 32 33 35 35 36 38 39 39 3. Eksploracyjna analiza danych (EDA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.7. 2.8. 2.9. 3.1. 3.2. 3.3. 3.4. 3.5. 3.6. 3.7. 3.8. 3.9. 3.10. 3.11. 3.12. Obsługa brakujacych ˛ danych . . . . . . . . . . . . . . . . Identyfikacja bł˛ednych klasyfikacji . . . . . . . . . . . . . Graficzne metody identyfikacji punktów oddalonych . . Przekształcanie danych . . . . . . . . . . . . . . . . . . . 2.6.1. Normalizacja min-max . . . . . . . . . . . . . . . 2.6.2. Standaryzacja . . . . . . . . . . . . . . . . . . . . Metody numeryczne identyfikacji punktów oddalonych Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5. Algorytm k-najbliższych sasiadów ˛ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 69 69 72 73 74 76 79 81 81 83 85 89 89 Metody nadzorowane i nienadzorowane . . . Metodologia modelowania nadzorowanego . Kompromis obciażeniowo-wariacyjny ˛ . . . . Zadanie klasyfikacji . . . . . . . . . . . . . . Algorytm k-najbliższych sasiadów ˛ . . . . . . Odległość . . . . . . . . . . . . . . . . . . . . Funkcja decyzyjna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1. 5.2. 5.3. 5.4. 5.5. 5.6. 5.7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4. Podejścia statystyczne do szacowania i przewidywania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . dla danego x . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 42 44 45 51 52 60 63 63 65 65 66 Zadania eksploracji danych w Odkrywaniu wiedzy z danych . . Podejścia statystyczne do szacowania i przewidywania . . . . . Metody jednowymiarowe: miary środka i rozpi˛etości . . . . . . Wnioskowanie statystyczne . . . . . . . . . . . . . . . . . . . . . Jak wiarygodne sa˛ nasze szacowania? . . . . . . . . . . . . . . . Szacowanie przedziału ufności . . . . . . . . . . . . . . . . . . . Metody dwuwymiarowe: prosta regresja liniowa . . . . . . . . Niebezpieczeństwa ekstrapolacji . . . . . . . . . . . . . . . . . . Przedziały ufności wartości średniej y dla danego x . . . . . . Przedziały ufności przewidywania losowo wybranej wartości y Regresja wielokrotna . . . . . . . . . . . . . . . . . . . . . . . . . Weryfikacja założeń modelu . . . . . . . . . . . . . . . . . . . . Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1. 4.2. 4.3. 4.4. 4.5. 4.6. 4.7. 4.8. 4.9. 4.10. 4.11. 4.12. 4.13. 4.14. Testowanie hipotez a eksploracyjna analiza danych . . . . . . . . Poznawanie zbioru danych . . . . . . . . . . . . . . . . . . . . . . Post˛epowanie ze skorelowanymi zmiennymi . . . . . . . . . . . . Badanie zmiennych jakościowych . . . . . . . . . . . . . . . . . . Wykorzystanie EDA do odkrycia nieprawidłowych pól . . . . . . Badanie zmiennych numerycznych . . . . . . . . . . . . . . . . . Badanie relacji wielowymiarowych . . . . . . . . . . . . . . . . . Wybieranie interesujacego ˛ podzbioru danych do dalszych badań Dyskretyzacja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 . 92 . 94 . 96 . 97 . 99 . 102 Spis treści 5.8. 5.9. 5.10. 5.11. 5.12. 5.13. IX 5.7.1. Proste głosowanie . . . . . . . . . . . . . . . . . . . . . . . . . 5.7.2. Głosowanie ważone . . . . . . . . . . . . . . . . . . . . . . . . Określanie ilościowe istotności atrybutu: rozciaganie ˛ osi . . . . . . . Uwzgl˛ednianie baz danych . . . . . . . . . . . . . . . . . . . . . . . . Algorytm k-najbliższych sasiadów ˛ do szacowania i przewidywania Wybór k . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 103 104 105 105 106 107 107 6. Drzewa decyzyjne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 6.1. 6.2. 6.3. 6.4. 6.5. 6.6. Drzewa klasyfikacyjne i regresyjne . . . . . . . . . . . . . . . . . . . . . . . . . . . Algorytm C4.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Reguły decyzyjne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Porównanie algorytmów C5.0 i CART zastosowanych do rzeczywistych danych Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 118 124 125 129 129 7. Sieci neuronowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 7.1. 7.2. 7.3. 7.4. 7.5. 7.6. 7.7. 7.8. 7.9. 7.10. 7.11. 7.12. 7.13. 7.14. 7.15. Kodowanie sygnałów wejściowych oraz wyjściowych Sieci neuronowe do szacowania i przewidywania . . . Prosty przykład sieci neuronowej . . . . . . . . . . . . Sigmoidalna funkcja aktywacji . . . . . . . . . . . . . . Propagacja wsteczna . . . . . . . . . . . . . . . . . . . . Reguła najwi˛ekszego spadku . . . . . . . . . . . . . . . Reguły propagacji wstecznej . . . . . . . . . . . . . . . Przykład propagacji wstecznej . . . . . . . . . . . . . . Warunek „stopu” . . . . . . . . . . . . . . . . . . . . . . Współczynnik korekcji (uczenia) . . . . . . . . . . . . . Składnik momentu . . . . . . . . . . . . . . . . . . . . . Analiza czułości . . . . . . . . . . . . . . . . . . . . . . . Zastosowanie modelowania sieci neuronowej . . . . . Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 134 134 137 138 138 140 140 142 143 144 146 146 149 149 8. Grupowanie hierarchiczne i metoda˛ k-średnich . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 8.1. Zadanie grupowania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2. Metody grupowania hierarchicznego . . . . . . . . . . . . . . . . . . . . . . . . . 8.2.1. Metoda pojedynczego połaczenia ˛ . . . . . . . . . . . . . . . . . . . . . . . 8.2.2. Metoda całkowitego połaczenia ˛ . . . . . . . . . . . . . . . . . . . . . . . . 8.3. Algorytm k-średnich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4. Przykład działania algorytmu k-średnich . . . . . . . . . . . . . . . . . . . . . . . 8.5. Zastosowanie algorytmu k-średnich w oprogramowaniu SAS Enterprise Miner 8.5.1. Użycie przynależności do grupy do przewidywania rezygnacji . . . . . 8.6. Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.7. Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 153 154 155 157 157 162 165 166 166 9. Sieci Kohonena . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 9.1. Sieci samoorganizujace ˛ si˛e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 9.2. Sieci Kohonena . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 X Spis treści 9.3. 9.4. 9.5. 9.6. 9.7. 9.8. Przykład uczenia sieci Kohonena . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sprawdzenie poprawności grup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zastosowanie sieci Kohonena do grupowania . . . . . . . . . . . . . . . . . . . . . . . 9.5.1. Interpretowanie grup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.5.2. Profile grup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Użycie funkcji przynależności do grupy jako wejścia do modeli eksploracji danych Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 175 175 177 181 182 183 184 10. Reguły asocjacyjne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 10.1. Analiza podobieństw i koszyka sklepowego . . . . . . . . . . . . . . . . . . . . . . . 10.1.1. Reprezentacja danych do analizy koszyka sklepowego . . . . . . . . . . . . 10.2. Wsparcie, ufność, cz˛este zdarzenia i właściwość A priori . . . . . . . . . . . . . . . 10.3. Jak działa algorytm A priori (cz˛eść 1)? Tworzenie cz˛estych zbiorów zdarzeń . . . 10.4. Jak działa algorytm A priori (cz˛eść 2)? Tworzenie reguł asocjacyjnych . . . . . . . 10.5. Rozszerzenie od zmiennych binarnych do ogólnych danych jakościowych . . . . . 10.6. Podejście teorii informacji: metoda uogólnionej indukcji reguł . . . . . . . . . . . . 10.6.1. J -miara . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.6.2. Zastosowanie uogólnionej indukcji reguł . . . . . . . . . . . . . . . . . . . . 10.7. Kiedy nie używać reguł asocjacyjnych . . . . . . . . . . . . . . . . . . . . . . . . . . 10.8. Czy reguły asocjacyjne reprezentuja˛ uczenie nadzorowane, czy nienadzorowane? 10.9. Lokalne wzorce a globalne modele . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.10. Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.11. Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 187 187 190 191 194 195 196 197 199 202 203 204 204 11. Techniki ewaluacji modelu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 11.1. 11.2. 11.3. 11.4. 11.5. 11.6. 11.7. 11.8. 11.9. 11.10. 11.11. Techniki ewaluacji modelu do zadania opisu . . . . . . . . . . . . . . . . . . . . . . . . . . . Techniki ewaluacji modelu do zadań szacowania i przewidywania . . . . . . . . . . . . . . Techniki ewaluacji modelu do zadania klasyfikacji . . . . . . . . . . . . . . . . . . . . . . . . Współczynnik bł˛edu, fałszywe klasyfikacje pozytywne (FP), fałszywe klasyfikacje negatywne (FN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dopasowanie kosztu bł˛ednej klasyfikacji w celu odzwierciedlenia rzeczywistych strat . . . Analiza decyzji koszt/zysk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wykresy przyrostu i wykresy zysku . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Połaczenie ˛ oceny modelu z modelowaniem . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zbieżność wyników: zastosowanie grupy modeli . . . . . . . . . . . . . . . . . . . . . . . . . Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 208 209 210 212 214 215 218 219 220 220 Epilog . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 „Dopiero co zacz˛eliśmy” — Zaproszenie do Data Mining Methods and Models . . . . . . . . . . . 222 Literatura uzupełniajaca ˛ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 Indeks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224