Spis treści
Transkrypt
Spis treści
[ Spis treści Przedmowa 0.1. 0.2. 0.3. 0.4. 0.5. 0.6. 0.7. 0.8. 0.9. Co to jest eksploracja danych? Dlaczego ta książka jest potrzebna? Niebezpieczeństwo! Łatwo jest źle przeprowadzić eksplorację danych Podejście typu „biała skrzynka": Zrozumienie podstawowych struktur algorytmów i modeli 0.4.1. Omówienie działania algorytmów 0.4.2. Zastosowanie algorytmów do dużego zbioru danych 0.4.3. Ćwiczenia do rozdziałów: Sprawdzenie, aby upewnić się, że rozumiesz 0.4.4. Ćwiczenia praktyczne: Nauka eksploracji danych poprzez wykonywanie eksploracji danych Eksploracja danych jako proces Podejście graficzne, podkreślające wstępną analizę danych Jak zorganizowana jest ta książka? . . . . ^ Odkrywanie wiedzy z danych jako podręcznik Podziękowania 1. Wprowadzenie do eksploracji danych 1.1. 1.2. 1.3. 1.4. Co to jest eksploracja danych? Dlaczego eksploracja danych? Konieczność kierowania eksploracją danych przez człowieka Cross-Industry Standard Process: CRISP-DM 1.4.1. CRISP-DM: sześć etapów 1.5. Mity o eksploracji danych 1.6. Jakie zadania może wykonywać eksploracja danych? 1.6.1. Opis 1.6.2. Szacowanie (estymacja) 1.6.3. Przewidywanie (predykcja) 1.6.4. Klasyfikacja 1.6.5. Grupowanie 1.6.6. Odkrywanie reguł 1.7. Literatura 1.8. Ćwiczenia 2. Wstępna obróbka danych 2.1. 2.2. Dlaczego należy obrabiać dane? Czyszczenie danych XI XI XI XII XII XIII XIII XIII XIII XIV XIV XIV XV XV 1 2 3 4 4 6 9 10 10 11 12 13 15 16 23 24 26 26 27 VIII 2.3. 2.4. 2.5. 2.6. 2.7. 2.8. 2.9. Spis treści Obsługa brakujących danych Identyfikacja błędnych klasyfikacji Graficzne metody identyfikacji punktów oddalonych Przekształcanie danych 2.6.1. Normalizacja min-max 2.6.2. Standaryzacja Metody numeryczne identyfikacji punktów oddalonych Literatura Ćwiczenia 3. Eksploracyjna analiza danych (EDA) 3.1. 3.2. 3.3. 3.4. 3.5. 3.6. 3.7. 3.8. 3.9. 3.10. 3.11. 3.12. Testowanie hipotez a eksploracyjna analiza danych Poznawanie zbioru danych Postępowanie ze skorelowanymi zmiennymi Badanie zmiennych jakościowych Wykorzystanie EDA do odkrycia nieprawidłowych pól Badanie zmiennych numerycznych Badanie relacji wielowymiarowych Wybieranie interesującego podzbioru danych do dalszych badań Dyskretyzacja Podsumowanie Literatura Ćwiczenia 4. Podejścia statystyczne do szacowania i przewidywania 4.1. 4.2. 4.3. 4.4. 4.5. 4.6. 4.7. 4.8. 4.9. 4.10. 4.11. 4.12. 4.13. 4.14. Zadania eksploracji danych w Odkrywaniu wiedzy z danych Podejścia statystyczne do szacowania i przewidywania Metody jednowymiarowe: miary środka i rozpiętości Wnioskowanie statystyczne Jak wiarygodne są nasze szacowania? Szacowanie przedziału ufności Metody dwuwymiarowe: prosta regresja liniowa Niebezpieczeństwa ekstrapolacji Przedziały ufności wartości średniej y dla danego x Przedziały ufności przewidywania losowo wybranej wartości y dla danego x Regresja wielokrotna Weryfikacja założeń modelu Literatura Ćwiczenia 5. Algorytm ^-najbliższych sąsiadów 5.1. Metody nadzorowane i nienadzorowane 5.2. Metodologia modelowania nadzorowanego 5.3. Kompromis obciążeniowo-wariacyjny 5.4. Zadanie klasyfikacji 5.5. Algorytmfc-najbliższych sąsiadów 5.6. Odległość 5.7. Funkcja decyzyjna 29 32 33 35 35 36 38 39 39 41 41 42 44 45 51 52 60 63 63 65 65 66 68 68 69 69 72 73 74 76 79 81 81 83 85 89 89 91 91 92 94 96 97 99 102 Spis treści 5.8. 5.9. 5.10. 5.11. 5.12. 5.13. 5.7.1. Proste głosowanie 5.7.2. Głosowanie ważone Określanie ilościowe istotności atrybutu: rozciąganie osi Uwzględnianie baz danych Algorytm it-najbliższych sąsiadów do szacowania i przewidywania Wybór k Literatura Ćwiczenia 102 103 104 105 105 106 107 107 6. Drzewa decyzyjne 6.1. 6.2. 6.3. 6.4. 6.5. 6.6. 109 Drzewa klasyfikacyjne i regresyjne Algorytm C4.5 Reguły decyzyjne Porównanie algorytmów C5.0 i CART zastosowanych do rzeczywistych danych Literatura Ćwiczenia 111 118 124 125 129 129 7. Sieci neuronowe 7.1. 7.2. 7.3. 7.4. 7.5. 7.6. 7.7. 7.8. 7.9. 7.10. 7.11. 7.12. 7.13. 7.14. 7.15. 131 Kodowanie sygnałów wejściowych oraz wyjściowych Sieci neuronowe do szacowania i przewidywania Prosty przykład sieci neuronowej Sigmoidalna funkcja aktywacji Propagacja wsteczna Reguła największego spadku Reguły propagacji wstecznej Przykład propagacji wstecznej Warunek „stopu" Współczynnik korekcji (uczenia) Składnik momentu Analiza czułości Zastosowanie modelowania sieci neuronowej Literatura Ćwiczenia 132 134 134 137 138 138 140 140 142 143 144 .146 146 149 149 8. Grupowanie hierarchiczne i metodą ^-średnich 8.1. 8.2. 8.3. 8.4. 8.5. 8.6. 8.7. Zadanie grupowania Metody grupowania hierarchicznego 8.2.1. Metoda pojedynczego połączenia 8.2.2. Metoda całkowitego połączenia Algorytm ^-średnich Przykład działania algorytmu ł-średnich Zastosowanie algorytmu ^-średnich w oprogramowaniu SAS Enterprise Miner 8.5.1. Użycie przynależności do grupy do przewidywania rezygnacji Literatura Ćwiczenia 9. Sieci Kohonena 9.1. 9.2. Sieci samoorganizujące się Sieci Kohonena 151 ' 151 153 154 155 157 157 162 165 166 166 168 168 170 Spis treści 9.3. Przykład uczenia sieci Kohonena 9.4. Sprawdzenie poprawności grup 9.5. Zastosowanie sieci Kohonena do grupowania 9.5.1. Interpretowanie grup 9.5.2. Profile grup 9.6. Użycie funkcji przynależności do grupy jako wejścia do modeli eksploracji danych . . . . 9.7. Literatura 9.8. Ćwiczenia 10. Reguły asocjacyjne 10.1. Analiza podobieństw i koszyka sklepowego 10.1.1. Reprezentacja danych do analizy koszyka sklepowego 10.2. Wsparcie, ufność, częste zdarzenia i właściwość A priori 10.3. Jak działa algorytm A priori (część 1)? Tworzenie częstych zbiorów zdarzeń 10.4. Jak działa algorytm A priori (część 2)? Tworzenie reguł asocjacyjnych 10.5. Rozszerzenie od zmiennych binarnych do ogólnych danych jakościowych 10.6. Podejście teorii informacji: metoda uogólnionej indukcji reguł 10.6.1. /-miara 10.6.2. Zastosowanie uogólnionej indukcji reguł 10.7. Kiedy nie używać reguł asocjacyjnych 10.8. Czy reguły asocjacyjne reprezentują uczenie nadzorowane, czy nienadzorowane? 10.9. Lokalne wzorce a globalne modele 10.10. Literatura 10.11. Ćwiczenia 11. Techniki ewaluacji modelu 11.1. 11.2. 11.3. 11.4. 11.5. 11.6. 11.7. 11.8. 11.9. 11.10. 11.11. Techniki ewaluacji modelu do zadania opisu Techniki ewaluacji modelu do zadań szacowania i przewidywania Techniki ewaluacji modelu do zadania klasyfikacji Współczynnik błędu, fałszywe klasyfikacje pozytywne (FP), fałszywe klasyfikacje negatywne (FN) Dopasowanie kosztu błędnej klasyfikacji w celu odzwierciedlenia rzeczywistych strat. . . Analiza decyzji koszt/zysk Wykresy przyrostu i wykresy zysku Połączenie oceny modelu z modelowaniem Zbieżność wyników: zastosowanie grupy modeli Literatura Ćwiczenia Epilog „Dopiero co zaczęliśmy" — Zaproszenie do Data Mining Methods and Models 171 175 175 177 181 182 183 184 185 185 187 187 190 191 194 195 196 197 199 202 203 204 204 207 207 208 209 210 212 214 215 218 219 220 220 222 222 Literatura uzupełniająca 223 Indeks 224