Spis treści
Transkrypt
Spis treści
Księgarnia PWN: Daniel T. Larose - Metody i modele eksploracji danych Spis treści Przedmowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XI 0.1. Co to jest eksploracja danych? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XI 0.2. Dlaczego ta ksiażka ˛ jest potrzebna? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XI 0.3. Podejście typu „biała skrzynka” — zrozumienie podstawowych struktur algorytmów i modeli XII 0.3.1. Omówienie działania algorytmów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XII 0.3.2. Zastosowanie algorytmów do dużego zbioru danych . . . . . . . . . . . . . . . . . . . . XII 0.3.3. Ćwiczenia do rozdziałów — upewnij si˛e, że rozumiesz . . . . . . . . . . . . . . . . . . . XII 0.3.4. Ćwiczenia praktyczne — nauka eksploracji danych poprzez wykonywanie eksploracji danych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XIII 0.3.5. Studium przypadku — podejście całościowe . . . . . . . . . . . . . . . . . . . . . . . . . XIII 0.4. Eksploracja danych jako proces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XIII 0.5. Oprogramowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XIV 0.5.1. WEKA — alternatywa typu open source . . . . . . . . . . . . . . . . . . . . . . . . . . . XIV 0.6. Strona internetowa: www.dataminingconsultant.com . . . . . . . . . . . . . . . . . . XV 0.7. Metody i modele eksploracji danych jako podr˛ecznik . . . . . . . . . . . . . . . . . . . . . . . . XV 0.8. Podzi˛ekowania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XVI 1. Metody redukcji wymiaru . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1. Konieczność redukcji wymiaru w eksploracji danych . . . . . . . . . . . . . . . . . . 1.2. Analiza składowych głównych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1. Zastosowanie analizy składowych głównych do zbioru danych houses (domy) 1.2.2. Ile składowych należy wyodr˛ebnić? . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.3. Tworzenie profili składowych głównych . . . . . . . . . . . . . . . . . . . . . . 1.2.4. Zasób zmienności wspólnej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.5. Walidacja składowych głównych . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Analiza czynnikowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1. Zastosowanie analizy czynnikowej do zbioru danych adult . . . . . . . . . . . 1.3.2. Rotacja czynników . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4. Komponenty zdefiniowane przez użytkownika . . . . . . . . . . . . . . . . . . . . . . 1.4.1. Przykład komponentu zdefiniowanego przez użytkownika . . . . . . . . . . . . 1.5. Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6. Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7. Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 2 5 10 13 16 18 19 20 22 25 26 27 30 31 VIII Spis treści 2. Modelowanie regresji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1. 2.2. 2.3. 2.4. 2.5. 2.6. 2.7. 2.8. 2.9. . . . . . . . . . . . . . . . . . . . . . 36 39 42 47 48 50 51 59 61 62 64 64 65 68 73 79 83 88 88 91 91 3. Regresja wielokrotna i budowa modelu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 2.10. 2.11. 2.12. 2.13. 2.14. 2.15. 3.1. 3.2. 3.3. 3.4. 3.5. 3.6. 3.7. Przykład prostej regresji liniowej . . . . . . . . . . . . . . . . . . . . . . . . . Oszacowanie najmniejszych kwadratów . . . . . . . . . . . . . . . . . . . . Współczynnik determinacji . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bład ˛ standardowy estymatora . . . . . . . . . . . . . . . . . . . . . . . . . . . Współczynnik korelacji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tablica ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Punkty oddalone, punkty wysokiej dźwigni i obserwacje wpływowe . . . . Model regresji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wnioskowanie w modelu regresji liniowej . . . . . . . . . . . . . . . . . . . 2.9.1. Test t dla hipotezy o zachodzeniu liniowego zwiazku ˛ mi˛edzy x a y 2.9.2. Przedział ufności dla nachylenia linii regresji . . . . . . . . . . . . . 2.9.3. Przedział ufności dla wartości średniej y przy danej wartości x . . . 2.9.4. Przedział predykcji dla wartości y przy danej wartości x . . . . . . 2.9.5. Sprawdzanie założeń regresji . . . . . . . . . . . . . . . . . . . . . . . Przykład: zbiór danych baseball . . . . . . . . . . . . . . . . . . . . . . . . . Przykład: zbiór danych California . . . . . . . . . . . . . . . . . . . . . . . . Transformacje w celu osiagni˛ ˛ ecia liniowości . . . . . . . . . . . . . . . . . . 2.12.1.Transformacja Boxa–Coxa . . . . . . . . . . . . . . . . . . . . . . . . Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Przykład regresji wielokrotnej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Model regresji wielokrotnej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wnioskowanie w modelu regresji wielokrotnej . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1. Test t dla zależności pomi˛edzy y a xi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2. Test t dla zależności pomi˛edzy zmienna˛ wartość odżywcza a zmienna˛ cukry . . . . . 3.3.3. Test t dla zależności pomi˛edzy zmienna˛ wartość odżywcza a zmienna˛ błonnik . . . . 3.3.4. Test F istotności całego modelu regresji . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.5. Test F dla zależności pomi˛edzy zmienna˛ wartość odżywcza a zmiennymi cukry i błonnik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.6. Przedział ufności dla danego współczynnika . . . . . . . . . . . . . . . . . . . . . . . . 3.3.7. Przedział ufności dla wartości średniej y przy danych x1 , x2 , . . . , xm . . . . . . . . . 3.3.8. Przedział predykcji dla y przy danych x1 , x2 , . . . , xm . . . . . . . . . . . . . . . . . . Regresja z jakościowymi zmiennymi objaśniajacymi ˛ . . . . . . . . . . . . . . . . . . . . . . . 3.4.1. Skorygowany R 2 — sposób na wyeliminowanie z modelu zmiennych objaśniaja˛ cych, które nie sa˛ przydatne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.2. Sekwencyjne sumy kwadratów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Współliniowość . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Metody wyboru zmiennych objaśniajacych ˛ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.1. Cz˛eściowy test F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.2. Metoda dołaczania ˛ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.3. Metoda eliminacji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.4. Regresja krokowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.5. Metoda najlepszych podzbiorów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.6. Metoda wszystkich możliwych regresji . . . . . . . . . . . . . . . . . . . . . . . . . . . Zastosowanie metod wyboru zmiennych objaśniajacych ˛ . . . . . . . . . . . . . . . . . . . . . 3.7.1. Metoda dołaczania ˛ zastosowana do zbioru danych cereals . . . . . . . . . . . . . . . . 98 104 105 105 106 106 107 108 109 110 110 110 119 120 122 128 128 130 131 131 131 132 132 133 Spis treści 3.8. 3.9. 3.10. 3.11. 3.12. 3.13. IX 3.7.2. Metoda eliminacji zastosowana do zbioru danych cereals . . . . . . . . . 3.7.3. Metoda regresji krokowej zastosowana do zbioru danych cereals . . . . . 3.7.4. Metoda najlepszych podzbiorów zastosowana do zbioru danych cereals Statystyka Cp Mallowsa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kryteria wyboru zmiennych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zastosowanie składowych głównych jako zmiennych objaśniajacych ˛ . . . . . . Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 137 138 138 140 148 154 156 156 4. Regresja logistyczna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 4.1. 4.2. 4.3. 4.4. 4.5. 4.6. 4.7. 4.8. 4.9. 4.10. 4.11. 4.12. 4.13. 4.14. Przykład prostej regresji logistycznej . . . . . . . . . . . . . . . . . . . . . . . . . . . Estymacja najwi˛ekszej wiarygodności . . . . . . . . . . . . . . . . . . . . . . . . . . . Interpretacja wyników regresji logistycznej . . . . . . . . . . . . . . . . . . . . . . . Wnioskowanie — czy zmienne objaśniajace ˛ sa˛ istotne? . . . . . . . . . . . . . . . . Interpretacja modelu regresji logistycznej . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.1. Interpretacja modelu dla zmiennych jakościowych o dwóch wartościach . . 4.5.2. Interpretacja modelu dla zmiennych objaśniajacych ˛ z wieloma wartościami 4.5.3. Interpretacja modelu z ciagł ˛ a˛ zmienna˛ objaśniajac ˛ a˛ . . . . . . . . . . . . . . . Założenie liniowości . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Problem komórek z wartościa˛ zero . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wielokrotna regresja logistyczna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wprowadzenie funkcji wyższego rz˛edu, aby uwzgl˛ednić nieliniowość . . . . . . . . Sprawdzenie modelu regresji logistycznej . . . . . . . . . . . . . . . . . . . . . . . . WEKA — praktyczna analiza za pomoca˛ regresji logistycznej . . . . . . . . . . . . Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 166 166 168 170 171 175 179 184 187 189 194 201 205 209 210 211 5. Naiwna estymacja bayesowska i sieci bayesowskie . . . . . . . . . . . . . . . . . . . . . . . . . . 217 5.1. Podejście bayesowskie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Klasyfikacja maksymalnego a posteriori . . . . . . . . . . . . . . . . . 5.2.1. Iloraz szans a posteriori . . . . . . . . . . . . . . . . . . . . . . . 5.2.2. Równoważenie danych . . . . . . . . . . . . . . . . . . . . . . . 5.3. Naiwny klasyfikator bayesowski . . . . . . . . . . . . . . . . . . . . . . 5.3.1. Numeryczne zmienne objaśniajace ˛ . . . . . . . . . . . . . . . . 5.4. WEKA — praktyczna analiza zastosowania naiwnego Bayesa . . . . 5.5. Sieci przekonań Bayesa . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.1. Przykład zakupów odzieży . . . . . . . . . . . . . . . . . . . . . 5.5.2. Zastosowanie sieci Bayesa do znalezienia prawdopodobieństw 5.6. WEKA — praktyczna analiza z użyciem klasyfikatora sieci Bayesa . 5.7. Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.8. Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.9. Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 219 223 225 228 233 237 241 242 244 247 250 251 252 6. Algorytmy genetyczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 6.1. 6.2. 6.3. 6.4. Wprowadzenie do algorytmów genetycznych . . . Podstawowy szkielet algorytmu genetycznego . . . Prosty przykład działania algorytmu genetycznego Modyfikacje i rozszerzenia — selekcja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 256 258 260 X Spis treści 6.5. Modyfikacje i rozszerzenia — krzyżowanie . . . . . . . . . . . . . . . . . 6.5.1. Krzyżowanie wielopunktowe . . . . . . . . . . . . . . . . . . . . . . 6.5.2. Krzyżowanie równomierne . . . . . . . . . . . . . . . . . . . . . . . 6.6. Algorytm genetyczny dla zmiennych rzeczywistych . . . . . . . . . . . . 6.7. Zastosowanie algorytmów genetycznych do uczenia sieci neuronowych . 6.8. WEKA — praktyczna analiza użycia algorytmów genetycznych . . . . . 6.9. Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.10. Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.11. Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262 262 263 263 265 270 277 278 280 7. Studium przypadku — modelowanie odpowiedzi na kampani˛e marketingowa˛ . . . . . . . . . 282 7.1. 7.2. 7.3. 7.4. 7.5. 7.6. Cross-Industry Standard Process for Data Mining . . . . . . . . . . . . . . . . . Zrozumienie uwarunkowań biznesowych . . . . . . . . . . . . . . . . . . . . . . . 7.2.1. Problem odpowiedzi na kampani˛e marketingowa˛ . . . . . . . . . . . . . . 7.2.2. Budowanie tabeli koszt/zysk . . . . . . . . . . . . . . . . . . . . . . . . . . Zrozumienie danych i przygotowanie danych . . . . . . . . . . . . . . . . . . . . 7.3.1. Przekształcenia w celu uzyskania normalności albo symetrii . . . . . . . 7.3.2. Standaryzacja i zmienne flagowe . . . . . . . . . . . . . . . . . . . . . . . . 7.3.3. Otrzymywanie nowych zmiennych . . . . . . . . . . . . . . . . . . . . . . 7.3.4. Badanie relacji pomi˛edzy zmiennymi objaśniajacymi ˛ a zmienna˛ celu . . 7.3.5. Badanie struktury korelacji pomi˛edzy zmiennymi objaśniajacymi ˛ . . . . Etap modelowania i ewaluacji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.4.1. Analiza składowych głównych . . . . . . . . . . . . . . . . . . . . . . . . . 7.4.2. Analiza skupień — algorytm grupowania BIRCH . . . . . . . . . . . . . . 7.4.3. Równoważenie zbioru uczacego ˛ . . . . . . . . . . . . . . . . . . . . . . . . 7.4.4. Określenie punktu odniesienia dla działania modelu . . . . . . . . . . . . 7.4.5. Zbiór modeli A — wykorzystanie analizy składowych głównych . . . . . 7.4.6. Przeważanie jako substytut kosztów bł˛ednej klasyfikacji . . . . . . . . . . 7.4.7. Łaczenie ˛ modeli — głosowanie . . . . . . . . . . . . . . . . . . . . . . . . 7.4.8. Zbiór modeli B — modele bez składowych głównych . . . . . . . . . . . 7.4.9. Łaczenie ˛ modeli za pomoca˛ średniego prawdopodobieństwa odpowiedzi Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282 284 284 284 286 289 293 294 296 305 307 310 312 316 317 319 321 323 325 327 332 335 Literatura uzupełniajaca ˛ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336 Indeks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337