Spis treści

Transkrypt

Spis treści
Księgarnia PWN: Daniel T. Larose - Metody i modele eksploracji danych
Spis treści
Przedmowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
XI
0.1. Co to jest eksploracja danych? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XI
0.2. Dlaczego ta ksiażka
˛
jest potrzebna? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XI
0.3. Podejście typu „biała skrzynka” — zrozumienie podstawowych struktur algorytmów i modeli XII
0.3.1. Omówienie działania algorytmów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XII
0.3.2. Zastosowanie algorytmów do dużego zbioru danych . . . . . . . . . . . . . . . . . . . . XII
0.3.3. Ćwiczenia do rozdziałów — upewnij si˛e, że rozumiesz . . . . . . . . . . . . . . . . . . . XII
0.3.4. Ćwiczenia praktyczne — nauka eksploracji danych poprzez wykonywanie eksploracji
danych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XIII
0.3.5. Studium przypadku — podejście całościowe . . . . . . . . . . . . . . . . . . . . . . . . . XIII
0.4. Eksploracja danych jako proces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XIII
0.5. Oprogramowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XIV
0.5.1. WEKA — alternatywa typu open source . . . . . . . . . . . . . . . . . . . . . . . . . . . XIV
0.6. Strona internetowa: www.dataminingconsultant.com . . . . . . . . . . . . . . . . . . XV
0.7. Metody i modele eksploracji danych jako podr˛ecznik . . . . . . . . . . . . . . . . . . . . . . . . XV
0.8. Podzi˛ekowania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XVI
1. Metody redukcji wymiaru . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1. Konieczność redukcji wymiaru w eksploracji danych . . . . . . . . . . . . . . . . . .
1.2. Analiza składowych głównych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1. Zastosowanie analizy składowych głównych do zbioru danych houses (domy)
1.2.2. Ile składowych należy wyodr˛ebnić? . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.3. Tworzenie profili składowych głównych . . . . . . . . . . . . . . . . . . . . . .
1.2.4. Zasób zmienności wspólnej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.5. Walidacja składowych głównych . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Analiza czynnikowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1. Zastosowanie analizy czynnikowej do zbioru danych adult . . . . . . . . . . .
1.3.2. Rotacja czynników . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4. Komponenty zdefiniowane przez użytkownika . . . . . . . . . . . . . . . . . . . . . .
1.4.1. Przykład komponentu zdefiniowanego przez użytkownika . . . . . . . . . . . .
1.5. Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6. Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.7. Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
5
10
13
16
18
19
20
22
25
26
27
30
31
VIII
Spis treści
2. Modelowanie regresji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.
2.2.
2.3.
2.4.
2.5.
2.6.
2.7.
2.8.
2.9.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
36
39
42
47
48
50
51
59
61
62
64
64
65
68
73
79
83
88
88
91
91
3. Regresja wielokrotna i budowa modelu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
98
2.10.
2.11.
2.12.
2.13.
2.14.
2.15.
3.1.
3.2.
3.3.
3.4.
3.5.
3.6.
3.7.
Przykład prostej regresji liniowej . . . . . . . . . . . . . . . . . . . . . . . . .
Oszacowanie najmniejszych kwadratów . . . . . . . . . . . . . . . . . . . .
Współczynnik determinacji . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bład
˛ standardowy estymatora . . . . . . . . . . . . . . . . . . . . . . . . . . .
Współczynnik korelacji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tablica ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Punkty oddalone, punkty wysokiej dźwigni i obserwacje wpływowe . . . .
Model regresji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Wnioskowanie w modelu regresji liniowej . . . . . . . . . . . . . . . . . . .
2.9.1. Test t dla hipotezy o zachodzeniu liniowego zwiazku
˛
mi˛edzy x a y
2.9.2. Przedział ufności dla nachylenia linii regresji . . . . . . . . . . . . .
2.9.3. Przedział ufności dla wartości średniej y przy danej wartości x . . .
2.9.4. Przedział predykcji dla wartości y przy danej wartości x . . . . . .
2.9.5. Sprawdzanie założeń regresji . . . . . . . . . . . . . . . . . . . . . . .
Przykład: zbiór danych baseball . . . . . . . . . . . . . . . . . . . . . . . . .
Przykład: zbiór danych California . . . . . . . . . . . . . . . . . . . . . . . .
Transformacje w celu osiagni˛
˛ ecia liniowości . . . . . . . . . . . . . . . . . .
2.12.1.Transformacja Boxa–Coxa . . . . . . . . . . . . . . . . . . . . . . . .
Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
36
Przykład regresji wielokrotnej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Model regresji wielokrotnej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Wnioskowanie w modelu regresji wielokrotnej . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1. Test t dla zależności pomi˛edzy y a xi . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2. Test t dla zależności pomi˛edzy zmienna˛ wartość odżywcza a zmienna˛ cukry . . . . .
3.3.3. Test t dla zależności pomi˛edzy zmienna˛ wartość odżywcza a zmienna˛ błonnik . . . .
3.3.4. Test F istotności całego modelu regresji . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.5. Test F dla zależności pomi˛edzy zmienna˛ wartość odżywcza a zmiennymi cukry
i błonnik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.6. Przedział ufności dla danego współczynnika . . . . . . . . . . . . . . . . . . . . . . . .
3.3.7. Przedział ufności dla wartości średniej y przy danych x1 , x2 , . . . , xm . . . . . . . . .
3.3.8. Przedział predykcji dla y przy danych x1 , x2 , . . . , xm . . . . . . . . . . . . . . . . . .
Regresja z jakościowymi zmiennymi objaśniajacymi
˛
. . . . . . . . . . . . . . . . . . . . . . .
3.4.1. Skorygowany R 2 — sposób na wyeliminowanie z modelu zmiennych objaśniaja˛
cych, które nie sa˛ przydatne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.2. Sekwencyjne sumy kwadratów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Współliniowość . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Metody wyboru zmiennych objaśniajacych
˛
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6.1. Cz˛eściowy test F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6.2. Metoda dołaczania
˛
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6.3. Metoda eliminacji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6.4. Regresja krokowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6.5. Metoda najlepszych podzbiorów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6.6. Metoda wszystkich możliwych regresji . . . . . . . . . . . . . . . . . . . . . . . . . . .
Zastosowanie metod wyboru zmiennych objaśniajacych
˛
. . . . . . . . . . . . . . . . . . . . .
3.7.1. Metoda dołaczania
˛
zastosowana do zbioru danych cereals . . . . . . . . . . . . . . . .
98
104
105
105
106
106
107
108
109
110
110
110
119
120
122
128
128
130
131
131
131
132
132
133
Spis treści
3.8.
3.9.
3.10.
3.11.
3.12.
3.13.
IX
3.7.2. Metoda eliminacji zastosowana do zbioru danych cereals . . . . . . . . .
3.7.3. Metoda regresji krokowej zastosowana do zbioru danych cereals . . . . .
3.7.4. Metoda najlepszych podzbiorów zastosowana do zbioru danych cereals
Statystyka Cp Mallowsa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kryteria wyboru zmiennych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Zastosowanie składowych głównych jako zmiennych objaśniajacych
˛
. . . . . .
Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
135
137
138
138
140
148
154
156
156
4. Regresja logistyczna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
4.1.
4.2.
4.3.
4.4.
4.5.
4.6.
4.7.
4.8.
4.9.
4.10.
4.11.
4.12.
4.13.
4.14.
Przykład prostej regresji logistycznej . . . . . . . . . . . . . . . . . . . . . . . . . . .
Estymacja najwi˛ekszej wiarygodności . . . . . . . . . . . . . . . . . . . . . . . . . . .
Interpretacja wyników regresji logistycznej . . . . . . . . . . . . . . . . . . . . . . .
Wnioskowanie — czy zmienne objaśniajace
˛ sa˛ istotne? . . . . . . . . . . . . . . . .
Interpretacja modelu regresji logistycznej . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.1. Interpretacja modelu dla zmiennych jakościowych o dwóch wartościach . .
4.5.2. Interpretacja modelu dla zmiennych objaśniajacych
˛
z wieloma wartościami
4.5.3. Interpretacja modelu z ciagł
˛ a˛ zmienna˛ objaśniajac
˛ a˛ . . . . . . . . . . . . . . .
Założenie liniowości . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Problem komórek z wartościa˛ zero . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Wielokrotna regresja logistyczna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Wprowadzenie funkcji wyższego rz˛edu, aby uwzgl˛ednić nieliniowość . . . . . . . .
Sprawdzenie modelu regresji logistycznej . . . . . . . . . . . . . . . . . . . . . . . .
WEKA — praktyczna analiza za pomoca˛ regresji logistycznej . . . . . . . . . . . .
Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
163
166
166
168
170
171
175
179
184
187
189
194
201
205
209
210
211
5. Naiwna estymacja bayesowska i sieci bayesowskie . . . . . . . . . . . . . . . . . . . . . . . . . . 217
5.1. Podejście bayesowskie . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2. Klasyfikacja maksymalnego a posteriori . . . . . . . . . . . . . . . . .
5.2.1. Iloraz szans a posteriori . . . . . . . . . . . . . . . . . . . . . . .
5.2.2. Równoważenie danych . . . . . . . . . . . . . . . . . . . . . . .
5.3. Naiwny klasyfikator bayesowski . . . . . . . . . . . . . . . . . . . . . .
5.3.1. Numeryczne zmienne objaśniajace
˛
. . . . . . . . . . . . . . . .
5.4. WEKA — praktyczna analiza zastosowania naiwnego Bayesa . . . .
5.5. Sieci przekonań Bayesa . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5.1. Przykład zakupów odzieży . . . . . . . . . . . . . . . . . . . . .
5.5.2. Zastosowanie sieci Bayesa do znalezienia prawdopodobieństw
5.6. WEKA — praktyczna analiza z użyciem klasyfikatora sieci Bayesa .
5.7. Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.8. Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.9. Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
217
219
223
225
228
233
237
241
242
244
247
250
251
252
6. Algorytmy genetyczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
6.1.
6.2.
6.3.
6.4.
Wprowadzenie do algorytmów genetycznych . . .
Podstawowy szkielet algorytmu genetycznego . . .
Prosty przykład działania algorytmu genetycznego
Modyfikacje i rozszerzenia — selekcja . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
255
256
258
260
X
Spis treści
6.5.
Modyfikacje i rozszerzenia — krzyżowanie . . . . . . . . . . . . . . . . .
6.5.1. Krzyżowanie wielopunktowe . . . . . . . . . . . . . . . . . . . . . .
6.5.2. Krzyżowanie równomierne . . . . . . . . . . . . . . . . . . . . . . .
6.6. Algorytm genetyczny dla zmiennych rzeczywistych . . . . . . . . . . . .
6.7. Zastosowanie algorytmów genetycznych do uczenia sieci neuronowych .
6.8. WEKA — praktyczna analiza użycia algorytmów genetycznych . . . . .
6.9. Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.10. Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.11. Ćwiczenia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
262
262
263
263
265
270
277
278
280
7. Studium przypadku — modelowanie odpowiedzi na kampani˛e marketingowa˛ . . . . . . . . . 282
7.1.
7.2.
7.3.
7.4.
7.5.
7.6.
Cross-Industry Standard Process for Data Mining . . . . . . . . . . . . . . . . .
Zrozumienie uwarunkowań biznesowych . . . . . . . . . . . . . . . . . . . . . . .
7.2.1. Problem odpowiedzi na kampani˛e marketingowa˛ . . . . . . . . . . . . . .
7.2.2. Budowanie tabeli koszt/zysk . . . . . . . . . . . . . . . . . . . . . . . . . .
Zrozumienie danych i przygotowanie danych . . . . . . . . . . . . . . . . . . . .
7.3.1. Przekształcenia w celu uzyskania normalności albo symetrii . . . . . . .
7.3.2. Standaryzacja i zmienne flagowe . . . . . . . . . . . . . . . . . . . . . . . .
7.3.3. Otrzymywanie nowych zmiennych . . . . . . . . . . . . . . . . . . . . . .
7.3.4. Badanie relacji pomi˛edzy zmiennymi objaśniajacymi
˛
a zmienna˛ celu . .
7.3.5. Badanie struktury korelacji pomi˛edzy zmiennymi objaśniajacymi
˛
. . . .
Etap modelowania i ewaluacji . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.4.1. Analiza składowych głównych . . . . . . . . . . . . . . . . . . . . . . . . .
7.4.2. Analiza skupień — algorytm grupowania BIRCH . . . . . . . . . . . . . .
7.4.3. Równoważenie zbioru uczacego
˛
. . . . . . . . . . . . . . . . . . . . . . . .
7.4.4. Określenie punktu odniesienia dla działania modelu . . . . . . . . . . . .
7.4.5. Zbiór modeli A — wykorzystanie analizy składowych głównych . . . . .
7.4.6. Przeważanie jako substytut kosztów bł˛ednej klasyfikacji . . . . . . . . . .
7.4.7. Łaczenie
˛
modeli — głosowanie . . . . . . . . . . . . . . . . . . . . . . . .
7.4.8. Zbiór modeli B — modele bez składowych głównych . . . . . . . . . . .
7.4.9. Łaczenie
˛
modeli za pomoca˛ średniego prawdopodobieństwa odpowiedzi
Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
282
284
284
284
286
289
293
294
296
305
307
310
312
316
317
319
321
323
325
327
332
335
Literatura uzupełniajaca
˛
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336
Indeks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337