Spis treści

Transkrypt

Spis treści
[
Spis treści
Przedmowa
0.1.
0.2.
0.3.
0.4.
0.5.
0.6.
0.7.
0.8.
0.9.
Co to jest eksploracja danych?
Dlaczego ta książka jest potrzebna?
Niebezpieczeństwo! Łatwo jest źle przeprowadzić eksplorację danych
Podejście typu „biała skrzynka": Zrozumienie podstawowych struktur algorytmów i modeli
0.4.1. Omówienie działania algorytmów
0.4.2. Zastosowanie algorytmów do dużego zbioru danych
0.4.3. Ćwiczenia do rozdziałów: Sprawdzenie, aby upewnić się, że rozumiesz
0.4.4. Ćwiczenia praktyczne: Nauka eksploracji danych poprzez wykonywanie eksploracji danych
Eksploracja danych jako proces
Podejście graficzne, podkreślające wstępną analizę danych
Jak zorganizowana jest ta książka? . . . . ^
Odkrywanie wiedzy z danych jako podręcznik
Podziękowania
1. Wprowadzenie do eksploracji danych
1.1.
1.2.
1.3.
1.4.
Co to jest eksploracja danych?
Dlaczego eksploracja danych?
Konieczność kierowania eksploracją danych przez człowieka
Cross-Industry Standard Process: CRISP-DM
1.4.1. CRISP-DM: sześć etapów
1.5. Mity o eksploracji danych
1.6. Jakie zadania może wykonywać eksploracja danych?
1.6.1. Opis
1.6.2. Szacowanie (estymacja)
1.6.3. Przewidywanie (predykcja)
1.6.4. Klasyfikacja
1.6.5. Grupowanie
1.6.6. Odkrywanie reguł
1.7. Literatura
1.8. Ćwiczenia
2. Wstępna obróbka danych
2.1.
2.2.
Dlaczego należy obrabiać dane?
Czyszczenie danych
XI
XI
XI
XII
XII
XIII
XIII
XIII
XIII
XIV
XIV
XIV
XV
XV
1
2
3
4
4
6
9
10
10
11
12
13
15
16
23
24
26
26
27
VIII
2.3.
2.4.
2.5.
2.6.
2.7.
2.8.
2.9.
Spis treści
Obsługa brakujących danych
Identyfikacja błędnych klasyfikacji
Graficzne metody identyfikacji punktów oddalonych
Przekształcanie danych
2.6.1. Normalizacja min-max
2.6.2. Standaryzacja
Metody numeryczne identyfikacji punktów oddalonych
Literatura
Ćwiczenia
3. Eksploracyjna analiza danych (EDA)
3.1.
3.2.
3.3.
3.4.
3.5.
3.6.
3.7.
3.8.
3.9.
3.10.
3.11.
3.12.
Testowanie hipotez a eksploracyjna analiza danych
Poznawanie zbioru danych
Postępowanie ze skorelowanymi zmiennymi
Badanie zmiennych jakościowych
Wykorzystanie EDA do odkrycia nieprawidłowych pól
Badanie zmiennych numerycznych
Badanie relacji wielowymiarowych
Wybieranie interesującego podzbioru danych do dalszych badań
Dyskretyzacja
Podsumowanie
Literatura
Ćwiczenia
4. Podejścia statystyczne do szacowania i przewidywania
4.1.
4.2.
4.3.
4.4.
4.5.
4.6.
4.7.
4.8.
4.9.
4.10.
4.11.
4.12.
4.13.
4.14.
Zadania eksploracji danych w Odkrywaniu wiedzy z danych
Podejścia statystyczne do szacowania i przewidywania
Metody jednowymiarowe: miary środka i rozpiętości
Wnioskowanie statystyczne
Jak wiarygodne są nasze szacowania?
Szacowanie przedziału ufności
Metody dwuwymiarowe: prosta regresja liniowa
Niebezpieczeństwa ekstrapolacji
Przedziały ufności wartości średniej y dla danego x
Przedziały ufności przewidywania losowo wybranej wartości y dla danego x
Regresja wielokrotna
Weryfikacja założeń modelu
Literatura
Ćwiczenia
5. Algorytm ^-najbliższych sąsiadów
5.1. Metody nadzorowane i nienadzorowane
5.2. Metodologia modelowania nadzorowanego
5.3. Kompromis obciążeniowo-wariacyjny
5.4. Zadanie klasyfikacji
5.5. Algorytmfc-najbliższych sąsiadów
5.6. Odległość
5.7. Funkcja decyzyjna
29
32
33
35
35
36
38
39
39
41
41
42
44
45
51
52
60
63
63
65
65
66
68
68
69
69
72
73
74
76
79
81
81
83
85
89
89
91
91
92
94
96
97
99
102
Spis treści
5.8.
5.9.
5.10.
5.11.
5.12.
5.13.
5.7.1. Proste głosowanie
5.7.2. Głosowanie ważone
Określanie ilościowe istotności atrybutu: rozciąganie osi
Uwzględnianie baz danych
Algorytm it-najbliższych sąsiadów do szacowania i przewidywania
Wybór k
Literatura
Ćwiczenia
102
103
104
105
105
106
107
107
6. Drzewa decyzyjne
6.1.
6.2.
6.3.
6.4.
6.5.
6.6.
109
Drzewa klasyfikacyjne i regresyjne
Algorytm C4.5
Reguły decyzyjne
Porównanie algorytmów C5.0 i CART zastosowanych do rzeczywistych danych
Literatura
Ćwiczenia
111
118
124
125
129
129
7. Sieci neuronowe
7.1.
7.2.
7.3.
7.4.
7.5.
7.6.
7.7.
7.8.
7.9.
7.10.
7.11.
7.12.
7.13.
7.14.
7.15.
131
Kodowanie sygnałów wejściowych oraz wyjściowych
Sieci neuronowe do szacowania i przewidywania
Prosty przykład sieci neuronowej
Sigmoidalna funkcja aktywacji
Propagacja wsteczna
Reguła największego spadku
Reguły propagacji wstecznej
Przykład propagacji wstecznej
Warunek „stopu"
Współczynnik korekcji (uczenia)
Składnik momentu
Analiza czułości
Zastosowanie modelowania sieci neuronowej
Literatura
Ćwiczenia
132
134
134
137
138
138
140
140
142
143
144
.146
146
149
149
8. Grupowanie hierarchiczne i metodą ^-średnich
8.1.
8.2.
8.3.
8.4.
8.5.
8.6.
8.7.
Zadanie grupowania
Metody grupowania hierarchicznego
8.2.1. Metoda pojedynczego połączenia
8.2.2. Metoda całkowitego połączenia
Algorytm ^-średnich
Przykład działania algorytmu ł-średnich
Zastosowanie algorytmu ^-średnich w oprogramowaniu SAS Enterprise Miner
8.5.1. Użycie przynależności do grupy do przewidywania rezygnacji
Literatura
Ćwiczenia
9. Sieci Kohonena
9.1.
9.2.
Sieci samoorganizujące się
Sieci Kohonena
151
'
151
153
154
155
157
157
162
165
166
166
168
168
170
Spis treści
9.3. Przykład uczenia sieci Kohonena
9.4. Sprawdzenie poprawności grup
9.5. Zastosowanie sieci Kohonena do grupowania
9.5.1. Interpretowanie grup
9.5.2. Profile grup
9.6. Użycie funkcji przynależności do grupy jako wejścia do modeli eksploracji danych . . . .
9.7. Literatura
9.8. Ćwiczenia
10. Reguły asocjacyjne
10.1. Analiza podobieństw i koszyka sklepowego
10.1.1. Reprezentacja danych do analizy koszyka sklepowego
10.2. Wsparcie, ufność, częste zdarzenia i właściwość A priori
10.3. Jak działa algorytm A priori
(część 1)? Tworzenie częstych zbiorów zdarzeń
10.4. Jak działa algorytm A priori
(część 2)? Tworzenie reguł asocjacyjnych
10.5. Rozszerzenie od zmiennych binarnych do ogólnych danych jakościowych
10.6. Podejście teorii informacji: metoda uogólnionej indukcji reguł
10.6.1. /-miara
10.6.2. Zastosowanie uogólnionej indukcji reguł
10.7. Kiedy nie używać reguł asocjacyjnych
10.8. Czy reguły asocjacyjne reprezentują uczenie nadzorowane, czy nienadzorowane?
10.9. Lokalne wzorce a globalne modele
10.10. Literatura
10.11. Ćwiczenia
11. Techniki ewaluacji modelu
11.1.
11.2.
11.3.
11.4.
11.5.
11.6.
11.7.
11.8.
11.9.
11.10.
11.11.
Techniki ewaluacji modelu do zadania opisu
Techniki ewaluacji modelu do zadań szacowania i przewidywania
Techniki ewaluacji modelu do zadania klasyfikacji
Współczynnik błędu, fałszywe klasyfikacje pozytywne (FP), fałszywe klasyfikacje negatywne (FN)
Dopasowanie kosztu błędnej klasyfikacji w celu odzwierciedlenia rzeczywistych strat. . .
Analiza decyzji koszt/zysk
Wykresy przyrostu i wykresy zysku
Połączenie oceny modelu z modelowaniem
Zbieżność wyników: zastosowanie grupy modeli
Literatura
Ćwiczenia
Epilog
„Dopiero co zaczęliśmy" — Zaproszenie do Data Mining Methods and Models
171
175
175
177
181
182
183
184
185
185
187
187
190
191
194
195
196
197
199
202
203
204
204
207
207
208
209
210
212
214
215
218
219
220
220
222
222
Literatura uzupełniająca
223
Indeks
224

Podobne dokumenty