Część 2: Data Mining

Transkrypt

Łukasz Przywarty 171018
Wrocław, 18.01.2013 r.
Grupa: CZW/N 10:00-13:00
Raport z zajęć laboratoryjnych w ramach przedmiotu
Hurtownie i eksploracja danych
Część 2: Data Mining
Prowadzący:
dr inż. Henryk Maciejewski
1/6
1. Cel
W ramach drugiego etapu należało wykonać modelowanie predykcyjne, którego celem jest
sklasyfikowanie wiadomości przesyłanych pocztą elektroniczną jako spam lub nie-spam. Efektem
realizacji tej części zajęć laboratoryjnych było zapoznanie z procesem Data Minning i metodologią
SEMMA (Sampe – Explore – Modify – Model – Assess) oraz opanowanie umiejętności
wykorzystania narzędzia SAS Enterprise Miner i podstaw programowania w SAS 4 GL (języka
skryptowego do preprocesingu i analizy danych).
2. Klasyfikatory
Podczas zajęć laboratoryjnych zbudowano model – klasyfikator wiadomości pocztowych
opisanych atrybutami jak w danych wejściowych. Zmienna celu target przyjmuje wartość yes
dla wiadomości spam lub no dla wiadomości, która nie jest pocztą niechcianą. Model został
zbudowany według
metodologii
SEMMA.
Całe
drzewo
zawierające
różne
algorytmy
poszczególnych klasyfikatorów przedstawia rysunek 1.
Rysunek 1: Klasyfikatory wiadomości pocztowych
Dla wszystkich klasyfikatorów ustalono różne koszty decyzji i błędów. Przyjęte stałe przedstawiają
tabele 1 oraz 2. Oprócz tego eksperymentowano z różnymi konfiguracjami algorytmów. Punkty od
2.1 do 2.7 prezentują najlepsze znalezione kombinacje.
2/6
Koszty decyzji 1
Koszty decyzji 2
Decision 1
YES
0,00
Decision 1
YES
1,00
Decision 2
NO
0,00
Decision 2
NO
0,00
Tabela 1: Koszty decyzji 1
Tabela 2: Koszty decyzji 2
2.1 Decision Tree
a) Elementy - klasyfikator został zbudowany z następujących elementów:
Input Data (SPAM) → Data Partition → Variable Selection → Principal Component →
Decision Tree → Score → SAS Code
b) Wyniki – rezultaty wykonanych klasyfikacji są zawarte w tabelach 3 oraz 4.
Poprawna
odpowiedź
NO
YES
Odpowiedź klasyfikatora
NO
YES
882
3
99,66%
0,34%
43
510
7,78%
92,22%
Tabela 3: Wyniki dla kosztów decyzji 1
Poprawna
odpowiedź
NO
YES
885
0
100,00%
0,00%
553
0
100,00%
0,00%
NO
YES
2.2 Regression
Regression → Score → SAS Code
Poprawna
odpowiedź
NO
YES
NO
YES
878
7
99,21%
0,79%
43
510
7,78%
92,22%
Poprawna
odpowiedź
NO
YES
NO
YES
878
7
99,21%
0,79%
43
510
7,78%
92,22%
3/6
2.3 Auto Neural
Input Data (SPAM) → Data Partition → Variable Selection → Auto Neural → Score → SAS
Code
Poprawna
odpowiedź
NO
YES
NO
YES
116
769
13,11%
86,89%
5
548
0,90%
99,10%
Poprawna
odpowiedź
NO
YES
312
573
35,25%
64,75%
4
549
0,72%
99,28%
NO
YES
2.4 Rule Induction
Input Data (SPAM) → Data Partition → Variable Selection → Principal Component → Rule
Induction → Score → SAS Code
Poprawna
odpowiedź
NO
YES
NO
YES
882
3
99,66%
0,34%
43
510
7,78%
92,22%
Poprawna
odpowiedź
NO
YES
882
3
99,66%
0,34%
43
510
7,78%
92,22%
NO
YES
2.5 Neural Network
Input Data (SPAM) → Data Partition → Neural Network → Score → SAS Code
4/6
Poprawna
odpowiedź
NO
YES
871
14
98,42%
1,58%
39
514
7,05%
92,95%
NO
YES
Poprawna
odpowiedź
NO
YES
872
13
98,53%
1,47%
32
521
5,79%
94,21%
NO
YES
2.6 DMN Neural
Input Data (SPAM) → Data Partition → DMN Neural → Score → SAS Code
Poprawna
odpowiedź
NO
YES
NO
YES
873
12
98,64%
1,36%
61
492
11,03%
88,97%
Poprawna
odpowiedź
NO
YES
873
12
98,64%
1,36%
61
492
11,03%
88,97%
NO
YES
2.7 Decision Tree (boosting/bagging)
Start Groups → Decision Tree → End Groups → Score → SAS Code
5/6
Poprawna
odpowiedź
NO
YES
881
4
99,55%
0,45%
50
503
9,04%
0,00%
NO
YES
Poprawna
odpowiedź
NO
YES
NO
YES
885
0
100,00%
0,00%
553
0
100,00%
0,00%
3. Wyniki
Klasyfikatory decydują, czy konkretna wiadomość jest wiadomością spam czy też nie. Jeśli
chodzi o klasyfikowanie dobrych listów jako spam (no → yes) najlepiej radzą sobie klasyfikatory:
•
w przypadku kosztów decyzji 1: Decision Tree (2.1) – skuteczność na poziomie 99,66%
oraz Rule Induction (2.4) – również 99,66%,
•
w przypadku kosztów decyzji 2: Decision Tree (2.1) – skuteczność 100% oraz Decision Tree
(boosting/bagging) (2.7) – również 100%.
Warto zauważyć, że dla kosztów decyzji 1 boosting i bagging nie zwiększa skuteczności, a wręcz ją
obniża (do 99,55%). Koszty decyzji 2 sprawiają, że klasyfikator Decision Tree osiąga idealną
skuteczność – 100%.
W przypadku klasyfikacji spamu jako wiadomości nie-spam (yes → no) najlepsze rezultaty
osiągają klasyfikatory:
•
dla kosztów decyzji 1: Auto Neural (2.3) - skuteczność na poziomie 99,10%,
•
dla kosztów decyzji 2: Decision Tree (2.1) – skuteczność 100% oraz Decision Tree
(boosting/bagging) (2.7) – również 100%.
Podobnie jak w przypadku klasyfikacji no → yes boosting i bagging obniża skuteczność
klasyfikatora dla kosztów decyzji 1 (dla kosztów decyzji 2 wyniki nie zmieniają się), natomiast
ustawienie kosztów decyzji 2 zwiększa skuteczność klasyfikatora do 100%.
Podczas realizacji zadań laboratoryjnych podjęto próby modyfikacji ustawień algorytmów
poszczególnych klasyfikatorów (Neural Network, Decision Tree), jednak nie uzyskano rezultatów
lepszych od tych, które były osiągane przy domyślnych wartościach.
6/6

Część 2: Data Mining

Transkrypt

Podobne dokumenty

Mobile Phone Alcatel 20.07 red

formularz reklamacyjny

PHILIPS DISNEY FINDING DORY 71769/90/16

Doradca Klienta Concept Store YES Miejsce pracy: Warszawa

Article nr: 33306991

HKB Handle Keeper Black