Systemy Wspomagania Decyzji - Zakład Informatyki i Łączności SGSP

Transkrypt

Systemy Wspomagania Decyzji - Zakład Informatyki i Łączności SGSP
Wprowadzenie
Leniwe klasyfikatory
Gorliwe klasyfikatory
Metody oceny klasyfikatorów
Systemy Wspomagania Decyzji
Klasyfikacja
Adam Krasuski
Szkoła Główna Służby Pożarniczej
Zakład Informatyki i Łączności
February 22, 2014
Adam Krasuski
Systemy Wspomagania Decyzji
Podsumowanie
Wprowadzenie
Leniwe klasyfikatory
Gorliwe klasyfikatory
1
Wprowadzenie
2
Leniwe klasyfikatory
3
Gorliwe klasyfikatory
4
Metody oceny klasyfikatorów
5
Podsumowanie
Adam Krasuski
Metody oceny klasyfikatorów
Systemy Wspomagania Decyzji
Podsumowanie
Wprowadzenie
Leniwe klasyfikatory
Gorliwe klasyfikatory
Metody oceny klasyfikatorów
Definicja
Klasyfikacja statystyczna – to rodzaj algorytmu statystycznego, który
przydziela obserwacje statystyczne do klas, bazując na atrybutach
(cechach) tych obserwacji.
Klasyfikacja jest to problem identyfikacji, do którego ze zbiorów lub
kategorii należy nowa obserwacja. Podstawą do klasyfikacji jest zbiór
treningowy ze zbiorem danych zawierającym obserwacje których
przynależność do kategorii jest znana.
Adam Krasuski
Systemy Wspomagania Decyzji
Podsumowanie
Wprowadzenie
Leniwe klasyfikatory
Gorliwe klasyfikatory
Metody oceny klasyfikatorów
Przykład
wysocy
?
niscy
Adam Krasuski
Systemy Wspomagania Decyzji
Podsumowanie
Wprowadzenie
Leniwe klasyfikatory
Gorliwe klasyfikatory
Metody oceny klasyfikatorów
Przykład cd.
Jan Kowal, M, 172 cm, czy wysoki?
lp.
1.
2.
3.
4.
5.
6.
imię nazwisko
Jan Nowakowski
Jan Wiśniewski
Jan Kowalski
Jan Nowak
Janina Kowalska
Janina Nowak
Adam Krasuski
wzrost
191
185
181
175
171
160
płeć
M
M
M
M
K
K
czy wysoki
tak
tak
tak
nie
tak
nie
Systemy Wspomagania Decyzji
Podsumowanie
Wprowadzenie
Leniwe klasyfikatory
Gorliwe klasyfikatory
Metody oceny klasyfikatorów
Algorytm k-nn
Adam Krasuski
Systemy Wspomagania Decyzji
Podsumowanie
Wprowadzenie
Leniwe klasyfikatory
Gorliwe klasyfikatory
Metody oceny klasyfikatorów
Podsumowanie
Naiwny klasyfikator Bayesowski
Jan Kowal, M, 172 cm, czy wysoki?
lp.
1.
2.
3.
4.
5.
6.
imię nazwisko
Jan Nowakowski
Jan Wiśniewski
Jan Kowalski
Jan Nowak
Janina Kowalska
Janina Nowak
CT =
wzrost
191
185
181
175
171
160
płeć
M
M
M
M
K
K
czy wysoki
tak
tak
tak
nie
tak
nie
P(T )p(plec|T )p(wzrost|T )
#N
(1)
CT =
4 3 1
1
× × =
6 4 3
6
(2)
CN =
2 1 2
1
× × =
6 4 3
18
(3)
Adam Krasuski
Systemy Wspomagania Decyzji
Wprowadzenie
Leniwe klasyfikatory
Gorliwe klasyfikatory
Metody oceny klasyfikatorów
Podsumowanie
Leniwy vs. gorliwy klasyfikator
Leniwy klasyfikator – brak procesu uczenia się. Nie generuje modelu dla
metod predykcji. Klasyfikacja polega na kombinowaniu bezpośrednio z
danych treningowych.
Gorliwy klasyfikator – buduje pełny model opisujący metodę predykcji.
Klasyfikacja polega na generowaniu odpowiedzi z modelu.
Dane treningowe
Klasyfikator
leniwy
Dane testowe
Klasyfikator
gorliwy
WYNIK
N
WYNIK
Model
N
Czy Jan Kowal wysoki?
Adam Krasuski
Systemy Wspomagania Decyzji
Wprowadzenie
Leniwe klasyfikatory
Gorliwe klasyfikatory
Metody oceny klasyfikatorów
Drzewa klasyfikacyjne
Drzewa klasyfikacyjne — zbiorcza
nazwa rodziny metod
statystycznych, dokonujących za
pomocą diagramów zwanych
drzewami klasyfikacji obserwacji
statystycznych, czyli podziału próby
statystycznej na klasy obserwacji o
podobnych właściwościach.
Adam Krasuski
Systemy Wspomagania Decyzji
Podsumowanie
Wprowadzenie
Leniwe klasyfikatory
Gorliwe klasyfikatory
Metody oceny klasyfikatorów
Podsumowanie
Drzewa klasyfikacyjne cd.
Entropia — w ramach teorii informacji jest definiowana jako średnia
ważona ilości informacji niesionej przez pojedynczą wiadomość, gdzie
wagami są prawdopodobieństwa nadania poszczególnych wiadomości.
H(x) =
n
X
p(i)log2
i=1
lp.
1.
2.
3.
4.
5.
6.
imię nazwisko
Jan Nowakowski
Jan Wiśniewski
Jan Kowalski
Jan Nowak
Janina Kowalska
Janina Nowak
4
H(x) =
6
wzrost
191
185
181
175
171
160
1
log2
4
6
1
Hw (x) =
Hp (x) =
2
(1log2 1 + 0log2 0) +
2
+
6
płeć
M
M
M
M
K
K
1
p(i)
czy wysoki
tak
tak
tak
nie
tak
nie
1
log2
= 0, 918
2
6
1 1
1
2
1
( log2
+ log2
) = 0, 459
1
2
2 3
3
3
3
4 3
1
1
1
2 1
1
1
1
( log2
+ log2
) + ( log2
+ log2
) = 0, 873
3
1
1
1
6 4
4
6 2
2
4
4
2
2
Adam Krasuski
(4)
Systemy Wspomagania Decyzji
(5)
(6)
(7)
Wprowadzenie
Leniwe klasyfikatory
Gorliwe klasyfikatory
Metody oceny klasyfikatorów
Podsumowanie
Klasyfikatory regułowe
Indukcja reguł – jest działanie mające na cel budowę modelu
opisującego dane w postaci reguł decyzyjnych typu: jeżeli A to B IF A
THEN B.
Metody indukcji reguł:
Bezpośrednia indukcja z reguł (na podstawie przypadków),
Indukcja reguł z nauczonych modeli (np. drzew klasyfikacji)
Adam Krasuski
Systemy Wspomagania Decyzji
Wprowadzenie
Leniwe klasyfikatory
Gorliwe klasyfikatory
Metody oceny klasyfikatorów
Maszyna wektorów nośnych SVM
Adam Krasuski
Systemy Wspomagania Decyzji
Podsumowanie
Wprowadzenie
Leniwe klasyfikatory
Gorliwe klasyfikatory
Metody oceny klasyfikatorów
Podsumowanie
Maszyna wektorów nośnych SVM cd.
Maszyna wektorów nośnych, SVM (z ang. support vector machine) –
klasyfikator, którego nauka ma na celu wyznaczenie hiperpłaszczyzny
rozdzielającej z maksymalnym marginesem przykłady należące do dwóch
klas.
X2
H1
H2
H3
X1
Adam Krasuski
Systemy Wspomagania Decyzji
Wprowadzenie
Leniwe klasyfikatory
Gorliwe klasyfikatory
Metody oceny klasyfikatorów
Maszyna wektorów nośnych SVM cd.
Adam Krasuski
Systemy Wspomagania Decyzji
Podsumowanie
Wprowadzenie
Leniwe klasyfikatory
Gorliwe klasyfikatory
Metody oceny klasyfikatorów
Maszyna wektorów nośnych SVM cd.
Adam Krasuski
Systemy Wspomagania Decyzji
Podsumowanie
Wprowadzenie
Leniwe klasyfikatory
Gorliwe klasyfikatory
Metody oceny klasyfikatorów
Podsumowanie
Sztuczne Sieci Neuronowe
W układach nerwowych żywych organizmów stosunkowo proste elementy
(neurony), współdziałając są w stanie realizować wysokopoziomowe,
złożone funkcje. U podstaw sztucznych sieci neuronowych (ANN) leży
idea wykorzystania prostych elementów obliczeniowych do tworzenia
układów zdolnych rozwiązywać skomplikowane zadania. Siła rozwiązania
leży nie w samych elementach obliczeniowych, a w sposobie ich łączenia.
x1
x2
x3
w1
w2
y
w3
wn
xn
Adam Krasuski
Systemy Wspomagania Decyzji
Wprowadzenie
Leniwe klasyfikatory
Gorliwe klasyfikatory
Metody oceny klasyfikatorów
Sztuczne Sieci Neuronowe
przepływ sygnełów wejściowych
warstwy
ukryte
warstwa
wejściowa
warstwa
wyjściowa
x1
y1
x2
y2
xn
przepływ sygnełów o błędzie
Adam Krasuski
Systemy Wspomagania Decyzji
Podsumowanie
Wprowadzenie
Leniwe klasyfikatory
Gorliwe klasyfikatory
Metody oceny klasyfikatorów
Tablica Dezorientacji
sklasyfkiowany wysoki sklasyfkiowany wysoki
TAK
NIE
P
N
wysoki TAK
T
12
3
wysoki NIE
F
4
14
N
P
TP+TN
Dokładność (ACC)= TP+TN+FP+FN
TP
Precyzja (Precision) = TP+FN
TP
Przywołanie (Recall) = TP+TN
Adam Krasuski
Systemy Wspomagania Decyzji
Podsumowanie
Wprowadzenie
Leniwe klasyfikatory
Gorliwe klasyfikatory
Metody oceny klasyfikatorów
Ewaluacja
Adam Krasuski
Systemy Wspomagania Decyzji
Podsumowanie
Wprowadzenie
Leniwe klasyfikatory
Gorliwe klasyfikatory
Metody oceny klasyfikatorów
Krzywa ROC
Ocena klasyfikacji osób
wg wzrostu
krzywa ROC
wg ubioru
krzywa ROC
Adam Krasuski
Systemy Wspomagania Decyzji
Podsumowanie
Wprowadzenie
Leniwe klasyfikatory
Gorliwe klasyfikatory
Metody oceny klasyfikatorów
Podsumowanie
NFL No Free Lunch Theorem
10
10 10
2!
2!
10
10
10
10
Adam Krasuski
10
Systemy Wspomagania Decyzji
10
2!
Wprowadzenie
Leniwe klasyfikatory
Gorliwe klasyfikatory
Metody oceny klasyfikatorów
Podsumowanie
Zaprezentowano ideę klasyfikacji jako metody wspomagania
podejmowania decyzji.
Wymieniono kilka rodzajów klasyfikatorów oraz podzielono w
zależności od typu.
Przedstawiono statystyczne metody oceny klasyfikacji.
Adam Krasuski
Systemy Wspomagania Decyzji
Podsumowanie