Systemy Wspomagania Decyzji - Zakład Informatyki i Łączności SGSP
Transkrypt
Systemy Wspomagania Decyzji - Zakład Informatyki i Łączności SGSP
Wprowadzenie Leniwe klasyfikatory Gorliwe klasyfikatory Metody oceny klasyfikatorów Systemy Wspomagania Decyzji Klasyfikacja Adam Krasuski Szkoła Główna Służby Pożarniczej Zakład Informatyki i Łączności February 22, 2014 Adam Krasuski Systemy Wspomagania Decyzji Podsumowanie Wprowadzenie Leniwe klasyfikatory Gorliwe klasyfikatory 1 Wprowadzenie 2 Leniwe klasyfikatory 3 Gorliwe klasyfikatory 4 Metody oceny klasyfikatorów 5 Podsumowanie Adam Krasuski Metody oceny klasyfikatorów Systemy Wspomagania Decyzji Podsumowanie Wprowadzenie Leniwe klasyfikatory Gorliwe klasyfikatory Metody oceny klasyfikatorów Definicja Klasyfikacja statystyczna – to rodzaj algorytmu statystycznego, który przydziela obserwacje statystyczne do klas, bazując na atrybutach (cechach) tych obserwacji. Klasyfikacja jest to problem identyfikacji, do którego ze zbiorów lub kategorii należy nowa obserwacja. Podstawą do klasyfikacji jest zbiór treningowy ze zbiorem danych zawierającym obserwacje których przynależność do kategorii jest znana. Adam Krasuski Systemy Wspomagania Decyzji Podsumowanie Wprowadzenie Leniwe klasyfikatory Gorliwe klasyfikatory Metody oceny klasyfikatorów Przykład wysocy ? niscy Adam Krasuski Systemy Wspomagania Decyzji Podsumowanie Wprowadzenie Leniwe klasyfikatory Gorliwe klasyfikatory Metody oceny klasyfikatorów Przykład cd. Jan Kowal, M, 172 cm, czy wysoki? lp. 1. 2. 3. 4. 5. 6. imię nazwisko Jan Nowakowski Jan Wiśniewski Jan Kowalski Jan Nowak Janina Kowalska Janina Nowak Adam Krasuski wzrost 191 185 181 175 171 160 płeć M M M M K K czy wysoki tak tak tak nie tak nie Systemy Wspomagania Decyzji Podsumowanie Wprowadzenie Leniwe klasyfikatory Gorliwe klasyfikatory Metody oceny klasyfikatorów Algorytm k-nn Adam Krasuski Systemy Wspomagania Decyzji Podsumowanie Wprowadzenie Leniwe klasyfikatory Gorliwe klasyfikatory Metody oceny klasyfikatorów Podsumowanie Naiwny klasyfikator Bayesowski Jan Kowal, M, 172 cm, czy wysoki? lp. 1. 2. 3. 4. 5. 6. imię nazwisko Jan Nowakowski Jan Wiśniewski Jan Kowalski Jan Nowak Janina Kowalska Janina Nowak CT = wzrost 191 185 181 175 171 160 płeć M M M M K K czy wysoki tak tak tak nie tak nie P(T )p(plec|T )p(wzrost|T ) #N (1) CT = 4 3 1 1 × × = 6 4 3 6 (2) CN = 2 1 2 1 × × = 6 4 3 18 (3) Adam Krasuski Systemy Wspomagania Decyzji Wprowadzenie Leniwe klasyfikatory Gorliwe klasyfikatory Metody oceny klasyfikatorów Podsumowanie Leniwy vs. gorliwy klasyfikator Leniwy klasyfikator – brak procesu uczenia się. Nie generuje modelu dla metod predykcji. Klasyfikacja polega na kombinowaniu bezpośrednio z danych treningowych. Gorliwy klasyfikator – buduje pełny model opisujący metodę predykcji. Klasyfikacja polega na generowaniu odpowiedzi z modelu. Dane treningowe Klasyfikator leniwy Dane testowe Klasyfikator gorliwy WYNIK N WYNIK Model N Czy Jan Kowal wysoki? Adam Krasuski Systemy Wspomagania Decyzji Wprowadzenie Leniwe klasyfikatory Gorliwe klasyfikatory Metody oceny klasyfikatorów Drzewa klasyfikacyjne Drzewa klasyfikacyjne — zbiorcza nazwa rodziny metod statystycznych, dokonujących za pomocą diagramów zwanych drzewami klasyfikacji obserwacji statystycznych, czyli podziału próby statystycznej na klasy obserwacji o podobnych właściwościach. Adam Krasuski Systemy Wspomagania Decyzji Podsumowanie Wprowadzenie Leniwe klasyfikatory Gorliwe klasyfikatory Metody oceny klasyfikatorów Podsumowanie Drzewa klasyfikacyjne cd. Entropia — w ramach teorii informacji jest definiowana jako średnia ważona ilości informacji niesionej przez pojedynczą wiadomość, gdzie wagami są prawdopodobieństwa nadania poszczególnych wiadomości. H(x) = n X p(i)log2 i=1 lp. 1. 2. 3. 4. 5. 6. imię nazwisko Jan Nowakowski Jan Wiśniewski Jan Kowalski Jan Nowak Janina Kowalska Janina Nowak 4 H(x) = 6 wzrost 191 185 181 175 171 160 1 log2 4 6 1 Hw (x) = Hp (x) = 2 (1log2 1 + 0log2 0) + 2 + 6 płeć M M M M K K 1 p(i) czy wysoki tak tak tak nie tak nie 1 log2 = 0, 918 2 6 1 1 1 2 1 ( log2 + log2 ) = 0, 459 1 2 2 3 3 3 3 4 3 1 1 1 2 1 1 1 1 ( log2 + log2 ) + ( log2 + log2 ) = 0, 873 3 1 1 1 6 4 4 6 2 2 4 4 2 2 Adam Krasuski (4) Systemy Wspomagania Decyzji (5) (6) (7) Wprowadzenie Leniwe klasyfikatory Gorliwe klasyfikatory Metody oceny klasyfikatorów Podsumowanie Klasyfikatory regułowe Indukcja reguł – jest działanie mające na cel budowę modelu opisującego dane w postaci reguł decyzyjnych typu: jeżeli A to B IF A THEN B. Metody indukcji reguł: Bezpośrednia indukcja z reguł (na podstawie przypadków), Indukcja reguł z nauczonych modeli (np. drzew klasyfikacji) Adam Krasuski Systemy Wspomagania Decyzji Wprowadzenie Leniwe klasyfikatory Gorliwe klasyfikatory Metody oceny klasyfikatorów Maszyna wektorów nośnych SVM Adam Krasuski Systemy Wspomagania Decyzji Podsumowanie Wprowadzenie Leniwe klasyfikatory Gorliwe klasyfikatory Metody oceny klasyfikatorów Podsumowanie Maszyna wektorów nośnych SVM cd. Maszyna wektorów nośnych, SVM (z ang. support vector machine) – klasyfikator, którego nauka ma na celu wyznaczenie hiperpłaszczyzny rozdzielającej z maksymalnym marginesem przykłady należące do dwóch klas. X2 H1 H2 H3 X1 Adam Krasuski Systemy Wspomagania Decyzji Wprowadzenie Leniwe klasyfikatory Gorliwe klasyfikatory Metody oceny klasyfikatorów Maszyna wektorów nośnych SVM cd. Adam Krasuski Systemy Wspomagania Decyzji Podsumowanie Wprowadzenie Leniwe klasyfikatory Gorliwe klasyfikatory Metody oceny klasyfikatorów Maszyna wektorów nośnych SVM cd. Adam Krasuski Systemy Wspomagania Decyzji Podsumowanie Wprowadzenie Leniwe klasyfikatory Gorliwe klasyfikatory Metody oceny klasyfikatorów Podsumowanie Sztuczne Sieci Neuronowe W układach nerwowych żywych organizmów stosunkowo proste elementy (neurony), współdziałając są w stanie realizować wysokopoziomowe, złożone funkcje. U podstaw sztucznych sieci neuronowych (ANN) leży idea wykorzystania prostych elementów obliczeniowych do tworzenia układów zdolnych rozwiązywać skomplikowane zadania. Siła rozwiązania leży nie w samych elementach obliczeniowych, a w sposobie ich łączenia. x1 x2 x3 w1 w2 y w3 wn xn Adam Krasuski Systemy Wspomagania Decyzji Wprowadzenie Leniwe klasyfikatory Gorliwe klasyfikatory Metody oceny klasyfikatorów Sztuczne Sieci Neuronowe przepływ sygnełów wejściowych warstwy ukryte warstwa wejściowa warstwa wyjściowa x1 y1 x2 y2 xn przepływ sygnełów o błędzie Adam Krasuski Systemy Wspomagania Decyzji Podsumowanie Wprowadzenie Leniwe klasyfikatory Gorliwe klasyfikatory Metody oceny klasyfikatorów Tablica Dezorientacji sklasyfkiowany wysoki sklasyfkiowany wysoki TAK NIE P N wysoki TAK T 12 3 wysoki NIE F 4 14 N P TP+TN Dokładność (ACC)= TP+TN+FP+FN TP Precyzja (Precision) = TP+FN TP Przywołanie (Recall) = TP+TN Adam Krasuski Systemy Wspomagania Decyzji Podsumowanie Wprowadzenie Leniwe klasyfikatory Gorliwe klasyfikatory Metody oceny klasyfikatorów Ewaluacja Adam Krasuski Systemy Wspomagania Decyzji Podsumowanie Wprowadzenie Leniwe klasyfikatory Gorliwe klasyfikatory Metody oceny klasyfikatorów Krzywa ROC Ocena klasyfikacji osób wg wzrostu krzywa ROC wg ubioru krzywa ROC Adam Krasuski Systemy Wspomagania Decyzji Podsumowanie Wprowadzenie Leniwe klasyfikatory Gorliwe klasyfikatory Metody oceny klasyfikatorów Podsumowanie NFL No Free Lunch Theorem 10 10 10 2! 2! 10 10 10 10 Adam Krasuski 10 Systemy Wspomagania Decyzji 10 2! Wprowadzenie Leniwe klasyfikatory Gorliwe klasyfikatory Metody oceny klasyfikatorów Podsumowanie Zaprezentowano ideę klasyfikacji jako metody wspomagania podejmowania decyzji. Wymieniono kilka rodzajów klasyfikatorów oraz podzielono w zależności od typu. Przedstawiono statystyczne metody oceny klasyfikacji. Adam Krasuski Systemy Wspomagania Decyzji Podsumowanie