RILL - Politechnika Poznańska

Transkrypt

RILL - Politechnika Poznańska
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
RILL - przyrostowy klasyfikator regułowy uczący
się ze zmiennych środowisk
Magdalena Deckert
Politechnika Poznańska, Instytut Informatyki
Seminarium ISWD, 21.05.2013
M. Deckert
Przyrostowy klasyfikator regułowy RILL
1 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Plan prezentacji
1
Wprowadzenie
Concept drift i rodzaje zmian
Regułowe algorytmy przyrostowe dla zmiennych środowisk
FLORA
AQ11-PM-WAH
FACIL
VFDR
2
Przyrostowy algorytm regułowy RILL
Motywacje
Założenia
Ogólny schemat działania algorytmu RILL
3
Eksperymenty RILL
4
Podsumowanie
M. Deckert
Przyrostowy klasyfikator regułowy RILL
2 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Concept drift i rodzaje zmian
Regułowe algorytmy przyrostowe dla zmiennych środowisk
Statyczny schemat tworzenia klasyfikatorów
Klasyfikator
Przykłady
uczące
Algorytm
uczący
M. Deckert
Przyrostowy klasyfikator regułowy RILL
3 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Concept drift i rodzaje zmian
Regułowe algorytmy przyrostowe dla zmiennych środowisk
Strumienie danych
Strumienie danych charakteryzują się bardzo dużym
rozmiarem danych (nawet nieskończonym).
Środowisko, a tym samym problem klasyfikacji, może zmieniać
się wraz z upływem czasu.
M. Deckert
Przyrostowy klasyfikator regułowy RILL
4 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Concept drift i rodzaje zmian
Regułowe algorytmy przyrostowe dla zmiennych środowisk
Concept drift
Definicja
Concept Drift – właściwości klasy decyzyjnej, którą model próbuje
przewidzieć, zmieniają się wraz z upływem czasu w
nieprzewidziany sposób
Problem
Trafność klasyfikacji maleje wraz z upływem czasu.
M. Deckert
Przyrostowy klasyfikator regułowy RILL
5 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Concept drift i rodzaje zmian
Regułowe algorytmy przyrostowe dla zmiennych środowisk
Rodzaje zmian
Zmiana
nagła
inne
powracające
pojęcia
stopniowa
blips
szum
M. Deckert
Przyrostowy klasyfikator regułowy RILL
6 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Concept drift i rodzaje zmian
Regułowe algorytmy przyrostowe dla zmiennych środowisk
Algorytmy przyrostowe
Przetwarzają dane etykietowane przykład po przykładzie.
Powstały znacznie wcześniej niż pojęcie concept drift.
Ich wiedza może mieć różne reprezentacje, m.in. reguły
decyzyjne.
Zdaniem prof. Gamy przyrostowe generowanie reguł
decyzyjnych nie jest zbyt popularne w środowisku uczenia się
ze zmiennych środowisk.
M. Deckert
Przyrostowy klasyfikator regułowy RILL
7 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Concept drift i rodzaje zmian
Regułowe algorytmy przyrostowe dla zmiennych środowisk
Regułowe algorytmy przyrostowe dla zmiennych środowisk
Istniejące
algorytmy
FLORA
VFDR
AQ11PM-WAH
M. Deckert
FACIL
Przyrostowy klasyfikator regułowy RILL
8 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Concept drift i rodzaje zmian
Regułowe algorytmy przyrostowe dla zmiennych środowisk
Algorytm FLORA
Składowe algorytmu FLORA
FLORA posiada okno czasowe z zapamiętanymi przykładami
uczącymi.
Wiedza reprezentowana jest za pomocą nieuporządkowanego
zbioru reguł.
Z każdą hipotezą związane są 3 zbiory ADES, NDES, PDES.
M. Deckert
Przyrostowy klasyfikator regułowy RILL
9 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Concept drift i rodzaje zmian
Regułowe algorytmy przyrostowe dla zmiennych środowisk
Algorytm FLORA
Rodzaje algorytmu FLORA
FLORA ma stały rozmiar okna czasowego.
FLORA2 ma możliwość dynamicznego dostosowywania
rozmiaru okna czasowego.
FLORA3 rozpoznaje powracające opisy pojęć.
FLORA4 rozpoznaje zjawisko szumu.
M. Deckert
Przyrostowy klasyfikator regułowy RILL
10 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Concept drift i rodzaje zmian
Regułowe algorytmy przyrostowe dla zmiennych środowisk
Algorytm AQ11-PM-WAH
AQ11-PM-WAH zapamiętuje wybrane przykłady uczące
(częściowa pamięć przykładów). Wyznaczają one lub
wzmacniają wyindukowane granice opisów pojęć.
W każdej fazie uczenia nowe przykłady uczące, które są źle
klasyfikowane, łączone są z przykładami przechowywanymi w
pamięci i generowany jest aktualny model wiedzy.
Na koniec, za pomocą nowego zbioru reguł, uaktualniane są
przykłady brzegowe w pamięci. Przykłady, które nie definiują
już granic opisów pojęć są usuwane.
M. Deckert
Przyrostowy klasyfikator regułowy RILL
11 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Concept drift i rodzaje zmian
Regułowe algorytmy przyrostowe dla zmiennych środowisk
Algorytm FACIL
Algorytm FACIL posiada podobnie jak AQ11-PM-WAH
częściową pamięć przykładów składającą się z przykładów
granicznych (osobną dla każdej reguły).
Pozwala on na generowanie nieczystych reguł (pokrywają
zarówno przykłady pozytywne jak i negatywne).
Zapamiętuje 2 przykłady pozytywne na każdy 1 negatywny
pokryty przez regułę. Dzięki temu, po przekroczeniu
minimalnego progu czystości, nowe reguły generowane są z
obu typów przykładów.
M. Deckert
Przyrostowy klasyfikator regułowy RILL
12 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Concept drift i rodzaje zmian
Regułowe algorytmy przyrostowe dla zmiennych środowisk
Algorytm VFDR
Algorytm dedykowany przetwarzaniu strumieni o bardzo
dużych rozmiarach, w których nowe przykłady pojawiają się
bardzo szybko.
Ma on możliwość wygenerowania zarówno
nieuporządkowanego jak i uporządkowanego zbioru reguł.
Nie ma pamięci przykładów, lecz utrzymuje strukturę danych
zawierającą statystyki niezbędne do klasyfikacji nowych
przykładów oraz aktualizacji reguł. Każda reguła decyzyjna
ma swoją oddzielną strukturę danych.
M. Deckert
Przyrostowy klasyfikator regułowy RILL
13 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Concept drift i rodzaje zmian
Regułowe algorytmy przyrostowe dla zmiennych środowisk
Algorytm VFDR
Algorytm wykorzystuje ograniczenia Hoeffdinga, aby określić
liczbę przykładów uczących, po których należy zaktualizować
zbiór reguł decyzyjnych. Ponadto określają one także czy
pojedyncza reguła wymaga rozszerzenia.
Rozszerzenie VFDR-MC pozwala na rozwiązywanie problemów
wieloklasowych.
VFDR został także dostosowany do zmiennych środowisk. W
rozszerzeniu AVFDR każdą regułę powiązano z jawnym
detektorem zmian bazującym na detektorze DDM, który śledzi
jakość klasyfikacji reguły.
M. Deckert
Przyrostowy klasyfikator regułowy RILL
14 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Concept drift i rodzaje zmian
Regułowe algorytmy przyrostowe dla zmiennych środowisk
Porównanie istniejących algorytmów
Kryterium
typ danych
problem klasyfikacji
typ pamięci
reprezentacja wiedzy
dane testowe
Kryterium
typ danych
problem klasyfikacji
typ pamięci
reprezentacja wiedzy
dane testowe
FLORA
AQ11-PM-WAH
nominalne
nominalne i numeryczne
binarny
wieloklasowy
okno czasowe
pamięć częściowa
ADES, NDES, PDES
nieuporządkowana
STAGGER
FACIL
VFDR
nominalne i numeryczne
wieloklasowy
pamięć częściowa
brak
nieuporządkowana nie- i uporządkowana
hyperplane
różne
M. Deckert
Przyrostowy klasyfikator regułowy RILL
15 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Motywacje
Założenia
Ogólny schemat działania algorytmu RILL
Motywacje
Eksperymenty związane z BWE i OBWE pokazały, że
wprowadzenie elementu przyrostowości może poprawić
trafność klasyfikacji.
Reguły decyzyjne mogą być łatwo dostosowane do zmian
poprzez usunięcie lub modyfikację istniejących reguł.
Poprzez pokrywanie fragmentów przestrzeni są bardziej
elastyczne niż drzewa - nie ma konieczności przebudowy
całego modelu.
Ponadto, w uczeniu przyrostowym, drzewo decyzyjne może
wymagać większej liczby zmian.
Przyrostowa indukcja reguł jest skomplikowana i może
powodowac mniejsze zainteresowanie tą tematyką.
M. Deckert
Przyrostowy klasyfikator regułowy RILL
16 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Motywacje
Założenia
Ogólny schemat działania algorytmu RILL
Założenia 1
Nowy algorytm będzie przetwarzał strumienie danych, które
zawierają atrybuty nominalne oraz numeryczne.
Nowy algorytm będzie rozwiązywał problemy wieloklasowe.
Nowy algorytm będzie mógł działać samodzielnie oraz w
połączeniu z klasyfikatorem złożonym OBWE.
M. Deckert
Przyrostowy klasyfikator regułowy RILL
17 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Motywacje
Założenia
Ogólny schemat działania algorytmu RILL
Założenia 2
Wiedza klasyfikatora będzie reprezentowana w postaci
nieuporządkowanego zbioru reguł decyzyjnych postaci:
jeżeli atr-num w [d;g] oraz atr-nom = nominał to klasa.
Z każdą regułą zapamiętywane są istotne statytstyki:
moment ostatniego użycia
liczba poprawnie sklasyfikowanych przykładów
liczba niepoprawnie sklasyfikowanych przykładów
liczba pokrytych przykładów pozytywnych z okna czasowego
liczba pokrytych przykładów negatywnych z okna czasowego
M. Deckert
Przyrostowy klasyfikator regułowy RILL
18 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Motywacje
Założenia
Ogólny schemat działania algorytmu RILL
Założenia 3
Nowy algorytm powinien radzić sobie z dwoma głównymi
typami zmian: nagłą i stopniową.
Nowy algorytm będzie ewaluowany samodzielnie na
następujących miarach oceny: trafności klasyfikacji, czasie
przetwarzania oraz zajętości pamięci - ma mieć sensowne
wymagania wydajnościowe przy satysfakcjonującej trafności
klasyfikacji.
M. Deckert
Przyrostowy klasyfikator regułowy RILL
19 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Motywacje
Założenia
Ogólny schemat działania algorytmu RILL
Ogólny schemat działania algorytmu RILL
Dla każdego nowego przykładu możliwe są następujące sytuacje:
sprawdzane są reguły wskazujące na klasę przykładu
sprawdzane są reguły wskazujące na inną klasę decyzyjną
jeśli przykład nie został pokryty przez żadną z reguł
wskazujących na klasę przykładu, to sprawdzana jest
możliwość generalizacji
jeśli przykład nie został pokryty przez żadną z reguł
wskazujących na klasę przykładu oraz generalizacja nie
powiodła się, to dodawany jest pełen opis przykładu jako
nowa reguła decyzyjna
istniejący zbiór reguł jest aktualizowany - usuwanie reguł
M. Deckert
Przyrostowy klasyfikator regułowy RILL
20 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Motywacje
Założenia
Ogólny schemat działania algorytmu RILL
Generalizacja 1
Znajdź najbliższą regułę dla danego przykładu za pomocą
miary odległości:
v
u m
uX
da2 (xa , ya )
odleglosc(x, y ) = t
a=1


1 jeśli wartość jest nieznana
da = 0 lub 1 dla nominalnego


xa − yag lub yad − xa dla numerycznego
M. Deckert
Przyrostowy klasyfikator regułowy RILL
21 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Motywacje
Założenia
Ogólny schemat działania algorytmu RILL
Generalizacja 2
Wyszukaj wszystkie atrybuty, na których reguła nie jest
dopasowana do przykładu uczącego i zmodyfikuj je wszystkie
jednocześnie - możliwe akcje to: usunięcie atrybutu
nominalnego, rozszerzenie atrybutu numerycznego oraz
usunięcie atrybutu numerycznego (aktualnie niedostępne).
Oceń zmodyfikowaną regułę wykorzystując wybraną miarę
oceny (połączenie zmiany wsparcia oraz ufności):
Ocena =
|B 0 |
∗ (P(H|B 0 ) − P(H|B))
|B|
Jeśli uogólniana reguła ma dodatnią wartość miary oceny, to
zastąp starą najbliższą regułę jej zmodyfikowaną wersją.
M. Deckert
Przyrostowy klasyfikator regułowy RILL
22 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Motywacje
Założenia
Ogólny schemat działania algorytmu RILL
Generalizacja 3
Zaktualizuj wszystkie statystyki nowo wstawionej reguły:
moment ostatniego użycia
liczba poprawnie sklasyfikowanych przykładów
liczba niepoprawnie sklasyfikowanych przykładów
liczba pokrytych przykładów pozytywnych z okna czasowego
liczba pokrytych przykładów negatywnych z okna czasowego
M. Deckert
Przyrostowy klasyfikator regułowy RILL
23 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Motywacje
Założenia
Ogólny schemat działania algorytmu RILL
Usuwanie reguł
Reguła jest usuwana, gdy:
jest stara - nie była używana przez zdefiniowany okres czasu
(k ∗ okno, gdzie k-parametr)
czystość reguły spadła poniżej dopuszczalnego poziomu minimalny próg czystości określany na podstawie przedziału
ufności dla czystości reguł z klasy decyzyjnej wskazywanej
przez daną regułę decyzyjną
żle klasyfikuje - trafność klasyfikacji spadła poniżej
zdefiniowanego progu (aktualnie niedostępne)
M. Deckert
Przyrostowy klasyfikator regułowy RILL
24 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Struktura eksperymentów
Zbiory danych
Wyniki eksperymentalne
Eksperymenty
Implementaje znanych przyrostowych algorytmów regułowych
są niedostępne.
Przetestowano 4 różne klasyfikatory przyrostowe:
HoeffdingTree, NaiveBayes, HoeffdingTree z NaiveBayes oraz
RILL.
Klasyfikatory zaimplementowane są w języku Java i włączone
do środowiska Massive Online Analysis.
Mierzono następujące miary ewaluacji: trafność klasyfikacji,
czas przetwarzania oraz rozmiar zbudowanego modelu
wyrażone za pomocą użytego rozmiaru pamięci.
M. Deckert
Przyrostowy klasyfikator regułowy RILL
25 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Struktura eksperymentów
Zbiory danych
Wyniki eksperymentalne
Zbiory danych
Zbiór danych
CovType
Electricity
Poker
Hyperplane
RBFGradual
STAGGER
RBFSudden
RBFBlips
RBFNoDrift
Przykłady
581012
45312
829201
100000
100000
100000
100000
100000
100000
M. Deckert
Atrybuty
54
8
11
10
20
3
20
20
10
Klasy
7
2
10
4
4
2
4
4
2
Typ zmiany
nieznany
nieznany
nieznany
stopniowa
stopniowa
nagła
nagła
blips
N/A
Przyrostowy klasyfikator regułowy RILL
26 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Struktura eksperymentów
Zbiory danych
Wyniki eksperymentalne
Trafność klasyfikacji dla zbioru danych Electricity
M. Deckert
Przyrostowy klasyfikator regułowy RILL
27 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Struktura eksperymentów
Zbiory danych
Wyniki eksperymentalne
Trafność klasyfikacji dla zbioru danych Poker
M. Deckert
Przyrostowy klasyfikator regułowy RILL
28 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Struktura eksperymentów
Zbiory danych
Wyniki eksperymentalne
Trafność klasyfikacji dla zbioru RBF z nagłą zmianą
M. Deckert
Przyrostowy klasyfikator regułowy RILL
29 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Struktura eksperymentów
Zbiory danych
Wyniki eksperymentalne
Trafność klasyfikacji dla zbioru STAGGER z szybką zmianą
M. Deckert
Przyrostowy klasyfikator regułowy RILL
30 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Struktura eksperymentów
Zbiory danych
Wyniki eksperymentalne
Trafność klasyfikacji dla zbioru z wolną stopniową zmianą
M. Deckert
Przyrostowy klasyfikator regułowy RILL
31 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Struktura eksperymentów
Zbiory danych
Wyniki eksperymentalne
Trafność klasyfikacji dla zbioru z szybką stopniową zmianą
M. Deckert
Przyrostowy klasyfikator regułowy RILL
32 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Struktura eksperymentów
Zbiory danych
Wyniki eksperymentalne
Podsumowanie wyników dla trafności klasyfikacji
RILL całkiem dobrze radzi sobie z rzeczywistymi zbiorami
danych. W 2/3 uzyskuje najwyższą trafność klasyfikacji.
Dla zbioru RBF z nagłą zmianą RILL uzyskał najwyższą
trafność klasyfikacji.
STAGGER jest trudnym zbiorem danych - zmiany są bardzo
szybkie i żaden z testowanych klasyfikatorów nie dał dobrego
wyniku.
Dla zbiorów z blipsami oraz bez zmian RILL uzyskał
najwyższą trafność klasyfikacji.
RILL nie uzyskał satysfakcjonujących wyników na zbiorach
danych ze stopniową zmianą.
M. Deckert
Przyrostowy klasyfikator regułowy RILL
33 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Struktura eksperymentów
Zbiory danych
Wyniki eksperymentalne
Przykładowy wykres zużycia pamięci
M. Deckert
Przyrostowy klasyfikator regułowy RILL
34 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Struktura eksperymentów
Zbiory danych
Wyniki eksperymentalne
Przykładowy wykres czasu przetwarzania
M. Deckert
Przyrostowy klasyfikator regułowy RILL
35 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Podsumowanie
Dalsze prace
Pytania
Podsumowanie
Omówiono istniejące przyrostowe algorytmy indukcji reguł
uczące się w zmiennych środowiskach: FLORA,
AQ11-PM-WAH, FACIL, VFDR.
Przedstawiono wstępną propozycję nowego algorytmu RILL
oraz uzyskane wyniki eksperymentalne.
M. Deckert
Przyrostowy klasyfikator regułowy RILL
36 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Podsumowanie
Dalsze prace
Pytania
Dalsze prace
Analiza zachowania wstępnej propozycji RILL w szczególności
dla zbiorów ze stopniową zmianą.
Poprawa zachowania RILL dla zbiorów ze stopniową zmianą.
Znaczne zmniejszenie wymagań pamięciowych oraz czasowych
algorytmu RILL.
Propozycja nowej miary oceny jakości generalizacji.
Propozycja specjalizacji reguły.
Uwzględnienie jakości klasyfikacji reguły - przy generowaniu
reguły oraz usuwaniu reguł.
M. Deckert
Przyrostowy klasyfikator regułowy RILL
37 / 38
Wprowadzenie
Przyrostowy algorytm regułowy RILL
Eksperymenty RILL
Podsumowanie
Podsumowanie
Dalsze prace
Pytania
Pytania
M. Deckert
Przyrostowy klasyfikator regułowy RILL
38 / 38

Podobne dokumenty