IWiSE wykêad 4a Data Mining

Transkrypt

IWiSE wykêad 4a Data Mining
Inżynieria Wiedzy i Systemy Ekspertowe
Odkrywanie wiedzy w danych
dr inż. Michał Bereta
Politechnika Krakowska
http://torus.uck.pk.edu.pl/~beretam/
[email protected]
1
Data Mining
W pewnym teleturnieju główną nagrodą jest samochód. Jest on ukryty za jedną z
trzech bramek. Pozostałe dwie bramki są puste. Uczestnik obstawia jedną z
bramek. Następnie prowadzący teleturniej otwiera jedna z pozostałych dwóch
ujawniając, że jest ona pusta. Proponuje uczestnikowi zmianę wyboru bramki.
Co powinien uczynić uczestnik teleturnieju, by prawdopodobieństwo wygranej
było jak największe?
Pozostać przy swoim poprzednim wyborze?
Zamienić bramkę?
Czy ma to jakiekolwiek znaczenie?
A= ?
B=?
C=?
2
Data Mining
Co powinien uczynić uczestnik teleturnieju, by prawdopodobieństwo wygranej
było jak największe?
Pozostać przy swoim poprzednim wyborze?
Zamienić bramkę?
Czy ma to jakiekolwiek znaczenie?
A= ?
Bramka C
okazuje się być
pusta.
B=?
C = puste
Uczestnik
wybiera bramkę
A
3
Data Mining
Rozwiązanie:
Uczestnik powinien zmienić swój wybór na bramkę B.
A= ?
Prawdopodobieństwo wygranej = 1/3
B=?
C=?
Prawdopodobieństwo wygranej = 2/3
4
Data Mining
Rozwiązanie:
Uczestnik powinien zmienić swój wybór na bramkę B.
A= ?
Prawdopodobieństwo wygranej = 1/3
B=?
C = pusta
Prawdopodobieństwo wygranej = 2/3
5
Data Mining
Rozwiązanie:
Uczestnik powinien zmienić swój wybór na bramkę B.
A= ?
B=?
Prawdopodobieńśtwo wygranej = 1/3
Prawdopodobieńśtwo wygranej = 2/3
Wybór większego prawdopodobieństwa wygranej.
6
Data Mining
Starsi
A
2/10
Młodsi
48/90
B
30/90
10/10
Dwie metody leczenia: A i B
Dwie grupy wiekowe: Starsi i Młodsi
Ułamki pokazują jaka część pacjentów z danej grupy wiekowej
leczonych daną metodą powróciła do zdrowia.
Widać, że metoda B góruje na metodą A w każdej grupie
wiekowej.
7
Data Mining
Ogółem
A
50/100
B
40/100
Rezultat całościowy wskazuje na to, iż leczenie metodą A jest
lepsze.
Jest to tzw. paradoks Simpsona (1951).
8
Data Mining
Bardzo łatwo nabrać błędnego przekonania o
zależności przyczynowej między zmiennymi.
Przykład:
Wśród chorujących na raka płuc u 95% pacjentów
zobserwowano żółtą skórę na palcach dłoni.
Czy jest to przyczyna choroby?
Czy jest to raczej współwystępowanie, a prawdziwą
przyczyną jest inny, nieuwzględniony jeszcze
czynnik? (Palenie papierosów).
9
Data Mining
Duża korelacja między zmiennymi nie oznacza
występowania między nimi związku
przyczynowego.
10
Data Mining
Duża korelacja
11
Data Mining
Słaba korelacja
12
Data Mining
Brak korelacji
13
Data mining
●
Data mining
●
Drążenie danych
●
Eksploracja danych
●
Odkrywanie wiedzy w danych
14
Data mining
●
Odkrywanie zależności w danych –
głównie w olbrzymich zbiorach danych,
które to zależności charakteryzują się:
–
Dużym zakresem, czyli zachodzą dla wielu
rekordów
–
Dużą dokładnością, czyli występują od nich
co najwyżej niewielkie odchylenia dla
rekordów, dla których zachodzą
–
Dużym poziomem statystycznej istotności,
czyli nie są przypadkowe
15
Data mining
Problemy
●
Duże zbiory danych
●
Liczne atrybuty
●
Liczne kategorie
●
Nierównomierny rozkład kategorii
●
Inkrementacyjna aktualizacja (wciąż uaktualniane bazy
dancyh)
●
Niekompletne dane
●
Niepoprawne dane
16
Indukcja reguł
●
●
●
Zadnie polega na indukcji reguł
klasyfikacyjnych dla obiektów
reprezentujących zadaną liczbę pojęć
(klas).
Części warunkowe reguł są
reprezentowane przez kompleksy.
Części decyzyjne określają etykiety
kategorii dla przykładów pokrywanych
przez te kompleksy.
17
Indukcja reguł
●
●
●
●
Indukcja reguł odbywa się na podstawie przykładów
Ogólny algorytm indukcji reguł nazywa się
schematem sekwencyjnego pokrywania, w którym
dąży się do generowania kolejno reguł pokrywających
pewną liczbę przykładów aż do uzyskania pokrycia
całego zbioru trenującego.
Podstawowe znaczenie ma sposób konstruowania
części warunkowej tworzonej reguły, której kompleks
powinien pokrywać możliwie wiele przykładów o
możliwie mało zróżnicowanych kategoriach.
Konkretyzacje schematu sekwencyjnego pokrywania to
np. algorytmy AQ oraz CN2.
18
Indukcja reguł
●
●
●
AQ oraz CN2 przeszukują przestrzeń możliwych
kompleksów od maksymalnie ogólnych do maksymalnie
szczegółowych.
Różnią się mechanizmami specjalizacji kompleksów
oraz funkcjami heurystycznymi stosowanymi do oceny
ich jakości.
Postać reguł:
JEŚLI warunki TO kategoria
19
Indukcja reguł
●
Postać reguł:
JEŚLI warunki TO kategoria
Warunki nakładane przez regułę na wartości atrybutów
przykładu x można przedstawić jako pewną
zawierającą te wartości formułę logiczną.
Część decyzyjna określająca kategorię przykładu x może
być zapisana jako prosta formuła
gdzie C jest zbiorem kategorii rozważanej klasy pojęć, h
oznacza hipotezę reprezentowaną przez regułę.
20
Indukcja reguł
●
Postać reguł:
JEŚLI warunki TO kategoria
Jeśli reguła jest stosowana do wszystkich przykładów
dziedziny, to jej zapis w logicznej notacji może przyjąć
postać:
Regułę w danej postaci można traktować jako formułę
logiki predykatów pierwszego rzędu.
Ponieważ każdy przykład jest opisywany wyłącznie przez
wartości atrybutów, taką samą wiedzę można wyrazić
przez traktując przykłady jako domniemane i odwołując
się jedynie do wektorów wartości atrybutów.
21
Reprezentacja warunków
●
W dalszym ciągu logiczna interpretacja
reguł nie będzie nam potrzebna.
●
22
Reprezentacja warunków
X – dziedzina obiektów (przykładów)
Każdy x należący do X jest opisany
zbiorem nominalnych atrybutów a
i = 1,...,n gdzie n to liczba atrybutów.
23
Reprezentacja warunków
Kompleksy
Hipotezy mogą być reprezentowane przez kompleksy.
Kompleks opisuje warunki, jakie muszą spełnić wartości
atrybutów przykładu , aby został on przez niego
pokryty, a tym samym klasyfikowany jako pozytywny
przez odpowiednią hipotezę.
Kompleks jest wektorem interpretowanym jako
koniunkcja warunków nakładanych na pojedyncze
atrybuty.
Warunki te nazywane są selektorami.
Selektor umieszczony na i-tym miejscu w kompleksie
reprezentuje warunek nakładany na wartość i-tego
atrybutu.
24
Reprezentacja warunków
Z każdym selektorem związany jest zbiór dozwolonych
wartości odpowiadającego mu atrybutu.
Zakładamy, że z dowolnym selektorem s odpowiadającym
atrybutowi
związany jest zbiór wartości
25
Reprezentacja warunków
Weźmiemy pod uwagę cztery rodzaje selektorów
●
Pojedynczy
●
Dysjunkcyjny
●
Uniwersalny
●
Pusty
26
Reprezentacja warunków
Między selektorem s a związanym z nim zbiorem
dozwolonych wartości istnieje jednoznaczna
odpowiedniość, możemy ich zatem używać wymiennie.
Selektor s odpowiadający atrybutowi a pokrywa
przykład x jeśli
przy czym Vs oznacza zbiór wartości dozwolonych
dla selektora s. Piszemy wówczas
27
Reprezentacja warunków
Kompleks będziemy zapisywać jako listę selektorów
odpowiadających kolejnym atrybutom.
Kompleks
pokrywa przykład x jeśli każdy selektor si dla
i=1,2,...,n pokrywa przykład x.
Piszemy wówczas
28
Reprezentacja warunków
Każdy kompleks zawierający przynajmniej
jeden selektor pusty będzie utożsamiany
z zawierającym wyłącznie selektory puste
kompleksem
< 0, 0, ... , 0>
i nazywany kompleksem sprzecznym lub
pustym oraz oznaczanym przez <0>.
29
Reprezentacja warunków
Każdy kompleks zawierający wyłącznie
selektory uniwersalne ?będzie nazywany
uniwersalnym i oznaczany przez
<?>
30
Reprezentacja warunków
Każdy kompleks zawierający dokładnie
jeden selektor pojedynczy lub
dysjunkcyjny i oprócz niego wyłącznie
selektory uniwersalne, będziemy
nazywać kompleksem atomowym.
31
Reprezentacja warunków
Dla dziedziny X i danych dwóch
kompleksów k1 oraz k2 mówimy, że k1
jest bardziej ogólny od k2 (i równoważnie
k2 jest mniej ogólny niż k1, k2 jest
bardziej szczegółowy niż k1, k1 jest
mniej szczegółowy niż k2) wtedy i tylko
wtedy, gdy
Piszemy wtedy
32
Reprezentacja warunków
Dla dowolnego zbioru przykładów
i kompleksu k określamy zbiór złożony z
przykładów pokrywanych przez k
oraz zbiór przykładów pokrywanych przez
k, które należą do kategorii d
33
Reprezentacja warunków
Koniunkcją kompleksów k oraz l jest
kompleks, którego każdy selektor jest
koniunkcją pary odpowiednich
selektorów z tych kompleksów.
Jeśli
oraz
to
34
Reprezentacja warunków
Koniunkcją selektorów s1 oraz s2
odpowiadających atrybutowi a jest
odpowiadający temu atrybutowi selektor
s o zbiorze wartości dozwolonych
Koniunkcja kompleksów będzie
wykorzystywana jako mechanizm ich
specjalizacji przez dodawanie
dodatkowych warunków.
35
Reprezentacja warunków
Specjalizacja ta będzie przeprowadzana w
ogólnym przypadku dla zbiorów
kompleksów za pomocą zdefiniowanej
poniżej operacji przecięcia takich
zbiorów. Polega ona na utworzeniu
nowego zbioru kompleksów, z których
każdy jest wynikiem koniunkcji pary
kompleksów z jednego i drugiego zbioru.
36
Reprezentacja warunków
Przecięciem zbiorów kompleksów K oraz L
jest zbiór wszystkich koniunkcji dwóch
kompleksów odpowiednio z tych dwóch
zbiorów:
37
Reprezentacja warunków
Regułą nazywamy wyrażenie
gdzie k1,...,km to kompleksy a d to
etykieta klasy.
Reguła taka pokrywa wszystkie te i tylko te
przykłady, które pokrywa przynajmniej
jeden z kompleksów wchodzących w
skład jej części warunkowej.
38
Reprezentacja warunków
Wygodniej jest posługiwać się regułami,
które posiadają w części warunkowej
jedynie jeden kompleks.
39
Reprezentacja warunków
Celem jest stworzenie zbioru reguł, w którym będzie co
najmniej jedna dla każdego pojęcia.
Należy również zdecydować, jak używać zbioru reguł w
trakcie klasyfikacji.
Komplikacja polega a tym, że w ogólnym przypadku dla
danego przykładu w zbiorze reguł może się znaleźć
więcej niż jedna reguła pokrywająca ten przykład, a
kategorie tych reguł mogą się ze sobą nie zgadzać.
Innym problemem jest sytuacja, gdy zbiorze reguł nie
ma żadnej reguły, która pokrywa przykład.
Sposób postępowania zależy od tego, czy zbiór reguł jest
traktowany jako nieuporządkowany, czy jako
uporządkowany.
40
Reprezentacja warunków
Nieuporządkowane zbiory reguł.
Każda reguła jest traktowana tak samo, żadna nie
ma pierwszeństwa przed innymi.
Jeśli w zbiorze znajduje się dokładnie jedna reguła
pokrywająca przykład, to jest on zaklasyfikowany
do klasy wskazanej przez etykietę tej reguły.
41
Reprezentacja warunków
Nieuporządkowane zbiory reguł.
Jeśli dany przykład jest pokrywany przez więcej niż jedną
regułę, wtedy z każdą regułą możemy związać liczbę
pokrywanych przez tę regułę przykładów trenujących.
Proces klasyfikacji można wtedy potraktować jako
głosowanie pomiędzy tymi regułami, z liczbą głosów
dla każdej z nich równą liczbie pokrywanych
przykładów trenujących przez daną regułę.
gdzie
oznacza zbiór reguł dla kategorii d
pokrywających x.
42
Nieuporządkowane zbiory reguł.
Inne podejście:
Jeśli dla każdej reguły r jest przechowywany rozkład
częstości poszczególnych kategorii wśród pokrywanych
przez nią przykłądów trenujących reprezentowanych
przez
dla poszczególnych d, krok głosowania
może wyglądać następująco:
43
Nieuporządkowane zbiory reguł.
Można również:
●
●
●
losowo wybrać jedną z reguł pokrywających
przykład
wybrać regułę najbardziej szczegółową lub regułę
o najmniejszej liczbie selektorów uniwersalnych
losowo wybrać kategorię według rozkładu
prawdopodobieństwa wyznaczonego przez rozkład
częstości kategorii wśród reguł pokrywających
przykład
44
Nieuporządkowane zbiory reguł.
W przypadku gdy żadna reguła nie pokrywa
przykładu a klasyfikacja musi być dokonana (nie
zawsze jest to wskazane czy też konieczne) można
przypisać przykładowi kategorię domyślną, np.
najczęściej występującą w zbiorze trenującym:
45
Nieuporządkowane zbiory reguł.
Inne, bardziej wyrafinowane podejście polega na
określeniu pewnej miary częściowego pokrywania
przykładów przez reguły. Dla reguły r oraz
przykładu x:
równą 1 gdy reguła pokrywa całkowicie przykład, a
mniejszą od 1 w pozostałych przypadkach.
Miara częściowego pokrywania dla kompleksu k
określimy jako:
46
Nieuporządkowane zbiory reguł.
Miara częściowego pokrywania dla kompleksu k
określimy jako:
Natomiast miara pokrywania przez selektor s przykładu x
47
Nieuporządkowane zbiory reguł.
Ostatecznie
48
Uporządkowane zbiory reguł.
Uporządkowane zbiory reguł posiadają jednoznacznie
określoną kolejność , w jakiej reguły powinny być
wykorzystywane do klasyfikacji.
Taki zbiór reguł przyporządkowuje przykładowi kategorię
związaną z pierwszą w kolejności regułą, która ten
przykład pokrywa.
Taki uporządkowany zbiór reguł jest niekiedy nazywany
listą decyzyjną.
49
Sekwencyjne pokrywanie
Zadanie indukcji reguł to zadanie
znalezienia zbioru reguł
(uporządkowanego lub nie), który
●
●
●
klasyfikuje przykłady trenujące z dużą
dokładnością
ma możliwie mały rozmiar
wchodzące w jego skład reguły są
możliwie proste
50
Sekwencyjne pokrywanie
Podejście, które omówimy polega na
konstruowaniu pojedynczo kolejnych
reguł, z których każda pokrywa część
zbioru trenującego. Proces ten jest
kontynuowany aż do pokrycia wszystkich
danych trenujących.
Podzbiór zbiór trenującego pokrywany
przez daną regułę powinien zawierać
przykłady tej samej kategorii lub
przynajmniej z wyraźnie dominującą
kategorią większościową.
51
Sekwencyjne pokrywanie
52
Sekwencyjne pokrywanie
●
●
Zadanie znalezienia kompleksu o
pożądanych właściwościach można
traktować jako zadanie
przeszukiwania przestrzeni
kompleksów, ukierunkowane przez
pewną miarę ich jakości reprezentującą
cel tego przeszukiwania.
Proces generowania (znajdowania)
kompleksu odróżnia od siebie różne
konkretyzacje schematu sekwencyjnego
pokrywania ( np. AQ, CN2).
53
Algorytm AQ
●
●
●
●
Algorytm AQ generuje kompleksy w pełni dokładne –
pokrywane przez nie przykłady trenujące należą do
jednej kategorii
AQ zapewnia, że każda kolejna reguła będzie pokrywać
pewne przykłady, które nie były pokryte przez
wcześniejsze reguły
Tworzony zbór reguł jest nieuporządkowany
Każda kolejna reguła jest oceniana na podstawie
całego zbioru trenującego a nie tylko na podstawie
wcześniej nie pokrytych przykładów
54
Algorytm AQ
●
●
AQ ogniskuje proces przeszukiwania przestrzeni
kompleksów na jednym, wybranym przykładzie
trenującym, który nie został pokryty przez żadną
wygenerowaną do tej pory regułę.
Oznacza to
–
–
–
●
ograniczenie się tylko do tych kompleksów, które
pokrywają wybrany przykład
są maksymalnie ogólne
nie pokrywają żadnego przykładu z innej kategorii
Prowadzi do tego operacja specjalizacji, która
każdorazowo wyklucza ze zbioru przykładów
pokrywanych przez rozważane kompleksy przynajmniej
jeden przykład o niewłaściwej kategorii.
55
Algorytm AQ
56
Algorytm AQ
●
●
●
●
Docelowo zbiór S (star - gwiazda) ma zawierać takie
maksymalnie ogólne kompleksy, które pokrywają
ziarno, lecz nie pokrywają żadnego przykładu o
kategorii różnej od kategorii ziarna.
S jest inicjowana na najbardziej ogólny kompleks a
następnie specjalizowana, aż do pokrywania
przykładów jedynie z kategorii ziarna
Specjalizacja polega na wyborze ziarna negatywnego
(pokrywane lecz z inna kategorią niż ziarno pozytywne)
S' to częściowa gwiazda, czyli zbiór kompleksów
maksymalnie ogólnych pokrywających ziarno
pozytywne i nie pokrywających ziarna negatywnego
57
Algorytm AQ
●
●
●
S' jest przecinana z S (dotychczasową gwiazdą) za
pomocą wcześniej zdefiniowanej operacji przecinania
zbiorów kompleksów (krok 9)
Usuwane są z S wszystkie kompleksy, które nie są
maksymalnie ogólne (krok 10)
W celu ograniczenia zakresu przeszukiwania, w S
pozostaje jedynie m najlepszych kompleksów.
Stosowana jest pewna heurystyczna funkcja oceny v.
(krok 11)
58
Algorytm AQ
59
Algorytm AQ
●
●
Ocena kompleksów może polegać na
preferowaniu tych kompleksów, które
pokrywają możliwie niewiele
przykładów o niewłaściwej kategorii.
Może to przyspieszyć algorytm, który
dąży do takiego zbioru reguł, które w
ogóle nie pokrywają przykładów innej
kategorii niż ziarno pozytywne.
Preferowane mogą być kompleksy
prostsze przed kompleksami złożonymi.
60
Algorytm AQ
●
●
Premiować można kompleksy, które
prawidłowo pokrywają przykłady
dotychczas nie pokryte.
Premiować można te kompleksy, które
pokrywają jak najwięcej przykładów o
kategorii równej kategorii ziarna
pozytywnego.
61
Algorytm AQ
●
●
Wybór ziarna pozytywnego może być
losowy lub taki, by ziarno pozytywne jak
najbardziej różniło się od
dotychczasowych pokrytych przykładów.
Wybór ziarna negatywnego może być
losowy bądź taki, że ziarno negatywne
jest jak najbardziej podobne do ziarna
pozytywnego.
62
Algorytm CN2
●
●
●
●
Generuje kompleksy, które nie zawsze muszą być w
pełni dokładne.
Przy generowaniu każdego nowego kompleksu
pomijane są te przykłady, które zostały pokryte przez
kompleksy wygenerowane wcześniej.
Dążenie do dokładności jest ograniczone do
przykładów dotychczas niepokrytych (wyłącznie zbiór
P)
Zbiór reguł jest uporządkowany kolejnością ich
generowania.
63