Algorytmy eksploracji danych

Transkrypt

Algorytmy eksploracji danych
Algorytmy eksploracji danych
dla kierunku Informatyka studia zaoczne
Marcin Korze«
Politechnika Szczeci«ska, Wydziaª Informatyki,
Katedra Metod Sztucznej Inteligencji i Matematyki Stosowanej
[email protected]
Zadania
1. Wªasno±ci entropi (H ) oraz indeksu Gini'ego (G) oraz odpowiadaj¡cych im miar
przyrostu informacji (IH oraz IG )
(a) Znale¹¢ rozkªad który maksymalizuje H oraz G
(b) Sprawdzi¢, czy zachodz¡ nast¦puj¡ce to»samo±ci1 :
•
•
•
•
•
a⊥d ⇒ IH (d, a) = 0
a⊥d ⇒ IG (d, a) = 0
IH (d, a) = H(a) + H(d) − H(ad)
IG (d, a) = G(a) + G(d) − G(ad)
a⊥d ⇒ H(ad) = H(a) + H(d)
2. Dla zbioru danych challengerRing (tab. 1) wykona¢ nast¦puj¡ce czynno±ci:
(a)
(b)
(c)
(d)
(e)
(f)
(g)
narysowa¢ histogramy dla atrybutów,
zdyskretyzowa¢ zmienn¡ temperatura pod warunkiem liczby uszkodze«,
napisa¢ w postaci tabeli kontygencji rozkªad liczno±ci tych dwóch zmiennych,
znale¹¢ rozkªad cz¦sto±ci i rozkªady brzegowe tych dwóch atrybutów,
porówna¢ empiryczny rozkªad cz¦sto±ci z rozkªadem produktowym,
postawi¢ test χ2 o zale»no±ci zmiennych (znale¹¢ warto±¢ statystyki),
wzi¡±¢ dowolny pakiet statystyczny i porówna¢ powy»szy wynik testu χ2 z
testem dokªadnym Fishera, (np. R, fisher.test)
(h) jaka decyzj¦ podj¦liby±cie, gdyby temperatura w momencie startu wyniosªa
by 35F ?
3. Dla zbioru danych contactLens (tab. 2):
(a)
(b)
(c)
(d)
znale¹¢ odpowiednie prawdopodobie«stwa brzegowe i warunkowe,
zbudowa¢ naiwny klasykator Bayesa,
policzy¢ przykªadowo: p(none|p13 ), p(soft|p13 ), p(hard|p13 ),
zbada¢ zale»no±¢ dwóch wybranych atrybutów.
4. Dla zbioru danych contactLens (tab. 2):
(a) dokona¢ binaryzacji pierwszego atrybutu
1 a⊥d oznacza, »e atrybuty s¡ niezale»ne
1
Tablica 1: Zbiór challengerRing
Temporal
order of
ight
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
Number of Orings at risk on
a given ight
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
Number experiencing thermal
distress
0
1
0
0
0
0
0
0
1
1
1
0
0
2
0
0
0
0
0
0
2
0
1
Launch temperature (degrees F)
66
70
69
68
67
72
73
70
57
63
70
78
67
53
67
75
70
81
76
79
75
76
58
Leak-check
pressure
(psi)
50
50
50
50
50
50
100
100
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
(b) zamieni¢ wybrane trzy atrybuty w skali nominalnej na numeryczne z zachowaniem porz¡dku
(c) zbudowa¢ macierz kowariancji dla zmiennych numerycznych
(d) wyznaczy¢ pierwsz¡ skªadow¡ (kierunek, wektor) gªówn¡,
(e) rzutowa¢ dane na ten kierunek i dokona¢ przedstawienia gracznego klas
(f) czy w tym rzucie mo»na dokonywa¢ prognozowania o rodzaju soczewki kontaktowej?
5. We¹my pod uwag¦ zmienn¡ decyzyjn¡ zbioru contactLens. Zaªó»my, »e pojawiª
si¦ pacjent dla którego nie pomierzono »adnego z atrybutów warunkowych, jak¡
decyzje o wyborze soczewki rozs¡dnie byªoby podj¡¢ ?
6. Przypu±¢my, »e klasy mamy n klas decyzyjnych z prawdopodobie«stwami p1 , . . . , pn 2 , 3 .
Rozwa»my reguª¦ decyzyjn¡ która z prawdopodobie«stwem q1 podejmuje decyzje
1, z prawdopodobie«stwem q2 podejmuje decyzj¦ 2, . . ., z prawdopodobie«stwem
qn podejmuje decyzj¦ n. Nale»y wyznaczy¢:
(a) prawdopodobie«stwo podj¦cia poprawnej decyzji jako funkcj¦ p i q (P r(p, q)),
2 Rozwa»ania te prowadz¡ do tzw. Zero Rule klasykatora. Rozs¡dnie jest ocenia¢ jako±¢ dowolnego
klasykatora (zwªaszcza tych sªabej jako±ci) w stosunku do klasykatora typu Zero Rule.
3 Nale»y mie¢ ±wiadomo±¢, »e mimo czasami wysokiej dokªadno±ci klasykacji praktyczna przydatno±¢ klasykatorów tego typu jest bardzo ograniczona.
2
Tablica 2: Zbiór contactLens
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
age
young
young
young
young
young
young
young
young
pre-presbyopic
pre-presbyopic
pre-presbyopic
pre-presbyopic
pre-presbyopic
pre-presbyopic
pre-presbyopic
pre-presbyopic
presbyopic
presbyopic
presbyopic
presbyopic
presbyopic
presbyopic
presbyopic
presbyopic
spectacleprescrip astigmatism tearprodrate contactlenses
myope
no
reduced
none
myope
no
normal
soft
myope
yes
reduced
none
myope
yes
normal
hard
hypermetrope
no
reduced
none
hypermetrope
no
normal
soft
hypermetrope
yes
reduced
none
hypermetrope
yes
normal
hard
myope
no
reduced
none
myope
no
normal
soft
myope
yes
reduced
none
myope
yes
normal
hard
hypermetrope
no
reduced
none
hypermetrope
no
normal
soft
hypermetrope
yes
reduced
none
hypermetrope
yes
normal
none
myope
no
reduced
none
myope
no
normal
none
myope
yes
reduced
none
myope
yes
normal
hard
hypermetrope
no
reduced
none
hypermetrope
no
normal
soft
hypermetrope
yes
reduced
none
hypermetrope
yes
normal
none
(b) dla jakiego wektora q wyra»enie P r(p, q) przyjmuje warto±¢ najwi¦ksz¡ ?
7. Dla zbioru contactLens wykona¢ nast¦puj¡ce czynno±ci:
(a) wybra¢ atrybut, który dostarcza najwi¦cej informacji o zmiennej decyzyjnej,
(wskazówka: wzi¡±¢ pod uwag¦ miary przyrostu informacji IH i IG )
(b) zbudowa¢ peªne drzewo decyzyjne stosuj¡c miary IH lub IG
8. Rozwa»my algorytm przedstawiony na rysunku 1 (reguªa perceptronu).
(a) sprawdzi¢ czy nast¦puj¡ce dane:
x=
0
0
1
0
0
1
1
1
,
d=
−1 −1 −1
1
,
(1)
s¡ liniowo separowane;
(b) wykona¢ do ko«ca algorytm dla danych 8d; jako wagi pocz¡tkowe mo»na
przyj¡¢ b = 1 oraz = [00].
(c) wyznaczy¢ margines separacji;
(d) uzasadni¢, »e algorytm nie zatrzyma si¦ nigdy dla danych:
xT =
0
0
1
0
0
1
1
1
,
3
dT =
−1
1
1 −1
;
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
function [w,b]=learnp
n = 0;
({(X i , di )}i=1,...,p )
n < p do (czy wszystkie próbki s¡ poprawnie klasykowane)
di (hwk , xi i + bk ) < 0 then (Czy próbka jest po wªa±ciwej stronie)
wk+1 = wk + di · X i ; (nie - korygujemy wagi)
bk+1 = bk + di · 1;
n = 0; (zerujemy licznik stopu)
while
if
else
n + +; (tak - zwi¦kszamy licznik stopu)
end if
end while
end function
Rysunek 1: Algorytm uczenia perceptronu
(e) Udowodni¢, »e algorytm ten zatrzyma si¦ zawsze, je»eli tylko zbiór wzorców
b¦dzie liniowo separowany. (wskazówka: oszacowa¢ z doªu rzut wektora wag na
dowoln¡ prost¡ separacji, oszacowa¢ z góry norm¦ wektora wag, skorzysta¢ z twierdzenia
Cauchy'ego-Schwartz'a.)
9. Dla tabeli danych 3 wykonac nast¦puj¡ce czynno±ci:
(a) znale¹¢ wsparcie nast¦puj¡cych zbiorów: {A1 }, {A1 , A2 }, {A1 , A2 , A4 }
(b) znale¹¢ zaufanie nast¦puj¡cych reguª: {∅ → A1 }, {A1 , A2 → A5 }, {A1 →
A2 A4 }, {A1 A2 → A4 }
(c) znale¹¢ wszystkie zbiory cz¦ste o minsupp = 4
(d) znale¹¢ wszystkie zbiory cz¦ste o minsupp = 1
Przypomnienie
Entropia
H(a) = −
k
X
P r{a = p} log(P r{a = p})
p=1
Informacja wza jemna (przyrost informacji)
IH (d, a)
IH (d, a)
H(d|a)
= H(d) − H(d|a)
= H(a) + H(d) − H(ad)
=
k
X
P r{a = p}H(d|a = p)
p=1
Indeks Gini'ego jako miara rozproszenia
GCART (a) = 1 −
k
X
2
P r{a = p}
p=1
IGCART (d, a) = GCART (d) − GCART (d|a)
GCART (d|a) =
k
X
P r{a = p}GCART (d|a = p)
p=1
4
Tablica 3: Zbiór danych, poszukiwanie podzbiorów cz¦stych
lp.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Zbiory cz¦ste wsparcie
∅
20
{A4 }
10
{A2 }
10
{A2 , A4 }
7
{A1 }
7
{A1 , A2 }
5
A1 A2 A3 A4
1
0
1
1
1
0
0
0
0
0
1
0
0
0
0
0
0
1
0
1
1
0
1
1
0
0
1
1
1
0
1
1
0
0
0
1
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
1
0
1
0
0
1
1
1
1
0
1
0
0
0
1
0
0
1
1
Brzeg negatywny
{A3 }
{A1 , A4 }
{1}
{4}
{1, 2}
{3}
{2}
{1, 4}
{2, 4}
Rys. Drzewko przeszukiwa« wraz z brzegiem
χ2
Q=
k X
l
X
nij − ni· n·j /n
ni· n·j /n
i=1 j=1
Statystyka Q ma rozkªad χ2 z (k − 1)(l − 1) stopniami swobody.
Mówimy, »e zbiór wzorców {(X i , di )}i=1,...,p
jest linowo separowalny, je»eli istnieje prosta o parametrach (w, b) taka, »e dla ka»dego
i = 1, . . . , p zachodzi:


Liniowa separowalno±¢, marginesem separacji
d(i) 
n
X
wj xj (i) + b > 0
j=1
P
n
(i)
Niech γ (i) = d(i)
+b .
j=1 wj xj
trach (w, b), nazywamy liczb¦
Marginesem separacji
prostej o parame-
γ(w,b) = min γ (i) .
i=1,...,p
Je»eli kwk = 1 wtedy margines jest minimaln¡ odlegªo±ci¡ punku od prostej wzi¦t¡ ze
znakiem
Norma, iloczyn skalarny
• Iloczyn skalarny
5
Pn
wi xi
pPn
wi 2
hw, xi =
i=1
• Norma wektora
kwk =
i=1
• Twierdzenie (Cauchy-Schwartz)
hw, xi 6 kwk · kxk
Wyliczanie podzbiorów
function rekurencjaL(atr,mm)
disp(num2str(atr))
if isempty(atr)
mx=0;
else
mx=max(atr);
end
for ii=mm:-1:mx+1
rekurencjaL([atr ii],mm);
end
Rysunek 2: Wynik wywoªania rekurencji.
Tab. Podzbiory zbioru {1, 2, 3, 4}
∅
{4}
{3}
{34}
{2}
{24}
{23}
{234}
{1}
{14}
{13}
{134}
{12}
{124}
{123}
{1234}
{}
{1}
{2}
{1, 2}
{3}
{4}
{1, 2, 3}
{1, 3}
{1, 2, 4}
{1, 4}
{1, 2, 3, 4}
{1, 3, 4}
{2, 3} {2, 4}
{3, 4}
{2, 3, 4}
Rys. Peªne drzewko wyliczania podzbiorów.
Wynik wykonania algorytmu przedstawiony jest na rysunku 2.
6