Algorytmy eksploracji danych
Transkrypt
Algorytmy eksploracji danych
Algorytmy eksploracji danych dla kierunku Informatyka studia zaoczne Marcin Korze« Politechnika Szczeci«ska, Wydziaª Informatyki, Katedra Metod Sztucznej Inteligencji i Matematyki Stosowanej [email protected] Zadania 1. Wªasno±ci entropi (H ) oraz indeksu Gini'ego (G) oraz odpowiadaj¡cych im miar przyrostu informacji (IH oraz IG ) (a) Znale¹¢ rozkªad który maksymalizuje H oraz G (b) Sprawdzi¢, czy zachodz¡ nast¦puj¡ce to»samo±ci1 : • • • • • a⊥d ⇒ IH (d, a) = 0 a⊥d ⇒ IG (d, a) = 0 IH (d, a) = H(a) + H(d) − H(ad) IG (d, a) = G(a) + G(d) − G(ad) a⊥d ⇒ H(ad) = H(a) + H(d) 2. Dla zbioru danych challengerRing (tab. 1) wykona¢ nast¦puj¡ce czynno±ci: (a) (b) (c) (d) (e) (f) (g) narysowa¢ histogramy dla atrybutów, zdyskretyzowa¢ zmienn¡ temperatura pod warunkiem liczby uszkodze«, napisa¢ w postaci tabeli kontygencji rozkªad liczno±ci tych dwóch zmiennych, znale¹¢ rozkªad cz¦sto±ci i rozkªady brzegowe tych dwóch atrybutów, porówna¢ empiryczny rozkªad cz¦sto±ci z rozkªadem produktowym, postawi¢ test χ2 o zale»no±ci zmiennych (znale¹¢ warto±¢ statystyki), wzi¡±¢ dowolny pakiet statystyczny i porówna¢ powy»szy wynik testu χ2 z testem dokªadnym Fishera, (np. R, fisher.test) (h) jaka decyzj¦ podj¦liby±cie, gdyby temperatura w momencie startu wyniosªa by 35F ? 3. Dla zbioru danych contactLens (tab. 2): (a) (b) (c) (d) znale¹¢ odpowiednie prawdopodobie«stwa brzegowe i warunkowe, zbudowa¢ naiwny klasykator Bayesa, policzy¢ przykªadowo: p(none|p13 ), p(soft|p13 ), p(hard|p13 ), zbada¢ zale»no±¢ dwóch wybranych atrybutów. 4. Dla zbioru danych contactLens (tab. 2): (a) dokona¢ binaryzacji pierwszego atrybutu 1 a⊥d oznacza, »e atrybuty s¡ niezale»ne 1 Tablica 1: Zbiór challengerRing Temporal order of ight 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Number of Orings at risk on a given ight 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 Number experiencing thermal distress 0 1 0 0 0 0 0 0 1 1 1 0 0 2 0 0 0 0 0 0 2 0 1 Launch temperature (degrees F) 66 70 69 68 67 72 73 70 57 63 70 78 67 53 67 75 70 81 76 79 75 76 58 Leak-check pressure (psi) 50 50 50 50 50 50 100 100 200 200 200 200 200 200 200 200 200 200 200 200 200 200 200 (b) zamieni¢ wybrane trzy atrybuty w skali nominalnej na numeryczne z zachowaniem porz¡dku (c) zbudowa¢ macierz kowariancji dla zmiennych numerycznych (d) wyznaczy¢ pierwsz¡ skªadow¡ (kierunek, wektor) gªówn¡, (e) rzutowa¢ dane na ten kierunek i dokona¢ przedstawienia gracznego klas (f) czy w tym rzucie mo»na dokonywa¢ prognozowania o rodzaju soczewki kontaktowej? 5. We¹my pod uwag¦ zmienn¡ decyzyjn¡ zbioru contactLens. Zaªó»my, »e pojawiª si¦ pacjent dla którego nie pomierzono »adnego z atrybutów warunkowych, jak¡ decyzje o wyborze soczewki rozs¡dnie byªoby podj¡¢ ? 6. Przypu±¢my, »e klasy mamy n klas decyzyjnych z prawdopodobie«stwami p1 , . . . , pn 2 , 3 . Rozwa»my reguª¦ decyzyjn¡ która z prawdopodobie«stwem q1 podejmuje decyzje 1, z prawdopodobie«stwem q2 podejmuje decyzj¦ 2, . . ., z prawdopodobie«stwem qn podejmuje decyzj¦ n. Nale»y wyznaczy¢: (a) prawdopodobie«stwo podj¦cia poprawnej decyzji jako funkcj¦ p i q (P r(p, q)), 2 Rozwa»ania te prowadz¡ do tzw. Zero Rule klasykatora. Rozs¡dnie jest ocenia¢ jako±¢ dowolnego klasykatora (zwªaszcza tych sªabej jako±ci) w stosunku do klasykatora typu Zero Rule. 3 Nale»y mie¢ ±wiadomo±¢, »e mimo czasami wysokiej dokªadno±ci klasykacji praktyczna przydatno±¢ klasykatorów tego typu jest bardzo ograniczona. 2 Tablica 2: Zbiór contactLens 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 age young young young young young young young young pre-presbyopic pre-presbyopic pre-presbyopic pre-presbyopic pre-presbyopic pre-presbyopic pre-presbyopic pre-presbyopic presbyopic presbyopic presbyopic presbyopic presbyopic presbyopic presbyopic presbyopic spectacleprescrip astigmatism tearprodrate contactlenses myope no reduced none myope no normal soft myope yes reduced none myope yes normal hard hypermetrope no reduced none hypermetrope no normal soft hypermetrope yes reduced none hypermetrope yes normal hard myope no reduced none myope no normal soft myope yes reduced none myope yes normal hard hypermetrope no reduced none hypermetrope no normal soft hypermetrope yes reduced none hypermetrope yes normal none myope no reduced none myope no normal none myope yes reduced none myope yes normal hard hypermetrope no reduced none hypermetrope no normal soft hypermetrope yes reduced none hypermetrope yes normal none (b) dla jakiego wektora q wyra»enie P r(p, q) przyjmuje warto±¢ najwi¦ksz¡ ? 7. Dla zbioru contactLens wykona¢ nast¦puj¡ce czynno±ci: (a) wybra¢ atrybut, który dostarcza najwi¦cej informacji o zmiennej decyzyjnej, (wskazówka: wzi¡±¢ pod uwag¦ miary przyrostu informacji IH i IG ) (b) zbudowa¢ peªne drzewo decyzyjne stosuj¡c miary IH lub IG 8. Rozwa»my algorytm przedstawiony na rysunku 1 (reguªa perceptronu). (a) sprawdzi¢ czy nast¦puj¡ce dane: x= 0 0 1 0 0 1 1 1 , d= −1 −1 −1 1 , (1) s¡ liniowo separowane; (b) wykona¢ do ko«ca algorytm dla danych 8d; jako wagi pocz¡tkowe mo»na przyj¡¢ b = 1 oraz = [00]. (c) wyznaczy¢ margines separacji; (d) uzasadni¢, »e algorytm nie zatrzyma si¦ nigdy dla danych: xT = 0 0 1 0 0 1 1 1 , 3 dT = −1 1 1 −1 ; 1: 2: 3: 4: 5: 6: 7: 8: 9: 10: 11: 12: function [w,b]=learnp n = 0; ({(X i , di )}i=1,...,p ) n < p do (czy wszystkie próbki s¡ poprawnie klasykowane) di (hwk , xi i + bk ) < 0 then (Czy próbka jest po wªa±ciwej stronie) wk+1 = wk + di · X i ; (nie - korygujemy wagi) bk+1 = bk + di · 1; n = 0; (zerujemy licznik stopu) while if else n + +; (tak - zwi¦kszamy licznik stopu) end if end while end function Rysunek 1: Algorytm uczenia perceptronu (e) Udowodni¢, »e algorytm ten zatrzyma si¦ zawsze, je»eli tylko zbiór wzorców b¦dzie liniowo separowany. (wskazówka: oszacowa¢ z doªu rzut wektora wag na dowoln¡ prost¡ separacji, oszacowa¢ z góry norm¦ wektora wag, skorzysta¢ z twierdzenia Cauchy'ego-Schwartz'a.) 9. Dla tabeli danych 3 wykonac nast¦puj¡ce czynno±ci: (a) znale¹¢ wsparcie nast¦puj¡cych zbiorów: {A1 }, {A1 , A2 }, {A1 , A2 , A4 } (b) znale¹¢ zaufanie nast¦puj¡cych reguª: {∅ → A1 }, {A1 , A2 → A5 }, {A1 → A2 A4 }, {A1 A2 → A4 } (c) znale¹¢ wszystkie zbiory cz¦ste o minsupp = 4 (d) znale¹¢ wszystkie zbiory cz¦ste o minsupp = 1 Przypomnienie Entropia H(a) = − k X P r{a = p} log(P r{a = p}) p=1 Informacja wza jemna (przyrost informacji) IH (d, a) IH (d, a) H(d|a) = H(d) − H(d|a) = H(a) + H(d) − H(ad) = k X P r{a = p}H(d|a = p) p=1 Indeks Gini'ego jako miara rozproszenia GCART (a) = 1 − k X 2 P r{a = p} p=1 IGCART (d, a) = GCART (d) − GCART (d|a) GCART (d|a) = k X P r{a = p}GCART (d|a = p) p=1 4 Tablica 3: Zbiór danych, poszukiwanie podzbiorów cz¦stych lp. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Zbiory cz¦ste wsparcie ∅ 20 {A4 } 10 {A2 } 10 {A2 , A4 } 7 {A1 } 7 {A1 , A2 } 5 A1 A2 A3 A4 1 0 1 1 1 0 0 0 0 0 1 0 0 0 0 0 0 1 0 1 1 0 1 1 0 0 1 1 1 0 1 1 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 1 0 0 1 1 1 1 0 1 0 0 0 1 0 0 1 1 Brzeg negatywny {A3 } {A1 , A4 } {1} {4} {1, 2} {3} {2} {1, 4} {2, 4} Rys. Drzewko przeszukiwa« wraz z brzegiem χ2 Q= k X l X nij − ni· n·j /n ni· n·j /n i=1 j=1 Statystyka Q ma rozkªad χ2 z (k − 1)(l − 1) stopniami swobody. Mówimy, »e zbiór wzorców {(X i , di )}i=1,...,p jest linowo separowalny, je»eli istnieje prosta o parametrach (w, b) taka, »e dla ka»dego i = 1, . . . , p zachodzi: Liniowa separowalno±¢, marginesem separacji d(i) n X wj xj (i) + b > 0 j=1 P n (i) Niech γ (i) = d(i) +b . j=1 wj xj trach (w, b), nazywamy liczb¦ Marginesem separacji prostej o parame- γ(w,b) = min γ (i) . i=1,...,p Je»eli kwk = 1 wtedy margines jest minimaln¡ odlegªo±ci¡ punku od prostej wzi¦t¡ ze znakiem Norma, iloczyn skalarny • Iloczyn skalarny 5 Pn wi xi pPn wi 2 hw, xi = i=1 • Norma wektora kwk = i=1 • Twierdzenie (Cauchy-Schwartz) hw, xi 6 kwk · kxk Wyliczanie podzbiorów function rekurencjaL(atr,mm) disp(num2str(atr)) if isempty(atr) mx=0; else mx=max(atr); end for ii=mm:-1:mx+1 rekurencjaL([atr ii],mm); end Rysunek 2: Wynik wywoªania rekurencji. Tab. Podzbiory zbioru {1, 2, 3, 4} ∅ {4} {3} {34} {2} {24} {23} {234} {1} {14} {13} {134} {12} {124} {123} {1234} {} {1} {2} {1, 2} {3} {4} {1, 2, 3} {1, 3} {1, 2, 4} {1, 4} {1, 2, 3, 4} {1, 3, 4} {2, 3} {2, 4} {3, 4} {2, 3, 4} Rys. Peªne drzewko wyliczania podzbiorów. Wynik wykonania algorytmu przedstawiony jest na rysunku 2. 6