SW 5.1
Transkrypt
SW 5.1
Sztuczna inteligencja 9999 pages 17 MEODY GRUPOWANIA DANYCH PB 1 CWICZENIE I 1. Ze zbioru danych iris.tab wybra¢ nastepuj¡ce obiekty: ID 1 2 3 51 52 53 100 101 102 SL 5.1 4.9 4.7 7.0 6.3 6.9 5.7 6.3 5.8 SW 3.5 3.0 3.2 3.2 3.2 3.1 2.8 3.3 2.7 PL 1.4 1.4 1.3 4.7 4.5 4.9 4.1 6.0 5.1 PW 0.2 0.2 0.2 1.3 1.5 1.5 1.3 2.5 1.9 C Iris-setosa Iris-setosa Iris-setosa Iris-ver Iris-ver Iris-ver Iris-vir Iris-vir Iris-vir Nazwy atrybutów: SL- sepallength, SW - sepalwidth, PL- petallength, PW petalwidth. C - klasykacja. 2. Wybra¢ do oblicze« dwa atrybuty - sepallength oraz petallength, obliczy¢ macierz podobie«stwa mi¦dzy parami wszystkich 9 obiektów. Na tym etapie, mamy 9 jednoelementowych grup Pobobie«stwo mi¦dzy dwoma obiektami pi oraz pj , obliczamy jako odlegªo±¢ euklidesow¡: v u Na uX dij = t (pia − pja )2 a=1 gdzie Na - liczba atrybutów, pia - warto±¢ atrybutu o numerze a dla obiektu o indeksie i. 3. Wykonac grupowanie obiektow, poprzez poª¡czenie dwu najbardziej podobnych obiektów w jedn¡ grup¦, w wyniku otrzymujemy 8 grup obiektów, jedn¡ grup¦ dwuelementow¡, oraz 7 grup jednoelementowych. 4. Powtórzy¢ grupowanie obiektów do momentu otrzymania trzech grup obiektów (ew. jednej 9-elementowej grupy obiektów). Miara podobie«stwa obiektów /grup obiektów. W przypadku, gdy wykonujemy obliczenia odlegªo±ci mi¦dzy dwiema grupami obiektów zªo»onych z k obiektów - PB 2 pierwsza grupa, oraz l obiektów - druga grupa. Wykonujemy obliczenie odlegªo±ci mi¦dzy wszystkimi parami obiektów xi , yj , gdzie xi - i-ty obiekt z grupy I, i = 1, ..., k yj - j-ty obiekt z grupy II, j = 1, ..., l oraz dxi ,yj v u Na uX = t (p xi a − pyj a )2 a=1 gdzie Na - liczba atrybutów, pxi a - warto±¢ atrybutu o numerze a dla obiektu xi z grupy pierwszej oraz pxi a - warto±¢ atrybutu o numerze a dla obiektu yi grupy drugiej. Metody ª¡czenia grup (scalania) 1. Miara (ang. nearest rst) - jako odlegªo±¢ dwu grup rozumiemy najmniejsz¡ z odlegªo±ci dxi ,yj , wykonujemy ª¡czenie dwu grup, których odlegªo±¢ jest najmniejsza. 2. Miara (ang. farest rst)- ª¡czymy grupy, dla których odlegªo±¢ mi¦dzy dwoma najdalszymi obiektami jest najmniejsza. 3. Miara (ang. average rst)- ª¡czymy grupy, których ±rednia odlegªo±¢ jest najmniejsza, Nadawanie wag poszczególnym atrybutom 5. Zastosowa¢ wa»enie warto±ci atrybutów wedªug schematu: Niech min = minP L - warto±¢ minimalna dla petallength max = maxP L - warto±¢ maksymalna dla petallength oraz w podobny sposób: minSL , minSW , minP W , maxSL , maxSW , maxP W , dSL = maxSL − minSL dSW = maxSW − minSW dP L = maxP L − minP L dP W = maxP W − minP W Wag¦ dla danego atrybutu obliczamy jako iloraz zakresu danego atrybutu do maksymalnego zakresu atrybutów, przykªadowo dla atrybutu petallength: 1. WP L = dP L max(dP L,P W,SW,SL ) MEODY GRUPOWANIA DANYCH 3 2. dP L sum(dP L,P W,SW,SL ) WP L = 1.0 WP L Wzór na odleglo±¢ mi¦dzy dwoma atrybutami przybiera posta¢: v u Na uX Wa ∗ (pia − pja )2 dij = t a=1 2 CWICZENIE II Powtórzy¢ zadanie dla atrybutów: 1. SW, PW 2. SW, PW, SL 3. SW, PW, SL, PL. oraz obiektów: 1. 10, 15, 20, 60, 65, 70, 120, 125, 130. 2. 20, 25, 30, 85, 90, 95, 130, 135, 140. 3. 35, 40, 45, 70, 75, 80, 135, 140, 145. 3 CWICZENIE III 1. 2. 3. 4. 5. 6. 7. Uruchomi¢ aplikacj¦ WEKA - Explorer Wczyta¢ dane iris.ar Wybra¢ dwa atrybuty SL, PL Przej±¢ do zakladki Clusterer Wybra¢ algorytm SimpleKMeans Dwukrotnie wcisn¡¢ przycik myszy na nazwie algorytmu Wprowadzi¢ liczb¦ grup-klas na jakie ma zosta¢ podzielony badany zbiór ustawi¢ na trzy klasy. 8. Wykona¢ grupowanie (przycisk Start) 9. Zapami¦ta¢ ±rodki klas W arkuszu kalkulacyjnym przydzieli¢ wszystkie obiekty do najbli»szych ±rodków klas. Powtórzy¢ zadanie dla atrybutów: 1. SW, PW 2. SW, PW, SL PB 4 3. SW, PW, SL, PL. oraz obiektów: 1. 10, 15, 20, 60, 65, 70, 120, 125, 130. 2. 20, 25, 30, 85, 90, 95, 130, 135, 140. 3. 35, 40, 45, 70, 75, 80, 135, 140, 145. 4 CWICZENIE IV 1. 2. 3. 4. 5. 6. 7. 8. 9. 1. 2. 3. 1. 2. 3. Uruchomi¢ aplikacj¦ WEKA - Explorer Wczyta¢ dane iris.ar Wybra¢ dwa atrybuty SL, PL Przej±¢ do zakladki Clusterer Wybra¢ algorytm EM Dwukrotnie wcisn¡¢ przycik myszy na nazwie algorytmu Wprowadzi¢ liczb¦ grup-klas na jakie ma zosta¢ podzielony badany zbiór ustawi¢ na trzy klasy. Wykona¢ grupowanie (przycisk Start) Zapami¦ta¢ ±rodki klas Powtórzy¢ zadanie dla atrybutów: SW, PW SW, PW, SL SW, PW, SL, PL. oraz obiektów: 10, 15, 20, 60, 65, 70, 120, 125, 130. 20, 25, 30, 85, 90, 95, 130, 135, 140. 35, 40, 45, 70, 75, 80, 135, 140, 145. 5 CWICZENIE V Wykona¢ polecenia z zadania pierwszego dla poni»szych danych: wybieraj¡c atrybuty: Powtórzy¢ zadanie I, III, IV dla atrybutów: 1. T, H 2. T, H, W (przypisuj¡c 1 - dla TRUE, 0 - dla FALSE) 3. T, H, O (przypisuj¡c 0 - rainy, 0.5 - overcast, 1 dla sunny) 4. T, H, W, O (przypisuj¡c 1 - dla TRUE, 0 - dla FALSE), (przypisuj¡c 0 - rainy, 0.5 - overcast, 1 dla sunny) Literatura 1. Dokumentacja systemu WEKA. MEODY GRUPOWANIA DANYCH ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 O sunny sunny overcast rainy rainy rainy overcast sunny sunny rainy rainy overcast sunny sunny 5 T 85.0 80.0 83.0 70.0 68.0 65.0 64.0 72.0 69.0 75.0 75.0 72.0 81.0 71.0 H 85.0 90.0 86.0 96.0 80.0 70.0 65.0 95.0 70.0 80.0 70.0 90.0 75.0 91.0 Rysunek 1: W FALSE TRUE FALSE FALSE FALSE TRUE TRUE FALSE FALSE FALSE TRUE TRUE FALSE TRUE P no no yes yes yes no yes no yes yes yes yes yes no PB 6 Rysunek 2: Rysunek 3: MEODY GRUPOWANIA DANYCH 7 Rysunek 4: Rysunek 5: