SW 5.1

Transkrypt

SW 5.1
Sztuczna inteligencja 9999
pages 17
MEODY GRUPOWANIA DANYCH
PB
1 CWICZENIE I
1. Ze zbioru danych iris.tab wybra¢ nastepuj¡ce obiekty:
ID
1
2
3
51
52
53
100
101
102
SL
5.1
4.9
4.7
7.0
6.3
6.9
5.7
6.3
5.8
SW
3.5
3.0
3.2
3.2
3.2
3.1
2.8
3.3
2.7
PL
1.4
1.4
1.3
4.7
4.5
4.9
4.1
6.0
5.1
PW
0.2
0.2
0.2
1.3
1.5
1.5
1.3
2.5
1.9
C
Iris-setosa
Iris-setosa
Iris-setosa
Iris-ver
Iris-ver
Iris-ver
Iris-vir
Iris-vir
Iris-vir
Nazwy atrybutów: SL- sepallength, SW - sepalwidth, PL- petallength, PW petalwidth. C - klasykacja.
2. Wybra¢ do oblicze« dwa atrybuty - sepallength oraz petallength, obliczy¢
macierz podobie«stwa mi¦dzy parami wszystkich 9 obiektów. Na tym etapie,
mamy 9 jednoelementowych grup
Pobobie«stwo mi¦dzy dwoma obiektami pi oraz pj , obliczamy jako odlegªo±¢
euklidesow¡:
v
u Na
uX
dij = t (pia − pja )2
a=1
gdzie Na - liczba atrybutów, pia - warto±¢ atrybutu o numerze a dla obiektu o
indeksie i.
3. Wykonac grupowanie obiektow, poprzez poª¡czenie dwu najbardziej podobnych obiektów w jedn¡ grup¦, w wyniku otrzymujemy 8 grup obiektów, jedn¡
grup¦ dwuelementow¡, oraz 7 grup jednoelementowych.
4. Powtórzy¢ grupowanie obiektów do momentu otrzymania trzech grup obiektów (ew. jednej 9-elementowej grupy obiektów).
Miara podobie«stwa obiektów /grup obiektów. W przypadku, gdy wykonujemy
obliczenia odlegªo±ci mi¦dzy dwiema grupami obiektów zªo»onych z k obiektów -
PB
2
pierwsza grupa, oraz l obiektów - druga grupa. Wykonujemy obliczenie odlegªo±ci
mi¦dzy wszystkimi parami obiektów xi , yj , gdzie
xi - i-ty obiekt z grupy I, i = 1, ..., k
yj - j-ty obiekt z grupy II, j = 1, ..., l
oraz
dxi ,yj
v
u Na
uX
= t (p
xi a
− pyj a )2
a=1
gdzie Na - liczba atrybutów, pxi a - warto±¢ atrybutu o numerze a dla obiektu
xi z grupy pierwszej oraz pxi a - warto±¢ atrybutu o numerze a dla obiektu yi grupy
drugiej.
Metody ª¡czenia grup (scalania)
1. Miara (ang. nearest rst) - jako odlegªo±¢ dwu grup rozumiemy najmniejsz¡
z odlegªo±ci dxi ,yj , wykonujemy ª¡czenie dwu grup, których odlegªo±¢ jest najmniejsza.
2. Miara (ang. farest rst)- ª¡czymy grupy, dla których odlegªo±¢ mi¦dzy dwoma
najdalszymi obiektami jest najmniejsza.
3. Miara (ang. average rst)- ª¡czymy grupy, których ±rednia odlegªo±¢ jest najmniejsza,
Nadawanie wag poszczególnym atrybutom
5. Zastosowa¢ wa»enie warto±ci atrybutów wedªug schematu:
Niech
min = minP L - warto±¢ minimalna dla petallength
max = maxP L - warto±¢ maksymalna dla petallength
oraz w podobny sposób:
minSL , minSW , minP W , maxSL , maxSW , maxP W ,
dSL = maxSL − minSL
dSW = maxSW − minSW
dP L = maxP L − minP L
dP W = maxP W − minP W
Wag¦ dla danego atrybutu obliczamy jako iloraz zakresu danego atrybutu do
maksymalnego zakresu atrybutów, przykªadowo dla atrybutu petallength:
1.
WP L =
dP L
max(dP L,P W,SW,SL )
MEODY GRUPOWANIA DANYCH
3
2.
dP L
sum(dP L,P W,SW,SL )
WP L =
1.0
WP L
Wzór na odleglo±¢ mi¦dzy dwoma atrybutami przybiera posta¢:
v
u Na
uX
Wa ∗ (pia − pja )2
dij = t
a=1
2 CWICZENIE II
Powtórzy¢ zadanie dla atrybutów:
1. SW, PW
2. SW, PW, SL
3. SW, PW, SL, PL.
oraz obiektów:
1. 10, 15, 20, 60, 65, 70, 120, 125, 130.
2. 20, 25, 30, 85, 90, 95, 130, 135, 140.
3. 35, 40, 45, 70, 75, 80, 135, 140, 145.
3 CWICZENIE III
1.
2.
3.
4.
5.
6.
7.
Uruchomi¢ aplikacj¦ WEKA - Explorer
Wczyta¢ dane iris.ar
Wybra¢ dwa atrybuty SL, PL
Przej±¢ do zakladki Clusterer
Wybra¢ algorytm SimpleKMeans
Dwukrotnie wcisn¡¢ przycik myszy na nazwie algorytmu
Wprowadzi¢ liczb¦ grup-klas na jakie ma zosta¢ podzielony badany zbiór ustawi¢ na trzy klasy.
8. Wykona¢ grupowanie (przycisk Start)
9. Zapami¦ta¢ ±rodki klas
W arkuszu kalkulacyjnym przydzieli¢ wszystkie obiekty do najbli»szych ±rodków klas.
Powtórzy¢ zadanie dla atrybutów:
1. SW, PW
2. SW, PW, SL
PB
4
3. SW, PW, SL, PL.
oraz obiektów:
1. 10, 15, 20, 60, 65, 70, 120, 125, 130.
2. 20, 25, 30, 85, 90, 95, 130, 135, 140.
3. 35, 40, 45, 70, 75, 80, 135, 140, 145.
4 CWICZENIE IV
1.
2.
3.
4.
5.
6.
7.
8.
9.
1.
2.
3.
1.
2.
3.
Uruchomi¢ aplikacj¦ WEKA - Explorer
Wczyta¢ dane iris.ar
Wybra¢ dwa atrybuty SL, PL
Przej±¢ do zakladki Clusterer
Wybra¢ algorytm EM
Dwukrotnie wcisn¡¢ przycik myszy na nazwie algorytmu
Wprowadzi¢ liczb¦ grup-klas na jakie ma zosta¢ podzielony badany zbiór ustawi¢ na trzy klasy.
Wykona¢ grupowanie (przycisk Start)
Zapami¦ta¢ ±rodki klas
Powtórzy¢ zadanie dla atrybutów:
SW, PW
SW, PW, SL
SW, PW, SL, PL.
oraz obiektów:
10, 15, 20, 60, 65, 70, 120, 125, 130.
20, 25, 30, 85, 90, 95, 130, 135, 140.
35, 40, 45, 70, 75, 80, 135, 140, 145.
5 CWICZENIE V
Wykona¢ polecenia z zadania pierwszego dla poni»szych danych:
wybieraj¡c atrybuty: Powtórzy¢ zadanie I, III, IV dla atrybutów:
1. T, H
2. T, H, W (przypisuj¡c 1 - dla TRUE, 0 - dla FALSE)
3. T, H, O (przypisuj¡c 0 - rainy, 0.5 - overcast, 1 dla sunny)
4. T, H, W, O (przypisuj¡c 1 - dla TRUE, 0 - dla FALSE), (przypisuj¡c 0 - rainy,
0.5 - overcast, 1 dla sunny)
Literatura
1. Dokumentacja systemu WEKA.
MEODY GRUPOWANIA DANYCH
ID
1
2
3
4
5
6
7
8
9
10
11
12
13
14
O
sunny
sunny
overcast
rainy
rainy
rainy
overcast
sunny
sunny
rainy
rainy
overcast
sunny
sunny
5
T
85.0
80.0
83.0
70.0
68.0
65.0
64.0
72.0
69.0
75.0
75.0
72.0
81.0
71.0
H
85.0
90.0
86.0
96.0
80.0
70.0
65.0
95.0
70.0
80.0
70.0
90.0
75.0
91.0
Rysunek 1:
W
FALSE
TRUE
FALSE
FALSE
FALSE
TRUE
TRUE
FALSE
FALSE
FALSE
TRUE
TRUE
FALSE
TRUE
P
no
no
yes
yes
yes
no
yes
no
yes
yes
yes
yes
yes
no
PB
6
Rysunek 2:
Rysunek 3:
MEODY GRUPOWANIA DANYCH
7
Rysunek 4:
Rysunek 5: