wykład

Transkrypt

wykład
Zagadnienie klasyfikacji
(dyskryminacji)
Przykład. Bank chce klasyfikować klientów starających się o pożyczkę do jednej z dwóch grup: niskiego
ryzyka (spłacających pożyczki terminowo) lub wysokiego ryzyka. Obserwując pewne cechy charakteryzujące klienta należy skonstruować regułę postępowania klasyfikującą ewentualnych pożyczkobiorców
do jednej z dwóch wymienionych grup.
Populacje: π1 , . . . , πk
Obiekt: X = (X1 , . . . , Xp )
Zadanie
Przypisać obiekt do jednej z populacji π1 , . . . , πk
W Z Statystyka 12.1
Rozwiązanie: podział zbioru Rp na takie obszary
R1 , . . . , Rp , że
k
[
Ri = Rp ,
Ri ∩ Rj = ∅, i 6= j
i=1
Reguła klasyfikacyjna (dyskryminacyjna)
Jeżeli X ∈ Ri , to obiekt zaliczamy do πi
Problem: znaleźć zbiory Ri
Kryterium
P {X ∈ Ri | obiekt pochodzi z populacji πi } = max!
Rozwiązanie zagadnienia
Założenia
1. Dla populacji πi : X ∼ Np (µi , Σi )
2. Σ1 = · · · = Σk = Σ
3. P {obiekt pochodzi z πi } = 1/k
W Z Statystyka 12.2
Klasyfikacja dla dwóch populacji k = 2
Idea: obserwacja X pochodzi z tej populacji, dla
której odległość obserwacji od wektora średnich jest
mniejsza.
Formalnie: Niech W (X) =
1
(X̄1 − X̄2 )0 C−1 X − (X̄1 − X̄2 )0 C−1 (X̄1 + X̄2 )
2
Reguła klasyfikacyjna
X zaklasyfikować do populacji π1 , jeżeli W (X) > 0
X zaklasyfikować do populacji π2 , jeżeli W (X) < 0
Funkcja W (X): funkcja dyskryminacyjna
W Z Statystyka 12.3
Klasyfikacja dla wielu populacji k > 2
Idea: obserwacja X pochodzi z tej populacji, dla
której odległość obserwacji od wektora średnich jest
najmniejsza.
Formalnie: Niech
Wij (X) =
0
−1
(X̄i − X̄j ) C
1
X − (X̄i − X̄j )0 C−1 (X̄i + X̄j )
2
Reguła klasyfikacyjna
obserwację X zaklasyfikować do populacji πi ,
jeżeli Wij (X) > 0 dla wszystkich i 6= j
Funkcje Wij — funkcje dyskryminacyjne
W Z Statystyka 12.4
Przykład. W celu oceny stopnia ryzyka udzielanych
kredytów bankowych, wybrano losowo 26 klientów i
12 z nich oceniono jako klientów o niskim stopniu
ryzyka (klienci spłacali pożyczki w terminie), zaś 14
klientów z wylosowanej grupy oceniono jako klientów
o wysokim stopniu ryzyka (klienci ci nie spłacali pożyczek w terminie). Przyjmując, że spłata pożyczek
w terminie jest funkcją następujących cech:
X1 — płeć,
X2 — okres współpracy z bankiem,
X3 — liczba posiadanych dzieci,
X4 — wielkość dochodu
X5 — zaakceptowane oprocentowanie pożyczek,
skonstruować funkcję pozwalającą na ocenę czy ubiegający się o pożyczkę i posiadający określone cechy
należy do grupy niskiego ryzyka, czy też należy do
grupy wysokiego ryzyka.
π1 — grupa niskiego ryzyka
π2 — grupa wysokiego ryzyka
Nowy klient: X = (X1 , . . . , X5 )0
W Z Statystyka 12.5
Funkcja dyskryminacyjna:
W (X) = − 0.98855 + 0.91522X1 + 0.34271X2
+ 0.80272X3 − 0.20583X4 − 0.20061X5 .
Jeżeli W (X) < 0, to klasyfikujemy klienta X do π1 .
Jeżeli W (X) > 0, to klasyfikujemy klienta X do π2 .
Wniosek kredytowy złożył bezdzietny (X3 = 0) mężczyzna (X1 = 0) współpracujący z bankiem jeden
rok (X2 = 1) deklarujący uzyskiwany dochód na poziomie 500 złotych (X4 = 5) oraz akceptujący 4%
jako tygodniowe oprocentowanie pożyczki (X5 = 4).
Wartość funkcji dyskryminacyjnej
W = − 0.98855 + 0.91522 · 0 + 0.34271 · 1
+ 0.80272 · 0 − 0.20583 · 5 − 0.20061 · 4
= − 2.4041.
Ponieważ jest to wartość ujemna, więc klienta klasyfikujemy do grupy małego ryzyka.
W Z Statystyka 12.6
Przykład. Przykład pochodzi od Fishera i przeszedł do klasyki przykładów analizy dyskryminacji.
Badano trzy populacje kwiatów: Iris virginica, Iris
versicolor oraz Iris setosa. Dla każdego kwiatu mierzono długość i szerokość działki kielicha (SL i SW )
oraz długość i szerokość płatka (P L i P W ).
Zadanie: na podstawie czterech pomiarów zaklasyfikować nowy kwiat do jednej z trzech populacji
Dla każdej z populacji dokonano po 50 obserwacji i
uzyskano następujące średnie próbkowe
Iris
Virginica
Versicolor
Setosa
SL
6.588
5.936
5.006
SW
PL
2.974 5.552
2.770 4.260
3.428 1.462
PW
2.062
1.326
0.246
Macierz średnich kwadratów i iloczynów ma postać:

C=
1


150 − 3
102.17
−6.59
28.31
189.51
−49.12
464.33

77.12
−18.12 

193.05
86.57
W Z Statystyka 12.7
Dwie funkcje dyskryminacyjne:
W12 = −3.246SL − 3.391SW
+ 7.553P L + 14.636P W − 31.523
W13 = −11.076SL − 19.916SW
+ 29.187P L + 38.461P W − 18.093
Reguła klasyfikacyjna ma postać:
Zaklasyfikować kwiat Iris o obserwacji X jako
virginica, jeżeli W12 (X) > 0 i W13 (X) > 0
versicolor, jeżeli W12 (X) < 0 i W13 (X) > W12 (X)
setosa, jeżeli W12 (X) < 0 i W13 (X) < 0
W Z Statystyka 12.8
Analiza skupień
X1 , . . . , Xn — p–wymiarowe obserwacje jednostek
Założenie
Przyjmujemy, że obserwacje X1 , . . . , Xn pochodzą
z nieznanej liczby k populacji.
Zadanie
Oszacować liczbę k populacji oraz rozpoznać, które
obserwacje pochodzą z kolejnych populacji.
Grupy obserwacji uznane za pochodzące z tych samych populacji nazywane są skupieniami lub segmentami (ang. cluster).
Techniki analizy skupień zwane są procedurami segmentacji lub aglomeracji.
Idea
Dwie obserwacje uznajemy za pochodzące z tej samej
populacji, jeżeli są dostatecznie „blisko” siebie.
W Z Statystyka 12.9
Techniki segmentacji
— techniki hierarchiczne
— techniki optymalnego podziału
— techniki natężenia
— techniki grupowania
Metody hierarchiczne
Macierz odległości [dij ] między obiektami i skupieniami.
Odległość dij między obiektami
Xi = (Xi1 , . . . , Xip )0
dij =
p
X
Xj = (Xj1 , . . . , Xjp )0
(Xil − Xjl )2
l=1
W Z Statystyka 12.10
Zasada działania metod hierarchicznych
1. zakładamy, że każdy z obiektów tworzy jednoelementowe skupienie
2. w macierzy odległości między skupieniami szukamy takiej pary skupień q i r (q < r) dla której
odległość jest najmniejsza:
dqr = min dij
i<j
3. łączymy obiekty q i r w jedno skupienie, nadajemy mu numer q i wyznaczamy nową macierz
odległości
4. powyższe kroki powtarzamy aż do uzyskania jednego skupienia
Metoda najbliższego sąsiedztwa
dq0 t = min {dqt , drt }
t6=q,r
Metoda najdalszego sąsiedztwa
dq0 t = max {dqt , drt }
t6=q,r
W Z Statystyka 12.11
Przykład. Badano 22 samochody różnych marek
pod względem czterech cech: ceny (X1 ), przyspieszenia (X2 ), hamowania (X3 ), trzymania się drogi
(X4 ) oraz zużycia paliwa (X5 ).
Acura
Audi
BMW
Buick
Corvette
Chrysler
Dodge
Eagle
Ford
Honda
Isuzu
Mazda
Mercedes
Mitsub.
Nissan
Olds
Pontiac
Porsche
Saab
Toyota
VW
Volvo
X1
−0.5211
0.8657
0.4959
−0.6135
1.2354
−0.6135
−0.7060
−0.6135
−0.7060
−0.4286
−0.7984
0.1261
1.0505
−0.6135
−0.4286
−0.6135
−0.6135
3.4542
0.5883
−0.0588
−0.7060
0.2185
X2
0.4773
0.2080
−0.8015
1.6887
−1.8111
0.0734
−0.1958
1.2176
−1.5419
0.4099
0.4099
0.6792
0.0061
−1.0035
0.0734
−0.7342
0.6792
−2.2149
0.6792
1.2176
−0.1285
0.6119
X3
−0.0066
0.3187
0.1922
0.9331
−0.4945
0.4271
0.4813
−4.1989
0.9873
−0.0066
−0.0608
−0.1331
0.1199
0.0838
−0.0066
0.4090
0.5355
−0.2957
0.2464
0.2283
0.1019
0.1380
X4
0.3816
−0.0914
−0.0914
−0.2096
0.9729
−0.2096
0.1451
−0.2096
0.1451
0.0269
−4.2301
0.4999
−0.0914
0.3816
0.2634
0.3816
0.1451
0.6181
0.2634
0.7364
0.3816
−0.2096
X5
2.0788
−0.6771
−0.1538
−0.1538
−0.6771
−0.1538
−0.1538
−0.6771
−1.7236
0.3695
1.0671
−1.7236
−0.1538
0.7183
0.9974
2.1136
0.1950
−1.0259
0.0206
−0.8515
0.1950
0.3695
W Z Statystyka 12.12
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
..
..
..
..
..
..
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
.
..
.
.
.
.
.
.
.
.
.
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
.
.
.
..
.
.
.
.
.
...
.
...
.
...
...
...
...
...
...
...
...
...
...
...
...
...
...
.
.
..
.
.
.
...
...
.
.
...
.
.
.
.
.
.
...
...
...
...
...
...
...
...
...
...
...
...
...
..
..
..
..
..
..
...
...
...
.
.
.
...
...
...
.
.
.
.
...
...
...
...
...
...
...
...
...
...
..
..
..
..
..
..
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
..
..
..
.
.
.
...
...
...
...
...
...
.
.
.
............
...
...
...
...
...
...
...
...
...
.
..
..
.
.
...
...
...
...
...
...
.
.
.
.
.
...
...
...
...
...
....................
...
...
...
.
.
.
..
..
...
...
...
...
...
...
.
.
.
.
.
.
.
.
...
...
...
...
...
...
...
..
..
..
..
..
...............
...
...
...
...
...
...
.
.
.............
...
..............
...
...
...
...
..
...
...
..
...
.
..
...
...
...
.
.
...
...
........................................................................................
...
...
...
...
...
..
.
...
...
...
..
.
...
...
...
...
...
...
...
...
...
...
...
..
..
.
.
.
.
...
...
...
...
...
...
...
.....................................................................................
...
...
...
..
..
.
.
.
.
.
...
...
...
...
...
...
...
...
...
..........................................................................
..
.
.
.
...
...
...
...
...
...
...
...
..................................................
.
..
.
...
...
...
...
...
...
...
...
...
.
.
.
...
...
.
.
.
.
.
.
.
.
.
.
.
...
.
...
...
...
...
...
...........................................................................................................................
...
...
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
...
.
...
.
...
...
...
...
.....................................................................................
...
...
...
...
...
.
...
..
...
...
...
...
...
..
...
...
...
...
...
..
...
...
...
...
.
...
..
...
...
...
...
...
...
...
...
..
...
...
...
...
...
..
...
...
...
...
...
...
.
.
...
...
...
..............................................
...
...
...
...
...
..
...
...
...
...
..
...
...
...
...
..
...
...
...
...
...
...
...................................
...
...
...
...
..
...
...
...
.
...
...
..............................
.
...
...
..
...
...
..
...
...
..
...
...
..
...
...
..
...
...
..
...
...
..
...
...
..
...
...
..
...
...
...
...
..
...
...
..
...
...
..
...
...
..
...
...
..
.
...
...
..
...
...
..
...
...
..
...
...
..
...
...
..
...
.
...
..
...
...
..
...
...
..
...
...
...
..
.
...
...
..
...
...
..
...
...
..
...
...
.
...
..............................
...
..............................
W Z Statystyka 12.13
Metoda k–średnich
X1 , . . . , Xn — p–wymiarowe obserwacje jednostek
Założenie
Przyjmujemy, że obserwacje X1 , . . . , Xn pochodzą z
k populacji.
J = {I1 , . . . , Ik }: podział zbioru {1, . . . , n} na rozłączne podzbiory
1 X
X̄j =
Xi
nj
i∈Ij
D(J ) =
k X
X
(Xi − X̄j )2
i=1 i∈Ij
Znaleźć takie J ∗ , że
D(J ∗ ) = min D(J )
W Z Statystyka 12.14
Przykład. (cd.)
Cecha
X1
X2
X3
X4
X5
1
−0.39307
0.29605
0.27422
0.19061
0.44191
Średnie
2
0.93169
−0.78231
0.09927
0.28027
−0.87640
3
−0.70597
0.81378
−2.12984
−2.21984
0.19503
•....
..
•
....
..
......
..
.
..
.. ..
..
.. ....
..
.
.
..
..
..
.......•
.. ....
.....
.........
.
.
.. . .•
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.. . ..... ..
•..............
• .......................................•
.. .. ....
•
..
...
....
..
.... ...
.
.
.
.
.
.
•
...
.
.
.......
.
.
.
...
..
....
..
..
...
..
..
..... ....
.
...
..
.
.
.
.
.
.
.
.
.
.
.
.
1.............. ...... 2 ........... 3
4 ..... .... 5
.
... ..
.
.
.
.
..
.
• ...
..
....
......
.
.
.
..
.. .. ..
..
.
.
.
......
.. .... ..
.
.
.
.
.
. ..
•
...
....
.. .....
•
..
.
•
..
..
...
.
.
..
..
..
.
...
.
...
..
..
..
.
.
...
...
..
.
..
..
...
.
.
...
..
..
..
.
...
.
.
•................................
•
W Z Statystyka 12.15
Grupa 1:
Acura Buick Chrysler Dodge Honda Mitsub. Nissan
Olds Pontiac Saab Toyota VW Volvo
Grupa 2:
Audi BMW Corvette Ford Mazda Mercedes Porsche
Grupa 3:
Eagle Isuzu
W Z Statystyka 12.16

Podobne dokumenty