wykład
Transkrypt
wykład
Zagadnienie klasyfikacji (dyskryminacji) Przykład. Bank chce klasyfikować klientów starających się o pożyczkę do jednej z dwóch grup: niskiego ryzyka (spłacających pożyczki terminowo) lub wysokiego ryzyka. Obserwując pewne cechy charakteryzujące klienta należy skonstruować regułę postępowania klasyfikującą ewentualnych pożyczkobiorców do jednej z dwóch wymienionych grup. Populacje: π1 , . . . , πk Obiekt: X = (X1 , . . . , Xp ) Zadanie Przypisać obiekt do jednej z populacji π1 , . . . , πk W Z Statystyka 12.1 Rozwiązanie: podział zbioru Rp na takie obszary R1 , . . . , Rp , że k [ Ri = Rp , Ri ∩ Rj = ∅, i 6= j i=1 Reguła klasyfikacyjna (dyskryminacyjna) Jeżeli X ∈ Ri , to obiekt zaliczamy do πi Problem: znaleźć zbiory Ri Kryterium P {X ∈ Ri | obiekt pochodzi z populacji πi } = max! Rozwiązanie zagadnienia Założenia 1. Dla populacji πi : X ∼ Np (µi , Σi ) 2. Σ1 = · · · = Σk = Σ 3. P {obiekt pochodzi z πi } = 1/k W Z Statystyka 12.2 Klasyfikacja dla dwóch populacji k = 2 Idea: obserwacja X pochodzi z tej populacji, dla której odległość obserwacji od wektora średnich jest mniejsza. Formalnie: Niech W (X) = 1 (X̄1 − X̄2 )0 C−1 X − (X̄1 − X̄2 )0 C−1 (X̄1 + X̄2 ) 2 Reguła klasyfikacyjna X zaklasyfikować do populacji π1 , jeżeli W (X) > 0 X zaklasyfikować do populacji π2 , jeżeli W (X) < 0 Funkcja W (X): funkcja dyskryminacyjna W Z Statystyka 12.3 Klasyfikacja dla wielu populacji k > 2 Idea: obserwacja X pochodzi z tej populacji, dla której odległość obserwacji od wektora średnich jest najmniejsza. Formalnie: Niech Wij (X) = 0 −1 (X̄i − X̄j ) C 1 X − (X̄i − X̄j )0 C−1 (X̄i + X̄j ) 2 Reguła klasyfikacyjna obserwację X zaklasyfikować do populacji πi , jeżeli Wij (X) > 0 dla wszystkich i 6= j Funkcje Wij — funkcje dyskryminacyjne W Z Statystyka 12.4 Przykład. W celu oceny stopnia ryzyka udzielanych kredytów bankowych, wybrano losowo 26 klientów i 12 z nich oceniono jako klientów o niskim stopniu ryzyka (klienci spłacali pożyczki w terminie), zaś 14 klientów z wylosowanej grupy oceniono jako klientów o wysokim stopniu ryzyka (klienci ci nie spłacali pożyczek w terminie). Przyjmując, że spłata pożyczek w terminie jest funkcją następujących cech: X1 — płeć, X2 — okres współpracy z bankiem, X3 — liczba posiadanych dzieci, X4 — wielkość dochodu X5 — zaakceptowane oprocentowanie pożyczek, skonstruować funkcję pozwalającą na ocenę czy ubiegający się o pożyczkę i posiadający określone cechy należy do grupy niskiego ryzyka, czy też należy do grupy wysokiego ryzyka. π1 — grupa niskiego ryzyka π2 — grupa wysokiego ryzyka Nowy klient: X = (X1 , . . . , X5 )0 W Z Statystyka 12.5 Funkcja dyskryminacyjna: W (X) = − 0.98855 + 0.91522X1 + 0.34271X2 + 0.80272X3 − 0.20583X4 − 0.20061X5 . Jeżeli W (X) < 0, to klasyfikujemy klienta X do π1 . Jeżeli W (X) > 0, to klasyfikujemy klienta X do π2 . Wniosek kredytowy złożył bezdzietny (X3 = 0) mężczyzna (X1 = 0) współpracujący z bankiem jeden rok (X2 = 1) deklarujący uzyskiwany dochód na poziomie 500 złotych (X4 = 5) oraz akceptujący 4% jako tygodniowe oprocentowanie pożyczki (X5 = 4). Wartość funkcji dyskryminacyjnej W = − 0.98855 + 0.91522 · 0 + 0.34271 · 1 + 0.80272 · 0 − 0.20583 · 5 − 0.20061 · 4 = − 2.4041. Ponieważ jest to wartość ujemna, więc klienta klasyfikujemy do grupy małego ryzyka. W Z Statystyka 12.6 Przykład. Przykład pochodzi od Fishera i przeszedł do klasyki przykładów analizy dyskryminacji. Badano trzy populacje kwiatów: Iris virginica, Iris versicolor oraz Iris setosa. Dla każdego kwiatu mierzono długość i szerokość działki kielicha (SL i SW ) oraz długość i szerokość płatka (P L i P W ). Zadanie: na podstawie czterech pomiarów zaklasyfikować nowy kwiat do jednej z trzech populacji Dla każdej z populacji dokonano po 50 obserwacji i uzyskano następujące średnie próbkowe Iris Virginica Versicolor Setosa SL 6.588 5.936 5.006 SW PL 2.974 5.552 2.770 4.260 3.428 1.462 PW 2.062 1.326 0.246 Macierz średnich kwadratów i iloczynów ma postać: C= 1 150 − 3 102.17 −6.59 28.31 189.51 −49.12 464.33 77.12 −18.12 193.05 86.57 W Z Statystyka 12.7 Dwie funkcje dyskryminacyjne: W12 = −3.246SL − 3.391SW + 7.553P L + 14.636P W − 31.523 W13 = −11.076SL − 19.916SW + 29.187P L + 38.461P W − 18.093 Reguła klasyfikacyjna ma postać: Zaklasyfikować kwiat Iris o obserwacji X jako virginica, jeżeli W12 (X) > 0 i W13 (X) > 0 versicolor, jeżeli W12 (X) < 0 i W13 (X) > W12 (X) setosa, jeżeli W12 (X) < 0 i W13 (X) < 0 W Z Statystyka 12.8 Analiza skupień X1 , . . . , Xn — p–wymiarowe obserwacje jednostek Założenie Przyjmujemy, że obserwacje X1 , . . . , Xn pochodzą z nieznanej liczby k populacji. Zadanie Oszacować liczbę k populacji oraz rozpoznać, które obserwacje pochodzą z kolejnych populacji. Grupy obserwacji uznane za pochodzące z tych samych populacji nazywane są skupieniami lub segmentami (ang. cluster). Techniki analizy skupień zwane są procedurami segmentacji lub aglomeracji. Idea Dwie obserwacje uznajemy za pochodzące z tej samej populacji, jeżeli są dostatecznie „blisko” siebie. W Z Statystyka 12.9 Techniki segmentacji — techniki hierarchiczne — techniki optymalnego podziału — techniki natężenia — techniki grupowania Metody hierarchiczne Macierz odległości [dij ] między obiektami i skupieniami. Odległość dij między obiektami Xi = (Xi1 , . . . , Xip )0 dij = p X Xj = (Xj1 , . . . , Xjp )0 (Xil − Xjl )2 l=1 W Z Statystyka 12.10 Zasada działania metod hierarchicznych 1. zakładamy, że każdy z obiektów tworzy jednoelementowe skupienie 2. w macierzy odległości między skupieniami szukamy takiej pary skupień q i r (q < r) dla której odległość jest najmniejsza: dqr = min dij i<j 3. łączymy obiekty q i r w jedno skupienie, nadajemy mu numer q i wyznaczamy nową macierz odległości 4. powyższe kroki powtarzamy aż do uzyskania jednego skupienia Metoda najbliższego sąsiedztwa dq0 t = min {dqt , drt } t6=q,r Metoda najdalszego sąsiedztwa dq0 t = max {dqt , drt } t6=q,r W Z Statystyka 12.11 Przykład. Badano 22 samochody różnych marek pod względem czterech cech: ceny (X1 ), przyspieszenia (X2 ), hamowania (X3 ), trzymania się drogi (X4 ) oraz zużycia paliwa (X5 ). Acura Audi BMW Buick Corvette Chrysler Dodge Eagle Ford Honda Isuzu Mazda Mercedes Mitsub. Nissan Olds Pontiac Porsche Saab Toyota VW Volvo X1 −0.5211 0.8657 0.4959 −0.6135 1.2354 −0.6135 −0.7060 −0.6135 −0.7060 −0.4286 −0.7984 0.1261 1.0505 −0.6135 −0.4286 −0.6135 −0.6135 3.4542 0.5883 −0.0588 −0.7060 0.2185 X2 0.4773 0.2080 −0.8015 1.6887 −1.8111 0.0734 −0.1958 1.2176 −1.5419 0.4099 0.4099 0.6792 0.0061 −1.0035 0.0734 −0.7342 0.6792 −2.2149 0.6792 1.2176 −0.1285 0.6119 X3 −0.0066 0.3187 0.1922 0.9331 −0.4945 0.4271 0.4813 −4.1989 0.9873 −0.0066 −0.0608 −0.1331 0.1199 0.0838 −0.0066 0.4090 0.5355 −0.2957 0.2464 0.2283 0.1019 0.1380 X4 0.3816 −0.0914 −0.0914 −0.2096 0.9729 −0.2096 0.1451 −0.2096 0.1451 0.0269 −4.2301 0.4999 −0.0914 0.3816 0.2634 0.3816 0.1451 0.6181 0.2634 0.7364 0.3816 −0.2096 X5 2.0788 −0.6771 −0.1538 −0.1538 −0.6771 −0.1538 −0.1538 −0.6771 −1.7236 0.3695 1.0671 −1.7236 −0.1538 0.7183 0.9974 2.1136 0.1950 −1.0259 0.0206 −0.8515 0.1950 0.3695 W Z Statystyka 12.12 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .. .. .. .. .. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... . .. . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... . . . .. . . . . . ... . ... . ... ... ... ... ... ... ... ... ... ... ... ... ... ... . . .. . . . ... ... . . ... . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... .. .. .. .. .. .. ... ... ... . . . ... ... ... . . . . ... ... ... ... ... ... ... ... ... ... .. .. .. .. .. .. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .. .. . . . ... ... ... ... ... ... . . . ............ ... ... ... ... ... ... ... ... ... . .. .. . . ... ... ... ... ... ... . . . . . ... ... ... ... ... .................... ... ... ... . . . .. .. ... ... ... ... ... ... . . . . . . . . ... ... ... ... ... ... ... .. .. .. .. .. ............... ... ... ... ... ... ... . . ............. ... .............. ... ... ... ... .. ... ... .. ... . .. ... ... ... . . ... ... ........................................................................................ ... ... ... ... ... .. . ... ... ... .. . ... ... ... ... ... ... ... ... ... ... ... .. .. . . . . ... ... ... ... ... ... ... ..................................................................................... ... ... ... .. .. . . . . . ... ... ... ... ... ... ... ... ... .......................................................................... .. . . . ... ... ... ... ... ... ... ... .................................................. . .. . ... ... ... ... ... ... ... ... ... . . . ... ... . . . . . . . . . . . ... . ... ... ... ... ... ........................................................................................................................... ... ... ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... ... . ... . ... ... ... ... ..................................................................................... ... ... ... ... ... . ... .. ... ... ... ... ... .. ... ... ... ... ... .. ... ... ... ... . ... .. ... ... ... ... ... ... ... ... .. ... ... ... ... ... .. ... ... ... ... ... ... . . ... ... ... .............................................. ... ... ... ... ... .. ... ... ... ... .. ... ... ... ... .. ... ... ... ... ... ... ................................... ... ... ... ... .. ... ... ... . ... ... .............................. . ... ... .. ... ... .. ... ... .. ... ... .. ... ... .. ... ... .. ... ... .. ... ... .. ... ... .. ... ... ... ... .. ... ... .. ... ... .. ... ... .. ... ... .. . ... ... .. ... ... .. ... ... .. ... ... .. ... ... .. ... . ... .. ... ... .. ... ... .. ... ... ... .. . ... ... .. ... ... .. ... ... .. ... ... . ... .............................. ... .............................. W Z Statystyka 12.13 Metoda k–średnich X1 , . . . , Xn — p–wymiarowe obserwacje jednostek Założenie Przyjmujemy, że obserwacje X1 , . . . , Xn pochodzą z k populacji. J = {I1 , . . . , Ik }: podział zbioru {1, . . . , n} na rozłączne podzbiory 1 X X̄j = Xi nj i∈Ij D(J ) = k X X (Xi − X̄j )2 i=1 i∈Ij Znaleźć takie J ∗ , że D(J ∗ ) = min D(J ) W Z Statystyka 12.14 Przykład. (cd.) Cecha X1 X2 X3 X4 X5 1 −0.39307 0.29605 0.27422 0.19061 0.44191 Średnie 2 0.93169 −0.78231 0.09927 0.28027 −0.87640 3 −0.70597 0.81378 −2.12984 −2.21984 0.19503 •.... .. • .... .. ...... .. . .. .. .. .. .. .... .. . . .. .. .. .......• .. .... ..... ......... . . .. . .• . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . ..... .. •.............. • .......................................• .. .. .... • .. ... .... .. .... ... . . . . . . • ... . . ....... . . . ... .. .... .. .. ... .. .. ..... .... . ... .. . . . . . . . . . . . . 1.............. ...... 2 ........... 3 4 ..... .... 5 . ... .. . . . . .. . • ... .. .... ...... . . . .. .. .. .. .. . . . ...... .. .... .. . . . . . . .. • ... .... .. ..... • .. . • .. .. ... . . .. .. .. . ... . ... .. .. .. . . ... ... .. . .. .. ... . . ... .. .. .. . ... . . •................................ • W Z Statystyka 12.15 Grupa 1: Acura Buick Chrysler Dodge Honda Mitsub. Nissan Olds Pontiac Saab Toyota VW Volvo Grupa 2: Audi BMW Corvette Ford Mazda Mercedes Porsche Grupa 3: Eagle Isuzu W Z Statystyka 12.16