Sprawozdanie z zadania „Modele predykcyjne (2)”
Transkrypt
Sprawozdanie z zadania „Modele predykcyjne (2)”
Eksploracja danych: Modele predykcyjne (2) Maciej Karpus, 131529 Tomasz Skarżyński, 131618 19.04.2013r. Sprawozdanie z zadania „Modele predykcyjne (2)” 1. Wprowadzenie 1.1. Informacje wstępne Dane dotyczą wyników badań mammograficznych wykonanych na liczbie ponad stu tysięcy pacjentów. Zawierają informacje o identyfikatorach pacjentów, zdjęć, o rodzaju prześwietlenia oraz o jego rezultacie. Dane pobrano ze strony KDD: http://www.sigkdd.org/kdd-cup-2008-breast-cancer. Jednym z celów przeprowadzanych analiz jest uzyskanie najwyższej skuteczności w przewidywaniu wyniku próbki na podstawie położenia grudki, sutka, badanej piersi i typu przeprowadzonego badania. 1.2. Przetwarzane dane Każdy wiersz zawiera dane dotyczące jednego badania. W skład każdego wiersza wchodzi: Wynik próbki (1 - pozytywny, -1 - negatywny) Informacja o tym, która pierś była prześwietlana (1 - lewa, 0 - prawa) Informacja o rodzaju prześwietlenia ([MLO] 1 - MLO, 0 - inne) Współrzędne X i Y Grudki i Sutka. oraz pomijalne przy przetwarzaniu identyfikatory zdjęć oraz pacjentów. Przed analizą próbek został ograniczony zbiór. W efekcie nowy podzbiór składał się z 1273 wierszy o zrównoważonym rozkładzie wyników próbek pozytywnych i negatywnych. Dane nominalne zostały zdyskretyzowane zgodnie z ich specyfikacją. 1.3. Wyniki przygotowania klasyfikatorów W poprzednim zadaniu wykorzystaliśmy klasyfikatory drzewa decyzyjnego z i bez obcinania oraz naiwny klasyfikator Bayesa. Każdy z nich miał przypisany wynik próbki jako atrybut celu. Skuteczność predykcji była różna w zależności od zastosowanego modelu. Najlepszym modelem okazał się model drzewa bez obcinania. Średni błąd tego modelu wynosił 23%. Nieco gorzej wypadło drzewo z zastosowaniem obcinania. Średni błąd drzewa z obcinaniem wynosił w przybliżeniu tyle ile maksymalny błąd drzewa bez obcinania, czyli 33%. Drzewo bez obcinania odniosło lepszy wynik przypuszczalnie z uwagi na małą liczbę kolumn oraz zbliżoną liczność wyniku próbek pozytywnych i negatywnych. W związku z czym bo obcięciu odrzucane były jak pokazują wyniki sensowne gałęzie decyzyjne. Najgorszą skuteczność miał zdecydowanie naiwny klasyfikator Bayesa. Średni błąd wynosił aż 41%, a zakres błędu wynosił od 29.4% do 53%. Maksymalny błąd tej metody określilśmy jako niezadowalający. 1 Eksploracja danych: Modele predykcyjne (2) 2. Modele predykcyjne 2.1. Utworzenie modeli w narzędziu WEKA Użyte metody, rezultaty (Jakich metod użyto do otrzymania modeli? Jakie były parametry algorytmu? Jak wygląda otrzymany model? Czy otrzymane modele różnią się od otrzymanych w poprzednim zadaniu? Jaka jest ich skuteczność predykcji?) 2.1.1. Drzewa decyzyjne w narzędziu WEKA W każdym modelu kolumną docelową będzie PROBKA. 2.1.1.1. J48 z odpowiednio dobranymi wartościami parametrów confidenceError i reducedErrorPruning a) confidenceError = 0.25, reducedErrorPruning = false rys.1 Widok węzła Weka J48, zakładka Summary b) confidenceError = 0.15, reducedErrorPruning = false rys.2 Widok węzła Weka J48, zakładka Summary c) confidenceError = 0.15, reducedErrorPruning = true rys.3 Widok węzła Weka J48, zakładka Summary 2 Eksploracja danych: Modele predykcyjne (2) rys.4 Widok węzła Weka J48, zakładka Weka Output 3 Eksploracja danych: Modele predykcyjne (2) 2.1.2. Budowa reguł decyzyjnych 2.1.1.2. Węzeł Prism rys.5 Widok węzła Weka Prism, zakładka Weka Output 2.1.1.3. Węzeł PART 4 Eksploracja danych: Modele predykcyjne (2) rys.6 Widok węzła Crosstab, po predykcji z użyciem węzła PART 2.2. Dobór wartości parametrów i przestrzeni atrybutów Jakie metody zastosowano? Dla których klasyfikatorów? Jaki otrzymano wynik (wartości parametrów/zredukowany zbiór atrybutów)? Czy przyniosło to poprawę oceny jakości klasyfikatora? 5 Eksploracja danych: Modele predykcyjne (2) 2.3. Klasyfikatory złożone Jakie metody zastosowano? Dla których klasyfikatorów? Czy przyniosło to poprawę oceny skuteczności predykcji? 2.3.1. Klasyfikator J48 rys.7 Obszar roboczy węzła Cross Validation rys.8 Widok węzła Statistics 6 Eksploracja danych: Modele predykcyjne (2) 2.3.2. Metoda Bagging rys.9 Obszar roboczy węzła Cross Validation rys.10 Widok węzła Statistics 7 Eksploracja danych: Modele predykcyjne (2) 2.3.3. Metoda Boosting rys.11 Obszar roboczy węzła Cross Validation rys.12 Widok węzła Statistics 8 Eksploracja danych: Modele predykcyjne (2) 2.3.4. Metoda Stacking rys.13 Obszar roboczy węzła Cross Validation rys.14 Widok węzła Statistics 2.4. Inne 3. Podsumowanie Jakie wnioski wypływają z przeprowadzonych analiz. 9