Sprawozdanie z zadania „Modele predykcyjne (2)”

Transkrypt

Sprawozdanie z zadania „Modele predykcyjne (2)”
Eksploracja danych: Modele predykcyjne (2)
Maciej Karpus,
131529
Tomasz Skarżyński, 131618
19.04.2013r.
Sprawozdanie z zadania „Modele predykcyjne (2)”
1. Wprowadzenie
1.1. Informacje wstępne
Dane dotyczą wyników badań mammograficznych wykonanych na liczbie ponad stu tysięcy pacjentów.
Zawierają informacje o identyfikatorach pacjentów, zdjęć, o rodzaju prześwietlenia oraz o jego rezultacie.
Dane pobrano ze strony KDD: http://www.sigkdd.org/kdd-cup-2008-breast-cancer. Jednym z celów
przeprowadzanych analiz jest uzyskanie najwyższej skuteczności w przewidywaniu wyniku próbki na
podstawie położenia grudki, sutka, badanej piersi i typu przeprowadzonego badania.
1.2. Przetwarzane dane
Każdy wiersz zawiera dane dotyczące jednego badania. W skład każdego wiersza wchodzi:





Wynik próbki (1 - pozytywny, -1 - negatywny)
Informacja o tym, która pierś była prześwietlana (1 - lewa, 0 - prawa)
Informacja o rodzaju prześwietlenia ([MLO] 1 - MLO, 0 - inne)
Współrzędne X i Y Grudki i Sutka.
oraz pomijalne przy przetwarzaniu identyfikatory zdjęć oraz pacjentów.
Przed analizą próbek został ograniczony zbiór. W efekcie nowy podzbiór składał się z 1273 wierszy o
zrównoważonym rozkładzie wyników próbek pozytywnych i negatywnych. Dane nominalne zostały
zdyskretyzowane zgodnie z ich specyfikacją.
1.3. Wyniki przygotowania klasyfikatorów
W poprzednim zadaniu wykorzystaliśmy klasyfikatory drzewa decyzyjnego z i bez obcinania oraz naiwny
klasyfikator Bayesa. Każdy z nich miał przypisany wynik próbki jako atrybut celu.
Skuteczność predykcji była różna w zależności od zastosowanego modelu. Najlepszym modelem okazał
się model drzewa bez obcinania. Średni błąd tego modelu wynosił 23%. Nieco gorzej wypadło drzewo z
zastosowaniem obcinania.
Średni błąd drzewa z obcinaniem wynosił w przybliżeniu tyle ile maksymalny błąd drzewa bez obcinania,
czyli 33%. Drzewo bez obcinania odniosło lepszy wynik przypuszczalnie z uwagi na małą liczbę kolumn
oraz zbliżoną liczność wyniku próbek pozytywnych i negatywnych. W związku z czym bo obcięciu
odrzucane były jak pokazują wyniki sensowne gałęzie decyzyjne.
Najgorszą skuteczność miał zdecydowanie naiwny klasyfikator Bayesa. Średni błąd wynosił aż 41%, a
zakres błędu wynosił od 29.4% do 53%. Maksymalny błąd tej metody określilśmy jako niezadowalający.
1
Eksploracja danych: Modele predykcyjne (2)
2. Modele predykcyjne
2.1. Utworzenie modeli w narzędziu WEKA
Użyte metody, rezultaty (Jakich metod użyto do otrzymania modeli? Jakie były parametry algorytmu? Jak
wygląda otrzymany model? Czy otrzymane modele różnią się od otrzymanych w poprzednim zadaniu?
Jaka jest ich skuteczność predykcji?)
2.1.1. Drzewa decyzyjne w narzędziu WEKA
W każdym modelu kolumną docelową będzie PROBKA.
2.1.1.1. J48 z odpowiednio dobranymi wartościami parametrów confidenceError i
reducedErrorPruning
a) confidenceError = 0.25, reducedErrorPruning = false
rys.1 Widok węzła Weka J48, zakładka Summary
b) confidenceError = 0.15, reducedErrorPruning = false
rys.2 Widok węzła Weka J48, zakładka Summary
c) confidenceError = 0.15, reducedErrorPruning = true
rys.3 Widok węzła Weka J48, zakładka Summary
2
Eksploracja danych: Modele predykcyjne (2)
rys.4 Widok węzła Weka J48, zakładka Weka Output
3
Eksploracja danych: Modele predykcyjne (2)
2.1.2. Budowa reguł decyzyjnych
2.1.1.2. Węzeł Prism
rys.5 Widok węzła Weka Prism, zakładka Weka Output
2.1.1.3. Węzeł PART
4
Eksploracja danych: Modele predykcyjne (2)
rys.6 Widok węzła Crosstab, po predykcji z użyciem węzła PART
2.2. Dobór wartości parametrów i przestrzeni atrybutów
Jakie metody zastosowano? Dla których klasyfikatorów? Jaki otrzymano wynik (wartości
parametrów/zredukowany zbiór atrybutów)? Czy przyniosło to poprawę oceny jakości klasyfikatora?
5
Eksploracja danych: Modele predykcyjne (2)
2.3. Klasyfikatory złożone
Jakie metody zastosowano? Dla których klasyfikatorów? Czy przyniosło to poprawę oceny skuteczności
predykcji?
2.3.1. Klasyfikator J48
rys.7 Obszar roboczy węzła Cross Validation
rys.8 Widok węzła Statistics
6
Eksploracja danych: Modele predykcyjne (2)
2.3.2. Metoda Bagging
rys.9 Obszar roboczy węzła Cross Validation
rys.10 Widok węzła Statistics
7
Eksploracja danych: Modele predykcyjne (2)
2.3.3. Metoda Boosting
rys.11 Obszar roboczy węzła Cross Validation
rys.12 Widok węzła Statistics
8
Eksploracja danych: Modele predykcyjne (2)
2.3.4. Metoda Stacking
rys.13 Obszar roboczy węzła Cross Validation
rys.14 Widok węzła Statistics
2.4. Inne
3. Podsumowanie
Jakie wnioski wypływają z przeprowadzonych analiz.
9

Podobne dokumenty