Sprawozdanie z zadania „Modele predykcyjne (2)”

Transkrypt

Eksploracja danych: Modele predykcyjne (2)
Maciej Karpus,
131529
Tomasz Skarżyński, 131618
19.04.2013r.
Sprawozdanie z zadania „Modele predykcyjne (2)”
1. Wprowadzenie
1.1. Informacje wstępne
Dane dotyczą wyników badań mammograficznych wykonanych na liczbie ponad stu tysięcy pacjentów.
Zawierają informacje o identyfikatorach pacjentów, zdjęć, o rodzaju prześwietlenia oraz o jego rezultacie.
Dane pobrano ze strony KDD: http://www.sigkdd.org/kdd-cup-2008-breast-cancer. Jednym z celów
przeprowadzanych analiz jest uzyskanie najwyższej skuteczności w przewidywaniu wyniku próbki na
podstawie położenia grudki, sutka, badanej piersi i typu przeprowadzonego badania.
1.2. Przetwarzane dane
Każdy wiersz zawiera dane dotyczące jednego badania. W skład każdego wiersza wchodzi:





Wynik próbki (1 - pozytywny, -1 - negatywny)
Informacja o tym, która pierś była prześwietlana (1 - lewa, 0 - prawa)
Informacja o rodzaju prześwietlenia ([MLO] 1 - MLO, 0 - inne)
Współrzędne X i Y Grudki i Sutka.
oraz pomijalne przy przetwarzaniu identyfikatory zdjęć oraz pacjentów.
Przed analizą próbek został ograniczony zbiór. W efekcie nowy podzbiór składał się z 1273 wierszy o
zrównoważonym rozkładzie wyników próbek pozytywnych i negatywnych. Dane nominalne zostały
zdyskretyzowane zgodnie z ich specyfikacją.
1.3. Wyniki przygotowania klasyfikatorów
W poprzednim zadaniu wykorzystaliśmy klasyfikatory drzewa decyzyjnego z i bez obcinania oraz naiwny
klasyfikator Bayesa. Każdy z nich miał przypisany wynik próbki jako atrybut celu.
Skuteczność predykcji była różna w zależności od zastosowanego modelu. Najlepszym modelem okazał
się model drzewa bez obcinania. Średni błąd tego modelu wynosił 23%. Nieco gorzej wypadło drzewo z
zastosowaniem obcinania.
Średni błąd drzewa z obcinaniem wynosił w przybliżeniu tyle ile maksymalny błąd drzewa bez obcinania,
czyli 33%. Drzewo bez obcinania odniosło lepszy wynik przypuszczalnie z uwagi na małą liczbę kolumn
oraz zbliżoną liczność wyniku próbek pozytywnych i negatywnych. W związku z czym bo obcięciu
odrzucane były jak pokazują wyniki sensowne gałęzie decyzyjne.
Najgorszą skuteczność miał zdecydowanie naiwny klasyfikator Bayesa. Średni błąd wynosił aż 41%, a
zakres błędu wynosił od 29.4% do 53%. Maksymalny błąd tej metody określilśmy jako niezadowalający.
1
2. Modele predykcyjne
2.1. Utworzenie modeli w narzędziu WEKA
Użyte metody, rezultaty (Jakich metod użyto do otrzymania modeli? Jakie były parametry algorytmu? Jak
wygląda otrzymany model? Czy otrzymane modele różnią się od otrzymanych w poprzednim zadaniu?
Jaka jest ich skuteczność predykcji?)
2.1.1. Drzewa decyzyjne w narzędziu WEKA
W każdym modelu kolumną docelową będzie PROBKA.
2.1.1.1. J48 z odpowiednio dobranymi wartościami parametrów confidenceError i
reducedErrorPruning
a) confidenceError = 0.25, reducedErrorPruning = false
rys.1 Widok węzła Weka J48, zakładka Summary
b) confidenceError = 0.15, reducedErrorPruning = false
c) confidenceError = 0.15, reducedErrorPruning = true
2
rys.4 Widok węzła Weka J48, zakładka Weka Output
3
2.1.2. Budowa reguł decyzyjnych
2.1.1.2. Węzeł Prism
rys.5 Widok węzła Weka Prism, zakładka Weka Output
2.1.1.3. Węzeł PART
4
rys.6 Widok węzła Crosstab, po predykcji z użyciem węzła PART
2.2. Dobór wartości parametrów i przestrzeni atrybutów
Jakie metody zastosowano? Dla których klasyfikatorów? Jaki otrzymano wynik (wartości
parametrów/zredukowany zbiór atrybutów)? Czy przyniosło to poprawę oceny jakości klasyfikatora?
5
2.3. Klasyfikatory złożone
Jakie metody zastosowano? Dla których klasyfikatorów? Czy przyniosło to poprawę oceny skuteczności
predykcji?
2.3.1. Klasyfikator J48
rys.7 Obszar roboczy węzła Cross Validation
rys.8 Widok węzła Statistics
6
2.3.2. Metoda Bagging
7
2.3.3. Metoda Boosting
8
2.3.4. Metoda Stacking
2.4. Inne
3. Podsumowanie
Jakie wnioski wypływają z przeprowadzonych analiz.
9

Sprawozdanie z zadania „Modele predykcyjne (2)”

Transkrypt

Podobne dokumenty

Konspekt - konstrukcja stalowa

Ćwiczenie nr 1 Zajęcia nr 1 1. Zainstalować oprogramowanie weka

Rozwiązać podaną ramę (wykresy M Q N ) HB 30 3 20 20 C 20 3 x

Węzły - Formularz Wizji Lokalnej

most łukowy 24.cdr

lokalizator czujek

Obwieszczenie Regionalnego Dyrektora Ochrony Środowiska w

Uszczelnienie statyczne X-RING/QUAD-RING