Data Mining – kopalnie wiedzy – [Janusz z Będzina]

Transkrypt

Data Mining – kopalnie wiedzy – [Janusz z Będzina]
Data Mining – Kopalnie Wiedzy
Janusz z Będzina
Instytut Informatyki i Nauki o Materiałach
Sosnowiec, 30 listopada 2006
Kopalnie złota
I XIX Wiek.
Odkrycie pokładów złota spowodowało napływ poszukiwaczy.
Przeczesywali teren w poszukiwaniach złotego kruszcu,
przecedzali ziemię sitami, a czasem . . .
I
znajdowali piękny samorodek (nugget).
I
Podobnie jest z odkrywaniem wiedzy. Te same nazwy . . .
Kopalnie złota
I XIX Wiek.
Odkrycie pokładów złota spowodowało napływ poszukiwaczy.
Przeczesywali teren w poszukiwaniach złotego kruszcu,
przecedzali ziemię sitami, a czasem . . .
I
znajdowali piękny samorodek (nugget).
I
Podobnie jest z odkrywaniem wiedzy. Te same nazwy . . .
Kopalnie złota
I XIX Wiek.
Odkrycie pokładów złota spowodowało napływ poszukiwaczy.
Przeczesywali teren w poszukiwaniach złotego kruszcu,
przecedzali ziemię sitami, a czasem . . .
I
znajdowali piękny samorodek (nugget).
I
Podobnie jest z odkrywaniem wiedzy. Te same nazwy . . .
Pogoda do gry w golfa (za: P. Cichosz Systemy uczące się)
I
1
2
3
4
5
6
7
8
9
10
11
12
13
14
aura
słoneczna
słoneczna
pochmurna
deszczowa
deszczowa
deszczowa
pochmurna
słoneczna
słoneczna
deszczowa
słoneczna
pochmurna
pochmurna
deszczowa
Dane przykładowe:
temperatura wilgotność
ciepła
duża
ciepła
duża
ciepła
duża
umiarkowana
duża
zimna
normalna
zimna
normalna
zimna
normalna
umiarkowana
duża
zimna
normalna
umiarkowana normalna
umiarkowana normalna
umiarkowana
duża
ciepła
normalna
umiarkowana
duża
wiatr
słaby
silny
słaby
słaby
słaby
silny
silny
słaby
słaby
słaby
silny
silny
słaby
silny
wynik
0
0
1
1
1
0
1
0
1
1
1
1
1
0
Indukcyjne drzewa decyzyjne - miara
I
Znajdziemy drzewo decyzyjne biorąc za miarę entropię E.
Potrzebne dane:
liczność pozytywnych przykładów wartości deskryptora a,
liczność wszystkich przykładów danej wartości deskryptora b.
a
a
E = − · lg
b
b
Gdy a lub b jest zerem, przyjmujemy E = 0.
I
Entropia cechy to kombinacja liniowa entropii poszczególnych
deskryptorów tej cechy.
I
9
9
Przykład: informacja (5 „0”, 9 „1”): I = − 14
lg 14
−
5
14
5
lg 14
.
Indukcyjne drzewa decyzyjne - dane
I
Aura Eaura =
I
I
I
5
14 Esloneczna
+
4
14 Epochmurna
+
słoneczna Esloneczna = − 25 lg 25 − 35 lg 35
pochmurna Epochmurna = − 44 lg 44 − 00 lg 00
deszczowa Edeszczowa = − 35 lg 35 − 25 lg 25
5
14 Edeszczowa
Razem przyrost informacji:
I − Eaura = · · · = 0.283 − 0.209 = 0.074
I
Po zebraniu wszystkich przyrostów wybieramy największy
do utworzenia gałęzi drzewa.
I
Dalej rekurencyjnie, ograniczając się do danych tego węzła . . .
Algorytm (przystosowany) Quine’a Mc Cluske’a
I
Zasady ogólne:
Przykłady pozytywne zwiększają wagi schematów, w których
występują;
Przykłady negatywne rozbijają schematy na podzbiory liczące
mniej elementów z taką samą wagą, niszczą te, które nie
spełniają warunków.
Wynikiem jest tablica schematów deskryptorów.
I
Zaczynamy od schematów uniwersalnych poszczególnych
atrybutów [*,. . . ,*,atrybut,*,. . . ,*] z wagą 1.
Porównanie powyższych algorytmów
I
Drzewa indukcyjne
Quine McCluske
aura słoneczna, wilgotność normalna
aura pochmurna
aura deszczowa, wiatr słaby
aura pochmurna — deszczowa, wiatr słaby
temperatura zimna, wiatr słaby
wilgotność normalna, wiatr słaby
Definicja i zastosowanie Data Mining
I
I
Czym jest Data Mining - kopalnia wiedzy
Data Mining jest nietrywialną techniką umożliwiającą
zobaczenie takich zależności w bazie danych, jakie nie były
wprowadzone.
Formalnie: ósemka uporządkowana (P, D, K, B, T, M, I, U),
objaśnienia na następnym slajdzie.
Działy korzystające z Data Mining:
1. biznes;
2. nauka;
3. internet.
Podstawy Data Mining
P - specyfikacja problemu,
D - zbiór danych relewantnych,
K - rodzaj wydobywanej wiedzy,
B - wiedza wrodzona bazy danych, czyste nowe systemy bazują
tylko na niej,
T - specyficzne techniki i algorytmy dla problemu,
M - model lub wiedza o wzorcach, oznacza wizualizację
lub prezentację wydobytej wiedzy,
I - interesujące miary, których użycie powoduje odkrycie wiedzy,
U - użytkownik.
Podstawy Data Mining - diagram
Główne kategorie Data Mining
I
Obiekty:
I
I
odkrycia lub opisy,
przewidywania;
I
Modelowanie przyszłości;
I
Odkrywanie wiedzy w bazach danych (Knowledge Discowery
in Databases KDD);
I
Wykrywanie niecodziennych przypadków.
Data Mining nie jest:
I
I
I
I
monitorowaniem systemów,
odkrywaniem już odkrytego, np. tablicy Mendelejewa,
szukaniem np. optymalnego przejazdu przez dany kraj
z rozkładu jazdy.
Przebieg Data Mining
I
Użytkownicy korzystają z Data Mining na następujące
sposoby:
I
I
I
I
epizodycznie, analitycy szykujący kampanię reklamową;
strategicznie, wybór miar, by uzyskać np. lepsze rezultaty
handlowe;
ciągle, co się zmieniło w danym okresie czasu.
Uzyskane dane są poddane destylacji wzorców, stając się:
przewidywaniem, odkryciem lub czymś jeszcze innym.
Zadania odkrywania wiedzy
I
Reguły i drzewa decyzyjne,
I
Charakteryzacja danych, próba ich opisu,
I
Klasyfikacja danych,
I
Regresja, będąca tutaj uzyskaniem wartości ciągłej zamiast
dyskretnej,
I
Związki (association), nazywane także „Market Basket
Analysis” (MBA) lub „Affinity Analysis”,
I
Klasteryzacja, czyli grupowanie danych w klastery - zbiory.
I
Można też wyodrębnić następujące zadania:
model zależności, detekcja zmian, analiza trendów, detekcja
zboczeń (deviation), analiza linków, analiza wzorców, dane
tymczasowe, wzorzec ścieżki (używane w Web Mining),
wzorce sekwencyjne.
Związek Data Mining z danymi i bazami wiedzy
I
Budując piramidę systemów, decyzja opiera się
na następujących podstawach:
I
Decyzja
Data Mining oraz OnLine Analytical Processing (OLAP),
Składnica danych (Data warehousing),
Baza danych (DataBase Managementr System DBMS),
Urządzenia, systemy operacyjne, sieci komputerowe.
Proces Data Mining
I
Definicja problemu,
I
Zebranie danych, wybór odpowiednich danych,
I
Przygotowanie danych, ich oczyszczenie (cleansing) dla lepszej
obróbki,
I
Przetwarzanie wstępne,
I
Wybór metody, tzn. modelu oraz algorytmu,
I
To samo, ale dla parametrów,
I
Testowanie, przetwarzanie danych wybranymi algorytmami,
I
Przedstawienie wyników.
Zastosowanie Data Mining
I
Medycyna - diagnostyka i prognozowanie,
I
Teoria kontroli - model identyfikacyjny,
I
Inżynieria - diagnostyka mechanizmów i procesów,
I
Administracja publiczna,
I
Handel i finanse,
I
Teksty w internecie i różnorodna wiedza,
I
Naukowe bazy danych,
I
Detekcja oszustów.
Web Minig
I
I
Zastosowanie Data Mining w internecie można nazwać Web
Mining.
Oprócz standardowych technik:
I
I
I
I
poszukiwanie informacji w danych,
badanie struktur sieci,
regularności w danych generowanych np. przez agentów;
szczególną rolę odgrywają:
I
I
I
odpowiedzi na pytania,
handel w sieci,
personalizacja, wyszukiwanie stron relewantnych z wyuczonymi
potrzebami użytkownika;
Zasada Web Mining
I
Jeśli chcesz wędką złowić rybę, włóż na haczyk to co lubi
ryba, nie zaś to co TY lubisz! Z siecią jest podobnie!
Nie jest ważne czy twój WEB podoba się Tobie i ekspertom
z branży! Ważne jest to, czy chętnie odwiedzają go internauci!
www.WebMining.pl
Techniki odkryć stosowane w Web Mining
I
Analiza ścieżki poszukiwań,
I
Odkrycie związków między regułami,
I
Wzorce sekwencyjne,
I
Klasteryzacja i klasyfikacja.
Podstawy działania Web Mining
I
Techniki analizy danych,
I
Praca na dużych zbiorach,
I
Przyjazne środowisko,
I
Odpowiednie narzędzia.
Techniki analizy Web Mining
I
Korelacja - towary chętnie kupowane razem,
I
Test T - prawdopodobieństwo popełnienia błędu na próbce,
gdy widać różnicę wielkości sprzedaży dwu grup,
I
ANOVA - analiza wariancji na próbce, czy średnia sprzedaż
jest trendem czy tylko zbiegiem okoliczności,
I
Regresja liniowa - przewidywanie cechy w zależności liniowej
od innych,
I
Regresja logistyczna - prawdopodobieństwo wystąpienia
zdarzenia,
I
Analiza dyskryminacyjna - atrybuty istotne w klasyfikacji,
I
Techniki prognozowania - przypuszczalna ilość odwiedzin
w czasie (bez udziału wróżki),
I
Analiza skupień - grupowanie podobnych obserwacji lub cech,
Techniki analizy Web Mining cd.
I
Analiza czynnikowa - redukcja opisu przez eliminowanie
czynników zależnych od innych lub niemierzalnych,
I
Drzewa decyzyjne - bardzo częste rozpisanie modeli
na warunki,
I
Wizualizacja danych - dobór modelu jest sztuką,
I
Sieci neuronowe - narzędzia modelowania i segmentacji,
I
Reguły asocjacyjne - eksploracja i modelowanie,
I
Indukcja reguł - poszukiwanie najczęstszych zależności,
I
Analiza sekwencji - poszukiwanie sekwencji przejścia
do następnej strony.
Źródła
I
www.webmining.com - strona twórców SPSS Clementine
I
Zhengxin Chen: Data Mining and Uncertain Reasoning.
An integrated Approach.