Data Mining – kopalnie wiedzy – [Janusz z Będzina]
Transkrypt
Data Mining – kopalnie wiedzy – [Janusz z Będzina]
Data Mining – Kopalnie Wiedzy Janusz z Będzina Instytut Informatyki i Nauki o Materiałach Sosnowiec, 30 listopada 2006 Kopalnie złota I XIX Wiek. Odkrycie pokładów złota spowodowało napływ poszukiwaczy. Przeczesywali teren w poszukiwaniach złotego kruszcu, przecedzali ziemię sitami, a czasem . . . I znajdowali piękny samorodek (nugget). I Podobnie jest z odkrywaniem wiedzy. Te same nazwy . . . Kopalnie złota I XIX Wiek. Odkrycie pokładów złota spowodowało napływ poszukiwaczy. Przeczesywali teren w poszukiwaniach złotego kruszcu, przecedzali ziemię sitami, a czasem . . . I znajdowali piękny samorodek (nugget). I Podobnie jest z odkrywaniem wiedzy. Te same nazwy . . . Kopalnie złota I XIX Wiek. Odkrycie pokładów złota spowodowało napływ poszukiwaczy. Przeczesywali teren w poszukiwaniach złotego kruszcu, przecedzali ziemię sitami, a czasem . . . I znajdowali piękny samorodek (nugget). I Podobnie jest z odkrywaniem wiedzy. Te same nazwy . . . Pogoda do gry w golfa (za: P. Cichosz Systemy uczące się) I 1 2 3 4 5 6 7 8 9 10 11 12 13 14 aura słoneczna słoneczna pochmurna deszczowa deszczowa deszczowa pochmurna słoneczna słoneczna deszczowa słoneczna pochmurna pochmurna deszczowa Dane przykładowe: temperatura wilgotność ciepła duża ciepła duża ciepła duża umiarkowana duża zimna normalna zimna normalna zimna normalna umiarkowana duża zimna normalna umiarkowana normalna umiarkowana normalna umiarkowana duża ciepła normalna umiarkowana duża wiatr słaby silny słaby słaby słaby silny silny słaby słaby słaby silny silny słaby silny wynik 0 0 1 1 1 0 1 0 1 1 1 1 1 0 Indukcyjne drzewa decyzyjne - miara I Znajdziemy drzewo decyzyjne biorąc za miarę entropię E. Potrzebne dane: liczność pozytywnych przykładów wartości deskryptora a, liczność wszystkich przykładów danej wartości deskryptora b. a a E = − · lg b b Gdy a lub b jest zerem, przyjmujemy E = 0. I Entropia cechy to kombinacja liniowa entropii poszczególnych deskryptorów tej cechy. I 9 9 Przykład: informacja (5 „0”, 9 „1”): I = − 14 lg 14 − 5 14 5 lg 14 . Indukcyjne drzewa decyzyjne - dane I Aura Eaura = I I I 5 14 Esloneczna + 4 14 Epochmurna + słoneczna Esloneczna = − 25 lg 25 − 35 lg 35 pochmurna Epochmurna = − 44 lg 44 − 00 lg 00 deszczowa Edeszczowa = − 35 lg 35 − 25 lg 25 5 14 Edeszczowa Razem przyrost informacji: I − Eaura = · · · = 0.283 − 0.209 = 0.074 I Po zebraniu wszystkich przyrostów wybieramy największy do utworzenia gałęzi drzewa. I Dalej rekurencyjnie, ograniczając się do danych tego węzła . . . Algorytm (przystosowany) Quine’a Mc Cluske’a I Zasady ogólne: Przykłady pozytywne zwiększają wagi schematów, w których występują; Przykłady negatywne rozbijają schematy na podzbiory liczące mniej elementów z taką samą wagą, niszczą te, które nie spełniają warunków. Wynikiem jest tablica schematów deskryptorów. I Zaczynamy od schematów uniwersalnych poszczególnych atrybutów [*,. . . ,*,atrybut,*,. . . ,*] z wagą 1. Porównanie powyższych algorytmów I Drzewa indukcyjne Quine McCluske aura słoneczna, wilgotność normalna aura pochmurna aura deszczowa, wiatr słaby aura pochmurna — deszczowa, wiatr słaby temperatura zimna, wiatr słaby wilgotność normalna, wiatr słaby Definicja i zastosowanie Data Mining I I Czym jest Data Mining - kopalnia wiedzy Data Mining jest nietrywialną techniką umożliwiającą zobaczenie takich zależności w bazie danych, jakie nie były wprowadzone. Formalnie: ósemka uporządkowana (P, D, K, B, T, M, I, U), objaśnienia na następnym slajdzie. Działy korzystające z Data Mining: 1. biznes; 2. nauka; 3. internet. Podstawy Data Mining P - specyfikacja problemu, D - zbiór danych relewantnych, K - rodzaj wydobywanej wiedzy, B - wiedza wrodzona bazy danych, czyste nowe systemy bazują tylko na niej, T - specyficzne techniki i algorytmy dla problemu, M - model lub wiedza o wzorcach, oznacza wizualizację lub prezentację wydobytej wiedzy, I - interesujące miary, których użycie powoduje odkrycie wiedzy, U - użytkownik. Podstawy Data Mining - diagram Główne kategorie Data Mining I Obiekty: I I odkrycia lub opisy, przewidywania; I Modelowanie przyszłości; I Odkrywanie wiedzy w bazach danych (Knowledge Discowery in Databases KDD); I Wykrywanie niecodziennych przypadków. Data Mining nie jest: I I I I monitorowaniem systemów, odkrywaniem już odkrytego, np. tablicy Mendelejewa, szukaniem np. optymalnego przejazdu przez dany kraj z rozkładu jazdy. Przebieg Data Mining I Użytkownicy korzystają z Data Mining na następujące sposoby: I I I I epizodycznie, analitycy szykujący kampanię reklamową; strategicznie, wybór miar, by uzyskać np. lepsze rezultaty handlowe; ciągle, co się zmieniło w danym okresie czasu. Uzyskane dane są poddane destylacji wzorców, stając się: przewidywaniem, odkryciem lub czymś jeszcze innym. Zadania odkrywania wiedzy I Reguły i drzewa decyzyjne, I Charakteryzacja danych, próba ich opisu, I Klasyfikacja danych, I Regresja, będąca tutaj uzyskaniem wartości ciągłej zamiast dyskretnej, I Związki (association), nazywane także „Market Basket Analysis” (MBA) lub „Affinity Analysis”, I Klasteryzacja, czyli grupowanie danych w klastery - zbiory. I Można też wyodrębnić następujące zadania: model zależności, detekcja zmian, analiza trendów, detekcja zboczeń (deviation), analiza linków, analiza wzorców, dane tymczasowe, wzorzec ścieżki (używane w Web Mining), wzorce sekwencyjne. Związek Data Mining z danymi i bazami wiedzy I Budując piramidę systemów, decyzja opiera się na następujących podstawach: I Decyzja Data Mining oraz OnLine Analytical Processing (OLAP), Składnica danych (Data warehousing), Baza danych (DataBase Managementr System DBMS), Urządzenia, systemy operacyjne, sieci komputerowe. Proces Data Mining I Definicja problemu, I Zebranie danych, wybór odpowiednich danych, I Przygotowanie danych, ich oczyszczenie (cleansing) dla lepszej obróbki, I Przetwarzanie wstępne, I Wybór metody, tzn. modelu oraz algorytmu, I To samo, ale dla parametrów, I Testowanie, przetwarzanie danych wybranymi algorytmami, I Przedstawienie wyników. Zastosowanie Data Mining I Medycyna - diagnostyka i prognozowanie, I Teoria kontroli - model identyfikacyjny, I Inżynieria - diagnostyka mechanizmów i procesów, I Administracja publiczna, I Handel i finanse, I Teksty w internecie i różnorodna wiedza, I Naukowe bazy danych, I Detekcja oszustów. Web Minig I I Zastosowanie Data Mining w internecie można nazwać Web Mining. Oprócz standardowych technik: I I I I poszukiwanie informacji w danych, badanie struktur sieci, regularności w danych generowanych np. przez agentów; szczególną rolę odgrywają: I I I odpowiedzi na pytania, handel w sieci, personalizacja, wyszukiwanie stron relewantnych z wyuczonymi potrzebami użytkownika; Zasada Web Mining I Jeśli chcesz wędką złowić rybę, włóż na haczyk to co lubi ryba, nie zaś to co TY lubisz! Z siecią jest podobnie! Nie jest ważne czy twój WEB podoba się Tobie i ekspertom z branży! Ważne jest to, czy chętnie odwiedzają go internauci! www.WebMining.pl Techniki odkryć stosowane w Web Mining I Analiza ścieżki poszukiwań, I Odkrycie związków między regułami, I Wzorce sekwencyjne, I Klasteryzacja i klasyfikacja. Podstawy działania Web Mining I Techniki analizy danych, I Praca na dużych zbiorach, I Przyjazne środowisko, I Odpowiednie narzędzia. Techniki analizy Web Mining I Korelacja - towary chętnie kupowane razem, I Test T - prawdopodobieństwo popełnienia błędu na próbce, gdy widać różnicę wielkości sprzedaży dwu grup, I ANOVA - analiza wariancji na próbce, czy średnia sprzedaż jest trendem czy tylko zbiegiem okoliczności, I Regresja liniowa - przewidywanie cechy w zależności liniowej od innych, I Regresja logistyczna - prawdopodobieństwo wystąpienia zdarzenia, I Analiza dyskryminacyjna - atrybuty istotne w klasyfikacji, I Techniki prognozowania - przypuszczalna ilość odwiedzin w czasie (bez udziału wróżki), I Analiza skupień - grupowanie podobnych obserwacji lub cech, Techniki analizy Web Mining cd. I Analiza czynnikowa - redukcja opisu przez eliminowanie czynników zależnych od innych lub niemierzalnych, I Drzewa decyzyjne - bardzo częste rozpisanie modeli na warunki, I Wizualizacja danych - dobór modelu jest sztuką, I Sieci neuronowe - narzędzia modelowania i segmentacji, I Reguły asocjacyjne - eksploracja i modelowanie, I Indukcja reguł - poszukiwanie najczęstszych zależności, I Analiza sekwencji - poszukiwanie sekwencji przejścia do następnej strony. Źródła I www.webmining.com - strona twórców SPSS Clementine I Zhengxin Chen: Data Mining and Uncertain Reasoning. An integrated Approach.