Techniki i algorytmy eksploracji danych Geneza (1)
Transkrypt
Techniki i algorytmy eksploracji danych Geneza (1)
Techniki i algorytmy eksploracji danych Tadeusz Morzy Instytut Informatyki Politechnika Poznańska Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 1 Geneza (1) • Dostępność danych • Rozwój nowoczesnych technologii przechowywania i przetwarzania danych (systemy baz danych, hurtownie danych, repozytoria danych) • Upowszechnienie systemów informatycznych we wszystkich praktycznie dziedzinach życia ( bankowość, ubezpieczenia, administracja, medycyna, nauka, sport, handel, produkcja, marketing itd. • Spadek cen sprzętu komputerowego Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE Geneza (2) • Jaka jest wartość nagromadzonych danych z punktu widzenia przedsiębiorstwa? • służą one do obsługi i wspomagania bieżącej działalności przedsiębiorstw • zawierają bardzo często istotną wiedzę o otaczającym nas świecie • nagromadzone mogą zawierać istotną wiedzę o prawidłowościach i regułach procesów biznesowych, zachowaniach klientów, o zależnościach występujących pomiędzy danymi generowanymi przez różne procesy • Dylemat przedsiębiorstw: w jaki sposób efektywnie i racjonalnie wykorzystać nagromadzoną w danych wiedzę dla celów wspomagania swojej działalności? Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 3 Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE Przyrost danych (1) • How much information’2003: podwojenie danych co dwa lata (prawo Moore’a) • „Extracting Value from Chaos” (Wydobywanie wartości z chaosu) (EMC Corporation) - wyniki badania IDC Digital Universe, według którego ilość informacji na świecie wzrasta przeszło dwukrotnie co dwa lata. • W 2011 r. utworzono i zreplikowano 1,8 zetabajtów — jest to wzrost szybszy, niżby to wynikało z prawa Moore’a. • Serwery światowe przetworzyły 9,57 zetabajtów (rok 2008) Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 4 Przyrost danych (2) • Tylko niewielka część danych jest analizowana, a efekty tej analizy wykorzystywane w praktyce!!! • Niezbędna jest analiza przechowywanych danych – inaczej przechowywanie takich wolumenów danych nie ma najmniejszego sensu • Technologią, która zajmuje się analizą i odkrywaniem zależności, reguł, wzorców w bazach i hurtowniach danych jest – eksploracja danych (ang. data mining) Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 5 Czym jest eksploracja danych (1) • Eksploracja danych: zbiór metod automatycznego odkrywania nietrywialnych, dotychczas nieznanych, potencjalnie użytecznych reguł, zależności, wzorców schematów, podobieństw lub trendów (ang. patterns) w dużych repozytoriach danych (bazach danych, hurtowniach danych, itp.) • Celem eksploracji danych jest analiza danych i procesów w celu lepszego ich rozumienia DANE DATA MINING WZORCE Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 6 Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE Czym jest eksploracja danych (2) • Alternatywne określenia technologii eksploracji danych: • odkrywanie wiedzy w bazach danych (KDD - SIGKDD), ekstrakcja wiedzy, inteligencja biznesowa, pozyskiwanie wiedzy • „Ciekawe” określenia: archeologia danych, kopanie w danych, eksploatacja złóż danych • Czym nie jest eksploracja danych: • systemy eksperckie • OLAP Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 7 Eksploracja danych: proces odkrywania wiedzy (1) • Odkrywanie wiedzy a eksploracja danych • Eksploracja danych stanowi jeden z etapów procesu odkrywania wiedzy • Etapy procesu odkrywania wiedzy (ang. KDD process): • Zapoznanie się z wiedzą dziedzinową aplikacji - aktualna wiedza i cele aplikacji • Integracja danych z różnych źródeł danych • Selekcja danych (ekstrakcja cech) • Czyszczenie danych: (około 60% czasu) Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 8 Eksploracja danych: proces odkrywania wiedzy (2) • Etapy procesu odkrywania wiedzy cd.: Konsolidacja i transformacja danych Wybór metody (metod) eksploracji danych Wybór algorytmu eksploracji danych Eksploracja danych Interpretacja, analiza i ocena wyników • wizualizacja, transformacja, usuwanie redundantnych wzorców, etc. • Wykorzystanie pozyskanej wiedzy • • • • • Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 9 Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE Typy zapytań do repozytoriów danych • Eksploracja danych = złożone zapytania • Zapytanie operacyjne do bazy danych: Ile butelek wina sprzedano w I kwartale 20013 roku w sklepie Auchan w Poznaniu? Jaki procent klientów zakupił wino I kwartale 20013 roku w sklepie Auchan w Poznaniu? • Zapytanie analityczne do hurtowni danych: Ile sprzedano butelek wina w sieci Auchan na terenie kraju z podziałem na województwa, gatunki win oraz kwartały, w ciągu ostatnich 5 lat? Jak rozkłada się sprzedaż poszczególnych marek wina w sieci Auchan na terenie kraju z podziałem na województwa, gatunki win oraz kwartały, w ciągu ostatnich 5 lat? Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 10 Zapytania eksploracyjne (1) • Przykłady zapytań eksploracyjnych: Jakie inne jeszcze produkty, najczęściej, kupują klienci, którzy kupują wino? Czym różnią się koszyki klientów kupujących wino i piwo? W jaki sposób można scharakteryzować klientów kupujących wino? W jaki sposób pogrupować klientów kupujących wino? Czy można dokonać predykcji, że dany klient kupi wino? Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 11 Zapytania eksploracyjne (2) • Przykłady zapytań eksploracyjnych (c.d.): • Jakie czynniki kształtują popyt na określone produkty? • Czym różnią się klienci supermarketu w Poznaniu i Warszawie? • Jakie oddziały supermarketu miały anormalną sprzedaż w pierwszym kwartale 2013 r.? • Czy można przewidzieć popyt klientów na określone produkty? • Czy istnieje korelacja pomiędzy lokalizacja oddziału supermarketu a asortymentem produktów, których sprzedaż jest wyższa od średniej sprzedaży produktów? Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 12 Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE Zapytania eksploracyjne (3) • Dany jest zbiór danych opisujących pacjentów szpitala. Czy potrafimy w oparciu o ten zbiór danych: • Poprawnie zdiagnozować pacjenta (określić chorobę)? • Przewidzieć poprawnie wynik terapii? • Zaproponować najlepszą terapię? Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 13 Eksploracja danych: mieszanka dyscyplin • • • • • • • Systemy baz danych, hurtownie danych, OLAP Statystyka, probabilistyka Uczenie maszynowe i odkrywanie wiedzy Techniki wizualizacji danych Teoria informacji Wyszukiwanie informacji Inne dyscypliny: Sieci neuronowe, modelowanie matematyczne, rozpoznawanie obrazów, technologie internetowe, systemy reputacyjne, etc. • Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 14 Eksploracja danych: co można eksplorować? • Bazy danych • • • • Obiektowe i obiektowo-relacyjne bazy danych Przestrzenne bazy danych Przebiegi czasowe i temporalne bazy danych Tekstowe i multimedialne bazy danych • Hurtownie danych • Repozytoria danych • Zaawansowane systemy informatyczne • WWW • etc. Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 15 Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE Metody eksploracji danych • • • • • • • • • • odkrywanie asocjacji klasyfikacja/regresja grupowanie odkrywanie sekwencji odkrywanie charakterystyk analiza przebiegów czasowych wykrywanie zmian i odchyleń eksploracja WWW eksploracja dokumentów tekstowych itd. Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 16 Metody eksploracji: odkrywanie asocjacji • odkrywanie asocjacji: znajdowanie związków pomiędzy występowaniem grup elementów w zbiorach danych • przykłady asocjacji: • klienci, którzy kupują pieluszki, kupują również piwo • klienci, którzy kupują chleb, masło i ser, kupują również wodę mineralną i ketchup • klienci (ubezpieczaln)i, którzy mają poniżej 25 lat często powodują wypadki drogowe • zastosowania odkrytych asocjacji: • planowanie kampanii promocyjnych • planowanie rozmieszczenia stoisk sprzedaży w supermarketach Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 17 Metody eksploracji: odkrywanie wzorców sekwencji • odkrywanie wzorców sekwencji: znajdowanie najczęściej występujących sekwencji zdarzeń lub elementów • przykłady wzorców sekwencji: • klienci, którzy kupili farbę emulsyjną, kupią w najbliższym czasie pędzel płaski • klienci, którzy realizowali dostęp do strony A, w kolejnym kroku przejdą na stronę C, a następnie, na stronę D • zastosowania odkrytych wzorców sekwencji: • • • • planowanie inwestycji giełdowych przewidywanie sprzedaży znajdowanie skutecznej terapii znajdowanie profili klientów serwisu web-owego Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 18 Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE Metody eksploracji: klasyfikacja • klasyfikacja: predykcja wartości określonego atrybutu w oparciu o pewien zbiór danych treningowych • przykład klasyfikacji: automatyczny podział kierowców na powodujących i nie powodujących wypadki drogowe: • kierowcy prowadzący czerwone pojazdy o pojemności 650 ccm powodują wypadki drogowe • kierowcy, którzy posiadają prawo jazdy ponad 7 lat lub jeżdżą niebieskimi samochodami nie powodują wypadków drogowych • zastosowania klasyfikacji: • diagnostyka medyczna • rozpoznawanie trendów na rynkach finansowych • przydział kredytów bankowych Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 19 Metody eksploracji: grupowanie • grupowanie: znajdowanie „naturalnego” pogrupowania (podziału) obiektów w oparciu o ich wartości • przykłady grupowania: • automatyczne grupowanie dokumentów tekstowych (np. maili) • grupowanie klientów serwisu • grupowanie konsumentów energii elektrycznej • zastosowania grupowania: • • • • systemy rekomendacyjne (grupowanie klientów) wyszukiwanie informacji w sieci web (np. grupowanie stron www) astronomia handel elektroniczny Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 20 Metody eksploracji: odkrywanie charakterystyk • odkrywanie charakterystyk: znajdowanie zwięzłych opisów (charakterystyk) podanego zbioru danych • przykład odkrywania charakterystyk: • opis pacjentów chorujących na anginę: pacjenci chorujący na anginę cechują się temperaturą ciała większą niż 37.5 C, bólem gardła, osłabieniem organizmu • automatyczne tworzenie streszczeń dokumentów • automatyczne tworzenie charakterystyk produktów na podstawie informacji z blogów i forów internetowych • zastosowania odkrywania charakterystyk: • znajdowanie zależności funkcyjnych pomiędzy zmiennymi • określanie profilu klienta - zbioru cech charakterystycznych Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 21 Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE Metody eksploracji: odkrywanie punktów osobliwych • odkrywanie punktów osobliwych: znajdowanie obiektów (zdarzeń) odbiegających znacząco od modelu pozostałych obiektów (zdarzeń) analizowanego zbioru danych • przykład odkrywania punktów osobliwych: • znajdowanie klientów, których konsumpcja energii odbiega znacząco od innych klientów o podobnej charakterystyce • znajdowanie pacjentów, których wyniki odbiegają znacząco od wyników analiz innych pacjentów chorujących na ta samą chorobę • zastosowania odkrywania punktów osobliwych: • wykrywanie oszustw podatkowych, kradzieży prądu, itp.. • astronomia, fizyka – odkrywanie obiektów o nieznanej dotychczas charakterystyce Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 22 Metody eksploracji: eksploracja sieci www • eksploracja sieci www: metody analizy korzystania z sieci web w celu : • znajdowania typowych wzorców zachowań użytkowników sieci • znajdowania powiazań stron w sieci web w celu określenia ważności i koncentratywności stron (w celu poprawy efektywności procesu wyszukiwania stron) • grupowania i klasyfikacji stron WWW na podstawie ich zawartości i schematu zewnętrznego • znajdowania ukrytych „stron lustrzanych” i wewnętrznych „środowisk” (ang. communities) oraz analiza ich ewolucji w czasie • analizy reklam internetowych (ich efektywności, rozliczania i propagacji). Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 23 Metody eksploracji: eksploracja danych multimedialnych i przestrzennych • metody analizy i eksploracji baz danych przechowujących obrazy, mapy, dźwięki, wideo itp. • celem jest wspomaganie procesów wyszukiwania danych (wyszukiwanie na podstawie zawartości, wideo na żądanie itd.) • metody służące do grupowania i klasyfikacji danych multimedialnych są najczęściej silnie powiązane z mechanizmami systemu zarządzania bazą danych (indeksowanie i buforowanie danych) Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 24 Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE Metody eksploracji: eksploracja struktur grafowych • struktury grafowe są szeroko stosowane do modelowania złożonych obiektów, takich jak: obwody elektroniczne, związki chemiczne, struktury białkowe, sieci biologiczne, sieci społecznościowe, procedury obiegu dokumentów, dokumenty XML • metody analizy struktur grafowych: grupowanie i klasyfikacja struktur grafowych, odkrywanie częstych podstruktur (podgrafów) w bazie danych struktur grafowych, klasyfikacja struktur grafowych umożliwiająca znajdowanie zależności pomiędzy pewną charakterystyką struktury grafowej a jej budową (np. analiza i klasyfikacja sekwencji DNA) Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 25 Metody eksploracji: eksploracja sieci społecznościowych • algorytmy analizy sieci społecznościowe wspomagające: • procesy wykrywania oszustów uczestniczących w aukcjach internetowych, • wykrywanie przestępstw w kryminalistyce, • analizę dużych sieci elektrycznych i telekomunikacyjnych itp. • powiazania pomiędzy uczestnikami gier i aukcji internetowych • wykrywanie środowisk w sieciach społecznościowych • rozpowszechnianie się epidemii, itp. Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 26 Problemy odkrywania wiedzy (1) • Dane zawarte w bazach i hurtowniach danych nie zawsze są reprezentatywne i nie opisują wszystkich możliwych kombinacji wartości danych – klasyczny konflikt empiryzm vs racjonalizm • W dużych bazach danych mogą zostać odkryte tysiące reguł • Różni użytkownicy systemu eksploracji danych są zainteresowani różnymi typami reguł • Odkrywanie wiedzy jest procesem bardzo złożonym obliczeniowo Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 27 Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE Problemy odkrywania wiedzy (2) • Istotny problem etyczny: jak zagwarantować poufność i ochronę danych osobistych w przypadku eksploracji danych? (rozwój metod eksploracji danych zapewniających ochronę prywatności – ang. privacy-preserving data mining) • Rozwiązanie: • odkrywanie tylko części wszystkich możliwych reguł - wskazanej przez użytkownika przy pomocy kryteriów • tylko użytkownik potrafi ocenić poprawnie wartość odkrytej wiedzy • anonimizacja i randomizacja analizowanych danych Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 28 Dziedziny zastosowań (1) • Handel i marketing • identyfikacja „profilu klienta” dla przewidywania, którzy klienci odpowiedzą na marketing korespondencyjny, • wykrywanie schematów zakupów i planowanie lokalizacji artykułów • Finanse i bankowość • identyfikacja schematów wykorzystywania kradzionych kart kredytowych • przewidywanie dochodowości portfela akcji, znajdowanie korelacji wśród wskaźników finansowych • Nauka i technologia • odkrywanie nowych obiektów (astronomia, fizyka) • wykrywanie schematów alarmowych w sieciach telekomunikacyjnych Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 29 Dziedziny zastosowań (2) • Nauka • astronomia, bioinformatyka, przemysł farmaceutyczny, … • Biznes • reklama, CRM (Customer Relationship management), inwestycje, finanse, ubezpieczenia, telekomunikacja, medycyna, … • Web: • Przeglądarki (Google), handel elektroniczny – Amazon, eBay, Allegro • Administracja • wykrywanie przestępstw, wykrywanie nadużyć podatkowych, etc. Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 30 Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE Podsumowanie • Systemy baz danych – narzędzie do przechowywania danych • Hurtownie danych – narzędzie wspomagania podejmowania decyzji • Eksploracja danych – narzędzie do analizy zgromadzonych danych Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE str. 31 Człowiek – najlepsza inwestycja Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju” współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE