Techniki i algorytmy eksploracji danych Geneza (1)

Transkrypt

Techniki i algorytmy eksploracji danych Geneza (1)
Techniki i algorytmy eksploracji danych
Tadeusz Morzy
Instytut Informatyki
Politechnika Poznańska
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 1
Geneza (1)
• Dostępność danych
• Rozwój nowoczesnych technologii przechowywania i
przetwarzania danych (systemy baz danych, hurtownie danych,
repozytoria danych)
• Upowszechnienie systemów informatycznych we wszystkich
praktycznie dziedzinach życia ( bankowość, ubezpieczenia,
administracja, medycyna, nauka, sport, handel, produkcja,
marketing itd.
• Spadek cen sprzętu komputerowego
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
Geneza (2)
• Jaka jest wartość nagromadzonych danych z punktu
widzenia przedsiębiorstwa?
• służą one do obsługi i wspomagania bieżącej działalności
przedsiębiorstw
• zawierają bardzo często istotną wiedzę o otaczającym nas świecie
• nagromadzone mogą zawierać istotną wiedzę o prawidłowościach i
regułach procesów biznesowych, zachowaniach klientów, o
zależnościach występujących pomiędzy danymi generowanymi przez
różne procesy
• Dylemat przedsiębiorstw: w jaki sposób efektywnie i
racjonalnie wykorzystać nagromadzoną w danych wiedzę dla
celów wspomagania swojej działalności?
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 3
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
Przyrost danych (1)
• How much information’2003: podwojenie danych co dwa lata
(prawo Moore’a)
• „Extracting Value from Chaos” (Wydobywanie wartości z
chaosu) (EMC Corporation) - wyniki badania IDC Digital
Universe, według którego ilość informacji na świecie wzrasta
przeszło dwukrotnie co dwa lata.
• W 2011 r. utworzono i zreplikowano 1,8 zetabajtów — jest to
wzrost szybszy, niżby to wynikało z prawa Moore’a.
• Serwery światowe przetworzyły 9,57 zetabajtów (rok 2008)
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 4
Przyrost danych (2)
• Tylko niewielka część danych jest analizowana, a efekty tej
analizy wykorzystywane w praktyce!!!
• Niezbędna jest analiza przechowywanych danych – inaczej
przechowywanie takich wolumenów danych nie ma
najmniejszego sensu
• Technologią, która zajmuje się analizą i odkrywaniem
zależności, reguł, wzorców w bazach i hurtowniach danych
jest – eksploracja danych (ang. data mining)
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 5
Czym jest eksploracja danych (1)
• Eksploracja danych: zbiór metod automatycznego odkrywania
nietrywialnych, dotychczas nieznanych, potencjalnie
użytecznych reguł, zależności, wzorców schematów,
podobieństw lub trendów (ang. patterns) w dużych repozytoriach
danych (bazach danych, hurtowniach danych, itp.)
• Celem eksploracji danych jest analiza danych i procesów w celu
lepszego ich rozumienia
DANE
DATA
MINING
WZORCE
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 6
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
Czym jest eksploracja danych (2)
• Alternatywne określenia technologii eksploracji danych:
• odkrywanie wiedzy w bazach danych (KDD - SIGKDD),
ekstrakcja wiedzy, inteligencja biznesowa, pozyskiwanie
wiedzy
• „Ciekawe” określenia: archeologia danych, kopanie w danych,
eksploatacja złóż danych
• Czym nie jest eksploracja danych:
• systemy eksperckie
• OLAP
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 7
Eksploracja danych:
proces odkrywania wiedzy (1)
• Odkrywanie wiedzy a eksploracja danych
• Eksploracja danych stanowi jeden z etapów procesu
odkrywania wiedzy
• Etapy procesu odkrywania wiedzy (ang. KDD process):
• Zapoznanie się z wiedzą dziedzinową aplikacji - aktualna wiedza i cele
aplikacji
• Integracja danych z różnych źródeł danych
• Selekcja danych (ekstrakcja cech)
• Czyszczenie danych: (około 60% czasu)
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 8
Eksploracja danych:
proces odkrywania wiedzy (2)
• Etapy procesu odkrywania wiedzy cd.:
Konsolidacja i transformacja danych
Wybór metody (metod) eksploracji danych
Wybór algorytmu eksploracji danych
Eksploracja danych
Interpretacja, analiza i ocena wyników
• wizualizacja, transformacja, usuwanie redundantnych wzorców, etc.
• Wykorzystanie pozyskanej wiedzy
•
•
•
•
•
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 9
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
Typy zapytań do repozytoriów danych
• Eksploracja danych = złożone zapytania
• Zapytanie operacyjne do bazy danych:
Ile butelek wina sprzedano w I kwartale 20013 roku w sklepie Auchan w
Poznaniu?
Jaki procent klientów zakupił wino I kwartale 20013 roku w sklepie
Auchan w Poznaniu?
• Zapytanie analityczne do hurtowni danych:
Ile sprzedano butelek wina w sieci Auchan na terenie kraju z podziałem na
województwa, gatunki win oraz kwartały, w ciągu ostatnich 5 lat?
Jak rozkłada się sprzedaż poszczególnych marek wina w sieci Auchan na
terenie kraju z podziałem na województwa, gatunki win oraz kwartały, w
ciągu ostatnich 5 lat?
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 10
Zapytania eksploracyjne (1)
• Przykłady zapytań eksploracyjnych:
Jakie inne jeszcze produkty, najczęściej, kupują klienci, którzy kupują
wino?
Czym różnią się koszyki klientów kupujących wino i piwo?
W jaki sposób można scharakteryzować klientów kupujących wino?
W jaki sposób pogrupować klientów kupujących wino?
Czy można dokonać predykcji, że dany klient kupi wino?
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 11
Zapytania eksploracyjne (2)
• Przykłady zapytań eksploracyjnych (c.d.):
• Jakie czynniki kształtują popyt na określone produkty?
• Czym różnią się klienci supermarketu w Poznaniu i Warszawie?
• Jakie oddziały supermarketu miały anormalną sprzedaż w pierwszym
kwartale 2013 r.?
• Czy można przewidzieć popyt klientów na określone produkty?
• Czy istnieje korelacja pomiędzy lokalizacja oddziału supermarketu a
asortymentem produktów, których sprzedaż jest wyższa od średniej
sprzedaży produktów?
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 12
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
Zapytania eksploracyjne (3)
• Dany jest zbiór danych opisujących pacjentów szpitala. Czy
potrafimy w oparciu o ten zbiór danych:
• Poprawnie zdiagnozować pacjenta (określić chorobę)?
• Przewidzieć poprawnie wynik terapii?
• Zaproponować najlepszą terapię?
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 13
Eksploracja danych:
mieszanka dyscyplin
•
•
•
•
•
•
•
Systemy baz danych, hurtownie danych, OLAP
Statystyka, probabilistyka
Uczenie maszynowe i odkrywanie wiedzy
Techniki wizualizacji danych
Teoria informacji
Wyszukiwanie informacji
Inne dyscypliny:
Sieci neuronowe, modelowanie matematyczne, rozpoznawanie
obrazów, technologie internetowe, systemy reputacyjne, etc.
•
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 14
Eksploracja danych:
co można eksplorować?
• Bazy danych
•
•
•
•
Obiektowe i obiektowo-relacyjne bazy danych
Przestrzenne bazy danych
Przebiegi czasowe i temporalne bazy danych
Tekstowe i multimedialne bazy danych
• Hurtownie danych
• Repozytoria danych
• Zaawansowane systemy informatyczne
• WWW
• etc.
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 15
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
Metody eksploracji danych
•
•
•
•
•
•
•
•
•
•
odkrywanie asocjacji
klasyfikacja/regresja
grupowanie
odkrywanie sekwencji
odkrywanie charakterystyk
analiza przebiegów czasowych
wykrywanie zmian i odchyleń
eksploracja WWW
eksploracja dokumentów tekstowych
itd.
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 16
Metody eksploracji: odkrywanie asocjacji
• odkrywanie asocjacji: znajdowanie związków pomiędzy
występowaniem grup elementów w zbiorach danych
• przykłady asocjacji:
• klienci, którzy kupują pieluszki, kupują również piwo
• klienci, którzy kupują chleb, masło i ser, kupują również wodę
mineralną i ketchup
• klienci (ubezpieczaln)i, którzy mają poniżej 25 lat często powodują
wypadki drogowe
• zastosowania odkrytych asocjacji:
• planowanie kampanii promocyjnych
• planowanie rozmieszczenia stoisk sprzedaży w supermarketach
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 17
Metody eksploracji: odkrywanie wzorców
sekwencji
• odkrywanie wzorców sekwencji: znajdowanie najczęściej
występujących sekwencji zdarzeń lub elementów
• przykłady wzorców sekwencji:
• klienci, którzy kupili farbę emulsyjną, kupią w najbliższym czasie
pędzel płaski
• klienci, którzy realizowali dostęp do strony A, w kolejnym kroku
przejdą na stronę C, a następnie, na stronę D
• zastosowania odkrytych wzorców sekwencji:
•
•
•
•
planowanie inwestycji giełdowych
przewidywanie sprzedaży
znajdowanie skutecznej terapii
znajdowanie profili klientów serwisu web-owego
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 18
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
Metody eksploracji: klasyfikacja
• klasyfikacja: predykcja wartości określonego atrybutu w
oparciu o pewien zbiór danych treningowych
• przykład klasyfikacji: automatyczny podział kierowców na
powodujących i nie powodujących wypadki drogowe:
• kierowcy prowadzący czerwone pojazdy o pojemności 650 ccm
powodują wypadki drogowe
• kierowcy, którzy posiadają prawo jazdy ponad 7 lat lub jeżdżą
niebieskimi samochodami nie powodują wypadków drogowych
• zastosowania klasyfikacji:
• diagnostyka medyczna
• rozpoznawanie trendów na rynkach finansowych
• przydział kredytów bankowych
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 19
Metody eksploracji: grupowanie
• grupowanie: znajdowanie „naturalnego” pogrupowania
(podziału) obiektów w oparciu o ich wartości
• przykłady grupowania:
• automatyczne grupowanie dokumentów tekstowych (np. maili)
• grupowanie klientów serwisu
• grupowanie konsumentów energii elektrycznej
• zastosowania grupowania:
•
•
•
•
systemy rekomendacyjne (grupowanie klientów)
wyszukiwanie informacji w sieci web (np. grupowanie stron www)
astronomia
handel elektroniczny
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 20
Metody eksploracji:
odkrywanie charakterystyk
• odkrywanie charakterystyk: znajdowanie zwięzłych opisów
(charakterystyk) podanego zbioru danych
• przykład odkrywania charakterystyk:
• opis pacjentów chorujących na anginę: pacjenci chorujący na anginę
cechują się temperaturą ciała większą niż 37.5 C, bólem gardła,
osłabieniem organizmu
• automatyczne tworzenie streszczeń dokumentów
• automatyczne tworzenie charakterystyk produktów na podstawie
informacji z blogów i forów internetowych
• zastosowania odkrywania charakterystyk:
• znajdowanie zależności funkcyjnych pomiędzy zmiennymi
• określanie profilu klienta - zbioru cech charakterystycznych
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 21
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
Metody eksploracji:
odkrywanie punktów osobliwych
• odkrywanie punktów osobliwych: znajdowanie obiektów
(zdarzeń) odbiegających znacząco od modelu pozostałych
obiektów (zdarzeń) analizowanego zbioru danych
• przykład odkrywania punktów osobliwych:
• znajdowanie klientów, których konsumpcja energii odbiega znacząco
od innych klientów o podobnej charakterystyce
• znajdowanie pacjentów, których wyniki odbiegają znacząco od
wyników analiz innych pacjentów chorujących na ta samą chorobę
• zastosowania odkrywania punktów osobliwych:
• wykrywanie oszustw podatkowych, kradzieży prądu, itp..
• astronomia, fizyka – odkrywanie obiektów o nieznanej dotychczas
charakterystyce
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 22
Metody eksploracji:
eksploracja sieci www
• eksploracja sieci www: metody analizy korzystania z sieci
web w celu :
• znajdowania typowych wzorców zachowań użytkowników sieci
• znajdowania powiazań stron w sieci web w celu określenia ważności i
koncentratywności stron (w celu poprawy efektywności procesu
wyszukiwania stron)
• grupowania i klasyfikacji stron WWW na podstawie ich zawartości i
schematu zewnętrznego
• znajdowania ukrytych „stron lustrzanych” i wewnętrznych
„środowisk” (ang. communities) oraz analiza ich ewolucji w czasie
• analizy reklam internetowych (ich efektywności, rozliczania i
propagacji).
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 23
Metody eksploracji:
eksploracja danych multimedialnych i
przestrzennych
• metody analizy i eksploracji baz danych przechowujących
obrazy, mapy, dźwięki, wideo itp.
• celem jest wspomaganie procesów wyszukiwania danych
(wyszukiwanie na podstawie zawartości, wideo na żądanie
itd.)
• metody służące do grupowania i klasyfikacji danych
multimedialnych są najczęściej silnie powiązane z
mechanizmami systemu zarządzania bazą danych
(indeksowanie i buforowanie danych)
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 24
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
Metody eksploracji:
eksploracja struktur grafowych
• struktury grafowe są szeroko stosowane do modelowania
złożonych obiektów, takich jak: obwody elektroniczne,
związki chemiczne, struktury białkowe, sieci biologiczne,
sieci społecznościowe, procedury obiegu dokumentów,
dokumenty XML
• metody analizy struktur grafowych: grupowanie i klasyfikacja
struktur grafowych, odkrywanie częstych podstruktur
(podgrafów) w bazie danych struktur grafowych, klasyfikacja
struktur grafowych umożliwiająca znajdowanie zależności
pomiędzy pewną charakterystyką struktury grafowej a jej
budową (np. analiza i klasyfikacja sekwencji DNA)
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 25
Metody eksploracji:
eksploracja sieci społecznościowych
• algorytmy analizy sieci społecznościowe wspomagające:
• procesy wykrywania oszustów uczestniczących w aukcjach
internetowych,
• wykrywanie przestępstw w kryminalistyce,
• analizę dużych sieci elektrycznych i telekomunikacyjnych itp.
• powiazania pomiędzy uczestnikami gier i aukcji internetowych
• wykrywanie środowisk w sieciach społecznościowych
• rozpowszechnianie się epidemii, itp.
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 26
Problemy odkrywania wiedzy (1)
• Dane zawarte w bazach i hurtowniach danych nie zawsze
są reprezentatywne i nie opisują wszystkich możliwych
kombinacji wartości danych – klasyczny konflikt empiryzm
vs racjonalizm
• W dużych bazach danych mogą zostać odkryte tysiące
reguł
• Różni użytkownicy systemu eksploracji danych są
zainteresowani różnymi typami reguł
• Odkrywanie wiedzy jest procesem bardzo złożonym
obliczeniowo
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 27
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
Problemy odkrywania wiedzy (2)
• Istotny problem etyczny: jak zagwarantować poufność i
ochronę danych osobistych w przypadku eksploracji danych?
(rozwój metod eksploracji danych zapewniających ochronę
prywatności – ang. privacy-preserving data mining)
• Rozwiązanie:
• odkrywanie tylko części wszystkich możliwych reguł - wskazanej
przez użytkownika przy pomocy kryteriów
• tylko użytkownik potrafi ocenić poprawnie wartość odkrytej wiedzy
• anonimizacja i randomizacja analizowanych danych
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 28
Dziedziny zastosowań (1)
• Handel i marketing
• identyfikacja „profilu klienta” dla przewidywania, którzy klienci
odpowiedzą na marketing korespondencyjny,
• wykrywanie schematów zakupów i planowanie lokalizacji artykułów
• Finanse i bankowość
• identyfikacja schematów wykorzystywania kradzionych kart
kredytowych
• przewidywanie dochodowości portfela akcji, znajdowanie korelacji
wśród wskaźników finansowych
• Nauka i technologia
• odkrywanie nowych obiektów (astronomia, fizyka)
• wykrywanie schematów alarmowych w sieciach telekomunikacyjnych
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 29
Dziedziny zastosowań (2)
• Nauka
• astronomia, bioinformatyka, przemysł farmaceutyczny, …
• Biznes
• reklama, CRM (Customer Relationship management), inwestycje,
finanse, ubezpieczenia, telekomunikacja, medycyna, …
• Web:
• Przeglądarki (Google), handel elektroniczny – Amazon, eBay, Allegro
• Administracja
• wykrywanie przestępstw, wykrywanie nadużyć podatkowych, etc.
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 30
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
Podsumowanie
• Systemy baz danych – narzędzie do przechowywania
danych
• Hurtownie danych – narzędzie wspomagania
podejmowania decyzji
• Eksploracja danych – narzędzie do analizy
zgromadzonych danych
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE
str. 31
Człowiek – najlepsza inwestycja
Projekt nr POKL.04.03.00-00-131/12 „Inżynieria wiedzy dla inteligentnego rozwoju”
współfinansowany przez Unię Europejską w ramach środków Europejskiego Funduszu Społecznego
MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE I SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE