HURTOWNIE DANYCH - wykład 1
Transkrypt
HURTOWNIE DANYCH - wykład 1
Outline Wstęp Definicje Hurtowni Danych Cele Zastosowania HURTOWNIE DANYCH - wykład 1 dr Sebastian Zając SGH Warszawa 7 lutego 2017 dr Sebastian Zając HURTOWNIE DANYCH - wykład 1 Outline Wstęp Definicje Hurtowni Danych Cele Zastosowania 1 Wstęp Business Inteligence Historia 2 Definicje Hurtowni Danych Kimball Inmon Etapy tworzenia 3 Cele Statystyki 4 Zastosowania dr Sebastian Zając HURTOWNIE DANYCH - wykład 1 Outline Wstęp Definicje Hurtowni Danych Cele Zastosowania Business Inteligence Historia Business Inteligence (BI) Business Inteligence - dziedzina obejmująca aplikacje i technologie służące do gromadzenia i analizowania danych w celu wspomagania procesu podejmowania decyzji biznesowych. Obszary: Data Warehouse - Hurtownie danych Data Mining OLAP (On Line Analytical Processing) MIS (Management Information Systems) Raportowanie - wizualizacja informacji CRM (Customer Relationship Management) DSS - Decision Support System dr Sebastian Zając HURTOWNIE DANYCH - wykład 1 Outline Wstęp Definicje Hurtowni Danych Cele Zastosowania Business Inteligence Historia Historia Hurtowni Danych Fakty Historyczne: 1984 - Fuzja w firmie Anthem (18 systemów). 90 % czasu na przygotowanie raportu to zbieranie danych. Kluczowe nurty : dr Sebastian Zając HURTOWNIE DANYCH - wykład 1 Outline Wstęp Definicje Hurtowni Danych Cele Zastosowania Business Inteligence Historia Historia Hurtowni Danych Fakty Historyczne: 1984 - Fuzja w firmie Anthem (18 systemów). 90 % czasu na przygotowanie raportu to zbieranie danych. 1985 - Pierwszy komercyjny system analityki biznesowej dla firmy Procter & Gamble. Kluczowe nurty : dr Sebastian Zając HURTOWNIE DANYCH - wykład 1 Outline Wstęp Definicje Hurtowni Danych Cele Zastosowania Business Inteligence Historia Historia Hurtowni Danych Fakty Historyczne: 1984 - Fuzja w firmie Anthem (18 systemów). 90 % czasu na przygotowanie raportu to zbieranie danych. 1985 - Pierwszy komercyjny system analityki biznesowej dla firmy Procter & Gamble. 1988 - B.Derlin, P.Murphy ”An architecture for a business and information system” . IBM System Journal - wprowadzenie definicji hurtowni danych. Kluczowe nurty : dr Sebastian Zając HURTOWNIE DANYCH - wykład 1 Outline Wstęp Definicje Hurtowni Danych Cele Zastosowania Business Inteligence Historia Historia Hurtowni Danych Fakty Historyczne: 1984 - Fuzja w firmie Anthem (18 systemów). 90 % czasu na przygotowanie raportu to zbieranie danych. 1985 - Pierwszy komercyjny system analityki biznesowej dla firmy Procter & Gamble. 1988 - B.Derlin, P.Murphy ”An architecture for a business and information system” . IBM System Journal - wprowadzenie definicji hurtowni danych. Kluczowe nurty : Ralph Kimball - http://www.kimballgroup.com Bill Inmon dr Sebastian Zając HURTOWNIE DANYCH - wykład 1 Outline Wstęp Definicje Hurtowni Danych Cele Zastosowania Kimball Inmon Etapy tworzenia Hurtownia Danych – Kimball vs. Inmon Definicja 1. Hurtownia Danych (Kimball) to system, który pozyskuje dane z systemów źródłowych, przekształca je i ładuje do wielowymiarowych struktur, a następnie dostarcza zapytania i analizy wspierające podejmowanie decyzji. Definicja 2. Hurtownia Danych (Inmon) to baza danych mająca służyć wspomaganiu procesu podejmowania decyzji, która jest: zorientowana tematycznie (subject oriented), nieulotna (nonvolatile), zintegrowana (integrated), zróżnicowana czasowo (time variant). proces vs. baza danych dr Sebastian Zając HURTOWNIE DANYCH - wykład 1 Outline Wstęp Definicje Hurtowni Danych Cele Zastosowania Kimball Inmon Etapy tworzenia Baza danych - Inmon Zorientowanie na temat Przetwarzane informacje dotyczą pewnego tematu biznesowego (np. sprzedaży) a nie działań (np. zbieranie zamówień). Dane gromadzone są pod względem analizy biznesowej i zorganizowane tak by ułatwić analizę i szybko odpowiedzieć na cel biznesowy. Nieulotność Dane raz wprowadzone do hurtowni nie ulegają modyfikacji. Zapytanie o tych samych parametrach wejściowych zawsze zwróci ten sam wynik. Zróżnicowanie czasowe Zbierane są dane historyczne. Gromadzone dane mogą być przechowywane z okresu kilku lat. Wszystkie dodawane dane posiadają wymiar czasowy (jeśli go brak trzeba go dodać ręcznie). Każde zdarzenie (fakt) musi odbywać się w czasie. dr Sebastian Zając HURTOWNIE DANYCH - wykład 1 Outline Wstęp Definicje Hurtowni Danych Cele Zastosowania Kimball Inmon Etapy tworzenia Baza danych - Inmon Zintegrowanie czyli inaczej spójność danych (nie chodzi o spójność relacyjną ale o spójność formatów i sposobu przechowywania). Dane przedstawiające te same informacje powinny mieć: ten sam format, sposób kodowania, postać. Typowe problemy daty w różnym formacie (DATA, TIMESTAMP, CHAR, VARCHAR), kodowanie dokumentów ASCII, UTF-8 informacje tekstowe przechowywane w różnych typach VARCHAR(50), CHAR(25) wartości liczbowe - DECIMAL, FLOAT, INT - dokładność dr Sebastian Zając HURTOWNIE DANYCH - wykład 1 Outline Wstęp Definicje Hurtowni Danych Cele Zastosowania Kimball Inmon Etapy tworzenia Kimball vs Inmon Hurtownia Danych to kompleksowe środowisko złożone z wielu elementów. Każdy z tych elementów należy traktować jako kompletne środowisko zawierające swój projekt, specyficzne narzędzia, metodologię. Po połączeniu wszystkich elementów dostajemy HD. Hurtownia to proces a nie produkt !!! Kimball = Inmon + ... Uwaga! Żadna z definicji nie określa formy bazy danych. Definiujemy tylko funkcje i cechy. dr Sebastian Zając HURTOWNIE DANYCH - wykład 1 Outline Wstęp Definicje Hurtowni Danych Cele Zastosowania Kimball Inmon Etapy tworzenia Etapy tworzenia Hurtowni W życiu hurtowni danych możemy wydzielić następujące etapy: 1 Zbieranie wymagań. 2 Modelowanie. 3 Wdrożenie. 4 Monitorowanie. 5 Analiza działania. Tworzenie HD to nie proces liniowy ale zamknięty cykl. Wynik działania powinien służyć nie tylko na etapie monitorowania (dostrajanie systemu). dr Sebastian Zając HURTOWNIE DANYCH - wykład 1 Outline Wstęp Definicje Hurtowni Danych Cele Zastosowania Statystyki Cele budowy Hurtowni Danych 1 2 3 4 Przetwarzanie analityczne danych (OLAP) - kwerendy pozwalające na wykonywanie zestawień statystycznych, wykresów i raportów, podsumowujących znaczne ilości danych. Wspomaganie decyzji (DS) - wykonywanie bardziej złożonych analiz, symulacji scenariuszy biznesowych itd. Centralizacja danych - gromadzenie szczegółowych danych napływających z różnych źródeł, często związanych z bazami OLTP, często przetwarzanych i integrowanych przy użyciu narzędzi Extract Transform Load (ETL), celem udostępniania szerokiego zakresu danych dla poszczególnych hurtowni tematycznych, narzędzi OLAP czy też narzędzi Data Mining (DM). Archiwizacja. dr Sebastian Zając HURTOWNIE DANYCH - wykład 1 Outline Wstęp Definicje Hurtowni Danych Cele Zastosowania Statystyki Statystyki Co najmniej 50 % danych w bazach operacyjnych służy potrzebom analitycznym i podejmowaniu decyzji 40% raportów produkcyjnych jest niewykorzystywana (raport IBM, 1995) 30% raportów jest używana nie zgodnie z ich przeznaczeniem (raport IBM, 1995) Kierownictwo Strategiczne ocenia dokładność i użyteczność danych na 2 w skali (od 1 do 10) (raport IBM, 1995) Średnie trzyletnie dochody z inwestycji (ROI) w HD wynoszą 401%. W tym 90% badanych firm osiągnęło dochody powyżej 40%, połowa firm osiągnęła dochody powyżej 160%, a jedna czwarta > 600% (International Data Corporation 1996). dr Sebastian Zając HURTOWNIE DANYCH - wykład 1 Outline Wstęp Definicje Hurtowni Danych Cele Zastosowania Statystyki Rysunek: Hurtownia Danych dr Sebastian Zając HURTOWNIE DANYCH - wykład 1 Outline Wstęp Definicje Hurtowni Danych Cele Zastosowania Typowe Zastosowania Analiza trendów i zachowań - predykcja przyszłości na podstawie danych historycznych. Wykrywanie oszustw - dziwne zachowania Umiarkowany marketing - dla wszystkich czy tylko grupa docelowa ? Analiza rentowności - 80% zysków generuje 20% klientów Zapobieganie odejściu klienta Zarządzanie zasobami - brak towaru = klient u konkurencji Analiza ryzyka kredytowego Długoterminowa ocena klienta dr Sebastian Zając HURTOWNIE DANYCH - wykład 1