Wykład 6, PDF
Transkrypt
Wykład 6, PDF
Hurtownie danych Powtórzenie i przykłady http://zajecia.jakubw.pl/hur POJĘCIA PODSTAWOWE • OLTP a OLAP • Hurtownia danych • Główne zastosowania hurtowni: – – – – OLAP DSS (Decision Support Systems), KDD CRM inne 1 ARCHITEKTURA • • • • • • • Źródła danych Centralna hurtownia danych ODS (magazyny danych operacyjnych) Hurtownie tematyczne Architektura scentralizowana Architektura warstwowa Architektura federacyjna ARCHITEKTURA • Modele danych – ROLAP – MOLAP • Kostka danych – – – – wymiary miary fakty atrybuty wymiarów 2 MODEL ROLAP • • • • Model gwiazdy Model płatka śniegu Agregacje Związki między modelem gwiazdy a modelem wielowymiarowym MODELOWANIE • Model punktowy danych • Poziomy agregacji danych • Optymalizacja agregacji 3 RETROSPEKCJA • Dane zmienne w czasie – zasady projektowania • Retrospekcja prawdziwa, fałszywa. OPERACJE OLAP • • • • • • Zwijanie (agregacja) Rozwijanie Selekcja Filtrowanie Zawężanie Obracanie 4 ŁADOWANIE I INTEGRACJA • • • • • • ETL Integracja pojęciowa Integracja logiczna Ekstrakcja z danych źródłowych Czyszczenie i transformacja danych Ładowanie do hurtowni AKTUALIZACJA HURTOWNI • Wykrywanie zmian • Klasyfikacja źródeł – – – – – – współpracujące i niewspółpracujące odpytywalne z dziennikiem mechanizm migawek aktywne ... • Aktualizacja kostek danych • Perspektywy obsługiwalne 5 PRZETWARZANIE ZAPYTAŃ • • • • • Miejsca przetwarzania zapytań Wykorzystanie redundancji Rodzaje zapytań wielowymiarowych Indeksy Szacowanie wielkości odpowiedzi METADANE I JAKOŚĆ • Magazyn metadanych • Czynniki jakości hurtowni • Statystyki użycia 6 PRZYKŁAD • Duża firma ubezpieczeniowa z rozbudowanym serwisem internetowym • Zakres danych: – klienci, zawarte umowy ubezpieczeniowe, wpłaty, pokryte szkody; – agenci i oddziały; – statystyki (dzienniki) serwerów internetowych. • Rodzaje analiz: CRM, optymalizacja serwisu WWW, wykrywanie nadużyć, analiza skuteczności agentów i opłacalności usług. PRZYKŁAD – c.d. Źródła danych 200 tys. klientów dokonujących w sumie średnio 1000 wpłat/wypłat dziennie Serwery WWW (15 serwerów w 3 miejscach) logi System finansowo-księgowy (ODS): wpłaty/wypłaty Hurtownia identyfikacja klienta po zalogowaniu, innych użytkowników serwisu nie identyfikujemy Bazy danych oddziałów i agentów (4 różne rodzaje aplikacji): dane dot. zawieranych umów i szkód 28 oddziałów i 76 samodzielnych agentów w wielu różnych miejscowościach 7 PRZYKŁAD – c.d. Analizy internetowe wykresy, raporty czyszczenie i ekstrakcja, sesjonizacja Hurtownia Hurtownia tematyczna do KDD: powiązania sesji i użytkowników, atrybuty użytkowników, klasyfikacje stron, zależności czasowe Kostka danych: oglądane strony wymiary: - czas (dni tygodnia, miesiące, lata) - dokument (typ, zakres tematyczny) - użytkownik (domena, system) - poprzednia strona (wyszukiwarka, wewn./zewn.) miary: - liczba odwołań, liczba błędów, transfer Reguły decyzyjne, drzewa: którzy użytkownicy rezygnują z zapisania się do nowego programu promocyjnego? Sieć neuronowa: którą reklamę wyświetlić danemu użytkownikowi? PRZYKŁAD – c.d. Analizy finansowe wykresy, raporty Hurtownia Hurtownia tematyczna – zachowanie się klientów w czasie: rejestracja chronologiczna zdarzeń (wysokości wpłat, zawierane umowy, szkody, uczestnictwo w programach promocyjnych), atrybuty dodatkowe klientów. Kostka danych: zawierane umowy wymiary: - czas (miesiące, lata) - umowa (rodzaj, okres) - agent (oddział, miasto, region) miary: - liczba umów (w tym odnowienia), wartość umów, wysokość marży Reguły decyzyjne, drzewa: którzy klienci byliby skłonni zainteresować się nową ofertą? Sieć neuronowa: czy ten klient zamierza nas opuścić? Czy ta szkoda wygląda na próbę wyłudzenia? 8