Wykład 6, PDF

Transkrypt

Wykład 6, PDF
Hurtownie danych
Powtórzenie i przykłady
http://zajecia.jakubw.pl/hur
POJĘCIA PODSTAWOWE
• OLTP a OLAP
• Hurtownia danych
• Główne zastosowania hurtowni:
–
–
–
–
OLAP
DSS (Decision Support Systems), KDD
CRM
inne
1
ARCHITEKTURA
•
•
•
•
•
•
•
Źródła danych
Centralna hurtownia danych
ODS (magazyny danych operacyjnych)
Hurtownie tematyczne
Architektura scentralizowana
Architektura warstwowa
Architektura federacyjna
ARCHITEKTURA
• Modele danych
– ROLAP
– MOLAP
• Kostka danych
–
–
–
–
wymiary
miary
fakty
atrybuty wymiarów
2
MODEL ROLAP
•
•
•
•
Model gwiazdy
Model płatka śniegu
Agregacje
Związki między modelem gwiazdy a
modelem wielowymiarowym
MODELOWANIE
• Model punktowy danych
• Poziomy agregacji danych
• Optymalizacja agregacji
3
RETROSPEKCJA
• Dane zmienne w czasie – zasady
projektowania
• Retrospekcja prawdziwa, fałszywa.
OPERACJE OLAP
•
•
•
•
•
•
Zwijanie (agregacja)
Rozwijanie
Selekcja
Filtrowanie
Zawężanie
Obracanie
4
ŁADOWANIE I INTEGRACJA
•
•
•
•
•
•
ETL
Integracja pojęciowa
Integracja logiczna
Ekstrakcja z danych źródłowych
Czyszczenie i transformacja danych
Ładowanie do hurtowni
AKTUALIZACJA HURTOWNI
• Wykrywanie zmian
• Klasyfikacja źródeł
–
–
–
–
–
–
współpracujące i niewspółpracujące
odpytywalne
z dziennikiem
mechanizm migawek
aktywne
...
• Aktualizacja kostek danych
• Perspektywy obsługiwalne
5
PRZETWARZANIE ZAPYTAŃ
•
•
•
•
•
Miejsca przetwarzania zapytań
Wykorzystanie redundancji
Rodzaje zapytań wielowymiarowych
Indeksy
Szacowanie wielkości odpowiedzi
METADANE I JAKOŚĆ
• Magazyn metadanych
• Czynniki jakości hurtowni
• Statystyki użycia
6
PRZYKŁAD
• Duża firma ubezpieczeniowa z
rozbudowanym serwisem internetowym
• Zakres danych:
– klienci, zawarte umowy ubezpieczeniowe,
wpłaty, pokryte szkody;
– agenci i oddziały;
– statystyki (dzienniki) serwerów internetowych.
• Rodzaje analiz: CRM, optymalizacja serwisu
WWW, wykrywanie nadużyć, analiza
skuteczności agentów i opłacalności usług.
PRZYKŁAD – c.d.
Źródła danych
200 tys. klientów dokonujących
w sumie średnio 1000
wpłat/wypłat dziennie
Serwery WWW (15 serwerów w 3 miejscach)
logi
System finansowo-księgowy (ODS):
wpłaty/wypłaty
Hurtownia
identyfikacja klienta po zalogowaniu,
innych użytkowników serwisu nie
identyfikujemy
Bazy danych oddziałów i agentów (4 różne rodzaje aplikacji):
dane dot. zawieranych umów i szkód
28 oddziałów i 76 samodzielnych agentów
w wielu różnych miejscowościach
7
PRZYKŁAD – c.d.
Analizy internetowe
wykresy,
raporty
czyszczenie i ekstrakcja,
sesjonizacja
Hurtownia
Hurtownia tematyczna
do KDD:
powiązania sesji i
użytkowników, atrybuty
użytkowników,
klasyfikacje stron,
zależności czasowe
Kostka danych: oglądane strony
wymiary:
- czas (dni tygodnia, miesiące, lata)
- dokument (typ, zakres tematyczny)
- użytkownik (domena, system)
- poprzednia strona (wyszukiwarka, wewn./zewn.)
miary:
- liczba odwołań, liczba błędów, transfer
Reguły decyzyjne, drzewa: którzy użytkownicy
rezygnują z zapisania się do nowego programu
promocyjnego?
Sieć neuronowa: którą reklamę wyświetlić
danemu użytkownikowi?
PRZYKŁAD – c.d.
Analizy finansowe
wykresy,
raporty
Hurtownia
Hurtownia tematyczna –
zachowanie się klientów w
czasie:
rejestracja chronologiczna
zdarzeń (wysokości wpłat,
zawierane umowy, szkody,
uczestnictwo w programach
promocyjnych),
atrybuty dodatkowe
klientów.
Kostka danych: zawierane umowy
wymiary:
- czas (miesiące, lata)
- umowa (rodzaj, okres)
- agent (oddział, miasto, region)
miary:
- liczba umów (w tym odnowienia), wartość
umów, wysokość marży
Reguły decyzyjne, drzewa: którzy klienci byliby
skłonni zainteresować się nową ofertą?
Sieć neuronowa: czy ten klient zamierza nas opuścić?
Czy ta szkoda wygląda na próbę wyłudzenia?
8

Podobne dokumenty