slajdy - ploug

Transkrypt

slajdy - ploug
Przetwarzanie danych w
magazynach danych
Tadeusz Morzy
3ROLWHFKQLND3R]QDVND,QVW\WXW,QIRUPDW\NL
60-3R]QDPiotrowo 3A
[email protected]
3ODQZ\VWSLHQLH
•
•
•
•
•
•
•
•
•
Systemy przetwarzania transakcyjnego
Magazyn (hurtownia) danych
Model przetwarzania analitycznego OLAP
Wielowymiarowy model danych
6FKHPDW\SRM
FLRZHPDJD]\QyZGDQ\FK
Typy magazynów danych
Architektury fizyczne magazynów danych
(IHNW\ZQRüSU]HWZDU]DQLDGDQ\FK
:QLRVNLLXZDJLNRFRZH
1
Systemy przetwarzania
transakcyjnego
• Celem systemów przetwarzania transakcyjnego (OLTP)
jest usprawnienie ELH*FHM dziaáalnoci operacyjnej
SU]HGVL
ELRUVWZD
• Komercyjnie dost
pne systemy OLTP (systemy
zarzdzania bazami danych SZBD) dostarczaj
efektywnych rozwiza dla:
–
–
–
–
efektywnego i bezpiecznego przechowywania danych,
transakcyjnego odtwarzania danych,
optymalizacji dost
pu do danych,
zarzdzania wspóábie*noci.
Przetwarzanie analityczne
• Systemy OLTP charakteryzuj si
krótkimi i prostymi
transakcjami, które operuj na niewielkiej cz
ci danych
przechowywanych w bazie danych
• 0LDURFHQ\G]LDáDQLDV\VWHPX2/73MHVWSU]HSXVWRZRü
transakcji
• Systemy OLTP nie wspomagDM procesów analizy danych,
JG\*Z]QDF]QLHPQLHMV]\Pstopniu wspomagaj operacje
agregacji danych, wykonywania podsumowa czy te*
optymalizacji záo*onych zapyta formuáowanych ad hoc
2
Przetwarzanie analityczne
• Potrzeba przetwarzania analitycznego danych:
– DQDOL]DG]LDáDOQRFLSU]HGVL
ELRUVWZD
– analiza trendów i anomalii
– ]DU]G]DQLHSU]HGVL
ELRUVWZHP
– opracowywanie strategii marketingowej
– DQDOL]DUHQWRZQRFLLQZHVW\FMLLWS
• $SOLNDFMHDQDOLW\F]QHZ\PDJDM
– integracji danych
– ]áR*RQHMDQDOL]\GDQ\FK
– eksploracji danych
3U]\NáDGRZHDSOLNDFMHDQDOLW\F]QH
• 3U]\NáDG\
– bankowoü (np. identyfikacja czynników ryzyka
wskazujcych, którzy klienci gwarantuj bezpieczne
spáacanie udzielonego kredytu),
– rynki finansowe (np. identyfikacja trendów w zakresie
akcji spóáek gieádowych),
– telekomunikacja (np. identyfikacja klientów
zainteresowanych nowymi usáugami i nowymi
warunkami wspóápracy z firm),
– medycyna (np. analiza efektywnoci procedur leczenia
pacjentów)
3
Pytania
• Dane przechowywane w bazie danych zawieraj olbrzymi
iloü potencjalnie u*ytecznej wiedzy, która mo*e zostaü
u*yta w procesie podejmowania decyzji strategicznych
dotyczcych dziaáalnoci przedsi
biorstwa:
– Czym ró*ni si
klienci supermarketu w Poznaniu i Warszawie?
– Jakie oddziaáy supermarketu miaáy „anormaln” sprzeda* w
pierwszym kwartale 2002 r?
– Jakie produkty miaáy najwi
ksz dynamik
sprzeda*y w roku
2001?
– Jakie produkty klienci supermarketu kupuj najcz
ciej razem?
Architektura danych
wiedza uzyskana z
danych
agregaty dla:
kto, co, kiedy,
gdzie,...
Wiedza
model logiczny
opis danych
(struktury danych)
Metadane
Schematy danych
Agregaty
kto, co,
kiedy,
gdzie
Dane operacyjne
4
Magazyn (hurtownia) danych
Magazyn danych jest „(...) zorientowan tematycznie,
zintegrowan, zmienn w czasie i trwaá, kolekcj (baz)
danych zaprojektowan i zaimplementowan dla potrzeb
wspomagania podejmowania decyzji, w której dane
odnosz si
do okrelonej chwili czasowej”
-- (W. H. Inmon, Building the Data Warehouse, QED Tech.
Pub. Group, 1992)
Magazyn danych
• Zorientowany tematycznie - struktura danych w
magazynie danych jest zorganizowana odpowiednio do
podstawowego obszaru dziaáalnoci danego
przedsi
biorstwa: klienci, typy ubezpiecze, polisy, konta,
*dania wypáat, itp.
• Zintegrowany - magazyn danych musi zawieraü mo*liwie
peány zbiór danych opisujcych dziaáalnoü danego
przedsi
biorstwa; dane opisujce dziaáalnoü
przedsi
biorstwa s najcz
ciej rozproszone niezb
dna
staje si
integracja danych z wielu heterogenicznych
(ródeá.
5
Magazyn danych
• 7UZDá\ - dane operacyjne s regularnie aktualizowane i
zmieniane; magazyny danych s natomiast trwaáe - po
zaáadowaniu danych do magazynu, dane nie s z magazynu
usuwane. Po dezaktualizacji dane s archiwizowane
• Zmienny w czasie - horyzont czasowy magazynu danych
jest znaczco wi
kszy ni* horyzont czasowy operacyjnych
baz danych. Magazyny danych przechowuj caá histori
danych (czyli zbiór migawek zrobionych w pewnych
odst
pach czasowych) i czas stanowi zawsze jeden z
podstawowych elementów skáadowych magazynu danych
'ODF]HJRQLH]DOH*Q\PDJD]\QGDQ\FK
• :]JO
G\IXQNFMRQDOQH:
• EUDNXMFH GDQH V\VWHP\ '&6 Z\PDJDM GDQ\FK
KLVWRU\F]Q\FKNWyU\FKV\VWHP\2/73QLHSU]HFKRZXM
• integracja danychV\VWHP\'&6Z\PDJDMLQWHJUDFMLL
DJUHJDFMLGDQ\FK]Uy*Q\FKKHWHURJHQLF]Q\FK(UyGHá
• MDNRüGDQ\FKUy*QH(UyGáDVWRVXMUy*QHUHSUH]HQWDFMH
danych, kody, formaty, nazewnictwo
6
'ODF]HJRQLH]DOH*Q\PDJD]\QGDQ\FK
• :]JO
G\HIHNW\ZQRFLRZH:
– =áR*RQH]DS\WDQLD2/$3]QDF]FRREQL*M
HIHNW\ZQRüSU]HWZDU]DQLDWUDQVDNF\MQHJR
– 6SHFMDOQHVWUXNWXU\GDQ\FKPHWRG\GRVW
SX
materializowane perspektywy i agregaty, specjalne
PHWRG\LPSOHPHQWDFMLRSHUDFMLZVSLHUDMF\FK
wielowymiarowy model danych
– %UDNPHFKDQL]PXWUDQVDNFML]DU]G]DQLD
ZVSyáELH*QRFLRGWZDU]DQLDSRDZDULL
Architektura
Aplikacje
PDJD]\QGDQ\FK
Data mart
Metadane
Data mart
LQWHJUDWRU
NRQZHUWHUPRQLWRU
NRQZHUWHUPRQLWRU
NRQZHUWHUPRQLWRU
(UyGáRGDQ\FK
(UyGáRGDQ\FK (UyGáRGDQ\FK 7
,PSOHPHQWDFMDLSLHO
JQDFMD
magazynu
•
•
•
•
•
•
•
•
Ekstrakcja danych
Transformacja danych
Czyszczenie danych
Integracja danych
àDGRZDQLHGDQ\FK
Monitorowanie zmian
2GZLH*DQLHGDQ\FK
Metadane i ich repozytorium
,PSOHPHQWDFMDLSLHO
JQDFMD
magazynu (1)
• Ekstrakcja danych
SRELHUDQLHGDQ\FK]H(UyGHáGDQ\FKEUDPNLVWDQGDUGRZH
LQWHUIHMV\SURFHGXU\ZáDVQHPHFKDQL]Preplikacji)
• Konwersja danych
transformowanie danych z formatu wykorzystywanego w
(ródle, do formatu wykorzystywanego w magazynie
8
,PSOHPHQWDFMDLSLHO
JQDFMD
magazynu (2)
• Czyszczenie danych
proces ten ma na celu zapewnienie jakoci i poprawnoci danych w
magazynie (dane z wielu (ródeá b
d zawieraáy bá
dy i anomalie:
niespójne dáugoci pól, niespójne opisy atrybutów, ró*ne formaty
danych, wartoci puste, naruszone ograniczenia integralnociowe;
(ródáem niespójnoci s cz
sto pola opcjonalne)
• Metody czyszczenia danych
• Migracja danych SURVWH UHJXá\ WUDQVIRUPDFML GDQ\FK QS Ä]DVWS VáRZR
customer VáRZHPNOLHQW´
• Czyszczenie specjalne: wykorzystanie wiedzy przedmiotowej do
czyszczenia danych (np. kody pocztowe)
• OHG]HQLHGDQ\FK: wykorzystanie technik eksploracji danych do
czyszczenia danych (detect outliers)
,PSOHPHQWDFMDLSLHO
JQDFMD
magazynu (3)
• àDGRZDQLHGDQ\FK - áadowanie danych pociga za sob
dodatkowe przetwarzanie: sprawdzanie ogranicze
integralnociowych, sortowanie, podsumowywanie,
budowanie indeksów, itp..
• 0HWRG\áDGRZDQLH
– Wsadowe
– Inkrementalne
•
Problemy:
– PRQLWRURZDQLHVWDQXáDGRZDQLDZVWU]\PDQLHáDGRZDQLD]PLDQD
]LDUQDáDGRZDQLDDQXORZDQLHDNWXDOL]DFML
– áDGRZDQLHVHNZHQF\MQHUyZQROHJáH
– restart po awarii
– wsadowe/inkrementalne
9
,PSOHPHQWDFMDLSLHO
JQDFMD
magazynu (4)
• Monitorowanie zmian
PRQLWRURZDQLH]PLDQ]DFKRG]F\FKZ(UyGáDFKGDQ\FKLVWRWQ\FK]
punktu widzenia magazynu danych
• mechanizm wyzwalaczy (trigger) DBMS
• DQDOL]DSOLNXORJDQDOL]D]DZDUWRFLG]LHQQLND
• mechanizm replikacji danych
• SURFHGXU\ZáDVQHW]Zlegacy systems )
• polling (]DS\WDQLDGR(UyGHá)
• Zmiany w danych (ródáowych s propagowane do
magazynu danych podczas procesu odwie*ania
,PSOHPHQWDFMDLSLHO
JQDFMD
magazynu (4)
• Odwie*anie danych - proces propagowania zmian
zachodzcych w (ródáach danych do magazynu
• .LHG\RGZLH*Dü
– RGZLH*DQLHQDW\FKPLDVWRZH
– periodyczne
– ]DOH*QLHRG(UyGáDQSZPRPHQFLHGRVW
SXSU]H]X*\WNRZQLND
• :MDNLVSRVyERGZLH*Dü
– áDGRZDQLHGDQ\FKfull loading)
– RGZLH*DQLHLQNUHPHQWDOQH
• 0HFKDQL]PSLHO
JQDFMLUHSOLN
– transfer danych
– transfer transakcji
10
Metadane
• Dane o danych
• 6WDQRZLLQWHJUDOQF]
üPDJD]\QXGDQ\FK
• 2NUHODM]QDF]HQLHLNRQWHNVWLQIRUPDFML]DZDUWHMZ
magazynie danych
• -DNLHGDQHVGRVW
SQHJG]LHV]ORNDOL]RZDQHRUD]ZMDNL
VSRVyEVGRVW
SQH
• 0HWDGDQHVSU]HFKRZ\ZDQHZUy*QHMSRVWDFLDUNXV]H
kalkulacyjne, CASE, dokumenty tekstowe
Repozytorium metadanych
• metadane fizyczne: lista (ródáowych baz danych i opis ich
zawartoci, opisy i charakterystyki bramek mi
dzy bazami
(ródáowymi a magazynem, schemat magazynu danych,
definicje perspektyw i danych wyliczalnych, opisy
wymiarów i hierarchii, zbiór predefiniowanych zapyta i
raportów, lokalizacja tematycznych hurtowni danych,
indeksy i reguáy partycjonowania danych
• metadane logiczne: reguáy biznesowe, podstawowe
poj
cia i definicje, procedury post
powania, logiczne
definicje tablic i atrybutów magazynu danych,
odwzorowanie danych operacyjnych na struktury
magazynu danych)
11
Repozytorium metadanych
• metadane operacyjne: reguáy ekstrakcji, czyszczenia,
transformacji, korekcji danych (ródáowych, zasady odwie*ania
danych, dane szczegóáowe i dane wyprowadzalne
• metadane historyczne: zmiany zachodzce w rodowisku
magazynu danych, informacja dotyczca aliasów
• metadane administracyjne: bezpieczestwo magazynu,
autoryzacja u*ytkowników, prawa dost
pu do poszczególnych
komponentów magazynu, profile u*ytkowników i profile grup
u*ytkowników
• metadane personalizacyjne: reguáy obliczania pewnych
agregatów dla okrelonych u*ytkowników kocowych lub grup
u*ytkowników
OLAP
• Przetwarzanie analityczne on-line (ang. On-Line
Analytical Processing OLAP), ma za zadanie wspieranie
procesów analizy magazynów danych
• Analiza magazynu polega na obliczaniu agregatów dla
zadanych „wymiarów” magazynu
• Logiczny model danych:
– struktury danych, która opisuj logiczn organizacj
danych i
sposób, w jaki dane s postrzegane przez u*ytkowników,
– zbioru
operatorów
umo*liwiajcych
wyszukiwanie
i
modyfikowanie danych, oraz
– ogranicze integralnociowych, specyfikujcych poprawnoü
danych
12
Wielowymiarowy model danych
• Podstawowy model logiczny dla MDD/OLAP
• Dane s postrzegane przez u*ytkowników w postaci
wielowymiarowej perspektywy (tzw. kostki OLAP)
• Obiektem analizy w modelu MDD jest zbiór miar
numerycznych nazywanych faktami
• Fakt opisuje pojedyncze zdarzenie, o którym chcemy
przechowywaü informacj
w magazynie danych
• Fakt jest dan ilociow (numeryczn) reprezentujc
jednostk
aktywnoci biznesowej przedsi
biorstwa, np.
sprzeda* produktów, rednia ocena studenta, iloü goci
hotelowych, zysk, wartoü produktu krajowego, itp.
Wielowymiarowy model danych
• Wartoü ka*dej miary zale*y od zbioru wymiarów
• W modelu MDD, miara jest reprezentowana jako punkt w
wielowymiarowej przestrzeni wymiarów
VNOHS
:DUV ]D
ZD
.UD
NyZ
3R]QD
)RUG
$XG
L
%0: SUR
G
X
N W
RNUH
V 13
Wielowymiarowy model danych
• Ka*dy wymiar jest opisany zbiorem atrybutów
Sklep (Id_sklep, sklep, adres, miasto, powiat,
województwo, region, typ_sklepu, telefon, szef)
• Atrybuty wymiaru mog tworzyü hierarchi
wymiaru
typ_sklepu
sklep
miasto
powiat
województwo
region
Operacje modelu MDD
• Agregacja – áF]QDVSU]HGD*GODSRV]F]HJyOQ\FKVNOHSyZ
w poszczególnych latach
• Pivoting – wyznaczanie punktu centralnego: wskazanie
miary i wybranie 2 wymiarów, w których ma ona byü
reprezentowana VSU]HGD*GODVNOHSyZZSRV]F]HJyOQ\FK
latach)
• Roll-up – zwijanie: dla wskazanego wymiaru nawigacja w
gór
hierarchii wymiaru w celu prezentacji wi
kszych
agregatów
• Drill-down – rozwijanie: nawigacja wzdáu* hierarchii
danego wymiaru w celu rozbicia agregatu na agregaty
skáadowe
14
Operacje modelu MDD
• Slice_and_dice – wycinanie: operacja redukcji liczby
wymiarów, tj. projekcja danych na wybranym podzbiorze
wymiarów dla wybranych wartoci innych wymiarów
• Rotating - obracanie: umo*liwia prezentowanie danych w
ró*nych ukáadach
• Ranking – wybór pierwszych n elementów
• Nowe operatory:
–
–
–
–
Pull – XWZyU]QRZ\Z\PLDU]LVWQLHMF\FKHOHPHQWyZ
Destroy – XVXZ\PLDU
Restrict – XVXZDUWRFL]NRVWNL
Join – SRáF]LQIRUPDFMH]GZyFKNRVWHN
Ograniczenia LQWHJUDOQRFLRZH
• Ograniczenia integralnociowe pojedynczej kostki
danych (ang. intra cube constraints)
zwizane z definicjami zale*noci pomi
dzy atrybutami
wymiarów, wymiarami, wymiarami a miarami, oraz
hierarchiami wymiarów
• Ograniczenia integralnociowe pomi
dzy kostkami
danych (ang. inter cube constraints)
okrelaj zwizki pomi
dzy dwoma lub wi
cej kostkami
danychWM]ZL]NLSRPL
G]\Z\PLDUDPLGZyFKNRVWHN
PLDUDPLNRVWHNPLDUMHGQHMNRVWNLDZ\PLDUDPLLQQHM
kostki, itp..
15
Projektowanie schematów
SRM
FLRZ\FKPDJD]\QyZGDQ\FK
• Do zaprojektowania schematu SRM
FLRZHJRmo*na
wykorzystaü dowolny z modeli poj
ciowych
wykorzystywanych do projektowania schematów
poj
ciowych baz danych
• Schemat poj
ciowy magazynu danych powinien:
– koncentrowaü si
na podstawowych poj
ciach i dziedzinach
aktywnoci danego przedsi
biorstwa
– powinien byü áatwo transformowalny do wielowymiarowego
modelu danych
• 3RGVWDZRZHVWUXNWXU\VFKHPDWyZSRM
FLRZ\FK– schemat
JZLD]G\SáDWNDQLHJXNRQVWHODFMLIDNWyZ
Struktura gwiazdy
• Struktura gwiazdy (ang. star schema) - centralna encja
opisuje podstawow miar
(zbiór miar), która jest
powizana z encjami wymiarów
6DPRFKRG\
6DPRFKyG,'
1D]ZD
5RG]DM
.RORU
'HDOHU
6SU]HGD*
&]DV
'HDOHUB,G
1D]ZD
=\VN
/LF]EDBV]WXN
&]DV,'
16
6WUXNWXUDSáDWNDQLHJX
• Struktura páatka niegu (ang. snowflake schema) zmodyfikowana wersja struktury gwiazdy, w której
explicite zamodelowane s hierarchie wymiarów
6DPRFKRG\
6DPRFKyG,'
1D]ZD
5RG]DM
.RORU
'QL
1D]ZD
'HDOHU
6SU]HGD*
&]DV
'HDOHU,'
1D]ZD
=\VN
/LF]EDBV]WXN
&]DV,'
0LDVWR
0LHVLFH
/DWD
:RMHZyG]WZR
Struktura konstelacji faktów
• Struktura konstelacji faktów (ang. fact constellation
schema) - zbiór encji faktów wspóádzieli zbiór encji
wymiarów, choü niekoniecznie na tym samym poziomie
hierarchii tych wymiarów
6DPRFKRG\
6DPRFKyG,'
1D]ZD
5RG]DM
.RORU
'HDOHU
6SU]HGD*
&]DV
'HDOHUB,G
1D]ZD
=\VN
/LF]EDBV]WXN
3RGDWHN
&]DV,'
:DUWRü
17
Typy magazynów danych
•
W jaki sposób wielowymiarowy model danych jest
przechowywany i przetwarzany w magazynie danych?
'ZDSRGHMFLD]DOH*QLHRGPRGHOXGDQ\FK
1.
2.
Magazyn danych wykorzystujcy model relacyjny,
nazywany równie* ROLAP (ang. Relational OLAP)
Magazyn danych wykorzystujcy model
wielowymiarowy, nazywany równie* MOLAP (ang.
Multidimensional OLAP)
ROLAP
• 'DQHVSU]HFKRZ\ZDQHZVSHFMDOL]RZDQ\FKUHODFMDFK
• Schemat logiczny magazynu ROLAP odpowiada
strukturze schematu poj
ciowego (centralna relacja faktów
powizana kluczami obcymi z odpowiednimi relacjami
wymiarów)
• W przypadku schematu páatka niegu, relacje wymiarów
s znormalizowane - wyodr
bnienia hierarchii wymiaru
• Charakteryzuje si
du* skalowalnoci i elastycznoci
• W stosunku do magazynów typu MOLAP cechuj si
ni*sz efektywnoci przetwarzania danych
18
MOLAP
• Dane przechowywane w specjalizowanych wielowymiarowych tablicach (ang. multidimensional arrays)
zwanych te* kostkami danych (ang. data cubes)
• Pozycja komórki wielowymiarowej tablicy jest wyznaczona
przez kombinacj
wartoci odpowiednich wymiarów
• Tablice zawieraj równie* wst
pnie przetworzone, tj.
zagregowane dane
• Kostki danych s tworzone przed rozpocz
ciem
przetwarzania i maj charakter statyczny
• Charakteryzuj si
wysok efektywnoci
wielowymiarowego przetwarzania danych, jednak*e, w
stosunku do magazynów typu ROLAP, cechuj si
gorsz
skalowalnoci i elastycznoci
Efektywnoü magazynów danych
• W celu poprawy efektywnoci dziaáania magazynów
danych stosuje si
wiele technik:
– materializowanie agregatów,
– przetwarzanie równolegáe,
– partycjonowanie danych
– indeksowanie danych
19
Indeksowanie danych
• Indeksowanie danych polega na áczeniu wartoci
indeksowanego atrybutu z adresami fizycznych bloków
dyskowychZNWyU\FKSU]HFKRZ\ZDQHVUHNRUG\RGDQHM
ZDUWRFL
• 3RSUDZLDM]QDF]FRF]DVGRVW
SXGRGDQ\FK
• 0DJD]\QGDQ\FKMHVWVWDW\F]Q\GRPLQXMRGF]\W\
• Definiuj indeksy na kluczu podstawowym i kluczach
obcych – zawsze!
• Nowe typy indeksów:
– Indeks bitmapowy
– ,QGHNVSRáF]HQLRZ\
Indeks bitmapowy
• Dla ka*dej unikalnej wartoci atrybutu jest przechowywana
mapa bitowa
• Ka*dy bit mapy odpowiada jednej krotce relacji R
• Dla mapy A=’w’ bit n przyjmuje wartoü jeden, jeli atrybut
A krotki o numerze n przyjmuje wartoü ‘w’, w przeciwnym
przypadku bit n przyjmuje wartoü zero
• Indeks bitmapowy jest zbiorem map bitowych
• Indeks bitmapowy posiada struktur
B–drzewa, w którego
liciach zamiast adresów rekordów s przechowywane mapy
bitowe
20
Indeks bitmapowy
Sprzeda*
klientID
marka
kolor
Kolor
zielony
niebieski
1010
Fiat
zielony
1
0
1020
BMW
niebieski
0
1
1030
Fiat
zielony
1
0
1040
Audi
zielony
1
0
1050
Volvo
zielony
1
0
1060
Fiat
niebieski
0
1
1070
Ford
niebieski
0
1
1080
Opel
zielony
1
0
1090
Opel
niebieski
0
1
1100
Ford
zielony
1
0
,QGHNVSRáF]HQLRZ\
• Indeks SRáF]HQLRZ\ (ang. join index) áczy z sob krotki
z ró*nych relacji posiadajce t
sam wartoü atrybutu
poáczeniowego (jest wi
c struktur zawierajc
zmaterializowane poáczenie wielu relacji)
• Indeks SRáF]HQLRZ\ posiada struktur
B–drzewa
zbudowanego na atrybucie poáczeniowym relacji
• Dla magazynu danych o strukturze gwiazdy indeks
poáczeniowy wi*e krotki relacji wymiaru (lub
wymiarów) z krotkami relacji faktów
• Bitmapowy indeks poáczeniowy (ang. bit–mapped join
index) - w liciach zamiast adresów krotek znajduj si
mapy bitowe opisujce krotki áczonych relacji
21
,QGHNVSRáF]HQLRZ\
product
sale
id
p1
p2
rId
r1
r2
r3
r4
r5
r6
nam e price
jIndex
bolt
10 r1,r3,r5,r6
nut
5
r2,r4
prodId storeId
p1
c1
p2
c1
p1
c3
p2
c2
p1
c1
p1
c2
date
1
1
1
1
2
2
am t
12
11
50
8
44
4
Materializacja perspektyw
• Wst
pne przeprowadzenie oblicze i zmaterializowanie
otrzymanych wyników w magazynie danych w celu ich
pó(niejszego wykorzystania
• Materializacja agregatów oraz perspektyw
• Dwa zasadnicze pytania:
(1) które z agregatów materializowaü, a które agregaty
pozostawiü do oblicze w trybie on-line,
(2) w jaki sposób piel
gnowaü materializowane agregaty
(ponowne obliczanie agregatów, inkrementalna piel
gnacja
agregatów)
• Czy materializowaü SRUHGQLHZ\QLNL oblicze (nie tylko
agregaty), np. wyniki niektórych operacji poácze, które
s wspólne dla wielu agregatów?
22
6HOHNFMDLSLHO
JQDFMD
materializowanych perspektyw
• 5HGXNFMDF]DVXRGSRZLHG]LL]DM
WRFLSDPL
FL
• Wybór perspektyw, które nale*y zmaterializowaü, zale*y
od charakterystyki obci*enia, cz
stoci okrelonych
zapyta, kosztu przechowywania i aktualizacji perspektyw
• Zaproponowano w literaturze szereg heurystyk
• 'DQHVDNWXDOL]RZDQHZFLJXURNXZ]UDVWDM
dwukrotnie)
• :MDNLVSRVyESLHO
JQRZDü
– :\OLF]DQLHRGSRF]WNX
– 3LHO
JQDFMDLQNUHPHQWDOQD
• 0DWHULDOL]DFMDZ\QLNyZSRUHGQLFKGHILF\WRZ\LQVW\WXW
Przetwarzanie równolegáe
• Przetwarzanie równolegáe (ang. parallel processing)
polega na rozbiciu záo*onych operacji na mniejsze, które
nast
pnie s wykonywane równolegle, np. na wielu
procesorach lub komputerach
• Równolegle przetwarzanie zapyta, sortowanie danych,
operacje odczytu i zapisu na dysk, budowa relacji i
indeksów, áDGRZDQLHGDQ\FK do magazynu danych
23
Partycjonowanie danych
• Partycjonowanie danych (ang. data partitioning) polega na
automatycznym rozpraszaniu danych (pochodzcych z
jednej lub wielu relacji) na wielu dyskach, znajdujcych si
w tym samym lub wielu w
záach (komputerach) sieci
• Zyski:
(1) bardzo kosztowne operacje wejcia/wyjcia, mog byü
wykonywane równolegle,
(2) równowa*one jest obci*enie dysków,
(3) polecenia SQL mog byü wykonywane równolegle, np. tworzenie
relacji i indeksów, wykonywanie zapyta,
(4) wzrasta bezpieczestwo danych w przypadku awarii sprz
tu,
(5) wzrasta szybkoü tworzenia kopii zapasowych magazynu danych
i szybkoü odtwarzania danych po awarii.
Wnioski
• Magazyn danych jest nie jest produktem ani te* aplikacj
• Jest to architektura przetwarzania danych opracowana z
myl o budowie systemów wspomagania podejmowania
decyzji
• Jakie problemy pozostaj nadal nierozwizane lub
wymagaj nowych rozwiza w zakresie technologii
magazynów danych?
• Problem aktualizacji wymiarów i ewolucji schematu
magazynu danych – temporalne i wielowersyjne magazyny
danych
• Narz
dzia i techniki akwizycji danych (czyszczenie
danych, rozwizywanie niespójnoci danych)
24
Wnioski
• 2SW\PDOL]DFMD]DS\WD
• Algorytmy selekcji i piel
gnacji materializowanych
perspektyw
• Narz
dzi do zarzdzania metadanymi
• Technikami odtwarzania magazynu danych po awarii w
czasie procesu áadowania i odwie*ania danych
• Technikami automatycznego archiwizowania danych w
momencie ich dezaktualizacji
Technologia magazynów danych jest cigle jeszcze
technologi na etapie rozwoju
25

Podobne dokumenty