slajdy - ploug
Transkrypt
slajdy - ploug
Przetwarzanie danych w magazynach danych Tadeusz Morzy 3ROLWHFKQLND3R]QDVND,QVW\WXW,QIRUPDW\NL 60-3R]QDPiotrowo 3A [email protected] 3ODQZ\VWSLHQLH • • • • • • • • • Systemy przetwarzania transakcyjnego Magazyn (hurtownia) danych Model przetwarzania analitycznego OLAP Wielowymiarowy model danych 6FKHPDW\SRM FLRZHPDJD]\QyZGDQ\FK Typy magazynów danych Architektury fizyczne magazynów danych (IHNW\ZQRüSU]HWZDU]DQLDGDQ\FK :QLRVNLLXZDJLNRFRZH 1 Systemy przetwarzania transakcyjnego • Celem systemów przetwarzania transakcyjnego (OLTP) jest usprawnienie ELH*FHM dziaáalnoci operacyjnej SU]HGVL ELRUVWZD • Komercyjnie dost pne systemy OLTP (systemy zarzdzania bazami danych SZBD) dostarczaj efektywnych rozwiza dla: – – – – efektywnego i bezpiecznego przechowywania danych, transakcyjnego odtwarzania danych, optymalizacji dost pu do danych, zarzdzania wspóábie*noci. Przetwarzanie analityczne • Systemy OLTP charakteryzuj si krótkimi i prostymi transakcjami, które operuj na niewielkiej cz ci danych przechowywanych w bazie danych • 0LDURFHQ\G]LDáDQLDV\VWHPX2/73MHVWSU]HSXVWRZRü transakcji • Systemy OLTP nie wspomagDM procesów analizy danych, JG\*Z]QDF]QLHPQLHMV]\Pstopniu wspomagaj operacje agregacji danych, wykonywania podsumowa czy te* optymalizacji záo*onych zapyta formuáowanych ad hoc 2 Przetwarzanie analityczne • Potrzeba przetwarzania analitycznego danych: – DQDOL]DG]LDáDOQRFLSU]HGVL ELRUVWZD – analiza trendów i anomalii – ]DU]G]DQLHSU]HGVL ELRUVWZHP – opracowywanie strategii marketingowej – DQDOL]DUHQWRZQRFLLQZHVW\FMLLWS • $SOLNDFMHDQDOLW\F]QHZ\PDJDM – integracji danych – ]áR*RQHMDQDOL]\GDQ\FK – eksploracji danych 3U]\NáDGRZHDSOLNDFMHDQDOLW\F]QH • 3U]\NáDG\ – bankowoü (np. identyfikacja czynników ryzyka wskazujcych, którzy klienci gwarantuj bezpieczne spáacanie udzielonego kredytu), – rynki finansowe (np. identyfikacja trendów w zakresie akcji spóáek gieádowych), – telekomunikacja (np. identyfikacja klientów zainteresowanych nowymi usáugami i nowymi warunkami wspóápracy z firm), – medycyna (np. analiza efektywnoci procedur leczenia pacjentów) 3 Pytania • Dane przechowywane w bazie danych zawieraj olbrzymi iloü potencjalnie u*ytecznej wiedzy, która mo*e zostaü u*yta w procesie podejmowania decyzji strategicznych dotyczcych dziaáalnoci przedsi biorstwa: – Czym ró*ni si klienci supermarketu w Poznaniu i Warszawie? – Jakie oddziaáy supermarketu miaáy „anormaln” sprzeda* w pierwszym kwartale 2002 r? – Jakie produkty miaáy najwi ksz dynamik sprzeda*y w roku 2001? – Jakie produkty klienci supermarketu kupuj najcz ciej razem? Architektura danych wiedza uzyskana z danych agregaty dla: kto, co, kiedy, gdzie,... Wiedza model logiczny opis danych (struktury danych) Metadane Schematy danych Agregaty kto, co, kiedy, gdzie Dane operacyjne 4 Magazyn (hurtownia) danych Magazyn danych jest „(...) zorientowan tematycznie, zintegrowan, zmienn w czasie i trwaá, kolekcj (baz) danych zaprojektowan i zaimplementowan dla potrzeb wspomagania podejmowania decyzji, w której dane odnosz si do okrelonej chwili czasowej” -- (W. H. Inmon, Building the Data Warehouse, QED Tech. Pub. Group, 1992) Magazyn danych • Zorientowany tematycznie - struktura danych w magazynie danych jest zorganizowana odpowiednio do podstawowego obszaru dziaáalnoci danego przedsi biorstwa: klienci, typy ubezpiecze, polisy, konta, *dania wypáat, itp. • Zintegrowany - magazyn danych musi zawieraü mo*liwie peány zbiór danych opisujcych dziaáalnoü danego przedsi biorstwa; dane opisujce dziaáalnoü przedsi biorstwa s najcz ciej rozproszone niezb dna staje si integracja danych z wielu heterogenicznych (ródeá. 5 Magazyn danych • 7UZDá\ - dane operacyjne s regularnie aktualizowane i zmieniane; magazyny danych s natomiast trwaáe - po zaáadowaniu danych do magazynu, dane nie s z magazynu usuwane. Po dezaktualizacji dane s archiwizowane • Zmienny w czasie - horyzont czasowy magazynu danych jest znaczco wi kszy ni* horyzont czasowy operacyjnych baz danych. Magazyny danych przechowuj caá histori danych (czyli zbiór migawek zrobionych w pewnych odst pach czasowych) i czas stanowi zawsze jeden z podstawowych elementów skáadowych magazynu danych 'ODF]HJRQLH]DOH*Q\PDJD]\QGDQ\FK • :]JO G\IXQNFMRQDOQH: • EUDNXMFH GDQH V\VWHP\ '&6 Z\PDJDM GDQ\FK KLVWRU\F]Q\FKNWyU\FKV\VWHP\2/73QLHSU]HFKRZXM • integracja danychV\VWHP\'&6Z\PDJDMLQWHJUDFMLL DJUHJDFMLGDQ\FK]Uy*Q\FKKHWHURJHQLF]Q\FK(UyGHá • MDNRüGDQ\FKUy*QH(UyGáDVWRVXMUy*QHUHSUH]HQWDFMH danych, kody, formaty, nazewnictwo 6 'ODF]HJRQLH]DOH*Q\PDJD]\QGDQ\FK • :]JO G\HIHNW\ZQRFLRZH: – =áR*RQH]DS\WDQLD2/$3]QDF]FRREQL*M HIHNW\ZQRüSU]HWZDU]DQLDWUDQVDNF\MQHJR – 6SHFMDOQHVWUXNWXU\GDQ\FKPHWRG\GRVW SX materializowane perspektywy i agregaty, specjalne PHWRG\LPSOHPHQWDFMLRSHUDFMLZVSLHUDMF\FK wielowymiarowy model danych – %UDNPHFKDQL]PXWUDQVDNFML]DU]G]DQLD ZVSyáELH*QRFLRGWZDU]DQLDSRDZDULL Architektura Aplikacje PDJD]\QGDQ\FK Data mart Metadane Data mart LQWHJUDWRU NRQZHUWHUPRQLWRU NRQZHUWHUPRQLWRU NRQZHUWHUPRQLWRU (UyGáRGDQ\FK (UyGáRGDQ\FK (UyGáRGDQ\FK 7 ,PSOHPHQWDFMDLSLHO JQDFMD magazynu • • • • • • • • Ekstrakcja danych Transformacja danych Czyszczenie danych Integracja danych àDGRZDQLHGDQ\FK Monitorowanie zmian 2GZLH*DQLHGDQ\FK Metadane i ich repozytorium ,PSOHPHQWDFMDLSLHO JQDFMD magazynu (1) • Ekstrakcja danych SRELHUDQLHGDQ\FK]H(UyGHáGDQ\FKEUDPNLVWDQGDUGRZH LQWHUIHMV\SURFHGXU\ZáDVQHPHFKDQL]Preplikacji) • Konwersja danych transformowanie danych z formatu wykorzystywanego w (ródle, do formatu wykorzystywanego w magazynie 8 ,PSOHPHQWDFMDLSLHO JQDFMD magazynu (2) • Czyszczenie danych proces ten ma na celu zapewnienie jakoci i poprawnoci danych w magazynie (dane z wielu (ródeá b d zawieraáy bá dy i anomalie: niespójne dáugoci pól, niespójne opisy atrybutów, ró*ne formaty danych, wartoci puste, naruszone ograniczenia integralnociowe; (ródáem niespójnoci s cz sto pola opcjonalne) • Metody czyszczenia danych • Migracja danych SURVWH UHJXá\ WUDQVIRUPDFML GDQ\FK QS Ä]DVWS VáRZR customer VáRZHPNOLHQW´ • Czyszczenie specjalne: wykorzystanie wiedzy przedmiotowej do czyszczenia danych (np. kody pocztowe) • OHG]HQLHGDQ\FK: wykorzystanie technik eksploracji danych do czyszczenia danych (detect outliers) ,PSOHPHQWDFMDLSLHO JQDFMD magazynu (3) • àDGRZDQLHGDQ\FK - áadowanie danych pociga za sob dodatkowe przetwarzanie: sprawdzanie ogranicze integralnociowych, sortowanie, podsumowywanie, budowanie indeksów, itp.. • 0HWRG\áDGRZDQLH – Wsadowe – Inkrementalne • Problemy: – PRQLWRURZDQLHVWDQXáDGRZDQLDZVWU]\PDQLHáDGRZDQLD]PLDQD ]LDUQDáDGRZDQLDDQXORZDQLHDNWXDOL]DFML – áDGRZDQLHVHNZHQF\MQHUyZQROHJáH – restart po awarii – wsadowe/inkrementalne 9 ,PSOHPHQWDFMDLSLHO JQDFMD magazynu (4) • Monitorowanie zmian PRQLWRURZDQLH]PLDQ]DFKRG]F\FKZ(UyGáDFKGDQ\FKLVWRWQ\FK] punktu widzenia magazynu danych • mechanizm wyzwalaczy (trigger) DBMS • DQDOL]DSOLNXORJDQDOL]D]DZDUWRFLG]LHQQLND • mechanizm replikacji danych • SURFHGXU\ZáDVQHW]Zlegacy systems ) • polling (]DS\WDQLDGR(UyGHá) • Zmiany w danych (ródáowych s propagowane do magazynu danych podczas procesu odwie*ania ,PSOHPHQWDFMDLSLHO JQDFMD magazynu (4) • Odwie*anie danych - proces propagowania zmian zachodzcych w (ródáach danych do magazynu • .LHG\RGZLH*Dü – RGZLH*DQLHQDW\FKPLDVWRZH – periodyczne – ]DOH*QLHRG(UyGáDQSZPRPHQFLHGRVW SXSU]H]X*\WNRZQLND • :MDNLVSRVyERGZLH*Dü – áDGRZDQLHGDQ\FKfull loading) – RGZLH*DQLHLQNUHPHQWDOQH • 0HFKDQL]PSLHO JQDFMLUHSOLN – transfer danych – transfer transakcji 10 Metadane • Dane o danych • 6WDQRZLLQWHJUDOQF] üPDJD]\QXGDQ\FK • 2NUHODM]QDF]HQLHLNRQWHNVWLQIRUPDFML]DZDUWHMZ magazynie danych • -DNLHGDQHVGRVW SQHJG]LHV]ORNDOL]RZDQHRUD]ZMDNL VSRVyEVGRVW SQH • 0HWDGDQHVSU]HFKRZ\ZDQHZUy*QHMSRVWDFLDUNXV]H kalkulacyjne, CASE, dokumenty tekstowe Repozytorium metadanych • metadane fizyczne: lista (ródáowych baz danych i opis ich zawartoci, opisy i charakterystyki bramek mi dzy bazami (ródáowymi a magazynem, schemat magazynu danych, definicje perspektyw i danych wyliczalnych, opisy wymiarów i hierarchii, zbiór predefiniowanych zapyta i raportów, lokalizacja tematycznych hurtowni danych, indeksy i reguáy partycjonowania danych • metadane logiczne: reguáy biznesowe, podstawowe poj cia i definicje, procedury post powania, logiczne definicje tablic i atrybutów magazynu danych, odwzorowanie danych operacyjnych na struktury magazynu danych) 11 Repozytorium metadanych • metadane operacyjne: reguáy ekstrakcji, czyszczenia, transformacji, korekcji danych (ródáowych, zasady odwie*ania danych, dane szczegóáowe i dane wyprowadzalne • metadane historyczne: zmiany zachodzce w rodowisku magazynu danych, informacja dotyczca aliasów • metadane administracyjne: bezpieczestwo magazynu, autoryzacja u*ytkowników, prawa dost pu do poszczególnych komponentów magazynu, profile u*ytkowników i profile grup u*ytkowników • metadane personalizacyjne: reguáy obliczania pewnych agregatów dla okrelonych u*ytkowników kocowych lub grup u*ytkowników OLAP • Przetwarzanie analityczne on-line (ang. On-Line Analytical Processing OLAP), ma za zadanie wspieranie procesów analizy magazynów danych • Analiza magazynu polega na obliczaniu agregatów dla zadanych „wymiarów” magazynu • Logiczny model danych: – struktury danych, która opisuj logiczn organizacj danych i sposób, w jaki dane s postrzegane przez u*ytkowników, – zbioru operatorów umo*liwiajcych wyszukiwanie i modyfikowanie danych, oraz – ogranicze integralnociowych, specyfikujcych poprawnoü danych 12 Wielowymiarowy model danych • Podstawowy model logiczny dla MDD/OLAP • Dane s postrzegane przez u*ytkowników w postaci wielowymiarowej perspektywy (tzw. kostki OLAP) • Obiektem analizy w modelu MDD jest zbiór miar numerycznych nazywanych faktami • Fakt opisuje pojedyncze zdarzenie, o którym chcemy przechowywaü informacj w magazynie danych • Fakt jest dan ilociow (numeryczn) reprezentujc jednostk aktywnoci biznesowej przedsi biorstwa, np. sprzeda* produktów, rednia ocena studenta, iloü goci hotelowych, zysk, wartoü produktu krajowego, itp. Wielowymiarowy model danych • Wartoü ka*dej miary zale*y od zbioru wymiarów • W modelu MDD, miara jest reprezentowana jako punkt w wielowymiarowej przestrzeni wymiarów VNOHS :DUV ]D ZD .UD NyZ 3R]QD )RUG $XG L %0: SUR G X N W RNUH V 13 Wielowymiarowy model danych • Ka*dy wymiar jest opisany zbiorem atrybutów Sklep (Id_sklep, sklep, adres, miasto, powiat, województwo, region, typ_sklepu, telefon, szef) • Atrybuty wymiaru mog tworzyü hierarchi wymiaru typ_sklepu sklep miasto powiat województwo region Operacje modelu MDD • Agregacja – áF]QDVSU]HGD*GODSRV]F]HJyOQ\FKVNOHSyZ w poszczególnych latach • Pivoting – wyznaczanie punktu centralnego: wskazanie miary i wybranie 2 wymiarów, w których ma ona byü reprezentowana VSU]HGD*GODVNOHSyZZSRV]F]HJyOQ\FK latach) • Roll-up – zwijanie: dla wskazanego wymiaru nawigacja w gór hierarchii wymiaru w celu prezentacji wi kszych agregatów • Drill-down – rozwijanie: nawigacja wzdáu* hierarchii danego wymiaru w celu rozbicia agregatu na agregaty skáadowe 14 Operacje modelu MDD • Slice_and_dice – wycinanie: operacja redukcji liczby wymiarów, tj. projekcja danych na wybranym podzbiorze wymiarów dla wybranych wartoci innych wymiarów • Rotating - obracanie: umo*liwia prezentowanie danych w ró*nych ukáadach • Ranking – wybór pierwszych n elementów • Nowe operatory: – – – – Pull – XWZyU]QRZ\Z\PLDU]LVWQLHMF\FKHOHPHQWyZ Destroy – XVXZ\PLDU Restrict – XVXZDUWRFL]NRVWNL Join – SRáF]LQIRUPDFMH]GZyFKNRVWHN Ograniczenia LQWHJUDOQRFLRZH • Ograniczenia integralnociowe pojedynczej kostki danych (ang. intra cube constraints) zwizane z definicjami zale*noci pomi dzy atrybutami wymiarów, wymiarami, wymiarami a miarami, oraz hierarchiami wymiarów • Ograniczenia integralnociowe pomi dzy kostkami danych (ang. inter cube constraints) okrelaj zwizki pomi dzy dwoma lub wi cej kostkami danychWM]ZL]NLSRPL G]\Z\PLDUDPLGZyFKNRVWHN PLDUDPLNRVWHNPLDUMHGQHMNRVWNLDZ\PLDUDPLLQQHM kostki, itp.. 15 Projektowanie schematów SRM FLRZ\FKPDJD]\QyZGDQ\FK • Do zaprojektowania schematu SRM FLRZHJRmo*na wykorzystaü dowolny z modeli poj ciowych wykorzystywanych do projektowania schematów poj ciowych baz danych • Schemat poj ciowy magazynu danych powinien: – koncentrowaü si na podstawowych poj ciach i dziedzinach aktywnoci danego przedsi biorstwa – powinien byü áatwo transformowalny do wielowymiarowego modelu danych • 3RGVWDZRZHVWUXNWXU\VFKHPDWyZSRM FLRZ\FK– schemat JZLD]G\SáDWNDQLHJXNRQVWHODFMLIDNWyZ Struktura gwiazdy • Struktura gwiazdy (ang. star schema) - centralna encja opisuje podstawow miar (zbiór miar), która jest powizana z encjami wymiarów 6DPRFKRG\ 6DPRFKyG,' 1D]ZD 5RG]DM .RORU 'HDOHU 6SU]HGD* &]DV 'HDOHUB,G 1D]ZD =\VN /LF]EDBV]WXN &]DV,' 16 6WUXNWXUDSáDWNDQLHJX • Struktura páatka niegu (ang. snowflake schema) zmodyfikowana wersja struktury gwiazdy, w której explicite zamodelowane s hierarchie wymiarów 6DPRFKRG\ 6DPRFKyG,' 1D]ZD 5RG]DM .RORU 'QL 1D]ZD 'HDOHU 6SU]HGD* &]DV 'HDOHU,' 1D]ZD =\VN /LF]EDBV]WXN &]DV,' 0LDVWR 0LHVLFH /DWD :RMHZyG]WZR Struktura konstelacji faktów • Struktura konstelacji faktów (ang. fact constellation schema) - zbiór encji faktów wspóádzieli zbiór encji wymiarów, choü niekoniecznie na tym samym poziomie hierarchii tych wymiarów 6DPRFKRG\ 6DPRFKyG,' 1D]ZD 5RG]DM .RORU 'HDOHU 6SU]HGD* &]DV 'HDOHUB,G 1D]ZD =\VN /LF]EDBV]WXN 3RGDWHN &]DV,' :DUWRü 17 Typy magazynów danych • W jaki sposób wielowymiarowy model danych jest przechowywany i przetwarzany w magazynie danych? 'ZDSRGHMFLD]DOH*QLHRGPRGHOXGDQ\FK 1. 2. Magazyn danych wykorzystujcy model relacyjny, nazywany równie* ROLAP (ang. Relational OLAP) Magazyn danych wykorzystujcy model wielowymiarowy, nazywany równie* MOLAP (ang. Multidimensional OLAP) ROLAP • 'DQHVSU]HFKRZ\ZDQHZVSHFMDOL]RZDQ\FKUHODFMDFK • Schemat logiczny magazynu ROLAP odpowiada strukturze schematu poj ciowego (centralna relacja faktów powizana kluczami obcymi z odpowiednimi relacjami wymiarów) • W przypadku schematu páatka niegu, relacje wymiarów s znormalizowane - wyodr bnienia hierarchii wymiaru • Charakteryzuje si du* skalowalnoci i elastycznoci • W stosunku do magazynów typu MOLAP cechuj si ni*sz efektywnoci przetwarzania danych 18 MOLAP • Dane przechowywane w specjalizowanych wielowymiarowych tablicach (ang. multidimensional arrays) zwanych te* kostkami danych (ang. data cubes) • Pozycja komórki wielowymiarowej tablicy jest wyznaczona przez kombinacj wartoci odpowiednich wymiarów • Tablice zawieraj równie* wst pnie przetworzone, tj. zagregowane dane • Kostki danych s tworzone przed rozpocz ciem przetwarzania i maj charakter statyczny • Charakteryzuj si wysok efektywnoci wielowymiarowego przetwarzania danych, jednak*e, w stosunku do magazynów typu ROLAP, cechuj si gorsz skalowalnoci i elastycznoci Efektywnoü magazynów danych • W celu poprawy efektywnoci dziaáania magazynów danych stosuje si wiele technik: – materializowanie agregatów, – przetwarzanie równolegáe, – partycjonowanie danych – indeksowanie danych 19 Indeksowanie danych • Indeksowanie danych polega na áczeniu wartoci indeksowanego atrybutu z adresami fizycznych bloków dyskowychZNWyU\FKSU]HFKRZ\ZDQHVUHNRUG\RGDQHM ZDUWRFL • 3RSUDZLDM]QDF]FRF]DVGRVW SXGRGDQ\FK • 0DJD]\QGDQ\FKMHVWVWDW\F]Q\GRPLQXMRGF]\W\ • Definiuj indeksy na kluczu podstawowym i kluczach obcych – zawsze! • Nowe typy indeksów: – Indeks bitmapowy – ,QGHNVSRáF]HQLRZ\ Indeks bitmapowy • Dla ka*dej unikalnej wartoci atrybutu jest przechowywana mapa bitowa • Ka*dy bit mapy odpowiada jednej krotce relacji R • Dla mapy A=’w’ bit n przyjmuje wartoü jeden, jeli atrybut A krotki o numerze n przyjmuje wartoü ‘w’, w przeciwnym przypadku bit n przyjmuje wartoü zero • Indeks bitmapowy jest zbiorem map bitowych • Indeks bitmapowy posiada struktur B–drzewa, w którego liciach zamiast adresów rekordów s przechowywane mapy bitowe 20 Indeks bitmapowy Sprzeda* klientID marka kolor Kolor zielony niebieski 1010 Fiat zielony 1 0 1020 BMW niebieski 0 1 1030 Fiat zielony 1 0 1040 Audi zielony 1 0 1050 Volvo zielony 1 0 1060 Fiat niebieski 0 1 1070 Ford niebieski 0 1 1080 Opel zielony 1 0 1090 Opel niebieski 0 1 1100 Ford zielony 1 0 ,QGHNVSRáF]HQLRZ\ • Indeks SRáF]HQLRZ\ (ang. join index) áczy z sob krotki z ró*nych relacji posiadajce t sam wartoü atrybutu poáczeniowego (jest wi c struktur zawierajc zmaterializowane poáczenie wielu relacji) • Indeks SRáF]HQLRZ\ posiada struktur B–drzewa zbudowanego na atrybucie poáczeniowym relacji • Dla magazynu danych o strukturze gwiazdy indeks poáczeniowy wi*e krotki relacji wymiaru (lub wymiarów) z krotkami relacji faktów • Bitmapowy indeks poáczeniowy (ang. bit–mapped join index) - w liciach zamiast adresów krotek znajduj si mapy bitowe opisujce krotki áczonych relacji 21 ,QGHNVSRáF]HQLRZ\ product sale id p1 p2 rId r1 r2 r3 r4 r5 r6 nam e price jIndex bolt 10 r1,r3,r5,r6 nut 5 r2,r4 prodId storeId p1 c1 p2 c1 p1 c3 p2 c2 p1 c1 p1 c2 date 1 1 1 1 2 2 am t 12 11 50 8 44 4 Materializacja perspektyw • Wst pne przeprowadzenie oblicze i zmaterializowanie otrzymanych wyników w magazynie danych w celu ich pó(niejszego wykorzystania • Materializacja agregatów oraz perspektyw • Dwa zasadnicze pytania: (1) które z agregatów materializowaü, a które agregaty pozostawiü do oblicze w trybie on-line, (2) w jaki sposób piel gnowaü materializowane agregaty (ponowne obliczanie agregatów, inkrementalna piel gnacja agregatów) • Czy materializowaü SRUHGQLHZ\QLNL oblicze (nie tylko agregaty), np. wyniki niektórych operacji poácze, które s wspólne dla wielu agregatów? 22 6HOHNFMDLSLHO JQDFMD materializowanych perspektyw • 5HGXNFMDF]DVXRGSRZLHG]LL]DM WRFLSDPL FL • Wybór perspektyw, które nale*y zmaterializowaü, zale*y od charakterystyki obci*enia, cz stoci okrelonych zapyta, kosztu przechowywania i aktualizacji perspektyw • Zaproponowano w literaturze szereg heurystyk • 'DQHVDNWXDOL]RZDQHZFLJXURNXZ]UDVWDM dwukrotnie) • :MDNLVSRVyESLHO JQRZDü – :\OLF]DQLHRGSRF]WNX – 3LHO JQDFMDLQNUHPHQWDOQD • 0DWHULDOL]DFMDZ\QLNyZSRUHGQLFKGHILF\WRZ\LQVW\WXW Przetwarzanie równolegáe • Przetwarzanie równolegáe (ang. parallel processing) polega na rozbiciu záo*onych operacji na mniejsze, które nast pnie s wykonywane równolegle, np. na wielu procesorach lub komputerach • Równolegle przetwarzanie zapyta, sortowanie danych, operacje odczytu i zapisu na dysk, budowa relacji i indeksów, áDGRZDQLHGDQ\FK do magazynu danych 23 Partycjonowanie danych • Partycjonowanie danych (ang. data partitioning) polega na automatycznym rozpraszaniu danych (pochodzcych z jednej lub wielu relacji) na wielu dyskach, znajdujcych si w tym samym lub wielu w záach (komputerach) sieci • Zyski: (1) bardzo kosztowne operacje wejcia/wyjcia, mog byü wykonywane równolegle, (2) równowa*one jest obci*enie dysków, (3) polecenia SQL mog byü wykonywane równolegle, np. tworzenie relacji i indeksów, wykonywanie zapyta, (4) wzrasta bezpieczestwo danych w przypadku awarii sprz tu, (5) wzrasta szybkoü tworzenia kopii zapasowych magazynu danych i szybkoü odtwarzania danych po awarii. Wnioski • Magazyn danych jest nie jest produktem ani te* aplikacj • Jest to architektura przetwarzania danych opracowana z myl o budowie systemów wspomagania podejmowania decyzji • Jakie problemy pozostaj nadal nierozwizane lub wymagaj nowych rozwiza w zakresie technologii magazynów danych? • Problem aktualizacji wymiarów i ewolucji schematu magazynu danych – temporalne i wielowersyjne magazyny danych • Narz dzia i techniki akwizycji danych (czyszczenie danych, rozwizywanie niespójnoci danych) 24 Wnioski • 2SW\PDOL]DFMD]DS\WD • Algorytmy selekcji i piel gnacji materializowanych perspektyw • Narz dzi do zarzdzania metadanymi • Technikami odtwarzania magazynu danych po awarii w czasie procesu áadowania i odwie*ania danych • Technikami automatycznego archiwizowania danych w momencie ich dezaktualizacji Technologia magazynów danych jest cigle jeszcze technologi na etapie rozwoju 25