Hurtownie danych — wprowadzenie
Transkrypt
Hurtownie danych — wprowadzenie
Hurtownie danych — wprowadzenie * GU LQ 7RPDV] 7UDF]\N Instytut Automatyki i Informatyki Stosowanej Politechniki Warszawskiej :VW S %\ VSUDZQLH ]DU]G]Dü ZVSyáF]HVQ RUJDQL]DFM WU]HED PLHü VWDá\ GRVW S GR GDQ\FK GRW\F]F\FK G]LDáDOQRFL RUJDQL]DFML 0XVL WR E\ü GRVW S ]RUJDQL]RZDQ\ Z WDNL VSRVyE E\ GDQH PRJá\ E\ü Z\No- U]\VW\ZDQH Z SURFHVLH GHF\]\MQ\P D WR Z\PDJD PR* OLZR FL WZRU]HQLD DQDOL] REHMPXMF\FK FDáRü organizacji. : GX* \FK RUJDQL]DFMDFK ZV]\VWNLH GDQH (UyGáRZH V QD RJyá ]ELHUDQH L SU]HFKRZ\ZDQH Z IRUPLH HOHNWURQLF]QHM 6 MHGQDN UR]SURV]RQH Z ZLHOX Uy*Q\FK V\VWHPDFK LQIRUPDW\F]Q\FK FR XQLHPR *OLZLD LFK HIHNW\ZQH Z\NRU]\VWDQLH GR ]DU]G]DQLD 7R F]HJR SRWU]HED WR PR* OLZRü HIHNW\ZQHJR SU]HWZDU]DQLD DQDOLW\F]QHJR FDáRFL LVWRWQ\FK Ga- Q\FK GRW\F]F\FK RUJDQ izacji. 'DQH ]ZDQH RSHUDF\MQ\PL ² ]JURPDG]RQH Z LVWQLHMF\FK V\VWHPDFK LQIRUPDW\F]Q\FK QS REVáu- JXMF\FK VSU]HGD* SURGXNFM NVL JRZRü PDJD]\Q\ ² QLH QDGDM VL GR HIHNW\ZQHJR Z\NRU]\VWa- QLD Z ]DU]G]DQLX SRQLHZD* V UR]SURV]RQH QLHMHGQRURGQH D V\VWHP\ LQIRUPDW\F]QH F] VWR QLH V ]LQWHJURZDQH DQL QDZHW SRáF]RQH 6\VWHP\ LQIRUPDW\F]QH Z RUJDQL]DFML SRFKRG] ]Z\NOH RG ZLHOX SURGXFHQWyZ SU]HFKRZXM GDQH Z Uy* Q\FK ED]DFK GDQ\FK L V\VWHPDFK ]DSLVX GDQH V Z Uy*Q\FK IRUPDWDFK D LFK EXGRZD RSLHUDü VL PR* H QD Uy*Q\FK PRGHODFK GDQ\FK 8NáDG GDQ\FK MHVW GRVWRVo- ZDQ\ GR SRWU]HE RSHUDF\MQ\FK GDQH V ZL F SU]HFKRZ\ZDQH Z VSRVyE XPR* OLZLDMF\ LFK HIHNW\ZQ PRG\ILNDFM D XNáDG WDNL ] UHJXá\ QLH VSU]\MD VSUDZQHM DQDOL]LH : RSHUDF\MQ\FK ED]DFK GDQ\FK SU]HFKRZXMH VL QD RJyá GDQH RG]ZLHUFLHGODMFH MHG\QLH VWDQ DNWXDOQ\ OXE QDMQRZV] KLVWRUL W\PF]a- VHP GR DQDOL] L SRUyZQD PRJ E\ü SRWU]HEQH GáXJRRNUHVRZH GDQH KLVWRU\Fzne. 2SURJUDPRZDQLH ]DU]G]DMFH GDQ\PL RSHUDF\MQ\PL WDN* H QLH QDGDMH VL GREU]H GR SU]HWZDU]DQLD DQDOLW\F]QHJR JG\* MHVW ]RSW\PDOL]RZDQH GR LQQ\FK FHOyZ 1DMF] FLHM V\VWHP\ WH VSUDZQLH REVáu- JXM ZLHON OLF]E VWRVXQNRZR QLHZLHONLFK WUDQVDNFML Z\NRQ\ZDQ\FK UyZQRF]H QLH SU]H] ZLHOX X*\t- NRZQLNyZ 7\PF]DVHP Z SU]HWZDU]DQLX DQDOLW\F]Q\P ZLHORGRVW S L HIHNW\ZQD PRG\ILNDFMD GDQ\FK V SUREOHPDPL GUXJRU] GQ\PL ,VWRWQD MHVW QDWRPLDVW HIHNW\ZQRü RSHUDFML Z\V]XNLZDQLD RGF]\WX L DJUHJRZDQLD EDUG]R GX* \FK REM WRFL Ganych. &HFK\ GDQ\FK RSHUDF\MQ\FK ]JURPDG]RQ\FK Z RUJDQL]DFMDFK SRZRGXM *H EH]SRUHGQLD DQDOL]D W\FK GDQ\FK GR FHOyZ ]DU]G]DQLD MHVW EDUG]R WUXGQD L QLHHIHNW\ZQD DOER Z RJyOH QLHPR* OLZD 3o- WU]HEQH V ]DWHP LQQH VSHFMDOQH UR]ZL]DQLD WHFKQLF]QH L RUJDQL]DF\MQH :áDFLZ\P UR]ZL]DQLHP MHVW VWZRU]HQLH VSHFMDOQ\FK V\VWHPyZ LQIRUPDW\F]Q\FK NWyUH VFDODM GDQH ] Uy* Q\FK (UyGHá SU]HFKRZXM GDQH KLVWRU\F]QH L HIHNW\ZQLH XGRVW SQLDM GDQH GR DQDOL]\ 5R]ZyM WHFKQRORJLL GDMF PR* OLZRü VWRVXQNRZR WDQLHJR JURPDG]HQLD L HIHNW\ZQHJR SU]HWZDU]DQLD ZLHONLFK REM WRFL GDQ\FK So]ZROLá VWZRU]\ü WDNLH V\VWHP\ ]ZDQH KXUWRZQLDPL GDQ\FK Hurtownie danych Hurtownia danych (magazyn danych, data warehouse MHVW Z\G]LHORQ FHQWUDOQ ED] GDQ\FK ]ELHUDMF LQIRUPDFMH VáX*FH GR ]DU]G]DQLD RUJDQL]DFM %D]D WD MHVW RGL]RORZDQD RG ED] RSHUDF\j- Q\FK D MHM VWUXNWXUD L X*\WH GR MHM EXGRZ\ QDU] G]LD SRZLQQ\ E\ü ]RSW\PDOL]RZDQH SRG NWHP SU]eWZDU]DQLD DQDOLW\F]QHJR : KXUWRZQL V JURPDG]RQH GDQH SR]\VNLZDQH RNUHVRZR ] V\VWHPyZ REVáu- gujcych dane operacyjne. +XUWRZQLD MHVW VFHQWUDOL]RZDQ ED] GDQ\FK RGG]LHORQ RG ED] RSHUDF\MQ\FK 6FDOD RQD LQIRUPa- FM ] ZLHOX (UyGHá JURPDG]F GDQH ]RULHQWRZDQH WHPDW\F]QLH VáX*FH GR SRWU]HEQ\FK DQaliz. : KXUWRZQLDFK SU]HFKRZXMH VL GDQH HOHPHQWDUQH NWyUH V NRSLDPL DNWXDOQ\FK GDQ\FK Z\FK ] ED] RSHUDF\MQ\FK ZDUWRFL REOLF]H VXP\ (UyGáo- 3RQDGWR SU]HFKRZXMH VL W]Z ]PDWHULDOL]RZDQH DJUHJDW\ ² Z\OLF]RQH UHGQLH LWS Z Uy* Q\FK SU]HNURMDFK QS VXP\ ZDUWRFL VSU]HGD* \ Z MH d- QRVWNDFK F]DVX L Z SRG]LDOH WHU\WRULDOQ\P L QD Uy*Q\FK VWRSQLDFK DJUHJDFML QS VXP\ G]LHQQH PLeVL F]QH L URF]QH 'DQH JURPDG]RQH Z KXUWRZQLDFK GDQ\FK V ]Z\NOH GR QLFK áDGRZDQH RNUHVRZR : F]DVLH áDGo- ZDQLD GRNRQ\ZDQH MHVW VFDOHQLH L XMHGQROLFHQLH GDQ\FK RUD] LFK DJUHJDFMD 'DQH ZF]H QLHM LVWQLHMFH Z KXUWRZQL SR]RVWDM Z QLHM MDNR KLVWRU\F]QH 'DQH QD RJyá QLH V Z RJyOH ] KXUWRZQL XVXZDQH Z czasie jej normalnej eksploatacji. 2]QDF]D WR *H LORü LQIRUPDFML ]JURPDG]RQHM Z W\SRZHM KXUWRZQL VWDOH URQLH 1DZHW QLHZLHOND FR GR ]DNUHVX WHPDW\F]QHJR KXUWRZQLD GDQ\FK V]\ENR RVLJD ZL F GX* H UR]PLDU\ 6SHFMDOQ\ URG]DM GDQ\FK SU]HFKRZ\ZDQ\FK Z KXUWRZQL VWDQRZL W]Z PHWDGDQH VáRZQLNRZH RSLVXMFH VWUXNWXU KXUWRZQL GDQ\FK L (UyGáRZ\FK LQIRUPDFMH ED] GDQ\FK RUD] VSRVyE SR]\VNLZDQLD danych i wyliczania danych zagregowanych. +XUWRZQLH L VNáDGQLFH GDQ\FK 'R JURPDG]HQLD GDQ\FK GRW\F]F\FK FDáHM RUJDQL]DFML NRQLHF]QH MHVW VWZRU]HQLH FHQWUDOQHM XQi- ZHUVDOQHM KXUWRZQL GDQ\FK SU]HFKRZXMFHM GDQH QLH]E GQH GR WZRU]HQLD Uy*QRURGQ\FK DQDOL] 2 LOH ]HVWDZ GDQ\FK HOHPHQWDUQ\FK SRWU]HEQ\FK GR EDUG]R ZLHOX Uy* Q\FK DQDOL] ]Z\NOH MHVW So- GREQ\ QS V]F]HJyáRZH GDQH R SURGXNFML L VSU]HGD* \ WR SR* GDQ\ VSRVyE DJUHJDFML GDQ\FK VLOQLH ]DOH* \ RG URG]DMX SURZDG]RQ\FK DQDOL] 3RV]F]HJyOQH Z\G]LDá\ RUJDQL]DFML PRJ SRWU]HERZDü Uy*- 'ODWHJR WZRU]\ VL PQLHMV]H Z\VSHFMDOL]RZDQH Q\FK GDQ\FK ]DJUHJRZDQ\FK Z RGPLHQQ\ VSRVyE VNáDGQLFH Ganych (data marts ]Z\NOH WZRU]RQH GOD Z\G]LDáyZ RUJDQL]DFML Centralna hurtownia danych (data warehouse MHVW QLH]DOH* QD RG ]DVWRVRZDQLD L JURPDG]L GDQH HOHPHQWDUQH SRNU\ZDMFH SRWU]HE\ ZV]\VWNLFK SU]HZLG\ZDQ\FK DQDOL] -HVW WR ED]D VFHQWUDOL]RZDQD L SU]H]QDF]RQD GR Z\NRU]\VWDQLD Z FDáHM RUJDQL]DFML =DZLHUD GDQH KLVWRU\F]QH L SU]HFKRZXMH GDQH PDáR ]DJUHJRZDQH 'DQH Z FHQWUDOQHM KXUWRZQL SRFKRG] ] ZLHOX 7\PF]DVHP VNáDGQLFH GDQ\FK data marts V VSHF\ILF]QH (UyGHá RSHUDF\MQ\FK GOD ]DVWRVRZDQLD ² LFK EXGRZD MHVW Ln- QD Z ND* G\P ] Z\G]LDáyZ GRVWRVRZDQD GR SURZDG]RQ\FK WDP DQDOL] 'DQH Z Uy* Q\FK VNáDGQLFDFK SRZWDU]DM VL 'DQH V ]Z\NOH VLOQLH ]DJUHJRZDQH L zdenormalizowane, struktura danych jest bo- ZLHP ]RSW\PDOL]RZDQD SRG NWHP HIHNW\ZQRFL ORNDOQLH SURZDG]RQ\FK DQDOL] 1DMF] FLHM VNáDGQLFH GDQ\FK PDM W\ONR MHGQR (UyGáR GDQ\FK ² FHQWUDOQ KXUWRZQL GDQ\FK Analiza danych 'DQH ]JURPDG]RQH Z KXUWRZQLDFK L VNáDGQLFDFK GDQ\FK V ]Z\NOH Z\NRU]\VW\ZDQH SU]H] PHQe- G* HUyZ NWyU]\ SRVáXJXM VL V\VWHPDPL ZVSRPDJDQLD GHF\]ML :\NRQXM RQL Uy* QHJR URG]DMX DQDOi]\ ZUyG NWyU\FK QDMZD* QLHMV]H V DQDOL]D ZLHORZ\PLDURZD L HNVSORUDFMD GDQ\FK (NVSORUDFMD GDQ\FK GU*HQLH GDQ\FK zbiorach danych. data mining) WR EDGDQLH L PRGHORZDQLH ]DOH* QRFL Z GX* \FK &] VW\P ]DGDQLHP HNVSORUDFML MHVW DXWRPDW\F]QH RGNU\ZDQLH Z GDQ\FK ZF]H QLHM QLH]QDQ\FK ]DOH* QRFL 1D RJyá Z\NRU]\VWXMH VL GR WHJR RVLJQL FLD V]WXFznej inteligencji. 6]F]HJyOQLH ZD* Q URO Z Z\NRU]\VWDQLX GDQ\FK ]JURPDG]RQ\FK Z KXUWRZQLDFK RGJU\ZD DQDOL]D ZLHORZ\PLDURZD E GFD SRGVWDZ SU]HWZDU]DQLD DQDOLW\F]QHJR 2/$3 ² essing On-line Analytical Proc- 'DQH JURPDG]RQH Z KXUWRZQLDFK GDQ\FK QDMF] FLHM PDM ERZLHP FKDUDNWHU ZLHORZ\PLa- URZ\ FR Z\QLND ] SRWU]HE\ SURZDG]HQLD DQDOL] ZSá\ZX ZLHOX Uy* Q\FK F]\QQLNyZ QD ]MDZLVND ]DFKo- G]FH Z RUJDQL]DFML Analiza wielowymiarowa Struktura wielowymiarowa przedstawia elementarne komórki danych, tzw. fakty, w funkcji wielu nie]DOH*Q\FK F]\QQLNyZ ]ZDQ\FK Z\PLDUDPL :\PLDU\ V RSLVDQH ZDUWRFLDPL G\VNUHWQ\PL NWyUH PRJ WZRU]\ü KLHUDUFKLH 7\SRZH Z\PLDU\ WR QS F]DV QS Z GQLDFK PLHVLFDFK NZDUWDáDFK ODWDFK SURGXNW QS W\S L URG]DM MHGQRVWND RUJaQL]DF\MQD QS Z\G]LDá RGG]LDá OXE WHU\WRULDOQD QS JPLQQD SRZLDWRZD ZRMHZyG]ND )DNW\ V RSLVDQH DWU\EXWDPL OLF]ERZ\PL W]Z PLDUDPL 1DMEDUG]LHM W\SRZ\P IDNWHP MHVW VSU]e- GD* NWyUHM PLDUDPL V QS LORü VSU]HGDQHJR WRZDUX L MHJR ZDUWRü : F]DVLH DQDOL]\ GDQH ZLHORZ\PLDURZH V SRGGDZDQH SHZQ\P W\SRZ\P RSHUDFMRP WDNLP MDN REUDFDQLH VHOHNFMD Z\EyU LQWHUHVXMF\FK HOHPHQWyZ Z\PLDUyZ SURMHNFMD ]PQLHMV]HQLH OLF]E\ Z\PLDUyZ GDQH ]RVWDM ]DJUHJRZDQH Z]JO GHP XVXQL W\FK Z\PLDUyZ Z\FLQDQLH slice and dice ² SRáF]HQLH VHOHNFML L SURMHNFML UDQNLQJ XV]HUHJRZDQLH HOHPHQWyZ Z\PLDUX ZJ Z]URVWX PLary lub jej agregatu), zwijanie i rozwijanie (roll-up i drill-down — nawigacja po hierarchii wymiaru, SRáF]RQD RGSRZLHGQLR ] DJUHJDFM OXE GH]DJUHJDFM PLDU &HOHP W\FK ZV]\VWNLFK RSHUDFML MHVW ]Z\NOH GRJRGQD SUH]HQWDFMD GDQ\FK QD SáDV]F]\( QLH GZXZy- PLDURZHM Z WDNLHM ÄSHUVSHNW\ZLH´ MDND SRWU]HEQD MHVW DQDOL]XMFHPX )DNW\ VWDQRZL FHQWUDOQ\ SXQNW VWUXNWXU\ GDQ\FK ZLHORZ\PLDURZ\FK V RQH SRZL]DQH ]ZL]Na6WUXNWXUD GDQ\FK SU]\ELHUD QD RJyá IRUP JZLD( G]LVW starnet) PL ] Z\PLDUDPL WZRU] SURVWH OLQLRZH KLHUDUFKLH DOER ÄSáDWND QLHJX´ snowflake — gdy wymiary ² JG\ KLHUDUFKLH Z\PLDUyZ PDM SRVWDü GU]HZ 5HSUH]HQWDFMD WDNLFK GDQ\FK Z UHODF\MQ\FK ED]DFK GDQ\FK SURZDG]L GR ]áR* RQ\FK VWUXNWXU WUXd'ODWHJR RERN V\VWHPyZ ]EXGRZDQ\FK ] X* \FLHP UHODF\MQ\FK Q\FK GR HIHNW\ZQHJR SU]HWZDU]DQLD baz danych (tzw. ROLAP — Relational OLAP VWRVXMH VL F] VWR VSHFMDOL]RZDQH VHUZHU\ ZLHORZymiarowe (MOLAP — Multidimensional OLAP 6\VWHP\ UHODF\MQH V Z VWDQLH SU]HFKRZ\ZDü RJURPQH LORFL GDQ\FK WHUDEDMW\ DOH Z\GDMQRü DQDOL] MHVW Z QLFK PLHUQD 6HUZHU\ ZLHORZ\PLDURZH V Z VWDQLH REVáXJLZDü EDUG]R HIHNW\ZQLH ]DS\WDQLD DQDOLW\F]QH DOH PRJ SRPLHFLü PQLHMV]H REM Wo- FL GDQ\FK JLJDEDMW\ 'ODWHJR GR WZRU]HQLD ZLHONLFK FHQWUDOQ\FK KXUWRZQL GDQ\FK VWRVXMH VL F] VWR UR]ZL]DQLD 52/$3 SRGF]DV JG\ Z\G]LDáRZH VNáDGQLFH GDQ\FK WZRU]\ VL X* \ZDMF WHFKQRORJLL MOLAP. 1DU] G]LD GR DQDOL]\ 2/$3 3U]HWZDU]DQLH DQDOLW\F]QH 2/$3 PXVL SR]ZDODü QD HIHNW\ZQH DQDOL]RZDQLH ZLHONLHM LOR FL GDQ\FK Z URGRZLVNX ZLHORGRVW SQ\P * * 3UH]HQWDFMD GDQ\FK PXVL E\ü QLH]DOH QD RG VSRVREX LFK SU]HFKRZ y- ZDQLD D WZRU]HQLH Uy QRURGQ\FK IRUP SUH]HQWDFML Z\QLNyZ DQDOL]\ PXVL E\ü áDWZH L V]\ENLH * 'ODWHJR GR EXGRZDQLD DSOLNDFML W\SX 2/$3 QLH X \ZD VL DSOLNDFML 6WRVXMH VL * SU]\MD]Q\PL JG\ * LFK X \WNRZQLNDPL QLH PDM QD RJyá W\SRZ\FK QDU] G]L GR WZRU]HQLD Z\GDMQH QDU] G]LD VSHFMDOL]RZDQH NWyUH PXV] SU]\ W\P E\ü QDU] G]LDPL E\ü SURJUDPL FL OHF] VSHFMDOL FL ] G]LHG]LQ\ ]DU] - dzania. 1D U\QNX VSRW\ND VL * * * y- WDN H JRWRZH DSOLNDFMH DQDOLW\F]QH UR]ZL ]XM FH W\SRZH SUREOHP\ DOH Z izy. SRVD RQH Z PR OLZR FL áDWZHJR UR]EXGRZ\ZDQLD R QRZH DQDO Podsumowanie oo- 3U]HWZDU]DQLH DQDOLW\F]QH GDQ\FK ]JURPDG]RQ\FK Z RUJDQL]DFMDFK VWDáR QLH]E GQH GR SUDZLGá ZHJR ]DU] G]DQLD 'DQH SRWU]HEQH GR DQDOL] V MHGQDN QD RJyá UR]SURV]RQH L QLHGRVWRVRZDQH GR S WU]HE DQDOL]\ * .RQFHSFMD KXUWRZQL GDQ\FK VWDQRZL MHGQR ] PR OLZ\FK UR]ZL ]D UR]ZL ]DQLH MDN VL WHJR SUREOHPX ² Z\GDMH REHFQLH GRPLQXM FH ] U\]\NLHP RUD] ]QDF]Qy*H ZL NV]Rü GX*\FK RUJDQi]DFML GHF\GXMH VL QD EXGRZ KXUWRZQL :DUWRü U\QNX KXUWRZQL GDQ\FK VWDOH G\QDPLF]QLH URQLH D QLHPDO ZV]\VF\ ]QDF]F\ SURGXFHQFL RSURJUDPRZDQLD PDM MX* Z VZHM RIHUFLH QDU] G]LD SU]H]QDF]o- BXGRZD *H KXUWRZQL GDQ\FK QLH MHVW SU]HGVL Z]L FLHP SURVW\P L ZL PL NRV]WDPL VL 3RWU]HED DQDOL]RZDQLD GDQ\FK MHVW MHGQDN QD W\OH LVWRWQD ne do budowy hurtowni i do wielowymiarowej analizy danych. +XUWRZQLH GDQ\FK V * EXGRZDQH WDN H Z 3ROVFH 7ZRU] * MH SU]HGH ZV]\VWNLP GX H RUJDQL]DFMH JRVSRGDUF]H ]ZáDV]F]D ] G]LHG]LQ\ EDQNRZR FL WHOHNRPXQLNDFML L KDQGOX Literatura [1] W.H. Inmon: Building the Data Warehouse. J. Wiley, 1992. [2] H.S. Gill, P.C. Rao: The Official Client/Server Computing Guide to Data Warehousing. QUE, 1996. [3] T. .RV]ODMGD 7HFKQRORJLD 0DJD]\QyZ 'DQ\FK 0DWHULDá\ ,,, .RQIHUHQFML 3/28* Systemy Informatyczne — Nowe Trendy i Technologie. Zakopane, listopad 1997. [4] M. 0DW\VLDN 7HFKQRORJLD 2/$3 0DWHULDá\ ,,, .RQIHUHQFML 3/28* Systemy Informatyczne — Nowe Trendy i Technologie. Zakopane, listopad 1997. [5] 7 7UDF]\N +XUWRZQLH GDQ\FK 0DWHULDá\ NRQIHUHQFML Centrum Promocji Informatyki Bazy danych. Kazimierz Dolny, kwieFLH [6] Hurtownie danych. Raport Computer World Polska :U]HVLH Informacja o autorze: * GU LQ 7RPDV] 7UDF]\N MHVW DGLXQNWHP Z ,QVW\WXFLH $XWRPDW\NL L ,QIRUPDW\NL 6WRVRZDQHM Politechniki Warszawskiej e-mail: [email protected] URL: http://www.ia.pw.edu.pl/~ttraczyk/