Eksploracja danych dla telekomunikacji
Transkrypt
Eksploracja danych dla telekomunikacji
Eksploracja danych dla telekomunikacji 0LHF]\VáDZMuraszkiewicz (htttp://www.icie.com.pl/mrm.htm ; [email protected]) Instytut Informatyki Teoretycznej i Stosowanej PAN, Instytut Informatyki Politechniki Warszawskiej Streszczenie. $UW\NXáZSURZDG]DZSUREOHPDW\N HNVSORUDFMLGDQ\FKang. data miningLSRND]XMHMDNLHV PR*OLZRFL Z\NRU]\VWDQLD HNVSORUDFML GDQ\FK Z WHOHNRPXQLNDFML 2SLVDQR F]WHU\ WHFKQLNL HNVSORUDFML GaQ\FKDPLDQRZLFLHNODV\ILNDFM UHJUHVM JUXSRZDQLHLNRMDU]HQLH:FHOXSU]\EOL*HQLDRPDZLDQHMSUREOePDW\NLSRGDQRSU]\NáDGHNVSORUDFMLGanych. :VW S 6SyMU]P\QDSHZQHGZLHUyZQROHJOHZ\VW SXMFHZLQIRUPDW\FHWHQGHQFMHSLHUZV]D±]DFKRG]L ZZLHFLH]DVWRVRZDGUXJD±ZZLHFLHEDGD : REV]DU]H ]DVWRVRZD REVHUZXMHP\ Z RVWDWQLFK WU]HFK GHNDGDFK QDG]Z\F]DM V]\ENL L SoZV]HFKQ\ UR]ZyM V\VWHPyZ LQIRUPDF\MQ\FK D ]ZáDV]F]D RJURPQH SU]\VSLHV]HQLH NWyUH Z W\P Z]JO G]LHVSRZRGRZDá,QWHUQHW:áDFLZDOXG]LRPVNáRQQRüGRGRNXPHQWRZDQLDVZ\FKG]LDáDL JURPDG]HQLD LQIRUPDFML RUD] GáXJRWUZDáHJR LFK SU]HFKRZ\ZDQLD VSUDZLá\ *H LVWQLHMFH ]DVRE\ LQIRUPDF\MQH]DZDUWHZUy*QRUDNLFKED]DFKGDQ\FKVQLH]Z\NOHGX*HLVWDOHURVQ'DQ\FKW\FK MHVWW\OH*HLFKSHáQDLSRJá ELRQDDQDOL]DMHVWQLH]Z\NOHWUXGQ\PF]DVRFKáRQQ\PLNRV]WRZQ\P SU]HGVL Z]L FLHP$MHGQRF]HQLHGRZLDGF]HQLHLLQWXLFMDSRGSRZLDGDM*HZW\PRFHDQLHLQIRrPDFMLPR*HE\üXNU\WDQLH]QDQDQDPDF]SUDZGRSRGREQLHFHQQDLSR*\WHF]QDZLHG]DRZLHFLH] NWyUHJRWHLQIRUPDFMHSRFKRG] 1LHG]LZL]DWHPS\WDQLHZáDFLFLHOLEDUG]RGX*\FKED]GDQ\FKZURG]DMXRSHUDWRUyZWHOHNRPuQLNDF\MQ\FK JOREDOQ\FK VLHFL KDQGORZ\FK F]\ EDQNyZ R WR F]\ LVWQLHM ± D MHOL WDN WR MDNLH ± metody odkrywania ukrytej w tych bazach wiedzy. Pytanie takie nie jest zapewne motywowane FLHNDZRFL SR]QDZF] SRWHQWDWyZ JRVSRGDUF]\FK FKRG]L UDF]HM R RSDQRZDQLH L ZáF]HQLH GR VZ\FK UXW\QRZ\FK SUDF WHFKQLNL NWyUD ]DSHZQL SU]HZDJ NRQNXUHQF\MQ QD U\QNX L SR]ZROL ]ZL NV]\ü]\VNL7WHFKQLNPDE\üodkrywanie wiedzy w bazach danych. &RGRREV]DUXEDGDLQIRUPDW\F]Q\FKWRZUyGLQIRUPDW\NyZXSUDZLDMF\FKUHIOHNVM QDGVWaQHPLUR]ZRMHPLFKG]LHG]LQ\FRUD]F] FLHMLZ\UD(QLHMDUW\NXáRZDQHVRSLQLH*HSRVNXWHF]Q\P Z\SRVD*HQLX NRPSXWHUyZ Z URGNL RSHURZDQLD QD OLF]EDFK L SU]HWZDU]DQLD WHNVWX QDGV]HGá F]DV DE\ Z\NRU]\VWDü MH GR ]UR]XPLHQLD ]DVDG U]G]F\FK ZLDWHP Z NWyU\P *\MHP\ Richard HamPLQJ SRZLDGD ZSURVW ÄFHOHP L SU]HGPLRWHP SU]HWZDU]DQLD NRPSXWHURZHJR MHVW ZJOG Z QDV] ZLDWDQLHOLF]E\´&KRG]LZL FRWRDE\NRPSXWHU\VWDá\VL QDU] G]LDPLGREDGDRFKDUDNWHU]H epistemologicznym. %H]U\]\NDSRP\áNLPR*QDSRZLHG]LHü*HRGNU\ZDQLHZLHG]\LSRPRFZUR]XPLHQLXRWDF]DMFHJRQDVURGRZLVNDQLHEDZHPQDELRUZL NV]HJR]QDF]HQLDQL*NODV\F]QH]DVWRVRZDQLDNRPSXWerów takie, jak automatyzacja magazynów, optymalizacja produkcji, projektowanie wspomagane komputerowo itd. Gio Widerhold ze Stanford 8QLYHUVLW\WZLHUG]L*HÄRGNU\ZDQLHZLHG]\VWDMHVL QDMEDUG]LHMSR*GDQ\PSURGXNWHPNRFRZ\PSU]HWZDU]DQLDNRPSXWHURZHJRL *H]QDF]HQLH ZLeG]\ X]\VNLZDQHM Z WHQ VSRVyE MHVW WDN GX*H L* W\ONR ]DELHJL PDMFH QD FHOX RFKURQ URGRZLVND QDWXUDOQHJRPDMZL NV]ZDJ ´2SLQLDWD]QDMGXMHSRWZLHUG]HQLHZVWZLHUG]HQLXJohna Naisbetta, NWyU\SRZLHG]LDá*HÄFKRüWRQLHP\ZLQIRUPDFMLWRQDMEDUG]LHMSRWU]HEXMHP\ZLedzy”. Terminy dane, informacja, wiedzaQLHSRGGDMVL áDWZRGHILQLRZDQLXLRGGDZQDMHOLQLHRG SRF]WNXLFKLVWQLHQLDVSU]HGPLRWHPNRQWURZHUVMLZDUW\NXOHW\P]DNáDGDP\*HLQWXLFMD&]\WHlQLNDZW\PZ]JO G]LHMHVWZ]JRG]LH]QDMF] VWV]\PUR]XPLHQLHPW\FKWHUPLQyZ 18 0LHF]\VáDZMuraszkiewicz $UW\NXáWHQPDQDVW SXMFEXGRZ :UR]G]LDOHGUXJLPZ\MDQLP\WHUPLQeksploracja danych, SR F]\P VSUyEXMHP\ X]DVDGQLü GODF]HJR ZDUWR NRU]\VWDü ] HNVSORUDFML GDQ\FK UR]G]LDá WU]HFL QDVW SQLH Z UR]G]LDOH F]ZDUW\P RPyZLP\ ZD*QLHMV]H WHFKQLNL HNVSORUDFML WDNLH MDN NODV\ILNDFMD UHJUHVMDJUXSRZDQLHLNRMDU]HQLD.ROHMQ\SLW\UR]G]LDáMHVWSRZLHFRQ\G\VNXVMLQDWHPDWWHJR F]\PHNVSORUDFMDGDQ\FKQLHMHVW'DOHMZUR]G]LDOHV]yVW\PZFHOXOHSV]HJRSU]\EOL*HQLDSUREOePDW\NL SU]HDQDOL]XMHP\ Z\LPDJLQRZDQ\ SU]\NáDG NWyU\ SRVáX*\ GR SU]HSURZDG]HQLD HNVSORUDFML GDQ\FK 5R]G]LDá VLyGP\ ]DU\VXMH VWUXNWXU SURFHVX HNVSORUDFML GDQ\FK SR F]\P Z UR]G]LDOH yVP\P Z\MDQLP\ WHUPLQ odkrywanie wiedzy L UHODFM WHJR WHUPLQX ] HNVSORUDFM GDQ\FK 5RzG]LDáG]LeZLW\ZFDáRFLSRZL FLP\HNVSORUDFMLGDQ\FKZWHOHNRPXQLNDFML 2. Eksploracja danych 5R]ZD*DQLDUR]SRF]QLHP\RGWHUPLQXZ *V]HJRQL*RGNU\ZDQLHZLHG]\DPLDQRZLFLHRGWHrminu eksploracja danych (ang. data mining:QDMZL NV]\PVNUyFLHUR]XPLHVL SU]H]QLRGNUyZDQLH ] GRVW SQ\FK ]DVREyZ GDQ\FK Uy*QHJR URG]DMX XRJyOQLH UHJXODUQRFL SUDZLGáRZRFL UeJXáD]DWHPF]HJRFRVWDQRZLSHZQZLHG] ]DZDUWimplicite w tych zasobach. (NVSORUDFMDGDQ\FKMHVWREHFQLHMHGQ\P]QDM*\ZLHMUR]ZLMDQ\FKWHPDWyZZLQIRUPDW\FH-HVW SU]HGPLRWHPUR]OHJá\FKEDGDG\VNXVMLWDN*HVSRUyZ3RZVWDMF]DVRSLVPDSRZL FRQHWHMG]LeG]LQLHRGE\ZDMVL OLF]QHNRQIHUHQFMHRUD]GRVNRQDOHIXQNFMRQXMRURGNLLQWHUQHWRZH]DMPXMFH VL WWHPDW\NQSwww.kdnuggets.com-HVWWR]DWHPG]LHG]LQDPáRGDZWUDNFLHSRV]XNLZDQLDL WZRU]HQLDZáDVQHMWR*VDPRFLPHWRGRORJLLLQDU] G]L1LHG]LZLZL F*HURGRZLVNRQLHGRSUDFoZDáR VL X]QDQ\FK SU]H] ZV]\VWNLFK V]F]HJyáRZ\FK GHILQLFML X*\ZDQHM WHUPLQRORJLL D Z W\P WDN podstawowych terminów jak, eksploracja danych, czy odkrywanie wiedzy w bazach danych (knowledge discovery in databases). O wzajemnej relacji tych dwóch terminów powiemy rozdziale ósmym. (NVSORUDFMDGDQ\FKLRGNU\ZDQLHZLHG]\SU]\FLJDMZLHOHXZDJLLZ\ZRáXMHPRFMH]DUyZQR Z URGRZLVNDFK EDGDZF]\FK MDN L ZUyG JUXS SU]HP\VáRZ\FK Z EL]QHVLH EDQNRZRFL KDQGOX XEH]SLHF]HQLDFKLWS3URZDG]LVL VSRURSURMHNWyZ]WHJR]DNUHVXZFL*MHGQDNQLHGRNRFDZLaGRPRMDNLHVPR*OLZRFLHNVSORUDFMLLRGNU\ZDQLDZLHG]\ZMDNLFKREV]DUDFKPR*QDMHVWRVRZDü QDMVNXWHF]QLHMLMDNLPLGRWHJRFHOXSRVáXJLZDüVL PHWRGDPL:D*QHZL FMHVWZWDNLPQLHXVWDOoQ\PVWDQLHXPLHüRGG]LHOLüQDG]LHMHLRELHWQLFHRGLVWQLHMF\FKUHDOQLHPR*OLZoFL Sama idea eksploracji danych i odkrywania wiedzy jest niezwykle prosta i bez przeszkód odZRáXMHVL GROXG]NLHMZ\REUD(QL7U]HEDMHGQDNRGUD]XPRFQRSRGNUHOLü*HSUDNW\F]QDUHDOL]DFMD WHM áDWZHM Z ]UR]XPLHQLX LGHL MHVW SU]HGVL Z]L FLHP WHFKQRORJLF]QLH L RUJDQL]DF\MQLH ]áR*RQ\P QLHNLHG\EDUG]RWUXGQ\P3RWU]HEQHWXV]DDZDQVRZDQHURGNLSURJUDPLVW\F]QHQLHW\SRZDRUJaQL]DFMDSUDF\RUD]±EDUG]RF] VWR±VL JQL FLHSRNRV]WRZQHNRQVXltacje specjalistyczne. :W\PDUW\NXOHSU]H]HNVSORUDFM GDQ\FKUR]XPLHP\SURFHVDXWRPDW\F]QHJRRGNU\ZDQLD]QaF]F\FKSR*\WHF]Q\FKGRW\FKF]DVQLH]QDQ\FKLZ\F]HUSXMF\FKLQIRUPDFML]GX*\FKED]GDQ\FK LQIRUPDFMLXMDZQLDMF\FKXNU\WZLHG] REDGDQ\PSU]HGPLRFLHZLHG]DWDSU]\MPXMHSRVWDüUHJXá SUDZLGáRZRFLWHQGHQFMLLNRUHODFMLLMHVWQDVW SQLHSU]HGVWDZLDQDSU]\JRWRZDQHPXGRMHMVSR*\tNRZDQLD X*\WNRZQLNRZL Z FHOX UR]ZL]DQLD VWRMF\FK SU]HG QLQLP SUREOHPyZ L SRGM FLD LVWRtnych decyzji. 3RWHMQLHFR]DZLáHMGHILQLFMLVSyMU]P\QDHNVSORUDFM SU]H]SU\]PDWMHMGRZFLSQHJRRNUHOHQLD ÄHNVSORUDFMDGDQ\FKSROHJDQDWRUWXURZDQLXGDQ\FKWDNGáXJRD*]DF]Q]H]QDZDü´,QQHUyZQLH RSLVRZHVSRMU]HQLHQDHNVSORUDFM ]DZLHUDVL ZSROHFHQLXNWyUHFKFLDáRE\VL VNLHURZDüGRED]\ GDQ\FKÄSRND*PLQLHW\ONRWRFRZLG] JRá\PRNLHPWZRMH]DVRE\SRND*WDN*HWRF]HJRQLH ZLG] ´ 7DNZL F]DVDGQLF]\PFHOHPHNVSORUDFMLGDQ\FKMHVWVL JQüPR*OLZLHQDMJá ELHMGRGRVW SQ\FK ]DVREyZLQIRUPDF\MQ\FKSRWRDE\RGSRZLHG]LHüQDS\WDQLDX*\WNRZQLNDRUHJXODUQRFLLSUDZiGáRZRFLLVWQLHMFHZZLHFLHUHSUH]HQWRZDQ\PSU]H]WH]DVRE\DE\PyF]ZHU\ILNRZDüKLSRWH]\ VWDW\VW\F]QHGRW\F]FHWHJRZLDWDF]\SRWRDE\VNXWHF]QLHSURJQR]RZDü Eksploracja danych dla telekomunikacji 19 :MDNLPFHOXSURZDG]LüHNVSORUDFM GDQ\FK" 3UDNW\F]QHSR*\WNLHNVWUDKRZDQLDGDQ\FKXMDZQLDMVL ZGZyFKG]LHG]LQDFKNWyU\PLV – prognozowanie (ang. prediction, forecasting), – opis (ang. description). 3URJQR]RZDQLHSROHJDQDZ\NRU]\VWDQLX]QDQ\FKZFKZLOLREHFQHMZDUWRFLLQWHUHVXMF\FKQDV ]PLHQQ\FKOXESyOZED]LHGDQ\FKZFHOXSU]HZLG\ZDQLDZDUWRFLW\FKOXELQQ\FK]PLHQQ\FKZ SU]\V]áRFL1DSU]\NáDGPRGHOSURJQRVW\F]Q\RSUDFRZDQ\GODEDQNXGRW\F]F\SR*\F]HNNRU]yVWD]KLVWRULLNRQWRVyE]DELHJDMF\FKRSR*\F]NLSRPDJDMFZVND]DüW\FKNWyU]\SUDZGRSRGREQLH E GPLHOLWUXGQRFL]HVSáDFHQLHPSo*\F]HN 2SLVSROHJDQDWZRU]HQLXF]\WHOQHML]UR]XPLDáHMGODF]áRZLHNDUHSUH]HQWDFMLZLHG]\Z\GRE\WHM ]GDQ\FKZSRVWDFLZ\NUHVyZZ]RUyZUHJXáWDEHO2SLV\WDNLHZSRVWDFLPRGHOLGHVNU\SF\MQ\FK VF] VWRX*\ZDQHGRZVSRPDJDQLDSURFHVyZGHF\]\MQ\FK )LUPD,%0Z\PLHQLDPLQQDVW SXMFHUy*QHJRURG]DMXSRZRG\NWyUH]DFK FDMGRSURZDG]enia eksploracji danych: – ZGX*\FKED]DFKGDQ\FK]DZDUWDMHVWFHQQDXNU\WDZLHG]DNWyUDPR*HRND]DüVL SU]\GDWQD w proZDG]HQLXUy*QRUDNLFKSUDFLUR]XPLHQLXRWRF]HQLD – istnieje potrzeba konsolidacji rekordów bazy danych w celu zapewnienia spójnego, jednoliteJRMHMREUD]XZRF]DFKX*\WNRZQLNDPR*HWRPLHG]\LQQ\PLSURZDG]LüGREXGRZ\KXUWRwni danych), – QDOH*\]PQLHMV]DüNRV]W\SU]HFKRZ\ZDQLDLSU]HWZDU]DQLDGDQ\FK – NRQNXUHQFMDQDU\QNXZ]PDJDVL LZ\PXV]DZL NV]SURGXNW\ZQRü – QDVLODVL WHQGHQFMDGRLQG\ZLGXDOL]RZDQLDSURGXNFMLRUD]Z\V]XNLZDQLDL]DMPRZDQLDQLewielkich nisz rynkowych. 2WRWU]\SU]\NáDGyZVNXWHF]QHJR]DVWRVRZDQLDHNVSORUDFMLGDQ\FKLILUPDAmerican Express SRGDáD*HZ\NRU]\VWDQLHWHFKQLNHNVSORUDFMLQDED]LHGDQ\FKNOLHQWyZSR]ZROLáR]ZL NV]\üR± X*\FLHMHMNDUWNUHG\WRZ\FKLLLQQDGX*DILUPDRIHUXMFDNDUW\NUHG\WRZHG]L NLHNVSORUDFML SRWUDILáDRNUHOLüFLRSURFHQWRZ\VHJPHQWZV]\VWNLFKVZ\FKNOLHQWyZNWyU]\FKDUDNWHU\]XMVL W\P *H UHJXODUQLH XG]LHODM RGSRZLHG]L QD Uy*QH ]DS\WDQLD ILUP\ .OLHQFL FL GRVWDUF]DOL ZV]\VWNLFKRGSRZLHG]L']L NLXVWDOHQLXWHJRIDNWXILUPD]ZL NV]\áDNURWQLHVWRS RGSRZLHG]LL ]PQLHMV]\áD NRV]W\ RSáDW SRF]WRZ\FK R LLL SRZD*QD ILUPD WHOHNRPXQLNDF\MQD ]D VSUDZ SU]HSURZDG]RQHM DQDOL]\ GDQ\FK GURJ HNVSORUDFML RGNU\áD *H LVWQLHMH SRGJUXSD X*\WNRZQLNyZ NWyU]\ SU]H] PLHVLFH Z URNX QLH NRU]\VWDM ] XVáXJ ,QIRUPDFMD WD VSRZRGRZDáD RSUDFRZDQLH VSHFMDOQHJRSURJUDPX]DFK WGODW\FKX*\WNRZQLNyZFRSU]\QLRVáRGRVNRQDáHUH]XOWDW\NRPHUF\jne. 4. Techniki eksploracji 1DMF] FLHMHNVSORUDFM GDQ\FKZL*HVL ]QDVW SXMF\PLW\SDPLG]LDáD – klasyfikowanie (ang. classification), – regresja (ang. regression), – grupowanie (ang. clustering) , – kojarzenie (ang. association). 'ODSRU]GNXRGQRWXMP\*HSHáQLHMV]DOLVWDURG]DMyZG]LDáDNWyUHPRJE\üZ\NRU]\VWDQHGR HNVSORUDFMLE\áDE\]QDF]QLHGáX*V]D3RQL*HMSRNUyWFHRPyZLP\SRV]F]HJyOQHW\S\G]LaáD 0LHF]\VáDZMuraszkiewicz 20 Klasyfikacja -HVW RQD SUDZGRSRGREQLH QDMF] FLHM VWRVRZDQ WHFKQLN HNVSORUDFML GDQ\FK .ODV\ILNDFMD MHVW SURFHVHPXF]HQLDVL NWyUHJRFHOHPMHVWRNUHOHQLHUHJXá\NWyUD±NLHG\MX*]RVWDáD]DDNFHSWRZDQD ±VáX*\GRSU]\SRU]GNRZDQLD]DNODV\ILNRZDQLDEUDQHJRSRGXZDJ HOHPHQWXGRMHGQHMOXEZL FHMZF]HQLHM]GHILQLRZDQ\FKNODV]ELRUyZ3URFHVWHQNRU]\VWD]H]ELRUXZF]HQLHMSRNODV\ILNoZDQ\FK SU]\NáDGyZ SR WR DE\ RNUHOLü VSRVyE PRGHO NODV\ILNRZDQLD FDáHM GRVW SQHM SRSXODFML HOHPHQWyZ 7HQ W\S DQDOL]\ GDMH V]F]HJyOQLH GREUH Z\QLNL SU]\ Z\NU\ZDQLX QDGX*\ü RUD] SU]\ LGHQW\ILNRZDQLXW\FKSUyER]DVRE\JG]LHLVWQLHMHGX*HU\]\NRLFK]PDUQRZDQLD .ODV\ILNDFMDF] VWRNRU]\VWD]DOJRU\WPyZRSDUW\FKQDGU]HZDFKGHF\]\MQ\FKOXEVLHFLDFKQHuURQRZ\FK8*\FLHW\FKDOJRU\WPyZUR]SRF]\QDVL RGSRGDQLDLPZUDPDFKXF]HQLDVL WUHQLQJX ]ELRUXSU]\NáDGyZMX*VNODV\ILNRZDQ\FK:Z\SDGNXZ\NU\ZDQLDQDGX*\ü]ELyUWDNL]DZLHUDáE\ SU]\SDGNLSU]\NáDG\JG]LHZ\VWSLáRQDdX*\FLHRUD]SU]\SDGNLÄXF]FLZH´ Regresja 5HJUHVMDUyZQLH*NRU]\VWD]SURFHVXXF]HQLDVL ]WUy*QLFZVWRVXQNXGRNODV\ILNDFML*HSoZVWDMH WX IXQNFMD D QLH RGZ]RURZDQLH NWyUD GDQHPX HOHPHQWRZL SU]\SRU]GNRZXMH NRQNUHWQ ZDUWRü3U]\NáDGHPMHM]DVWRVRZDQLDMHVWSU]HZLG\ZDQLHSRS\WXQDQRZ\SURGXNWZ]DOH*QRFLRG Z\GDWNyZQDUHNODP -HOL]PLHQQHZ\NRU]\VW\ZDQHZPRGHODFKRSDUW\FKQDUHJUHVMLPDM]áR*oQQDWXU QSZLHONRüVSU]HGD*\ZVND(QLNLJLHáGRZHWR]Z\NOHGR]DLPSOHPHQWRZDQLDUHJUHVML NRU]\VWDVL ]VLHFLQHXURQRZ\FKDWR]XZDJLQDLFKSU]\GDWQRüZÄV\WXDFMDFKQLHOLQLRZ\FK´ Grupowanie *UXSRZDQLH SROHJD QD SU]\SRU]GNRZDQLX EUDQHJR SRG XZDJ HOHPHQWX GR MHGQHM OXE ZLHOX JUXSNODV]ELRUyZSU]\F]\PJUXS\WHVZ\]QDF]DQDSU]H]VDPSURFHVJUXSRZDQLDQDSRGVWDZLH DQDOL]\GDQ\FKRZV]\VWNLFKGRVW SQ\FKHOHPHQWDFKDQLHMDNZSU]\SDGNXNODV\ILNDFMLJG]LHNOaV\ ]RVWDá\ ]GHILQLRZDQH ZF]HQLHM QLHMDNR SR]D SURFHVHP NODV\ILNDFML *UXS\ Z\]QDF]DQH V QD SRGVWDZLH SHZQ\FK F]\QQLNyZ DOER ZVND]XMF\FK QD SRGRELHVWZD HOHPHQWyZ DOER RSDUW\FK QD SU]\M W\FKUR]NáDGDFKSUDZGRSRGRELHVWZDDOERNRU]yVWDMF\FK]MHV]F]HLQQ\FKSU]HVáDQHN *UXSRZDQLHMHVWV]F]HJyOQLHSU]\GDWQHZUR]ZL]\ZDQLXSUREOHPyZVHJPHQWRZDQLD$OJRU\WP grupowania wyznacza czynnik G\ZHUV\ILNXMF\ HOHPHQW\ UR]ZD*DQHM SRSXODFML GHILQLXMH JUXS\ VHJPHQW\LSU]\SRU]GNRZXMHGRQLFKSRV]F]HJyOQHHOHPHQW\*UXSRZDQLHMHVWF] VWRSLHUZV]\P HWDSHPZHNVSORUDFMLGDQ\FKSRZ\]QDF]HQLXVHJPHQWyZPR*QDGRQLFK]DVWRVRZDüLQQHWHFKQLNL Z]DOH*QRFLRGRF]HNLZDQ\FKUH]XOWDWyZ Kojarzenie .RMDU]HQLHSROHJDQDRGV]XNLZDQLXW\FKHOHPHQWyZNWyUHZL*VL ]]DGDQ\P]GDU]HQLHPOXE LQQ\P HOHPHQWHP $OJRU\WP\ WX Z\NRU]\VW\ZDQH SR]ZDODM RGNU\ZDü UHJXá\ NWyUH SU]\MPXM SRVWDü MHOLHOHPHQW$MHVWVNáDGQLNLHPGDQHJR]GDU]HQLDto w X % przypadków element B jest tak*HVNáDGQLNLHPWHJR]GDU]HQLD QDSU]\NáDG MHOLNOLHQWNXSXMHSáDWNLRZVLDQHtoZSU]\SDGNyZNOLHQWWHQNXSLPOHNRÄàDFLDWH´ -HVWU]HF]FLHNDZ*H]DLQWHUHVRZDQLHNRMDU]HQLHPQLH]Z\NOHZ]URVáRZUD]]XSRZV]HFKQLeQLHP VL Z KDQGOX GHWDOLF]Q\P F]\WQLNyZ NRGyZ SDVNRZ\FK FR SR]ZDOD ]ELHUDü RJURPQH LORFL GDQ\FKMX*ÄVNRMDU]RQ\FK´ZNRV]\NXNXSXMFHJR=WHJRSRZRGX]DSHZQHWHQURG]DMDQDOL]\MHVW nazywany niekiedy market-basket analysis .RMDU]HQLH MHVW WDN*H VWRVRZDQH GR RSUDFRZ\ZDQLD kampanii marketingowych czy analizy portfeli inwestycyjnych. 3HZQRGPLDQNRMDU]HQLDMHVWXZ]JO GQLHQLHF]\QQLNDF]DVX1DSU]\NáDG jHOL w czasie operacji wykonana zostanie procedura X, toZSU]\SDGNyZ]DND*HQLH< SRMDZLVL ZFLJXGQL Eksploracja danych dla telekomunikacji 21 =DNRF]P\ WHQ UR]G]LDá QDVW SXMF\P SRGVXPRZDQLHP NODV\ILNDFMD L UHJUHVMD V V]F]HJyOQLH SR*\WHF]QHLVNXWHF]QHGRWZRU]HQLDSURJQR]F]\OLGRSU]HZLG\ZDQLD]GDU]HJUXSRZDQLHLNRMaU]HQLHQDWRPLDVWGRVNRQDOHQDGDMVL GRRSLVXSURFHVyZ]DFKRZDMDNLHPDMPLHMVFHZZLHFLH RNWyU\PGDQH]QDMGXMVL ZED]LH 5. Czym eksploracja danych nie jest ? :X]XSHáQLHQLXGRGHILQLFMLHNVSORUDFMLGDQ\FKZDUWRSRGNUHOLüF]\PHNVSORUDFMDQLHMHVW$WR GODWHJR*HQLHSRUR]XPLHQLDLQDGPLHUQHQLHNLHG\QDZHWIDáV]\ZHRF]HNLZDQLDZNRQWHNFLHHNsSORUDFMLGDQ\FK]GDU]DMVL VWRVXQNRZRF] VWR$]DWHPHNVSORUDFMDGDQ\FKQLHMHVW – RGNU\ZDQLHPZLHG]\MHVWRQDW\ONRF] FLSURFHVXRGNU\ZDQLDZLHG]\RF]\PSRZLHP\ ZL FHMZUR]G]LDOHyVP\P – QLHRG]RZQLH]ZL]DQD]KXUWRZQLDPLGDQ\FKHNVSORUDFMDPR*HE\üSURZDG]RQDQDGRZRlQHMED]LHFKRüQDWXUDOQLHKXUWRZQLHVV]F]HJyOQLHGREU\PLPLHMVFDPLGRMHMXSUDZLDQLD – W\SRZ\PQDU] G]LHPDQDOLW\F]Q\PLURGNLHPGRWZRU]HQLDVSUDZR]GD=DVDGQLF]DUy*QLFD SRPL G]\HNVSORUDFMDW\SRZ\PLQDU] G]LDPLDQDOLW\F]Q\PLSROHJDQDSRGHMFLXGRHNVSOoUDFMLGDQ\FKLEDGDQLXZ\VW SXMF\FKSRPL G]\QLPLUHODFML2Wy*QDU] G]LDDQDOLW\F]QHZ tym OLAP (ang. On-Line Analytical ProcessinVWRVXMHVL JáyZQLHGRZHU\ILNRZDQLDKLSoWH]Z\VXQL W\FKSU]H]DQDOLW\NDQLHPRJRQHQDWRPLDVWVDPHWZRU]\üKLSRWH]RGNU\ZDü ]DVDGLUHJXá±DWRMHVWZáDQLHPR*OLZH]DSRPRFWHFKQLNHNVSORUDFMLGDQ\FK – XF]HQLHPVL PDV]\Qang. machine learning/discovery), które dotyczy odkrywania praw empirycznych na podstawie obserwacji i eksperymentów, – FDáNRZLFLH]DXWRPDW\]RZDQ\PSURFHVHPHNVSORUDFMDGDQ\FKMHVWZRJURPQ\PVWRSQLX X]DOH*QLRQDRGSURZDG]FHJRMF]áRZLHNDNWyU\RNUHODZDUXQNLSRF]WNRZHGRELHUDPetody eksploracji i ocenia otrzymane rezultaty i wreszcie to on decyduje czy uzyskane zale*QRFLVLQWHUHVXMFHF]\OLF]\PDMMDNNROZLHNZDUWRüSUDNW\F]QOXESR]QDZF]GODRrganizacji, na której zlecenie eksploracja jest prowadzona, – áDWZ\PWDQLPLV]\ENLPGRZGUR*HQLDZRUJDQL]DFMLSURFHVHP:áF]HQLHHNVSORUDFMLGanych do rutynowych operacji organizacji wymaga starannych prac przygotowawczych, eksSHU\PHQWRZDQLDLZVSyáSUDF\HNVSHUWyZZ]DNUHVLHHNVSORUDFMLGDQ\FKLVSHFMDOLVWyZZ G]LHG]LQLHNWyUHMGDQHGRW\F]7\SRZ\SURMHNWWUZDZLHOHPLHVL F\DQDZHWODWMHVWPLHjVFHPJG]LHXF]VL ZV]\VWNLH]DDQJD*RZDQHVWURQ\RSURJUDPRZDQLHQDU] G]LRZHMHVWUaF]HMNRV]WRZQHRGNLONXW\VL F\GRNLONXVHWW\VL F\GRODUyZDHNVSORDWDFMDLSLHO JQDFMD V\VWHPXZ\PDJDM]QDNRPLFLHZ\V]NROonego i godnego zaufania personelu, – SU]\VáRZLRZ\PZLHOR]adaniowym scyzorykiem armii szwajcarskiej dobrym na wszelkie okazje (ta opiQLDELHU]HVL DOER]QDdPLHUQHJRHQWX]MD]PXZRGQLHVLHQLXGRSRWHQFMDáX WNZLFHJRZWHFKQLNDFKHNVSORUDFMLGDQ\FKDOERMHVWZ\QLNLHPQLHXF]FLZHJRSUH]HQWRZDQLD LFKPR*OiZRFLSU]H]VSU]HGDZFyZRSURJUDPRZDQLDLNRQVXltantów) 3U]\NáDG 22 0LHF]\VáDZMuraszkiewicz : FHOX OHSV]HJR Z\MDQLHQLD QD F]\P SROHJD HNVSORUDFMD GDQ\FK UR]ZD*P\ Z\LPDJLQRZDQ V\WXDFM ZILUPLHWHOHNRPXQLNDF\MQHM.LHURZQLFWZRWHMILUP\]RVWDáRSRLQIRUPRZDQH*HQDVLODVL ]MDZLVNR SU]HFKRG]HQLD MHM NOLHQWyZ GR ILUP\ NRQNXUHQF\MQHM =DU]G SRGMá GHF\]MH R ]EDGDQLX VSUDZ\LXVWDOHQLXSU]\F]\QWHJR]MDZLVND:W\PFHOXUR]SRF] WRSURMHNWHNVSORUDFMLGDQ\FKNWóUHJR ]DGDQLH EU]PLDáR SRGDü UHGQLDOLF]ED FKDUDNWHU\VW\N SURILO NOLHQWD ID rozmów Zmiana NWyU\ PD VNáRQQRü GR ]PLDQ\ osoby wiek zamiejscowych operatora firmy. W\G]LH 1 23 62 Tak Rozpoczniemy od wyboru grupy klientów firmy. Dla 2 40 47 Nie XSURV]F]HQLD UR]ZD*\P\ VNURm3 21 20 Nie Q\ ]ELyU ]áR*RQ\ ] RVyE 0u4 56 43 Nie VLP\ WDN*H ]GHF\GRZDü NWyUH DWU\EXW\ FKDUDNWHU\]XMFH NOLHn5 45 50 Nie WyZ ]RVWDQ Z]L WH SRG XZDJ Z 6 34 51 Tak prowadzonej analizie. Odnotujmy SU]\W\P*HGHF\]MDWDMHVWMX*Z 7 22 66 Tak MDNLP VWRSQLX QDV] KLSRWH] R 8 19 53 Tak przyczynach przechodzenia do 9 28 68 Tak LQQ\FK RSHUDWRUyZ : SU]\NáaG]LHZH(PLHP\SRGXZDJ QDVW 10 30 60 Nie SXMFH DWU\EXW\ LGHQW\ILNDWRU 11 58 76 Nie NOLHQWD ,' ZLHN UHGQL OLF]E 12 50 69 Nie rozmów zamiejscowych na tyG]LHNWyUHSU]HSURZDG]LáNOLHQWL 13 48 35 Nie DWU\EXW ]DZLHUDMF\ LQIRUPDFM R tym czy osoba nadal jest naszym NOLHQWHP F]\ SU]HV]áD GR LQQHJR RSHUDWRUD =DáF]RQD WDEHOND MHVW F] FL SHZQHM KLSRWHW\F]QHM ED]\ GDQ\FK L ]DZLHUD GDQH KLVWoU\F]QH R DQDOL]RZDQ\FK RVREDFK :\G]LHOHQLH GDQ\FK ] ED]\ Z SRVWDFL WDEHONL NRF]\ NURN JUoPDG]HQLDGDQ\FKNWyUHE GSU]HGPLRWHPHNVSORUDFML=DXZD*P\SU]\W\P*HNURNWHQ]DZLHUDá ]DSHZQHNLONDSRG]DGDQD SU]\NáDG REOLF]HQLHUHGQLHM OLF]E\ UR]PyZ ]DPLHMVFRZ\FK Z W\JoGQLX ,QQ\PL ]DGDQLDPL NWyUH PRJá\ PLHü PLHMVFH V Z\HOLPLQRZDQLH V]XPX L QDGPLDURZRFL GDQ\FKZED]LHKLSRWHW\F]QHMMHVWSROHÄGDWDXURG]HQLD´]NWyUHJRZ\HOLPLQRZDQRG]LHLPLHVLF i obliczono wiek osoby), konsolidacja danych itp. UH G Q LD OLF ] E D UR ] P y Z 3DWU]FQDWDEHON PR*QD]DS\WDüF]\RGQDOe]LHQLH SRZRGX ]PLDQ\ RSHUDWRUD MHVW PR*OLZH QDW\FKPLDVW EH] SURZDG]HQLD *DGQ\FK RSHUDFML %\ü PR*H GOD W\FK NWyU]\ OXEL UHSUH]HQWDFM danych w postaci tabel jest to zadanie do wyko QDQLDGODZL NV]RFLZV]DNáDWZLHMV]DGRDQDOL]\ E\áDE\ UHSUH]HQWDFMD GDQ\FK Z GZXZ\PLDURZHM SU]HVWU]HQL QD SáDV]F]\(QLH =DáF]RQ\ U\VXQHN WDN ZáDQLH SU]HGVWDZLD GDQH ] WDEHONL .D*G\ SXQNWUHSUH]HQWXMHNOLHQWD'DQH]RVWDá\VNODV\Ii NRZDQH Z GZyFK ]ELRUDFK Z ]DOH*QRFL RG ZDr WRFL DWU\EXWX Ä]PLDQD RSHUDWRUD´ .ZDGUDW\ Z LH N R]QDF]DMW\FKNWyU]\]PLHQLOLRSHUDWRUDWUyMNW\ ± W\FK NWyU]\ SR]RVWDOL 2 SR]LRPD SRND]XMH ZLHNRVRE\]DRSLRQRZD±UHGQLOLF]E UR]PyZ]DPLHMVFRZ\FKZW\Jodniu. :SU]\NáDG]LHWHFKQLNHNVSORUDFMLMHVWNODV\ILNDFMDSROHJDMFDWXQD]QDOH]LHQLXIXQNFMLNWyUD SR]ZROL SU]\SLVDü RVRE GR MHGQHM ] GZyFK NODV ÄNOLHQW NWyU\ ]DPLHU]D ]PLHQLü RSHUDWRUD´ L 23 Eksploracja danych dla telekomunikacji „klient, który raczej nie zmieni operatora”. Poszukiwanie tej funkcji wykona program komputeroZ\0R*HWRE\üSURJUDPXF]F\VL QDGDQ\FKWUHQLQJRZ\FK]WDEHOL -DNR SXQNW Z\MFLD GOD WHJR SURJUDPX SU]\MPLHP\ SHZLHQ model eksploracji danych E G]LH nim funkcja liniowa f(x) = αx + β7HUD]MHVWHP\MX*JRWRZLDGRNáDGQLHMSURJUDPNRPSXWHURZ\ MHVW JRWRZ\ GR UR]SRF] FLD LWHUDF\MQHJR Z\]QDF]DQLD ZDUWRFL SDUDPHWUyZ modelu, tzn. wspóáczynników α oraz β3R]DNRF]HQLXWHJRSURFHVXGRNRQXMHP\oceny modeluZWHQVSRVyE*HGOD Z\]QDF]RQ\FK SDUDPHWUyZ VSUDZG]DP\ MDN X]\VNDQD NRQNUHWQD IXQNFMD OLQLRZD VSHáQLD SU]\M WH kryteria eksploracji danych-DNRNU\WHULDPR*HP\SU]\MüGRNáDGQRüNODV\ILNDFMLL]UR]XPLDáRü GOD F]áRZLHND PR*QD WH* SU]\Mü MHV]F]H LQQH NU\WHULD 3RGVXPXMP\ PRGHO HNVSORUDFML GDQ\FK Z\]QDF]DQLHSDUDPHWUyZPRGHOXRFHQDZ\QLNyZQDSRGVWDZLHNU\WHULyZWZRU]UD]HPWRFRQa]\ZDVL algorytmem eksploracji danych=DXZD*P\*HMHOLSU]\M W\PRGHOQLHMHVW]DGDZDODMF\ WRWU]HEDSRV]XNDüLQQHJRPRGHOX±F]\QQRüWDUyZQLH*QDOH*\GRDOJRU\tmu. : Z\QLNX SUDF\ SURJUDPX SRV]XNXMFHJR ZVSyáF]\QQLNL X]\VNDOLP\ QDVW SXMF OLQLRZ IXQNFM GHF\]\MQ f(x) = 1,3 x NWyUD]RVWDáDSRND]DQDQD]DáF]RQ\PU\VXQNX2GUD]XZLG]LP\*HQLHPR*HP\]DMHMSRPRF DQL]DSRPRF*DGQHMLQQHMIXQNFMLOLQLRZHMFDáNRZLFLHUR]G]LHOLüGZyFK]DáR*RQ\FKNODV,QQ\PL VáRZ\GRNáDGQRüNODV\ILNDFMLQLHMHVWGRVNRQDáD Ostatnim krokiem procesu eksploracji jest interpretacja wyników FR PD GX*H ]QDF]HQLH JG\* PRJ RQH PLHü ZSá\Z QD GHF\]MH GRW\F]FH ]DU]G]DQLD ILUP : SU]\NáDG]LH RND]DáR VL *H ZL NV]RüPáRGV]\FKNOLHQWyZNWyU]\PDMQDVZRLPNRQFLHGX*OLF]E UR]PyZ]DPLHMVFRZ\FK VNáRQQ\FKMHVW]PLHQLüRSHUDWRUDQLHZV]\VF\MHGQDNRGHV]OLSR]RVWDáQDSU]\NáDGNOLHQW,' $]DWHPZ\QLNHNVSORUDFMLPR*QD]DZU]HüZQDVW SXMF\P]GDQLXVNáRQQRüGR]PLDQ\RSHUDWRUD PDM PáRG]L NOLHQFL SRQL*HM ODW NWyU]\ PDM QD VZRLP NRQFLH UHGQL OXE ZL FHM QL* UHGQL OLF]E URzmów zamiejscowych. 1DVXZDVL WXQDW\FKPLDVWS\WDQLHGODF]HJROLF]EDUR]PyZPáRGV]\FKNOLHQWyZMHVWF]\QQLNLHP NU\W\F]Q\PZGHF\]MLR]PLDQLHRSHUDWRUD"2GSRZLHG]LQDOH*\V]XNDüZQDVW SQHMVHVMLHNVSORUacji danych. 7. Zarys procesu eksploracji danych (NVSORUDFMD GDQ\FK MDN ZVSRPQLHOLP\ QLH MHVW áDWZ\P SURFHVHP 3RQL*HM SRGDMHP\ V]Hü SRGVWDZRZ\FKNURNyZNWyUHSR]ZROXF]\QLüWHQSURFHVVNutecznym. 1. =UR]XPLHüLVWDUDQQLH]GHILQLRZDüSUREOHP]DGDQLHNWyU\MHVWSU]HGPLRWHPHNVSORUDFML3oQDGWRQDOH*\]DQDOL]RZDüL]UR]XPLHüRWRF]HQLHZNWyU\PWHQSUREOHPZ\VW puje. 3. =GHF\GRZDüMDNSU]\JRWRZDüGDQHGR SU]HWZDU]DQLD1DSU]\NáDGF]\FKOHEL FLDVWNDWRUWRZHQDOH*GRJUXS\SLHF]yZR"&]\ZLHNUHSUH]HQWRZDüMDNRSU]eG]LDáQSODWF]\MDNROLF]E QS 40 lat). 4. :\EUDüDOJRU\WPOXELFKNRPELQDFMH HNVSORUDFMLGDQ\FKLZ\NRQDüSURJUDP UHDOL]XMF\WHQDOJRU\WPQDSU]\JRWRZaQ\FKGDQ\FK2GQRWXMP\*HF] VWRZ UH G Q LD OLF ] E D UR ] P y Z 2. :\EUDü]ELyUGDQ\FKZNWyU\FKSU]HSURZDG]LP\HNVSORUDFM =ELyUWHQPXVLE\ü]QDF]F SUyENFDáHJR]DVREXGDQ\FK:\EyU dotyczy obiektów, ich atrybutów (zmien Q\FKSU]HG]LDáXF]DVX]DNUHVXJHRJUa ILF]QHJRZLHONRFLSUyENLLWG RGFKRG] SR]RVWDM Z LH N 24 0LHF]\VáDZMuraszkiewicz VSRVyELWHUDF\MQ\PXVLP\ZUyFLüGRNUoNXDQDZHWMHOLUH]XOWDW\QLHV]DGDZDODMFH 5. =DQDOL]RZDüZ\QLNLZ\NRQDQLDSURJUDPXLZ\EUDüWHNWyUHVWDQRZLUH]XOWDWSUDF\:W\P PLHMVFXSRWU]HEQDMHVWFLVáDZVSyáSUDFDDQDOLW\NDLVSHFMDOLVW\ZG]LHG]LQLHNWyUSRGGDMHP\ EDGDQLX:\QLNLQDOH*\SU]HGVWDZLüZIRUPLHSU]\M WHMZRUJDQL]DFMLJG]LHSURFHVHNVSORUDFML jest prowadzony. 6. 3U]HGáR*\üZ\QLNLNLHURZQLFWZXRUJDQL]DFMLL]DVXJHURZDüVSRVyELFKZ\NRU]\VWDQLD 8. Odkrywanie wiedzy w bazach danych :OLWHUDWXU]HSU]HGPLRWX]ZáDV]F]DZSUDFDFKRFKDUDNWHU]HWHRUHW\F]Q\PRGUy*QLDVL WHUPLQ eksploracja danych od terminu odkrywanie wiedzyDGRNáDGQLHModkrywanie wiedzy w bazach danych (ang. knowledge doscovery in databases – KDD=D]Z\F]DMRGNU\ZDQLHZLHG]\RGQRVLVL GRFDáHJRSURFHVXRGNU\ZDQLDSU]\GDWQ\FKLSR*\WHF]Q\FKLQIRUPDFMLLZLHG]\GURJHNVSORURZaQLDED]GDQ\FKSRGF]DVJG\HNVSORUDFMDGDQ\FKPDZ *V]H]QDF]HQLHJG\*GRW\F]\W\ONRZ\ERUXL ]DVWRVRZDQLD DOJRU\WPyZ L SURJUDPyZ VáX*F\FK GR Z\GRE\FLD ] ED] UHJXá ]DOH*QRFL VFKHPatów. Odkrywanie wiedzy jest wielostopniowym procesem, który ma na celu uzyskanie nowych, wiaU\JRGQ\FKSRWHQFMDOQLHSR*\WHF]Q\FKL]UR]XPLDá\FK GOD F]áRZLHND LQIRUPDFML R SUDZLGáRZRFLDFK Z\VW 2GNU\ZDQLHZLHG]\ SXMF\FK Z ZLHFLH UHSUH]HQWRZDQ\P Z ED]LH GaQ\FK : QDMRJyOQLHMV]\P ]DU\VLH SURFHV WHQ VNáDGD 'DQHVXURZH VL ]WU]HFKNURNyZSDWU]U\VXQHNDPLDQRZLFLHL SU]HWZDU]DQLDZVW SQHJR, które obejmuje m.in. przy3U]HWZDU]DQLH gotowanie danych, wybór próbki danych, „czyszczeZVW SQH nie” danych; (ii) eksploracji danych; (iii) przetwarzaQLDNRFRZHJRZUDPDFKNWyUHJRGRNRQXMHVL PLQ wieloaspektowej oceny, filtrowania, wariantowej wizualizacji i interpretacji uzyskanych wyników. (NVWUDNFMD GDQ\FK 7U]HEDPRFQRSRGNUHOLü*HZSURFHVLHRGNU\ZaQLDZLHG]\QLH]Z\NOHLVWRWQURO RGJU\ZDF]áRZLHN DQDOLW\N SUREOHPX NWyUHJR XPLHM WQRFL GRZLDdF]HQLH L SUDFD PDM NOXF]RZH ]QDF]HQLH Z RWU]\Pa3U]HWZDU]DQLH QLX]QDF]F\FKUH]XOWDWyZ-HJRURODSROHJDQDVWDáHM NRFRZH NU\W\F]QHM RFHQLH ND*GHJR NURNX Z SURFHVLH RGNUywania, swoistym „cenzurowaniu” otrzymywanych UH]XOWDWyZ F]VWNRZ\FK L VWHURZDQLX FDá\P SURFeZLHG]D sem. +LVWRU\F]QLHU]HF]XMPXMFWHUPLQÄRGNU\ZDQLHZLHG]\ZED]DFKGDQ\FK´]RVWDáXWZRU]RQ\Z URNXQDRNUHOHQLHV]HURNRLRJyOQLHUR]XPLDQHMNRQFHSFMLSRV]XNLZDQLDZLHG]\]DZDUWHMZ ED]DFK GDQ\FK 3RM FLH ÄHNVSORUDFMD GDQ\FK´ QDWRPLDVW ]RVWDáR XWZRU]RQH MDNR RGQRV]FH VL GR WHFKQLNLQDU] G]LX*\ZDQ\FKGRZ\GRE\FLDDQDOL]\LSUH]HQWDFMLGDQ\FKZ\GRE\W\FK]ED]=GaU]DVL ZV]DN]ZáDV]F]DZG\VNXUVLHNRORNZLDOQ\P*HREDWHUPLQ\X*\ZDQHVZ\PLHQQLHMDNR V\QRQLPLF]QH Ä(NVSORUDFMD GDQ\FK´ MHVW RNUHOHQLHP V]F]HJyOQLH FK WQLH X*\ZDQ\P Z URGRZiVNDFK VWDW\VW\NyZ DQDOLW\NyZ GDQ\FK L JUXSDFK ]DMPXMF\FK VL ED]DPL GDQ\FK L V\VWHPDPL LnIRUPDF\MQ\PLSRGF]DVJG\WHUPLQÄRGNU\ZDQLHZLHG]\´SRMDZLDVL SU]HGHZV]\VWNLPZUyGEaGDF]\SUDFXMF\FKZREV]DU]HV]WXF]QHMLQWHOLJHQFML1LHMHVWHP\WXU\JRU\VWDPLM ]\NRZ\PLLWDN GáXJRMDNQLHSURZDG]LWRGRQLHSRUR]XPLHDNFHSWXMHP\Z\PLHQLDOQRüW\FKWHUPLQyZ:OLWHUaWXU]HDQJORVDVNLHMPR*QDQDWNQüVL QDVSRNUHZQLRQHRNUHOHQLDWDNLHMDNknowledge extraction, data archaeology lub information harvesting. 1D PDUJLQHVLH RGQRWXMP\ *H GRW\FKF]DV QDMZL FHM ]DVWRVRZD WHFKQLN RGNU\ZDQLD ZLHG]\ PLDáRPLHMVFHZW]ZPDUNHWLQJXbazodanowym, który polega na analizie baz danych o klientach w celu ustalenia ich preferencji i wykorzystaniu otrzymanych rezultatów w akcjach marketingowych. 25 Eksploracja danych dla telekomunikacji 9. Eksploracja danych dla telekomunikacji )LUP\ WHOHNRPXQLNDF\MQH JHQHUXM ]ELHUDM L SU]HFKRZXM ND*GHJR GQLD RJURPQH LORFL LQIRrPDFML SRF]\QDMF RG GDQ\FK R IXQNFMRQRZDQLX VLHFL SU]H] GDQH ELOLQJRZH D* SR LQIRUPDFMH QD WHPDW NOLHQWyZ 5]DGNR MHGQDN XGDMH VL W\P ILUPRP Z SHáQL VNRU]\VWDü ] ]HEUDQ\FK GDQ\FK ]ZáDV]F]D*HGX*DF] üZDUWRFLRZ\FKLQIRUPDFMLMHVWQDÄSLHUZV]\U]XWRND´QLHZLGRF]QD0DMF WHJR ZLDGRPRü ILUP\ WHOHNRPXQLNDF\MQH FRUD] FK WQLHM VL JDM SR WHFKQLNL HNVSORUDFML GDQ\FK 7RZDU]\V]\WHPXQDG]LHMD*HGRGDWNRZ\PHIHNWHPHNVSORUDFMLE G]LHV]DQVDQDSU]HSURZDG]HQLH lepszej strukturyzacji i skonsolidowanie posiadanych zasobów, co jest jednym z warunków udanych SUDFQDGSRMDZLDMF\PLVL FRUD]F] FLHMKXUWRZQLDPLGDQ\FK 6SRJOGDMFQDW\SRZ\áDFXFKZDUWRFLILUP\WHOHNRPXQLNDF\MQHMNWyU\SU]HGVWDZLDVL QDVW SXMFR $QDOL]D SRWU]HE NOLHQWyZ 3ODQRZDQLH VLHFL %XGRZDL NRQVHUZDFMD VLHFL (NVSORDWD FMDVLHFL %LOOLQJ 0DUNHWLQJ 2EVáXJD NOLHQWD 6SU]HGD* GRVWU]HJDP\*HHNVSORUDFMDGDQ\FKPR*HE\üSU]\GDWQDZND*G\PRJQLZLHWHJRáDFXFKDDZ V]F]HJyOQRFLPR*H ZUDPDFK]DU]G]DQLDLHNVSORDWDFMLVLHFL – XVSUDZQLü]DU]G]DQLHSURFHVDPLEL]QHVRZ\PLILUP\ – XVSUDZQLü]DU]G]DQLHIXQNFMRQRZDQLHPVLHFLLZ\NRU]\VWDQLHLQIUDVWUXNWXU\WHFKQLF]QHM – XáDWZLüSODQRZDQLHEXGRZ\UR]ZRMXLNRQVHUZDFMLVLHFL – XVSUDZQLü]DU]G]DQLHDODUPDPLJHQHURZDQ\PLSU]H]VLHüLXáDWZLüREVáXJ XVWHUHNDZDULL sieci, – OHSLHMDORNRZDüSRVLDGDQH]DVRE\ – XPR*OLZLüQDZL]DQLHGLDORJXLZ\PLDQ GRZLDGF]H]ZVSyáSUDFXMF\PLILUPDPLWHOHNomunikacyjnymi w zakresie stosowania eksploracji danych. ZG]LHG]LQLH]DU]G]DQLDNRV]WDPL – ]ZL NV]\üZVSyáF]\QQLNÄORMDOQRFL´NOLHQWyZ – ]PQLHMV]\üQDGX*\FLD]HVWURQ\NOLHQWyZ – XF]\QLüSURFHV\ILQDQVRZHSU]HMU]\VWV]\PLLSURVWV]\PLXVSUDZQLüNVL JRZRüL]DU]G]DQLH kredytami. Z]DNUHVLHPDUNHWLQJXLREVáXJLNOLHQWD – OHSLHMUR]SR]QDZDüL]DVSRNDMDüSRWU]HE\NOLHQWyZ – RSUDFRZ\ZDüLDQDOL]RZDüPR*OLZRFLQRZ\FKXVáXJLSURGXNWyZ – ]ZL NV]\üHIHNW\ZQRüVSU]HGD*\LREVáXJLGRW\FKF]DVRZ\FKNOLHQWyZ – ]QDMGRZDüQRZHPR*OLZRFLUR]ZRMXILUP\ 2WRNLONDNRQNUHWQ\FK]DJDGQLH]GHILQLRZDQ\FK]DSRPRFS\WDVWDZLDQ\FKSU]H]RSHUDWorów telekomunikaF\MQ\FKJG]LHHNVSORUDFMDGDQ\FKPR*HRND]DüVL SU]\GDWQD (a) : MDNL VSRVyE SODQRZDü L RSW\PDOL]RZDü LQZHVW\FMH QD EXGRZ L UR]ZyM VLHFL XWU]\PXMF wysoki po]LRPXVáXJDOHEH]QDGPLHUQHMUR]EXGRZ\LQIUDVWUXNWXU\" (b) -DNDMHVWVWUXNWXUDLUHJXODUQRFLUXFKZVLHFL" (c) -DNRSW\PDOL]RZDüWRSRJUDIL VLHFL" 0LHF]\VáDZMuraszkiewicz 26 (d) -DN PLQLPDOL]RZDü NRV]W\ L QDNáDG\ F]DVRZH QD SRPLDU\ UXFKX L SDUDPHWUyZ HNVSORDWDF\jnych sieci ? (e) -DNUR]SR]QDZDüLNODV\ILNRZDüDODUP\JHQHURZDQHSU]H]VLHü" (f) -DN UR]SR]QDZDü L NODV\ILNRZDü SUREOHP\ WHFKQLF]QH DQRPDOLH DZDULH WDN*H SUREOHP\ FKURQLF]QLHSRZWDU]DMFHVL RUD]XMDZQLDüSU]\F]\Q\DQRPDOLL" (g) &]\LVWQLHMUHJXODUQRFLLSRZWDU]DMFHVL VFKHPDW\GRW\F]FHLQLFMRZDQLDSRáF]HZVLeci? (h) -DNLHVZ]RUFH]DFKRZDX*\WNRZQLNyZLMDNUR]SR]QDZDüSRáF]HQLDVWDQRZLFHQDGX*\FLH w stosunku do operatora sieci ? (i) -DNLMHVWSURILOX*\WNRZQLNDLPRW\ZDFMDNWyUHPRJVNáRQLüJRGR]PLDQ\RSHUDWRUDVLHFL" (j) -DNLMHVWSURILOX*\WNRZQLNyZNWyU]\SáDFZ\VRNLHUDFKXQNL" (k) -DNLHMUHDNFMDX*\WNRZQLNyZPR*QDVL VSRG]LHZDüQDZSURZDG]HQLHQRZ\FKURG]DMyZXVáXJ F]\WDU\IXZ]JO GQLDMFUy*QRURGQRüSURILOLX*\WNRZQLNyZ" : SRáRZLH URNX 3ROVND 7HOHIRQLD &\IURZD (5$ *60 UR]SRF] áD SURMHNW Ä'DWD MiQLQJ´ NWyUHJR FHOHP E\áR UR]V]HU]HQLH VWRVRZDQ\FK Z WHM ILUPLH PHWRG DQDOL]\ GDQ\FK SU]H] ZSURZDG]HQLHWHFKQLNHNVSORUDFMLGDQ\FK]ZáDV]F]DZRGQLHVLHQLXGR]DJDGQLHSODQRZDQLDEuGRZ\ L HNVSORDWDFML VLHFL D ZL F ]DJDGQLH QDWXU\ WHFKQLF]QHM 3URMHNW WHQ UHDOL]RZDQ\ MHVW ] XG]LDáHP ]HVSRáX ,QVW\WXWX ,QIRUPDW\NL 3ROLWHFKQLNL :DUV]DZVNLHM 2WR SU]\NáDG\ NLONX ]DGD NWyUHSU]HDQDOL]RZDQR]DSRPRFPHWRGHNVSORUDFMLGDQ\FK Zadanie Wyszukiwanie anomalii G]LDáDQLDVLHFLQDSRGVWDZLH logów routerów w sieci korporacyjnej Zastosowane Efekty Metody UHJXá\DVRFMDF\MQHJUXSRZDQLH =ELyUUHJXáNWyUHSRWZLHUG]Lá\ZLHG] ekspertów) Przewidywanie ruchu w sieci Grupowanie, drzewa komórkowej decyzyjne, regresja Model predykcyjny ruchu w sieci z DNFHSWRZDOQ\PSU]H]HNVSHUWyZEá GHP UHJXá\DVRFMDF\MQHGU]HZD decyzyjne, wizualizacje =ELyUUHJXáUHJXá]QDQ\FK ekspertom – oczywistych, 4% SRWZLHUG]DMF\FKLFKLQWXLFMH LQWHUHVXMF\FK Przewidywanie anomalii w UHJXá\DVRFMDF\MQHGU]HZD G]LDáDQLXVLHFLNRPyUNRZHM] decyzyjne, wizualizacje XZ]JO GQLHQLHPZSá\ZX NRPyUHNVVLHGQLFK =ELyUUHJXáUHJXá]QDQ\FK ekspertom – oczywistych, 7% SRWZLHUG]DMF\FKLFKLQWXLFMH LQWHUHVXMF\FK Przewidywanie anomalii w G]LDáDQLXVLHFLNRPyUNRZHM analiza w pojedynczych komórkach Wykrywanie sekwencji czasowych alarmów w sieci komórkowej UHJXá\DVRFMDF\MQHZáDVQH metody badania sekwencji czasowych Eksperyment w toku 'RQDMZD*QLHMV]\FKZQLRVNyZRJyOQLHMV]HMQDWXU\NWyUHZ\FLJQL WR]GRW\FKF]DVRZ\FKSUDF QDOH* – ]DVDGQLF]\PZDUXQNLHPSRZRG]HQLDHNVSHU\PHQWyZMHVWXG]LDáVSHFMDOLVWyZ]OHFDMF\FK ]DGDQLD]ZáDV]F]DZID]LHGHILQLRZDQLD]DGDQLDLHZDOXDFMLZ\QLNyZF]VWNRZ\FK – SU]HWZDU]DQLHZVW SQHLNRFRZHGDQ\FKVWDQRZLRNRáRF]DVXSU]H]QDF]RQHJRQD UR]ZL]ywanie zadania, Eksploracja danych dla telekomunikacji 27 – WRVDPR]DGDQLHZDUWRUR]ZL]\ZDüVWRVXMFUR*QHPHWRG\HNVSORUDFMLGDQ\FKZ\QLNLPRJ E\ü]DVNDNXMFRUy*QH – MHOLZ\EUDQRMX*PHWRG UR]ZL]DQLD]DGDQLDWRQDOH*\]DELHJDüRPR*OLZRüSURZDG]HQLD HNVSHU\PHQWyZQDUR*Q\FK]ELRUDFKGaQ\FKGRW\F]F\FKWHJR]DGDQLD – komercyjne oprogramowanie do prowadzenia eksperymentów eksploracji danych nie zawsze MHVWVNXWHF]QHGRUR]ZL]\ZDQLD]DGDVWDZLDQ\FKSU]H]RSHUDWRUyZWHOHNRPXQLNDF\MQ\FK GRW\F]\WR]ZáDV]F]DDQDOL]\]DGDJG]LHZ\VW SXMEDUG]LHM]áR*RQHVWUXNWXU\GDQ\FKRUD] ]DOH*QRFLWHPSRUDOQHVeNZHQFMH]GDU]H – transfer wiedzy w zakresie eksploracji danych dla telekomunikacji praktycznie nie istnieje; RSHUDWRU]\ERZLHPQLHV]DLQWHUHVRZDQLXGRVW SQLDQLHPVZRLFKGRZLDGF]HJG\*WUDNWXM ZLHG] SR]\VNDQ]DSRPRFHNVSORUDFMLGDQ\FKMDNRHOHPHQWVZHMSU]HZDJLQDGNRQNXUHntami. 3RG]L NRZDQLD $XWRU VNáDGD SRG]L NRZDQLD ZV]\VWNLP NROHJRP ] ]HVSRáX HNVSORUDFML GDQ\FK NWyU\ G]LDáD Z ,QVW\WXFLH,QIRUPDW\NL3ROLWHFKQLNL:DUV]DZVNLHM]DZVSyáSUDF Z]DNUHVLHPHWRGHNVSORUDFMLRUD] ]DLQIRUPDFMHLRFHQ NRPHUF\MQHJRRSURJUDPRZDQLDGRSURZDG]HQLHHNVSORUDFMLGDQ\FK3RG]L NRZDQLDNLHUXM WDN*HGRS7RPDV]D*HUV]EHUJD'\UHNWRUD'HSDUWDPHQWX$QDOL]L%XG*HWXURdNyZ7UZDá\FKZ3ROVNLHM7HOHIRQLL&\IURZHM37&NWyU\]DLQLFMRZDáSURMHNWÄ'DWDMining” oraz GRS5REHUWD3DU]\GáR.LHURZQLNDSURMHNWXÄ'DWDMining” w PTC, za stworzenie efektywnej platIRUP\ZVSyáSUDF\QDGSUREOHPDPLHNVSORUDFMLGDQ\FKGODWHOHNRPXQLNDFMLRUD]XPR*OLZLHQLHSU]eprowadzenia szeregu eksperymentów na danych rzeczywistych i wszechstronnego przedyskutowania uzyskanych wyników ze specjalistami PTC. Literatura :W\PUR]G]LDOHSRGDMHP\NLONDSR]\FMLNWyUHPRJSRPyF&]\WHOQLNRZLZSRV]HU]HQLXLQIRrmacji o eksploraFMLGDQ\FKLRGNU\ZDQLXZLHG]\ZED]DFKGDQ\FKWDN*HZWHOHNRPXQLNDFML [1] Berry, M. J. A., Linoff G., Data Mining Techniques: For Marketing, Sales, and Customer Support, John Wiley & Sons, 1997. [2] Cox K. C., Eick S.G/, Wills G. J., Brachman R. J.: Visual Data Mining: Recognizing Telephone Calling Fraud, Data Mining and Knowledge Discovery, vol. 1, issue 2, 1997. [3] Daszczuk W., Muraszkiewicz M. et al., Data Mining for Technical Operation of Telecommunications Companies: a Case Study, Proc. of Int. Conf. SCI/ISAS, USA, 2000. [4] Data Mining Special Issue, Communications of the ACM, vol. 39, no 11, Nov. 1996. [5] Dhar V., Stein R., Seven Methods for Transforming Corporate Data into Business Intelligence, Prentice Hall Computer Books, 1997. [6] Fayyad U. M., Piatetsky-Shapiro G., Smyth P., Uthurusamy R., Advances in Knowledge Discovery and Data Mining, AAAI Press/The MIT Press, 1996. [7] Mattison R.: Data Warehousing and Data Mining for Telecommunications, Artech House, 1997. [8] Muraszkiewicz M., „ Data Mining at a Glance”, Proc. of Int. Conf. TEMPUS PHARE JEP-12165-97,10-12 June, 1999, Gdansk. [9] Weiss S., Predictive Data Mining: A Practical Guide, Morgan Kaufman Publishers, 1997. [10] Sasisekharan R., Seshardi V.: Data Mining and Forecasting in Large-Scale Telecommunication Networks, IEEE Expert Intelligent Systems and their Applications, Feb. 1996. 0LHF]\VáDZMuraszkiewicz 28 :\EUDQH(UyGáDZ,QWHUQHFLH [1] Data Warehousing Information Center, pwp.starnetinc.com/larryg/index.html [2] Data Mining and Knowledge Discovery Resource Center WDN*H]QDQ\MDNRKnowledge Discovery Mine), www.kdnuggets.com [3] DBMS Buyer's Guide, www.dbmsmag.com [4] Knowledge Discovery Mine web site, info.gte.com/~kdd/index.html =DZLHUDF] VWR]DGDZDQHS\WDQLDGRW\F]FHHNVSORUDFMLGDQ\FKRGNU\ZDQLDZLHG]\LWHPDWyZSRNUHwnych [5] Two Crows Corp., www.twocrows.com [6] Two &URZVRSXEOLNRZDáRWXVWXGLXPQDWHPDWQDU] G]LLX*\WNRZQLNyZWHFKQLNHNVSORUDFMLGanych