Eksploracja danych dla telekomunikacji

Transkrypt

Eksploracja danych dla telekomunikacji
Eksploracja danych dla telekomunikacji
0LHF]\VáDZMuraszkiewicz
(htttp://www.icie.com.pl/mrm.htm ; [email protected])
Instytut Informatyki Teoretycznej i Stosowanej PAN,
Instytut Informatyki Politechniki Warszawskiej
Streszczenie. $UW\NXáZSURZDG]DZSUREOHPDW\N
HNVSORUDFMLGDQ\FKang. data miningLSRND]XMHMDNLHV
PR*OLZRFL Z\NRU]\VWDQLD HNVSORUDFML GDQ\FK Z WHOHNRPXQLNDFML 2SLVDQR F]WHU\ WHFKQLNL HNVSORUDFML GaQ\FKDPLDQRZLFLHNODV\ILNDFM
UHJUHVM
JUXSRZDQLHLNRMDU]HQLH:FHOXSU]\EOL*HQLDRPDZLDQHMSUREOePDW\NLSRGDQRSU]\NáDGHNVSORUDFMLGanych.
:VW
S
6SyMU]P\QDSHZQHGZLHUyZQROHJOHZ\VW
SXMFHZLQIRUPDW\FHWHQGHQFMHSLHUZV]D±]DFKRG]L
ZZLHFLH]DVWRVRZDGUXJD±ZZLHFLHEDGD
: REV]DU]H ]DVWRVRZD REVHUZXMHP\ Z RVWDWQLFK WU]HFK GHNDGDFK QDG]Z\F]DM V]\ENL L SoZV]HFKQ\ UR]ZyM V\VWHPyZ LQIRUPDF\MQ\FK D ]ZáDV]F]D RJURPQH SU]\VSLHV]HQLH NWyUH Z W\P
Z]JO
G]LHVSRZRGRZDá,QWHUQHW:áDFLZDOXG]LRPVNáRQQRüGRGRNXPHQWRZDQLDVZ\FKG]LDáDL
JURPDG]HQLD LQIRUPDFML RUD] GáXJRWUZDáHJR LFK SU]HFKRZ\ZDQLD VSUDZLá\ *H LVWQLHMFH ]DVRE\
LQIRUPDF\MQH]DZDUWHZUy*QRUDNLFKED]DFKGDQ\FKVQLH]Z\NOHGX*HLVWDOHURVQ'DQ\FKW\FK
MHVWW\OH*HLFKSHáQDLSRJá
ELRQDDQDOL]DMHVWQLH]Z\NOHWUXGQ\PF]DVRFKáRQQ\PLNRV]WRZQ\P
SU]HGVL
Z]L
FLHP$MHGQRF]HQLHGRZLDGF]HQLHLLQWXLFMDSRGSRZLDGDM*HZW\PRFHDQLHLQIRrPDFMLPR*HE\üXNU\WDQLH]QDQDQDPDF]SUDZGRSRGREQLHFHQQDLSR*\WHF]QDZLHG]DRZLHFLH]
NWyUHJRWHLQIRUPDFMHSRFKRG]
1LHG]LZL]DWHPS\WDQLHZáDFLFLHOLEDUG]RGX*\FKED]GDQ\FKZURG]DMXRSHUDWRUyZWHOHNRPuQLNDF\MQ\FK JOREDOQ\FK VLHFL KDQGORZ\FK F]\ EDQNyZ R WR F]\ LVWQLHM ± D MHOL WDN WR MDNLH ±
metody odkrywania ukrytej w tych bazach wiedzy. Pytanie takie nie jest zapewne motywowane
FLHNDZRFL SR]QDZF] SRWHQWDWyZ JRVSRGDUF]\FK FKRG]L UDF]HM R RSDQRZDQLH L ZáF]HQLH GR
VZ\FK UXW\QRZ\FK SUDF WHFKQLNL NWyUD ]DSHZQL SU]HZDJ
NRQNXUHQF\MQ QD U\QNX L SR]ZROL
]ZL
NV]\ü]\VNL7WHFKQLNPDE\üodkrywanie wiedzy w bazach danych.
&RGRREV]DUXEDGDLQIRUPDW\F]Q\FKWRZUyGLQIRUPDW\NyZXSUDZLDMF\FKUHIOHNVM
QDGVWaQHPLUR]ZRMHPLFKG]LHG]LQ\FRUD]F]
FLHMLZ\UD(QLHMDUW\NXáRZDQHVRSLQLH*HSRVNXWHF]Q\P
Z\SRVD*HQLX NRPSXWHUyZ Z URGNL RSHURZDQLD QD OLF]EDFK L SU]HWZDU]DQLD WHNVWX QDGV]HGá F]DV
DE\ Z\NRU]\VWDü MH GR ]UR]XPLHQLD ]DVDG U]G]F\FK ZLDWHP Z NWyU\P *\MHP\ Richard HamPLQJ SRZLDGD ZSURVW ÄFHOHP L SU]HGPLRWHP SU]HWZDU]DQLD NRPSXWHURZHJR MHVW ZJOG Z QDV]
ZLDWDQLHOLF]E\´&KRG]LZL
FRWRDE\NRPSXWHU\VWDá\VL
QDU]
G]LDPLGREDGDRFKDUDNWHU]H
epistemologicznym.
%H]U\]\NDSRP\áNLPR*QDSRZLHG]LHü*HRGNU\ZDQLHZLHG]\LSRPRFZUR]XPLHQLXRWDF]DMFHJRQDVURGRZLVNDQLHEDZHPQDELRUZL
NV]HJR]QDF]HQLDQL*NODV\F]QH]DVWRVRZDQLDNRPSXWerów takie, jak automatyzacja magazynów, optymalizacja produkcji, projektowanie wspomagane
komputerowo itd. Gio Widerhold ze Stanford 8QLYHUVLW\WZLHUG]L*HÄRGNU\ZDQLHZLHG]\VWDMHVL
QDMEDUG]LHMSR*GDQ\PSURGXNWHPNRFRZ\PSU]HWZDU]DQLDNRPSXWHURZHJRL *H]QDF]HQLH ZLeG]\ X]\VNLZDQHM Z WHQ VSRVyE MHVW WDN GX*H L* W\ONR ]DELHJL PDMFH QD FHOX RFKURQ
URGRZLVND
QDWXUDOQHJRPDMZL
NV]ZDJ
´2SLQLDWD]QDMGXMHSRWZLHUG]HQLHZVWZLHUG]HQLXJohna Naisbetta,
NWyU\SRZLHG]LDá*HÄFKRüWRQLHP\ZLQIRUPDFMLWRQDMEDUG]LHMSRWU]HEXMHP\ZLedzy”.
Terminy dane, informacja, wiedzaQLHSRGGDMVL
áDWZRGHILQLRZDQLXLRGGDZQDMHOLQLHRG
SRF]WNXLFKLVWQLHQLDVSU]HGPLRWHPNRQWURZHUVMLZDUW\NXOHW\P]DNáDGDP\*HLQWXLFMD&]\WHlQLNDZW\PZ]JO
G]LHMHVWZ]JRG]LH]QDMF]
VWV]\PUR]XPLHQLHPW\FKWHUPLQyZ
18
0LHF]\VáDZMuraszkiewicz
$UW\NXáWHQPDQDVW
SXMFEXGRZ
:UR]G]LDOHGUXJLPZ\MDQLP\WHUPLQeksploracja danych,
SR F]\P VSUyEXMHP\ X]DVDGQLü GODF]HJR ZDUWR NRU]\VWDü ] HNVSORUDFML GDQ\FK UR]G]LDá WU]HFL
QDVW
SQLH Z UR]G]LDOH F]ZDUW\P RPyZLP\ ZD*QLHMV]H WHFKQLNL HNVSORUDFML WDNLH MDN NODV\ILNDFMD
UHJUHVMDJUXSRZDQLHLNRMDU]HQLD.ROHMQ\SLW\UR]G]LDáMHVWSRZLHFRQ\G\VNXVMLQDWHPDWWHJR
F]\PHNVSORUDFMDGDQ\FKQLHMHVW'DOHMZUR]G]LDOHV]yVW\PZFHOXOHSV]HJRSU]\EOL*HQLDSUREOePDW\NL SU]HDQDOL]XMHP\ Z\LPDJLQRZDQ\ SU]\NáDG NWyU\ SRVáX*\ GR SU]HSURZDG]HQLD HNVSORUDFML
GDQ\FK 5R]G]LDá VLyGP\ ]DU\VXMH VWUXNWXU
SURFHVX HNVSORUDFML GDQ\FK SR F]\P Z UR]G]LDOH
yVP\P Z\MDQLP\ WHUPLQ odkrywanie wiedzy L UHODFM
WHJR WHUPLQX ] HNVSORUDFM GDQ\FK 5RzG]LDáG]LeZLW\ZFDáRFLSRZL
FLP\HNVSORUDFMLGDQ\FKZWHOHNRPXQLNDFML
2. Eksploracja danych
5R]ZD*DQLDUR]SRF]QLHP\RGWHUPLQXZ
*V]HJRQL*RGNU\ZDQLHZLHG]\DPLDQRZLFLHRGWHrminu eksploracja danych (ang. data mining:QDMZL
NV]\PVNUyFLHUR]XPLHVL
SU]H]QLRGNUyZDQLH ] GRVW
SQ\FK ]DVREyZ GDQ\FK Uy*QHJR URG]DMX XRJyOQLH UHJXODUQRFL SUDZLGáRZRFL UeJXáD]DWHPF]HJRFRVWDQRZLSHZQZLHG]
]DZDUWimplicite w tych zasobach.
(NVSORUDFMDGDQ\FKMHVWREHFQLHMHGQ\P]QDM*\ZLHMUR]ZLMDQ\FKWHPDWyZZLQIRUPDW\FH-HVW
SU]HGPLRWHPUR]OHJá\FKEDGDG\VNXVMLWDN*HVSRUyZ3RZVWDMF]DVRSLVPDSRZL
FRQHWHMG]LeG]LQLHRGE\ZDMVL
OLF]QHNRQIHUHQFMHRUD]GRVNRQDOHIXQNFMRQXMRURGNLLQWHUQHWRZH]DMPXMFH
VL
WWHPDW\NQSwww.kdnuggets.com-HVWWR]DWHPG]LHG]LQDPáRGDZWUDNFLHSRV]XNLZDQLDL
WZRU]HQLDZáDVQHMWR*VDPRFLPHWRGRORJLLLQDU]
G]L1LHG]LZLZL
F*HURGRZLVNRQLHGRSUDFoZDáR VL
X]QDQ\FK SU]H] ZV]\VWNLFK V]F]HJyáRZ\FK GHILQLFML X*\ZDQHM WHUPLQRORJLL D Z W\P WDN
podstawowych terminów jak, eksploracja danych, czy odkrywanie wiedzy w bazach danych
(knowledge discovery in databases). O wzajemnej relacji tych dwóch terminów powiemy rozdziale
ósmym.
(NVSORUDFMDGDQ\FKLRGNU\ZDQLHZLHG]\SU]\FLJDMZLHOHXZDJLLZ\ZRáXMHPRFMH]DUyZQR
Z URGRZLVNDFK EDGDZF]\FK MDN L ZUyG JUXS SU]HP\VáRZ\FK Z EL]QHVLH EDQNRZRFL KDQGOX
XEH]SLHF]HQLDFKLWS3URZDG]LVL
VSRURSURMHNWyZ]WHJR]DNUHVXZFL*MHGQDNQLHGRNRFDZLaGRPRMDNLHVPR*OLZRFLHNVSORUDFMLLRGNU\ZDQLDZLHG]\ZMDNLFKREV]DUDFKPR*QDMHVWRVRZDü
QDMVNXWHF]QLHMLMDNLPLGRWHJRFHOXSRVáXJLZDüVL
PHWRGDPL:D*QHZL
FMHVWZWDNLPQLHXVWDOoQ\PVWDQLHXPLHüRGG]LHOLüQDG]LHMHLRELHWQLFHRGLVWQLHMF\FKUHDOQLHPR*OLZoFL
Sama idea eksploracji danych i odkrywania wiedzy jest niezwykle prosta i bez przeszkód odZRáXMHVL
GROXG]NLHMZ\REUD(QL7U]HEDMHGQDNRGUD]XPRFQRSRGNUHOLü*HSUDNW\F]QDUHDOL]DFMD
WHM áDWZHM Z ]UR]XPLHQLX LGHL MHVW SU]HGVL
Z]L
FLHP WHFKQRORJLF]QLH L RUJDQL]DF\MQLH ]áR*RQ\P
QLHNLHG\EDUG]RWUXGQ\P3RWU]HEQHWXV]DDZDQVRZDQHURGNLSURJUDPLVW\F]QHQLHW\SRZDRUJaQL]DFMDSUDF\RUD]±EDUG]RF]
VWR±VL
JQL
FLHSRNRV]WRZQHNRQVXltacje specjalistyczne.
:W\PDUW\NXOHSU]H]HNVSORUDFM
GDQ\FKUR]XPLHP\SURFHVDXWRPDW\F]QHJRRGNU\ZDQLD]QaF]F\FKSR*\WHF]Q\FKGRW\FKF]DVQLH]QDQ\FKLZ\F]HUSXMF\FKLQIRUPDFML]GX*\FKED]GDQ\FK
LQIRUPDFMLXMDZQLDMF\FKXNU\WZLHG]
REDGDQ\PSU]HGPLRFLHZLHG]DWDSU]\MPXMHSRVWDüUHJXá
SUDZLGáRZRFLWHQGHQFMLLNRUHODFMLLMHVWQDVW
SQLHSU]HGVWDZLDQDSU]\JRWRZDQHPXGRMHMVSR*\tNRZDQLD X*\WNRZQLNRZL Z FHOX UR]ZL]DQLD VWRMF\FK SU]HG QLQLP SUREOHPyZ L SRGM
FLD LVWRtnych decyzji.
3RWHMQLHFR]DZLáHMGHILQLFMLVSyMU]P\QDHNVSORUDFM
SU]H]SU\]PDWMHMGRZFLSQHJRRNUHOHQLD
ÄHNVSORUDFMDGDQ\FKSROHJDQDWRUWXURZDQLXGDQ\FKWDNGáXJRD*]DF]Q]H]QDZDü´,QQHUyZQLH
RSLVRZHVSRMU]HQLHQDHNVSORUDFM
]DZLHUDVL
ZSROHFHQLXNWyUHFKFLDáRE\VL
VNLHURZDüGRED]\
GDQ\FKÄSRND*PLQLHW\ONRWRFRZLG]
JRá\PRNLHPWZRMH]DVRE\SRND*WDN*HWRF]HJRQLH
ZLG]
´
7DNZL
F]DVDGQLF]\PFHOHPHNVSORUDFMLGDQ\FKMHVWVL
JQüPR*OLZLHQDMJá
ELHMGRGRVW
SQ\FK
]DVREyZLQIRUPDF\MQ\FKSRWRDE\RGSRZLHG]LHüQDS\WDQLDX*\WNRZQLNDRUHJXODUQRFLLSUDZiGáRZRFLLVWQLHMFHZZLHFLHUHSUH]HQWRZDQ\PSU]H]WH]DVRE\DE\PyF]ZHU\ILNRZDüKLSRWH]\
VWDW\VW\F]QHGRW\F]FHWHJRZLDWDF]\SRWRDE\VNXWHF]QLHSURJQR]RZDü
Eksploracja danych dla telekomunikacji
19
:MDNLPFHOXSURZDG]LüHNVSORUDFM
GDQ\FK"
3UDNW\F]QHSR*\WNLHNVWUDKRZDQLDGDQ\FKXMDZQLDMVL
ZGZyFKG]LHG]LQDFKNWyU\PLV
– prognozowanie (ang. prediction, forecasting),
– opis (ang. description).
3URJQR]RZDQLHSROHJDQDZ\NRU]\VWDQLX]QDQ\FKZFKZLOLREHFQHMZDUWRFLLQWHUHVXMF\FKQDV
]PLHQQ\FKOXESyOZED]LHGDQ\FKZFHOXSU]HZLG\ZDQLDZDUWRFLW\FKOXELQQ\FK]PLHQQ\FKZ
SU]\V]áRFL1DSU]\NáDGPRGHOSURJQRVW\F]Q\RSUDFRZDQ\GODEDQNXGRW\F]F\SR*\F]HNNRU]yVWD]KLVWRULLNRQWRVyE]DELHJDMF\FKRSR*\F]NLSRPDJDMFZVND]DüW\FKNWyU]\SUDZGRSRGREQLH
E
GPLHOLWUXGQRFL]HVSáDFHQLHPSo*\F]HN
2SLVSROHJDQDWZRU]HQLXF]\WHOQHML]UR]XPLDáHMGODF]áRZLHNDUHSUH]HQWDFMLZLHG]\Z\GRE\WHM
]GDQ\FKZSRVWDFLZ\NUHVyZZ]RUyZUHJXáWDEHO2SLV\WDNLHZSRVWDFLPRGHOLGHVNU\SF\MQ\FK
VF]
VWRX*\ZDQHGRZVSRPDJDQLDSURFHVyZGHF\]\MQ\FK
)LUPD,%0Z\PLHQLDPLQQDVW
SXMFHUy*QHJRURG]DMXSRZRG\NWyUH]DFK
FDMGRSURZDG]enia eksploracji danych:
– ZGX*\FKED]DFKGDQ\FK]DZDUWDMHVWFHQQDXNU\WDZLHG]DNWyUDPR*HRND]DüVL
SU]\GDWQD
w proZDG]HQLXUy*QRUDNLFKSUDFLUR]XPLHQLXRWRF]HQLD
– istnieje potrzeba konsolidacji rekordów bazy danych w celu zapewnienia spójnego, jednoliteJRMHMREUD]XZRF]DFKX*\WNRZQLNDPR*HWRPLHG]\LQQ\PLSURZDG]LüGREXGRZ\KXUWRwni danych),
– QDOH*\]PQLHMV]DüNRV]W\SU]HFKRZ\ZDQLDLSU]HWZDU]DQLDGDQ\FK
– NRQNXUHQFMDQDU\QNXZ]PDJDVL
LZ\PXV]DZL
NV]SURGXNW\ZQRü
– QDVLODVL
WHQGHQFMDGRLQG\ZLGXDOL]RZDQLDSURGXNFMLRUD]Z\V]XNLZDQLDL]DMPRZDQLDQLewielkich nisz rynkowych.
2WRWU]\SU]\NáDGyZVNXWHF]QHJR]DVWRVRZDQLDHNVSORUDFMLGDQ\FKLILUPDAmerican Express
SRGDáD*HZ\NRU]\VWDQLHWHFKQLNHNVSORUDFMLQDED]LHGDQ\FKNOLHQWyZSR]ZROLáR]ZL
NV]\üR±
X*\FLHMHMNDUWNUHG\WRZ\FKLLLQQDGX*DILUPDRIHUXMFDNDUW\NUHG\WRZHG]L
NLHNVSORUDFML
SRWUDILáDRNUHOLüFLRSURFHQWRZ\VHJPHQWZV]\VWNLFKVZ\FKNOLHQWyZNWyU]\FKDUDNWHU\]XMVL
W\P *H UHJXODUQLH XG]LHODM RGSRZLHG]L QD Uy*QH ]DS\WDQLD ILUP\ .OLHQFL FL GRVWDUF]DOL ZV]\VWNLFKRGSRZLHG]L']L
NLXVWDOHQLXWHJRIDNWXILUPD]ZL
NV]\áDNURWQLHVWRS
RGSRZLHG]LL
]PQLHMV]\áD NRV]W\ RSáDW SRF]WRZ\FK R LLL SRZD*QD ILUPD WHOHNRPXQLNDF\MQD ]D VSUDZ
SU]HSURZDG]RQHM DQDOL]\ GDQ\FK GURJ HNVSORUDFML RGNU\áD *H LVWQLHMH SRGJUXSD X*\WNRZQLNyZ
NWyU]\ SU]H] PLHVLFH Z URNX QLH NRU]\VWDM ] XVáXJ ,QIRUPDFMD WD VSRZRGRZDáD RSUDFRZDQLH
VSHFMDOQHJRSURJUDPX]DFK
WGODW\FKX*\WNRZQLNyZFRSU]\QLRVáRGRVNRQDáHUH]XOWDW\NRPHUF\jne.
4. Techniki eksploracji
1DMF]
FLHMHNVSORUDFM
GDQ\FKZL*HVL
]QDVW
SXMF\PLW\SDPLG]LDáD
– klasyfikowanie (ang. classification),
– regresja (ang. regression),
– grupowanie (ang. clustering) ,
– kojarzenie (ang. association).
'ODSRU]GNXRGQRWXMP\*HSHáQLHMV]DOLVWDURG]DMyZG]LDáDNWyUHPRJE\üZ\NRU]\VWDQHGR
HNVSORUDFMLE\áDE\]QDF]QLHGáX*V]D3RQL*HMSRNUyWFHRPyZLP\SRV]F]HJyOQHW\S\G]LaáD
0LHF]\VáDZMuraszkiewicz
20
Klasyfikacja
-HVW RQD SUDZGRSRGREQLH QDMF]
FLHM VWRVRZDQ WHFKQLN HNVSORUDFML GDQ\FK .ODV\ILNDFMD MHVW
SURFHVHPXF]HQLDVL
NWyUHJRFHOHPMHVWRNUHOHQLHUHJXá\NWyUD±NLHG\MX*]RVWDáD]DDNFHSWRZDQD
±VáX*\GRSU]\SRU]GNRZDQLD]DNODV\ILNRZDQLDEUDQHJRSRGXZDJ
HOHPHQWXGRMHGQHMOXEZL
FHMZF]HQLHM]GHILQLRZDQ\FKNODV]ELRUyZ3URFHVWHQNRU]\VWD]H]ELRUXZF]HQLHMSRNODV\ILNoZDQ\FK SU]\NáDGyZ SR WR DE\ RNUHOLü VSRVyE PRGHO NODV\ILNRZDQLD FDáHM GRVW
SQHM SRSXODFML
HOHPHQWyZ 7HQ W\S DQDOL]\ GDMH V]F]HJyOQLH GREUH Z\QLNL SU]\ Z\NU\ZDQLX QDGX*\ü RUD] SU]\
LGHQW\ILNRZDQLXW\FKSUyER]DVRE\JG]LHLVWQLHMHGX*HU\]\NRLFK]PDUQRZDQLD
.ODV\ILNDFMDF]
VWRNRU]\VWD]DOJRU\WPyZRSDUW\FKQDGU]HZDFKGHF\]\MQ\FKOXEVLHFLDFKQHuURQRZ\FK8*\FLHW\FKDOJRU\WPyZUR]SRF]\QDVL
RGSRGDQLDLPZUDPDFKXF]HQLDVL
WUHQLQJX
]ELRUXSU]\NáDGyZMX*VNODV\ILNRZDQ\FK:Z\SDGNXZ\NU\ZDQLDQDGX*\ü]ELyUWDNL]DZLHUDáE\
SU]\SDGNLSU]\NáDG\JG]LHZ\VWSLáRQDdX*\FLHRUD]SU]\SDGNLÄXF]FLZH´
Regresja
5HJUHVMDUyZQLH*NRU]\VWD]SURFHVXXF]HQLDVL
]WUy*QLFZVWRVXQNXGRNODV\ILNDFML*HSoZVWDMH WX IXQNFMD D QLH RGZ]RURZDQLH NWyUD GDQHPX HOHPHQWRZL SU]\SRU]GNRZXMH NRQNUHWQ
ZDUWRü3U]\NáDGHPMHM]DVWRVRZDQLDMHVWSU]HZLG\ZDQLHSRS\WXQDQRZ\SURGXNWZ]DOH*QRFLRG
Z\GDWNyZQDUHNODP
-HOL]PLHQQHZ\NRU]\VW\ZDQHZPRGHODFKRSDUW\FKQDUHJUHVMLPDM]áR*oQQDWXU
QSZLHONRüVSU]HGD*\ZVND(QLNLJLHáGRZHWR]Z\NOHGR]DLPSOHPHQWRZDQLDUHJUHVML
NRU]\VWDVL
]VLHFLQHXURQRZ\FKDWR]XZDJLQDLFKSU]\GDWQRüZÄV\WXDFMDFKQLHOLQLRZ\FK´
Grupowanie
*UXSRZDQLH SROHJD QD SU]\SRU]GNRZDQLX EUDQHJR SRG XZDJ
HOHPHQWX GR MHGQHM OXE ZLHOX
JUXSNODV]ELRUyZSU]\F]\PJUXS\WHVZ\]QDF]DQDSU]H]VDPSURFHVJUXSRZDQLDQDSRGVWDZLH
DQDOL]\GDQ\FKRZV]\VWNLFKGRVW
SQ\FKHOHPHQWDFKDQLHMDNZSU]\SDGNXNODV\ILNDFMLJG]LHNOaV\ ]RVWDá\ ]GHILQLRZDQH ZF]HQLHM QLHMDNR SR]D SURFHVHP NODV\ILNDFML *UXS\ Z\]QDF]DQH V QD
SRGVWDZLH SHZQ\FK F]\QQLNyZ DOER ZVND]XMF\FK QD SRGRELHVWZD HOHPHQWyZ DOER RSDUW\FK QD
SU]\M
W\FKUR]NáDGDFKSUDZGRSRGRELHVWZDDOERNRU]yVWDMF\FK]MHV]F]HLQQ\FKSU]HVáDQHN
*UXSRZDQLHMHVWV]F]HJyOQLHSU]\GDWQHZUR]ZL]\ZDQLXSUREOHPyZVHJPHQWRZDQLD$OJRU\WP
grupowania wyznacza czynnik G\ZHUV\ILNXMF\ HOHPHQW\ UR]ZD*DQHM SRSXODFML GHILQLXMH JUXS\
VHJPHQW\LSU]\SRU]GNRZXMHGRQLFKSRV]F]HJyOQHHOHPHQW\*UXSRZDQLHMHVWF]
VWRSLHUZV]\P
HWDSHPZHNVSORUDFMLGDQ\FKSRZ\]QDF]HQLXVHJPHQWyZPR*QDGRQLFK]DVWRVRZDüLQQHWHFKQLNL
Z]DOH*QRFLRGRF]HNLZDQ\FKUH]XOWDWyZ
Kojarzenie
.RMDU]HQLHSROHJDQDRGV]XNLZDQLXW\FKHOHPHQWyZNWyUHZL*VL
]]DGDQ\P]GDU]HQLHPOXE
LQQ\P HOHPHQWHP $OJRU\WP\ WX Z\NRU]\VW\ZDQH SR]ZDODM RGNU\ZDü UHJXá\ NWyUH SU]\MPXM
SRVWDü
MHOLHOHPHQW$MHVWVNáDGQLNLHPGDQHJR]GDU]HQLDto w X % przypadków element B jest tak*HVNáDGQLNLHPWHJR]GDU]HQLD
QDSU]\NáDG
MHOLNOLHQWNXSXMHSáDWNLRZVLDQHtoZSU]\SDGNyZNOLHQWWHQNXSLPOHNRÄàDFLDWH´
-HVWU]HF]FLHNDZ*H]DLQWHUHVRZDQLHNRMDU]HQLHPQLH]Z\NOHZ]URVáRZUD]]XSRZV]HFKQLeQLHP VL
Z KDQGOX GHWDOLF]Q\P F]\WQLNyZ NRGyZ SDVNRZ\FK FR SR]ZDOD ]ELHUDü RJURPQH LORFL
GDQ\FKMX*ÄVNRMDU]RQ\FK´ZNRV]\NXNXSXMFHJR=WHJRSRZRGX]DSHZQHWHQURG]DMDQDOL]\MHVW
nazywany niekiedy market-basket analysis .RMDU]HQLH MHVW WDN*H VWRVRZDQH GR RSUDFRZ\ZDQLD
kampanii marketingowych czy analizy portfeli inwestycyjnych.
3HZQRGPLDQNRMDU]HQLDMHVWXZ]JO
GQLHQLHF]\QQLNDF]DVX1DSU]\NáDG
jHOL w czasie operacji wykonana zostanie procedura X, toZSU]\SDGNyZ]DND*HQLH<
SRMDZLVL
ZFLJXGQL
Eksploracja danych dla telekomunikacji
21
=DNRF]P\ WHQ UR]G]LDá QDVW
SXMF\P SRGVXPRZDQLHP NODV\ILNDFMD L UHJUHVMD V V]F]HJyOQLH
SR*\WHF]QHLVNXWHF]QHGRWZRU]HQLDSURJQR]F]\OLGRSU]HZLG\ZDQLD]GDU]HJUXSRZDQLHLNRMaU]HQLHQDWRPLDVWGRVNRQDOHQDGDMVL
GRRSLVXSURFHVyZ]DFKRZDMDNLHPDMPLHMVFHZZLHFLH
RNWyU\PGDQH]QDMGXMVL
ZED]LH
5. Czym eksploracja danych nie jest ?
:X]XSHáQLHQLXGRGHILQLFMLHNVSORUDFMLGDQ\FKZDUWRSRGNUHOLüF]\PHNVSORUDFMDQLHMHVW$WR
GODWHJR*HQLHSRUR]XPLHQLDLQDGPLHUQHQLHNLHG\QDZHWIDáV]\ZHRF]HNLZDQLDZNRQWHNFLHHNsSORUDFMLGDQ\FK]GDU]DMVL
VWRVXQNRZRF]
VWR$]DWHPHNVSORUDFMDGDQ\FKQLHMHVW
– RGNU\ZDQLHPZLHG]\MHVWRQDW\ONRF]
FLSURFHVXRGNU\ZDQLDZLHG]\RF]\PSRZLHP\
ZL
FHMZUR]G]LDOHyVP\P
– QLHRG]RZQLH]ZL]DQD]KXUWRZQLDPLGDQ\FKHNVSORUDFMDPR*HE\üSURZDG]RQDQDGRZRlQHMED]LHFKRüQDWXUDOQLHKXUWRZQLHVV]F]HJyOQLHGREU\PLPLHMVFDPLGRMHMXSUDZLDQLD
– W\SRZ\PQDU]
G]LHPDQDOLW\F]Q\PLURGNLHPGRWZRU]HQLDVSUDZR]GD=DVDGQLF]DUy*QLFD
SRPL
G]\HNVSORUDFMDW\SRZ\PLQDU]
G]LDPLDQDOLW\F]Q\PLSROHJDQDSRGHMFLXGRHNVSOoUDFMLGDQ\FKLEDGDQLXZ\VW
SXMF\FKSRPL
G]\QLPLUHODFML2Wy*QDU]
G]LDDQDOLW\F]QHZ
tym OLAP (ang. On-Line Analytical ProcessinVWRVXMHVL
JáyZQLHGRZHU\ILNRZDQLDKLSoWH]Z\VXQL
W\FKSU]H]DQDOLW\NDQLHPRJRQHQDWRPLDVWVDPHWZRU]\üKLSRWH]RGNU\ZDü
]DVDGLUHJXá±DWRMHVWZáDQLHPR*OLZH]DSRPRFWHFKQLNHNVSORUDFMLGDQ\FK
– XF]HQLHPVL
PDV]\Qang. machine learning/discovery), które dotyczy odkrywania praw
empirycznych na podstawie obserwacji i eksperymentów,
– FDáNRZLFLH]DXWRPDW\]RZDQ\PSURFHVHPHNVSORUDFMDGDQ\FKMHVWZRJURPQ\PVWRSQLX
X]DOH*QLRQDRGSURZDG]FHJRMF]áRZLHNDNWyU\RNUHODZDUXQNLSRF]WNRZHGRELHUDPetody eksploracji i ocenia otrzymane rezultaty i wreszcie to on decyduje czy uzyskane zale*QRFLVLQWHUHVXMFHF]\OLF]\PDMMDNNROZLHNZDUWRüSUDNW\F]QOXESR]QDZF]GODRrganizacji, na której zlecenie eksploracja jest prowadzona,
– áDWZ\PWDQLPLV]\ENLPGRZGUR*HQLDZRUJDQL]DFMLSURFHVHP:áF]HQLHHNVSORUDFMLGanych do rutynowych operacji organizacji wymaga starannych prac przygotowawczych, eksSHU\PHQWRZDQLDLZVSyáSUDF\HNVSHUWyZZ]DNUHVLHHNVSORUDFMLGDQ\FKLVSHFMDOLVWyZZ
G]LHG]LQLHNWyUHMGDQHGRW\F]7\SRZ\SURMHNWWUZDZLHOHPLHVL
F\DQDZHWODWMHVWPLHjVFHPJG]LHXF]VL
ZV]\VWNLH]DDQJD*RZDQHVWURQ\RSURJUDPRZDQLHQDU]
G]LRZHMHVWUaF]HMNRV]WRZQHRGNLONXW\VL
F\GRNLONXVHWW\VL
F\GRODUyZDHNVSORDWDFMDLSLHO
JQDFMD
V\VWHPXZ\PDJDM]QDNRPLFLHZ\V]NROonego i godnego zaufania personelu,
– SU]\VáRZLRZ\PZLHOR]adaniowym scyzorykiem armii szwajcarskiej dobrym na wszelkie
okazje (ta opiQLDELHU]HVL
DOER]QDdPLHUQHJRHQWX]MD]PXZRGQLHVLHQLXGRSRWHQFMDáX
WNZLFHJRZWHFKQLNDFKHNVSORUDFMLGDQ\FKDOERMHVWZ\QLNLHPQLHXF]FLZHJRSUH]HQWRZDQLD
LFKPR*OiZRFLSU]H]VSU]HGDZFyZRSURJUDPRZDQLDLNRQVXltantów)
3U]\NáDG
22
0LHF]\VáDZMuraszkiewicz
: FHOX OHSV]HJR Z\MDQLHQLD QD F]\P SROHJD HNVSORUDFMD GDQ\FK UR]ZD*P\ Z\LPDJLQRZDQ
V\WXDFM
ZILUPLHWHOHNRPXQLNDF\MQHM.LHURZQLFWZRWHMILUP\]RVWDáRSRLQIRUPRZDQH*HQDVLODVL
]MDZLVNR SU]HFKRG]HQLD MHM NOLHQWyZ GR ILUP\ NRQNXUHQF\MQHM =DU]G SRGMá GHF\]MH R ]EDGDQLX
VSUDZ\LXVWDOHQLXSU]\F]\QWHJR]MDZLVND:W\PFHOXUR]SRF]
WRSURMHNWHNVSORUDFMLGDQ\FKNWóUHJR ]DGDQLH EU]PLDáR SRGDü
UHGQLDOLF]ED
FKDUDNWHU\VW\N
SURILO NOLHQWD
ID
rozmów
Zmiana
NWyU\ PD VNáRQQRü GR ]PLDQ\
osoby
wiek
zamiejscowych
operatora
firmy.
W\G]LH
1
23
62
Tak
Rozpoczniemy od wyboru
grupy klientów firmy. Dla
2
40
47
Nie
XSURV]F]HQLD UR]ZD*\P\ VNURm3
21
20
Nie
Q\ ]ELyU ]áR*RQ\ ] RVyE 0u4
56
43
Nie
VLP\ WDN*H ]GHF\GRZDü NWyUH
DWU\EXW\ FKDUDNWHU\]XMFH NOLHn5
45
50
Nie
WyZ ]RVWDQ Z]L
WH SRG XZDJ
Z
6
34
51
Tak
prowadzonej analizie. Odnotujmy
SU]\W\P*HGHF\]MDWDMHVWMX*Z
7
22
66
Tak
MDNLP VWRSQLX QDV] KLSRWH] R
8
19
53
Tak
przyczynach przechodzenia do
9
28
68
Tak
LQQ\FK RSHUDWRUyZ : SU]\NáaG]LHZH(PLHP\SRGXZDJ
QDVW
10
30
60
Nie
SXMFH DWU\EXW\ LGHQW\ILNDWRU
11
58
76
Nie
NOLHQWD ,' ZLHN UHGQL OLF]E
12
50
69
Nie
rozmów zamiejscowych na tyG]LHNWyUHSU]HSURZDG]LáNOLHQWL
13
48
35
Nie
DWU\EXW ]DZLHUDMF\ LQIRUPDFM
R
tym czy osoba nadal jest naszym
NOLHQWHP F]\ SU]HV]áD GR LQQHJR
RSHUDWRUD =DáF]RQD WDEHOND MHVW F]
FL SHZQHM KLSRWHW\F]QHM ED]\ GDQ\FK L ]DZLHUD GDQH KLVWoU\F]QH R DQDOL]RZDQ\FK RVREDFK :\G]LHOHQLH GDQ\FK ] ED]\ Z SRVWDFL WDEHONL NRF]\ NURN JUoPDG]HQLDGDQ\FKNWyUHE
GSU]HGPLRWHPHNVSORUDFML=DXZD*P\SU]\W\P*HNURNWHQ]DZLHUDá
]DSHZQHNLONDSRG]DGDQD SU]\NáDG REOLF]HQLHUHGQLHM OLF]E\ UR]PyZ ]DPLHMVFRZ\FK Z W\JoGQLX ,QQ\PL ]DGDQLDPL NWyUH PRJá\ PLHü PLHMVFH V Z\HOLPLQRZDQLH V]XPX L QDGPLDURZRFL
GDQ\FKZED]LHKLSRWHW\F]QHMMHVWSROHÄGDWDXURG]HQLD´]NWyUHJRZ\HOLPLQRZDQRG]LHLPLHVLF
i obliczono wiek osoby), konsolidacja danych itp.
UH G Q LD OLF ] E D UR ] P y Z
3DWU]FQDWDEHON
PR*QD]DS\WDüF]\RGQDOe]LHQLH SRZRGX ]PLDQ\ RSHUDWRUD MHVW PR*OLZH
QDW\FKPLDVW EH] SURZDG]HQLD *DGQ\FK RSHUDFML
%\ü PR*H GOD W\FK NWyU]\ OXEL UHSUH]HQWDFM
danych w postaci tabel jest to zadanie do wyko
QDQLDGODZL
NV]RFLZV]DNáDWZLHMV]DGRDQDOL]\
E\áDE\ UHSUH]HQWDFMD GDQ\FK Z GZXZ\PLDURZHM
SU]HVWU]HQL QD SáDV]F]\(QLH =DáF]RQ\ U\VXQHN
WDN ZáDQLH SU]HGVWDZLD GDQH ] WDEHONL .D*G\
SXQNWUHSUH]HQWXMHNOLHQWD'DQH]RVWDá\VNODV\Ii
NRZDQH Z GZyFK ]ELRUDFK Z ]DOH*QRFL RG ZDr
WRFL DWU\EXWX Ä]PLDQD RSHUDWRUD´ .ZDGUDW\
Z LH N
R]QDF]DMW\FKNWyU]\]PLHQLOLRSHUDWRUDWUyMNW\
± W\FK NWyU]\ SR]RVWDOL 2 SR]LRPD SRND]XMH
ZLHNRVRE\]DRSLRQRZD±UHGQLOLF]E
UR]PyZ]DPLHMVFRZ\FKZW\Jodniu.
:SU]\NáDG]LHWHFKQLNHNVSORUDFMLMHVWNODV\ILNDFMDSROHJDMFDWXQD]QDOH]LHQLXIXQNFMLNWyUD
SR]ZROL SU]\SLVDü RVRE
GR MHGQHM ] GZyFK NODV ÄNOLHQW NWyU\ ]DPLHU]D ]PLHQLü RSHUDWRUD´ L
23
Eksploracja danych dla telekomunikacji
„klient, który raczej nie zmieni operatora”. Poszukiwanie tej funkcji wykona program komputeroZ\0R*HWRE\üSURJUDPXF]F\VL
QDGDQ\FKWUHQLQJRZ\FK]WDEHOL
-DNR SXQNW Z\MFLD GOD WHJR SURJUDPX SU]\MPLHP\ SHZLHQ model eksploracji danych E
G]LH
nim funkcja liniowa f(x) = αx + β7HUD]MHVWHP\MX*JRWRZLDGRNáDGQLHMSURJUDPNRPSXWHURZ\
MHVW JRWRZ\ GR UR]SRF]
FLD LWHUDF\MQHJR Z\]QDF]DQLD ZDUWRFL SDUDPHWUyZ modelu, tzn. wspóáczynników α oraz β3R]DNRF]HQLXWHJRSURFHVXGRNRQXMHP\oceny modeluZWHQVSRVyE*HGOD
Z\]QDF]RQ\FK SDUDPHWUyZ VSUDZG]DP\ MDN X]\VNDQD NRQNUHWQD IXQNFMD OLQLRZD VSHáQLD SU]\M
WH
kryteria eksploracji danych-DNRNU\WHULDPR*HP\SU]\MüGRNáDGQRüNODV\ILNDFMLL]UR]XPLDáRü
GOD F]áRZLHND PR*QD WH* SU]\Mü MHV]F]H LQQH NU\WHULD 3RGVXPXMP\ PRGHO HNVSORUDFML GDQ\FK
Z\]QDF]DQLHSDUDPHWUyZPRGHOXRFHQDZ\QLNyZQDSRGVWDZLHNU\WHULyZWZRU]UD]HPWRFRQa]\ZDVL
algorytmem eksploracji danych=DXZD*P\*HMHOLSU]\M
W\PRGHOQLHMHVW]DGDZDODMF\
WRWU]HEDSRV]XNDüLQQHJRPRGHOX±F]\QQRüWDUyZQLH*QDOH*\GRDOJRU\tmu.
: Z\QLNX SUDF\ SURJUDPX SRV]XNXMFHJR ZVSyáF]\QQLNL X]\VNDOLP\ QDVW
SXMF OLQLRZ
IXQNFM
GHF\]\MQ
f(x) = 1,3 x
NWyUD]RVWDáDSRND]DQDQD]DáF]RQ\PU\VXQNX2GUD]XZLG]LP\*HQLHPR*HP\]DMHMSRPRF
DQL]DSRPRF*DGQHMLQQHMIXQNFMLOLQLRZHMFDáNRZLFLHUR]G]LHOLüGZyFK]DáR*RQ\FKNODV,QQ\PL
VáRZ\GRNáDGQRüNODV\ILNDFMLQLHMHVWGRVNRQDáD
Ostatnim krokiem procesu eksploracji jest interpretacja wyników FR PD GX*H ]QDF]HQLH JG\*
PRJ RQH PLHü ZSá\Z QD GHF\]MH GRW\F]FH ]DU]G]DQLD ILUP : SU]\NáDG]LH RND]DáR VL
*H
ZL
NV]RüPáRGV]\FKNOLHQWyZNWyU]\PDMQDVZRLPNRQFLHGX*OLF]E
UR]PyZ]DPLHMVFRZ\FK
VNáRQQ\FKMHVW]PLHQLüRSHUDWRUDQLHZV]\VF\MHGQDNRGHV]OLSR]RVWDáQDSU]\NáDGNOLHQW,' $]DWHPZ\QLNHNVSORUDFMLPR*QD]DZU]HüZQDVW
SXMF\P]GDQLXVNáRQQRüGR]PLDQ\RSHUDWRUD
PDM PáRG]L NOLHQFL SRQL*HM ODW NWyU]\ PDM QD VZRLP NRQFLH UHGQL OXE ZL
FHM QL* UHGQL
OLF]E
URzmów zamiejscowych.
1DVXZDVL
WXQDW\FKPLDVWS\WDQLHGODF]HJROLF]EDUR]PyZPáRGV]\FKNOLHQWyZMHVWF]\QQLNLHP
NU\W\F]Q\PZGHF\]MLR]PLDQLHRSHUDWRUD"2GSRZLHG]LQDOH*\V]XNDüZQDVW
SQHMVHVMLHNVSORUacji danych.
7. Zarys procesu eksploracji danych
(NVSORUDFMD GDQ\FK MDN ZVSRPQLHOLP\ QLH MHVW áDWZ\P SURFHVHP 3RQL*HM SRGDMHP\ V]Hü
SRGVWDZRZ\FKNURNyZNWyUHSR]ZROXF]\QLüWHQSURFHVVNutecznym.
1. =UR]XPLHüLVWDUDQQLH]GHILQLRZDüSUREOHP]DGDQLHNWyU\MHVWSU]HGPLRWHPHNVSORUDFML3oQDGWRQDOH*\]DQDOL]RZDüL]UR]XPLHüRWRF]HQLHZNWyU\PWHQSUREOHPZ\VW
puje.
3. =GHF\GRZDüMDNSU]\JRWRZDüGDQHGR
SU]HWZDU]DQLD1DSU]\NáDGF]\FKOHEL
FLDVWNDWRUWRZHQDOH*GRJUXS\SLHF]yZR"&]\ZLHNUHSUH]HQWRZDüMDNRSU]eG]LDáQSODWF]\MDNROLF]E
QS
40 lat).
4. :\EUDüDOJRU\WPOXELFKNRPELQDFMH
HNVSORUDFMLGDQ\FKLZ\NRQDüSURJUDP
UHDOL]XMF\WHQDOJRU\WPQDSU]\JRWRZaQ\FKGDQ\FK2GQRWXMP\*HF]
VWRZ
UH G Q LD OLF ] E D UR ] P y Z
2. :\EUDü]ELyUGDQ\FKZNWyU\FKSU]HSURZDG]LP\HNVSORUDFM
=ELyUWHQPXVLE\ü]QDF]F
SUyENFDáHJR]DVREXGDQ\FK:\EyU
dotyczy obiektów, ich atrybutów (zmien
Q\FKSU]HG]LDáXF]DVX]DNUHVXJHRJUa
ILF]QHJRZLHONRFLSUyENLLWG
RGFKRG]
SR]RVWDM
Z LH N
24
0LHF]\VáDZMuraszkiewicz
VSRVyELWHUDF\MQ\PXVLP\ZUyFLüGRNUoNXDQDZHWMHOLUH]XOWDW\QLHV]DGDZDODMFH
5. =DQDOL]RZDüZ\QLNLZ\NRQDQLDSURJUDPXLZ\EUDüWHNWyUHVWDQRZLUH]XOWDWSUDF\:W\P
PLHMVFXSRWU]HEQDMHVWFLVáDZVSyáSUDFDDQDOLW\NDLVSHFMDOLVW\ZG]LHG]LQLHNWyUSRGGDMHP\
EDGDQLX:\QLNLQDOH*\SU]HGVWDZLüZIRUPLHSU]\M
WHMZRUJDQL]DFMLJG]LHSURFHVHNVSORUDFML
jest prowadzony.
6. 3U]HGáR*\üZ\QLNLNLHURZQLFWZXRUJDQL]DFMLL]DVXJHURZDüVSRVyELFKZ\NRU]\VWDQLD
8. Odkrywanie wiedzy w bazach danych
:OLWHUDWXU]HSU]HGPLRWX]ZáDV]F]DZSUDFDFKRFKDUDNWHU]HWHRUHW\F]Q\PRGUy*QLDVL
WHUPLQ
eksploracja danych od terminu odkrywanie wiedzyDGRNáDGQLHModkrywanie wiedzy w bazach danych (ang. knowledge doscovery in databases – KDD=D]Z\F]DMRGNU\ZDQLHZLHG]\RGQRVLVL
GRFDáHJRSURFHVXRGNU\ZDQLDSU]\GDWQ\FKLSR*\WHF]Q\FKLQIRUPDFMLLZLHG]\GURJHNVSORURZaQLDED]GDQ\FKSRGF]DVJG\HNVSORUDFMDGDQ\FKPDZ
*V]H]QDF]HQLHJG\*GRW\F]\W\ONRZ\ERUXL
]DVWRVRZDQLD DOJRU\WPyZ L SURJUDPyZ VáX*F\FK GR Z\GRE\FLD ] ED] UHJXá ]DOH*QRFL VFKHPatów.
Odkrywanie wiedzy jest wielostopniowym procesem, który ma na celu uzyskanie nowych, wiaU\JRGQ\FKSRWHQFMDOQLHSR*\WHF]Q\FKL]UR]XPLDá\FK
GOD F]áRZLHND LQIRUPDFML R SUDZLGáRZRFLDFK Z\VW
2GNU\ZDQLHZLHG]\
SXMF\FK Z ZLHFLH UHSUH]HQWRZDQ\P Z ED]LH GaQ\FK : QDMRJyOQLHMV]\P ]DU\VLH SURFHV WHQ VNáDGD
'DQHVXURZH
VL
]WU]HFKNURNyZSDWU]U\VXQHNDPLDQRZLFLHL
SU]HWZDU]DQLDZVW
SQHJR, które obejmuje m.in. przy3U]HWZDU]DQLH
gotowanie danych, wybór próbki danych, „czyszczeZVW
SQH
nie” danych; (ii) eksploracji danych; (iii) przetwarzaQLDNRFRZHJRZUDPDFKNWyUHJRGRNRQXMHVL
PLQ
wieloaspektowej oceny, filtrowania, wariantowej
wizualizacji i interpretacji uzyskanych wyników.
(NVWUDNFMD
GDQ\FK
7U]HEDPRFQRSRGNUHOLü*HZSURFHVLHRGNU\ZaQLDZLHG]\QLH]Z\NOHLVWRWQURO
RGJU\ZDF]áRZLHN
DQDOLW\N SUREOHPX NWyUHJR XPLHM
WQRFL GRZLDdF]HQLH L SUDFD PDM NOXF]RZH ]QDF]HQLH Z RWU]\Pa3U]HWZDU]DQLH
QLX]QDF]F\FKUH]XOWDWyZ-HJRURODSROHJDQDVWDáHM
NRFRZH
NU\W\F]QHM RFHQLH ND*GHJR NURNX Z SURFHVLH RGNUywania, swoistym „cenzurowaniu” otrzymywanych
UH]XOWDWyZ F]VWNRZ\FK L VWHURZDQLX FDá\P SURFeZLHG]D
sem.
+LVWRU\F]QLHU]HF]XMPXMFWHUPLQÄRGNU\ZDQLHZLHG]\ZED]DFKGDQ\FK´]RVWDáXWZRU]RQ\Z
URNXQDRNUHOHQLHV]HURNRLRJyOQLHUR]XPLDQHMNRQFHSFMLSRV]XNLZDQLDZLHG]\]DZDUWHMZ
ED]DFK GDQ\FK 3RM
FLH ÄHNVSORUDFMD GDQ\FK´ QDWRPLDVW ]RVWDáR XWZRU]RQH MDNR RGQRV]FH VL
GR
WHFKQLNLQDU]
G]LX*\ZDQ\FKGRZ\GRE\FLDDQDOL]\LSUH]HQWDFMLGDQ\FKZ\GRE\W\FK]ED]=GaU]DVL
ZV]DN]ZáDV]F]DZG\VNXUVLHNRORNZLDOQ\P*HREDWHUPLQ\X*\ZDQHVZ\PLHQQLHMDNR
V\QRQLPLF]QH Ä(NVSORUDFMD GDQ\FK´ MHVW RNUHOHQLHP V]F]HJyOQLH FK
WQLH X*\ZDQ\P Z URGRZiVNDFK VWDW\VW\NyZ DQDOLW\NyZ GDQ\FK L JUXSDFK ]DMPXMF\FK VL
ED]DPL GDQ\FK L V\VWHPDPL LnIRUPDF\MQ\PLSRGF]DVJG\WHUPLQÄRGNU\ZDQLHZLHG]\´SRMDZLDVL
SU]HGHZV]\VWNLPZUyGEaGDF]\SUDFXMF\FKZREV]DU]HV]WXF]QHMLQWHOLJHQFML1LHMHVWHP\WXU\JRU\VWDPLM
]\NRZ\PLLWDN
GáXJRMDNQLHSURZDG]LWRGRQLHSRUR]XPLHDNFHSWXMHP\Z\PLHQLDOQRüW\FKWHUPLQyZ:OLWHUaWXU]HDQJORVDVNLHMPR*QDQDWNQüVL
QDVSRNUHZQLRQHRNUHOHQLDWDNLHMDNknowledge extraction,
data archaeology lub information harvesting.
1D PDUJLQHVLH RGQRWXMP\ *H GRW\FKF]DV QDMZL
FHM ]DVWRVRZD WHFKQLN RGNU\ZDQLD ZLHG]\
PLDáRPLHMVFHZW]ZPDUNHWLQJXbazodanowym, który polega na analizie baz danych o klientach w
celu ustalenia ich preferencji i wykorzystaniu otrzymanych rezultatów w akcjach marketingowych.
25
Eksploracja danych dla telekomunikacji
9. Eksploracja danych dla telekomunikacji
)LUP\ WHOHNRPXQLNDF\MQH JHQHUXM ]ELHUDM L SU]HFKRZXM ND*GHJR GQLD RJURPQH LORFL LQIRrPDFML SRF]\QDMF RG GDQ\FK R IXQNFMRQRZDQLX VLHFL SU]H] GDQH ELOLQJRZH D* SR LQIRUPDFMH QD
WHPDW NOLHQWyZ 5]DGNR MHGQDN XGDMH VL
W\P ILUPRP Z SHáQL VNRU]\VWDü ] ]HEUDQ\FK GDQ\FK
]ZáDV]F]D*HGX*DF]
üZDUWRFLRZ\FKLQIRUPDFMLMHVWQDÄSLHUZV]\U]XWRND´QLHZLGRF]QD0DMF
WHJR ZLDGRPRü ILUP\ WHOHNRPXQLNDF\MQH FRUD] FK
WQLHM VL
JDM SR WHFKQLNL HNVSORUDFML GDQ\FK
7RZDU]\V]\WHPXQDG]LHMD*HGRGDWNRZ\PHIHNWHPHNVSORUDFMLE
G]LHV]DQVDQDSU]HSURZDG]HQLH
lepszej strukturyzacji i skonsolidowanie posiadanych zasobów, co jest jednym z warunków udanych
SUDFQDGSRMDZLDMF\PLVL
FRUD]F]
FLHMKXUWRZQLDPLGDQ\FK
6SRJOGDMFQDW\SRZ\áDFXFKZDUWRFLILUP\WHOHNRPXQLNDF\MQHMNWyU\SU]HGVWDZLDVL
QDVW
SXMFR
$QDOL]D
SRWU]HE
NOLHQWyZ
3ODQRZDQLH
VLHFL
%XGRZDL
NRQVHUZDFMD
VLHFL
(NVSORDWD
FMDVLHFL
%LOOLQJ
0DUNHWLQJ
2EVáXJD
NOLHQWD
6SU]HGD*
GRVWU]HJDP\*HHNVSORUDFMDGDQ\FKPR*HE\üSU]\GDWQDZND*G\PRJQLZLHWHJRáDFXFKDDZ
V]F]HJyOQRFLPR*H
ZUDPDFK]DU]G]DQLDLHNVSORDWDFMLVLHFL
– XVSUDZQLü]DU]G]DQLHSURFHVDPLEL]QHVRZ\PLILUP\
– XVSUDZQLü]DU]G]DQLHIXQNFMRQRZDQLHPVLHFLLZ\NRU]\VWDQLHLQIUDVWUXNWXU\WHFKQLF]QHM
– XáDWZLüSODQRZDQLHEXGRZ\UR]ZRMXLNRQVHUZDFMLVLHFL
– XVSUDZQLü]DU]G]DQLHDODUPDPLJHQHURZDQ\PLSU]H]VLHüLXáDWZLüREVáXJ
XVWHUHNDZDULL
sieci,
– OHSLHMDORNRZDüSRVLDGDQH]DVRE\
– XPR*OLZLüQDZL]DQLHGLDORJXLZ\PLDQ
GRZLDGF]H]ZVSyáSUDFXMF\PLILUPDPLWHOHNomunikacyjnymi w zakresie stosowania eksploracji danych.
ZG]LHG]LQLH]DU]G]DQLDNRV]WDPL
– ]ZL
NV]\üZVSyáF]\QQLNÄORMDOQRFL´NOLHQWyZ
– ]PQLHMV]\üQDGX*\FLD]HVWURQ\NOLHQWyZ
– XF]\QLüSURFHV\ILQDQVRZHSU]HMU]\VWV]\PLLSURVWV]\PLXVSUDZQLüNVL
JRZRüL]DU]G]DQLH
kredytami.
Z]DNUHVLHPDUNHWLQJXLREVáXJLNOLHQWD
– OHSLHMUR]SR]QDZDüL]DVSRNDMDüSRWU]HE\NOLHQWyZ
– RSUDFRZ\ZDüLDQDOL]RZDüPR*OLZRFLQRZ\FKXVáXJLSURGXNWyZ
– ]ZL
NV]\üHIHNW\ZQRüVSU]HGD*\LREVáXJLGRW\FKF]DVRZ\FKNOLHQWyZ
– ]QDMGRZDüQRZHPR*OLZRFLUR]ZRMXILUP\
2WRNLONDNRQNUHWQ\FK]DJDGQLH]GHILQLRZDQ\FK]DSRPRFS\WDVWDZLDQ\FKSU]H]RSHUDWorów telekomunikaF\MQ\FKJG]LHHNVSORUDFMDGDQ\FKPR*HRND]DüVL
SU]\GDWQD
(a) : MDNL VSRVyE SODQRZDü L RSW\PDOL]RZDü LQZHVW\FMH QD EXGRZ
L UR]ZyM VLHFL XWU]\PXMF
wysoki po]LRPXVáXJDOHEH]QDGPLHUQHMUR]EXGRZ\LQIUDVWUXNWXU\"
(b) -DNDMHVWVWUXNWXUDLUHJXODUQRFLUXFKZVLHFL"
(c) -DNRSW\PDOL]RZDüWRSRJUDIL
VLHFL"
0LHF]\VáDZMuraszkiewicz
26
(d) -DN PLQLPDOL]RZDü NRV]W\ L QDNáDG\ F]DVRZH QD SRPLDU\ UXFKX L SDUDPHWUyZ HNVSORDWDF\jnych sieci ?
(e) -DNUR]SR]QDZDüLNODV\ILNRZDüDODUP\JHQHURZDQHSU]H]VLHü"
(f) -DN UR]SR]QDZDü L NODV\ILNRZDü SUREOHP\ WHFKQLF]QH DQRPDOLH DZDULH WDN*H SUREOHP\
FKURQLF]QLHSRZWDU]DMFHVL
RUD]XMDZQLDüSU]\F]\Q\DQRPDOLL"
(g) &]\LVWQLHMUHJXODUQRFLLSRZWDU]DMFHVL
VFKHPDW\GRW\F]FHLQLFMRZDQLDSRáF]HZVLeci?
(h) -DNLHVZ]RUFH]DFKRZDX*\WNRZQLNyZLMDNUR]SR]QDZDüSRáF]HQLDVWDQRZLFHQDGX*\FLH
w stosunku do operatora sieci ?
(i) -DNLMHVWSURILOX*\WNRZQLNDLPRW\ZDFMDNWyUHPRJVNáRQLüJRGR]PLDQ\RSHUDWRUDVLHFL"
(j) -DNLMHVWSURILOX*\WNRZQLNyZNWyU]\SáDFZ\VRNLHUDFKXQNL"
(k) -DNLHMUHDNFMDX*\WNRZQLNyZPR*QDVL
VSRG]LHZDüQDZSURZDG]HQLHQRZ\FKURG]DMyZXVáXJ
F]\WDU\IXZ]JO
GQLDMFUy*QRURGQRüSURILOLX*\WNRZQLNyZ"
: SRáRZLH URNX 3ROVND 7HOHIRQLD &\IURZD (5$ *60 UR]SRF]
áD SURMHNW Ä'DWD MiQLQJ´ NWyUHJR FHOHP E\áR UR]V]HU]HQLH VWRVRZDQ\FK Z WHM ILUPLH PHWRG DQDOL]\ GDQ\FK SU]H]
ZSURZDG]HQLHWHFKQLNHNVSORUDFMLGDQ\FK]ZáDV]F]DZRGQLHVLHQLXGR]DJDGQLHSODQRZDQLDEuGRZ\ L HNVSORDWDFML VLHFL D ZL
F ]DJDGQLH QDWXU\ WHFKQLF]QHM 3URMHNW WHQ UHDOL]RZDQ\ MHVW ]
XG]LDáHP ]HVSRáX ,QVW\WXWX ,QIRUPDW\NL 3ROLWHFKQLNL :DUV]DZVNLHM 2WR SU]\NáDG\ NLONX ]DGD
NWyUHSU]HDQDOL]RZDQR]DSRPRFPHWRGHNVSORUDFMLGDQ\FK
Zadanie
Wyszukiwanie anomalii
G]LDáDQLDVLHFLQDSRGVWDZLH
logów routerów w sieci
korporacyjnej
Zastosowane
Efekty
Metody
UHJXá\DVRFMDF\MQHJUXSRZDQLH =ELyUUHJXáNWyUHSRWZLHUG]Lá\ZLHG]
ekspertów)
Przewidywanie ruchu w sieci Grupowanie, drzewa
komórkowej
decyzyjne, regresja
Model predykcyjny ruchu w sieci z
DNFHSWRZDOQ\PSU]H]HNVSHUWyZEá
GHP
UHJXá\DVRFMDF\MQHGU]HZD
decyzyjne, wizualizacje
=ELyUUHJXáUHJXá]QDQ\FK
ekspertom – oczywistych, 4%
SRWZLHUG]DMF\FKLFKLQWXLFMH
LQWHUHVXMF\FK
Przewidywanie anomalii w
UHJXá\DVRFMDF\MQHGU]HZD
G]LDáDQLXVLHFLNRPyUNRZHM] decyzyjne, wizualizacje
XZ]JO
GQLHQLHPZSá\ZX
NRPyUHNVVLHGQLFK
=ELyUUHJXáUHJXá]QDQ\FK
ekspertom – oczywistych, 7%
SRWZLHUG]DMF\FKLFKLQWXLFMH
LQWHUHVXMF\FK
Przewidywanie anomalii w
G]LDáDQLXVLHFLNRPyUNRZHM
analiza w pojedynczych
komórkach
Wykrywanie sekwencji
czasowych alarmów w sieci
komórkowej
UHJXá\DVRFMDF\MQHZáDVQH
metody badania sekwencji
czasowych
Eksperyment w toku
'RQDMZD*QLHMV]\FKZQLRVNyZRJyOQLHMV]HMQDWXU\NWyUHZ\FLJQL
WR]GRW\FKF]DVRZ\FKSUDF
QDOH*
– ]DVDGQLF]\PZDUXQNLHPSRZRG]HQLDHNVSHU\PHQWyZMHVWXG]LDáVSHFMDOLVWyZ]OHFDMF\FK
]DGDQLD]ZáDV]F]DZID]LHGHILQLRZDQLD]DGDQLDLHZDOXDFMLZ\QLNyZF]VWNRZ\FK
– SU]HWZDU]DQLHZVW
SQHLNRFRZHGDQ\FKVWDQRZLRNRáRF]DVXSU]H]QDF]RQHJRQD
UR]ZL]ywanie zadania,
Eksploracja danych dla telekomunikacji
27
– WRVDPR]DGDQLHZDUWRUR]ZL]\ZDüVWRVXMFUR*QHPHWRG\HNVSORUDFMLGDQ\FKZ\QLNLPRJ
E\ü]DVNDNXMFRUy*QH
– MHOLZ\EUDQRMX*PHWRG
UR]ZL]DQLD]DGDQLDWRQDOH*\]DELHJDüRPR*OLZRüSURZDG]HQLD
HNVSHU\PHQWyZQDUR*Q\FK]ELRUDFKGaQ\FKGRW\F]F\FKWHJR]DGDQLD
– komercyjne oprogramowanie do prowadzenia eksperymentów eksploracji danych nie zawsze
MHVWVNXWHF]QHGRUR]ZL]\ZDQLD]DGDVWDZLDQ\FKSU]H]RSHUDWRUyZWHOHNRPXQLNDF\MQ\FK
GRW\F]\WR]ZáDV]F]DDQDOL]\]DGDJG]LHZ\VW
SXMEDUG]LHM]áR*RQHVWUXNWXU\GDQ\FKRUD]
]DOH*QRFLWHPSRUDOQHVeNZHQFMH]GDU]H
– transfer wiedzy w zakresie eksploracji danych dla telekomunikacji praktycznie nie istnieje;
RSHUDWRU]\ERZLHPQLHV]DLQWHUHVRZDQLXGRVW
SQLDQLHPVZRLFKGRZLDGF]HJG\*WUDNWXM
ZLHG]
SR]\VNDQ]DSRPRFHNVSORUDFMLGDQ\FKMDNRHOHPHQWVZHMSU]HZDJLQDGNRQNXUHntami.
3RG]L
NRZDQLD
$XWRU VNáDGD SRG]L
NRZDQLD ZV]\VWNLP NROHJRP ] ]HVSRáX HNVSORUDFML GDQ\FK NWyU\ G]LDáD Z
,QVW\WXFLH,QIRUPDW\NL3ROLWHFKQLNL:DUV]DZVNLHM]DZVSyáSUDF
Z]DNUHVLHPHWRGHNVSORUDFMLRUD]
]DLQIRUPDFMHLRFHQ
NRPHUF\MQHJRRSURJUDPRZDQLDGRSURZDG]HQLHHNVSORUDFMLGDQ\FK3RG]L
NRZDQLDNLHUXM
WDN*HGRS7RPDV]D*HUV]EHUJD'\UHNWRUD'HSDUWDPHQWX$QDOL]L%XG*HWXURdNyZ7UZDá\FKZ3ROVNLHM7HOHIRQLL&\IURZHM37&NWyU\]DLQLFMRZDáSURMHNWÄ'DWDMining” oraz
GRS5REHUWD3DU]\GáR.LHURZQLNDSURMHNWXÄ'DWDMining” w PTC, za stworzenie efektywnej platIRUP\ZVSyáSUDF\QDGSUREOHPDPLHNVSORUDFMLGDQ\FKGODWHOHNRPXQLNDFMLRUD]XPR*OLZLHQLHSU]eprowadzenia szeregu eksperymentów na danych rzeczywistych i wszechstronnego przedyskutowania uzyskanych wyników ze specjalistami PTC.
Literatura
:W\PUR]G]LDOHSRGDMHP\NLONDSR]\FMLNWyUHPRJSRPyF&]\WHOQLNRZLZSRV]HU]HQLXLQIRrmacji o eksploraFMLGDQ\FKLRGNU\ZDQLXZLHG]\ZED]DFKGDQ\FKWDN*HZWHOHNRPXQLNDFML
[1] Berry, M. J. A., Linoff G., Data Mining Techniques: For Marketing, Sales, and Customer Support, John
Wiley & Sons, 1997.
[2] Cox K. C., Eick S.G/, Wills G. J., Brachman R. J.: Visual Data Mining: Recognizing Telephone Calling
Fraud, Data Mining and Knowledge Discovery, vol. 1, issue 2, 1997.
[3] Daszczuk W., Muraszkiewicz M. et al., Data Mining for Technical Operation of Telecommunications
Companies: a Case Study, Proc. of Int. Conf. SCI/ISAS, USA, 2000.
[4] Data Mining Special Issue, Communications of the ACM, vol. 39, no 11, Nov. 1996.
[5] Dhar V., Stein R., Seven Methods for Transforming Corporate Data into Business Intelligence, Prentice
Hall Computer Books, 1997.
[6] Fayyad U. M., Piatetsky-Shapiro G., Smyth P., Uthurusamy R., Advances in Knowledge Discovery and
Data Mining, AAAI Press/The MIT Press, 1996.
[7] Mattison R.: Data Warehousing and Data Mining for Telecommunications, Artech House, 1997.
[8] Muraszkiewicz M., „ Data Mining at a Glance”, Proc. of Int. Conf. TEMPUS PHARE JEP-12165-97,10-12
June, 1999, Gdansk.
[9] Weiss S., Predictive Data Mining: A Practical Guide, Morgan Kaufman Publishers, 1997.
[10] Sasisekharan R., Seshardi V.: Data Mining and Forecasting in Large-Scale Telecommunication Networks,
IEEE Expert Intelligent Systems and their Applications, Feb. 1996.
0LHF]\VáDZMuraszkiewicz
28
:\EUDQH(UyGáDZ,QWHUQHFLH
[1] Data Warehousing Information Center, pwp.starnetinc.com/larryg/index.html
[2] Data Mining and Knowledge Discovery Resource Center
WDN*H]QDQ\MDNRKnowledge Discovery Mine), www.kdnuggets.com
[3] DBMS Buyer's Guide, www.dbmsmag.com
[4] Knowledge Discovery Mine web site, info.gte.com/~kdd/index.html
=DZLHUDF]
VWR]DGDZDQHS\WDQLDGRW\F]FHHNVSORUDFMLGDQ\FKRGNU\ZDQLDZLHG]\LWHPDWyZSRNUHwnych
[5] Two Crows Corp., www.twocrows.com
[6] Two &URZVRSXEOLNRZDáRWXVWXGLXPQDWHPDWQDU]
G]LLX*\WNRZQLNyZWHFKQLNHNVSORUDFMLGanych

Podobne dokumenty