Eksploracja Zasobów Internetu
Transkrypt
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu Wykład: dr inż. Irmina Masłowska Laboratoria: dr inż. Miłosz Kadziński {irmina.maslowska,milosz.kadzinski}@cs.put.poznan.pl Eksploracja Zasobów Internetu CO TO JEST INTERNET? >> Internet stał się z dnia na dzień ogólnoświatową rozgłośnią, mechanizmem rozpowszechniania informacji, a także medium dla współpracy i interakcji pomiędzy ludźmi oraz ich komputerami bez względu na położenie geograficzne << Barry M. Leiner, Vinton G. Cerf, David D. Clark, Robert E. Kahn, Leonard Kleinrock, Daniel C. Lynch, Jon Postel, Larry G. Roberts, Stephen Wolff A Brief History of the Internet www.isoc.org Internet (dosł. międzysieć) to ogólnoświatowa sieć komputerowa. W znaczeniu informatycznym - przestrzeń adresów IP przydzielonych hostom i serwerom połączonym za pomocą urządzeń sieciowych, komunikujących się za pomocą protokołu internetowego z wykorzystaniem infrastruktury telekomunikacyjnej. Eksploracja Zasobów Internetu Standardy Internetu regulowane są przez agencje Internet Engineering Task Force (IETF) i publikowane w dokumentach RFC. Zgodnie z definicją słowa Internet oznacza ono globalny system informacyjny spełniający następujące warunki: • jest logicznie połączony w jednorodną sieć adresową opartą na protokole IP (Internet Protocol), • jest w stanie zapewnić komunikację przy użyciu protokołów z rodziny TCP/IP (Transmission Control Protocol/Internet Protocol), • dostarcza, lub wykorzystuje usługi wyższego poziomu oparte na komunikacji i związanej z nią infrastrukturze. Eksploracja Zasobów Internetu Usługi (i protokoły) internetowe • WWW (World Wide Web) • Poczta elektroniczna • Transfer plików (FTP — File Transfer Protocol i SFTP — Secure File Transfer Protocol) • Serwisy społecznościowe • Blogi, fora i listy dyskusyjne • Komunikatory “instant messengers” • VoIP czyli telefonia internetowa • Radio i telewizja, video na żądanie - IPTV • Telekonferencje • Telnet, SSH (Secure Shell) • Sklepy i aukcje internetowe • Bankowość elektroniczna • Gry online • Sieci wymiany bezpośredniej P2P • Czaty, jak IRC (Internet Relay Chat) • Gopher Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu The OSI Model 7. Application Layer NNTP · SIP · SSI · DNS · FTP · Gopher · HTTP · NFS · NTP · SMPP · SMTP ·DHCP· SNMP · Telnet (more) 6. Presentation Layer MIME · XDR · SSL · TLS 5. Session Layer Named Pipes · NetBIOS · SAP · SIP · PPTP · L2TP 4. Transport Layer TCP · UDP · SCTP · DCCP 3. Network Layer IP (IPv4, IPv6) · ICMP · IPsec · IGMP · IPX · AppleTalk 2. Data Link Layer ARP · CSLIP · SLIP · Ethernet · Frame relay · ITU-T G.hn DLL · PPP 1. Physical Layer RS-232 · RS-449 · V.35 · V.34 · I.430 · I.431 · T1 · E1 · POTS · SONET/SDH · OTN · DSL · 802.11a/b/g/n PHY · 802.15.x PHY · ITU-T G.hn PHY · Ethernet · USB · Bluetooth http://en.wikipedia.org/wiki/OSI_model Eksploracja Zasobów Internetu Natura Internetu olbrzymie rozmiary różnorodność dynamiczność zmian stąd konieczność wzięcia pod uwagę takich aspektów, jak: skalowalność dane multimedialne i wielojęzyczne ulotność („temporalność”) danych Eksploracja Zasobów Internetu Jan 2016|1,048,766,623 Total Sites Across All Domains August 1995 – August 2016 www.netcraft.com Oct 2012 620,480,777 Oct 2013 767,234,152 Sept 2014 1,022,954,603 Sept 2015 892,743,625 Sept 2016 1,285,759,146 www.zakon.org Eksploracja Zasobów Internetu www.isc.org www.zakon.org Jul 2012 908,585,739 Jul 2013 996,230,757 Jul 2014 1,028,544,414 Jul 2015 1,033,836,245 Jan 2016 1,048,766,623 Eksploracja Zasobów Internetu Web Mining >> wykorzystanie technik data mining w automatycznym odkrywaniu i pozyskiwaniu informacji z dokumentów i usług dostępnych w sieci Web << O. Etzioni, The World-Wide Web: Quagmire or gold mine? Communications of ACM, 39(11):65-68, 1996 Eksploracja Zasobów Internetu Web Mining jako dyscyplina naukowa leży na „przecięciu” badań ■ ■ ■ baz danych wyszukiwania informacji (Information Retrieval — IR) sztucznej inteligencji (w AI w szczególności czerpie z uczenia maszynowego — ML i przetwarzania języka naturalnego — NLP, intelligent agents — IA) Eksploracja Zasobów Internetu Główne problemy/zadania Web Mining dotarcie do adekwatnej informacji; niska precyzja (precision)/„kompletność” (recall) — głównie IR pozyskiwanie wiedzy z dostępnej informacji — głównie DM personalizacja informacji (indywidualizacja zarówno co do treści jak i formy) pozyskiwanie informacji o klientach i użytkownikach Eksploracja Zasobów Internetu 3 kategorie w ramach Web Mining: eksploracja zawartości (treści) – Content mining eksploracja struktury – Structure mining eksploracja wykorzystania – Usage mining Web Mining Web Content Mining Web Page Content Mining Web Structure Mining Search Result Mining Web Usage Mining General Access Pattern Tracking Customized Usage Tracking Za: Jiawei Han, 1998 Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Information Rertrieval >> IR is the automatic retrieval of ALL relevant documents while retrieving as FEW of the irrelevant as possible << van Rijsbergen C.J. (1979) Information Retrieval. Butterworths, London >> IR deals with the representation, storage, organization of, and access to information items << Baeza-Yates R., Ribeiro-Neto B. (1999) Modern Information Retrieval. Addison-Wesley, ACM Press, New York Eksploracja Zasobów Internetu Badania IR dotyczą: indeksowania dokumentów szukania informacji w kolekcjach tekstów modelowania klasyfikacji dokumentów analizy skupień architektury systemów interfejsów użytkownika wizualizacji filtrowania ... Eksploracja Zasobów Internetu Information Retrieval vs. Data Retrieval słaba strukturalizacja lub brak dobrze zdefiniowana struktura i semantyka Eksploracja Zasobów Internetu efektywność dostępu do adekwatnej informacji działanie użytkownika reprezentacja dokumentów Eksploracja Zasobów Internetu Działanie użytkownika searching translates his information need into a query browsing Baeza-Yates & Ribeiro-Neto, 1999 Eksploracja Zasobów Internetu Logiczna reprezentacja dokumentów accents, spacing, etc. document stopwords noun groups stemming automatic or manual indexing structure recognition structure full text index terms Baeza-Yates & Ribeiro-Neto, 1999 Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu Eksploracja Zasobów Internetu