Eksploracja Zasobów Internetu

Transkrypt

Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
Wykład: dr inż. Irmina Masłowska
Laboratoria: dr inż. Miłosz Kadziński
{irmina.maslowska,milosz.kadzinski}@cs.put.poznan.pl
Eksploracja Zasobów Internetu
CO TO JEST INTERNET?
>> Internet stał się z dnia na dzień ogólnoświatową rozgłośnią,
mechanizmem rozpowszechniania informacji, a także medium dla
współpracy i interakcji pomiędzy ludźmi oraz ich komputerami bez
względu na położenie geograficzne <<
Barry M. Leiner, Vinton G. Cerf, David D. Clark,
Robert E. Kahn, Leonard Kleinrock, Daniel C. Lynch,
Jon Postel, Larry G. Roberts, Stephen Wolff
A Brief History of the Internet
www.isoc.org
Internet (dosł. międzysieć) to ogólnoświatowa sieć komputerowa.
W znaczeniu informatycznym - przestrzeń adresów IP przydzielonych
hostom i serwerom połączonym za pomocą urządzeń sieciowych,
komunikujących się za pomocą protokołu internetowego
z wykorzystaniem infrastruktury telekomunikacyjnej.
Eksploracja Zasobów Internetu
Standardy Internetu regulowane są przez agencje Internet
Engineering Task Force (IETF) i publikowane w
dokumentach RFC. Zgodnie z definicją słowa Internet
oznacza ono globalny system informacyjny spełniający
następujące warunki:
• jest logicznie połączony w jednorodną sieć adresową
opartą na protokole IP (Internet Protocol),
• jest w stanie zapewnić komunikację przy użyciu
protokołów z rodziny TCP/IP (Transmission Control
Protocol/Internet Protocol),
• dostarcza, lub wykorzystuje usługi wyższego poziomu
oparte na komunikacji i związanej z nią infrastrukturze.
Eksploracja Zasobów Internetu
Usługi (i protokoły) internetowe
• WWW (World Wide Web)
• Poczta elektroniczna
• Transfer plików (FTP — File Transfer Protocol i SFTP — Secure File
Transfer Protocol)
• Serwisy społecznościowe
• Blogi, fora i listy dyskusyjne
• Komunikatory “instant messengers”
• VoIP czyli telefonia internetowa
• Radio i telewizja, video na żądanie - IPTV
• Telekonferencje
• Telnet, SSH (Secure Shell)
• Sklepy i aukcje internetowe
• Bankowość elektroniczna
• Gry online
• Sieci wymiany bezpośredniej P2P
• Czaty, jak IRC (Internet Relay Chat)
• Gopher 
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
The OSI Model
7. Application Layer
NNTP · SIP · SSI · DNS · FTP · Gopher · HTTP ·
NFS · NTP · SMPP · SMTP ·DHCP· SNMP ·
Telnet (more)
6. Presentation Layer
MIME · XDR · SSL · TLS
5. Session Layer
Named Pipes · NetBIOS · SAP · SIP · PPTP · L2TP
4. Transport Layer
TCP · UDP · SCTP · DCCP
3. Network Layer
IP (IPv4, IPv6) · ICMP · IPsec · IGMP · IPX ·
AppleTalk
2. Data Link Layer
ARP · CSLIP · SLIP · Ethernet · Frame relay · ITU-T
G.hn DLL · PPP
1. Physical Layer
RS-232 · RS-449 · V.35 · V.34 · I.430 · I.431 · T1
· E1 · POTS · SONET/SDH · OTN · DSL ·
802.11a/b/g/n PHY · 802.15.x PHY · ITU-T G.hn
PHY · Ethernet · USB · Bluetooth
http://en.wikipedia.org/wiki/OSI_model
Eksploracja Zasobów Internetu
Natura Internetu
 olbrzymie rozmiary
 różnorodność
 dynamiczność zmian
stąd konieczność wzięcia pod uwagę takich aspektów,
jak:
 skalowalność
 dane multimedialne i wielojęzyczne
 ulotność („temporalność”) danych
Eksploracja Zasobów Internetu
Jan 2016|1,048,766,623
Total Sites Across All Domains August 1995 – August 2016
www.netcraft.com
Oct 2012
620,480,777
Oct 2013
767,234,152
Sept 2014
1,022,954,603
Sept 2015
892,743,625
Sept 2016
1,285,759,146
www.zakon.org
Eksploracja Zasobów Internetu
www.isc.org
www.zakon.org
Jul 2012 908,585,739
Jul 2013 996,230,757
Jul 2014 1,028,544,414
Jul 2015 1,033,836,245
Jan 2016 1,048,766,623
Eksploracja Zasobów Internetu
Web Mining
>> wykorzystanie technik data mining w automatycznym
odkrywaniu i pozyskiwaniu informacji z dokumentów
i usług dostępnych w sieci Web <<
O. Etzioni, The World-Wide Web: Quagmire or gold mine? Communications of
ACM, 39(11):65-68, 1996
Eksploracja Zasobów Internetu
Web Mining jako dyscyplina naukowa leży na
„przecięciu” badań
■
■
■
baz danych
wyszukiwania informacji (Information Retrieval —
IR)
sztucznej inteligencji (w AI w szczególności czerpie
z uczenia maszynowego — ML i przetwarzania
języka naturalnego — NLP, intelligent agents —
IA)
Eksploracja Zasobów Internetu
Główne problemy/zadania Web Mining




dotarcie do adekwatnej informacji; niska precyzja
(precision)/„kompletność” (recall) — głównie IR
pozyskiwanie wiedzy z dostępnej informacji —
głównie DM
personalizacja informacji (indywidualizacja zarówno
co do treści jak i formy)
pozyskiwanie informacji o klientach i użytkownikach
Eksploracja Zasobów Internetu
3 kategorie w ramach Web Mining:
 eksploracja zawartości (treści) – Content mining
 eksploracja struktury – Structure mining
 eksploracja wykorzystania – Usage mining
Web Mining
Web Content
Mining
Web Page
Content Mining
Web Structure
Mining
Search Result
Mining
Web Usage
Mining
General Access
Pattern Tracking
Customized
Usage Tracking
Za: Jiawei Han, 1998
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
Information Rertrieval
>> IR is the automatic retrieval of ALL relevant
documents while retrieving as FEW of the irrelevant
as possible <<
van Rijsbergen C.J. (1979) Information Retrieval. Butterworths,
London
>> IR deals with the representation, storage,
organization of, and access to information items <<
Baeza-Yates R., Ribeiro-Neto B. (1999) Modern Information
Retrieval. Addison-Wesley, ACM Press, New York
Eksploracja Zasobów Internetu
Badania IR dotyczą:










indeksowania dokumentów
szukania informacji w kolekcjach tekstów
modelowania
klasyfikacji dokumentów
analizy skupień
architektury systemów
interfejsów użytkownika
wizualizacji
filtrowania
...
Eksploracja Zasobów Internetu
Information Retrieval vs. Data Retrieval
słaba strukturalizacja
lub brak
dobrze zdefiniowana
struktura i semantyka
Eksploracja Zasobów Internetu
efektywność dostępu do adekwatnej informacji
działanie użytkownika
reprezentacja dokumentów
Eksploracja Zasobów Internetu
Działanie użytkownika
searching
translates his
information need
into a query
browsing
Baeza-Yates & Ribeiro-Neto, 1999
Eksploracja Zasobów Internetu
Logiczna reprezentacja dokumentów
accents,
spacing,
etc.
document
stopwords
noun
groups
stemming
automatic
or manual
indexing
structure
recognition
structure
full text
index terms
Baeza-Yates & Ribeiro-Neto, 1999
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu
Eksploracja Zasobów Internetu