Wyszukiwanie i Przetwarzanie Informacji WWW

Transkrypt

Wprowadzenie
Marcin Sydow
Web Mining Lab, PJWSTK
Marcin Sydow (Web Mining Lab, PJWSTK)
1 / 19
Organizacja
Prowadz¡cy
dr Marcin Sydow
Mi¦dzykatedralne Laboratorium Web Mining
oraz
Katedra Systemów Inteligentnych
PJWSTK
pokój: 311
e-mail: [email protected]
tel.: +48 22 58 44 571
2 / 19
Organizacja
Organizacja Kursu
15 spotka« (wykªady bez ¢wicze«)
kolokwium ze znajomo±ci wykªadów
sprawdzana obecno±¢ na zaj¦ciach
Zaliczenie - system punktowy (razem max. 55 p.):
pisemny
sprawdzian (max.
30)
okoªo 10 kartkówek na pocz. zaj¦¢ (10 x 2 = 20)
obecno±¢/aktywno±¢ (ok. 5)
(opcjonalnie - dla bardzo ch¦tnych) projekt (?)
score
Ocena wynikowa dana jest wzorem: b
c
score
(wersja dla purystów:
10
min(5, max (2, b 10 c)))
3 / 19
Organizacja
Wymagania
Na pozytywne zaliczenie wymagana jest:
ogólna orientacja
dobra znajomo±¢
1
caªo±¢ materiaªu wykªadów:
2
wybrane 1-3 wykªady:
Wykªady b¦d¡ na bardzo ró»ne tematy i o zró»nicowanym charakterze:
pogl¡dowe (wi¦kszo±¢)
techniczno-in»ynierskie
techniczno-algorytmiczne
Nie ma obowi¡zku zgª¦biania wszystkich szczegóªów - pozostawiony jest
wybór
4 / 19
Organizacja
Zaªo»enia
Przydatna znajomo±¢ nast¦puj¡cych zagadnie«:
wzgl¦dne obycie z WWW
umiej¦tno±¢ korzystania z wyszukiwarek
rozumienie podstaw html, http (TIN)
elementarna wiedza z zakresu informatyki
Mo»liwie maªy nacisk na szczegóªy techniczne i matematyk¦
5 / 19
Organizacja
Jakich dziedzin dotyczy ten kurs?
1
wyszukiwanie informacji w korpusach dokumentów tekstowych (ang.
Information Retrieval, IR)
2
wyszukiwarki internetowe (ang. search engines, rownie»: WIR od ang.
Web Information Retrieval)
3
eksploracja danych w sieci WWW (ang. Web Mining WM)
4
wybrane zagadnienia ekonomiczne i spoªeczne dotycz¡ce WWW
6 / 19
Organizacja
Co celowo pomini¦to
Niektóre zagadnienia zaliczaj¡ si¦ do tematyki Web Mining ale pomini¦to je
ze wzgl¦du na ograniczenia czasowe i fakt, »e wymagaj¡ odr¦bnego kursu
(lub taki kurs ju» istnieje)
Nale»¡ do nich m.in.
Przetwarzanie J¦zyka Naturalnego (ang. NLP)
Uczenie Maszynowe i Analiza Danych
7 / 19
Organizacja
Czego kurs
nie
dotyczy bezpo±rednio?
tzw. technologii internetowych (html, PHP, JavaScript, Flash, CGI,
CMS, Web Services, ...)
budowy portali internetowych
programowania (w tym sieciowego) i IO
protokoªów (HTTP, TCP/IP)
zagadnie« zwi¡zanych z Internetem (DNS, etc.)
technologii XML, RDF, XPath, ...
mechanizmów dziaªania sieci P2P
pozycjonowania stron
(cho¢ wi¦kszo±¢ powy»szych zagadnie« ma du»y zwi¡zek z niniejszym
kursem)
8 / 19
Organizacja
Plan Kursu
Wprowadzenie
Podstawy wyszukiwania informacji (ang. IR) (indeks, zapytania, interfejs)
Globalne wªasno±ci WWW i specyka wyszukiwania w WWW (ang. WIR)
Wyszukiwarki internetowe du»ej skali (z lotu ptaka)
Systemy zbierania dokumentów WWW (ang. crawler)
Repozytoria
Przykªady konkretnych rozwi¡za« architektury wielkich wyszukiwarek
Analiza struktury grafu hyperlinków WWW
Algorytm PageRank, jego wªa±ciwo±ci i warianty
HITS, inne algorytmy i zastosowania w sieciach spoªecznych
Ekonomiczne podstawy wyszukiwarek: reklamy
Wybrane spoªeczne aspekty wyszukiwarek: zjawisko spamu
9 / 19
Tematyka
Wyszukiwanie Informacji w uj¦ciu klasycznym
(ang. Information Retrieval)
wiedza - reprezentowana przez: korpus dokumentów
potrzeba informacyjna - reprezentowana przez: zapytanie
system ma
zwróci¢ dokumenty, które odpowiadaj¡ potrzebie informacyjnej
Jest bardzo wiele wariantów tego systemu.
sªabej, zaszumionej lub niejednorodnej
strukturze, takich jak WWW
Dotyczy ±rodowisk o
Wyszukiwanie w bazach danych (gdzie jest dobrze zdeniowana struktura)
nie zalicza si¦ do tego rodzaju.
10 / 19
Tematyka
Rola Wyszukiwarek
Zadanie wyszukiwania w WWW speªniaj¡ dzisiaj gªównie wyszukiwarki
internetowe - nale»¡ce do
najcz¦±ciej u»ywanych narz¦dzi przez ludzi
(81% gobalnej populacji Internetu u»yªo przynajmniej raz wyszukiwarki w grudniu 2006 w
Wielkiej Brytanii, wg. Nielsen/NetRatings)
Wyszukiwarki WWW wywodz¡ si¦ z klasycznych systemów IR
(rozwijanych od lat 60 XX. wieku) pracuj¡cych na kontrolowanych
kolekcjach dokumentów tekstowych w korporacjach, etc.
Kurs m.in.
wyja±nia podstawowe zasady dziaªania zarówno klasycznych
systemów jak i nowoczesnych wyszukiwarek WWW.
Oprócz zagadnie« technicznych wspominane s¡ wa»ne aspekty
socjologiczno-ekonomiczne wyszukiwania w WWW.
11 / 19
Tematyka
Eksploracja Danych WWW (ang. Web Mining)
Skrzy»owanie starszej dziedziny: Eksploracji Danych (Data Mining) i
zagadnie« specycznych dla sieci WWW.
Dotyczy wyszukiwania wzorców i automatycznego odkrywania u»ytecznej
wiedzy z sieci WWW poprzez zastosowanie technik typowych dla
klasycznej analizy danych wzbogaconych o
techniki specyczne dla
WWW.
Czyli w wielkim skrócie:
WebMining = DataMining + WWW
(1)
12 / 19
Tematyka
Web Mining
Cechy WWW:
ogromne bogactwo danych zawartych w WWW
wyj¡tkowa dynamika (ci¡gªy wykªadniczy wzrost)
wysoka ró»norodno±¢ i zaszumienie
uczestnictwo setek milionów wzajemnie powi¡zanych procesów
(sterowanych zarówno przez ludzi jak i maszyny)
ogromne (i wci¡» rosn¡ce) zaanga»owanie ekonomiczne, polityczne i
spoªeczne milionów agentów (o cz¦sto sprzecznych interesach)
1
Web nale»y do najciekawszych obecnie pól zastosowa« Data Mining
2
Web Mining ci¡gle stawia niezwykªe wyzwania koncepcyjne i
technologiczne, z których wiele wci¡» czeka na rozwi¡zanie
13 / 19
Tematyka
Web Mining
W Web Mining - tradycyjny podziaª na 3 gªówne dziaªy:
1
Eksploracja Zawarto±ci WWW (ang. Content Mining)
(dawniejszy text mining + eksploracja struktury + NLP + ...)
2
Eksploracja Struktury WWW (ang. Link Analysis)
(grafy, grafy losowe, algebra, procesy stochastyczne, kombinatoryka,
...)
3
Analiza U»ytkowników WWW (ang. Web Usage Mining)
(eksploracja danych, analiza logów, analiza danych temporalnych,
modelowanie u»ytkowników, ...)
Mo»na uzna¢, »e WIR (Web Information Retrieval, czyli Wyszukiwanie
Informacji w WWW) jest równie» poddziedzin¡ Web Mining
14 / 19
Tematyka
Przykªady
Ekstrakcja Informacji na zadany temat z WWW
Automatyczne porównywanie cen wybranych produktów
Identykacja Grup U»ytkowników o okre±lonych zainteresowaniach lub
aktywno±ci
Systemy demaskowania plagiatów (np. plagiat.pl)
Automatyczne generowanie wiedzy z zasobów WWW
Odnajdywanie osób
Automatyczne ±ledzenie opinii publicznej na dany temat
Wyszukiwarka multimediów (lmy, muzyka, etc.)
Wykrywanie i Zwalczanie Chªamu Wyszukiwarkowego (ang. Spam)
Wykrywanie nadu»y¢ i przest¦pstw (nanse, terroryzm, etc.)
Identykacja grup klientów
Optymalizacja przestrzeni reklamowej
15 / 19
Tematyka
Dost¦p do informacji WWW
Obecne paradygmaty organizacji dost¦pu do informacji w WWW:
1
nawigacja r¦czna po dokumentach (pierwotny, obecnie w zaniku)
2
katalogi tematyczne dokumentów (w defensywie?)
3
wyszukiwarki boolowskie (obecnie dominuje)
Wyszukiwarki
zmieniªy proces rozwoju WWW.
16 / 19
Tematyka
Dost¦p do informacji WWW
Obecne paradygmaty organizacji dost¦pu do informacji w WWW:
1
nawigacja r¦czna po dokumentach (pierwotny, obecnie w zaniku)
2
katalogi tematyczne dokumentów (w defensywie?)
3
wyszukiwarki boolowskie (obecnie dominuje)
Wyszukiwarki
zmieniªy proces rozwoju WWW.
Co dalej?
QA (odpowiadarki na pytania)
nawigacja inteligentna (semantyczna)
...
16 / 19
Tematyka
(Pre)historia WIR w skrócie
1611: prototyp indeksu
(Strong's Exhaustive Concordance of Bible)
1945: Memex - prototyp WWW (V.Bush As we may think)
1960: SMART Information Retrieval System (G.Salton, Cornell Univ.)
1965: Xanadu -
hypertext (Ted Nelson)
1980: system do nawigacji po dokumentach (T.Berners-Lee)
1990: narodziny WWW (Tim Berners-Lee, CERN)
1993-95: pierwsze przegl¡darki (Mosaic/Netscape)
1994: Lycos - pierwsza wyszukiwarka
1994: WebCrawler, 4K hostów (Brian Pinkerton)
1994: Jerry's Guide to the World Wide Web (pó¹niej: Yahoo)
1995: AltaVista, Excite, InfoSeek, Inktomi
1996: Yahoo wchodzi na gieªd¦
1996-1998: pocz¡tki Google
17 / 19
Zadania
Co wypada wiedzie¢ po tym wykªadzie:
1
Jakie s¡ reguªy zaliczenia :)
2
Co to jest Web Information Retrieval
3
Czym zajmuje si¦ Web Mining
4
Dziaªy Web Mining (3-4)
5
Przykªady zastosowa« (ze 3)
6
Orientacyjne liczby dotycz¡ce WWW
7
Rola wyszukiwarek
8
Podstawowa wiedza historyczna (co? kiedy?)
18 / 19
Zadania
Dzi¦kuj¦ za uwag¦
19 / 19

Wyszukiwanie i Przetwarzanie Informacji WWW

Transkrypt

Podobne dokumenty

Lab.7 art contest - lab.malamegi.com

Untitled

Aplikacje WWW - laboratorium

zagadnienie wyboru lokalizacji z wykorzystaniem metodyk data mining