Wyszukiwanie i Przetwarzanie Informacji WWW
Transkrypt
Wyszukiwanie i Przetwarzanie Informacji WWW
Wyszukiwanie i Przetwarzanie Informacji WWW Wprowadzenie Marcin Sydow Web Mining Lab, PJWSTK Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 1 / 19 Organizacja Prowadz¡cy dr Marcin Sydow Mi¦dzykatedralne Laboratorium Web Mining oraz Katedra Systemów Inteligentnych PJWSTK pokój: 311 e-mail: [email protected] tel.: +48 22 58 44 571 Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 2 / 19 Organizacja Organizacja Kursu 15 spotka« (wykªady bez ¢wicze«) kolokwium ze znajomo±ci wykªadów sprawdzana obecno±¢ na zaj¦ciach Zaliczenie - system punktowy (razem max. 55 p.): pisemny sprawdzian (max. 30) okoªo 10 kartkówek na pocz. zaj¦¢ (10 x 2 = 20) obecno±¢/aktywno±¢ (ok. 5) (opcjonalnie - dla bardzo ch¦tnych) projekt (?) score Ocena wynikowa dana jest wzorem: b c score (wersja dla purystów: 10 min(5, max (2, b 10 c))) Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 3 / 19 Organizacja Wymagania Na pozytywne zaliczenie wymagana jest: ogólna orientacja dobra znajomo±¢ 1 caªo±¢ materiaªu wykªadów: 2 wybrane 1-3 wykªady: Wykªady b¦d¡ na bardzo ró»ne tematy i o zró»nicowanym charakterze: pogl¡dowe (wi¦kszo±¢) techniczno-in»ynierskie techniczno-algorytmiczne Nie ma obowi¡zku zgª¦biania wszystkich szczegóªów - pozostawiony jest wybór Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 4 / 19 Organizacja Zaªo»enia Przydatna znajomo±¢ nast¦puj¡cych zagadnie«: wzgl¦dne obycie z WWW umiej¦tno±¢ korzystania z wyszukiwarek rozumienie podstaw html, http (TIN) elementarna wiedza z zakresu informatyki Mo»liwie maªy nacisk na szczegóªy techniczne i matematyk¦ Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 5 / 19 Organizacja Jakich dziedzin dotyczy ten kurs? 1 wyszukiwanie informacji w korpusach dokumentów tekstowych (ang. Information Retrieval, IR) 2 wyszukiwarki internetowe (ang. search engines, rownie»: WIR od ang. Web Information Retrieval) 3 eksploracja danych w sieci WWW (ang. Web Mining WM) 4 wybrane zagadnienia ekonomiczne i spoªeczne dotycz¡ce WWW Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 6 / 19 Organizacja Co celowo pomini¦to Niektóre zagadnienia zaliczaj¡ si¦ do tematyki Web Mining ale pomini¦to je ze wzgl¦du na ograniczenia czasowe i fakt, »e wymagaj¡ odr¦bnego kursu (lub taki kurs ju» istnieje) Nale»¡ do nich m.in. Przetwarzanie J¦zyka Naturalnego (ang. NLP) Uczenie Maszynowe i Analiza Danych Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 7 / 19 Organizacja Czego kurs nie dotyczy bezpo±rednio? tzw. technologii internetowych (html, PHP, JavaScript, Flash, CGI, CMS, Web Services, ...) budowy portali internetowych programowania (w tym sieciowego) i IO protokoªów (HTTP, TCP/IP) zagadnie« zwi¡zanych z Internetem (DNS, etc.) technologii XML, RDF, XPath, ... mechanizmów dziaªania sieci P2P pozycjonowania stron (cho¢ wi¦kszo±¢ powy»szych zagadnie« ma du»y zwi¡zek z niniejszym kursem) Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 8 / 19 Organizacja Plan Kursu Wprowadzenie Podstawy wyszukiwania informacji (ang. IR) (indeks, zapytania, interfejs) Globalne wªasno±ci WWW i specyka wyszukiwania w WWW (ang. WIR) Wyszukiwarki internetowe du»ej skali (z lotu ptaka) Systemy zbierania dokumentów WWW (ang. crawler) Repozytoria Przykªady konkretnych rozwi¡za« architektury wielkich wyszukiwarek Analiza struktury grafu hyperlinków WWW Algorytm PageRank, jego wªa±ciwo±ci i warianty HITS, inne algorytmy i zastosowania w sieciach spoªecznych Ekonomiczne podstawy wyszukiwarek: reklamy Wybrane spoªeczne aspekty wyszukiwarek: zjawisko spamu Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 9 / 19 Tematyka Wyszukiwanie Informacji w uj¦ciu klasycznym (ang. Information Retrieval) wiedza - reprezentowana przez: korpus dokumentów potrzeba informacyjna - reprezentowana przez: zapytanie system ma zwróci¢ dokumenty, które odpowiadaj¡ potrzebie informacyjnej Jest bardzo wiele wariantów tego systemu. sªabej, zaszumionej lub niejednorodnej strukturze, takich jak WWW Dotyczy ±rodowisk o Wyszukiwanie w bazach danych (gdzie jest dobrze zdeniowana struktura) nie zalicza si¦ do tego rodzaju. Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 10 / 19 Tematyka Rola Wyszukiwarek Zadanie wyszukiwania w WWW speªniaj¡ dzisiaj gªównie wyszukiwarki internetowe - nale»¡ce do najcz¦±ciej u»ywanych narz¦dzi przez ludzi (81% gobalnej populacji Internetu u»yªo przynajmniej raz wyszukiwarki w grudniu 2006 w Wielkiej Brytanii, wg. Nielsen/NetRatings) Wyszukiwarki WWW wywodz¡ si¦ z klasycznych systemów IR (rozwijanych od lat 60 XX. wieku) pracuj¡cych na kontrolowanych kolekcjach dokumentów tekstowych w korporacjach, etc. Kurs m.in. wyja±nia podstawowe zasady dziaªania zarówno klasycznych systemów jak i nowoczesnych wyszukiwarek WWW. Oprócz zagadnie« technicznych wspominane s¡ wa»ne aspekty socjologiczno-ekonomiczne wyszukiwania w WWW. Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 11 / 19 Tematyka Eksploracja Danych WWW (ang. Web Mining) Skrzy»owanie starszej dziedziny: Eksploracji Danych (Data Mining) i zagadnie« specycznych dla sieci WWW. Dotyczy wyszukiwania wzorców i automatycznego odkrywania u»ytecznej wiedzy z sieci WWW poprzez zastosowanie technik typowych dla klasycznej analizy danych wzbogaconych o techniki specyczne dla WWW. Czyli w wielkim skrócie: WebMining = DataMining + WWW Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW (1) 12 / 19 Tematyka Web Mining Cechy WWW: ogromne bogactwo danych zawartych w WWW wyj¡tkowa dynamika (ci¡gªy wykªadniczy wzrost) wysoka ró»norodno±¢ i zaszumienie uczestnictwo setek milionów wzajemnie powi¡zanych procesów (sterowanych zarówno przez ludzi jak i maszyny) ogromne (i wci¡» rosn¡ce) zaanga»owanie ekonomiczne, polityczne i spoªeczne milionów agentów (o cz¦sto sprzecznych interesach) 1 Web nale»y do najciekawszych obecnie pól zastosowa« Data Mining 2 Web Mining ci¡gle stawia niezwykªe wyzwania koncepcyjne i technologiczne, z których wiele wci¡» czeka na rozwi¡zanie Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 13 / 19 Tematyka Web Mining W Web Mining - tradycyjny podziaª na 3 gªówne dziaªy: 1 Eksploracja Zawarto±ci WWW (ang. Content Mining) (dawniejszy text mining + eksploracja struktury + NLP + ...) 2 Eksploracja Struktury WWW (ang. Link Analysis) (grafy, grafy losowe, algebra, procesy stochastyczne, kombinatoryka, ...) 3 Analiza U»ytkowników WWW (ang. Web Usage Mining) (eksploracja danych, analiza logów, analiza danych temporalnych, modelowanie u»ytkowników, ...) Mo»na uzna¢, »e WIR (Web Information Retrieval, czyli Wyszukiwanie Informacji w WWW) jest równie» poddziedzin¡ Web Mining Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 14 / 19 Tematyka Przykªady Ekstrakcja Informacji na zadany temat z WWW Automatyczne porównywanie cen wybranych produktów Identykacja Grup U»ytkowników o okre±lonych zainteresowaniach lub aktywno±ci Systemy demaskowania plagiatów (np. plagiat.pl) Automatyczne generowanie wiedzy z zasobów WWW Odnajdywanie osób Automatyczne ±ledzenie opinii publicznej na dany temat Wyszukiwarka multimediów (lmy, muzyka, etc.) Wykrywanie i Zwalczanie Chªamu Wyszukiwarkowego (ang. Spam) Wykrywanie nadu»y¢ i przest¦pstw (nanse, terroryzm, etc.) Identykacja grup klientów Optymalizacja przestrzeni reklamowej Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 15 / 19 Tematyka Dost¦p do informacji WWW Obecne paradygmaty organizacji dost¦pu do informacji w WWW: 1 nawigacja r¦czna po dokumentach (pierwotny, obecnie w zaniku) 2 katalogi tematyczne dokumentów (w defensywie?) 3 wyszukiwarki boolowskie (obecnie dominuje) Wyszukiwarki zmieniªy proces rozwoju WWW. Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 16 / 19 Tematyka Dost¦p do informacji WWW Obecne paradygmaty organizacji dost¦pu do informacji w WWW: 1 nawigacja r¦czna po dokumentach (pierwotny, obecnie w zaniku) 2 katalogi tematyczne dokumentów (w defensywie?) 3 wyszukiwarki boolowskie (obecnie dominuje) Wyszukiwarki zmieniªy proces rozwoju WWW. Co dalej? QA (odpowiadarki na pytania) nawigacja inteligentna (semantyczna) ... Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 16 / 19 Tematyka (Pre)historia WIR w skrócie 1611: prototyp indeksu (Strong's Exhaustive Concordance of Bible) 1945: Memex - prototyp WWW (V.Bush As we may think) 1960: SMART Information Retrieval System (G.Salton, Cornell Univ.) 1965: Xanadu - hypertext (Ted Nelson) 1980: system do nawigacji po dokumentach (T.Berners-Lee) 1990: narodziny WWW (Tim Berners-Lee, CERN) 1993-95: pierwsze przegl¡darki (Mosaic/Netscape) 1994: Lycos - pierwsza wyszukiwarka 1994: WebCrawler, 4K hostów (Brian Pinkerton) 1994: Jerry's Guide to the World Wide Web (pó¹niej: Yahoo) 1995: AltaVista, Excite, InfoSeek, Inktomi 1996: Yahoo wchodzi na gieªd¦ 1996-1998: pocz¡tki Google Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 17 / 19 Zadania Co wypada wiedzie¢ po tym wykªadzie: 1 Jakie s¡ reguªy zaliczenia :) 2 Co to jest Web Information Retrieval 3 Czym zajmuje si¦ Web Mining 4 Dziaªy Web Mining (3-4) 5 Przykªady zastosowa« (ze 3) 6 Orientacyjne liczby dotycz¡ce WWW 7 Rola wyszukiwarek 8 Podstawowa wiedza historyczna (co? kiedy?) Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 18 / 19 Zadania Dzi¦kuj¦ za uwag¦ Marcin Sydow (Web Mining Lab, PJWSTK) Wyszukiwanie i Przetwarzanie Informacji WWW 19 / 19