Multimedialne bazy danych
Transkrypt
Multimedialne bazy danych
7 Multimedialne bazy danych Andrzej Łachwa, WFAiIS UJ 2011 Zobacz: ► http://wazniak.mimuw.edu.pl/ index.php?title=Eksploracja_danych (*) wykłady 12-14: Eksploracja tekstu autorzy: Tadeusz Morzy, Mikołaj Morzy, Anna Leśniewska Wykład 12 Wykład 13 Wykład 14 Web content mining Information Retrieval Full Text Systems Databases Autorzy wykładów* uważają, że dokumenty tekstowe posiadają co najwyżej szczątkową strukturę wewnętrzną (są semistrukturalne). Np. wiadomości e-mail posiadają nagłówek a „pozostała część wiadomości jest łańcuchem znaków pozbawionym wewnętrznej struktury”. Trudno się z zgodzić z taką opinią! Uważam, że każdy tekst posiada wyraźną strukturę nadaną mu przez jego autora/redaktora. Np. treść listu może być podzielona na akapity, kodeks ma rozdziały, artykuły i paragrafy, Biblia katolików ma dwa testamenty, księgi, rozdziały i wersety. Biblia: Wj 12,38 (czyt. Księga Wyjścia Starego Testamentu, rozdział 12, werset 38) Kodeks: art. 54 § 2 ust.1 lit. b Metody eksploracji tekstów*: ►wyszukiwanie dokumentów tekstowych (podobnych, k najbardziej podobnych) – oparte o zapytanie ► wyszukiwanie dokumentów tekstowych (podobnych, k najbardziej podobnych) – oparte o dokument ► klasyfikacja dokumentów tekstowych ► grupowanie dokumentów tekstowych ► ranking dokumentów ► analiza zależności (analiza sieci cytowań) Brakuje mi tutaj problematyki wyszukiwania (odkrywania) treści! Eksploracja sieci Web to według cytowanych wyżej autorów odkrywanie interesującej, potencjalnie użytecznej, dotychczas nieznanej wiedzy (reguł, wzorców, zależności) ukrytej w zawartości sieci Web i sposobie korzystania z niej. Ekploracja ta obejmuje: ► eksplorację zawartości sieci (Web Content Mining) ► eksplorację połączeń sieci (Web Linkage Mining) ► eksplorację korzystania z sieci (Web Usage Mining) Więc tutaj pojawia się Content Mining, czego nie było w przypadku baz pełnotekstowych (?)