Multimedialne bazy danych

Transkrypt

Multimedialne bazy danych
7
Multimedialne bazy danych
Andrzej Łachwa, WFAiIS UJ 2011
Zobacz:
► http://wazniak.mimuw.edu.pl/
index.php?title=Eksploracja_danych
(*) wykłady 12-14: Eksploracja tekstu
autorzy: Tadeusz Morzy, Mikołaj Morzy, Anna
Leśniewska
Wykład 12
Wykład 13
Wykład 14
Web content mining
Information
Retrieval Full Text
Systems
Databases
Autorzy wykładów* uważają, że dokumenty
tekstowe posiadają co najwyżej szczątkową
strukturę wewnętrzną (są semistrukturalne). Np.
wiadomości e-mail posiadają nagłówek a „pozostała
część wiadomości jest łańcuchem znaków
pozbawionym wewnętrznej struktury”.
Trudno się z zgodzić z taką opinią!
Uważam, że każdy tekst posiada wyraźną strukturę
nadaną mu przez jego autora/redaktora. Np. treść
listu może być podzielona na akapity, kodeks ma
rozdziały, artykuły i paragrafy, Biblia katolików
ma dwa testamenty, księgi, rozdziały i wersety.
Biblia: Wj 12,38 (czyt. Księga Wyjścia Starego Testamentu,
rozdział 12, werset 38)
Kodeks: art. 54 § 2 ust.1 lit. b
Metody eksploracji tekstów*:
►wyszukiwanie dokumentów tekstowych
(podobnych, k najbardziej podobnych) – oparte o
zapytanie
► wyszukiwanie dokumentów tekstowych
(podobnych, k najbardziej podobnych) – oparte o
dokument
► klasyfikacja dokumentów tekstowych
► grupowanie dokumentów tekstowych
► ranking dokumentów
► analiza zależności (analiza sieci cytowań)
Brakuje mi tutaj problematyki wyszukiwania
(odkrywania) treści!
Eksploracja sieci Web to według cytowanych wyżej
autorów odkrywanie interesującej, potencjalnie
użytecznej, dotychczas nieznanej wiedzy (reguł,
wzorców, zależności) ukrytej w zawartości sieci
Web i sposobie korzystania z niej. Ekploracja ta
obejmuje:
► eksplorację zawartości sieci (Web Content
Mining)
► eksplorację połączeń sieci (Web Linkage Mining)
► eksplorację korzystania z sieci (Web Usage
Mining)
Więc tutaj pojawia się Content Mining, czego nie
było w przypadku baz pełnotekstowych (?)