Komputerowe Systemy Rozpoznawania Zadanie 2

Transkrypt

Komputerowe Systemy Rozpoznawania Zadanie 2
Komputerowe Systemy Rozpoznawania
Zadanie 2 - Lingwistyczne podsumowania baz danych na zbiorach rozmytych typu 2
Zadanie polega na stworzeniu aplikacji desktopowej w technologii J2SE lub J2EE oraz
przy użyciu dowolnego formatu bazy danych. W ogólności, aplikacja ma charakter
systemu doradczego,
który generuje pewną ilość podsumowań lingwistycznych dla podanej bazy,
a następnie przedstawia użytkownikowi wybrane – najlepsze wg zastosowanych miar
jakości -– wyniki, czyli podsumowania lingwistyczne. Aplikacja umożliwiać ma
automatyczne generowanie podsumowań
lingwistycznych służących do tworzenia krótkich wiadomości tekstowych
(wykorzystanych później jako newsy, wiadomości RSS, notatki prasowe, itp.) na
podstawie dużych relacyjnych baz danych.
Podstawy teoretyczne:
- teoria zbiorów rozmytych i jej wybrane rozszerzenia, predykaty i kwantyfikatory
rozmyte
- generowanie podsumowań lingwistycznych baz danych w pierwszej i drugiej
formie
- ewaluacja podsumowań i obliczanie wskaźników jakości dla podsumowań typu 2
- lingwistyczna `obróbka' otrzymanych wiadomości tekstowych, wybór wiadomości
najbardziej prawdziwych
Etapy zadania:
1. Wybór bazy danych
- wskazane jest zastosowanie rzeczywistej bazy danych lub wygenerowanego z
niej `widoku' zawierającej/-go min. 10 tys. rekordów opisujących pewne obiekty,
np. sprzedaże, faktury, towary, ludzie, kursy walut lub akcji, itp. Baza musi
zawierać min. 10 atrybutów możliwych do podsumowywania (czyli oprócz indeksu,
nazwiska, innych kluczy, itp.).
2. Stworzenie biblioteki obiektowej zawierającej zbiór klas reprezentujących rożne
typy zbiorów rozmytych, zbiorów rozmytych typu 2 i operacji na tych zbiorach.
Wymagane obiekty i operacje:
- zbiór klasyczny, przestrzeń rozważań dyskretna i gęsta
- funkcja charakterystyczna
- dopełnienie, suma i iloczyn zbiorów klasycznych
- zbiór rozmyty (pusty, wypukły, wklęsły, normalny, wysokość, jądro)
- zbiór rozmyty typu 2 (pusty, wypukły, wklęsły, normalny)
- funkcja przynależności trójkątna, prostokątna
- nośnik i alfa-przekrój zbioru rozmytego
- nośnik zbioru rozmytego typu 2
- suma, iloczyn i dopełnienie zbiorów rozmytych wg różnych norm t¶ójkątnych
- suma, iloczyn i dopełnienie zbiorów rozmytych typu 2 wg różnych norm t¶ójkątnych
- zmienna lingwistyczna, kwantyfikator rozmyty absolutny i względny
- zmienna lingwistyczna typu 2, kwantyfikator rozmyty typu 2 absolutny i względny
- sumaryzator prosty, złożony i z kwalifikatorem
- obliczanie miar jakości dla podsumowań lingwistycznych typu 2 (T_1 do T_11, miary
I wg Yagera i wg Wilbik)
3. Generowanie podsumowań dla różnych kwantyfikatorów
(np. mało, ponad połowa) i sumaryzatorów (niska pensja, średni wiek),
dla różnych kombinacji atrybutów (np. młody i dobrze zarabiający,
dość wysoki ale szczupły).
- łączenie atrybutów i/lub kwantyfikatorów modelowanych przez różne
typy zbiorów rozmytych (np. zwykłe i interwałowe)
- Określanie wag różnych wskaźników jakości w celu otrzymania
podsumowania jak najlepiej opisującego bazę przy zadanym kwantyfikatorze
i zbiorze predykatów.
- stosowanie zarówno względnych (np. niski) jak i bezwzględnych (ok. 160 cm)
rozmytych modeli wybranych cech (tu: wzrostu).
Użytkownik powinien mieć możliwość:
edycji i zapisów wygenerowanych komunikatów (jako plików .txt,
np. w celu dokonania korekty gramatycznej, wyboru podsumowań
i ich kolejności, itp.),
-
wyboru podsumowywanych atrybutów,
-
wyboru i definiowania funkcji przynależności,
kwantyfikatorów, sumaryzatorów i kwalifikatorów użytych w podsumowaniach,
-
wyboru miar jakości podsumowań – miar T_1 do T_11, miary I wg Yagera i wg
Wilbik.

Podobne dokumenty