Projekty z WEDT – semestr zimowy 2012/2013 Prowadzący: Anna

Transkrypt

Projekty z WEDT – semestr zimowy 2012/2013 Prowadzący: Anna
Projekty z WEDT – semestr zimowy 2012/2013
Prowadzący: Anna Wróblewska
Terminy:
Do 9.11 -Wybór tematu
Do 30.11 - Dokumentacja wstępna
Do 18.01 – oddanie projektów z pełna dokumentacją ( + źródła). Im wcześniej tym lepiej 
Preferowany język programowania: Scala
Tematy:
1) Analiza sieci artykułów Wikipedii
Problem
Spośród ogromnej liczby artykułów dostępnych w sieci Wikipedii, chcemy wybrać tylko te
dotyczące jednego zagadnienia. Sposób określania tematu zagadnienia – do ustalenia.
Metoda wyboru: analiza treści artykułów i powiązań (odnośników, ich liczby) pomiędzy
artykułami, wykorzystanie kategorii Wikipedii itp.
Narzędzia, które można wykorzystać do analizy sieci:
1. Gephi http://gephi.org/
2. NetLogo http://ccl.northwestern.edu/netlogo/
3. iGraph http://igraph.sourceforge.net/
4. narzędzia do analizy tekstów
5. Schemat DB Wikipedii (nie wszystko trzeba wykorzystać):
http://www.mediawiki.org/wiki/Manual:Database_layout
2) Podział tekstu na paragrafy
Problem
Wiele narzędzi do odczytywanie testu z różnych formatów tekstowych nieprawidłowo dzieli tekst
na paragrafy.
Wstępny algorytm mógłby wyglądać następująco:
- Podział tekstu na linie i zdania.
- Linia jest uznawana za ostatnią w paragrafie, jeśli zawiera mniejszą ilość znaków (mniejszą niż
adaptacyjny prób liczony na podstawie średniej liczby znaków w linii w dokumencie) oraz jeśli
w tej linii zdanie kończy się.
Zadanie można zrealizować dla języka angielskiego albo/i polskiego (1 osoba – 1 język, grupa
dwuosobowa – 2 języki).
3) Odkrywanie relacji między artykułami Wikipedii (polskiej / angielskiej – 2
zespoły)
Problem
Celem jest opracowanie algorytmu wykrywania i nazywania związków między pojęciami
(artykułami Wikipedii) na podstawia analizy połączeń (linków) między artykułami i na podstawie
analizy kontekstu tych linków.
Efektem projektu może być graf artykułów/pojęć z nazwanymi powiązaniami między nimi. Do
wizualizacji można użyć narzędzia Gephi http://gephi.org/.
Do analizy Wikipedii można użyć WikipediaMiner http://wikipedia-miner.cms.waikato.ac.nz/.
4) Semantyczne indeksowanie tekstów przy pomocy Wikipedii (lub innej
sieci semantycznej)
Problem
Celem jest wykorzystanie do indeksowania tekstów semantycznych miar podobieństwa tekstów.
Przydatne linki: http://www.cs.waikato.ac.nz/~lh92/
http://wdm.cs.waikato.ac.nz:8080/
http://wikipedia-miner.sourceforge.net/ (WikipediaMiner)
http://www.cs.mcgill.ca/~rwest/publications/West_MScThesis-2010.pdf
5) Budowanie warstwy słownikowej sieci semantycznej
Problem
Opracowanie algorytmu grupowania pojęć związanych z danym obiektem sieci semantycznej i
dodawania nazw do warstwy językowej (słowa bliskoznaczne, często występujące w sąsiedztwie,
terminy szersze i węższe). Za sieć semantyczną można uznać tu np. strukturę artykułów/pojęć
Wikipedii, dowolną ontologię zapisaną w OWL. Można zastosować semantyczne miary
podobieństwa bazujące na innych zasobach, jak np. WordNet, BabelNet.
Przykładowa literatura:
http://www.cs.waikato.ac.nz/~lh92/
http://wdm.cs.waikato.ac.nz:8080/
http://www.cs.mcgill.ca/~rwest/publications/West_MScThesis-2010.pdf
BabelNet, WordNet++: http://lcl.uniroma1.it/babelnet/
6) Budowanie taksonomii pojęć na podstawie tekstu
Problem
- Wyszukiwanie wzorców w tekstach odpowiadających za wyrażanie powiązań pomiędzy
pojęciami nadrzędnymi, podrzędnymi, równoważnymi, np. „Sowa jest ptakiem. Ptaki należą do
istot żyjących. Sowy podobnie jak orły żywią się małymi gryzoniami”.
- Wizualizacja powstającej taksonomii pojęć.
- możliwe są dwa warianty zadania – dla tekstów w języku polskim i angielskim
7) Metoda rozstrzygania znaczeń, budowania warstwy słownikowej –
association dictionary (rozszerzenie istniejącego projektu)
Problem
Disambiguation of word meanings is a very hard problem that probably won’t be solved for many
years. This means that when a user searches for a word, it is likely that it has more meanings than
the one that the user meant.
Example:
If the user searches for “jaguar” the result would be about the car brand and the animal.
Assignment
Your assignment is help the user to rephrase the query by creating a dictionary of words that
somehow are associated with each other. The dictionary can be created by seeing which words
occur together in texts. This can be used to suggest other search terms to the user that are about
the same area, but that may be less ambiguous (Adding “species” to the search for “jaguar” will
probably disambiguate the query quite good).