Projekty z WEDT – semestr zimowy 2012/2013 Prowadzący: Anna
Transkrypt
Projekty z WEDT – semestr zimowy 2012/2013 Prowadzący: Anna
Projekty z WEDT – semestr zimowy 2012/2013 Prowadzący: Anna Wróblewska Terminy: Do 9.11 -Wybór tematu Do 30.11 - Dokumentacja wstępna Do 18.01 – oddanie projektów z pełna dokumentacją ( + źródła). Im wcześniej tym lepiej Preferowany język programowania: Scala Tematy: 1) Analiza sieci artykułów Wikipedii Problem Spośród ogromnej liczby artykułów dostępnych w sieci Wikipedii, chcemy wybrać tylko te dotyczące jednego zagadnienia. Sposób określania tematu zagadnienia – do ustalenia. Metoda wyboru: analiza treści artykułów i powiązań (odnośników, ich liczby) pomiędzy artykułami, wykorzystanie kategorii Wikipedii itp. Narzędzia, które można wykorzystać do analizy sieci: 1. Gephi http://gephi.org/ 2. NetLogo http://ccl.northwestern.edu/netlogo/ 3. iGraph http://igraph.sourceforge.net/ 4. narzędzia do analizy tekstów 5. Schemat DB Wikipedii (nie wszystko trzeba wykorzystać): http://www.mediawiki.org/wiki/Manual:Database_layout 2) Podział tekstu na paragrafy Problem Wiele narzędzi do odczytywanie testu z różnych formatów tekstowych nieprawidłowo dzieli tekst na paragrafy. Wstępny algorytm mógłby wyglądać następująco: - Podział tekstu na linie i zdania. - Linia jest uznawana za ostatnią w paragrafie, jeśli zawiera mniejszą ilość znaków (mniejszą niż adaptacyjny prób liczony na podstawie średniej liczby znaków w linii w dokumencie) oraz jeśli w tej linii zdanie kończy się. Zadanie można zrealizować dla języka angielskiego albo/i polskiego (1 osoba – 1 język, grupa dwuosobowa – 2 języki). 3) Odkrywanie relacji między artykułami Wikipedii (polskiej / angielskiej – 2 zespoły) Problem Celem jest opracowanie algorytmu wykrywania i nazywania związków między pojęciami (artykułami Wikipedii) na podstawia analizy połączeń (linków) między artykułami i na podstawie analizy kontekstu tych linków. Efektem projektu może być graf artykułów/pojęć z nazwanymi powiązaniami między nimi. Do wizualizacji można użyć narzędzia Gephi http://gephi.org/. Do analizy Wikipedii można użyć WikipediaMiner http://wikipedia-miner.cms.waikato.ac.nz/. 4) Semantyczne indeksowanie tekstów przy pomocy Wikipedii (lub innej sieci semantycznej) Problem Celem jest wykorzystanie do indeksowania tekstów semantycznych miar podobieństwa tekstów. Przydatne linki: http://www.cs.waikato.ac.nz/~lh92/ http://wdm.cs.waikato.ac.nz:8080/ http://wikipedia-miner.sourceforge.net/ (WikipediaMiner) http://www.cs.mcgill.ca/~rwest/publications/West_MScThesis-2010.pdf 5) Budowanie warstwy słownikowej sieci semantycznej Problem Opracowanie algorytmu grupowania pojęć związanych z danym obiektem sieci semantycznej i dodawania nazw do warstwy językowej (słowa bliskoznaczne, często występujące w sąsiedztwie, terminy szersze i węższe). Za sieć semantyczną można uznać tu np. strukturę artykułów/pojęć Wikipedii, dowolną ontologię zapisaną w OWL. Można zastosować semantyczne miary podobieństwa bazujące na innych zasobach, jak np. WordNet, BabelNet. Przykładowa literatura: http://www.cs.waikato.ac.nz/~lh92/ http://wdm.cs.waikato.ac.nz:8080/ http://www.cs.mcgill.ca/~rwest/publications/West_MScThesis-2010.pdf BabelNet, WordNet++: http://lcl.uniroma1.it/babelnet/ 6) Budowanie taksonomii pojęć na podstawie tekstu Problem - Wyszukiwanie wzorców w tekstach odpowiadających za wyrażanie powiązań pomiędzy pojęciami nadrzędnymi, podrzędnymi, równoważnymi, np. „Sowa jest ptakiem. Ptaki należą do istot żyjących. Sowy podobnie jak orły żywią się małymi gryzoniami”. - Wizualizacja powstającej taksonomii pojęć. - możliwe są dwa warianty zadania – dla tekstów w języku polskim i angielskim 7) Metoda rozstrzygania znaczeń, budowania warstwy słownikowej – association dictionary (rozszerzenie istniejącego projektu) Problem Disambiguation of word meanings is a very hard problem that probably won’t be solved for many years. This means that when a user searches for a word, it is likely that it has more meanings than the one that the user meant. Example: If the user searches for “jaguar” the result would be about the car brand and the animal. Assignment Your assignment is help the user to rephrase the query by creating a dictionary of words that somehow are associated with each other. The dictionary can be created by seeing which words occur together in texts. This can be used to suggest other search terms to the user that are about the same area, but that may be less ambiguous (Adding “species” to the search for “jaguar” will probably disambiguate the query quite good).