Community challenges in biomedical text mining over 10 years
Transkrypt
Community challenges in biomedical text mining over 10 years
Chung-Chi Huang and Zhiyong Lu Paulina Kania 03.03.2016 Community challenges in biomedical text mining over 10 years: success, failure and the future Plan prezentacji Krótki wstęp – o czym to będzie BioNLP Wyzwania dla społeczności (BioNLP Challenges) Jak zorganizować konkurs? Co daje taki konkurs? O czym to będzie O czym to będzie „One effective way to improve the state of the art is through competitions” O czym to będzie CASP Critical Assessment of protein Structure Prediction Co 2 lata od 1994 r. http://predictioncenter.org/casp12/index. cgi BioNLP Biomedical Natural Language Processing BioNLP BioNLP – po co? BioNLP BioNLP – jak? BioNLP BioNLP – jak? BioNLP BioNLP – jak? O czym to będzie „One effective way to improve the state of the art is through competitions” BioNLP Challenges Wyzwania dla społeczeństwa BioNLP Challenges BioNLP – jak? BioNLP Challenges KDD Cup, TREC Genomics, CoNLL KDD Cup – określenie czy dany artykuł zawiera informacje o ekspresji genów muchy TREC ad-hoc – ekstrakcja danych na temat funkcji genów Dyskusja na temat funkcji genów Artykuły o konkretnych genach TREC Chemistry CoNLL – identyfikacja niepewnych zdań z biomedycznej literaturze (negocjacje, spekulacje) – wpływ na analizę danych BioNLP Challenges BioCreative, JNLPBA, CALBC BioCreative GM – Gene Mention – detekcja nazwy genu GN – Gene Normalization JNLPBA – DNA, RNA, komórka CALBC – stworzenie dużego zbioru danych, zawierającego bio-jednostki (ang. bio-entities) BioNLP Challenges BioCreative, DDIExtraction, BioASQ BioCreative Automatyczne przypisanie ontologii genu PPI - Ekstrakcja odziaływań białko-białko DDIExtraction BioASQ MeSH Uzyskanie dokładnych i zrozumiałych odpowiedzi na pytania z rzeczywistych badań biomedycznych BioNLP Challenges BioNLP-ST Cele: 1. jak przedstawić biologiczne zdarzenia/procesy wraz z uczestniczącymi genami Jak event/relation extraction 2. 3. Wyznaczenie biotopów bakterii Znalezienie mechanizmów chorób infekcyjnych BioNLP Challenges I2b2, TREC Medical/CDS Cel: przewidywanie schorzeń tj. otyłość, problemy z sercem na podstawie danych klinicznych BioNLP Challenges ShARe/CLEF eHealth and SemEval Cele: 1. 2. 3. Rozpoznawanie nazw chorób z notatek klinicznych Mapowanie akronimów w dokumentach klinicznych Interaktywny system wyszukiwania danych - eHealth BioNLP Challenges Jak zorganizować konkurs Jak zorganizować konkurs? Co daje taki konkurs Co daje taki konkurs? Co daje taki konkurs? Ograniczenia 1. 2. 3. Zadania konkursowe muszą być uproszczone w stosunku do rzeczywistych problemów, jednak zachowując odpowiednią trudność Może nie być wystarczająco dużej liczby chętnych do udziału lub niezbyt innowacyjne rozwiązania Ogromna luka pomiędzy zadaniami konkursowymi a rzeczywistymi problemami Pytania? Dziękuję za uwagę