Community challenges in biomedical text mining over 10 years

Transkrypt

Community challenges in biomedical text mining over 10 years
Chung-Chi Huang
and Zhiyong Lu
Paulina Kania
03.03.2016
Community
challenges in
biomedical text
mining over
10 years:
success, failure
and the future
Plan prezentacji
 Krótki
wstęp – o czym to będzie
 BioNLP
 Wyzwania dla społeczności (BioNLP
Challenges)
 Jak zorganizować konkurs?
 Co daje taki konkurs?
O czym to będzie
O czym to będzie
„One effective way to
improve the state of the art is
through competitions”
O czym to będzie
CASP
 Critical
Assessment of protein Structure
Prediction
 Co 2 lata od 1994 r.
 http://predictioncenter.org/casp12/index.
cgi
BioNLP
Biomedical Natural Language Processing
BioNLP
BioNLP – po co?
BioNLP
BioNLP – jak?
BioNLP
BioNLP – jak?
BioNLP
BioNLP – jak?
O czym to będzie
„One effective way to
improve the state of the art is
through competitions”
BioNLP Challenges
Wyzwania dla społeczeństwa
BioNLP Challenges
BioNLP – jak?
BioNLP Challenges
KDD Cup, TREC Genomics, CoNLL


KDD Cup – określenie czy dany artykuł zawiera informacje o
ekspresji genów muchy
TREC ad-hoc – ekstrakcja danych na temat funkcji genów




Dyskusja na temat funkcji genów
Artykuły o konkretnych genach
TREC Chemistry
CoNLL – identyfikacja niepewnych zdań z biomedycznej
literaturze (negocjacje, spekulacje) – wpływ na analizę
danych
BioNLP Challenges
BioCreative, JNLPBA, CALBC
 BioCreative


GM – Gene Mention – detekcja nazwy genu
GN – Gene Normalization
 JNLPBA
– DNA, RNA, komórka
 CALBC – stworzenie dużego zbioru danych,
zawierającego bio-jednostki (ang. bio-entities)
BioNLP Challenges
BioCreative, DDIExtraction, BioASQ
 BioCreative
Automatyczne przypisanie
ontologii genu
 PPI - Ekstrakcja odziaływań
białko-białko

 DDIExtraction
 BioASQ


MeSH
Uzyskanie dokładnych i zrozumiałych odpowiedzi na
pytania z rzeczywistych badań biomedycznych
BioNLP Challenges
BioNLP-ST
 Cele:
1.
jak przedstawić biologiczne zdarzenia/procesy wraz
z uczestniczącymi genami
Jak  event/relation extraction
2.
3.
Wyznaczenie biotopów bakterii
Znalezienie mechanizmów chorób infekcyjnych
BioNLP Challenges
I2b2, TREC Medical/CDS
 Cel:
przewidywanie schorzeń tj. otyłość, problemy
z sercem na podstawie danych klinicznych
BioNLP Challenges
ShARe/CLEF eHealth and SemEval
 Cele:
1.
2.
3.
Rozpoznawanie nazw chorób z notatek klinicznych
Mapowanie akronimów w dokumentach
klinicznych
Interaktywny system wyszukiwania danych - eHealth
BioNLP Challenges
Jak zorganizować konkurs
Jak zorganizować konkurs?
Co daje taki konkurs
Co daje taki konkurs?
Co daje taki konkurs?
Ograniczenia
1.
2.
3.
Zadania konkursowe muszą być uproszczone w
stosunku do rzeczywistych problemów, jednak
zachowując odpowiednią trudność
Może nie być wystarczająco dużej liczby chętnych
do udziału lub niezbyt innowacyjne rozwiązania
Ogromna luka pomiędzy zadaniami konkursowymi
a rzeczywistymi problemami
Pytania?
Dziękuję za
uwagę