A review of computational tools in microRNA discovery

Transkrypt

A review of computational tools in microRNA discovery
ODKRYWANIE MIRNA PRZEGLĄD NARZĘDZI
A review of computational tools in microRNA discovery
miRNA
Co to jest miRNA?
• jednoniciowe
• ok. 22 nukleotydów
• regulują ekspresję genów
• zwykle, przyłączając się do mRNA, utrudniają translację
• osłabia syntezę białek
• reguluje translację ponad 60% transkryptomu u człowieka
• miRNA a mRNA
Badania miRNA
• stale rośnie liczba algorytmów
• metody komputerowe dostarczają kandydatów na miRNA
• kandydatów weryfikują metody eksperymentalne
• dokładniejsze przewidywania możliwe są dzięki wiedzy na temat właściwości
miRNA u różnych organizmów, na przykład struktura spinki u roślin jest bardziej
zróżnicowana pod względem wielkości, choć zwykle większa niż u zwierząt.
• Ze względu na zróżnicowanie miRNA u roślin trudniej je przewidywać.
• Znamy kilka tysięcy sekwencji miRNA człowieka
Biogeneza
Metody
sekwencjonowania
• klonowanie i metoda Sangera
• analiza mikromacierzy
• northern blot
Metody
przewidywania
• metody porównawcze
• metody nieporównawcze
Metody
porównawcze
• Opierają się na konserwatyzmie sekwencji
• Zwiększają liczbę przewidzianych i sprawdzonych
wyników
• Mają niską wrażliwość, gdy badane gatunki są
ewolucyjnie odległe
• Nie wykrywają miRNA charakterystycznych na
konkretnego gatunku
Closely related species
conservation
• Skupiają się na strukturze drugorzędowej
• Wyszukują konserwatywne struktury "spinek"
• srnaloop, MiRscan, miRseeker
Srnaloop
• oparty na konserwatyzmie sekwencji i
podobieństwie budowy
• został użyty do przewidzenia struktur miRNA
Caenorhabditis elegans
MiRscan
• Bardziej wrażliwy od Srnaloopa
• Wyszukuje konserwatywne sekwencje, które mogą
formować strukturę spinki
• Porównuje zidentyfikowane struktury ze znanym miRNA
• Pierwszy raz został użyty do indentyfikacji mRNA
nicieni
miRseeker
• Ma podobną do miRscana wrażliwość
• Wyszukuje konserwatywne sekwencje, które mogą
formować strukturę spinki
• Pierwszy raz został użyty do identyfikacji miRNA much
• Wiele przewidzianych struktur potwierdzono
eksperymentalnie
Multiple species
conservation
• Oparty na zestawieniu krótkich sekwencji spokrewnionych gatunków w
celu poznania stopnia konserwatyzmu każdego nukleotydu.
• Pozwolił na odkrycie, że końce spinek są bardziej konserwatywne niż
pętle
• Znalazł 80% ówcześnie znanych sekwencji miRNA u człowieka
• tylko 16 z 69 przewidzianych kandydatów znalazło potwierdzenie
eksperymentalne
• Być może jest to spowodowane niską ekspresją
Machine-learning
approaches
• Pozytywny zbiór uczący - znane miRNA
• Negatywny zbiór uczący - struktury spinki inne niż miRNA
• Predyktory biorą pod uwagę różne cechy miRNA
• Generowane wyniki są oceniane pod względem
podobieństwa do znanych struktur
• Typowe metody to ukryte modele Markova, metoda
wektorów nośnych oraz naiwny klasyfikator bayesowski
RNAmicro
• Łączy analizę porównawczą sekwencji i przewidywanie struktury
• Identyfikuje pre-miRNA o strukturach zbliżonych do spinek
• Rozważa cechy strukturalne i termodynamiczne w celu zbudowania listy
kandydatów
• Ocenia prawdopodobieństwo, że otrzymane cząsteczki to rzeczywiście
miRNA na podstawie podobieństwa do znanych miRNA
• Charakteryzuje się wrażliwością na poziomie 90% i specyficznością 99%
MiRFinder
• Porównuje sekwencje blisko spokrewnionych gatunków
• Identyfikuje struktury spinki ze zbioru kandydatów
• Używa 18 parametrów (np. minimum free energy)
• Ocenia statystyczną istotność uzyskanych wyników
• Pozwala zmniejszyć listę kandydatów, ale nie wykrywa
charakterystycznych dla gatunku struktur
• Charakteryzuje się wrażliwością na poziomie 90%
ProMiR
• Wykorzystuje ukryte modele Markova i przewiduje miRNA i dalszych lub
bliższych homologach poprzez zestawienie sekwencji
• Używa sekwencji i struktury pre-miRNA, takich jak sparowane sekwencje
na końcach regionu
• 9 z 23 przewidzianych ludzkich miRNA zostało potwierdzonych
eksperymentalnie
• Charakteryzuje się wrażliwością na poziomie 73% i specyficznością 96%
MiRRim
• Wykorzystuje ukryte modele Markova
• Bazuje zarówno na cechach ewolucyjnych, jaki na
podobieństwie struktury drugorzędowej
• Osiąga wyższe, w porównaniu z innymi metodami,
wyniki w identyfikowaniu nowego ludzkiego miRNA
• Charakteryzuje się wrażliwością na poziomie 70% i
specyficznością 90%
Metody nieporównwcze
• Nie opierają się na konserwatyzmie
filogenetycznym
• Mogą znaleźć niekonserwatywne lub
charakterystyczne dla danego gatunku miRNA
PalGrade
• Łączy przewidywania komputerowe i analizę
mikromacierzy
• Z 11 milionów sekwencji spinek zidentyfikowanych
w ludzkim genomie, znalazł 89 nowych miRNA, z
których 54 były charakterystyczne dla naczelnych a
43 zweryfikowano eksperymentalnie.
miPred
• Opiera się na modelu losowego lasu przewidywań
• Podstawą podziału na mniejsze zbiory są
charakterystyczne dla znanych miRNA cechy topologiczne
• Opiera się na analizie struktury a nie na analizie
charakterystycznych regionów sekwencji
• Charakteryzuje się wrażliwością na poziomie 84% i
specyficznością 98%
miR-abela
• Rozpoznaje 40 cech miRNA (folding free energy, długość końców i pętli
spinki)
• Identyfikuje miRNA, użwając SVM.
• Metoda została z sukcesem użyta do znalezienia nowego miRNA ssaków
• Miejsce poszukiwań zawężone do regionów wokół znanych loci miRNA
• Charakteryzuje się wrażliwością na poziomie 71% i specyficznością 91%
• Niska wrażliwość jest prawdopodobnie spowodowana brakiem równowagi
między pozytywnym a negatywnym zbiorem uczącym
HHMMiR
• Przewiduje spinki miRNA bazując na Hierarchicznych ukrytych modelach
Markova
• Używa sekwencji i struktury znanych cząsteczek pre-miRNA
• Przewiduje strukturę drugorzędową bazując na minimum free energy
• Potem algorytm wyodrębnia spinki i klasyfikuje za pomocą HHMM
• Zbiorami uczącymi były cząsteczki ludzkie ale motoda może być z
powodzeniem wykorzystywana do analizy miRNA różnych organizmów, w
tym much i roślin
• Charakteryzuje się wrażliwością na poziomie 84% i specyficznością 88%
Homology/secondary
structure alignment
• Bazuje na homologii zarówno na sekwencyjnym, jak i
strukturalnym poziomie.
• Ma mniejsze wymagania, co do konserwatywności
• Zapewnia lepsze rezultaty ze względu na wyższą czułość
• Nie potrafi wykryć miRNA, gdy nie zna struktury homologa
• Charakteryzuje się wrażliwością na poziomie 90% i
specyficznością 98%
Tools directed to nextgeneration sequencing
data
• Powszechnie używane narzędzia do przewidywania miRNA z NGS to miRDeep,
miRanalyzer i SSCprofiler.
• miRDeep jest metodą opartą na właściwościach biogenezy miRNA. Dzięki niemu odkryto
ponad 200 miRNA, między innymi u ludzi, psów, myszy i świń.
• miRanalyzer wykrywa znane wcześniej miRNA i na tej podstawie, dzięki uczeniu
maszynowemu, przewiduje nowe miRNA. Daje bardzo dobre wyniki, w szczególności dla C.
elegans, szczura i człowieka. Wrażliwość na poziomie 98%.
• SSCprofiler do zidentyfikowania nowego miRNA używa konserwatywnych sekwencji, jak
również cech miRNA, takich jak struktura drugorzędowa. Angażuje uczenie maszynowe do
znalezienia prekursorów miRNA.
Target-centered
approach
• Metoda polega na analizie mRNA
• Poszukuje potencjalnych konserwatywnych bloków, zakładając, że mogą one być miejscem przyłączenia
miRNA
• Okazuje się, że większość takich bloków ma długość 8 zasad, kończących się adenozyną.
• Wiele dojrzałych miRNA zaczyna się uracylem, a po nim następuje sekwencja 7 nukleotydow,
komplementarnych do konserwatywnych regionów mRNA.
• W momencie powstania, metoda potrafiła znaleźć połowę ówcześnie znanych sekwencji miRNA.
• Sekwencję miRNA pozwoliła poznać sekwencja mRNA w połączeniu z założeniem o konserwatyzmie
sekwencji miRNA oraz zdolnością miRNA do tworzenia spinek.
• Około połowa wyników została potwierdzona eksperymentalnie
Identyfikacja
indywidualnych długości
miRNA
• Na początku badań nad miRNA różnice w długości i/lub sekwencji były
uważane za błędy lub niewytłumaczalne zjawisko.
• Różnice te zostały jednak szybko rozpoznane jako złożoność wynikająca
z biogenezy miRNA i jego roli
• warianty długości i sekwencji zostały nazwane isomiRami.
• Wymienione wcześniej narzędzia nie radziły sobie z isomiRami.
• Do badania niewielkich zbiorów RNA stworzono SeqBuster, który
jednocześnie może analizować isomiRy.
• Powstały również pakiety do R pozwalające na analizę isomiRów.
Podsumowanie
• Ostatnie badania pokazały, jak ważna jest rola miRNA.
• Lepsze poznanie tej cząstki może pozwolić na kontrolowanie chorób infekcyjnych, rozwoju nowotworu
oraz hamowanie syntezy białek.
• Wiele przedstawionych algorytmów wymaga poprawy, aby ich zdolności wykrywania miRNA oraz
wiązania ich z odpowiednimi funkcjami były większe.
• Wiele narzędzi nadal generuje fałszywie pozytywne wyniki i nie zapewnia wglądu w funkcje
przewidzianych kandydatów.
• Wzięcie pod uwagę procesu dojrzewania miRNA może poprawić wyszukiwanie miRNA.
• Rozwój narzędzi komputerowych jest ściśle powiązany z biologicznymi badaniami.
• Wraz z poprawą dokładności wyszukiwania miRNA, liczba znanych miRNA wzrośnie, co spowoduje
dogłębne zrozumienie pośredniczącej regulacji genów lub białek przez miRNA.