A review of computational tools in microRNA discovery
Transkrypt
A review of computational tools in microRNA discovery
ODKRYWANIE MIRNA PRZEGLĄD NARZĘDZI A review of computational tools in microRNA discovery miRNA Co to jest miRNA? • jednoniciowe • ok. 22 nukleotydów • regulują ekspresję genów • zwykle, przyłączając się do mRNA, utrudniają translację • osłabia syntezę białek • reguluje translację ponad 60% transkryptomu u człowieka • miRNA a mRNA Badania miRNA • stale rośnie liczba algorytmów • metody komputerowe dostarczają kandydatów na miRNA • kandydatów weryfikują metody eksperymentalne • dokładniejsze przewidywania możliwe są dzięki wiedzy na temat właściwości miRNA u różnych organizmów, na przykład struktura spinki u roślin jest bardziej zróżnicowana pod względem wielkości, choć zwykle większa niż u zwierząt. • Ze względu na zróżnicowanie miRNA u roślin trudniej je przewidywać. • Znamy kilka tysięcy sekwencji miRNA człowieka Biogeneza Metody sekwencjonowania • klonowanie i metoda Sangera • analiza mikromacierzy • northern blot Metody przewidywania • metody porównawcze • metody nieporównawcze Metody porównawcze • Opierają się na konserwatyzmie sekwencji • Zwiększają liczbę przewidzianych i sprawdzonych wyników • Mają niską wrażliwość, gdy badane gatunki są ewolucyjnie odległe • Nie wykrywają miRNA charakterystycznych na konkretnego gatunku Closely related species conservation • Skupiają się na strukturze drugorzędowej • Wyszukują konserwatywne struktury "spinek" • srnaloop, MiRscan, miRseeker Srnaloop • oparty na konserwatyzmie sekwencji i podobieństwie budowy • został użyty do przewidzenia struktur miRNA Caenorhabditis elegans MiRscan • Bardziej wrażliwy od Srnaloopa • Wyszukuje konserwatywne sekwencje, które mogą formować strukturę spinki • Porównuje zidentyfikowane struktury ze znanym miRNA • Pierwszy raz został użyty do indentyfikacji mRNA nicieni miRseeker • Ma podobną do miRscana wrażliwość • Wyszukuje konserwatywne sekwencje, które mogą formować strukturę spinki • Pierwszy raz został użyty do identyfikacji miRNA much • Wiele przewidzianych struktur potwierdzono eksperymentalnie Multiple species conservation • Oparty na zestawieniu krótkich sekwencji spokrewnionych gatunków w celu poznania stopnia konserwatyzmu każdego nukleotydu. • Pozwolił na odkrycie, że końce spinek są bardziej konserwatywne niż pętle • Znalazł 80% ówcześnie znanych sekwencji miRNA u człowieka • tylko 16 z 69 przewidzianych kandydatów znalazło potwierdzenie eksperymentalne • Być może jest to spowodowane niską ekspresją Machine-learning approaches • Pozytywny zbiór uczący - znane miRNA • Negatywny zbiór uczący - struktury spinki inne niż miRNA • Predyktory biorą pod uwagę różne cechy miRNA • Generowane wyniki są oceniane pod względem podobieństwa do znanych struktur • Typowe metody to ukryte modele Markova, metoda wektorów nośnych oraz naiwny klasyfikator bayesowski RNAmicro • Łączy analizę porównawczą sekwencji i przewidywanie struktury • Identyfikuje pre-miRNA o strukturach zbliżonych do spinek • Rozważa cechy strukturalne i termodynamiczne w celu zbudowania listy kandydatów • Ocenia prawdopodobieństwo, że otrzymane cząsteczki to rzeczywiście miRNA na podstawie podobieństwa do znanych miRNA • Charakteryzuje się wrażliwością na poziomie 90% i specyficznością 99% MiRFinder • Porównuje sekwencje blisko spokrewnionych gatunków • Identyfikuje struktury spinki ze zbioru kandydatów • Używa 18 parametrów (np. minimum free energy) • Ocenia statystyczną istotność uzyskanych wyników • Pozwala zmniejszyć listę kandydatów, ale nie wykrywa charakterystycznych dla gatunku struktur • Charakteryzuje się wrażliwością na poziomie 90% ProMiR • Wykorzystuje ukryte modele Markova i przewiduje miRNA i dalszych lub bliższych homologach poprzez zestawienie sekwencji • Używa sekwencji i struktury pre-miRNA, takich jak sparowane sekwencje na końcach regionu • 9 z 23 przewidzianych ludzkich miRNA zostało potwierdzonych eksperymentalnie • Charakteryzuje się wrażliwością na poziomie 73% i specyficznością 96% MiRRim • Wykorzystuje ukryte modele Markova • Bazuje zarówno na cechach ewolucyjnych, jaki na podobieństwie struktury drugorzędowej • Osiąga wyższe, w porównaniu z innymi metodami, wyniki w identyfikowaniu nowego ludzkiego miRNA • Charakteryzuje się wrażliwością na poziomie 70% i specyficznością 90% Metody nieporównwcze • Nie opierają się na konserwatyzmie filogenetycznym • Mogą znaleźć niekonserwatywne lub charakterystyczne dla danego gatunku miRNA PalGrade • Łączy przewidywania komputerowe i analizę mikromacierzy • Z 11 milionów sekwencji spinek zidentyfikowanych w ludzkim genomie, znalazł 89 nowych miRNA, z których 54 były charakterystyczne dla naczelnych a 43 zweryfikowano eksperymentalnie. miPred • Opiera się na modelu losowego lasu przewidywań • Podstawą podziału na mniejsze zbiory są charakterystyczne dla znanych miRNA cechy topologiczne • Opiera się na analizie struktury a nie na analizie charakterystycznych regionów sekwencji • Charakteryzuje się wrażliwością na poziomie 84% i specyficznością 98% miR-abela • Rozpoznaje 40 cech miRNA (folding free energy, długość końców i pętli spinki) • Identyfikuje miRNA, użwając SVM. • Metoda została z sukcesem użyta do znalezienia nowego miRNA ssaków • Miejsce poszukiwań zawężone do regionów wokół znanych loci miRNA • Charakteryzuje się wrażliwością na poziomie 71% i specyficznością 91% • Niska wrażliwość jest prawdopodobnie spowodowana brakiem równowagi między pozytywnym a negatywnym zbiorem uczącym HHMMiR • Przewiduje spinki miRNA bazując na Hierarchicznych ukrytych modelach Markova • Używa sekwencji i struktury znanych cząsteczek pre-miRNA • Przewiduje strukturę drugorzędową bazując na minimum free energy • Potem algorytm wyodrębnia spinki i klasyfikuje za pomocą HHMM • Zbiorami uczącymi były cząsteczki ludzkie ale motoda może być z powodzeniem wykorzystywana do analizy miRNA różnych organizmów, w tym much i roślin • Charakteryzuje się wrażliwością na poziomie 84% i specyficznością 88% Homology/secondary structure alignment • Bazuje na homologii zarówno na sekwencyjnym, jak i strukturalnym poziomie. • Ma mniejsze wymagania, co do konserwatywności • Zapewnia lepsze rezultaty ze względu na wyższą czułość • Nie potrafi wykryć miRNA, gdy nie zna struktury homologa • Charakteryzuje się wrażliwością na poziomie 90% i specyficznością 98% Tools directed to nextgeneration sequencing data • Powszechnie używane narzędzia do przewidywania miRNA z NGS to miRDeep, miRanalyzer i SSCprofiler. • miRDeep jest metodą opartą na właściwościach biogenezy miRNA. Dzięki niemu odkryto ponad 200 miRNA, między innymi u ludzi, psów, myszy i świń. • miRanalyzer wykrywa znane wcześniej miRNA i na tej podstawie, dzięki uczeniu maszynowemu, przewiduje nowe miRNA. Daje bardzo dobre wyniki, w szczególności dla C. elegans, szczura i człowieka. Wrażliwość na poziomie 98%. • SSCprofiler do zidentyfikowania nowego miRNA używa konserwatywnych sekwencji, jak również cech miRNA, takich jak struktura drugorzędowa. Angażuje uczenie maszynowe do znalezienia prekursorów miRNA. Target-centered approach • Metoda polega na analizie mRNA • Poszukuje potencjalnych konserwatywnych bloków, zakładając, że mogą one być miejscem przyłączenia miRNA • Okazuje się, że większość takich bloków ma długość 8 zasad, kończących się adenozyną. • Wiele dojrzałych miRNA zaczyna się uracylem, a po nim następuje sekwencja 7 nukleotydow, komplementarnych do konserwatywnych regionów mRNA. • W momencie powstania, metoda potrafiła znaleźć połowę ówcześnie znanych sekwencji miRNA. • Sekwencję miRNA pozwoliła poznać sekwencja mRNA w połączeniu z założeniem o konserwatyzmie sekwencji miRNA oraz zdolnością miRNA do tworzenia spinek. • Około połowa wyników została potwierdzona eksperymentalnie Identyfikacja indywidualnych długości miRNA • Na początku badań nad miRNA różnice w długości i/lub sekwencji były uważane za błędy lub niewytłumaczalne zjawisko. • Różnice te zostały jednak szybko rozpoznane jako złożoność wynikająca z biogenezy miRNA i jego roli • warianty długości i sekwencji zostały nazwane isomiRami. • Wymienione wcześniej narzędzia nie radziły sobie z isomiRami. • Do badania niewielkich zbiorów RNA stworzono SeqBuster, który jednocześnie może analizować isomiRy. • Powstały również pakiety do R pozwalające na analizę isomiRów. Podsumowanie • Ostatnie badania pokazały, jak ważna jest rola miRNA. • Lepsze poznanie tej cząstki może pozwolić na kontrolowanie chorób infekcyjnych, rozwoju nowotworu oraz hamowanie syntezy białek. • Wiele przedstawionych algorytmów wymaga poprawy, aby ich zdolności wykrywania miRNA oraz wiązania ich z odpowiednimi funkcjami były większe. • Wiele narzędzi nadal generuje fałszywie pozytywne wyniki i nie zapewnia wglądu w funkcje przewidzianych kandydatów. • Wzięcie pod uwagę procesu dojrzewania miRNA może poprawić wyszukiwanie miRNA. • Rozwój narzędzi komputerowych jest ściśle powiązany z biologicznymi badaniami. • Wraz z poprawą dokładności wyszukiwania miRNA, liczba znanych miRNA wzrośnie, co spowoduje dogłębne zrozumienie pośredniczącej regulacji genów lub białek przez miRNA.