Kandydat będzie odpowiedzialny za realizację wybranych
Transkrypt
Kandydat będzie odpowiedzialny za realizację wybranych
Kandydat będzie odpowiedzialny za realizację wybranych zagadnień z poniższego opisu. Funkcje regulatorowe długich niekodujących RNA w kontekście oddziaływań RNA:RNA 1. Cel naukowy projektu Długie niekodujące RNA (lncRNA, ang. long non-coding RNA) stanowią u roślin i zwierząt niezwykle liczną klasę transkryptów, których wspólną cechą jest brak zdolności do kodowania białka oraz długość przekraczająca arbitralnie przyjętą granicę 200 nukleotydów. U człowieka odkryto 145331 tych cząsteczek (NONCODE v4, Xie et al., 2014), wobec 21995 transkryptów kodujących białka (ENSEMBL 77, Cunningham et al., 2014). Dotychczas udało się funkcjonalnie scharakteryzować zaledwie 1% tych cząsteczek, a zatem istnieje pilna potrzeba poszerzenie naszej wiedzy na temat pełnionych przez nie funkcji komórkowych. Ponieważ szczególnie słabo poznanym aspektem biologii lncRNA są ich funkcje związane z tworzeniem bezpośrednich oddziaływań z innymi cząsteczkami RNA, stanowi to obiecujący kierunek badań, tym bardziej że możliwych jest tysiące interakcji w cis (lncRNA nakładające się z innymi genami w genomie) oraz dziesiątki tysięcy interakcji w trans. Dlatego głównym celem projektu jest zbadanie funkcji lncRNA pełnionych w sparowaniu z innymi cząsteczkami RNA. Po raz pierwszy to zagadnienie będzie przedmiotem wszechstronnych, wielkoskalowych analiz bioinformatycznych, które zostaną dodatkowo wsparte analizą funkcjonalną in vivo wybranych kandydatów. 2. Znaczenie projektu Długie niekodujące RNA są niezwykle zróżnicowane pod względem sekwencji, struktury drugorzędowej, tkankowej specyficzności, lokalizacji komórkowej czy biogenezy - a co za tym idzie, pełnią różnorodne funkcje i ich badanie jest trudnym zadaniem. Wśród funkcji, z którymi powiązano lncRNA, należy wymienić modulowanie procesu transkrypcji (Kugel and Goodrich, 2012), działanie jako tzw. gąbki mikroRNA (Tay et al., 2014), bezpośrednie oddziaływanie z białkami i modyfikowanie ich funkcji (Yin et al., 2012), tworzenie kompleksów makromolekularnych poprzez interakcje z innymi cząsteczkami (Kugel and Goodrich, 2012) czy pełnienie funkcji cząsteczek sygnałowych (Huang et al., 2013). Jako że uczestniczą w licznych procesach molekularnych, jak również wykazano ich związek z chorobami u człowieka, stanowią interesujący obiekt badań o potencjalnie dużym znaczeniu dla biologii molekularnej, biotechnologii czy medycyny. Szczególnie słabo poznanym aspektem biologii lncRNA jest ich udział w dojrzewaniu transkryptów i regulacji ekspresji genów poprzez wchodzenie w oddziaływania z komplementarną cząsteczką RNA. W tym układzie lncRNA mogłyby uczestniczyć w takich procesach, jak (i) regulacja splicingu poprzez maskowanie sygnałów splicingowych (Beltran et al., 2008), (ii) edytowanie RNA (Kawahara et al., 2007), (iii) Staufen-mediated decay (SMD), będący szlakiem degradacji RNA u ssaków (Gong and Maquat, 2011), (iv) regulacja translacji w sposób zależny od elementu powtarzalnego SINEB2 (Carrieri et al., 2012), (v) maskowanie miejsc wiązania mikroRNA (Faghihi et al., 2008). Zostały one schematycznie przedstawione na Rys. 1. Badanie funkcji lncRNA w kontekście tych mechanizmów, jak zakłada projekt, będzie szansą na funkcjonalnie scharakteryzowanie wielu z nich. Przyczyni się to do lepszego poznania mechanizmów regulatorowych ekspresji genów i dywersyfikacji transkryptomów i proteomów u Eukaryota, tym bardziej, że nacisk położony będzie na role tych cząsteczek w modulowaniu splicingu i miRNA-zależnej regulacji genów. Jako że podobne analizy nie były jeszcze przeprowadzone, ich wykonanie z zastosowanie najnowszych technologii i algorytmów, w dużej skali (setki bibliotek RNA-Seq, kilkanaście gatunków) powinno zagwarantować uzyskanie wyników o dużym znaczeniu naukowym. Dodatkowo, w ramach projektu opracowane zostaną nowe metody i narzędzia, a także internetowe bazy danych, udostępniające w przystępny sposób wyniki wielkoskalowych analiz. Rys. 1 Schematyczna reprezentacja procesów z komplementarną cząsteczką RNA. molekularnych z udziałem lncRNA tworzących sparowania Niewątpliwą zaletą niniejszego projektu jest uwzględnienie ulegających ekspresji i niekodujących białka retrokopii. Dotychczasowe analizy i repozytoria lncRNA pomijają te cząsteczki, uznając je za tzw. pseudogeny, niefunkcjonalne elementy genomu, podczas gdy spełniają one kryteria klasyfikacji jako lncRNA, a w dodatku niejednokrotnie pełnią ważne funkcje molekularne (np. Johnsson et al., 2013). Nie bez znaczenie jest też fakt, że retrokopie są istotnym źródłem nowych genów i w znacznym stopniu kształtują plastyczność genomów. Co więcej, retrokopie są liczebną klasą genów i w bazie RetrogeneDB (Kabza et al., 2014), zbudowanej w grupie kandydata, znajduje się 84808 retrokopii wykrytych u 62 gatunków zwierząt, w tym niemal tysiąc takich retrokopii u człowieka, które ulegają ekspresji i nie kodują białka. 3. Koncepcja i plan badań Cztery najważniejsze zadania, które zostaną wykonane w ramach projektu, rysują się następująco: 1. Identyfikacja sparowań RNA:RNA Każde takie oddziaływanie musi zostać zbadane dwuetapowo. W pierwszej kolejności przewidywane będą struktury drugorzędowe oraz prawdopodobieństwa dla poszczególnych regionów cząsteczek, że pozostają one jednoniciowe, a więc mogą parować się z innymi RNA. Następnie obliczana będzie energia i prawdopodobieństwo oddziaływania z badaną cząsteczką RNA. Zadanie to jest stosunkowo kosztowne obliczeniowo, gdyż możliwych jest wiele miliardów oddziaływań RNA:RNA w transkryptomie pojedynczego gatunku, zaś rozmiar niektórych cząsteczek sięga tysięcy nukleotydów, co dodatkowo zwiększa kosztowność obliczeniową. Dlatego kandydat opracował algorytm, oparty na przeszukiwaniu odpowiednio zmodyfikowanych cząsteczek programem BLAST, pozwalający zmniejszyć przestrzeń poszukiwań 240 razy, czyniąc obliczenia wykonalne w ciągu kilku dni na pojedynczym procesorze. Oprócz wyżej wspomnianych oddziaływań w trans, identyfikowane będą sparowania w cis, występujące między transkryptami pochodzącymi z loci nakładających sie w genomie; ich identyfikacja będzie łatwym zadaniem, polegającym na analizie porównawczej zestawów koordynat genomowych. 2. Analiza zidentyfikowanych oddziaływań i badanie funkcji lncRNA Oddziaływanie między dwoma cząsteczkami jest możliwe tylko, jeśli obie ulegają ekspresji w tym samym przedziale komórkowym. Ważna jest również stechiometria oddziaływania, tzn. zasadniczo lncRNA powinno wykazywać poziom ekspresji tego samego rzędu co druga cząsteczka RNA lub wyższy, aby mógł być zaobserwowany efekt regulatorowy. Dlatego kluczowe znaczenie będzie miała tutaj analiza kilkuset bibliotek RNA-Seq dostępnych w publicznych bazach danych. Dodatkowe analizy, w tym analiza struktur drugorzędowych, elementów powtarzalnych, sygnałów splicingowych, miejsc wiązania miRNA czy konserwacji pozwolą lepiej scharakteryzować lncRNA oraz pomogą wyselekcjonować najciekawsze z biologicznego punktu widzenia lncRNA do testów laboratoryjnych. 3. Testy laboratoryjne Badanie in vivo funkcji wybranych lncRNA odbywać sie będzie z wykorzystaniem wektorów ekspresyjnych, wywołujących w transfekowanej linii komórkowej nadekspresję lncRNA. Taki układ eksperymentalny będzie wykorzystany w dwóch wersjach, do zbadania odpowiednio lncRNA biorących udział w regulacji splicingu oraz lncRNA maskujących miejsca wiązania miRNA i przez to znoszących ich funkcje. 4. Internetowe bazy danych W ramach projektu zbudowane zostaną dwie internetowe bazy danych. Pierwsza baza danych będzie skoncentrowana na potencjalnych funkcjach komórkowych lncRNA, pełnionych w kontekście sparowań z innymi cząsteczkami RNA. Druga zaś będzie kolekcjonowała wyniki analiz RNA-Seq przeprowadzonych w ramach projektu i będzie obejmować informacje o poziomie ekspresji w poszczególnych tkankach, liniach komórkowych i stanach, informację o ekspresji różnicowej oraz dane na temat alternatywnych zdarzeń splicingowych. 4. Metodyka badań Poznanie potencjalnych funkcji lncRNA w kontekście pięciu wyżej wspomnianych mechanizmów będzie wymagało wielkoskalowych analiz z użyciem szybkich, nowoczesnych algorytmów oraz wszechstronnego wykorzystania wyników sekwencjonowania nowej generacji, w szczególności RNA-Seq. Pierwszym etapem będzie tutaj identyfikacja możliwych oddziaływań lncRNA z innymi cząsteczkami RNA, zarówno w cis, jak również w trans. Analiza ta będzie wykonana z wykorzystaniem dostępnego oprogramowania (głównie RNAup, Lorenz et al., 2011) oraz metody opracowanej przez kandydata, pozwalającej na zmniejszenie przestrzeni poszukiwań, a przez to znacząco skracającej czas analizy. Następnie etapy projektu dotyczą zbadania, z którymi mechanizmami (Rys. 1) można powiązać znalezione oddziaływania. W tym celu przeprowadzony zostanie szereg analiz bioinformatycznych, wliczając (wybrane pozycje): i. ii. iii. iv. analizę ekspresji i zdarzeń splicingowych Przeprowadzona zostanie analiza danych RNA-Seq, dostępnych m.in. ze strony internetowej projektu ENCODE (ENCODE Project Consortium, 2004), gdzie gromadzone są wyniki sekwencjonowania transkryptomów z różnych przedziałów komórkowych, z szeregu tkanek i linii komórkowych. Analiza splicingu, również z wykorzystaniem danych RNA-Seq, pozwoli stwierdzić czy zidentyfikowane oddziaływanie RNA:RNA jest znoszone poprzez alternatywne zdarzenia splicingowe, dotyczące np. wycięcia alternatywnego egzonu, pełniącego kluczową rolę w interakcji. identyfikację sygnałów splicingowych Znalezienie lncRNA mogących regulować zdarzenia splicingowe będzie wymagało identyfikacji sygnałów splicingowych w cząsteczce pre-mRNA. Ponieważ nie istnieją obecnie wysokiej jakości bazy danych sygnałów splicingowych ani nowoczesne i efektywne narzędzia pozwalające na ich identyfikację, kandydat stworzył odpowiednie narzędzia, których algorytm uwzglednia najnowszą wiedzę i wnioski z danych eksperymentalnych. Dodatkowo, z bazy danych StarBase 2.0 (Li et al., 2014) pobrane zostaną informacje o miejscach oddziaływania czternastu czynników splicingowych z pre-mRNA, odkryte dzięki eksperymentom CLIP; miejsca te stanowią cenną wskazówkę na temat regionów ważnych w procesie splicingu, niemniej jednak tego typu dane dostępne są tylko dla człowieka i myszy. identyfikację elementów powtarzalnych. Dwa mechanizmy, SMD oraz regulacja translacji z udziałem elementu SINEB2 wymagają występowania elementów powtarzalnych w odpowiedniej orientacji względem regionu kodującego w cząsteczce mRNA. Identyfikacja elementów powtarzalnych wykonana bedzie programem RepeatMasker (Tempel, 2012) Identyfikacja miejsc edytowania RNA Istniejące bazy danych zjawisk edytowania, np. RADAR (Ramaswami i Li, 2014), kolekcjonują dane dla wąskiej grupy organizmów modelowych, wliczając dwa gatunki ssaków - człowieka i mysz. Dlatego konieczne będzie przeprowadzenie analiz de novo dla innych gatunków de novo z wykorzystaniem danych RNA-Seq i DNA-Seq, dostępnych w bazach danych Sequence Read Archive (Kodama et al., 2012) oraz European Nucleotide Database (Silvester et al., 2014). Analiza ta, ze względu na dostępność danych, ograniczona będzie do kilku organizmów modelowych. Te i inne analizy pozwolą na znalezienie licznych lncRNA pełniących potencjalne funkcje regulatorowe w układzie z komplementarną cząsteczką RNA. Najciekawsze z biologicznego punktu widzenia oddziaływania zostaną zbadane eksperymentalnie. Wybór będzie poprzedzony analizą ekspresji, konserwacji oraz energii oddziaływania między cząsteczkami RNA, w szczególności pod uwagę wzięte będą te lncRNA, które ulegają ekspresji różnicowej w różnych tkankach i stanach chorobowych. Nacisk będzie tutaj położony na te lncRNA, których funkcje wiążą się z maskowaniem miejsc splicingowych bądź miejsc wiązania mikroRNA. W tym celu zbudowane zostaną odpowiednie wektory ekspresyjne, którymi będzie transferowana badana linia komórkowa. W pierwszym przypadku obserwowany będzie wpływ nadekspresji lncRNA na splicing regulowanego pre-mRNA. W drugim, oprócz wektora pozwalającego uzyskać nadekspresję lncRNA, będzie użyty wektor zawierający otwartą ramkę odczytu lucyferazy oraz położone poniżej miejsce wiązania dla mikroRNA. Jeśli lncRNA maskuje miejsce wiązania mikroRNA, zniesiona zostanie regulacja przez to małe RNA i obserwowana będzie aktywność białka lucyferazy. 5. Literatura Beltran M, Puig I, Peña C et al. (2008) A natural antisense transcript regulates Zeb2/Sip1 gene expression during Snail1-induced epithelial-mesenchymal transition. Genes Dev., 22(6):756-69. Carrieri C, Cimatti L, Biagioli M et al. (2012) Long non-coding antisense RNA controls Uchl1 translation through an embedded SINEB2 repeat. Nature, 491(7424):454-7. Cunningham F, Amode MR, Barrell D et al. (2014) Ensembl 2015. Nucleic Acids Res., 2014 Oct 28. pii: gku1010. ENCODE Project Consortium (2004)The ENCODE (ENCyclopedia Of DNA Elements) Project. Science, 306(5696):636-40. Faghihi MA, Modarresi F, Khalil AM et al. (2008) Expression of a noncoding RNA is elevated in Alzheimer's disease and drives rapid feed-forward regulation of beta-secretase. Nat Med., 14(7):723-30. Gong C, Maquat LE (2011) lncRNAs transactivate STAU1-mediated mRNA decay by duplexing with 3' UTRs via Alu elements. Nature, 470(7333):284-8. Huang X, Yuan T, Tschannen M et al. (2013) Characterization of human plasma-derived exosomal RNAs by deep sequencing. BMC Genomics, 14:319. Johnsson P, Ackley A, Vidarsdottir L (2013) A pseudogene long-noncoding-RNA network regulates PTEN transcription and translation in human cells. Nat Struct Mol Biol., 20(4):440-6. Kabza M, Ciomborowska J, Makałowska I (2014) RetrogeneDB--a database of animal retrogenes. Mol Biol Evol., 31(7):1646-8. Kawahara Y, Zinshteyn B, Sethupathy P et al. (2007) Redirection of silencing targets by adenosine-toinosine editing of miRNAs. Science, 315(5815):1137-40. Kodama Y, Shumway M, Leinonen R et al. (2012)The Sequence Read Archive: explosive growth of sequencing data. Nucleic Acids Res., 40:D54-6. Kugel JF, Goodrich JA (2012) Non-coding RNAs: key regulators of mammalian transcription. Trends Biochem Sci., 37(4):144-51. Li JH, Liu S, Zhou H (2014) starBase v2.0: decoding miRNA-ceRNA, miRNA-ncRNA and protein-RNA interaction networks from large-scale CLIP-Seq data. Nucleic Acids Res., 42:D92-7. Lorenz R, Bernhart SH, Hoener zu Siederdissen C et al. (2011) ViennaRNA Package 2.0. Algorithms for Molecular Biology: 6:26. Ramaswami G, Li JB (2014) RADAR: a rigorously annotated database of A-to-I RNA editing. Nucleic Acids Res., 42:D109-13. Silvester N, Alako B, Amid C et al. (2014) Content discovery and retrieval services at the European Nucleotide Archive. Nucleic Acids Res., 2014 Nov 17. pii: gku1129. Tay Y, Rinn J, Pandolfi PP (2014) The multilayered complexity of ceRNA crosstalk and competition. Nature, 505(7483):344-52. Tempel S (2012) Using and understanding RepeatMasker. Methods Mol Biol., 859:29-51. Xie C, Yuan J, Li H et al. (2014) NONCODEv4: exploring the world of long non-coding RNA genes. Nucleic Acids Res., 42:D98-103. Yin QF, Yang L, Zhang Y et al. (2012) Long noncoding RNAs with snoRNA ends. Mol Cell, 48(2):21930.