Kandydat będzie odpowiedzialny za realizację wybranych

Transkrypt

Kandydat będzie odpowiedzialny za realizację wybranych
Kandydat będzie odpowiedzialny za realizację wybranych zagadnień z poniższego opisu.
Funkcje regulatorowe długich niekodujących RNA w kontekście oddziaływań RNA:RNA
1. Cel naukowy projektu
Długie niekodujące RNA (lncRNA, ang. long non-coding RNA) stanowią u roślin i zwierząt
niezwykle liczną klasę transkryptów, których wspólną cechą jest brak zdolności do kodowania
białka oraz długość przekraczająca arbitralnie przyjętą granicę 200 nukleotydów. U człowieka
odkryto 145331 tych cząsteczek (NONCODE v4, Xie et al., 2014), wobec 21995 transkryptów
kodujących białka (ENSEMBL 77, Cunningham et al., 2014). Dotychczas udało się funkcjonalnie
scharakteryzować zaledwie 1% tych cząsteczek, a zatem istnieje pilna potrzeba poszerzenie
naszej wiedzy na temat pełnionych przez nie funkcji komórkowych. Ponieważ szczególnie słabo
poznanym aspektem biologii lncRNA są ich funkcje związane z tworzeniem bezpośrednich
oddziaływań z innymi cząsteczkami RNA, stanowi to obiecujący kierunek badań, tym bardziej że
możliwych jest tysiące interakcji w cis (lncRNA nakładające się z innymi genami w genomie)
oraz dziesiątki tysięcy interakcji w trans. Dlatego głównym celem projektu jest zbadanie
funkcji lncRNA pełnionych w sparowaniu z innymi cząsteczkami RNA. Po raz pierwszy to
zagadnienie będzie przedmiotem wszechstronnych, wielkoskalowych analiz bioinformatycznych,
które zostaną dodatkowo wsparte analizą funkcjonalną in vivo wybranych kandydatów.
2. Znaczenie projektu
Długie niekodujące RNA są niezwykle zróżnicowane pod względem sekwencji, struktury
drugorzędowej, tkankowej specyficzności, lokalizacji komórkowej czy biogenezy - a co za tym
idzie, pełnią różnorodne funkcje i ich badanie jest trudnym zadaniem. Wśród funkcji, z którymi
powiązano lncRNA, należy wymienić modulowanie procesu transkrypcji (Kugel and Goodrich,
2012), działanie jako tzw. gąbki mikroRNA (Tay et al., 2014), bezpośrednie oddziaływanie
z białkami i modyfikowanie ich funkcji (Yin et al., 2012), tworzenie kompleksów
makromolekularnych poprzez interakcje z innymi cząsteczkami (Kugel and Goodrich, 2012) czy
pełnienie funkcji cząsteczek sygnałowych (Huang et al., 2013). Jako że uczestniczą w licznych
procesach molekularnych, jak również wykazano ich związek z chorobami u człowieka, stanowią
interesujący obiekt badań o potencjalnie dużym znaczeniu dla biologii molekularnej,
biotechnologii czy medycyny.
Szczególnie słabo poznanym aspektem biologii lncRNA jest ich udział w dojrzewaniu
transkryptów i regulacji ekspresji genów poprzez wchodzenie w oddziaływania
z komplementarną cząsteczką RNA. W tym układzie lncRNA mogłyby uczestniczyć w takich
procesach, jak (i) regulacja splicingu poprzez maskowanie sygnałów splicingowych (Beltran et al.,
2008), (ii) edytowanie RNA (Kawahara et al., 2007), (iii) Staufen-mediated decay (SMD), będący
szlakiem degradacji RNA u ssaków (Gong and Maquat, 2011), (iv) regulacja translacji w sposób
zależny od elementu powtarzalnego SINEB2 (Carrieri et al., 2012), (v) maskowanie miejsc
wiązania mikroRNA (Faghihi et al., 2008). Zostały one schematycznie przedstawione na Rys. 1.
Badanie funkcji lncRNA w kontekście tych mechanizmów, jak zakłada projekt, będzie szansą na
funkcjonalnie scharakteryzowanie wielu z nich. Przyczyni się to do lepszego poznania
mechanizmów regulatorowych ekspresji genów i dywersyfikacji transkryptomów i proteomów
u Eukaryota, tym bardziej, że nacisk położony będzie na role tych cząsteczek w modulowaniu
splicingu i miRNA-zależnej regulacji genów. Jako że podobne analizy nie były jeszcze
przeprowadzone, ich wykonanie z zastosowanie najnowszych technologii i algorytmów, w dużej
skali (setki bibliotek RNA-Seq, kilkanaście gatunków) powinno zagwarantować uzyskanie
wyników o dużym znaczeniu naukowym. Dodatkowo, w ramach projektu opracowane zostaną
nowe metody i narzędzia, a także internetowe bazy danych, udostępniające w przystępny sposób
wyniki wielkoskalowych analiz.
Rys. 1
Schematyczna reprezentacja procesów
z komplementarną cząsteczką RNA.
molekularnych
z
udziałem
lncRNA
tworzących
sparowania
Niewątpliwą zaletą niniejszego projektu jest uwzględnienie ulegających ekspresji
i niekodujących białka retrokopii. Dotychczasowe analizy i repozytoria lncRNA pomijają te
cząsteczki, uznając je za tzw. pseudogeny, niefunkcjonalne elementy genomu, podczas gdy
spełniają one kryteria klasyfikacji jako lncRNA, a w dodatku niejednokrotnie pełnią ważne
funkcje molekularne (np. Johnsson et al., 2013). Nie bez znaczenie jest też fakt, że retrokopie są
istotnym źródłem nowych genów i w znacznym stopniu kształtują plastyczność genomów. Co
więcej, retrokopie są liczebną klasą genów i w bazie RetrogeneDB (Kabza et al., 2014),
zbudowanej w grupie kandydata, znajduje się 84808 retrokopii wykrytych u 62 gatunków
zwierząt, w tym niemal tysiąc takich retrokopii u człowieka, które ulegają ekspresji i nie kodują
białka.
3. Koncepcja i plan badań
Cztery najważniejsze zadania, które zostaną wykonane w ramach projektu, rysują się następująco:
1. Identyfikacja sparowań RNA:RNA
Każde takie oddziaływanie musi zostać zbadane dwuetapowo. W pierwszej kolejności
przewidywane będą struktury drugorzędowe oraz prawdopodobieństwa dla poszczególnych
regionów cząsteczek, że pozostają one jednoniciowe, a więc mogą parować się z innymi RNA.
Następnie obliczana będzie energia i prawdopodobieństwo oddziaływania z badaną cząsteczką
RNA. Zadanie to jest stosunkowo kosztowne obliczeniowo, gdyż możliwych jest wiele
miliardów oddziaływań RNA:RNA w transkryptomie pojedynczego gatunku, zaś rozmiar
niektórych cząsteczek sięga tysięcy nukleotydów, co dodatkowo zwiększa kosztowność
obliczeniową. Dlatego kandydat opracował algorytm, oparty na przeszukiwaniu odpowiednio
zmodyfikowanych cząsteczek programem BLAST, pozwalający zmniejszyć przestrzeń
poszukiwań 240 razy, czyniąc obliczenia wykonalne w ciągu kilku dni na pojedynczym
procesorze. Oprócz wyżej wspomnianych oddziaływań w trans, identyfikowane będą sparowania
w cis, występujące między transkryptami pochodzącymi z loci nakładających sie w genomie; ich
identyfikacja będzie łatwym zadaniem, polegającym na analizie porównawczej zestawów
koordynat genomowych.
2. Analiza zidentyfikowanych oddziaływań i badanie funkcji lncRNA
Oddziaływanie między dwoma cząsteczkami jest możliwe tylko, jeśli obie ulegają ekspresji
w tym samym przedziale komórkowym. Ważna jest również stechiometria oddziaływania, tzn.
zasadniczo lncRNA powinno wykazywać poziom ekspresji tego samego rzędu co druga
cząsteczka RNA lub wyższy, aby mógł być zaobserwowany efekt regulatorowy. Dlatego
kluczowe znaczenie będzie miała tutaj analiza kilkuset bibliotek RNA-Seq dostępnych
w publicznych bazach danych. Dodatkowe analizy, w tym analiza struktur drugorzędowych,
elementów powtarzalnych, sygnałów splicingowych, miejsc wiązania miRNA czy konserwacji
pozwolą lepiej scharakteryzować lncRNA oraz pomogą wyselekcjonować najciekawsze
z biologicznego punktu widzenia lncRNA do testów laboratoryjnych.
3. Testy laboratoryjne
Badanie in vivo funkcji wybranych lncRNA odbywać sie będzie z wykorzystaniem wektorów
ekspresyjnych, wywołujących w transfekowanej linii komórkowej nadekspresję lncRNA. Taki
układ eksperymentalny będzie wykorzystany w dwóch wersjach, do zbadania odpowiednio
lncRNA biorących udział w regulacji splicingu oraz lncRNA maskujących miejsca wiązania
miRNA i przez to znoszących ich funkcje.
4. Internetowe bazy danych
W ramach projektu zbudowane zostaną dwie internetowe bazy danych. Pierwsza baza danych
będzie skoncentrowana na potencjalnych funkcjach komórkowych lncRNA, pełnionych
w kontekście sparowań z innymi cząsteczkami RNA. Druga zaś będzie kolekcjonowała wyniki
analiz RNA-Seq przeprowadzonych w ramach projektu i będzie obejmować informacje
o poziomie ekspresji w poszczególnych tkankach, liniach komórkowych i stanach, informację
o ekspresji różnicowej oraz dane na temat alternatywnych zdarzeń splicingowych.
4. Metodyka badań
Poznanie potencjalnych funkcji lncRNA w kontekście pięciu wyżej wspomnianych
mechanizmów będzie wymagało wielkoskalowych analiz z użyciem szybkich, nowoczesnych
algorytmów oraz wszechstronnego wykorzystania wyników sekwencjonowania nowej generacji,
w szczególności RNA-Seq. Pierwszym etapem będzie tutaj identyfikacja możliwych oddziaływań
lncRNA z innymi cząsteczkami RNA, zarówno w cis, jak również w trans. Analiza ta będzie
wykonana z wykorzystaniem dostępnego oprogramowania (głównie RNAup, Lorenz et al., 2011)
oraz metody opracowanej przez kandydata, pozwalającej na zmniejszenie przestrzeni
poszukiwań, a przez to znacząco skracającej czas analizy.
Następnie etapy projektu dotyczą zbadania, z którymi mechanizmami (Rys. 1) można powiązać
znalezione oddziaływania. W tym celu przeprowadzony zostanie szereg analiz
bioinformatycznych, wliczając (wybrane pozycje):
i.
ii.
iii.
iv.
analizę ekspresji i zdarzeń splicingowych
Przeprowadzona zostanie analiza danych RNA-Seq, dostępnych m.in. ze strony
internetowej projektu ENCODE (ENCODE Project Consortium, 2004), gdzie gromadzone są
wyniki sekwencjonowania transkryptomów z różnych przedziałów komórkowych,
z szeregu tkanek i linii komórkowych. Analiza splicingu, również z wykorzystaniem
danych RNA-Seq, pozwoli stwierdzić czy zidentyfikowane oddziaływanie RNA:RNA jest
znoszone poprzez alternatywne zdarzenia splicingowe, dotyczące np. wycięcia
alternatywnego egzonu, pełniącego kluczową rolę w interakcji.
identyfikację sygnałów splicingowych
Znalezienie lncRNA mogących regulować zdarzenia splicingowe będzie wymagało
identyfikacji sygnałów splicingowych w cząsteczce pre-mRNA. Ponieważ nie istnieją
obecnie wysokiej jakości bazy danych sygnałów splicingowych ani nowoczesne
i efektywne narzędzia pozwalające na ich identyfikację, kandydat stworzył odpowiednie
narzędzia, których algorytm uwzglednia najnowszą wiedzę i wnioski z danych
eksperymentalnych. Dodatkowo, z bazy danych StarBase 2.0 (Li et al., 2014) pobrane
zostaną informacje o miejscach oddziaływania czternastu czynników splicingowych
z pre-mRNA, odkryte dzięki eksperymentom CLIP; miejsca te stanowią cenną
wskazówkę na temat regionów ważnych w procesie splicingu, niemniej jednak tego typu
dane dostępne są tylko dla człowieka i myszy.
identyfikację elementów powtarzalnych.
Dwa mechanizmy, SMD oraz regulacja translacji z udziałem elementu SINEB2
wymagają występowania elementów powtarzalnych w odpowiedniej orientacji względem
regionu kodującego w cząsteczce mRNA. Identyfikacja elementów powtarzalnych
wykonana bedzie programem RepeatMasker (Tempel, 2012)
Identyfikacja miejsc edytowania RNA
Istniejące bazy danych zjawisk edytowania, np. RADAR (Ramaswami i Li, 2014),
kolekcjonują dane dla wąskiej grupy organizmów modelowych, wliczając dwa gatunki
ssaków - człowieka i mysz. Dlatego konieczne będzie przeprowadzenie analiz de novo dla
innych gatunków de novo z wykorzystaniem danych RNA-Seq i DNA-Seq, dostępnych
w bazach danych Sequence Read Archive (Kodama et al., 2012) oraz European
Nucleotide Database (Silvester et al., 2014). Analiza ta, ze względu na dostępność danych,
ograniczona będzie do kilku organizmów modelowych.
Te i inne analizy pozwolą na znalezienie licznych lncRNA pełniących potencjalne funkcje
regulatorowe w układzie z komplementarną cząsteczką RNA. Najciekawsze z biologicznego
punktu widzenia oddziaływania zostaną zbadane eksperymentalnie. Wybór będzie poprzedzony
analizą ekspresji, konserwacji oraz energii oddziaływania między cząsteczkami RNA,
w szczególności pod uwagę wzięte będą te lncRNA, które ulegają ekspresji różnicowej
w różnych tkankach i stanach chorobowych. Nacisk będzie tutaj położony na te lncRNA, których
funkcje wiążą się z maskowaniem miejsc splicingowych bądź miejsc wiązania mikroRNA.
W tym celu zbudowane zostaną odpowiednie wektory ekspresyjne, którymi będzie transferowana
badana linia komórkowa. W pierwszym przypadku obserwowany będzie wpływ nadekspresji
lncRNA na splicing regulowanego pre-mRNA. W drugim, oprócz wektora pozwalającego
uzyskać nadekspresję lncRNA, będzie użyty wektor zawierający otwartą ramkę odczytu
lucyferazy oraz położone poniżej miejsce wiązania dla mikroRNA. Jeśli lncRNA maskuje
miejsce wiązania mikroRNA, zniesiona zostanie regulacja przez to małe RNA i obserwowana
będzie aktywność białka lucyferazy.
5. Literatura
Beltran M, Puig I, Peña C et al. (2008) A natural antisense transcript regulates Zeb2/Sip1 gene expression
during Snail1-induced epithelial-mesenchymal transition. Genes Dev., 22(6):756-69.
Carrieri C, Cimatti L, Biagioli M et al. (2012) Long non-coding antisense RNA controls Uchl1 translation
through an embedded SINEB2 repeat. Nature, 491(7424):454-7.
Cunningham F, Amode MR, Barrell D et al. (2014) Ensembl 2015. Nucleic Acids Res., 2014 Oct 28. pii:
gku1010.
ENCODE Project Consortium (2004)The ENCODE (ENCyclopedia Of DNA Elements) Project. Science,
306(5696):636-40.
Faghihi MA, Modarresi F, Khalil AM et al. (2008) Expression of a noncoding RNA is elevated in
Alzheimer's disease and drives rapid feed-forward regulation of beta-secretase. Nat Med., 14(7):723-30.
Gong C, Maquat LE (2011) lncRNAs transactivate STAU1-mediated mRNA decay by duplexing with 3'
UTRs via Alu elements. Nature, 470(7333):284-8.
Huang X, Yuan T, Tschannen M et al. (2013) Characterization of human plasma-derived exosomal RNAs
by deep sequencing. BMC Genomics, 14:319.
Johnsson P, Ackley A, Vidarsdottir L (2013) A pseudogene long-noncoding-RNA network regulates
PTEN transcription and translation in human cells. Nat Struct Mol Biol., 20(4):440-6.
Kabza M, Ciomborowska J, Makałowska I (2014) RetrogeneDB--a database of animal retrogenes. Mol
Biol Evol., 31(7):1646-8.
Kawahara Y, Zinshteyn B, Sethupathy P et al. (2007) Redirection of silencing targets by adenosine-toinosine editing of miRNAs. Science, 315(5815):1137-40.
Kodama Y, Shumway M, Leinonen R et al. (2012)The Sequence Read Archive: explosive growth of
sequencing data. Nucleic Acids Res., 40:D54-6.
Kugel JF, Goodrich JA (2012) Non-coding RNAs: key regulators of mammalian transcription. Trends
Biochem Sci., 37(4):144-51.
Li JH, Liu S, Zhou H (2014) starBase v2.0: decoding miRNA-ceRNA, miRNA-ncRNA and protein-RNA
interaction networks from large-scale CLIP-Seq data. Nucleic Acids Res., 42:D92-7.
Lorenz R, Bernhart SH, Hoener zu Siederdissen C et al. (2011) ViennaRNA Package 2.0. Algorithms for
Molecular Biology: 6:26.
Ramaswami G, Li JB (2014) RADAR: a rigorously annotated database of A-to-I RNA editing. Nucleic
Acids Res., 42:D109-13.
Silvester N, Alako B, Amid C et al. (2014) Content discovery and retrieval services at the European
Nucleotide Archive. Nucleic Acids Res., 2014 Nov 17. pii: gku1129.
Tay Y, Rinn J, Pandolfi PP (2014) The multilayered complexity of ceRNA crosstalk and competition.
Nature, 505(7483):344-52.
Tempel S (2012) Using and understanding RepeatMasker. Methods Mol Biol., 859:29-51.
Xie C, Yuan J, Li H et al. (2014) NONCODEv4: exploring the world of long non-coding RNA genes.
Nucleic Acids Res., 42:D98-103.
Yin QF, Yang L, Zhang Y et al. (2012) Long noncoding RNAs with snoRNA ends. Mol Cell, 48(2):21930.