Zastosowania informatyki w biologii obliczeniowej.

Transkrypt

Zastosowania informatyki w biologii obliczeniowej.
Bartłomiej Niemienionek 69988
Artur Wojciechowski 66325
Zastosowania informatyki w biologii obliczeniowej.
1. Treść zadania.
Rozpoznawanie genów aktywowanych w tym samym czasie.
2. Budowa genu.
Aby zająć sią zagadnieniem aktywacji genów należy poznać ich budowę. Fragmenty
składające się na gen można podzielić na dwie grupy i tak można wyróżnić część
podlegająca transkrypcji składającą się z sekwencji kodujących (egzonów) i niekodujących
(intronów) oraz z części nie podlegającej transkrypcji, w której skład wchodzą sekwencja
promotorowa oraz sekwencje regulatorowe (które mogą znajdować się w części
promotorowej - u organizmów prokariotycznych lub w znacznym oddaleniu o tej części – u
organizmów eukariotycznych) na końcu 5' oraz terminator na końcu 3'.
5'
UTR
sekwencja
niekodująca
egzon
intron
egzon
sekwencja kodująca
ORF – otwarta ramka odczytu
intron
egzon
UTR
3'
sekwencja
niekodująca
3. Sekwencje promotorowa i regulatorowe.
Obszar promotorowy genu znajduje się na jego 5' końcu i zawiera kilka istotnych
rejonów rozpoznawanych przez polimerazę II RNA (najbliżej miejsca startu
transkrypcji ) oraz czynniki transkrypcyjne. Spośród wspomnianych rejonów
najistotniejszym i najbardziej powszechnym (nie występuje zawsze) jest kaseta TATA (tzw.
TATA-box). Jest to sekwencja położona w odległości ok. 25 par zasad od miejsca startu
transkrypcji, która w pełni prezentuje się następująco: 5'- TATAAAA -3'. Obecność kasety
TATA, choć niezbędna w przypadku prawie wszystkich genów; nie jest wystarczająca, aby z
promotora „ruszyła” transkrypcja. Do pełnej aktywności promotora niezbędne są inne
sekwencje występujące w rejonie od -110 do -40 i większych (odległość podana w liczbie
nukleotydów na lewo od miejsca startu transkrypcji). Kaseta TATA stanowi tzw. część
rdzeniową promotora. Ponadto promotory genów zawierają inne - nie tak powszechne sekwencje, które odgrywają znaczącą rolę w poszczególnych tkankach zaopatrzonych w
białka rozpoznające owe sekwencje.
Sekwencje regulatorowe można podzielić na enhancery i silencery.
Enhancery - obecne są w każdej komórce natomiast tylko w niektórych wykazują
aktywność wzmacniającą. Jest to znaczący fakt w regulacji ekspresji informacji genetycznej,
a bierze się on z różnic w składzie białek komórkowych poszczególnych tkanek. Położone
mogą być nawet w znacznej odległości od genu i zachowują zdolność regulacyjną także po
eksperymentalnej zmianie orientacji o 180 względem genu. Możliwość oddziaływań
enhancer-promotor mimo odległości pomiędzy nimi wynoszącej niekiedy kilka tys. par
zasad istnieje dzięki dużej elastyczności nici DNA. Owa elastyczność objawia się
zdolnością DNA do dowolnego wyginania się.
Silencery - ( ang. silence - cisza ), sekwencje służące wyciszeniu aktywności
promotora; podobnie jak enhancery mogą być w różnym stopniu oddalone od genu w obu
kierunkach, a także występować w jego wnętrzu.
4. Rozwiązanie.
Ze względu na nieistnienie jednoznacznych sekwencji promotorowych, oraz
działanie fragmentów regulatorowych jednoznaczne wykrycie genów aktywowanych w tym
samym czasie jest dość trudne.
Rozwiązując ten problem postanowiono skoncentrować się na porównywaniu
sekwencji poprzedzających gen (o długości 1000 par zasad). Jednak, ze względu na brak
jednoznacznej miary określającej stopień podobieństwa dwóch sekwencji genetycznych, nie
udało się wygenerować pojedynczej wartości określającej prawdopodobieństwo że badane
geny będą aktywowane w tym samym czasie. Postanowiono dostarczyć, osobie
porównującej sekwencje (często niezbędna jest subiektywna ocena specjalisty), zbiór
wartości które ułatwią podjęcie decyzji.
Program pozwala na obliczenie następujących wartości:
I. Wykorzystując algorytm Needelmana-Wunsh'a, opierający się na programowaniu
dynamicznym, wyznaczono wartość podobieństwa globalnego porównywanych
sekwencji s i t – sim(s,t) – similarity. Im większa wartość sim(s,t) tym większe
podobieństwo sekwencji.
II. Wartość równa liczbie wystąpień szóstek (domyślnie, wartość może zostać zmieniona
przez użytkownika) ze wzorca (branych kolejno z przesunięciem 1) w porównywanej
sekwencji.
III. Wartość równa liczbie wszystkich szóstek (domyślnie, wartość może zostać zmieniona
przez użytkownika) ze wzorca (branych kolejno z przesunięciem 1) pomniejszonej o
sumę różnic liczby wystąpień dla każdej unikalnej szóstki (domyślnie, wartość może
zostać zmieniona przez użytkownika) ze wzorca z liczbą wystąpień tej szóstki
(domyślnie, wartość może zostać zmieniona przez użytkownika) w porównywanej
sekwencji.
IV. Modyfikacja algorytmu similarity (Needelmana-Wunsh'a) w tym przypadku zamiast
porównywania pojedynczych zasad porównuje się fragmenty o określonym rozmiarze
(podanym przez użytkownika – domyślnie „6”)
V. UNDER CONSTRUCTION :P
Dodatkowo istnieje możliwość wizualizacji odwzorowania sekwencji wejściowej w
sekwencję porównywaną tzn. zobrazowane zostało wzajemne położenie fragmentów z
jednej sekwencji z ich odpowiednikami w drugiej.