Zastosowania informatyki w biologii obliczeniowej.
Transkrypt
Zastosowania informatyki w biologii obliczeniowej.
Bartłomiej Niemienionek 69988 Artur Wojciechowski 66325 Zastosowania informatyki w biologii obliczeniowej. 1. Treść zadania. Rozpoznawanie genów aktywowanych w tym samym czasie. 2. Budowa genu. Aby zająć sią zagadnieniem aktywacji genów należy poznać ich budowę. Fragmenty składające się na gen można podzielić na dwie grupy i tak można wyróżnić część podlegająca transkrypcji składającą się z sekwencji kodujących (egzonów) i niekodujących (intronów) oraz z części nie podlegającej transkrypcji, w której skład wchodzą sekwencja promotorowa oraz sekwencje regulatorowe (które mogą znajdować się w części promotorowej - u organizmów prokariotycznych lub w znacznym oddaleniu o tej części – u organizmów eukariotycznych) na końcu 5' oraz terminator na końcu 3'. 5' UTR sekwencja niekodująca egzon intron egzon sekwencja kodująca ORF – otwarta ramka odczytu intron egzon UTR 3' sekwencja niekodująca 3. Sekwencje promotorowa i regulatorowe. Obszar promotorowy genu znajduje się na jego 5' końcu i zawiera kilka istotnych rejonów rozpoznawanych przez polimerazę II RNA (najbliżej miejsca startu transkrypcji ) oraz czynniki transkrypcyjne. Spośród wspomnianych rejonów najistotniejszym i najbardziej powszechnym (nie występuje zawsze) jest kaseta TATA (tzw. TATA-box). Jest to sekwencja położona w odległości ok. 25 par zasad od miejsca startu transkrypcji, która w pełni prezentuje się następująco: 5'- TATAAAA -3'. Obecność kasety TATA, choć niezbędna w przypadku prawie wszystkich genów; nie jest wystarczająca, aby z promotora „ruszyła” transkrypcja. Do pełnej aktywności promotora niezbędne są inne sekwencje występujące w rejonie od -110 do -40 i większych (odległość podana w liczbie nukleotydów na lewo od miejsca startu transkrypcji). Kaseta TATA stanowi tzw. część rdzeniową promotora. Ponadto promotory genów zawierają inne - nie tak powszechne sekwencje, które odgrywają znaczącą rolę w poszczególnych tkankach zaopatrzonych w białka rozpoznające owe sekwencje. Sekwencje regulatorowe można podzielić na enhancery i silencery. Enhancery - obecne są w każdej komórce natomiast tylko w niektórych wykazują aktywność wzmacniającą. Jest to znaczący fakt w regulacji ekspresji informacji genetycznej, a bierze się on z różnic w składzie białek komórkowych poszczególnych tkanek. Położone mogą być nawet w znacznej odległości od genu i zachowują zdolność regulacyjną także po eksperymentalnej zmianie orientacji o 180 względem genu. Możliwość oddziaływań enhancer-promotor mimo odległości pomiędzy nimi wynoszącej niekiedy kilka tys. par zasad istnieje dzięki dużej elastyczności nici DNA. Owa elastyczność objawia się zdolnością DNA do dowolnego wyginania się. Silencery - ( ang. silence - cisza ), sekwencje służące wyciszeniu aktywności promotora; podobnie jak enhancery mogą być w różnym stopniu oddalone od genu w obu kierunkach, a także występować w jego wnętrzu. 4. Rozwiązanie. Ze względu na nieistnienie jednoznacznych sekwencji promotorowych, oraz działanie fragmentów regulatorowych jednoznaczne wykrycie genów aktywowanych w tym samym czasie jest dość trudne. Rozwiązując ten problem postanowiono skoncentrować się na porównywaniu sekwencji poprzedzających gen (o długości 1000 par zasad). Jednak, ze względu na brak jednoznacznej miary określającej stopień podobieństwa dwóch sekwencji genetycznych, nie udało się wygenerować pojedynczej wartości określającej prawdopodobieństwo że badane geny będą aktywowane w tym samym czasie. Postanowiono dostarczyć, osobie porównującej sekwencje (często niezbędna jest subiektywna ocena specjalisty), zbiór wartości które ułatwią podjęcie decyzji. Program pozwala na obliczenie następujących wartości: I. Wykorzystując algorytm Needelmana-Wunsh'a, opierający się na programowaniu dynamicznym, wyznaczono wartość podobieństwa globalnego porównywanych sekwencji s i t – sim(s,t) – similarity. Im większa wartość sim(s,t) tym większe podobieństwo sekwencji. II. Wartość równa liczbie wystąpień szóstek (domyślnie, wartość może zostać zmieniona przez użytkownika) ze wzorca (branych kolejno z przesunięciem 1) w porównywanej sekwencji. III. Wartość równa liczbie wszystkich szóstek (domyślnie, wartość może zostać zmieniona przez użytkownika) ze wzorca (branych kolejno z przesunięciem 1) pomniejszonej o sumę różnic liczby wystąpień dla każdej unikalnej szóstki (domyślnie, wartość może zostać zmieniona przez użytkownika) ze wzorca z liczbą wystąpień tej szóstki (domyślnie, wartość może zostać zmieniona przez użytkownika) w porównywanej sekwencji. IV. Modyfikacja algorytmu similarity (Needelmana-Wunsh'a) w tym przypadku zamiast porównywania pojedynczych zasad porównuje się fragmenty o określonym rozmiarze (podanym przez użytkownika – domyślnie „6”) V. UNDER CONSTRUCTION :P Dodatkowo istnieje możliwość wizualizacji odwzorowania sekwencji wejściowej w sekwencję porównywaną tzn. zobrazowane zostało wzajemne położenie fragmentów z jednej sekwencji z ich odpowiednikami w drugiej.