Natalia Gizińska GL 1 Biologia eksperymentalna 2014/2015 PDB

Transkrypt

Natalia Gizińska GL 1 Biologia eksperymentalna 2014/2015 PDB
Natalia Gizińska GL 1
Biologia eksperymentalna 2014/2015
PDB DB
W bioinformatyce wykorzystuje się wiele baz w zależności do czego maja nam posłużyć. Do
zadania wykorzystamy bazę Protein Data Bank.
1. Zapoznaj się z bazą danych PDB (protein data bank, http://www.rcsb.org). Przedstaw w skrócie
jakie informacje możemy znaleźć w tej bazie danych.
2. Jakie metody eksperymentalne zostały wykorzystane to otrzymania zdeponowanych struktur?
3. Ile jest zdeponowanych struktur w tej bazie danych?
4. Zapoznaj się z zakładką wyszukiwania zaawansowanego.
a) Ile w tej bazie danych znajduje się struktur RNA?
b) Ile w tej bazie danych znajduje się struktur białkowych zbadanych metodą NMR,
zdeponowanych po roku 2012?
5.Poszukaj w bazie danych białko o PDBID: 4BF9. Z jakiego organizmu pochodzi to białko?
6. Czy białko posiada ligand a jeżeli tak to jaki?
7. W jakich formatach plików możemy pobrać informacje o tym białku?
8. Pobierz informację o tym białku w formacie pdb, i zapoznaj się z strukturą pliku. Podpowiedzi
szukaj na: http://www.wwpdb.org/ . Jakie głównie informację przechowywane są w tym formacie?
BLAST
Blast jest to narzędzie do poszukiwania struktur o podobnych sekwencjach do wybranej przez nas
na podstawie algorytmu dopasowania lokalnego.
9. Jakie struktury możemy porównywać za pomocą tego programu?
10. Za pomocą internetowego programu BLAST http://blast.ncbi.nlm.nih.gov/Blast.cgi
sprawdź białko z poprzedniego ćwiczenia (przydatne może się okazać pobranie informacji o tym
białku w postaci pliku fasta). Co to jest za białko?
11. Co dodatkowo dostaliśmy w odpowiedzi z tego programu?
12. Pobierz z bazy danych 10-15 najbliższych homologów w formacie fasta. Zwróć uwagę na
wartość E-value oraz identyczność podczas wyboru. O czym informuje nas wartość E-value?
CLUSTALW
ClustalW2 jest uniwersalnym programem porównywania wielu sekwencji DNA lub białka. Próbuje
wyznaczyć najlepsze dopasowanie wybranych sekwencji.
13. Pobrany w poprzednim zadaniu plik wykorzystamy do wykonania alignmentu wielu sekwencji
(MSA – multi sequences alignment). Przejdź na stronę programu CLUSTAW
http://www.ebi.ac.uk/Tools/msa/clustalw2. Wybierz poprzedni pobrany plik i uruchom program na
domyślnych ustawieniach. Można podać email, na który ma zostać przesłany link z wynikami,
ponieważ w niektórych przypadkach obliczenia mogą potrwać bardzo długo. Zapoznaj się z
otrzymanym formatem (można włączyć kolorowanie wyniku). Co zaobserwowałeś oraz co
oznaczają symbole poniżej dokonanego alignmentu ('*', ':' , '.', itp.)?
14. Pobierz wynik w formacie clustalw.
CONSURF
http://consurf.tau.ac.il/ Jest to program służący do określenia regionów konserwatywnych w
DNA/RNA/białkach na podstawie danych ewolucyjnych, a dokładniej określenia konserwatywnych
pozycji kwasów nukleinowych/aminokwasów. Bazuje on na MSA sekwencji homologicznych oraz
na filogenetycznych powiązaniach pomiędzy nimi.
Zmiana sekwencji aminokwasów białka, wiąże się ze zmianą przestrzennej struktury białka.
Regiony funkcjonalne wielu białek (np. centra katalityczne) podczas ewolucji ulegały bardzo
znikomym zmianą, ponieważ były bardzo ważne dla funkcjonowania organizmu. Do najwolniej
ewoluujących białek należą histony rdzeniowe, które, wraz z oplatającą je nicią chromosomowego
DNA, tworzą nukleosomy. Analiza sekwencji aminokwasów białek konserwatywnych jest
stosowana w paleontologii molekularnej do ustalania ewolucyjnej kolejności pojawia się
określonych gatunków przez dokonywanie ocen pokrewieństwa białek konserwatywnych
pochodzących z różnych gatunków roślin i zwierząt, zarówno istniejących współcześnie jak i
kopalnych. Znajomość na ile dane białka są konserwatywne ewolucyjnie może być więc
wykorzystana do określania pokrewieństwa ewolucyjnego zachowanych próbek. W przypadku
porównywania współcześnie żywych odgałęzień ewolucji lepsze rezultaty osiąga się porównując
sekwencje DNA. Drugim wykorzystaniem może być określanie regionów funkcjonalnych w
białkach dopiero co odkrytych na podstawie znajomości podobieństwa sekwencyjnego do już
poznanych białek.
15. Pliki z poprzednich zadań wykorzystamy do analizy regionów konserwatywnych w tym białku.
Regiony konserwatywne bardzo często są domenami białka które podczas ewolucji musiały być
zachowane ze względu na znaczenie funkcjonalne ważne dla funkcjonowania organizmu.
W programie aby wykonać to zadanie wybieramy odpowiednie komendy na zadane pytania
o Amino-Acids
o Zaznaczmy, że struktura 3D białka jest znana i wybieramy jedną z opcji: podanie PDBID
lub pliku pdb 4BF9.
o Wybieramy plik pobrany z programu clustalw i podajemy pełen identyfikator naszego
białka z tego pliku.
o Zaznaczamy ze nie mamy drzewa filogenetycznego
o Ponieważ oczekiwanie na wyniki może potrwać warto podać swojego e-maila na którego
zostaną przesłane wyniki.
Wybieramy możliwość obejrzenia wyników w widoku 3D.W wynikach w wymiarze Kolory kul
oznaczają jak bardzo jest konserwatywny aminokwas/nukleotyd. Warto wykonać print screena, gdy
nie mamy programu (np. Chimera), który potrafiłby nam odtworzyć wynik z plików podanych pod
pozostałymi linkami (analiza po paru dniach jest usuwana z serwera).
16. Dla porównania wyników warto też wykonać to dla białka 1VHN, otrzymamy nieco
bardziej interesujące wyniki na końcowym etapie.
Odpowiedzi do zadań:
1. Struktury trójwymiarowe białek, kwasów nukleinowych i złożonych kompleksów.
2.






- rentgenografia strukturalna
- magnetyczny rezonans jądrowy (NMR)
- mikroskopia elektronowa
- elektronografia strukturalna
- metody hybrydowe
- NMR ciała stałego
3. 109093
4. a) 1086, b)1325
5. z bakterii escherichia coli
6. tak jest tomononukleodyd flawinowy
7. Pdb, fasta
8. współrzędne atomów.
9. RNA, DNA, białka
10. Dihydrouridine Synthase C z E.coli
11. Zostało znalezionych 100 najbliższych białek podobnych do wybranego przez nasz.
Pierwsza grafika przedstawia dokonany alignment wszystkich białek. Dokładniejszy opis
uzyskanych alignmentów dla każdego białka z osobna jest zamieszczony poniżej
wyszukanych białek.
12. Informuje nas o podobieństwie sekwencji, im mniejsza jest ta wartość tym większa jest
zgodność pomiędzy zadaną przez nas sekwencją a sekwencją otrzymaną. Wartość 0
informuje, że występuje dokładne dopasowanie. Jeżeli chcemy skupić się na statystycznie
istotnych wynikach powinniśmy wybierać alignmenty dla których wartość ta jest mniejsza
od 0,001 (ewentualnie 0,01). Wartość 1 oznacza często, że porównywane sekwencje są
bliskie losowych. Wartość powyżej 1 oznacza bardzo kiepskie dopasowanie i zazwyczaj
porównywane sekwencje wyglądają dla algorytmu jak losowe
13. W liniach można dostrzec różnice i podobieństwa sekwencji.
"*" - identyczność pomiędzy dwiema sekwencjami w danej pozycji
":" - oznaczenie konserwatywnych substytucj
"." - oznaczenie podstawień semikonserwatywnych
16.
Miejsca najbardziej konserwatywne dla białka 1VHN zaznaczone formą „kulek”