Bioinformatyka II – Bazy danych, format PDB 1
Transkrypt
Bioinformatyka II – Bazy danych, format PDB 1
Bioinformatyka II – Bazy danych, format PDB 1. Z podanych aplikacji wybierz i przyporządkuj do odpowiednich kategorii bazy danych (Uwaga: nie wszystkie podane aplikacje to bazy danych). Aplikacje: HyperChem, Pymol, NDB, Pfam, MC-Fold, PDB, SCOP, SWISS-MODEL, Rfam, CATH, MODELLER Kategorie: - baza danych związana ze strukturą 3D białek: - baza danych związana z sekwencją białek: - baza danych związana ze strukturą 3D RNA: - baza danych związana z sekwencją RNA: 2. Z podanych nazw plików wybierz te zgodne ze standardem PDB Id: HEMOGLOBIN, 4HHB, 9INS, tr0001, 1EHZ, 3I55, RNA, 3LOU, hemoglobin, 1EHZA, 3GYS, ar0008 3. Wyszukaj w bazie PDB następujące dane: a) b) c) d) e) Liczbę zdeponowanych struktur. Liczbę zdeponowanych struktur, zawierających tylko RNA. Liczbę zdeponowanych struktur zawierających tylko białko, które zostały rozwiązane w 2010 roku. Liczbę zdeponowanych struktur zawierających RNA (samodzielnie lub w kompleksach). Liczbę struktur rozwiązanych metodami krystalograficznymi i zdeponowanych w bazie w 1990 roku. f) Liczbę zdeponowanych w PDB unikatowych zwojów białkowych. g) Rok, w którym dotychczas zdeponowano najwięcej unikatowych zwojów białkowych. h) Jak tendencja występuje jeśli chodzi o odkrywanie nowych zwojów białkowych? 4. Podaj kilka (minimum 3) zapytania, za pomocą których można wyszukać w PDB strukturę hemoglobiny. 5. Znanych jest wiele formatów do przechowywania danych o strukturze trójwymiarowej cząsteczki (cif, mol, mol2, pdb, res, sdf, xyz …). Poniżej przedstawiono trzy przykładowe fragmenty z takich plików w różnych formatach. a) b) c) d) Rozpoznaj jaki to format (pdb, xyz, mol). Zidentyfikuj przedstawiony związek chemiczny. Zaznacz jaka informacja zawarta jest na podświetlonych pozycjach. Jakie cechy (informacje) wspólne są zawarte we wszystkich formatach? C H H H H ATOM ATOM ATOM ATOM 0.000000 0.000000 1.026719 -0.513360 -0.513360 68 69 70 71 24 24 0 0.8515 -1.7092 -1.8202 -1.2245 1.1673 1.3269 -0.7391 -1.4240 -0.0643 -0.4804 0.2035 0.7244 -0.0048 -2.3439 -0.8066 0.2576 -0.5018 1.5231 0.0792 -2.3613 -2.4067 -1.8903 1.5875 1.8966 1 9 1 1 11 1 2 7 1 2 20 1 3 8 1 3 21 1 4 10 1 4 22 1 5 11 1 5 23 1 6 12 1 6 24 1 7 8 1 7 9 1 7 13 1 8 10 1 8 14 1 9 12 1 9 15 1 10 11 1 10 16 1 11 17 1 12 18 1 12 19 1 M END 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 N CA C O GLY GLY GLY GLY 0.000000 0.000000 0.000000 -0.889165 0.889165 A A A A 941 941 941 941 4.012 5.289 6.456 7.502 1 0 0 0 0 0999 V2000 -1.1032 -2.3511 O 0 0 0.9024 -0.6676 O 0 0 -1.6291 0.7234 O 0 0 -3.8472 -1.1221 O 0 0 -3.4047 -2.5684 O 0 0 1.3054 -3.5875 O 0 0 -0.1332 -0.8004 C 0 0 -1.4908 -0.6420 C 0 0 -0.0218 -2.1696 C 0 0 -2.6337 -1.0165 C 0 0 -2.3731 -2.3586 C 0 0 1.2767 -2.3065 C 0 0 0.0004 0.0034 H 0 0 -1.5391 -1.2377 H 0 0 -0.0549 -2.9788 H 0 0 -2.7824 -0.2191 H 0 0 -2.4235 -3.1961 H 0 0 1.3414 -1.5601 H 0 0 2.1545 -2.2095 H 0 0 0.7963 -1.3811 H 0 0 -0.8822 0.9334 H 0 0 -3.7325 -1.8216 H 0 0 -3.6130 -1.7174 H 0 0 0.5208 -3.6624 H 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.000000 1.089000 -0.363000 -0.363000 -0.363000 14.360 14.232 14.830 15.153 0 0 0 0 0 0 1 1 1 2 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -1.472 -0.755 -1.516 -0.929 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1.00 1.00 1.00 1.00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 15.71 15.52 15.71 16.10 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 N C C O 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 6. Informacja o strukturze trójwymiarowej białka, którą można oglądać i edytować w różnych przeglądarkach graficznych (np. DeepView, PyMOL, Jmol, Chimera) jest tak naprawdę zapisana w pliku tekstowym o określonej strukturze (formacie – np. pdb). Programy graficzne dokonują jedynie interpretacji danych tekstowych. Pobierz z bazy PDB strukturę 4HHB i wykonaj następujące operacje: a) Otwórz plik przez program PyMOL. b) Otwórz plik przez program WordPad. c) Skopiuj z pliku otwartego w WordPad fragment zawierający pierwszy aminokwas pierwszego łańcucha – walinę (pomiń nagłówek) i zapisz go jako walina.pdb d) Zamknij plik 4HHB w PyMOLu i spróbuj otworzyć plik walina.pdb. Czy takie wycinanie fragmentów ze struktury pdb jest możliwe? e) Zmodyfikuj plik walina.pdb: zmień nazwy atomów oraz położenie atomów (nie przekraczaj zakresu 2Å). Spróbuj ponownie otworzyć plik walina.pdb z wprowadzonymi zmianami. Jakie konsekwencje miały wprowadzone modyfikacje? (Wskazówka: nazwy atomów w PyMOL można wyświetlić przez Label (L) – atom name) 7. Obecność selenometioniny zamiast metioniny w białku ułatwia rozwiązywanie struktury białka metodą krystalografii rentgenowskiej gdzie badane są anomalie dyfrakcji fal o różnej długości (MAD, technika wymagająca obecności ciężkich atomów). Ta właściwość powoduje, że ta modyfikacja często pojawia się na miejscu metioniny w strukturach zdeponowanych w PDB. Wiele programów do modelowania białek nie radzi sobie z tą modyfikacją i zwraca błąd, gdy ‘inputowa’ struktura szablonu zawiera selenometioninę. W trakcie procedury modelowania zamienia się więc selenometioninę na metioninę. Poniżej znajdują się fragmenty plików zawierające selenometioninę i metioninę. Opisz jakich zmian należy dokonać na poziomie pliku tekstowego, aby przekształcić selenometioninę w metioninę. SELENOMETIONINA HETATM HETATM HETATM HETATM HETATM HETATM HETATM HETATM 60 N 61 CA 62 C 63 O 64 CB 65 CG 66 SE 67 CE MSE MSE MSE MSE MSE MSE MSE MSE A A A A A A A A 940 940 940 940 940 940 940 940 2.264 2.233 3.484 3.967 0.973 -0.275 -1.800 -1.406 14.436 15.546 15.549 16.616 15.501 15.787 16.173 17.970 -3.592 -2.625 -1.750 -1.348 -1.763 -2.578 -1.482 -1.037 1.00 1.00 1.00 1.00 1.00 1.00 0.70 1.00 14.18 15.11 15.13 15.83 15.21 15.36 16.65 16.87 N C C O C C SE C 15.988 15.447 13.910 13.239 16.132 17.513 18.388 18.953 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 48.02 48.90 49.95 49.87 48.26 47.02 44.83 44.59 N C C O C C S C METIONINA ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM 540 541 542 543 544 545 546 547 N CA C O CB CG SD CE MET MET MET MET MET MET MET MET A A A A A A A A 73 73 73 73 73 73 73 73 -17.976 -16.671 -16.627 -16.027 -15.568 -15.230 -13.859 -14.587 -47.755 -47.407 -47.508 -46.654 -48.214 -47.658 -48.452 -50.001 8. Co oznaczają nazwy SCOP i CATH? 9. Jakie klasy zwojów białkowych mają takie same (lub bardzo podobne nazwy) dla baz CATH i SCOPE? Do którego poziomu organizuj białka nawiązują nazwy tych klas? 10. Poniżej przedstawiono klasyfikację zwoju białka 4HHB w bazie SCOP i CATH. Kolejność poziomów w hierarchii została zmieniona. Rozpoznaj, które dane pochodzą ze SCOP, a które z CATH i uporządkuj hierarchię. Orthogonal Bundle Mainly Alpha 4HHB Globins Globin-like Homo sapiens 4HHB Globin-like All alpha proteins Globins Hemoglobin 11. W bazie CATH (jak we wszystkich bazach danych) każdy zwój charakteryzowany jest przez unikatowe id. W CATH id nie jest tylko długim ciągiem cyfr - ma bardzo czytelną formę i może dać nam szybko (bez oglądania struktury) informację na temat danego zwoju. Na przykładzie id 1.10.490.10 opisz co oznaczają poszczególne cyfry. Jaki zwój kryje się pod tym numerem? 12. Przedstawione poniżej struktury zawierają charakterystyczne motywy strukturalne. Wykorzystując baze SCOP i CATH przyporządkuj następujące nazwy do odpowiednich struktur: β-barrel, roll, sandwitch, α-β-barrel, harpin, α-barrel, β-sheet, greek key, leucin zipper. 13. W bazie Pfam wyszukaj rodzinę globin. Obejrzyj przyrównanie charakterystyczne dla tej rodziny (wybierając jedynie sekwencje seed). Na podstawie przyrównania podaj które z aminokwasów są ważne dla struktury i funkcji białek z tej rodziny.