Bioinformatyka II – Bazy danych, format PDB 1

Transkrypt

Bioinformatyka II – Bazy danych, format PDB 1
Bioinformatyka II – Bazy danych, format PDB
1.
Z podanych aplikacji wybierz i przyporządkuj do odpowiednich kategorii bazy danych
(Uwaga: nie wszystkie podane aplikacje to bazy danych).
Aplikacje: HyperChem, Pymol, NDB, Pfam, MC-Fold, PDB, SCOP, SWISS-MODEL, Rfam, CATH,
MODELLER
Kategorie:
- baza danych związana ze strukturą 3D białek:
- baza danych związana z sekwencją białek:
- baza danych związana ze strukturą 3D RNA:
- baza danych związana z sekwencją RNA:
2. Z podanych nazw plików wybierz te zgodne ze standardem PDB Id:
HEMOGLOBIN, 4HHB, 9INS, tr0001, 1EHZ, 3I55, RNA, 3LOU, hemoglobin, 1EHZA, 3GYS, ar0008
3. Wyszukaj w bazie PDB następujące dane:
a)
b)
c)
d)
e)
Liczbę zdeponowanych struktur.
Liczbę zdeponowanych struktur, zawierających tylko RNA.
Liczbę zdeponowanych struktur zawierających tylko białko, które zostały rozwiązane w 2010 roku.
Liczbę zdeponowanych struktur zawierających RNA (samodzielnie lub w kompleksach).
Liczbę struktur rozwiązanych metodami krystalograficznymi i zdeponowanych w bazie w 1990
roku.
f) Liczbę zdeponowanych w PDB unikatowych zwojów białkowych.
g) Rok, w którym dotychczas zdeponowano najwięcej unikatowych zwojów białkowych.
h) Jak tendencja występuje jeśli chodzi o odkrywanie nowych zwojów białkowych?
4. Podaj kilka (minimum 3) zapytania, za pomocą których można wyszukać w PDB
strukturę hemoglobiny.
5. Znanych jest wiele formatów do przechowywania danych o strukturze trójwymiarowej
cząsteczki (cif, mol, mol2, pdb, res, sdf, xyz …). Poniżej przedstawiono trzy
przykładowe
fragmenty
z
takich
plików
w
różnych
formatach.
a)
b)
c)
d)
Rozpoznaj jaki to format (pdb, xyz, mol).
Zidentyfikuj przedstawiony związek chemiczny.
Zaznacz jaka informacja zawarta jest na podświetlonych pozycjach.
Jakie cechy (informacje) wspólne są zawarte we wszystkich formatach?
C
H
H
H
H
ATOM
ATOM
ATOM
ATOM
0.000000
0.000000
1.026719
-0.513360
-0.513360
68
69
70
71
24 24 0
0.8515
-1.7092
-1.8202
-1.2245
1.1673
1.3269
-0.7391
-1.4240
-0.0643
-0.4804
0.2035
0.7244
-0.0048
-2.3439
-0.8066
0.2576
-0.5018
1.5231
0.0792
-2.3613
-2.4067
-1.8903
1.5875
1.8966
1 9 1
1 11 1
2 7 1
2 20 1
3 8 1
3 21 1
4 10 1
4 22 1
5 11 1
5 23 1
6 12 1
6 24 1
7 8 1
7 9 1
7 13 1
8 10 1
8 14 1
9 12 1
9 15 1
10 11 1
10 16 1
11 17 1
12 18 1
12 19 1
M END
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
N
CA
C
O
GLY
GLY
GLY
GLY
0.000000
0.000000
0.000000
-0.889165
0.889165
A
A
A
A
941
941
941
941
4.012
5.289
6.456
7.502
1 0 0 0 0 0999 V2000
-1.1032
-2.3511 O
0 0
0.9024
-0.6676 O
0 0
-1.6291
0.7234 O
0 0
-3.8472
-1.1221 O
0 0
-3.4047
-2.5684 O
0 0
1.3054
-3.5875 O
0 0
-0.1332
-0.8004 C
0 0
-1.4908
-0.6420 C
0 0
-0.0218
-2.1696 C
0 0
-2.6337
-1.0165 C
0 0
-2.3731
-2.3586 C
0 0
1.2767
-2.3065 C
0 0
0.0004
0.0034 H
0 0
-1.5391
-1.2377 H
0 0
-0.0549
-2.9788 H
0 0
-2.7824
-0.2191 H
0 0
-2.4235
-3.1961 H
0 0
1.3414
-1.5601 H
0 0
2.1545
-2.2095 H
0 0
0.7963
-1.3811 H
0 0
-0.8822
0.9334 H
0 0
-3.7325
-1.8216 H
0 0
-3.6130
-1.7174 H
0 0
0.5208
-3.6624 H
0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
0.000000
1.089000
-0.363000
-0.363000
-0.363000
14.360
14.232
14.830
15.153
0
0
0
0
0
0
1
1
1
2
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
-1.472
-0.755
-1.516
-0.929
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1.00
1.00
1.00
1.00
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
15.71
15.52
15.71
16.10
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
N
C
C
O
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
6. Informacja o strukturze trójwymiarowej białka, którą można oglądać i edytować w
różnych przeglądarkach graficznych (np. DeepView, PyMOL, Jmol, Chimera) jest tak
naprawdę zapisana w pliku tekstowym o określonej strukturze (formacie – np. pdb).
Programy graficzne dokonują jedynie interpretacji danych tekstowych. Pobierz z bazy
PDB strukturę 4HHB i wykonaj następujące operacje:
a) Otwórz plik przez program PyMOL.
b) Otwórz plik przez program WordPad.
c) Skopiuj z pliku otwartego w WordPad fragment zawierający pierwszy aminokwas pierwszego
łańcucha – walinę (pomiń nagłówek) i zapisz go jako walina.pdb
d) Zamknij plik 4HHB w PyMOLu i spróbuj otworzyć plik walina.pdb. Czy takie wycinanie
fragmentów ze struktury pdb jest możliwe?
e) Zmodyfikuj plik walina.pdb: zmień nazwy atomów oraz położenie atomów (nie przekraczaj
zakresu 2Å). Spróbuj ponownie otworzyć plik walina.pdb z wprowadzonymi zmianami. Jakie
konsekwencje miały wprowadzone modyfikacje? (Wskazówka: nazwy atomów w PyMOL
można wyświetlić przez Label (L) – atom name)
7. Obecność selenometioniny zamiast metioniny w białku ułatwia rozwiązywanie
struktury białka metodą krystalografii rentgenowskiej gdzie badane są anomalie
dyfrakcji fal o różnej długości (MAD, technika wymagająca obecności ciężkich
atomów). Ta właściwość powoduje, że ta modyfikacja często pojawia się na miejscu
metioniny w strukturach zdeponowanych w PDB. Wiele programów do modelowania
białek nie radzi sobie z tą modyfikacją i zwraca błąd, gdy ‘inputowa’ struktura
szablonu zawiera selenometioninę. W trakcie procedury modelowania zamienia się
więc selenometioninę na metioninę.
Poniżej znajdują się fragmenty plików zawierające selenometioninę i
metioninę. Opisz jakich zmian należy dokonać na poziomie pliku tekstowego, aby
przekształcić selenometioninę w metioninę.
SELENOMETIONINA
HETATM
HETATM
HETATM
HETATM
HETATM
HETATM
HETATM
HETATM
60 N
61 CA
62 C
63 O
64 CB
65 CG
66 SE
67 CE
MSE
MSE
MSE
MSE
MSE
MSE
MSE
MSE
A
A
A
A
A
A
A
A
940
940
940
940
940
940
940
940
2.264
2.233
3.484
3.967
0.973
-0.275
-1.800
-1.406
14.436
15.546
15.549
16.616
15.501
15.787
16.173
17.970
-3.592
-2.625
-1.750
-1.348
-1.763
-2.578
-1.482
-1.037
1.00
1.00
1.00
1.00
1.00
1.00
0.70
1.00
14.18
15.11
15.13
15.83
15.21
15.36
16.65
16.87
N
C
C
O
C
C
SE
C
15.988
15.447
13.910
13.239
16.132
17.513
18.388
18.953
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
48.02
48.90
49.95
49.87
48.26
47.02
44.83
44.59
N
C
C
O
C
C
S
C
METIONINA
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
540
541
542
543
544
545
546
547
N
CA
C
O
CB
CG
SD
CE
MET
MET
MET
MET
MET
MET
MET
MET
A
A
A
A
A
A
A
A
73
73
73
73
73
73
73
73
-17.976
-16.671
-16.627
-16.027
-15.568
-15.230
-13.859
-14.587
-47.755
-47.407
-47.508
-46.654
-48.214
-47.658
-48.452
-50.001
8. Co oznaczają nazwy SCOP i CATH?
9. Jakie klasy zwojów białkowych mają takie same (lub bardzo podobne nazwy) dla baz
CATH i SCOPE? Do którego poziomu organizuj białka nawiązują nazwy tych klas?
10. Poniżej przedstawiono klasyfikację zwoju białka 4HHB w bazie SCOP i CATH.
Kolejność poziomów w hierarchii została zmieniona. Rozpoznaj, które dane pochodzą
ze SCOP, a które z CATH i uporządkuj hierarchię.
Orthogonal Bundle
Mainly Alpha
4HHB
Globins
Globin-like
Homo sapiens
4HHB
Globin-like
All alpha proteins
Globins
Hemoglobin
11. W bazie CATH (jak we wszystkich bazach danych) każdy zwój charakteryzowany jest
przez unikatowe id. W CATH id nie jest tylko długim ciągiem cyfr - ma bardzo
czytelną formę i może dać nam szybko (bez oglądania struktury) informację na temat
danego zwoju.
Na przykładzie id 1.10.490.10 opisz co oznaczają poszczególne cyfry. Jaki
zwój kryje się pod tym numerem?
12. Przedstawione poniżej struktury zawierają charakterystyczne motywy strukturalne.
Wykorzystując baze SCOP i CATH przyporządkuj następujące nazwy do
odpowiednich struktur: β-barrel, roll, sandwitch, α-β-barrel, harpin, α-barrel, β-sheet,
greek key, leucin zipper.
13. W bazie Pfam wyszukaj rodzinę globin. Obejrzyj przyrównanie charakterystyczne dla
tej rodziny (wybierając jedynie sekwencje seed). Na podstawie przyrównania podaj
które z aminokwasów są ważne dla struktury i funkcji białek z tej rodziny.

Podobne dokumenty