Plakat

Transkrypt

Plakat
Przewidywanie struktury i funkcji dla rodziny białek DUF1574
Katarzyna Andrzejuk
Promotor pracy: prof. dr hab. Andrzej Koliński
Opiekun pracy: dr Krzysztof Ginalski
WSTĘP
MODELOWANIE HOMOLOGICZNE
Białka pełnią rozmaite funkcje życiowe: jedne
to elementy strukturalne, inne to enzymy
przeprowadzające różne reakcje chemiczne,
kolejne mogą odpowiadać za transport i ruch.
Funkcja białka jest ściśle związana z jego
strukturą, a ta z kolei jest warunkowana
sekwencją aminokwasową. Zrozumienie, jak
dane białko działa w komórce możliwe jest
zazwyczaj dopiero po poznaniu jego budowy,
czyli sposobu zwinięcia łańcucha głównego i
konfiguracji grup bocznych na powierzchni.
Jednak badanie struktury i funkcji metodami
doświadczalnymi jest kosztowne i żmudne, stąd
istnieje wiele białek, w przypadku których
poznana
została
jedynie
sekwencja
aminokwasowa. Złamanie kolejnych elementów
kodu genetycznego, determinujących sposób
przełożenia sekwencji białek na ich strukturę, a
strukturę na funkcje, jest więc bardzo cenne.
Wywodząca się z tzw. szkoły darwinowskiej
empiryczna reguła, mówiąca o tym, że białka
homologiczne
zachowują
podobieństwo
strukturalne,
posłużyła
opracowaniu
modelowania homologicznego polegającego na
symulacji ewolucji sekwencji i struktury, czyli w
praktyce
na
znalezieniu
odpowiedniego
spokrewnionego białka o znanej strukturze, które
zostanie swoistym szablonem dla nowego,
hipotetycznego peptydu.
Założenia:
¾ pierwotna struktura przestrzenna białka zostaje dokładniej zachowana
(podlega mniejszym zmianom) w toku zmian ewolucyjnych niż jego
sekwencja;
¾ miejsca odpowiedzialne za funkcje oraz strukturę przestrzenną białka
wykazują większą odporność na zmiany ewolucyjne.
Postępowanie:
¾ Sekwencja nieznanego białka; identyfikacja wszystkich członków nowej
rodziny białek DUF1574
Æ PSI-BLAST [1] – zapytanie: konsensusowa sekwencja PfamA [2] DUF1574;
przeszukiwana - baza NCBI; threshold przyjęcia sekwencji - 0.01, aż do
momentu uzyskania zbieżności profilu;
¾ Identyfikacja i wybór najwłaściwszego szablonu
Æ STRING (Search Tool for the Retrieval of Interacting Proteins), CDD
(Conserved Domain Database), SMART (Simple Modular Architecture
Research Tool), TMHMM2.0, SignalP,
Æ Meta BASIC [3] – metoda rozpoznaje dalekie podobieństwa pomiędzy
białkami, działa w oparciu o porównanie profili sekwencyjnych białek
wzbogaconych o przewidywaną strukturę drugorzędową; sekwencja
hipotetycznego białka z rodziny DUF1574, (gi|1163332481), została
zaaplikowana do Meta Servera;
Æ 3D-Jury [4] – ostateczne zmapowanie sekwencji białka gi|116442481 na
białka o znanych strukturach – wynik: SGNH hydrolases z foldem Flavodoxinlike fold;
¾ Multiple sequence alignment obu rodzin DUF1574 i SGNH hydrolaz (rys. 1)
Rys. 3. Mechanizm katalizy w nadrodzinie SGNH hydrolaz. W miejscu aktywnym
znajduje się tzw. triada katalityczna składająca się trzech aminokwasów: seryny,
histydyny i kwasu asparaginowego.
NADRODZINA SGNH HYDROLAZ:
¾ esterazy i lipazy, hydrolityczne, multifunkcjonalne enzymy wykazujące szeroką swoistość substratową i regionalną [6];
¾ używane są w hydrolizie i syntezie ważnych estrowych związków w farmacji, żywieniu, biochemii i biologii [6];
¾ baza SCOP definiuje obecnie sześć różnych rodzin w nadrodzinie SGNH hydrolaz: Esterase, Esterase domain of haemagglutinin-esterase-fusion
glucoprotein HEF1, Acetylhydrolase, Rhamnogalacturonan acetylesterase, Thioesterase I (TAP), Hypothetical protein alr1529;
¾ zawierają charakterystyczny fold: 3 warstwy α/β/α sandwich; paralelną β-kartkę składającą się z pięciu wstęg ułożonych w kolejności 21345,
otoczonych z dwóch stron α-helisami;
¾ zawierają cztery zachowane bloki, a każdy z nich posiada katalityczną resztę aminokwasową: serynę, glicynę, asparaginę i histydynę, w
większości przypadków, w skład tzw. triady katalitycznej oprócz seryny i glicyny wchodzi kwas asparaginowy [7].
Rys. 2. Model 3D białka z nowej rodziny DUF1574 (gi|116332481) prezentujący
kluczowe elementy struktury drugorzędowej charakterystycznych dla foldu
zdefiniowanego przez bazę SCOP (Structural Classification of Proteins) jako
Flavodoxin fold; model bazuje na strukturach białek z nadrodziny SGNH hydrolaz:
Platelet-activating factor acetylhydrolase (PDB|1bwp), lipazy z bakterii
Escherichia coli (PDB|1vjg) i Acyl-CoA thioesteraza I (PDB|1u8u). Triada
katalityczna została wyróżniona na rysunku w formie tzw. ball-and-stick (atomy C
– szare, N – niebieskie, O – czerwone).
Rys. 1. Multiple sequence alignment dla białek z rodziny
DUF1574 (góra) oraz białek wzorcowych z nadrodziny SGNH
hydrolaz (dół). Sekwencje oznaczone są przy pomocy
identyfikatora gi (baza NCBI- National Center for Biotechnology
Information) lub kodu struktury (baza PDB - Protein Data Bank)
oraz nazw organizmów, w których występują: Lc Leptospira
interrogans serovar Copenhageni str. Fiocruz L1-130, Lh
Leptospira borgpetersenii serovar Hardjo-bovis JB197 (dla
gi|1163332481) i Leptospira borgpetersenii Hardjo-bovis L550
(dla pozostałych Lh), Ll Leptospira interrogans serovar Lai str.
56601. Numery pierwszej i ostatniej reszty aminokwasowej
zaznaczone są przed i po każdej sekwencji, a całkowita
długość sekwencji umieszczona jest w kwadratowym nawiasie.
W
okrągłym
nawiasach
podano
liczbę
pominiętych
aminokwasów. Zachowane na poszczególnych pozycjach
aminokwasy zaznaczone zostały wg następujących reguł:
aminokwasy
nienaładowane
(żółte
tło),
aminokwasy
naładowane lub polarne (siwe tło), aminokwasy małe
(czerwona czcionka). Aminokwasy katalityczne wyróżnione
zostały na czarno. Lokalizacja elementów struktury
drugorzędowej, przewidzianej dla białka modelowanego (przy
użyciu serwera PSIPRED - The PSIPRED Protein Structure
Prediction Server) oraz występujące w białku wykorzystanym
do modelowania (PDB|1bwp) została zaznaczona nad
sekwencjami (E - β-wstęga; H – α-helisa).
Æ PCMA [5] oraz manualne ustawienia sekwencji przy użyciu programu
Seaview; alignment sequence-to-structure pomiędzy rodziną DUF1574 i
rodziną SGNH hydrolaz zostało wykonane ręcznie biorąc pod uwagę
przewidzianą strukturę drugorzędową, profil hydrofobowy oraz zachowane
aminokwasy katalityczne;
¾ Stworzenie modelu 3D (rys. 2) białka z bakterii Leptospira borgpetersenii
serovar Hardjo-bovis JB197, gi|1163332481 przy użyciu programu
MODELLER (INSIGHT II) i trzech szablonów białek: Platelet-activating factor
acetylhydrolase (PDB|1bwp), lipazy z bakterii Escherichia coli (PDB|1vjg) i
Acyl-CoA thioesterazy I (PDB|1u8u); spośród wygenerowanych modeli wybór
modelu o najniższej energii i najmniejszej liczbie zawad sterycznych.
WNIOSKI
Celem pracy było wymodelowanie struktury i określenie prawdopodobnej funkcji dla białek z rodziny
DUF1574. Nowa rodzina białek sklasyfikowana jako DUF1574 (domain unknown function) w bazie PfamA (Pfam
Accession No. PF07611) zawiera kilkanaście hipotetycznych białek z bakterii Leptospira interrogans i Leptospira
borgpetersenii. Wykorzystując metodę Meta-BASIC do rozpoznawania dalekich podobieństw pomiędzy białkami,
stwierdzono jednoznacznie przynależność rodziny DUF1574 do nadrodziny hydrolaz, zwanej SGNH hydrolases.
Metoda ta działa w oparciu o porównanie profili sekwencyjnych białek wzbogaconych o przewidywaną strukturę
drugorzędową. Sekwencje białek rodziny DUF1574 zawierają wszystkie kluczowe elementy struktury
drugorzędowej charakterystyczne dla foldu zdefiniowanego w bazie SCOP jako Flavodoxin-like fold. Ponadto
wyróżniają się one całkowitym zachowaniem kilku katalitycznych reszt aminokwasowych, od których to pochodzi
nazwa tej nadrodziny, a mianowicie: seryny (Ser), asparaginy (Asn) i histydyny (His). Miejsce glicyny zajmuje
valina (Val). Dodatkowo występowanie spolaryzowanej, zawierającej trzy reszty aminokwasowe (m.in. kwas
asparaginowy (Asp)) tzw. „dziury anionotlenowej” wskazuje na fakt, iż mechanizm katalizy analizowanych białek
hipotetycznych jest typowy dla hydrolaz SGNH.. .
LITERATURA
[1] Altschul S. F., Madden T. L., Schaffer A. A., Zhang J., Zhang Z., Miller W., Lipman D. J., Nucleic Acids Research, 25, 3389-3402 (1997).
[2] A. Bateman, L. Coin, R. Durbin, R. D. Finn, V. Hollich, S. Griffiths-Jones, A. Khanna, M. Marshall, S. Moxon, E. L. Sonnhammer, D. J. Studholme, C. Yeats and S. R. Eddy, Nucleic
Acids Res. 32, D138 (2004).
[3] Ginalski K., Grotthuss M., Grishin N. V., Rychlewski L., Nucleic Acids Research, 32, 576-581 (2004).
[4] K. Ginalski, A. Elofsson, D. Fischer and L. Rychlewski, Bioinformatics 19, 1015 (2003).
[5] Pei J., Sadreyev R., Grishin N. V., Bioinformatics, 12, 19(3):427-8 (2003).
[6] Casimir C.A., Guan-Chiun Lee, Yen-Chywan Liaw, Tai-Huang Huang, Jei-Fu Shaw, Progress in Lipid Research, 43, 534-552 (2004).
[7] Yu-Chih Lo, Su-Chang Lin, Jei-Fu Shaw, Yen-Chywan Liaw, J. Mol. Biol., 330, 539-551 (2003).