Plakat
Transkrypt
Plakat
Przewidywanie struktury i funkcji dla rodziny białek DUF1574 Katarzyna Andrzejuk Promotor pracy: prof. dr hab. Andrzej Koliński Opiekun pracy: dr Krzysztof Ginalski WSTĘP MODELOWANIE HOMOLOGICZNE Białka pełnią rozmaite funkcje życiowe: jedne to elementy strukturalne, inne to enzymy przeprowadzające różne reakcje chemiczne, kolejne mogą odpowiadać za transport i ruch. Funkcja białka jest ściśle związana z jego strukturą, a ta z kolei jest warunkowana sekwencją aminokwasową. Zrozumienie, jak dane białko działa w komórce możliwe jest zazwyczaj dopiero po poznaniu jego budowy, czyli sposobu zwinięcia łańcucha głównego i konfiguracji grup bocznych na powierzchni. Jednak badanie struktury i funkcji metodami doświadczalnymi jest kosztowne i żmudne, stąd istnieje wiele białek, w przypadku których poznana została jedynie sekwencja aminokwasowa. Złamanie kolejnych elementów kodu genetycznego, determinujących sposób przełożenia sekwencji białek na ich strukturę, a strukturę na funkcje, jest więc bardzo cenne. Wywodząca się z tzw. szkoły darwinowskiej empiryczna reguła, mówiąca o tym, że białka homologiczne zachowują podobieństwo strukturalne, posłużyła opracowaniu modelowania homologicznego polegającego na symulacji ewolucji sekwencji i struktury, czyli w praktyce na znalezieniu odpowiedniego spokrewnionego białka o znanej strukturze, które zostanie swoistym szablonem dla nowego, hipotetycznego peptydu. Założenia: ¾ pierwotna struktura przestrzenna białka zostaje dokładniej zachowana (podlega mniejszym zmianom) w toku zmian ewolucyjnych niż jego sekwencja; ¾ miejsca odpowiedzialne za funkcje oraz strukturę przestrzenną białka wykazują większą odporność na zmiany ewolucyjne. Postępowanie: ¾ Sekwencja nieznanego białka; identyfikacja wszystkich członków nowej rodziny białek DUF1574 Æ PSI-BLAST [1] – zapytanie: konsensusowa sekwencja PfamA [2] DUF1574; przeszukiwana - baza NCBI; threshold przyjęcia sekwencji - 0.01, aż do momentu uzyskania zbieżności profilu; ¾ Identyfikacja i wybór najwłaściwszego szablonu Æ STRING (Search Tool for the Retrieval of Interacting Proteins), CDD (Conserved Domain Database), SMART (Simple Modular Architecture Research Tool), TMHMM2.0, SignalP, Æ Meta BASIC [3] – metoda rozpoznaje dalekie podobieństwa pomiędzy białkami, działa w oparciu o porównanie profili sekwencyjnych białek wzbogaconych o przewidywaną strukturę drugorzędową; sekwencja hipotetycznego białka z rodziny DUF1574, (gi|1163332481), została zaaplikowana do Meta Servera; Æ 3D-Jury [4] – ostateczne zmapowanie sekwencji białka gi|116442481 na białka o znanych strukturach – wynik: SGNH hydrolases z foldem Flavodoxinlike fold; ¾ Multiple sequence alignment obu rodzin DUF1574 i SGNH hydrolaz (rys. 1) Rys. 3. Mechanizm katalizy w nadrodzinie SGNH hydrolaz. W miejscu aktywnym znajduje się tzw. triada katalityczna składająca się trzech aminokwasów: seryny, histydyny i kwasu asparaginowego. NADRODZINA SGNH HYDROLAZ: ¾ esterazy i lipazy, hydrolityczne, multifunkcjonalne enzymy wykazujące szeroką swoistość substratową i regionalną [6]; ¾ używane są w hydrolizie i syntezie ważnych estrowych związków w farmacji, żywieniu, biochemii i biologii [6]; ¾ baza SCOP definiuje obecnie sześć różnych rodzin w nadrodzinie SGNH hydrolaz: Esterase, Esterase domain of haemagglutinin-esterase-fusion glucoprotein HEF1, Acetylhydrolase, Rhamnogalacturonan acetylesterase, Thioesterase I (TAP), Hypothetical protein alr1529; ¾ zawierają charakterystyczny fold: 3 warstwy α/β/α sandwich; paralelną β-kartkę składającą się z pięciu wstęg ułożonych w kolejności 21345, otoczonych z dwóch stron α-helisami; ¾ zawierają cztery zachowane bloki, a każdy z nich posiada katalityczną resztę aminokwasową: serynę, glicynę, asparaginę i histydynę, w większości przypadków, w skład tzw. triady katalitycznej oprócz seryny i glicyny wchodzi kwas asparaginowy [7]. Rys. 2. Model 3D białka z nowej rodziny DUF1574 (gi|116332481) prezentujący kluczowe elementy struktury drugorzędowej charakterystycznych dla foldu zdefiniowanego przez bazę SCOP (Structural Classification of Proteins) jako Flavodoxin fold; model bazuje na strukturach białek z nadrodziny SGNH hydrolaz: Platelet-activating factor acetylhydrolase (PDB|1bwp), lipazy z bakterii Escherichia coli (PDB|1vjg) i Acyl-CoA thioesteraza I (PDB|1u8u). Triada katalityczna została wyróżniona na rysunku w formie tzw. ball-and-stick (atomy C – szare, N – niebieskie, O – czerwone). Rys. 1. Multiple sequence alignment dla białek z rodziny DUF1574 (góra) oraz białek wzorcowych z nadrodziny SGNH hydrolaz (dół). Sekwencje oznaczone są przy pomocy identyfikatora gi (baza NCBI- National Center for Biotechnology Information) lub kodu struktury (baza PDB - Protein Data Bank) oraz nazw organizmów, w których występują: Lc Leptospira interrogans serovar Copenhageni str. Fiocruz L1-130, Lh Leptospira borgpetersenii serovar Hardjo-bovis JB197 (dla gi|1163332481) i Leptospira borgpetersenii Hardjo-bovis L550 (dla pozostałych Lh), Ll Leptospira interrogans serovar Lai str. 56601. Numery pierwszej i ostatniej reszty aminokwasowej zaznaczone są przed i po każdej sekwencji, a całkowita długość sekwencji umieszczona jest w kwadratowym nawiasie. W okrągłym nawiasach podano liczbę pominiętych aminokwasów. Zachowane na poszczególnych pozycjach aminokwasy zaznaczone zostały wg następujących reguł: aminokwasy nienaładowane (żółte tło), aminokwasy naładowane lub polarne (siwe tło), aminokwasy małe (czerwona czcionka). Aminokwasy katalityczne wyróżnione zostały na czarno. Lokalizacja elementów struktury drugorzędowej, przewidzianej dla białka modelowanego (przy użyciu serwera PSIPRED - The PSIPRED Protein Structure Prediction Server) oraz występujące w białku wykorzystanym do modelowania (PDB|1bwp) została zaznaczona nad sekwencjami (E - β-wstęga; H – α-helisa). Æ PCMA [5] oraz manualne ustawienia sekwencji przy użyciu programu Seaview; alignment sequence-to-structure pomiędzy rodziną DUF1574 i rodziną SGNH hydrolaz zostało wykonane ręcznie biorąc pod uwagę przewidzianą strukturę drugorzędową, profil hydrofobowy oraz zachowane aminokwasy katalityczne; ¾ Stworzenie modelu 3D (rys. 2) białka z bakterii Leptospira borgpetersenii serovar Hardjo-bovis JB197, gi|1163332481 przy użyciu programu MODELLER (INSIGHT II) i trzech szablonów białek: Platelet-activating factor acetylhydrolase (PDB|1bwp), lipazy z bakterii Escherichia coli (PDB|1vjg) i Acyl-CoA thioesterazy I (PDB|1u8u); spośród wygenerowanych modeli wybór modelu o najniższej energii i najmniejszej liczbie zawad sterycznych. WNIOSKI Celem pracy było wymodelowanie struktury i określenie prawdopodobnej funkcji dla białek z rodziny DUF1574. Nowa rodzina białek sklasyfikowana jako DUF1574 (domain unknown function) w bazie PfamA (Pfam Accession No. PF07611) zawiera kilkanaście hipotetycznych białek z bakterii Leptospira interrogans i Leptospira borgpetersenii. Wykorzystując metodę Meta-BASIC do rozpoznawania dalekich podobieństw pomiędzy białkami, stwierdzono jednoznacznie przynależność rodziny DUF1574 do nadrodziny hydrolaz, zwanej SGNH hydrolases. Metoda ta działa w oparciu o porównanie profili sekwencyjnych białek wzbogaconych o przewidywaną strukturę drugorzędową. Sekwencje białek rodziny DUF1574 zawierają wszystkie kluczowe elementy struktury drugorzędowej charakterystyczne dla foldu zdefiniowanego w bazie SCOP jako Flavodoxin-like fold. Ponadto wyróżniają się one całkowitym zachowaniem kilku katalitycznych reszt aminokwasowych, od których to pochodzi nazwa tej nadrodziny, a mianowicie: seryny (Ser), asparaginy (Asn) i histydyny (His). Miejsce glicyny zajmuje valina (Val). Dodatkowo występowanie spolaryzowanej, zawierającej trzy reszty aminokwasowe (m.in. kwas asparaginowy (Asp)) tzw. „dziury anionotlenowej” wskazuje na fakt, iż mechanizm katalizy analizowanych białek hipotetycznych jest typowy dla hydrolaz SGNH.. . LITERATURA [1] Altschul S. F., Madden T. L., Schaffer A. A., Zhang J., Zhang Z., Miller W., Lipman D. J., Nucleic Acids Research, 25, 3389-3402 (1997). [2] A. Bateman, L. Coin, R. Durbin, R. D. Finn, V. Hollich, S. Griffiths-Jones, A. Khanna, M. Marshall, S. Moxon, E. L. Sonnhammer, D. J. Studholme, C. Yeats and S. R. Eddy, Nucleic Acids Res. 32, D138 (2004). [3] Ginalski K., Grotthuss M., Grishin N. V., Rychlewski L., Nucleic Acids Research, 32, 576-581 (2004). [4] K. Ginalski, A. Elofsson, D. Fischer and L. Rychlewski, Bioinformatics 19, 1015 (2003). [5] Pei J., Sadreyev R., Grishin N. V., Bioinformatics, 12, 19(3):427-8 (2003). [6] Casimir C.A., Guan-Chiun Lee, Yen-Chywan Liaw, Tai-Huang Huang, Jei-Fu Shaw, Progress in Lipid Research, 43, 534-552 (2004). [7] Yu-Chih Lo, Su-Chang Lin, Jei-Fu Shaw, Yen-Chywan Liaw, J. Mol. Biol., 330, 539-551 (2003).