Filogenetyka - Marcin Filipecki

Transkrypt

Filogenetyka - Marcin Filipecki
Filogenetyka
Dr inż. Magdalena Święcicka, dr hab. Marcin Filipecki
Katedra Genetyki, Hodowli i Biotechnologii
Roślin, SGGW
Filogenetyka


Cel – rekonstrukcja historii ewolucji
wszystkich organizmów
Klasyczne podejście:
historia ewolucji jest odtwarzana na
podstawie porównań cech
morfologicznych i fizjologicznych
badanych organizmów.
Filogenetyka


Molekularne podejście:
zadaniem filogenetyki molekularnej jest
zrekonstruowanie związków filogenetycznych między
badanymi sekwencjami
Podstawowe założenie w filogenetyce molekularnej:
 sekwencje
przodka mutują w sekwencje potomków
 podobne gatunki są genetycznie blisko spokrewnione
Mechanizmy ewolucji


Mutacje w genach
Mutacje są rozprzestrzeniane w
populacji poprzez dryf genetyczny i/lub
selekcję naturalną
Duplikacja i rekombinacja genów


tempo mutacji zależy od regionu w genomie, genie, rodzaju genu;
częściej obserwuje się podstawienia w III pozycji kodonów;
CCG (prolina) zmiana G na jakikolwiek nt nie powoduje zmiany
aminokwasu
CTG (leucyna) zmiana C-T nie powoduje zmian




zmiana SYNONIMICZNA
zmiana NIESYNONIMICZNA
częściej obserwuje się podstawienia typu tranzycji (purynapuryna, pirymidyna-pirymidyna) niż transwersji;
częściej obserwowane są podstawienia między aminokwasami
podobnymi do siebie, ze względu na swoje właściwości
biochemiczne, biofizyczne, np.:
izoleucyna – lecyna
walina – izoleucyna
Kwas asparaginowy – kwas glutaminowy
Symbol
3-literowy
OBOWIĄZUJĄCE SYMBOLE AMINOKWASÓW
znaczenie
kodony
A
B
Ala
Asp, Asn
Alanina
Asparagina, Asparaginian
GCT, GCC, GCA, GCG
GAT, GAC, AAT, AAC
C
D
E
F
G
H
I
K
L
M
N
P
Q
R
S
T
V
W
X
Y
Z
Cys
Asp
Glu
Phe
Gly
His
Ile
Lys
Leu
Met
Asn
Pro
Gln
Arg
Ser
Thr
Val
Trp
Xxx
Tyr
Glu, Gln
Cysteina
Asparaginian
Glutaminian
Fenyloalanina
Glicyna
Histydyna
Izoleucyna
Lizyna
Leucyna
Metionina
Asparagina
Prolina
Glutamina
Arginina
Seryna
Treonina
Walina
Tryptofan
Nieznany
Tyrozyna
Glutaminian, Glutamina
TGT, TGC
GAT, GAC
GAA, GAG
TTT, TTC
GGT, GGC, GGA, GGG
CAT, CAC
ATT, ATC, ATA
AAA, AAG
TTG, TTA, CTT, CTC, CTA, CTG
ATG
AAT, AAC
CCT, CCC, CCA, CCG
CAA, CAG
CGT, CGC, CGA, CGG, AGA, AGG
TCT, TCC, TCA, TCG, AGT, AGC
ACT, ACC, ACA, ACG
GTT, GTC, GTA, GTG
TGG
*
End
Terminator
TAA, TAG, TGA
TAT, TAC
GAA, GAG, CAA, CAG


rzadko obserwuje się podstawienia między
aminokwasami bardzo różniącymi się swoimi
właściwościami:
tryptofan – izoleucyna
rzadko obserwuje się podstawienia między
aminokwasami pełniącymi ważne role w białkach:
tryptofan (TGG) na kodon stop (TAG)

mutacje missens – jeden aminokwas zastępowany
innym

mutacje nonsens – terminacja translacji

zmiana ramki odczytu
Wyrazem analiz filogenetycznych są drzewa
filogenetyczne
między cząsteczkami – drzewo genów
lub organizmami – drzewo gatunków
Korzeń – wspólny przodek dla wszystkich taksonów
Gałąź – obrazuje związki ewolucyjne między
porównywanymi jednostkami taksonomicznymi
Długość gałęzi – zazwyczaj reprezentuje liczbę zmian,
które się zdarzyły w danej linii ewolucyjnej
Węzeł – reprezentuje miejsce rozgałęzień jednostek
taksonimicznych (populacji, organizmu, genu).
Liść – reprezentuje aktualnie analizowaną jednostkę
taksonomiczną

Drzewa ukorzenione i nieukorzenione

znany wspólny przodek lub istnieje hipoteza na temat
wspólnego przodka / nieznany wspólny przodek

Topologia drzewa

Długość gałęzi (czas ewolucji, ilość zmian)
Przykładowe drzewa filogenetyczne
Po co konstruuje się drzewa filogenetyczne?
•Poznanie i zrozumienie historii ewolucyjnej
•Mapowanie różnicowania szczepów patogennych do
opracowania szczepionek
•Wsparcie dla epidemiologów
– Choroby infekcyjne
– Defekty genetyczne
• Narzędzie do przewidywania funkcji nowo odkrytych
genów
• Badania różnicowania układów biologicznych
• Poznanie ekologii mikroorganizmów
Filogenetyka zwana jest czasem kladystyką
Klad – zbiór potomków pochodzących od pojedynczego przodka
Podstawowe założenia kladystyki:
1.
każda grupa organizmów jest spokrewniona przez
pochodzenie od wspólnego przodka
2. kladogeneza ma charakter bifurkacyjny (rozwidlający się)
3. zmiany w cechach pojawiają się w liniach
filogenetycznych z upływem czasu
Drzewo genów: bifurkacja – mutacja
Drzewo gatunków: bifurkacja – specjacja
Mutacja –
warunek niezbędny, ale nie zawsze wystarczający do
specjacji
Często zapominamy o:
I
Domniemany znak równości między podobieństwem
zestawu cech (np. nukleotydów), a pochodzeniem
II Mutacje somatyczne ≠ mutacje genetyczne
Mutacja – DNA lub białka wydziela się z tkanek
somatycznych, dla filogenezy istotne są tylko mutacje
w gametach
III Cechy używane do budowy drzewa gatunków mają
się nijak do cech używanych do budowy drzewa
genów
Cechy, które mogą być użyte do budowy drzewa rzędów owadów:
Poruszanie się
Okrycie stwardniałym oskórkiem lub kokonem,
Widoczność niezupełnie rozwiniętych narządów
Widoczność niecałkowicie wykształconych i nie funkcjonujących
odnóży,
Widoczność zawiązków skrzydeł
Widoczność aparatu gębowego
Zdolność do aktywnego poruszania się
Pełne wykształcenie narządów lokomotorycznych
Pełne wykształcenie zmysłów
Obecność członowanych odnóży krocznych
Liczba członowanych odnóży krocznych
Obecność pseudopodiów
Liczba pseudopodiów
Geny, które bierze się najczęściej do budowy drzew genów:
Cytochrom B
NADH dehydrogenase subunit I (ND1)
18S RNA
28S RNA
Horyzontalny transfer genów
Niektóre domyślne założenia kladystyki:
• sekwencje są poprawne
• sekwencje są homologiczne
Podobieństwo – to wielkość obserwowalna, którą można
określić np. jako % identycznych aminokwasów.
Homologia – określa wspólne pochodzenie porównywanych
genów (to może być wniosek wyciągnięty z analizy
podobieństwa)
Termin homologiczne oznacza odziedziczone po
wspólnym przodku
Niektóre domyślne założenia kladystyki (cd):
• każda pozycja w sekwencjach dopasowanych (alignment)
jest homologiczna z każdą odpowiednią pozycją w tym
dopasowaniu
• różnorodność sekwencji w danym zbiorze jest na tyle
duża, że zawiera filogenetyczne sygnały, odpowiednie do
rozwiązania postawionego problemu
Jakich sekwencji użyć ?
•DNA (mt, rDNA, powoli czy szybko ewoluujące)
– Bardzo szczegółowe, niejednolite tempo mutacji
•cDNA/RNA
– Użyteczne dla bardziej odległych sekwencji homologicznych
•Sekwencje białkowe
– Użyteczne do badania większości odległych sekwencji
homologicznych, możliwość konstrukcji bardzo rozległych
ewolucyjnie drzew, bardziej jednolite tempo zmienności
mutacyjnej, więcej elementów zmienności
Sekwencje rybosomowego 16S RNA
•Występują we wszystkich organizmach
•Są wysoce konserwatywne
•Nadają się do konstruowania bardzo rozległych
ewolucyjnie drzew
•Znane dla kilkudziesięciu tysięcy organizmów, głównie
prokariotycznych
Jacek Leluk
Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski
Co jest obliczane?





Topologia drzewa
–porządek (kolejność) odgałęzień i korzeń
Długość odgałęzień (czas ewolucji)
Sekwencje przodków
Wartości pokrewieństwa (np.
prawdopodobieństwo poszczególnych przemian)
Wiarygodność drzewa
Dopasowywanie sekwencji
(Multiple Sequence Alignment)
• Dopasowanie spokrewnionych sekwencji w taki
sposób, żeby odpowiadające sobie pozycje
znajdowały się w tej samej kolumnie
• Wypełnienie brakujących miejsca kreskami
(delecje, insercje)
• Każda kolumna znaków staje się pojedynczym
elementem do dalszych obliczeń filogenetycznych
Jacek Leluk
Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski
Dopasowanie i porównanie wielu sekwencji

Celem porównania wielu sekwencji jest ułożenie w
kolumnach aminokwasów (nukleotydów) pochodzących
od jednego aminokwasu (nukleotydu) w białku (genie)
wspólnego przodka we wszystkich sekwencjach od
niego pochodzących.
Wstawienie przerwy
Porównanie parami
Porównanie parami wszystkich sekwencji
- seq_1 & seq_ 2  0.91
 seq_ 1 & seq_ 3  0.23
 …
 seq_ 8 & seq_ 9  0.87
Porównanie wielu sekwencji


W oparciu o dendrogram przewodni zaczyna
się porównywanie grup sekwencji.
Drzewo przewodnie wskazuje, które
sekwencje są najbliższe – a więc najpierw
porównuje się te „łatwe”, a trudniejsze
zostawia się na potem.
Sekwencje nieułożone
a
b
c
d
e
mthislgslyshktaktingsdeaskmewhf
mthvslgsmyshktgrtingsdqaskkmewhy
mshisitmyshktartidgseqaskmewhy
mthipigsmyshktaravngseqasklqwhy
mthipigsmystartincseqasklewhy
Porównanie wielu sekwencji
C
D
mthipigsmyshktaravngseqasklqwhy
E
mthipigsmys--tartincseqasklewhy
A
B
Porównanie wielu sekwencji
C
D
mthipigsmyshktaravngseqasklqwhy
E
mthipigsmys--tartincseqasklewhy
A
mthislgslyshktaktingsdeas-kmewhf
B
mthvslgsmyshktgrtingsdqaskkmewhy
Porównanie wielu sekwencji
C
mshisi-tmyshktartidgseqaskmewhy
D
mthipigsmyshktaravngseqasklqwhy
E
mthipigsmys--tartincseqasklewhy
A
mthislgslyshktaktingsdeas-kmewhf
B
mthvslgsmyshktgrtingsdqaskkmewhy
Porównanie wielu sekwencji
C
mshisi-tmyshktartidgseqas-kmewhy
D
mthipigsmyshktaravngseqas-klqwhy
E
mthipigsmys--tartincseqas-klewhy
A
mthislgslyshktaktingsdeas-kmewhf
B
mthvslgsmyshktgrtingsdqaskkmewhy
Sekwencje ułożone
a
b
c
d
e
mthislgslyshktaktingsdeas-kmewhf
mthvslgsmyshktgrtingsdqaskkmewhy
mshisi-tmyshktartidgseqas-kmewhy
mthipigsmyshktaravngseqas-klqwhy
mthipigsmys--tartincseqas-klewhy
Metody obliczeniowe konstruowania drzew
filogenetycznych
• Metody analizy odległościowe (distance methods)
– met. średnich połączeń – (UPGMA; unweighted pair group method
with arithmetic mean,
- met. przyłączania sąsiadów (NJ; neighbor joining)
- met. Fitch-Margoliash (FM)
- met. minimalnych odległości (ME)
• Metody oparte na cechach (character based methods)
- met. największej oszczędności (MP; Maximum Parsimony)
- met. największej wiarygodności (ML; Maximum Likelihood)
• Łączenie drzew - drzewa konsensusowe, superdrzewa
Budowa dendrogramu przewodniego
Skonstruowanie dendrogramu przewodniego w
oparciu o porównania parami
 Metoda
średnich połączeń - UPGMA – unweighted pair
group method with arithmetic mean (PileUp & Clustal
V)
 Metoda
przyłączania sąsiada - Neighbor-Joining (NJ)
(Clustal W, Clustal X)
Metody odległościowe


Odległość wyrażana jest w ułamkach
miejsc, którymi różnią się między sobą 2
sekwencje w wielokrotnym przyrównaniu
Para sekwencji różniąca się w 10% miejsc
jest bliżej spokrewniona niż para różniąca
się w 30%.
Metody odległościowe
przodek
A
A
A
linia potomna
C – A
C – G
C
C
liczba zmian
0
1
0
Metoda nieważona grupowania parami ze średnią
arytmetyczną UPGMA



program znajduje najpierw parę taksonów, którą
dzieli najmniejsza różnica i ustala punkt
rozejścia między nimi, czyli węzeł, w połowie
odległości.
łączy je w klaster i wpisuje do nowej macierzy
odległości dzielące ten klaster od pozostałych
powtarzanie tych etapów, aż macierz zostanie
zredukowana do 1 obiektu
A B C
1.
D E
A
0 6
9 11 9
B
6 0
7
9 7
C
9 7
0
8 6
D 11 9
8
0 4
E
6
4 0
3.
9 7
AB C DE
AB
C
DE
0
8
9
8
0
7
9
7
0
A B C DE
2.
A
0 6
9
10
D
B
6 0
7
8
E
C
9 7
0
7
A
DE 10 8
7
0
B
D
E
C
D
E
4.
AB CDE
AB
0
8.5
CDE
8.5
0
C
D
E
A
A
B
B
UPGMA


Hipoteza zegara molekularnego – ewolucja
różnych gatunków zachodzi w takim samym
tempie (FAŁSZ)
Rzadko używana metoda przez filogenetyków,
nadal popularna w epidemiologii
drobnoustrojów
Metody odległościowe – przyłączanie
sąsiadów (NJ)


umożliwia konstruowanie nieukorzenionych drzew
drzewa addytywne – odległość pomiędzy
gatunkami reprezentowanymi przez liście drzewa
są równe sumie długości łączących je gałęzi
(odległości od obu taksonów do węzła nie muszą
być identyczne)
i
n
j
Metody oparte na cechach

metoda największej oszczędności (MP)

metoda największej wiarygodności (ML)
Metoda największej oszczędności (MP)

Metoda parsymonii (oszczędności) –
najodpowiedniejsze jest takie drzewo, w
którym potrzebujemy najmniejszej liczby
zmian do wyjaśnienia danych występujących
jako przyrównanie sekwencji.
Kryterium parsymonii
Które drzewo jest najprostszym wytłumaczeniem
obserwowanego zróżnicowania cechy między gatunkami?
+ wykształcenie się cechy
* utracenie cechy
+
+
+ +
*
A
B
C D
A
D C
B
A
C D B
Metoda największej wiarygodności


Poszukiwanie drzewa, które zgodnie z określonym
modelem ewolucji maksymalnie uwiarygodnia dane.
Wiarygodność obliczamy dla:




topologii drzewa
długości gałęzi
wartości wskaźników tempa podstawień (częstość występowania
zasady, liczba tranzycji / liczby transwersji)
Wyznaczenie wartości ML może posłużyć do utworzenia
rankingu alternatywnych drzew.
Metoda bootstrap



Pozwala oszacować wiarygodność rozgałęzień w
drzewach
Porównuje topologię drzewa dla losowo
wygenerowanych dopasowań sekwencji (100 –
1000 dopasowań)
Drzewo z wartościami bootstrap (odsetek
wygenerowanych drzew, w których obserwowano
dokładnie takie samo rozgałęzienie linii
ewolucyjnych)
Dobór właściwego algorytmu
•Niedyskretny charakter zmiennych jednostek, duża ilość
danych, niewielkie zasoby obliczeniowe ==> Metoda
najbliższego sąsiedztwa (Neighbor joining)
•Dyskretny charakter zmiennych, niewielka liczba
mutacji/homoplazja ==> Maximum Parsimony
•Dyskretny charakter zmiennych, ograniczona długość
sekwencji, występowanie zjawiska homoplazji
==>Maximum Likelihood
• Dyskretny charakter zmiennych, wiele gatunków
==>Superdrzewo
•Kompletne genomy ==>Filogeneza całych genomów