Analiza rozkładu wariantów genów na chromosomach (PDF

Transkrypt

Analiza rozkładu wariantów genów na chromosomach (PDF
XV KBiIB 2007
Analiza rozkładu wariantów genów na chromosomach
Robert Nowak
Instytut Systemów Elektronicznych, Politechnika Warszawska,
ul. Nowowiejska 15/19, 00-665 Warszawa
[email protected]
Streszczenie: Praca przedstawia algorytm estymujacy
˛ prawdopodobieństwa haplotypów na podstawie danych populacyjnych. Może być on stosowany dla polimorfizmów posiadajacych
˛
oraz nie posiadajacych
˛
kodominujace
˛ formy dziedziczenia. Przedstawiono model matematyczny uwzgl˛edniajacy
˛ oba przypadki oraz modyfikacj˛e algorytmu ExpectationMaximalisation. Opisane testy, przeprowadzone na sztucznie generowanych, niezaszumionych danych populacyjnych wykazuja˛ znaczna˛ popraw˛e uzyskiwanych wyników dla loci zawierajacych
˛
niemy wariant.
Abstract: The article presents the algorithm to estimate haplotype frequencies using genotype data from unrelated individuals. It can be applied to loci with a codominant allele(s) and/or a silent (null) allels (as often happens with KIR
loci). The mathematical model and an expanded Expectation-Maximalisation algorithm is described. The comparison with
known algorithms, demonstrated on simulated population data, provides an improvement in estimating the frequencies in
polymorphisms where the silent allels occurs.
Słowa kluczowe: modele matematyczne, haplotypy, algorytmy
1. Wst˛ep
Analiza rozkładu wariantów genów na chromosomach, zwana dalej badaniem rozkładu haplotypów, jest
metoda˛ stosowana˛ powszechnie przy wykrywaniu i diagnozowaniu wielu chorób.
Analiz˛e taka˛ można stosunkowo łatwo wykonać majac
˛ do dyspozycji wielopokoleniowe rodziny, jednak
takiego podejścia nie stosuje si˛e, ze wzgl˛edu na problemy ze zbieraniem materiału.
W celu umożliwienia ustalania haplotypów bez udziału analizy rodzinnej opracowano szereg metod bazujacych
˛
na probabilistycznej analizie danych populacyjnych. Analiza kombinatoryczna zadania pokazuje,
że liczba przypadków rośnie wykładniczo wraz z liczba˛ obserwowanych loci, wi˛ec w praktyce nie jest możliwe analityczne wyznaczenie prawdopodobieństw rozkładu haplotypów. W zwiazku
˛
z tym algorytmy wyznaczajace
˛ te wielkości bazuja˛ na metodach przybliżonych. Najcz˛eściej stosowanym algorytmem jest EM
(expectation-maximization) [3], który pozwala znaleźć lokalne maksimum nieznanych parametrów rozkładu
(tutaj prawdopodobieństwa haplotypów).
Znane z literatury narz˛edzia statystyczne do analizy rozkładu haplotypów [2] wymagaja,˛ aby analizowane
polimorfizmy miały kodominujac
˛ a˛ form˛e dziedziczenia. Olbrzymia wi˛ekszość obecnie badanych polimorfizmów spełnia to ograniczenie, ale dla polimorfizmu polegajacego
˛
na braku lub obecności genów istniejace
˛
metody daja˛ wyniki obarczone dużym bł˛edem, wi˛ec cz˛esto sa˛ bezużyteczne. Konieczne jest opracowanie
nowych algorytmów, które uwzgl˛edniaja˛ specyficzne właściwości takich przypadków.
Praca zawiera opis algorytmu, który uwzgl˛ednia możliwość wyst˛epowania loci posiadajacych
˛
oraz nie
posiadajacych
˛
kodominujacej
˛ formy dziedziczenia. B˛edzie on wykorzystany do analizy rozkładu receptorów
immunoglobulinopodobnych limfocytów (KIR - Killer cell Immunoglobin like Receptors). Polimorfizm KIR
jest istotny z medycznego punktu widzenia, ponieważ moduluje podatność na szereg schorzeń np. łuszczycy,
raka szyjki macicy. Prezentowane rozwiazanie
˛
rozszerza opis locus o tzw. niemy wariant (niemy allel), co
pozwala uwzgl˛ednić przypadki braku kodominujacej
˛ formy dziedziczenia. Na tej podstawie stworzono nowy
model matematyczny i opracowano rozszerzenie algorytmu EM.
2. Model matematyczny
2.1. Opis uwzgl˛edniajacy
˛ nieme allele
Algorytmy obliczajace
˛ rozkład haplotypów dla organizmów diploidalnych, przy założeniu jedynie kodominujacej
˛ formy dziedziczenia posługuja˛ si˛e nast˛epujacym
˛
opisem [3]: liczba˛ analizowanych loci k, liczba˛
XV KBiIB 2007
wariantów (alleli) li dla każdego loci i. Bada si˛e wi˛ec H = ∏ki=1 li różnych haplotypów, liczba różnych rozkładów haplotypów to R = 21 H ∗ (H + 1), zaś liczba obserwowanych genotypów G = 12 ∏ki=1 li (li + 1). Dla
danego genotypu j liczba organizmów, które maja˛ różny rozkład haplotypów, oznaczana przez r j , jest wykładniczo zależna od liczby obserwowanych heterozygot.
Przedstawiony algorytm wykorzystuje rozszerzony opis, aby uwzgl˛ednić także loci nie posiadajace
˛ kodominujacej
˛ formy dziedziczenia. Takie loci b˛eda˛ zawierały tzw. niemy wariant. Dla takiego opisu liczba
haplotypów H oraz liczba rozkładów R nie zmienia si˛e, natomiast zmniejszeniu ulega liczba możliwych do
zaobserwowania genotypów (1).
(li − δi )(li + 1 − δi ) + 2δi
G =∏
, δi =
2
i=1
k
1
0
loci posiada niemy allel
w przeciwnym wypadku
(1)
Dla danego genotypu j zwi˛ekszeniu ulega średnia liczba odpowiadajacych
˛
mu rozkładów haplotypów r j
(2), gdzie liczb˛e obserwowanych heterozygot oznaczono przez s j , zaś t j oznacza liczb˛e obserwowanych
wariantów, które nie sa˛ nieme dla loci posiadajacych
˛
niemy allel.
(
2s j −1 ∗ 3t j dla s j > 0
(2)
rj =
3t j +1
dla s j = 0
2
Rozszerzony opis organizmu, zawierajacy
˛ oprócz liczby analizowanych loci k i liczby wariantów dla
każdego locus li także informacj˛e o tym, czy locus posiada niemy allel, stanowi dane wejściowe dla opisanego
algorytmu optymalizacyjnego.
2.2. Analiza bazujaca
˛ na danych populacyjnych
Majac
˛ dane obserwacje n osobników, dla G genotypów S = (n1 , n2 , ..., nG ), gdzie n j jest liczba˛ obserwacji
genotypu j oraz ∑Gj=0 n j = n, należy oszacować prawdopodobieństwa hi poszczególnych haplotypów, tak aby
obserwacja była maksymalnie prawdopodobna (5).
Zakładajac
˛ niezależność doboru osobników (niezależność próbkowania), można uzależnić prawodopodobieństwo obserwacji S od prawdopodobieństw wystapienia
˛
poszczególnych genotypów gi (3), współczynnik α nie jest zależny od szacowanych prawdopodobieństw.
P(S |g1 , g2 , ..., gG ) =
F
G
n!
n
n
∗ ∏ gjj = α ∏ gjj
n1 ! ∗ n2 ! ∗ ... ∗ nG ! j=1
j=1
(3)
Przy założeniu równowagi Hardy-Weinberga, prawdopodobieństwo genotypu g j można wyrazić poprzez
prawdopodobieństwa odpowiednich rozkładów haplotypów (4), gdzie zmn oznacza prawdopodobieństwo rozkładu składajacego
˛
si˛e z haplotypów m oraz n, hm , hn prawdopodobieństwo poszczególnych haplotypów, zaś
r j jest liczba˛ rozkładów odpowiadajacych
˛
określonemu genotypowi.
rj
gj =
∑ zmn , gdzie zmn =
i=0
h2m
2 hm hn
dla m = n
dla m 6= n
(4)
Podsumowujac,
˛ zadaniem optymalizacyjnym jest rozwiazanie
˛
zależności (5).
G
arg max P(S |h1 , h2 , ..., hH ) = arg max
h1 ,h2 ,...,hH
rj
∏ ( ∑ zmn )
h1 ,h2 ,...,hH j=1 i=0
nj
, gdzie zmn =
h2m
2 hm hn
dla m = n
dla m 6= n
(5)
3. Opis algorytmu
Określone w (5) zadanie optymalizacyjne, które nie może być rozwiazane
˛
analitycznie ze wzgl˛edu na wykładnicza˛ złożoność obliczeniowa,˛ b˛edzie rozwiazywane
˛
przy pomocy algorytmu expectation-maximization
(EM), przedstawionego w [1]. Algorytm ten został z powodzeniem zaadoptowany do obliczania rozkładów
haplotypów bez niemych alleli ([3]), zaś poniżej zostanie przedstawiona jego adaptacja dla rozszerzonego
opisu uwzgl˛edniajacego
˛
nieme warianty. Algorytm EM jest iteracyjnym algorytmem znajdujacym
˛
lokalne
XV KBiIB 2007
maksimum, szacuje on nieznane parametry (krok E (t) ), a nast˛epnie wykorzystuje szacowanie aby zmaksymalizować prawdopodobieństwo obserwowanych danych (krok M (t) ), co pozwala na lepsze szacowanie w
kolejnym E (t+1) kroku.
Poniżej przedstawiono szczegółowo poszczególne kroki algorytmu, który szacuje prawdopodobieństwa
poszczególnych haplotypów na podstawie opisu organizmu oraz obserwacji S = (n1 , n2 , ..., nG ).
3.1. Inicjacja
Poczatkowe
˛
wartości prawdopodobieństw rozkładu haplotypów (krok E 0 ) sa˛ generowane biorac
˛ pod
(0)
1
uwag˛e liczb˛e różnych rozkładów odpowiadajacych
˛
genotypowi, czyli zmn = r j gdzie rozkład haplotypów mn
odpowiada genotypowi j.
3.2. Krok M
Szacuje prawdopodobieństwa wyst˛epowania poszczególnych genotypów jako sum˛e prawdopodobieństw
rozkładów haplotypów odpowiadajacych
˛
danemu genotypowi, a nast˛epnie wyznacza si˛e nowe wartości prawdopodobieństw rozkładu haplotypów, uwzgl˛edniajac
˛ dany zbiór obserwacji (6).
(t+1)
zmn
(t)
=
r
j
n j zmn
(t)
(t)
∗ (t) , gdzie rozkład mn daje genotyp j, g j = ∑ zx
n g
x
j
(6)
3.3. Krok E
Prawdopodobieństwa poszczególnych haplotypów hm sa˛ szacowane na podstawie prawdopodobieństw
rozkładów haplotypów zmn , w których wyst˛epuje dany haplotyp. Nast˛epnie wykorzystuje si˛e obliczone wartości do wyznaczenia prawdopodobieństw rozkładów haplotypów w kolejnym kroku (7).
(
(t)
1
(hm )2
dla m = n
(t)
(t+1)
(t)
(t)
gdzie hm = (∑ zim + ∑ zm j )
zmn =
(7)
(t) (t)
2
2 hm hn
dla m 6= n
j
i
3.4. Warunek stopu
Algorytm kończy swoje działanie, jeżeli zmiana szacowanych prawdopodobieństw haplotypów w kolejnych krokach jest mniejsza niż założona wartość (8).
R
∑ |zi
(t+1)
(t)
− zi | < ε
(8)
i=1
3.5. Badanie prawdopodobieństwa warunkowego rozkładu haplotypów dla danego genotypu
Znajac
˛ prawdopodobieństwa haplotypów można wyznaczyć, korzystajac
˛ z definicji, warunkowe prawdopodobieństwo poszczególnych rozkładów haplotypów dla określonego genotypu (9).
zmn |g j =
zmn
zmn
= rj
gj
∑x zx
(9)
4. Badania
Przedstawiony algorytm został zaimplementowany w C++, zgodnie z metodologia˛ Extreme Programming i testowany (na platformach Windows, Linux, Sun) dla sztucznie generowanych, pozbawionych zakłóceń danych populacyjnych. Dla przypadków zawierajacych
˛
jedynie kodominujac
˛ a˛ forma dziedziczenia,
wyniki sa˛ zbliżone do istniejacych
˛
rozwiazań
˛
[2], natomiast w przypadkach polimorfizmów zawierajacych
˛
loci z nie-kodominujac
˛ a˛ forma˛ dziedziczenia wyniki sa˛ znacznie lepsze, ponieważ algorytm uwzgl˛ednia wyst˛epowanie niemych alleli. Poniżej przedstwiono kilka testowanych przypadków.
4.1. Przypadek jednego niemego wariantu
Badane sa˛ 2 loci (oznaczane przez A i B), locus A ma dwa warianty A0 (niemy wariant) oraz A1, locus
B (brak niemego allela) ma dwa warianty B1 i B2. Poniżej (tab. 1) pokazano możliwe do zaobserwowania
genotypy oraz rozkłady haplotypów, które im odpowiadaja.˛ Wyniki obliczeń sa˛ przedstawione w tab. 2.
XV KBiIB 2007
Tabela 1. Genotypy i rozkłady haplotypów dla omawianego przypadku
genotyp
A1B1
A1B1B2
A1B2
A0B1
A0B1B2
A0B2
rozkłady haplotypów
A1B1/A1B1, A1B1/A0B1
A1B1/A1B2, A1B1/A0B2, A1B2/A0B1
A1B2/A1B2, A1B2/A0B2
A0B1/A0B1
A0B1/A0B2
A0B2/A0B2
liczba rozkładów: ri
2
3
2
1
1
1
Tabela 2. Porównanie aplikacji szacujacych
˛
prawdopodobieństwa haplotypów. Wygenerowano 25 obserwacji: A1B1(3),
A1B1B2(8), A1B2(5), A0B1(1), A0B1B2(4), A0B2(4). Arlequin - wyniki dostarczane przez program [2], NullHap - wyniki uzyskiwane przez opisywana˛ aplikacj˛e.
haplotyp
A0B1
A0B2
prawdopodobieństwa hi
założone
Arlequin
NullHap
0.2
0.23
0.2
0.4
0.45
0.4
haplotyp
A1B1
A1B2
prawdopodobieństwa hi
założone
Arlequin
NullHap
0.2
0.17
0.2
0.2
0.14
0.2
4.2. Przypadek wielu niemych wariantów
Badane sa˛ 3 loci: każde z nich ma dwa trzy warianty w tym jeden niemy (oznaczany przez A0, B0 lub
C0). Można obserwować 8 różnych genotypów: A0B0C0, A0B0C1, A0B1C0, A0B1C1, A1B0C0, A1B0C1,
A1B1C0, A1B1C1, szacowanie prawdopodobieństwa zostały pokazane w tab. 3.
Tabela 3. Porównanie aplikacji szacujacych
˛
haplotypy dla omawianego przypadku.
haplotyp
A0B0C0
A0B0C1
A0B1C0
A0B1C1
prawdopodobieństwa hi
założona
Arlequin
NullHap
0.2
0.50
0.2
0.1
0.03
0.1
0.1
0.03
0.1
0.1
0.06
0.1
haplotyp
A1B0C0
A1B0C1
A1B1C0
A1B1C1
prawdopodobieństwa hi
założona
Arlequin
NullHap
0.1
0.03
0.1
0.1
0.06
0.1
0.1
0.06
0.1
0.2
0.22
0.19
4.3. Przypadek braku niemych wariantów
Badany organizm opisany przez 2 loci: A i B, każde locus po dwa allele. Założone prawdopodobieństwa haplotypów to: A1B1(0.2), A1B2(0.3), A2B1(0.2), A2B2(0.3); generowane sa˛ obserwacje z podanym
prawdopodobieństwem: A1B1, A1B1B2, A1B2, A1A2B1, A1A2B1B2, A1A2B2, A2B1, A2B1B2, A2B2.
Dla obu badanych programów (Arlekin, NullHap) wyniki sa˛ zbliżone, prawdopodobieństwo haplotypów jest
estymowane bezbł˛ednie.
5. Wnioski
Zastosowanie istniejacych
˛
metod (zakładajacych
˛
kodominujac
˛ a˛ form˛e dziedziczenia) ustalania rozkładu
haplotypów daje niedokładne wyniki przy badaniu niektórych polimorfizmów (np. polimorfizmów KIR).
Zastosowanie opisanego algorytmu, który uwzgl˛ednia wyst˛epowanie niemych wariantów, pozwala znacznie
poprawić wyniki obliczeń.
Aplikacja b˛edzie stosowana dla polimorfizmów, które maja˛ loci zawierajace
˛ nieme allele, w szczególności b˛edzie badany wpływ genów KIR na rozwój łuszczycy.
6. Literatura
[1] A. Dempster, N. Laird, D. Rubin. Maximum likelihood from incomplete data via the em algorithm.
Journal of the Royal Statistical Society, 39, 1–39, 1977
[2] L. Excoffier, G. Laval, S. Schneider. Arlequin ver. 3.0: An integrated software package for population
genetics data analysis. Evolutionary Bioinformatics Online, 1, 47–50, 2005
[3] L. Excoffier, M. Slatkin. Maximum-likehood estimation of molecular haplotype frequencies in a
diploid population. Mol. Biol. Evol., 12, 921–927, 1995