Analiza rozkładu wariantów genów na chromosomach (PDF

Transkrypt

XV KBiIB 2007
Analiza rozkładu wariantów genów na chromosomach
Robert Nowak
Instytut Systemów Elektronicznych, Politechnika Warszawska,
ul. Nowowiejska 15/19, 00-665 Warszawa
[email protected]
Streszczenie: Praca przedstawia algorytm estymujacy
˛ prawdopodobieństwa haplotypów na podstawie danych populacyjnych. Może być on stosowany dla polimorfizmów posiadajacych
˛
oraz nie posiadajacych
˛
kodominujace
˛ formy dziedziczenia. Przedstawiono model matematyczny uwzgl˛edniajacy
˛ oba przypadki oraz modyfikacj˛e algorytmu ExpectationMaximalisation. Opisane testy, przeprowadzone na sztucznie generowanych, niezaszumionych danych populacyjnych wykazuja˛ znaczna˛ popraw˛e uzyskiwanych wyników dla loci zawierajacych
˛
niemy wariant.
Abstract: The article presents the algorithm to estimate haplotype frequencies using genotype data from unrelated individuals. It can be applied to loci with a codominant allele(s) and/or a silent (null) allels (as often happens with KIR
loci). The mathematical model and an expanded Expectation-Maximalisation algorithm is described. The comparison with
known algorithms, demonstrated on simulated population data, provides an improvement in estimating the frequencies in
polymorphisms where the silent allels occurs.
Słowa kluczowe: modele matematyczne, haplotypy, algorytmy
1. Wst˛ep
Analiza rozkładu wariantów genów na chromosomach, zwana dalej badaniem rozkładu haplotypów, jest
metoda˛ stosowana˛ powszechnie przy wykrywaniu i diagnozowaniu wielu chorób.
Analiz˛e taka˛ można stosunkowo łatwo wykonać majac
˛ do dyspozycji wielopokoleniowe rodziny, jednak
takiego podejścia nie stosuje si˛e, ze wzgl˛edu na problemy ze zbieraniem materiału.
W celu umożliwienia ustalania haplotypów bez udziału analizy rodzinnej opracowano szereg metod bazujacych
˛
na probabilistycznej analizie danych populacyjnych. Analiza kombinatoryczna zadania pokazuje,
że liczba przypadków rośnie wykładniczo wraz z liczba˛ obserwowanych loci, wi˛ec w praktyce nie jest możliwe analityczne wyznaczenie prawdopodobieństw rozkładu haplotypów. W zwiazku
˛
z tym algorytmy wyznaczajace
˛ te wielkości bazuja˛ na metodach przybliżonych. Najcz˛eściej stosowanym algorytmem jest EM
(expectation-maximization) [3], który pozwala znaleźć lokalne maksimum nieznanych parametrów rozkładu
(tutaj prawdopodobieństwa haplotypów).
Znane z literatury narz˛edzia statystyczne do analizy rozkładu haplotypów [2] wymagaja,˛ aby analizowane
polimorfizmy miały kodominujac
˛ a˛ form˛e dziedziczenia. Olbrzymia wi˛ekszość obecnie badanych polimorfizmów spełnia to ograniczenie, ale dla polimorfizmu polegajacego
˛
na braku lub obecności genów istniejace
˛
metody daja˛ wyniki obarczone dużym bł˛edem, wi˛ec cz˛esto sa˛ bezużyteczne. Konieczne jest opracowanie
nowych algorytmów, które uwzgl˛edniaja˛ specyficzne właściwości takich przypadków.
Praca zawiera opis algorytmu, który uwzgl˛ednia możliwość wyst˛epowania loci posiadajacych
˛
oraz nie
posiadajacych
˛
kodominujacej
˛ formy dziedziczenia. B˛edzie on wykorzystany do analizy rozkładu receptorów
immunoglobulinopodobnych limfocytów (KIR - Killer cell Immunoglobin like Receptors). Polimorfizm KIR
jest istotny z medycznego punktu widzenia, ponieważ moduluje podatność na szereg schorzeń np. łuszczycy,
raka szyjki macicy. Prezentowane rozwiazanie
˛
rozszerza opis locus o tzw. niemy wariant (niemy allel), co
pozwala uwzgl˛ednić przypadki braku kodominujacej
˛ formy dziedziczenia. Na tej podstawie stworzono nowy
model matematyczny i opracowano rozszerzenie algorytmu EM.
2. Model matematyczny
2.1. Opis uwzgl˛edniajacy
˛ nieme allele
Algorytmy obliczajace
˛ rozkład haplotypów dla organizmów diploidalnych, przy założeniu jedynie kodominujacej
˛ formy dziedziczenia posługuja˛ si˛e nast˛epujacym
˛
opisem [3]: liczba˛ analizowanych loci k, liczba˛
XV KBiIB 2007
wariantów (alleli) li dla każdego loci i. Bada si˛e wi˛ec H = ∏ki=1 li różnych haplotypów, liczba różnych rozkładów haplotypów to R = 21 H ∗ (H + 1), zaś liczba obserwowanych genotypów G = 12 ∏ki=1 li (li + 1). Dla
danego genotypu j liczba organizmów, które maja˛ różny rozkład haplotypów, oznaczana przez r j , jest wykładniczo zależna od liczby obserwowanych heterozygot.
Przedstawiony algorytm wykorzystuje rozszerzony opis, aby uwzgl˛ednić także loci nie posiadajace
˛ kodominujacej
˛ formy dziedziczenia. Takie loci b˛eda˛ zawierały tzw. niemy wariant. Dla takiego opisu liczba
haplotypów H oraz liczba rozkładów R nie zmienia si˛e, natomiast zmniejszeniu ulega liczba możliwych do
zaobserwowania genotypów (1).
(li − δi )(li + 1 − δi ) + 2δi
G =∏
, δi =
2
i=1
k
1
0
loci posiada niemy allel
w przeciwnym wypadku
(1)
Dla danego genotypu j zwi˛ekszeniu ulega średnia liczba odpowiadajacych
˛
mu rozkładów haplotypów r j
(2), gdzie liczb˛e obserwowanych heterozygot oznaczono przez s j , zaś t j oznacza liczb˛e obserwowanych
wariantów, które nie sa˛ nieme dla loci posiadajacych
˛
niemy allel.
(
2s j −1 ∗ 3t j dla s j > 0
(2)
rj =
3t j +1
dla s j = 0
2
Rozszerzony opis organizmu, zawierajacy
˛ oprócz liczby analizowanych loci k i liczby wariantów dla
każdego locus li także informacj˛e o tym, czy locus posiada niemy allel, stanowi dane wejściowe dla opisanego
algorytmu optymalizacyjnego.
2.2. Analiza bazujaca
˛ na danych populacyjnych
Majac
˛ dane obserwacje n osobników, dla G genotypów S = (n1 , n2 , ..., nG ), gdzie n j jest liczba˛ obserwacji
genotypu j oraz ∑Gj=0 n j = n, należy oszacować prawdopodobieństwa hi poszczególnych haplotypów, tak aby
obserwacja była maksymalnie prawdopodobna (5).
Zakładajac
˛ niezależność doboru osobników (niezależność próbkowania), można uzależnić prawodopodobieństwo obserwacji S od prawdopodobieństw wystapienia
˛
poszczególnych genotypów gi (3), współczynnik α nie jest zależny od szacowanych prawdopodobieństw.
P(S |g1 , g2 , ..., gG ) =
F
G
n!
n
n
∗ ∏ gjj = α ∏ gjj
n1 ! ∗ n2 ! ∗ ... ∗ nG ! j=1
j=1
(3)
Przy założeniu równowagi Hardy-Weinberga, prawdopodobieństwo genotypu g j można wyrazić poprzez
prawdopodobieństwa odpowiednich rozkładów haplotypów (4), gdzie zmn oznacza prawdopodobieństwo rozkładu składajacego
˛
si˛e z haplotypów m oraz n, hm , hn prawdopodobieństwo poszczególnych haplotypów, zaś
r j jest liczba˛ rozkładów odpowiadajacych
˛
określonemu genotypowi.
rj
gj =
∑ zmn , gdzie zmn =
i=0
h2m
2 hm hn
dla m = n
dla m 6= n
(4)
Podsumowujac,
˛ zadaniem optymalizacyjnym jest rozwiazanie
˛
zależności (5).
G
arg max P(S |h1 , h2 , ..., hH ) = arg max
h1 ,h2 ,...,hH
rj
∏ ( ∑ zmn )
h1 ,h2 ,...,hH j=1 i=0
nj
, gdzie zmn =
h2m
2 hm hn
dla m = n
dla m 6= n
(5)
3. Opis algorytmu
Określone w (5) zadanie optymalizacyjne, które nie może być rozwiazane
˛
analitycznie ze wzgl˛edu na wykładnicza˛ złożoność obliczeniowa,˛ b˛edzie rozwiazywane
˛
przy pomocy algorytmu expectation-maximization
(EM), przedstawionego w [1]. Algorytm ten został z powodzeniem zaadoptowany do obliczania rozkładów
haplotypów bez niemych alleli ([3]), zaś poniżej zostanie przedstawiona jego adaptacja dla rozszerzonego
opisu uwzgl˛edniajacego
˛
nieme warianty. Algorytm EM jest iteracyjnym algorytmem znajdujacym
˛
lokalne
XV KBiIB 2007
maksimum, szacuje on nieznane parametry (krok E (t) ), a nast˛epnie wykorzystuje szacowanie aby zmaksymalizować prawdopodobieństwo obserwowanych danych (krok M (t) ), co pozwala na lepsze szacowanie w
kolejnym E (t+1) kroku.
Poniżej przedstawiono szczegółowo poszczególne kroki algorytmu, który szacuje prawdopodobieństwa
poszczególnych haplotypów na podstawie opisu organizmu oraz obserwacji S = (n1 , n2 , ..., nG ).
3.1. Inicjacja
Poczatkowe
˛
wartości prawdopodobieństw rozkładu haplotypów (krok E 0 ) sa˛ generowane biorac
˛ pod
(0)
1
uwag˛e liczb˛e różnych rozkładów odpowiadajacych
˛
genotypowi, czyli zmn = r j gdzie rozkład haplotypów mn
odpowiada genotypowi j.
3.2. Krok M
Szacuje prawdopodobieństwa wyst˛epowania poszczególnych genotypów jako sum˛e prawdopodobieństw
rozkładów haplotypów odpowiadajacych
˛
danemu genotypowi, a nast˛epnie wyznacza si˛e nowe wartości prawdopodobieństw rozkładu haplotypów, uwzgl˛edniajac
˛ dany zbiór obserwacji (6).
(t+1)
zmn
(t)
=
r
j
n j zmn
(t)
(t)
∗ (t) , gdzie rozkład mn daje genotyp j, g j = ∑ zx
n g
x
j
(6)
3.3. Krok E
Prawdopodobieństwa poszczególnych haplotypów hm sa˛ szacowane na podstawie prawdopodobieństw
rozkładów haplotypów zmn , w których wyst˛epuje dany haplotyp. Nast˛epnie wykorzystuje si˛e obliczone wartości do wyznaczenia prawdopodobieństw rozkładów haplotypów w kolejnym kroku (7).
(
(t)
1
(hm )2
dla m = n
(t)
(t+1)
(t)
(t)
gdzie hm = (∑ zim + ∑ zm j )
zmn =
(7)
(t) (t)
2
2 hm hn
dla m 6= n
j
i
3.4. Warunek stopu
Algorytm kończy swoje działanie, jeżeli zmiana szacowanych prawdopodobieństw haplotypów w kolejnych krokach jest mniejsza niż założona wartość (8).
R
∑ |zi
(t+1)
(t)
− zi | < ε
(8)
i=1
3.5. Badanie prawdopodobieństwa warunkowego rozkładu haplotypów dla danego genotypu
Znajac
˛ prawdopodobieństwa haplotypów można wyznaczyć, korzystajac
˛ z definicji, warunkowe prawdopodobieństwo poszczególnych rozkładów haplotypów dla określonego genotypu (9).
zmn |g j =
zmn
zmn
= rj
gj
∑x zx
(9)
4. Badania
Przedstawiony algorytm został zaimplementowany w C++, zgodnie z metodologia˛ Extreme Programming i testowany (na platformach Windows, Linux, Sun) dla sztucznie generowanych, pozbawionych zakłóceń danych populacyjnych. Dla przypadków zawierajacych
˛
jedynie kodominujac
˛ a˛ forma dziedziczenia,
wyniki sa˛ zbliżone do istniejacych
˛
rozwiazań
˛
[2], natomiast w przypadkach polimorfizmów zawierajacych
˛
loci z nie-kodominujac
˛ a˛ forma˛ dziedziczenia wyniki sa˛ znacznie lepsze, ponieważ algorytm uwzgl˛ednia wyst˛epowanie niemych alleli. Poniżej przedstwiono kilka testowanych przypadków.
4.1. Przypadek jednego niemego wariantu
Badane sa˛ 2 loci (oznaczane przez A i B), locus A ma dwa warianty A0 (niemy wariant) oraz A1, locus
B (brak niemego allela) ma dwa warianty B1 i B2. Poniżej (tab. 1) pokazano możliwe do zaobserwowania
genotypy oraz rozkłady haplotypów, które im odpowiadaja.˛ Wyniki obliczeń sa˛ przedstawione w tab. 2.
XV KBiIB 2007
Tabela 1. Genotypy i rozkłady haplotypów dla omawianego przypadku
genotyp
A1B1
A1B1B2
A1B2
A0B1
A0B1B2
A0B2
rozkłady haplotypów
A1B1/A1B1, A1B1/A0B1
A1B1/A1B2, A1B1/A0B2, A1B2/A0B1
A1B2/A1B2, A1B2/A0B2
A0B1/A0B1
A0B1/A0B2
A0B2/A0B2
liczba rozkładów: ri
2
3
2
1
1
1
Tabela 2. Porównanie aplikacji szacujacych
˛
prawdopodobieństwa haplotypów. Wygenerowano 25 obserwacji: A1B1(3),
A1B1B2(8), A1B2(5), A0B1(1), A0B1B2(4), A0B2(4). Arlequin - wyniki dostarczane przez program [2], NullHap - wyniki uzyskiwane przez opisywana˛ aplikacj˛e.
haplotyp
A0B1
A0B2
prawdopodobieństwa hi
założone
Arlequin
NullHap
0.2
0.23
0.2
0.4
0.45
0.4
haplotyp
A1B1
A1B2
założone
Arlequin
NullHap
0.2
0.17
0.2
0.2
0.14
0.2
4.2. Przypadek wielu niemych wariantów
Badane sa˛ 3 loci: każde z nich ma dwa trzy warianty w tym jeden niemy (oznaczany przez A0, B0 lub
C0). Można obserwować 8 różnych genotypów: A0B0C0, A0B0C1, A0B1C0, A0B1C1, A1B0C0, A1B0C1,
A1B1C0, A1B1C1, szacowanie prawdopodobieństwa zostały pokazane w tab. 3.
Tabela 3. Porównanie aplikacji szacujacych
˛
haplotypy dla omawianego przypadku.
haplotyp
A0B0C0
A0B0C1
A0B1C0
A0B1C1
założona
Arlequin
NullHap
0.2
0.50
0.2
0.1
0.03
0.1
0.1
0.03
0.1
0.1
0.06
0.1
haplotyp
A1B0C0
A1B0C1
A1B1C0
A1B1C1
założona
Arlequin
NullHap
0.1
0.03
0.1
0.1
0.06
0.1
0.1
0.06
0.1
0.2
0.22
0.19
4.3. Przypadek braku niemych wariantów
Badany organizm opisany przez 2 loci: A i B, każde locus po dwa allele. Założone prawdopodobieństwa haplotypów to: A1B1(0.2), A1B2(0.3), A2B1(0.2), A2B2(0.3); generowane sa˛ obserwacje z podanym
prawdopodobieństwem: A1B1, A1B1B2, A1B2, A1A2B1, A1A2B1B2, A1A2B2, A2B1, A2B1B2, A2B2.
Dla obu badanych programów (Arlekin, NullHap) wyniki sa˛ zbliżone, prawdopodobieństwo haplotypów jest
estymowane bezbł˛ednie.
5. Wnioski
Zastosowanie istniejacych
˛
metod (zakładajacych
˛
kodominujac
˛ a˛ form˛e dziedziczenia) ustalania rozkładu
haplotypów daje niedokładne wyniki przy badaniu niektórych polimorfizmów (np. polimorfizmów KIR).
Zastosowanie opisanego algorytmu, który uwzgl˛ednia wyst˛epowanie niemych wariantów, pozwala znacznie
poprawić wyniki obliczeń.
Aplikacja b˛edzie stosowana dla polimorfizmów, które maja˛ loci zawierajace
˛ nieme allele, w szczególności b˛edzie badany wpływ genów KIR na rozwój łuszczycy.
6. Literatura
[1] A. Dempster, N. Laird, D. Rubin. Maximum likelihood from incomplete data via the em algorithm.
Journal of the Royal Statistical Society, 39, 1–39, 1977
[2] L. Excoffier, G. Laval, S. Schneider. Arlequin ver. 3.0: An integrated software package for population
genetics data analysis. Evolutionary Bioinformatics Online, 1, 47–50, 2005
[3] L. Excoffier, M. Slatkin. Maximum-likehood estimation of molecular haplotype frequencies in a
diploid population. Mol. Biol. Evol., 12, 921–927, 1995

Analiza rozkładu wariantów genów na chromosomach (PDF

Transkrypt

Podobne dokumenty

Nr wniosku: 186806, nr raportu: 10396. Kierownik (z rap.): mgr

Lista przygotowawcza 2

Metody Probabilistyczne i Statystyka Z2 1. Po upływie pewnego

TEORIA GIER – 8 U˙zytecznosc We wszystkich zadaniach A = {a1

Zadanie 1 Zadanie 2 Zadanie 3 Zadanie 4 Zadanie 5

lista dodatkowa

Polimorfizm loci Y-STR wśród ludności Polski północno

Recenzja 1 - BIOL