Analiza rozkładu wariantów genów na chromosomach (PDF
Transkrypt
Analiza rozkładu wariantów genów na chromosomach (PDF
XV KBiIB 2007 Analiza rozkładu wariantów genów na chromosomach Robert Nowak Instytut Systemów Elektronicznych, Politechnika Warszawska, ul. Nowowiejska 15/19, 00-665 Warszawa [email protected] Streszczenie: Praca przedstawia algorytm estymujacy ˛ prawdopodobieństwa haplotypów na podstawie danych populacyjnych. Może być on stosowany dla polimorfizmów posiadajacych ˛ oraz nie posiadajacych ˛ kodominujace ˛ formy dziedziczenia. Przedstawiono model matematyczny uwzgl˛edniajacy ˛ oba przypadki oraz modyfikacj˛e algorytmu ExpectationMaximalisation. Opisane testy, przeprowadzone na sztucznie generowanych, niezaszumionych danych populacyjnych wykazuja˛ znaczna˛ popraw˛e uzyskiwanych wyników dla loci zawierajacych ˛ niemy wariant. Abstract: The article presents the algorithm to estimate haplotype frequencies using genotype data from unrelated individuals. It can be applied to loci with a codominant allele(s) and/or a silent (null) allels (as often happens with KIR loci). The mathematical model and an expanded Expectation-Maximalisation algorithm is described. The comparison with known algorithms, demonstrated on simulated population data, provides an improvement in estimating the frequencies in polymorphisms where the silent allels occurs. Słowa kluczowe: modele matematyczne, haplotypy, algorytmy 1. Wst˛ep Analiza rozkładu wariantów genów na chromosomach, zwana dalej badaniem rozkładu haplotypów, jest metoda˛ stosowana˛ powszechnie przy wykrywaniu i diagnozowaniu wielu chorób. Analiz˛e taka˛ można stosunkowo łatwo wykonać majac ˛ do dyspozycji wielopokoleniowe rodziny, jednak takiego podejścia nie stosuje si˛e, ze wzgl˛edu na problemy ze zbieraniem materiału. W celu umożliwienia ustalania haplotypów bez udziału analizy rodzinnej opracowano szereg metod bazujacych ˛ na probabilistycznej analizie danych populacyjnych. Analiza kombinatoryczna zadania pokazuje, że liczba przypadków rośnie wykładniczo wraz z liczba˛ obserwowanych loci, wi˛ec w praktyce nie jest możliwe analityczne wyznaczenie prawdopodobieństw rozkładu haplotypów. W zwiazku ˛ z tym algorytmy wyznaczajace ˛ te wielkości bazuja˛ na metodach przybliżonych. Najcz˛eściej stosowanym algorytmem jest EM (expectation-maximization) [3], który pozwala znaleźć lokalne maksimum nieznanych parametrów rozkładu (tutaj prawdopodobieństwa haplotypów). Znane z literatury narz˛edzia statystyczne do analizy rozkładu haplotypów [2] wymagaja,˛ aby analizowane polimorfizmy miały kodominujac ˛ a˛ form˛e dziedziczenia. Olbrzymia wi˛ekszość obecnie badanych polimorfizmów spełnia to ograniczenie, ale dla polimorfizmu polegajacego ˛ na braku lub obecności genów istniejace ˛ metody daja˛ wyniki obarczone dużym bł˛edem, wi˛ec cz˛esto sa˛ bezużyteczne. Konieczne jest opracowanie nowych algorytmów, które uwzgl˛edniaja˛ specyficzne właściwości takich przypadków. Praca zawiera opis algorytmu, który uwzgl˛ednia możliwość wyst˛epowania loci posiadajacych ˛ oraz nie posiadajacych ˛ kodominujacej ˛ formy dziedziczenia. B˛edzie on wykorzystany do analizy rozkładu receptorów immunoglobulinopodobnych limfocytów (KIR - Killer cell Immunoglobin like Receptors). Polimorfizm KIR jest istotny z medycznego punktu widzenia, ponieważ moduluje podatność na szereg schorzeń np. łuszczycy, raka szyjki macicy. Prezentowane rozwiazanie ˛ rozszerza opis locus o tzw. niemy wariant (niemy allel), co pozwala uwzgl˛ednić przypadki braku kodominujacej ˛ formy dziedziczenia. Na tej podstawie stworzono nowy model matematyczny i opracowano rozszerzenie algorytmu EM. 2. Model matematyczny 2.1. Opis uwzgl˛edniajacy ˛ nieme allele Algorytmy obliczajace ˛ rozkład haplotypów dla organizmów diploidalnych, przy założeniu jedynie kodominujacej ˛ formy dziedziczenia posługuja˛ si˛e nast˛epujacym ˛ opisem [3]: liczba˛ analizowanych loci k, liczba˛ XV KBiIB 2007 wariantów (alleli) li dla każdego loci i. Bada si˛e wi˛ec H = ∏ki=1 li różnych haplotypów, liczba różnych rozkładów haplotypów to R = 21 H ∗ (H + 1), zaś liczba obserwowanych genotypów G = 12 ∏ki=1 li (li + 1). Dla danego genotypu j liczba organizmów, które maja˛ różny rozkład haplotypów, oznaczana przez r j , jest wykładniczo zależna od liczby obserwowanych heterozygot. Przedstawiony algorytm wykorzystuje rozszerzony opis, aby uwzgl˛ednić także loci nie posiadajace ˛ kodominujacej ˛ formy dziedziczenia. Takie loci b˛eda˛ zawierały tzw. niemy wariant. Dla takiego opisu liczba haplotypów H oraz liczba rozkładów R nie zmienia si˛e, natomiast zmniejszeniu ulega liczba możliwych do zaobserwowania genotypów (1). (li − δi )(li + 1 − δi ) + 2δi G =∏ , δi = 2 i=1 k 1 0 loci posiada niemy allel w przeciwnym wypadku (1) Dla danego genotypu j zwi˛ekszeniu ulega średnia liczba odpowiadajacych ˛ mu rozkładów haplotypów r j (2), gdzie liczb˛e obserwowanych heterozygot oznaczono przez s j , zaś t j oznacza liczb˛e obserwowanych wariantów, które nie sa˛ nieme dla loci posiadajacych ˛ niemy allel. ( 2s j −1 ∗ 3t j dla s j > 0 (2) rj = 3t j +1 dla s j = 0 2 Rozszerzony opis organizmu, zawierajacy ˛ oprócz liczby analizowanych loci k i liczby wariantów dla każdego locus li także informacj˛e o tym, czy locus posiada niemy allel, stanowi dane wejściowe dla opisanego algorytmu optymalizacyjnego. 2.2. Analiza bazujaca ˛ na danych populacyjnych Majac ˛ dane obserwacje n osobników, dla G genotypów S = (n1 , n2 , ..., nG ), gdzie n j jest liczba˛ obserwacji genotypu j oraz ∑Gj=0 n j = n, należy oszacować prawdopodobieństwa hi poszczególnych haplotypów, tak aby obserwacja była maksymalnie prawdopodobna (5). Zakładajac ˛ niezależność doboru osobników (niezależność próbkowania), można uzależnić prawodopodobieństwo obserwacji S od prawdopodobieństw wystapienia ˛ poszczególnych genotypów gi (3), współczynnik α nie jest zależny od szacowanych prawdopodobieństw. P(S |g1 , g2 , ..., gG ) = F G n! n n ∗ ∏ gjj = α ∏ gjj n1 ! ∗ n2 ! ∗ ... ∗ nG ! j=1 j=1 (3) Przy założeniu równowagi Hardy-Weinberga, prawdopodobieństwo genotypu g j można wyrazić poprzez prawdopodobieństwa odpowiednich rozkładów haplotypów (4), gdzie zmn oznacza prawdopodobieństwo rozkładu składajacego ˛ si˛e z haplotypów m oraz n, hm , hn prawdopodobieństwo poszczególnych haplotypów, zaś r j jest liczba˛ rozkładów odpowiadajacych ˛ określonemu genotypowi. rj gj = ∑ zmn , gdzie zmn = i=0 h2m 2 hm hn dla m = n dla m 6= n (4) Podsumowujac, ˛ zadaniem optymalizacyjnym jest rozwiazanie ˛ zależności (5). G arg max P(S |h1 , h2 , ..., hH ) = arg max h1 ,h2 ,...,hH rj ∏ ( ∑ zmn ) h1 ,h2 ,...,hH j=1 i=0 nj , gdzie zmn = h2m 2 hm hn dla m = n dla m 6= n (5) 3. Opis algorytmu Określone w (5) zadanie optymalizacyjne, które nie może być rozwiazane ˛ analitycznie ze wzgl˛edu na wykładnicza˛ złożoność obliczeniowa,˛ b˛edzie rozwiazywane ˛ przy pomocy algorytmu expectation-maximization (EM), przedstawionego w [1]. Algorytm ten został z powodzeniem zaadoptowany do obliczania rozkładów haplotypów bez niemych alleli ([3]), zaś poniżej zostanie przedstawiona jego adaptacja dla rozszerzonego opisu uwzgl˛edniajacego ˛ nieme warianty. Algorytm EM jest iteracyjnym algorytmem znajdujacym ˛ lokalne XV KBiIB 2007 maksimum, szacuje on nieznane parametry (krok E (t) ), a nast˛epnie wykorzystuje szacowanie aby zmaksymalizować prawdopodobieństwo obserwowanych danych (krok M (t) ), co pozwala na lepsze szacowanie w kolejnym E (t+1) kroku. Poniżej przedstawiono szczegółowo poszczególne kroki algorytmu, który szacuje prawdopodobieństwa poszczególnych haplotypów na podstawie opisu organizmu oraz obserwacji S = (n1 , n2 , ..., nG ). 3.1. Inicjacja Poczatkowe ˛ wartości prawdopodobieństw rozkładu haplotypów (krok E 0 ) sa˛ generowane biorac ˛ pod (0) 1 uwag˛e liczb˛e różnych rozkładów odpowiadajacych ˛ genotypowi, czyli zmn = r j gdzie rozkład haplotypów mn odpowiada genotypowi j. 3.2. Krok M Szacuje prawdopodobieństwa wyst˛epowania poszczególnych genotypów jako sum˛e prawdopodobieństw rozkładów haplotypów odpowiadajacych ˛ danemu genotypowi, a nast˛epnie wyznacza si˛e nowe wartości prawdopodobieństw rozkładu haplotypów, uwzgl˛edniajac ˛ dany zbiór obserwacji (6). (t+1) zmn (t) = r j n j zmn (t) (t) ∗ (t) , gdzie rozkład mn daje genotyp j, g j = ∑ zx n g x j (6) 3.3. Krok E Prawdopodobieństwa poszczególnych haplotypów hm sa˛ szacowane na podstawie prawdopodobieństw rozkładów haplotypów zmn , w których wyst˛epuje dany haplotyp. Nast˛epnie wykorzystuje si˛e obliczone wartości do wyznaczenia prawdopodobieństw rozkładów haplotypów w kolejnym kroku (7). ( (t) 1 (hm )2 dla m = n (t) (t+1) (t) (t) gdzie hm = (∑ zim + ∑ zm j ) zmn = (7) (t) (t) 2 2 hm hn dla m 6= n j i 3.4. Warunek stopu Algorytm kończy swoje działanie, jeżeli zmiana szacowanych prawdopodobieństw haplotypów w kolejnych krokach jest mniejsza niż założona wartość (8). R ∑ |zi (t+1) (t) − zi | < ε (8) i=1 3.5. Badanie prawdopodobieństwa warunkowego rozkładu haplotypów dla danego genotypu Znajac ˛ prawdopodobieństwa haplotypów można wyznaczyć, korzystajac ˛ z definicji, warunkowe prawdopodobieństwo poszczególnych rozkładów haplotypów dla określonego genotypu (9). zmn |g j = zmn zmn = rj gj ∑x zx (9) 4. Badania Przedstawiony algorytm został zaimplementowany w C++, zgodnie z metodologia˛ Extreme Programming i testowany (na platformach Windows, Linux, Sun) dla sztucznie generowanych, pozbawionych zakłóceń danych populacyjnych. Dla przypadków zawierajacych ˛ jedynie kodominujac ˛ a˛ forma dziedziczenia, wyniki sa˛ zbliżone do istniejacych ˛ rozwiazań ˛ [2], natomiast w przypadkach polimorfizmów zawierajacych ˛ loci z nie-kodominujac ˛ a˛ forma˛ dziedziczenia wyniki sa˛ znacznie lepsze, ponieważ algorytm uwzgl˛ednia wyst˛epowanie niemych alleli. Poniżej przedstwiono kilka testowanych przypadków. 4.1. Przypadek jednego niemego wariantu Badane sa˛ 2 loci (oznaczane przez A i B), locus A ma dwa warianty A0 (niemy wariant) oraz A1, locus B (brak niemego allela) ma dwa warianty B1 i B2. Poniżej (tab. 1) pokazano możliwe do zaobserwowania genotypy oraz rozkłady haplotypów, które im odpowiadaja.˛ Wyniki obliczeń sa˛ przedstawione w tab. 2. XV KBiIB 2007 Tabela 1. Genotypy i rozkłady haplotypów dla omawianego przypadku genotyp A1B1 A1B1B2 A1B2 A0B1 A0B1B2 A0B2 rozkłady haplotypów A1B1/A1B1, A1B1/A0B1 A1B1/A1B2, A1B1/A0B2, A1B2/A0B1 A1B2/A1B2, A1B2/A0B2 A0B1/A0B1 A0B1/A0B2 A0B2/A0B2 liczba rozkładów: ri 2 3 2 1 1 1 Tabela 2. Porównanie aplikacji szacujacych ˛ prawdopodobieństwa haplotypów. Wygenerowano 25 obserwacji: A1B1(3), A1B1B2(8), A1B2(5), A0B1(1), A0B1B2(4), A0B2(4). Arlequin - wyniki dostarczane przez program [2], NullHap - wyniki uzyskiwane przez opisywana˛ aplikacj˛e. haplotyp A0B1 A0B2 prawdopodobieństwa hi założone Arlequin NullHap 0.2 0.23 0.2 0.4 0.45 0.4 haplotyp A1B1 A1B2 prawdopodobieństwa hi założone Arlequin NullHap 0.2 0.17 0.2 0.2 0.14 0.2 4.2. Przypadek wielu niemych wariantów Badane sa˛ 3 loci: każde z nich ma dwa trzy warianty w tym jeden niemy (oznaczany przez A0, B0 lub C0). Można obserwować 8 różnych genotypów: A0B0C0, A0B0C1, A0B1C0, A0B1C1, A1B0C0, A1B0C1, A1B1C0, A1B1C1, szacowanie prawdopodobieństwa zostały pokazane w tab. 3. Tabela 3. Porównanie aplikacji szacujacych ˛ haplotypy dla omawianego przypadku. haplotyp A0B0C0 A0B0C1 A0B1C0 A0B1C1 prawdopodobieństwa hi założona Arlequin NullHap 0.2 0.50 0.2 0.1 0.03 0.1 0.1 0.03 0.1 0.1 0.06 0.1 haplotyp A1B0C0 A1B0C1 A1B1C0 A1B1C1 prawdopodobieństwa hi założona Arlequin NullHap 0.1 0.03 0.1 0.1 0.06 0.1 0.1 0.06 0.1 0.2 0.22 0.19 4.3. Przypadek braku niemych wariantów Badany organizm opisany przez 2 loci: A i B, każde locus po dwa allele. Założone prawdopodobieństwa haplotypów to: A1B1(0.2), A1B2(0.3), A2B1(0.2), A2B2(0.3); generowane sa˛ obserwacje z podanym prawdopodobieństwem: A1B1, A1B1B2, A1B2, A1A2B1, A1A2B1B2, A1A2B2, A2B1, A2B1B2, A2B2. Dla obu badanych programów (Arlekin, NullHap) wyniki sa˛ zbliżone, prawdopodobieństwo haplotypów jest estymowane bezbł˛ednie. 5. Wnioski Zastosowanie istniejacych ˛ metod (zakładajacych ˛ kodominujac ˛ a˛ form˛e dziedziczenia) ustalania rozkładu haplotypów daje niedokładne wyniki przy badaniu niektórych polimorfizmów (np. polimorfizmów KIR). Zastosowanie opisanego algorytmu, który uwzgl˛ednia wyst˛epowanie niemych wariantów, pozwala znacznie poprawić wyniki obliczeń. Aplikacja b˛edzie stosowana dla polimorfizmów, które maja˛ loci zawierajace ˛ nieme allele, w szczególności b˛edzie badany wpływ genów KIR na rozwój łuszczycy. 6. Literatura [1] A. Dempster, N. Laird, D. Rubin. Maximum likelihood from incomplete data via the em algorithm. Journal of the Royal Statistical Society, 39, 1–39, 1977 [2] L. Excoffier, G. Laval, S. Schneider. Arlequin ver. 3.0: An integrated software package for population genetics data analysis. Evolutionary Bioinformatics Online, 1, 47–50, 2005 [3] L. Excoffier, M. Slatkin. Maximum-likehood estimation of molecular haplotype frequencies in a diploid population. Mol. Biol. Evol., 12, 921–927, 1995