Pobierz artykuł PDF
Transkrypt
Pobierz artykuł PDF
MODEL WYKORZYSTANIA FORMATU DANYCH PED NA POTRZEBY PRZETWARZANIA W ALGORYTMIE GENETYCZNYM GRZEGORZ WOJARNIK Streszczenie Dane genealogiczne są istotnym czynnikiem wpływającym na zachorowalnoĞü na róĪne choroby, w tym nowotwory. ReprezentacjĊ takich danych umoĪliwia format PED. Algorytm genetyczny słuĪący odkrywaniu kombinacji czynników wpływających na zachorowania na nowotwory powinien zawieraü równieĪ mechanizmy wykorzystujące dane genealogiczne. W związku z tym pojawia siĊ problem kodowania danych PED. W artykule zawarto propozycjĊ kodowania formatu PED za pomocą liczb całkowitych. DziĊki temu przekształceniu algorytm genetyczny bĊdzie w stanie generowaü rozwiązania równieĪ w oparciu o dane genealogiczne. Słowa kluczowe: sztuczna inteligencja, algorytmy genetyczne, format PED, dane genealogiczne 1. Wprowadzenie Jednym z wielu czynników wpływajcych na badanie prawdopodobiestwa zachorowania na rónego rodzaju choroby, w tym nowotwory jest informacja genetyczna na temat wystpowania danego schorzenia w rodzinie chorego. Informacja ta moe by składnikiem wielu cech fizycznych oraz behawioralnych wpływajcych na wystpienie zachorowania okrelonej osoby na dan chorob. U podstaw artykułu le badania autora, które zmierzaj do odkrycia kombinacji czynników chorobotwórczych sprzyjajcych powstaniu i póniej rozwojowi choroby nowotworowej. W badaniach tych istotn rol zajmuj algorytmy genetyczne, jako metoda pozwalajca na odkrywanie zalenoci pomidzy wieloma zmiennymi, które nie mogłyby s na tyle złoone, e nie poddaj si klasycznemu podejciu zmierzajcego do estymacji zmiennych endogenicznych badanego problemu. Badania bd koncentrowały si na odkryciu czynników wpływajcych na rozwój choroby nowotworowej. Funkcja przystosowania bdzie działała w oparciu o dane na temat zachorowania danej osoby na nowotwór, takich jak wiek pacjenta, kiedy zachorowała na nowotwór oraz wiek zgonu, a take przebieg choroby. W wykorzystanym do przetwarzania danych algorytmie genetycznym autor do reprezentacji genów reprezentujcych badane zmienne zdecydował si na wykorzystania kodowania dziedziny dostpnych wartoci liczbami całkowitymi. W zwizku z powyszym pojawił si problem przełoenia danych o rodowodzie, które najczciej s przedstawione za porednictwem formatu PED, na posta zgodn z kodowaniem genów za pomoc liczb całkowitych w konstruowanym algorytmie genetycznym. Z powyszego wynika struktura artykułu, w ramach którego autor zamierza przedstawi zasady działania algorytmów genetycznych, umiejscowienia kodowania genotypu za pomoc liczb całkowitych na tle innych sposobów kodowania. Zostanie równie przedstawiona specyfika i za- Studies & Proceedings of Polish Association for Knowledge Management Nr 56, 2011 231 sady budowy i posługiwania si formatem PED do zapisu danych na temat genealogii danej osoby i na koniec zostanie przedstawiona propozycja dziedziny dostpnych wartoci dla genu odpowiedzialnego za reprezentacj rodowodu osoby, tak aby pozwalała na przejcie od formatu PED do postaci, która bdzie moliwa do przetwarzania za porednictwem algorytmu genetycznego. 2. Zasady działania algorytmów genetycznych Do jednych z prekursorów idei algorytmów genetycznych naley J. H. Hollandowi, który opublikował w 1962 roku prac „Outline for a logical theory of adaptive systems”. W publikacji tej Holland przedstawił podstawy systemów adaptacyjnych, które potrafi dostosowywa swoje właciwoci w odpowiedzi na sztucznie stworzone rodowiskiem, w którym je umieszczono [1, s. A2.3:4]. Schemat działania algorytmu genetycznego mona przeledzi na podstawie przedstawionego poniej pseudokodu [2, s. 26]: procedura algorytm genetyczny begin t := 0 ustal pocztkowe P(t) oce P(t) while (not warunek zakoczenia) do begin t := t + 1 wybierz P(t) z P(t - 1) zmie P(t) oce P(t) wyselekcjonuj P(t) end end gdzie P(t) to populacja osobników stanowicych rozwizania danego problemu, natomiast t okrela numer kolejnej iteracji. W algorytmie tym kady osobnik przedstawia wygenerowane (za pomoc funkcji ustal początkowe P(t), zmieĔ P(t)) rozwizanie badanego problemu. Kade rozwizanie jest oceniane na podstawie stopnia jego dopasowania wzgldem kryteriów okrelonych mianem funkcji dopasowania lub oceny (oceĔ p(t)). Tak wic kada nowa populacja (t+1) stanowi zbiór osobników najlepiej przystosowanych do funkcji dopasowania. Na etapie funkcji zmieĔ P(t) nastpuje uycie operatorów genetycznych takich jak krzyowanie, czy mutacja wprowadzajcych zmiany w genotypie osobników. 232 Grzegorz Wojarnik Model wykorzystania formatu danych ped na potrzeby przetwarzania w algorytmie genetycznym Opisany algorytm stanowi najprostsze podejcie do algorytmów genetycznych. Jego działanie moe by sterowane wieloma parametrami opisujcymi funkcjonowanie tego algorytmu, jak i poszczególnych operatorów genetycznych oraz warunków brzegowych wyłanianych rozwiza. Algorytmy genetyczne najczciej słu rozwizaniu takich problemów, gdzie nie jest znany jednoznaczny sposób rozwizujcy dany problem lub ilo potencjalnych rozwiza, z których ma zosta wybrane najlepsze rozwizanie jest na tyle dua, e moc obliczeniowa potrzebna do analizy tych wszystkich potencjalnych rozwiza nie jest wystarczajca, aby w sensownym czasie uzyska to rozwizanie. Naley zauway, e algorytmy genetyczne bd przydatne tylko wtedy, jeli znany jest sposób oceny jakoci wygenerowanego rozwizania. Przykładem jest np. problem komiwojaera, gdzie naley znale drog łczc punkty, tak aby koszt przebycia drogi był moliwie najmniejszy. W takim przypadku, gdy mamy potencjalne rozwizanie ocena jakoci proponowanej trasy jest oczywista, poniewa wystarczy poda np. ilo kilometrów jak trzeba przeby, aby odwiedzi wszystkie lokalizacje i na tej podstawie bdzie mona wybra rozwizanie bdce tras, która jest po prostu najkrótsza. W przypadku algorytmu genetycznego, w którym jednym z genów jest rodowód danej osoby naley tak skonstruowa ten gen, aby moliwe było poddanie jego działaniu operatorów genetycznych. Wykorzystujc algorytmy genetyczne naley przyj, e znajdowane rozwizania problemów (uzyskiwane nawet o rzdy wielkoci szybciej ni dla innych sposobów rozwizywania problemów) nie bd rozwizaniami optymalnymi, ale jedynie sub-optymalnymi, co oznacza e nie s to rozwizania których funkcja oceny da minimaln lub maksymaln warto biorc pod uwag przestrze wszystkich potencjalnych rozwiza danego problemu. W zwizku z tym o takim wyniku działania algorytmu genetycznego mona powiedzie, e z punktu widzenia jego przydatnoci jest rozwizaniem zadowalajcym. Zreszt bardzo czsto, w procesie podejmowania decyzji opartych o wyniki działania algorytmów genetycznych zalet jest fakt, e algorytmy te mog dostarczy szereg rozwiza alternatywnych, które mog sta si podstaw podjcia kocowych decyzji. 3. Kodowanie genomu algorytmu genetycznego Kada cecha (gen) osobnika, która jest uwzgldniana w algorytmie genetycznym musi by zakodowana zgodnie z okrelonym typem danych w celu przeprowadzania oblicze. I w zwizku z tym wartoci przechowywane w genach mog by reprezentowane poprzez trzy podstawowe sposoby kodowania: 1. klasyczne czyli binarne 2. oparte na liczbach całkowitych 3. oparte na liczbach zmiennoprzecinkowych 4. logarytmiczne W kodowaniu binarnym genami s poszczególne bity. Moe mie to zastosowanie w problemach, w których poszukujemy jednej liczby, np. przy znajdowaniu ekstremum funkcji. W kodowaniu opartym na liczbach całkowitych wartoci poszczególnych genów s liczby całkowite. Idealnie pasuj przy kodowaniu permutacyjnym do rozróniania (numerowania) permutowanych elementów (np. numeracja miast w problemie komiwojaera) lub reprezentowania całkowitych wag elementów (np. w problemie plecakowym). Włanie w ten sposób zostanie zakodowany rodowód osoby opisanej struktur danych zgodnym z formatem PED. Wybór padł na ten 233 Studies & Proceedings of Polish Association for Knowledge Management Nr 56, 2011 sposób kodowania ze wzgldu na moliwo uszeregowania poszczególnych grup moliwych kombinacji drzewa genealogicznego zawierajcego wystpowanie danej cechy (w tym przypadku zachorowania na chorob nowotworow), np. jednym z wartoci genu rodowodu moe by sytuacja, w której oboje rodzice byli chorzy na nowotwór (dokładne rozpisanie propozycji genu w ramach kodowania opartego o liczby całkowite odwzorowujcego struktur PED znajduje si w dalszej czci artykułu). Z kolei w kodowaniu opartym na liczbach rzeczywistych (zmiennoprzecinkowych) genami s liczby rzeczywiste. Kodowanie to najczciej jest uywane w problemach, w których naley precyzyjnie dobiera parametry (np. dobieranie wag w sieciach neuronowych, dobieranie parametrów urzdze produkcyjnych dla podniesienia ich wydajnoci, dobieranie parametrów krzywych ekonomicznych i wszelkich innych funkcji modelujcych obserwowane zjawiska rzeczywiste). I na koniec w kodowaniu logarytmicznym „pierwszy bit () cigu kodowego jest bitem znaku funkcji wykładniczej, drugi bit () jest bitem znaku wykładnika funkcji wykładniczej, a pozostałe bity (bin) s reprezentacj wykładnika funkcji wykładniczej” [3, s. 275]: [αβbin] = (−1) β e ( −1) α [ bin ]10 W zalenoci od wartoci przechowywanych w genach i przyjtego sposobu ich układania w chromosomie rónie definiuje si operatory genetyczne. 4. Specyfika formatu danych PED Format danych PED [4] – to popularny format analizy genetycznej, w którym zawarte s informacje o rodowodzie i cechach genetycznych danej osoby. Za pomoc tego formatu mona przedstawi kształtowanie jakiej cechy (np. wystpowanie nowotworu) w ramach danej rodziny, co pozwala zobrazowa moliwo je dziedziczenia poród członków tej rodziny. Struktura formatu PED [5]: Family ID – identyfikator rodziny Individual ID – identyfikator osoby Paternal ID – identyfikator ojca Maternal ID – identyfikator matki Sex (1=male; 2=female; other=unknown) – płe Phenotype – opisywana cecha, np: 0 – brak informacji, 1 – zdrowa, 2 – chora na dany typ nowotworu, 3 – chora na inny nowotwór Na podstawie tak zdefiniowanej struktury mona sporzdzi drzewo genealogiczne danej rodziny i zobrazowa w nim wystpowanie danej cechy. Posłumy si przykładem, w ramach którego mam nastpujce dane dla hipotetycznego drzewa genealogicznego osoby A: 234 Grzegorz Wojarnik Model wykorzystania formatu danych ped na potrzeby przetwarzania w algorytmie genetycznym Tabela 1. Przykładowe dane zawierające informacje na temat rodowodu osoby A wraz z informacją o zachorowalnoĞci w jego rodzinie na chorobĊ nowotworową FamilyId IndividualId PaternalId MaternalId Sex Phenotype 1 A B C 1 0 1 B D E 1 1 1 C F G 2 2 1 D H 1 1 1 E I J 2 1 1 F K 1 1 1 G L 2 1 1 H 1 0 1 I 1 0 1 J 2 2 1 K 2 0 1 L 2 2 1 M 2 2 F G ródło: Opracowanie własne. Na podstawie tak przedstawionych danych mona narysowa nastpujce drzewo genealogiczne: H J I D E K L F G C B A Rysunek 1. Przykład drzewa genealogicznego ródło: Opracowanie własne. M Studies & Proceedings of Polish Association for Knowledge Management Nr 56, 2011 235 Powyszy rysunek przedstawia drzewo genealogiczne dla danych zawartych w tabeli 1. Jak wida wystpowanie danego fenotypu jest zobrazowane czarnym prostoktem. Jeli dana osoba nie posiada tego fenotypu, wtedy prostokt jest zakrelony obrysem. W przypadku, gdy dana osoba reprezentowana jest przez okrelon liter bez obrysu oznacza to, e nic nie wiadomo o wystpowaniu danego fenotypu dla tej osoby, a wic nie wiadomo jak w przypadku tej osoby on si kształtuje. Przy takiej definicji formatu PED naley zwróci uwag na moliw posta drzewa genealogicznego danej osoby. Na pewno bdzie si ono charakteryzowało nastpujcymi cechami: • Zwikszone prawdopodobiestwo wystpowania osób o znanym fenotypie w bliszych pokoleniach ni dalszych. • Ilo pokole rzadko bdzie przekraczała 4. • W dalszych pokoleniach wiksze prawdopodobiestwo nieznajomoci rodziców – obydwojga lub jednego z dwóch. • Moliwo i prawdopodobiestwo wystpowania danych o rodzestwie osób z poszczególnych pokole nie bdcych w prostej linii osobami bdcymi rodzicami osób z głównej linii genealogicznej (np. osoba M z tabeli 1). Okrelenie dziedziny, w której maj by generowane chromosomy reprezentujce potencjalne układy rodzin dla danego rozwizania, stanowicego dany układ osobników w rodzinie. Okrelenie dziedziny powinno zosta dokonane na podstawie danych porównawczych zgromadzonych dla przebadanych/wprowadzonych do systemu osób. Na podstawie tego badanie bdzie trzeba okreli prawdopodobiestwa: • Wystpowania w poszczególnym pokoleniu odpowiednich osób wg płci lub ich nie wystpowania. • Pojawienia si choroby na poszczególnych poziomach pokole. Dziki takiemu zabiegowi algorytm nie bdzie generował potencjalnych rozwiza, które nie s moliwe do zweryfikowania z powodu braku danych weryfikujcych. Naley si te zastanowi, czy nie wyeliminowa osób o nieznanym fenotypie cechy (tzn. e jest osoba, ale nie wiemy czy chorowała). Kolejnym wanym elementem budowy chromosomu jest moliwo okrelenia stopnia jego dopasowania do zakładanego wzorca. W przypadku chromosomu, który reprezentuje dane na temat zachorowalnoci członków rodziny danej osoby bdzie wane sprawdzenie w jakim stopniu dany chromosom jest zgodny w stosunku do zebranych danych. Dlatego naley zdefiniowa dla takiego chromosomu właciwo Dopasowanie podajc (np. W procentach) stopie dopasowania chromosomu do danych porównawczych. Jednak naley pamita, e właciwo ta jest cile zwizana ze wszystkimi innymi chromosomami danego osobnika i powinna by cile zwizana z funkcj oceny dla całego genotypu osobnika podlegajcego przetwarzaniu poprzez algorytm genetyczny. 236 Grzegorz Wojarnik Model wykorzystania formatu danych ped na potrzeby przetwarzania w algorytmie genetycznym 5. Struktura genu dla formatu PED Jak zostało przedstawione wczeniej naley w ten sposób okreli dziedzin dostpnych wartoci jakie przyjmie gen, który bdzie zawierał dane na temat rodowodu osoby, aby moliwe było przetwarzanie tego genu operatorami genetycznymi algorytmu genetycznego oraz aby kada jego warto w prosty sposób okrelała stan rodowodu danej osoby. W zwizku z faktem, e w dostpnej literaturze trudno doszuka si takiego rozwizania naley wyj od okrelenia dwóch skrajnych sytuacji, które bd stanowiły dwa stany genu rodowodu stajce po przeciwnych stronach dziedziny dostpnych wartoci. Pierwszym jest sytuacja, w której wszystkie osoby, włczajc matk i ojca, bdce w “rodzinie” danej osoby nie chorowały na nowotwór. Z drugiej strony skrajn sytuacj jest taka, w której wszystkie osoby z “rodziny” chorowały na nowotwór. Wychodzc od takich dwóch skrajnych wartoci naley w kolejnym kroku okreli stany porednie. Oczywiste jest, e stanów porednich powinna by taka liczba, aby nie powodowała drastycznego wzrostu kombinacji w trakcie przetwarzania algorytmu genetycznego, ale jednoczenie powinna za sob nie konkretn warto poznawcz wnoszc istotn wiedz do danego problemu. I tutaj decyzja o iloci stanów genów rodowodu powinna zalee od iloci rónych kombinacji rodowodu w danych badawczych. Zakładajc du ich ilo oraz rónorodno mona zaproponowa nastpujce wartoci: 0 – brak zachorowa w rodzinie, 1 – poniej 30% zachorowa sporód osób nalecych do rodziny, ale aden z rodziców nie chorował na nowotwór, 2 – od 30% do 65% zachorowa sporód osób nalecych do rodziny, ale bez adnego z rodziców, 3 – poniej 30% zachorowa w rodzinie, ale chorował jeden z dziadków, 4 – poniej 30% zachorowa w rodzinie, ale chorował jeden z rodziców, 5 – od 30% do 65% zachorowa w rodzinie, w tym jeden z dziadków, 6 – od 30% do 65% zachorowa w rodzinie, w tym jeden z rodziców, 7 – powyej 65% w rodzinie zachorowało, 8 – powyej 65% w rodzinie zachorowało, w tym jeden z dziadków, 9 – powyej 65% w rodzinie zachorowało, w tym jeden z rodziców, 10 – obydwoje rodzice byli chorzy na nowotwór, ale aden z dziadków, 11 – obydwoje rodzice byli chorzy na nowotwór oraz co najmniej jeden z dziadków, 12 – wszyscy w rodzinie chorowali na nowotwór. Dziki takiemu przekształceniu formatu PED do postaci genu kodowanego liczbami całkowitymi bardzo łatwe staje si poddanie tego genu operatorom genetycznym takim jak np. mutacja, bowiem wystarczy losowo doda lub odj od danej wartoci 1, aby zmieni stan genu, ale w ten sposób, aby zmieniona warto nie oznaczała stanu znacznie odbiegajcego od stanu wyjciowego. Jednoczenie w prosty sposób mona generowa losowo stany rodowodów dla np. nowotworzonych rozwiza problemu poprzez prosty losowy wybór wartoci okrelajcej który stan rodowodu. Równoczenie warto doda, e wyej podana propozycja moe by w prosty sposób modyfikowano zarówno w kierunku powikszenia iloci stanów rodowodu w sytuacji, gdy tych stanów w badanych danych jest o wiele wicej, a z drugiej strony ilo dostpnych stanów genu rodowodu Studies & Proceedings of Polish Association for Knowledge Management Nr 56, 2011 237 mona zmniejszy, gdyby si okazało, e w badanych danych s przechowywane dane PED opisujce rodowody w wszym zakresie, np. ograniczone tylko do dwóch pokole. Naley podkreli, e aby zapewni wysok jako kodowania liczbami całkowitymi danych w formacie PED naley przypisa kolejnym wartociom stany, które bd si od siebie róniły w minimalny sposób, dziki czemu działanie operatorów genetycznych zapewni optymalne rezultaty działania algorytmu genetycznego. 6. Podsumowanie W artykule został zaproponowany sposób kodowania za pomoc liczb całkowitych danych w formacie PED, tak aby mogły by przetwarzane za pomoc algorytmu genetycznego. Naley zaznaczy, e propozycja ta stanowi element pracy badawczej autora artykułu zmierzajcej do budowy algorytmu genetycznego umoliwiajcego odkrywanie kombinacji czynników wpływajcych na zachorowania na choroby nowotworowe, a włanie dane na temat rodowodu osoby stanowi jeden z takich czynników. Weryfikacj działania i funkcjonowania proponowanego podejcia bdzie uruchomienie oprogramowanego algorytmu, który bdzie bazował na danych ankietowych sporód ponad 2 tys. osób, które zgodziły si na wypełnienie ankiety podajc równoczenie swoje dane genealogiczne. Bibliografia [1] [2] [3] [4] [5] De Jong K., Fogel D. B., Schwefel H. P.: A history of evolutionary computation w Handbook of Evolutionary Computation, Oxford University Press, Oxford 1997. Michalewicz Z.: Genetic Algorithms + Data Structures = Evolution Programs, Wydawnictwa Naukowo-Techniczne, Warszawa 2003 [in Polish]. Rutkowski Leszek, Metody i techniki sztucznej inteligencji, Wydawnictwo Naukowe PWN, Warszawa 2006, s. 275. http://www.biomedcentral.com/1756-0500/2/214. http://pngu.mgh.harvard.edu/~purcell/plink/data.shtml. 238 Grzegorz Wojarnik Model wykorzystania formatu danych ped na potrzeby przetwarzania w algorytmie genetycznym MODEL OF THE USE OF PED DATA FORMAT FOR PROCESSING IN THE GENETIC ALGORITHM Summary Genealogy is an important factor influencing the incidence of various diseases, including cancer. Representation of such data allows the PED format. Discovering the genetic algorithm used a combination of factors influencing the incidence of cancer should also include mechanisms for using genealogical data. Therefore, there is a problem of encoding PED data. The article includes a proposal for the encoding format of PED using integers. Thanks to this transformation of a genetic algorithm is able to generate solutions also based on genealogical data. Keywords: artificial intelligence, genetic algorithms, PED format, genealogical data Grzegorz Wojarnik Instytut Informatyki w Zarzdzaniu Wydział Nauk Ekonomicznych i Zarzdzania Uniwersytet Szczeciski e-mail: [email protected]