Pobierz artykuł PDF

Transkrypt

Pobierz artykuł PDF
MODEL WYKORZYSTANIA FORMATU DANYCH PED NA POTRZEBY
PRZETWARZANIA W ALGORYTMIE GENETYCZNYM
GRZEGORZ WOJARNIK
Streszczenie
Dane genealogiczne są istotnym czynnikiem wpływającym na zachorowalnoĞü
na róĪne choroby, w tym nowotwory. ReprezentacjĊ takich danych umoĪliwia format
PED. Algorytm genetyczny słuĪący odkrywaniu kombinacji czynników wpływających
na zachorowania na nowotwory powinien zawieraü równieĪ mechanizmy wykorzystujące dane genealogiczne. W związku z tym pojawia siĊ problem kodowania danych PED. W artykule zawarto propozycjĊ kodowania formatu PED za pomocą liczb
całkowitych. DziĊki temu przekształceniu algorytm genetyczny bĊdzie w stanie generowaü rozwiązania równieĪ w oparciu o dane genealogiczne.
Słowa kluczowe: sztuczna inteligencja, algorytmy genetyczne, format PED, dane genealogiczne
1. Wprowadzenie
Jednym z wielu czynników wpływajcych na badanie prawdopodobiestwa zachorowania na
rónego rodzaju choroby, w tym nowotwory jest informacja genetyczna na temat wystpowania
danego schorzenia w rodzinie chorego. Informacja ta moe by składnikiem wielu cech fizycznych
oraz behawioralnych wpływajcych na wystpienie zachorowania okrelonej osoby na dan chorob.
U podstaw artykułu le badania autora, które zmierzaj do odkrycia kombinacji czynników
chorobotwórczych sprzyjajcych powstaniu i póniej rozwojowi choroby nowotworowej. W badaniach tych istotn rol zajmuj algorytmy genetyczne, jako metoda pozwalajca na odkrywanie
zalenoci pomidzy wieloma zmiennymi, które nie mogłyby s na tyle złoone, e nie poddaj si
klasycznemu podejciu zmierzajcego do estymacji zmiennych endogenicznych badanego problemu. Badania bd koncentrowały si na odkryciu czynników wpływajcych na rozwój choroby
nowotworowej. Funkcja przystosowania bdzie działała w oparciu o dane na temat zachorowania
danej osoby na nowotwór, takich jak wiek pacjenta, kiedy zachorowała na nowotwór oraz wiek
zgonu, a take przebieg choroby.
W wykorzystanym do przetwarzania danych algorytmie genetycznym autor do reprezentacji
genów reprezentujcych badane zmienne zdecydował si na wykorzystania kodowania dziedziny
dostpnych wartoci liczbami całkowitymi. W zwizku z powyszym pojawił si problem przełoenia danych o rodowodzie, które najczciej s przedstawione za porednictwem formatu PED,
na posta zgodn z kodowaniem genów za pomoc liczb całkowitych w konstruowanym algorytmie genetycznym.
Z powyszego wynika struktura artykułu, w ramach którego autor zamierza przedstawi zasady działania algorytmów genetycznych, umiejscowienia kodowania genotypu za pomoc liczb
całkowitych na tle innych sposobów kodowania. Zostanie równie przedstawiona specyfika i za-
Studies & Proceedings of Polish Association for Knowledge Management
Nr 56, 2011
231
sady budowy i posługiwania si formatem PED do zapisu danych na temat genealogii danej osoby
i na koniec zostanie przedstawiona propozycja dziedziny dostpnych wartoci dla genu odpowiedzialnego za reprezentacj rodowodu osoby, tak aby pozwalała na przejcie od formatu PED do
postaci, która bdzie moliwa do przetwarzania za porednictwem algorytmu genetycznego.
2. Zasady działania algorytmów genetycznych
Do jednych z prekursorów idei algorytmów genetycznych naley J. H. Hollandowi, który
opublikował w 1962 roku prac „Outline for a logical theory of adaptive systems”. W publikacji
tej Holland przedstawił podstawy systemów adaptacyjnych, które potrafi dostosowywa swoje
właciwoci w odpowiedzi na sztucznie stworzone rodowiskiem, w którym je umieszczono [1, s.
A2.3:4].
Schemat działania algorytmu genetycznego mona przeledzi na podstawie przedstawionego
poniej pseudokodu [2, s. 26]:
procedura algorytm genetyczny
begin
t := 0
ustal pocztkowe P(t)
oce P(t)
while (not warunek zakoczenia) do
begin
t := t + 1
wybierz P(t) z P(t - 1)
zmie P(t)
oce P(t)
wyselekcjonuj P(t)
end
end
gdzie P(t) to populacja osobników stanowicych rozwizania danego problemu, natomiast t
okrela numer kolejnej iteracji.
W algorytmie tym kady osobnik przedstawia wygenerowane (za pomoc funkcji ustal początkowe P(t), zmieĔ P(t)) rozwizanie badanego problemu. Kade rozwizanie jest oceniane na
podstawie stopnia jego dopasowania wzgldem kryteriów okrelonych mianem funkcji dopasowania lub oceny (oceĔ p(t)). Tak wic kada nowa populacja (t+1) stanowi zbiór osobników najlepiej
przystosowanych do funkcji dopasowania. Na etapie funkcji zmieĔ P(t) nastpuje uycie operatorów genetycznych takich jak krzyowanie, czy mutacja wprowadzajcych zmiany w genotypie
osobników.
232
Grzegorz Wojarnik
Model wykorzystania formatu danych ped na potrzeby przetwarzania w algorytmie genetycznym
Opisany algorytm stanowi najprostsze podejcie do algorytmów genetycznych. Jego działanie
moe by sterowane wieloma parametrami opisujcymi funkcjonowanie tego algorytmu, jak
i poszczególnych operatorów genetycznych oraz warunków brzegowych wyłanianych rozwiza.
Algorytmy genetyczne najczciej słu rozwizaniu takich problemów, gdzie nie jest znany
jednoznaczny sposób rozwizujcy dany problem lub ilo potencjalnych rozwiza, z których ma
zosta wybrane najlepsze rozwizanie jest na tyle dua, e moc obliczeniowa potrzebna do analizy
tych wszystkich potencjalnych rozwiza nie jest wystarczajca, aby w sensownym czasie uzyska
to rozwizanie. Naley zauway, e algorytmy genetyczne bd przydatne tylko wtedy, jeli
znany jest sposób oceny jakoci wygenerowanego rozwizania. Przykładem jest np. problem komiwojaera, gdzie naley znale drog łczc punkty, tak aby koszt przebycia drogi był moliwie najmniejszy. W takim przypadku, gdy mamy potencjalne rozwizanie ocena jakoci proponowanej trasy jest oczywista, poniewa wystarczy poda np. ilo kilometrów jak trzeba przeby,
aby odwiedzi wszystkie lokalizacje i na tej podstawie bdzie mona wybra rozwizanie bdce
tras, która jest po prostu najkrótsza.
W przypadku algorytmu genetycznego, w którym jednym z genów jest rodowód danej osoby
naley tak skonstruowa ten gen, aby moliwe było poddanie jego działaniu operatorów genetycznych.
Wykorzystujc algorytmy genetyczne naley przyj, e znajdowane rozwizania problemów
(uzyskiwane nawet o rzdy wielkoci szybciej ni dla innych sposobów rozwizywania problemów) nie bd rozwizaniami optymalnymi, ale jedynie sub-optymalnymi, co oznacza e nie s to
rozwizania których funkcja oceny da minimaln lub maksymaln warto biorc pod uwag przestrze wszystkich potencjalnych rozwiza danego problemu. W zwizku z tym o takim wyniku
działania algorytmu genetycznego mona powiedzie, e z punktu widzenia jego przydatnoci jest
rozwizaniem zadowalajcym. Zreszt bardzo czsto, w procesie podejmowania decyzji opartych
o wyniki działania algorytmów genetycznych zalet jest fakt, e algorytmy te mog dostarczy
szereg rozwiza alternatywnych, które mog sta si podstaw podjcia kocowych decyzji.
3. Kodowanie genomu algorytmu genetycznego
Kada cecha (gen) osobnika, która jest uwzgldniana w algorytmie genetycznym musi by
zakodowana zgodnie z okrelonym typem danych w celu przeprowadzania oblicze. I w zwizku
z tym wartoci przechowywane w genach mog by reprezentowane poprzez trzy podstawowe
sposoby kodowania:
1. klasyczne czyli binarne
2. oparte na liczbach całkowitych
3. oparte na liczbach zmiennoprzecinkowych
4. logarytmiczne
W kodowaniu binarnym genami s poszczególne bity. Moe mie to zastosowanie w problemach, w których poszukujemy jednej liczby, np. przy znajdowaniu ekstremum funkcji.
W kodowaniu opartym na liczbach całkowitych wartoci poszczególnych genów s liczby
całkowite. Idealnie pasuj przy kodowaniu permutacyjnym do rozróniania (numerowania) permutowanych elementów (np. numeracja miast w problemie komiwojaera) lub reprezentowania całkowitych wag elementów (np. w problemie plecakowym). Włanie w ten sposób zostanie zakodowany rodowód osoby opisanej struktur danych zgodnym z formatem PED. Wybór padł na ten
233
Studies & Proceedings of Polish Association for Knowledge Management
Nr 56, 2011
sposób kodowania ze wzgldu na moliwo uszeregowania poszczególnych grup moliwych
kombinacji drzewa genealogicznego zawierajcego wystpowanie danej cechy (w tym przypadku
zachorowania na chorob nowotworow), np. jednym z wartoci genu rodowodu moe by sytuacja, w której oboje rodzice byli chorzy na nowotwór (dokładne rozpisanie propozycji genu w ramach kodowania opartego o liczby całkowite odwzorowujcego struktur PED znajduje si
w dalszej czci artykułu).
Z kolei w kodowaniu opartym na liczbach rzeczywistych (zmiennoprzecinkowych) genami s
liczby rzeczywiste. Kodowanie to najczciej jest uywane w problemach, w których naley precyzyjnie dobiera parametry (np. dobieranie wag w sieciach neuronowych, dobieranie parametrów
urzdze produkcyjnych dla podniesienia ich wydajnoci, dobieranie parametrów krzywych ekonomicznych i wszelkich innych funkcji modelujcych obserwowane zjawiska rzeczywiste).
I na koniec w kodowaniu logarytmicznym „pierwszy bit () cigu kodowego jest bitem znaku
funkcji wykładniczej, drugi bit () jest bitem znaku wykładnika funkcji wykładniczej, a pozostałe
bity (bin) s reprezentacj wykładnika funkcji wykładniczej” [3, s. 275]:
[αβbin] = (−1) β e ( −1)
α
[ bin ]10
W zalenoci od wartoci przechowywanych w genach i przyjtego sposobu ich układania
w chromosomie rónie definiuje si operatory genetyczne.
4. Specyfika formatu danych PED
Format danych PED [4] – to popularny format analizy genetycznej, w którym zawarte s informacje o rodowodzie i cechach genetycznych danej osoby. Za pomoc tego formatu mona
przedstawi kształtowanie jakiej cechy (np. wystpowanie nowotworu) w ramach danej rodziny,
co pozwala zobrazowa moliwo je dziedziczenia poród członków tej rodziny.
Struktura formatu PED [5]:
Family ID – identyfikator rodziny
Individual ID – identyfikator osoby
Paternal ID – identyfikator ojca
Maternal ID – identyfikator matki
Sex (1=male; 2=female; other=unknown) – płe
Phenotype – opisywana cecha, np:
0 – brak informacji,
1 – zdrowa,
2 – chora na dany typ nowotworu,
3 – chora na inny nowotwór
Na podstawie tak zdefiniowanej struktury mona sporzdzi drzewo genealogiczne danej rodziny i zobrazowa w nim wystpowanie danej cechy. Posłumy si przykładem, w ramach którego mam nastpujce dane dla hipotetycznego drzewa genealogicznego osoby A:
234
Grzegorz Wojarnik
Model wykorzystania formatu danych ped na potrzeby przetwarzania w algorytmie genetycznym
Tabela 1. Przykładowe dane zawierające informacje na temat rodowodu osoby A wraz z
informacją o zachorowalnoĞci w jego rodzinie na chorobĊ nowotworową
FamilyId
IndividualId
PaternalId
MaternalId
Sex
Phenotype
1
A
B
C
1
0
1
B
D
E
1
1
1
C
F
G
2
2
1
D
H
1
1
1
E
I
J
2
1
1
F
K
1
1
1
G
L
2
1
1
H
1
0
1
I
1
0
1
J
2
2
1
K
2
0
1
L
2
2
1
M
2
2
F
G
ródło: Opracowanie własne.
Na podstawie tak przedstawionych danych mona narysowa nastpujce drzewo genealogiczne:
H
J
I
D
E
K
L
F
G
C
B
A
Rysunek 1. Przykład drzewa genealogicznego
ródło: Opracowanie własne.
M
Studies & Proceedings of Polish Association for Knowledge Management
Nr 56, 2011
235
Powyszy rysunek przedstawia drzewo genealogiczne dla danych zawartych w tabeli 1. Jak
wida wystpowanie danego fenotypu jest zobrazowane czarnym prostoktem. Jeli dana osoba
nie posiada tego fenotypu, wtedy prostokt jest zakrelony obrysem. W przypadku, gdy dana osoba reprezentowana jest przez okrelon liter bez obrysu oznacza to, e nic nie wiadomo o wystpowaniu danego fenotypu dla tej osoby, a wic nie wiadomo jak w przypadku tej osoby on si
kształtuje.
Przy takiej definicji formatu PED naley zwróci uwag na moliw posta drzewa genealogicznego danej osoby. Na pewno bdzie si ono charakteryzowało nastpujcymi cechami:
• Zwikszone prawdopodobiestwo wystpowania osób o znanym fenotypie w bliszych pokoleniach ni dalszych.
• Ilo pokole rzadko bdzie przekraczała 4.
• W dalszych pokoleniach wiksze prawdopodobiestwo nieznajomoci rodziców – obydwojga lub jednego z dwóch.
• Moliwo i prawdopodobiestwo wystpowania danych o rodzestwie osób z poszczególnych pokole nie bdcych w prostej linii osobami bdcymi rodzicami osób z głównej linii genealogicznej (np. osoba M z tabeli 1).
Okrelenie dziedziny, w której maj by generowane chromosomy reprezentujce potencjalne
układy rodzin dla danego rozwizania, stanowicego dany układ osobników w rodzinie.
Okrelenie dziedziny powinno zosta dokonane na podstawie danych porównawczych zgromadzonych dla przebadanych/wprowadzonych do systemu osób. Na podstawie tego badanie bdzie trzeba okreli prawdopodobiestwa:
• Wystpowania w poszczególnym pokoleniu odpowiednich osób wg płci lub ich nie wystpowania.
• Pojawienia si choroby na poszczególnych poziomach pokole.
Dziki takiemu zabiegowi algorytm nie bdzie generował potencjalnych rozwiza, które nie
s moliwe do zweryfikowania z powodu braku danych weryfikujcych.
Naley si te zastanowi, czy nie wyeliminowa osób o nieznanym fenotypie cechy (tzn. e
jest osoba, ale nie wiemy czy chorowała).
Kolejnym wanym elementem budowy chromosomu jest moliwo okrelenia stopnia jego
dopasowania do zakładanego wzorca. W przypadku chromosomu, który reprezentuje dane na
temat zachorowalnoci członków rodziny danej osoby bdzie wane sprawdzenie w jakim stopniu
dany chromosom jest zgodny w stosunku do zebranych danych. Dlatego naley zdefiniowa dla
takiego chromosomu właciwo Dopasowanie podajc (np. W procentach) stopie dopasowania
chromosomu do danych porównawczych. Jednak naley pamita, e właciwo ta jest cile
zwizana ze wszystkimi innymi chromosomami danego osobnika i powinna by cile zwizana
z funkcj oceny dla całego genotypu osobnika podlegajcego przetwarzaniu poprzez algorytm
genetyczny.
236
Grzegorz Wojarnik
Model wykorzystania formatu danych ped na potrzeby przetwarzania w algorytmie genetycznym
5. Struktura genu dla formatu PED
Jak zostało przedstawione wczeniej naley w ten sposób okreli dziedzin dostpnych wartoci jakie przyjmie gen, który bdzie zawierał dane na temat rodowodu osoby, aby moliwe było
przetwarzanie tego genu operatorami genetycznymi algorytmu genetycznego oraz aby kada jego
warto w prosty sposób okrelała stan rodowodu danej osoby.
W zwizku z faktem, e w dostpnej literaturze trudno doszuka si takiego rozwizania naley wyj od okrelenia dwóch skrajnych sytuacji, które bd stanowiły dwa stany genu rodowodu
stajce po przeciwnych stronach dziedziny dostpnych wartoci. Pierwszym jest sytuacja, w której
wszystkie osoby, włczajc matk i ojca, bdce w “rodzinie” danej osoby nie chorowały na nowotwór. Z drugiej strony skrajn sytuacj jest taka, w której wszystkie osoby z “rodziny” chorowały na nowotwór. Wychodzc od takich dwóch skrajnych wartoci naley w kolejnym kroku
okreli stany porednie.
Oczywiste jest, e stanów porednich powinna by taka liczba, aby nie powodowała drastycznego wzrostu kombinacji w trakcie przetwarzania algorytmu genetycznego, ale jednoczenie powinna za sob nie konkretn warto poznawcz wnoszc istotn wiedz do danego problemu.
I tutaj decyzja o iloci stanów genów rodowodu powinna zalee od iloci rónych kombinacji
rodowodu w danych badawczych. Zakładajc du ich ilo oraz rónorodno mona zaproponowa nastpujce wartoci:
0 – brak zachorowa w rodzinie,
1 – poniej 30% zachorowa sporód osób nalecych do rodziny, ale aden z rodziców nie
chorował na nowotwór,
2 – od 30% do 65% zachorowa sporód osób nalecych do rodziny, ale bez adnego z rodziców,
3 – poniej 30% zachorowa w rodzinie, ale chorował jeden z dziadków,
4 – poniej 30% zachorowa w rodzinie, ale chorował jeden z rodziców,
5 – od 30% do 65% zachorowa w rodzinie, w tym jeden z dziadków,
6 – od 30% do 65% zachorowa w rodzinie, w tym jeden z rodziców,
7 – powyej 65% w rodzinie zachorowało,
8 – powyej 65% w rodzinie zachorowało, w tym jeden z dziadków,
9 – powyej 65% w rodzinie zachorowało, w tym jeden z rodziców,
10 – obydwoje rodzice byli chorzy na nowotwór, ale aden z dziadków,
11 – obydwoje rodzice byli chorzy na nowotwór oraz co najmniej jeden z dziadków,
12 – wszyscy w rodzinie chorowali na nowotwór.
Dziki takiemu przekształceniu formatu PED do postaci genu kodowanego liczbami całkowitymi bardzo łatwe staje si poddanie tego genu operatorom genetycznym takim jak np. mutacja,
bowiem wystarczy losowo doda lub odj od danej wartoci 1, aby zmieni stan genu, ale w ten
sposób, aby zmieniona warto nie oznaczała stanu znacznie odbiegajcego od stanu wyjciowego.
Jednoczenie w prosty sposób mona generowa losowo stany rodowodów dla np. nowotworzonych rozwiza problemu poprzez prosty losowy wybór wartoci okrelajcej który stan rodowodu. Równoczenie warto doda, e wyej podana propozycja moe by w prosty sposób modyfikowano zarówno w kierunku powikszenia iloci stanów rodowodu w sytuacji, gdy tych stanów
w badanych danych jest o wiele wicej, a z drugiej strony ilo dostpnych stanów genu rodowodu
Studies & Proceedings of Polish Association for Knowledge Management
Nr 56, 2011
237
mona zmniejszy, gdyby si okazało, e w badanych danych s przechowywane dane PED opisujce rodowody w wszym zakresie, np. ograniczone tylko do dwóch pokole.
Naley podkreli, e aby zapewni wysok jako kodowania liczbami całkowitymi danych
w formacie PED naley przypisa kolejnym wartociom stany, które bd si od siebie róniły
w minimalny sposób, dziki czemu działanie operatorów genetycznych zapewni optymalne rezultaty działania algorytmu genetycznego.
6. Podsumowanie
W artykule został zaproponowany sposób kodowania za pomoc liczb całkowitych danych
w formacie PED, tak aby mogły by przetwarzane za pomoc algorytmu genetycznego. Naley
zaznaczy, e propozycja ta stanowi element pracy badawczej autora artykułu zmierzajcej do
budowy algorytmu genetycznego umoliwiajcego odkrywanie kombinacji czynników wpływajcych na zachorowania na choroby nowotworowe, a włanie dane na temat rodowodu osoby stanowi jeden z takich czynników.
Weryfikacj działania i funkcjonowania proponowanego podejcia bdzie uruchomienie
oprogramowanego algorytmu, który bdzie bazował na danych ankietowych sporód ponad 2 tys.
osób, które zgodziły si na wypełnienie ankiety podajc równoczenie swoje dane genealogiczne.
Bibliografia
[1]
[2]
[3]
[4]
[5]
De Jong K., Fogel D. B., Schwefel H. P.: A history of evolutionary computation
w Handbook of Evolutionary Computation, Oxford University Press, Oxford 1997.
Michalewicz Z.: Genetic Algorithms + Data Structures = Evolution Programs,
Wydawnictwa Naukowo-Techniczne, Warszawa 2003 [in Polish].
Rutkowski Leszek, Metody i techniki sztucznej inteligencji, Wydawnictwo Naukowe PWN,
Warszawa 2006, s. 275.
http://www.biomedcentral.com/1756-0500/2/214.
http://pngu.mgh.harvard.edu/~purcell/plink/data.shtml.
238
Grzegorz Wojarnik
Model wykorzystania formatu danych ped na potrzeby przetwarzania w algorytmie genetycznym
MODEL OF THE USE OF PED DATA FORMAT FOR PROCESSING
IN THE GENETIC ALGORITHM
Summary
Genealogy is an important factor influencing the incidence of various diseases,
including cancer. Representation of such data allows the PED format. Discovering
the genetic algorithm used a combination of factors influencing the incidence of cancer should also include mechanisms for using genealogical data. Therefore, there is
a problem of encoding PED data. The article includes a proposal for the encoding
format of PED using integers. Thanks to this transformation of a genetic algorithm is
able to generate solutions also based on genealogical data.
Keywords: artificial intelligence, genetic algorithms, PED format, genealogical data
Grzegorz Wojarnik
Instytut Informatyki w Zarzdzaniu
Wydział Nauk Ekonomicznych i Zarzdzania
Uniwersytet Szczeciski
e-mail: [email protected]

Podobne dokumenty