Statystyczne kryteria wyboru modelu i ich zastosowanie do

Transkrypt

Statystyczne kryteria wyboru modelu i ich zastosowanie do
Statystyczne kryteria wyboru modelu i ich zastosowanie do przeszukiwania
genetycznych baz danych
Małgorzata Bogdan
Dzięki rozwojowi technologii genetycy potrafią obecnie ustalać genotypy
poszczególnych osobników w wielu tysiącach genetycznych markerów. Uzyskane w ten
sposób bardzo duże zbiory danych można wykorzystywać do lokalizacji genów
odpowiedzialnych za rozwój pewnych chorób i wpływających na ważne cechy ilościowe.
Związek pomiędzy wartościami cech ilościowych a genotypami markerów często
opisuje się za pomocą wieloczynnikowej analizy wariancji lub regresji wielorakiej.
Najtrudniejszym elementem takiej analizy jest oszacowanie liczby istotnych zmiennych
objaśniających (genów). Badania symulacyjne zaprezentowane w [1] pokazują, że podczas
przeszukiwania tak dużych zbiorów danych klasyczne statystyczne kryteria wyboru modelu
mają bardzo silną tendencję do przeszacowania liczby istotnych genów.
W cyklu artykułów [2]-[7] wyjaśniliśmy przyczyny tego zjawiska na gruncie
statystyki bayesowskiej i klasycznej. Zaproponowaliśmy także zmodyfikowane Bayesowskie
Kryterium Informacyjne (mBIC), które umożliwia wykorzystanie wstępnej wiedzy dotyczącej
liczby istotnych genów i kontroluje liczbę tzw. fałszywych odkryć. W trakcie wykładu
omówimy mBIC i jego związek z popularną korektą Bonferroniego na wielokrotne
testowanie. Podamy także warunki przy których kryterium to umożliwia minimalizację
kosztów wnioskowania statystycznego. Ponadto zaprezentujemy nową wersję mBIC,
posiadającą własności optymalności w znacznie szerszym zakresie parametrów tzw.
``rzadkiej regresji’’. Działanie mBIC i jego nowej wersji zilustrujemy za pomocą symulacji
komputerowych i analizy danych rzeczywistych.
Literatura
[1] Broman, K. W., i Speed T. P. (2002) A model selection approach for the identification of
quantitative trait loci in experimental crosses. J Roy Stat Soc B, 64: 641 -- 656.
[2] Bogdan M, Ghosh JK, Doerge RW. Modifying the Schwarz Bayesian Information Criterion to
Locate Multiple Interacting Quantitative Trait Loci. Genetics, 2004; 167: 989-999.
[3] Baierl A, Bogdan M, Frommlet F, Futschik A. On Locating Multiple Interacting Quantitative
Trait Loci in Intercross Designs. Genetics, 2006; 173: 1693-1703.
[4] Baierl A, Futschik A, Bogdan M, Biecek P. Locating Multiple Interacting Quantitative Trait Loci
Using Robust Model Selection, Computational Statistics and Data Analysis, 2007;
51: 6423-6434.
[5] Żak M, Baierl A, Bogdan M, Futschik A. Locating Multiple Interacting Quantitative Trait Loci
Using Rank-Based Model Selection. Genetics 2007; 176: 1845-1854.
[6] Bogdan M, Ghosh JK, Żak-Szatkowska M . Selecting explanatory variables with the modified
version of the Bayesian Information Criterion. Quality and Reliability Engineering International,
2008; 24: 627-641.
[7] Bogdan M, Frommlet F, Biecek P, Cheng R, Ghosh JK, Doerge RW Extending the Modified
Bayesian Information Criterion (mBIC) to dense markers and multiple interval mapping, Biometrics,
2008; 64: 1162—1169.

Podobne dokumenty