Statystyczne kryteria wyboru modelu i ich zastosowanie do
Transkrypt
Statystyczne kryteria wyboru modelu i ich zastosowanie do
Statystyczne kryteria wyboru modelu i ich zastosowanie do przeszukiwania genetycznych baz danych Małgorzata Bogdan Dzięki rozwojowi technologii genetycy potrafią obecnie ustalać genotypy poszczególnych osobników w wielu tysiącach genetycznych markerów. Uzyskane w ten sposób bardzo duże zbiory danych można wykorzystywać do lokalizacji genów odpowiedzialnych za rozwój pewnych chorób i wpływających na ważne cechy ilościowe. Związek pomiędzy wartościami cech ilościowych a genotypami markerów często opisuje się za pomocą wieloczynnikowej analizy wariancji lub regresji wielorakiej. Najtrudniejszym elementem takiej analizy jest oszacowanie liczby istotnych zmiennych objaśniających (genów). Badania symulacyjne zaprezentowane w [1] pokazują, że podczas przeszukiwania tak dużych zbiorów danych klasyczne statystyczne kryteria wyboru modelu mają bardzo silną tendencję do przeszacowania liczby istotnych genów. W cyklu artykułów [2]-[7] wyjaśniliśmy przyczyny tego zjawiska na gruncie statystyki bayesowskiej i klasycznej. Zaproponowaliśmy także zmodyfikowane Bayesowskie Kryterium Informacyjne (mBIC), które umożliwia wykorzystanie wstępnej wiedzy dotyczącej liczby istotnych genów i kontroluje liczbę tzw. fałszywych odkryć. W trakcie wykładu omówimy mBIC i jego związek z popularną korektą Bonferroniego na wielokrotne testowanie. Podamy także warunki przy których kryterium to umożliwia minimalizację kosztów wnioskowania statystycznego. Ponadto zaprezentujemy nową wersję mBIC, posiadającą własności optymalności w znacznie szerszym zakresie parametrów tzw. ``rzadkiej regresji’’. Działanie mBIC i jego nowej wersji zilustrujemy za pomocą symulacji komputerowych i analizy danych rzeczywistych. Literatura [1] Broman, K. W., i Speed T. P. (2002) A model selection approach for the identification of quantitative trait loci in experimental crosses. J Roy Stat Soc B, 64: 641 -- 656. [2] Bogdan M, Ghosh JK, Doerge RW. Modifying the Schwarz Bayesian Information Criterion to Locate Multiple Interacting Quantitative Trait Loci. Genetics, 2004; 167: 989-999. [3] Baierl A, Bogdan M, Frommlet F, Futschik A. On Locating Multiple Interacting Quantitative Trait Loci in Intercross Designs. Genetics, 2006; 173: 1693-1703. [4] Baierl A, Futschik A, Bogdan M, Biecek P. Locating Multiple Interacting Quantitative Trait Loci Using Robust Model Selection, Computational Statistics and Data Analysis, 2007; 51: 6423-6434. [5] Żak M, Baierl A, Bogdan M, Futschik A. Locating Multiple Interacting Quantitative Trait Loci Using Rank-Based Model Selection. Genetics 2007; 176: 1845-1854. [6] Bogdan M, Ghosh JK, Żak-Szatkowska M . Selecting explanatory variables with the modified version of the Bayesian Information Criterion. Quality and Reliability Engineering International, 2008; 24: 627-641. [7] Bogdan M, Frommlet F, Biecek P, Cheng R, Ghosh JK, Doerge RW Extending the Modified Bayesian Information Criterion (mBIC) to dense markers and multiple interval mapping, Biometrics, 2008; 64: 1162—1169.