Zastosowanie analiz statystycznych w badaniach biomedycznych
Transkrypt
Zastosowanie analiz statystycznych w badaniach biomedycznych
Dr inż. Anna Stanisławska-Sachadyn Katedra i Zakład Biologii i Genetyki Gdański Uniwersytet Medyczny Zastosowanie analiz statystycznych w badaniach biomedycznych Warsztaty: Statystyka i analiza danych II Politechnika Gdańska 19-21.02.2015 WPROWADZENIE Z uwagi na liczne potencjalne czynniki modyfikujące przebieg choroby lub stan homeostazy w przypadku jednostkowym, analiza statystyczna populacji stanowi często jedyną opcję oceny wpływu określonego czynnika Bez umiejętnego zastosowania licznych analiz statystycznych nie jest możliwe zbadanie związku między czynnikami genetycznymi lub zmiennymi biochemicznymi, a chorobą, w dużych populacjach ZAGADNIENIA Podstawy analizy SNP (ang. single nucleotide polymorphism, polimorfizm jednonukleotydowy) oraz danych biochemicznych w badaniach populacyjnych w naukach biomedycznych: Ø statystyki opisowe zmiennych Ø analiza odstępstwa w rozkładzie genotypów od reguły Hardy’ego–Weinberga Ø analiza typu rozkładu zmiennych ciągłych Ø dobór odpowiedniego testu do analiz zależność genotyp-fenotyp biochemiczny Ø zastosowanie regresji liniowej oraz modeli regresji liniowej w analizach zależności genotyp-fenotyp biochemiczny Ø zastosowanie testów nieparametrycznych Ø poprawka metodą Bonferroniego dla wielokrotnych powtórzeń Ø użycie ilorazu szans w analizie rozkładu częstości genotypów oraz biochemicznych zmiennych kategoryzowanych w celu określenia udziału czynników genetycznych i biochemicznych w chorobie Ø analiza typu Kaplan-Meier (tzw. krzywa przeżycia) dla oceny czasu przeżycia w odpowiedzi na występowanie zmiennej modyfikującej np. genotypu lub stosowanego leku w chorobie Ø podstawowe problemy w analizie danych mikromacierzowych poziomu metylacji DNA uzyskanych przy zastosowaniu platformy Infinium 450K firmy Illumina SNP (ang. Single Nucleotide Polymorphism) Polimorfizm - zmiana w sekwencji nukleotydowej, która występuje w populacji z częstością wyższą niż 1%. Mutacja < 1%. Przypuszcza się, że genom ludzki zawiera od 3 milionów do 6 milionów SNPs w nieregularnych odstępach: 500 do 1 000 pz. SNP database: http://www.ncbi.nlm.nih.gov/snp/ SNP database: http://www.ncbi.nlm.nih.gov/snp/ SNP database: http://www.ncbi.nlm.nih.gov/snp/ OMIM: http://www.ncbi.nlm.nih.gov/omim/ OMIM: http://www.ncbi.nlm.nih.gov/omim/ STATYSTYKI OPISOWE 1) Dla wartości ciągłych, w grupach definiowanych przez inne zmienne, np. kategoryzowane: Mediany (1-3 kwartyl), N Średnie, odchylenia standardowe, N 2) Częstości zmiennych kategoryzowanych w grupach STATYSTYKI OPISOWE Stanisławska-Sachadyn A, Woodside JV, Brown KS, Young IS, Murray L, McNulty H, Strain JJ, Boreham CA, Scott JM, Whitehead AS, Mitchell LE (2008) Evidence for Sex Differences in the Determinants of Homocysteine Concentrations. Mol Genet Metab. 93:355-62. ANALIZA TYPU ROZKŁADU ZMIENNYCH CIĄGŁYCH Variable: X Test Shapiro-Wilk Variable: log(X) Badanie związku między polimorfizmem, a danymi biochemicznymi genotyp A genotyp B genotyp C Niezbędne do przeprowadzenia analiz są dane numeryczne: - DANE BIOCHEMICZNE np. - poziom metabolitu - DANE FIZJOLOGICZNE np. BMI ciśnienie krwi parametr Gensiniego Należy ustalić, czy rozkład danych analizowanych jest normalny Biosynteza folianów, a MTHFR 677C>T MTHFR 677CC MTHFR 677TT wg. Bagley PJ, Selhub J (1998) A common mutation in the methylenetetrahydrofolate reductase gene is associated with an accumulation of formylated tetrahydrofolates in red blood cells. Proc Natl Acad Sci U S A. 95:13217-20. ZASTOSOWANIE REGRESJI LINIOWEJ W BADANIU ZALEŻNOŚCI FENOTYP-GENOTYP (R2) proporcja zmienności w stężeniu homocysteiny opisywana przez wybrane czynniki biochemiczne i behawioralne 1 Wartość P dla hipotezy o nielinowej zależności między zmienną objaśniającą, a stężeniem homocysteiny (zmienna zależna) 2 Szacowane współczynniki regresji oraz błędy standardowe (SE) Predictor Variables Males Females R2 (P-value)1 Variable Coefficient (SE)2 R2 (P-value)1 Variable Coefficient (SE)2 Red blood cell folate (nmol/l) 0.21 (<0.01) -0.0002 (0.00004) 0.26 (<0.01) -0.0002 (0.00003) Serum vitamin B12 (pmol/l) 0.17 (<0.01) -0.0005 (0.00008) 0.14 (<0.01) -0.0006 (0.0001) Creatinine (mmol/l) 0.004 (0.43) 0.0007 (0.0009) 0.02 (0.07) 0.0019 (0.0011) Current use of cigarettes (yes/no) 0.005 (0.39) -0.0211 (0.0246) 0.07 (<0.01) 0.0850 (0.0250) Current use of alcohol (yes/no) 0.001 (0.26) 0.0374 (0.0330) 0.02 (0.10) 0.0545 (0.0305) Current use of multivitamin supplements (yes/no) 0.03 (0.03) 0.0619 (0.0283) 0.04 (0.01) 0.0706 (0.0274) MTHFR 677C>T CC CT 0.05 (0.83, 0.01)3 0.05 (0.28, 0.01) -0.0053 (0.0240) 0.1046 (0.0387) 0.0296 (0.0272) 0.1042 (0.0372) Stanisławska-Sachadyn A, Woodside JV, Brown KS, Young IS, Murray L, McNulty H, Strain JJ, Boreham CA, Scott JM, Whitehead AS, Mitchell LE (2008) Evidence for Sex Differences in the Determinants of Homocysteine Concentrations. Mol Genet Metab. 93:355-62. MODELE REGRESJI LINIOWEJ W BADANIU ZALEŻNOŚCI FENOTYPGENOTYP Modele regresji liniowej wyjaśniające stężenie homocysteiny w Young Hearts 3. Variables2 Model 1 Males and Females:Folate+B12+MTHFR Males Females Adjusted R2 Change in Adjusted R2 Adjusted R2 Change in Adjusted R2 0.317 -- 0.334 -- 1a +folate-B12 interaction 0.335 0.018 0.338 0.004 1b +folate-MTHFR interaction 0.397 0.080 0.329 -0.005 1c +B12-MTHFR interaction 0.317 0.000 0.330 -0.004 0.397 -- 0.334 -- 2 Males:Folate+B12+MTHFR+Folate-MTHFR interaction Females:Folate+B12+MTHFR 2a +smoking 0.412 0.015 0.344 0.010 2b +alcohol 0.394 -0.003 0.338 0.004 2c +multivitamin supplement 0.395 -0.002 0.330 -0.004 2d +creatinine 0.399 0.002 0.330 -0.004 0.412 -- 0.344 -- 3 Males: Folate+ B12+MTHFR+Folate-MTHFR interaction+Smoking Females: Folate+B12+MTHFR+Smoking 3a +smoking-folate interaction 0.408 -0.004 0.362 0.018 3b +smoking-B12 interaction 0.409 -0.003 0.344 0.000 3c +smoking-MTHFR interaction 0.422 0.010 0.340 -0.004 Stanisławska-Sachadyn A, Woodside JV, Brown KS, Young IS, Murray L, McNulty H, Strain JJ, Boreham CA, Scott JM, Whitehead AS, Mitchell LE (2008) Evidence for Sex Differences in the Determinants of Homocysteine Concentrations. Mol Genet Metab. 93:355-62. MODELE REGRESJI LINIOWEJ W BADANIU ZALEŻNOŚCI FENOTYPGENOTYP WAŻNA LITERATURA: Introduction of linear regression analysis. Chapter 9. Variable Selection and Model Building, Montgomery DC, Peck EA and Vining GG. John Wiley and Sons, Inc. New Jersey, 2006. ZASTOSOWANIE REGRESJI LINIOWEJ W BADANIU ZALEŻNOŚCI FENOTYP-GENOTYP Proporcja zmienności (R2) w stężeniu folianów wyjaśniana przez DHFR c.86+60_78 ins/del w YH3. Male Female R2 (P-value)1 Variable Coefficient (SE)2 N R2 (P-value)1 Variable Coefficient (SE)2 N DHFR c.86+60_78 ins/del del/del 0.006 (0.58) -0.006 (0.03) 0.03 (0.03) 189 0.02 (0.16) -0.01 (0.03) 0.06 (0.04) 178 MTHFR 677C>T CT TT 0.08 (<0.01) -0.06 (0.02) -0.15 (0.04) 189 0.03 (0.05) -0.05 (0.03) -0.10 (0.04) 178 0.002 (0.87) -0.02 (0.04) -0.02 (0.04) 188 0.05 (0.02) -0.006 (0.04) 0.12 (0.05) 163 0.03 (0.05) -0.07 (0.03) -0.10 (0.05) 188 0.03 (0.09) -0.04 (0.04) -0.11 (0.05) 163 RBC folates (nmol/l) Serum folates (nmol/l) DHFR c.86+60_78 ins/del del/del MTHFR 677C>T CT TT Stanisławska-Sachadyn A, Brown KS, Mitchell LE, Woodside JV, Young IS, Scott JM, Murray L, Boreham CA, McNulty H, Strain JJ, Whitehead AS (2008) Hum Genet.123:289-95. ZASTOSOWANIE REGRESJI LINIOWEJ W BADANIU ZALEŻNOŚCI FENOTYP-GENOTYP Proporcja zmienności (R2) w stężeniach fol/Hcy wyjaśniana przez SLC19A1 c.80G>A w Young Hearts 3. All Males Females R2 (P-value)1 Variable Coefficient (SE)2 R2 (P-value)1 Variable Coefficient (SE)2 R2 (P-value)1 Variable Coefficient (SE)2 0.02 (0.04) 0.05 (0.02) 0.07 (0.03) 0.01 (0.43) 0.003 (0.03) 0.05 (0.04) 0.05 (0.02) 0.09 (0.03) 0.10 (0.04) 0.004 (0.54) 0.02 (0.03) 0.04 (0.04) 0.001 (0.95) -0.01 (0.03) -0.10 (0.05) 0.01 (0.32) 0.06 (0.04) 0.06 (0.05) 0.003 (0.53) -0.02 (0.02) -0.02 (0.02) 0.01 (0.50) -0.03 (0.02) -0.03 (0.03) 0.001 (0.89) -0.01 (0.03) -0.003 (0.03) RBC folates (nmol/l) SLC19A1 c.80G>A GA AA Serum folates (nmol/l) SLC19A1 c.80G>A GA AA Homocysteine (µmol/l) SLC19A1 c.80G>A GA AA Stanislawska-Sachadyn A, Mitchell LE, Woodside JV, Buckley PT, Kealey C, Young IS, Scott JM, Murray L, Boreham CA, McNulty H, Strain JJ, Whitehead AS (2009) Ann Hum Genet. 73:484-91. ZASTOSOWANIE TESTÓW NIEPARAMETRYCZNYCH W BADANIU ZALEŻNOŚCI FENOTYP-GENOTYP Test Kruskala-Wallisa: "Test rang Kruskala-Wallisa bada hipotezę, że próby zostały pobrane z populacji o tym samym rozkładzie lub z populacji o rozkładach posiadających ta samą medianę. Ten test zakłada, że badana zmienna ma charakter ciągły oraz że została zmierzona przynajmniej na skali porządkowej (rangowej)." Prof. dr hab. Cezary Watała, Biostatystyka-wykorzystanie metod statystycznych w pracy badawczej w naukach biomedycznych. α-medica press 2002 Test sumy rang Wilcoxona: "jest nieparametrycznym odpowiednikiem testu t Studenta. Wymaga, aby porównywane zmienne były przynajmniej na skali porządkowej (rangowej)." Prof. dr hab. Cezary Watała, Biostatystyka-wykorzystanie metod statystycznych w pracy badawczej w naukach biomedycznych. α-medica press 2002 ZASTOSOWANIE TESTÓW NIEPARAMETRYCZNYCH W BADANIU ZALEŻNOŚCI FENOTYP-GENOTYP Stanisławska-Sachadyn A1, Woodside JV, Sayers CM, Yarnell JW, Young IS, Evans AE, Mitchell LE, Whitehead AS (2010) The transcobalamin (TCN2) 776C>G polymorphism affects homocysteine concentrations among subjects with low vitamin B(12) status. Eur J Clin Nutr. 64:1338-43 Stanisławska-Sachadyn A1, Woodside JV, Sayers CM, Yarnell JW, Young IS, Evans AE, Mitchell LE, Whitehead AS (2010) The transcobalamin (TCN2) 776C>G polymorphism affects homocysteine concentrations among subjects with low vitamin B(12) status. Eur J Clin Nutr. 64:1338-43 POPRAWKA DLA WIELOKROTNYCH PORÓWNAŃ METODĄ BONFERRONIEGO P=0.01 oznaczona testem Kruskal-Wallisa dla różnic w poziomie witaminy B12 dla polimorfizmu TCN2 776 C>G oznacza, że jest różnica w poziomie witaminy pomiędzy genotypami w tym polimorfizmie. Porównanie w parach: CC vs GG P=0.015 CC CG C Poprawka Bonferroniego: P=0.015x3=0.045 GG G CC vs CG P=0.01 CG vs GG P=0.5 Polimorfizm NAT1 1095C>A, a poziom homocysteiny Biochemical parameter Homocysteine (µmol/l) RBC folate (nmol/l RBCs) Folate (nmol/l) Vitamin B12 (pmol/l) NAT1 1095 C>A genotype (n) Subset P CC homozygotes A allele carriers All 8.8 [7.5-10.7] (247) 9.2 [7.7-11.3] (151) 0.10 Non-smokers 8.6 [7.5-10.3] (146) 8.8 [7.5-10.9] (99) 0.72 Smokers 9.3 [7.3-11.1] (99) 10.3 [8.2-13.4] (51) 0.015 All 658.0 [478.8-831.6] (230) 638.4 [479.2-841.1] (133) 0.93 Non-smokers 677.9 [512.8-842.0] (138) 638.9 [480.4-907.9] (91) 0.93 Smokers 596.5 [463.4-793.9] (90) 575.6 [438.9-774.2] (41) 0.98 All 13.0 [9.4-18.8] (218) 12.5 [9.6-18.8] (133) 0.84 Non-smokers 14.0 [9.6-19.3] (131) 13.6 [10.3-22.0] (87) 0.69 Smokers 11.5 [9.3-15.7] (85) 10.1 [8.3-14.7] (45) 0.17 All 272.0 [196.0-346.0] (219) 260.0 [197.0-341.0] (133) 0.68 Non-smokers 287.0 [198.0-359.0] (131) 267.0 [203.0-366.0] (87) 0.95 236.0 [190.0-336.0] (86) 227.0 [164.0-312.0] (45) 0.41 Smokers median [Interquartile range] (n, number of individuals) RBCs (red blood cells) Stanisławska-Sachadyn A1, Jensen LE, Kealey C, Woodside JV, Young IS, Scott JM, Murray L, Boreham CA, McNulty H, Strain JJ, Whitehead AS (2006) Association between the NAT1 1095C > A polymorphism and homocysteine concentration. Am J Med Genet A. 140:2374-7. Choroby dziedziczone autosomalnie recesywnie http://biochemhelp.com/Pedigree-of-Humangenetics.html Choroby dziedziczone autosomalnie recesywnie http://commons.wikimedia.org/wiki/File:2926_Autosomal_Recessive_Inheritance-new.jpg Częstość alleli Genotyp Grupa krwi IA/IA, IA/i A IB/IB, IB/i B IA/IB AB i/i 0 http://en.wikipedia.org/wiki/Blood_type_distribution_by_country REGUŁA HARDY’EGO–WEINBERGA (p+q)2=p2+2pq+q2=1 • • • • • p- częstość allelu dominującego q- częstość allelu recesywnego p2- częstość homozygot dominujących q2- częstość homozygot recesywnych 2pq- częstość heterozygot p+q=1 Suma częstości alleli w populacji wynosi 1 SZACHOWNICA PUNNETTA „Schemat punneta2” autorstwa Tebeuszek - Praca własna. Licencja CC BY-SA 3.0 na podstawie Wikimedia Commons http://commons.wikimedia.org/wiki/File:Schemat_punneta2.svg#mediavie wer/File:Schemat_punneta2.svg REGUŁA HARDY’EGO–WEINBERGA - ĆWICZENIE 1 osoba / 2500 w populacji kaukaskiej cierpi na mukowiscydozę. Choroba jest dziedziczona w sposób autosomalny recesywny. Jaka jest częstość allelu zmutowanego w populacji kaukaskiej? Ile osób na 100 niesie zmutowany allel? REGUŁA HARDY’EGO–WEINBERGA Częstość genotypów i alleli uzyskana w efekcie analiz genetycznych vs częstość oczekiwana sum CC CT TT sum*2 MTHFR 82 93 22 197 394 alleles allele freq expected 257 0.652284264 137 0.347715736 83.81853 89.36294 23.81853 REGUŁA HARDY’EGO–WEINBERGA REGUŁA HARDY’EGO–WEINBERGA - ĆWICZENIE Czy rozkład genotypów w poniższym przykładzie jest zgodny z regułą Hardy'egoWeinberga? sum sum*2 alleles allele freq expected 210 0.561497326 58.9572 92.0856 0.438502674 35.9572 TYMS CC CG GG 45 120 22 164 187 374 Analiza zależności między genotypem, a chorobą Odds Ratio KaplanMeier TDT Odds Ratio - iloraz szans http://www.hutchon.net/ConfidOR.htm Odds Ratio - iloraz szans Literature Altman DG (1991) Practical statistics for medical research. London: Chapman and Hall. Altman DG, Deeks JJ, Sackett DL. Odds ratios should be avoided when events are common [letter]. BMJ 1998;317:1318. Deeks JJ, Higgins JPT (2010) Statistical algorithms in Review Manager 5. Retrieved from http://ims.cochrane.org/revman/documentation/Statistical-methods-inRevMan-5.pdf Pagano M, Gauvreau K (2000) Principles of biostatistics. 2nd ed. Belmont, CA: Brooks/Cole. Parshall MB (2013) Unpacking the 2 x 2 table. Heart & Lung 42:221-226. [Abstract] http://www.medcalc.org/calc/odds_ratio.php Odds Ratio - iloraz szans Odds Ratio - iloraz szans Odds Ratio - iloraz szans Odds Ratio - iloraz szans POLIMORFIZM GENOTYP PRZYPADKI (% of genotype carriers) GRUPA KONTROLNA (% of genotype carriers) OR (5-95% CI), P GG 18 (21.18) 62 (40.52) 1 (Ref) GC 30 (35.29) 76 (49.67) 6.36 (0.69-2.67), P=0.37 CC 37 (43.53) 15 (9.80) 8.50 (3.83-18.85), P<.0001 GENX CvsGG(Ref) 2.54 (1.37-4.68), P=0.003 CCvsG(Ref) 7.09 (3.58-14.05), P<.0001 Odds Ratio - iloraz szans POZIOM METABOLITU DOLNA POŁOWA DYSTRYBUCJI GÓRNA POŁOWA DYSTRYBUCJI PRZYPADKI GRUPA KONTROLNA OR (5-95% CI), P 50 150 1 (Ref) 80 120 2.0 (1.30-3.07), P=0.0015 Analiza Kaplana-Meiera Przy wykorzystaniu tej analizy często tworzone są krzywe przeżycia Dane: Obserwacje nie muszą być pełne. Zdarzenie w chorobie, - statystyka wykorzystująca analizę Kaplana-Meiera Zdarzenie w chorobie, - statystyka wykorzystująca analizę Kaplana-Meiera Analiza genomowych profili metylacji DNA przy użyciu platformy Infinium 450K firmy Illumina • Analiza poziomu metylacji w przeszło 480 000 miejsc CpG • Poniżej 2% wszystkich miejsc CpG na genomie • Mikromacierz tzw. SNPowa • DNA konwertowane dwusiarczynem sodu przed analizą Metylacja DNA Badanie metylacji DNA przez konwersję niemetylowanych cytozyn dwusiarczynem sodu. Przykładowy wynik Infinium 450K Cg14967987: GGCCCCTTTCGGTGAGCAGTGTCTAAAGTTCTGTCGCGTGTTGCCCACGCGTCGGTGGCT[CG]CTCCTTGCAACTGCTGAGCATTGTATGGCTAGGCTGTAGTTTGTTTTCACTTCACCAGTT PODSTAWOWE PROBLEMY W ANALIZIE DANYCH MIKROMACIERZOWYCH POZIOMU METYLACJI DNA UZYSKANYCH PRZY ZASTOSOWANIU PLATFORMY INFINIUM 450K firmy ILLUMINA Porównanie w 480 000 punktów dla przypadków i osób z grupy kontrolnej: Ø T-test Ø Wilcoxon Ø ANOVA Czy stosować poprawki dla wielokrotnych porównań i jakie? PODSTAWOWE PROBLEMY W ANALIZIE DANYCH MIKROMACIERZOWYCH POZIOMU METYLACJI DNA UZYSKANYCH PRZY ZASTOSOWANIU PLATFORMY INFINIUM 450K firmy ILLUMINA Odrzucenie zmian na niskim poziomie: STOSUNEK ŚREDNICH WARTOŚCI POZIOMU METYLACJI: PRZYPADKI / GRUPA KONTROLNA RATIO>2.0 ANOVA<0.05 Średni poziom metylacji w przypadkach ≥ 5% RATIO<0.5 ANOVA<0.05 Średni poziom metylacji w kontrolach ≥ 5% POPRAWKA DLA WIELOKROTNYCH PORÓWNAŃ METODĄ BENJAMINIEGO 1. Porównanie 2 grup: t-test, Wilcoxon, Anova 2. Nadanie rang wynikom testów 3. Poprawka Benjaminiego: (wynik testu/liczba testów)*przyjęty odsetek wyników fałszywie ujemnych 4. Wartość istotna statystycznie: wartość wg testu Benjaminiego > wartość uzyskana testem porównującym grupy