Zastosowanie analiz statystycznych w badaniach biomedycznych

Transkrypt

Zastosowanie analiz statystycznych w badaniach biomedycznych
Dr inż. Anna Stanisławska-Sachadyn
Katedra i Zakład Biologii i Genetyki
Gdański Uniwersytet Medyczny
Zastosowanie analiz
statystycznych w badaniach
biomedycznych
Warsztaty: Statystyka i analiza danych II
Politechnika Gdańska
19-21.02.2015
WPROWADZENIE
Z uwagi na liczne potencjalne czynniki modyfikujące
przebieg choroby lub stan homeostazy w przypadku
jednostkowym, analiza statystyczna populacji
stanowi często jedyną opcję oceny wpływu
określonego czynnika
Bez umiejętnego zastosowania licznych analiz
statystycznych nie jest możliwe zbadanie związku
między czynnikami genetycznymi lub zmiennymi
biochemicznymi, a chorobą, w dużych populacjach
ZAGADNIENIA
Podstawy analizy SNP (ang. single nucleotide polymorphism, polimorfizm
jednonukleotydowy) oraz danych biochemicznych w badaniach populacyjnych w naukach
biomedycznych:
Ø statystyki opisowe zmiennych
Ø analiza odstępstwa w rozkładzie genotypów od reguły Hardy’ego–Weinberga
Ø analiza typu rozkładu zmiennych ciągłych
Ø dobór odpowiedniego testu do analiz zależność genotyp-fenotyp biochemiczny
Ø zastosowanie regresji liniowej oraz modeli regresji liniowej w analizach zależności
genotyp-fenotyp biochemiczny
Ø zastosowanie testów nieparametrycznych
Ø poprawka metodą Bonferroniego dla wielokrotnych powtórzeń
Ø użycie ilorazu szans w analizie rozkładu częstości genotypów oraz biochemicznych
zmiennych kategoryzowanych w celu określenia udziału czynników genetycznych i
biochemicznych w chorobie
Ø analiza typu Kaplan-Meier (tzw. krzywa przeżycia) dla oceny czasu przeżycia w
odpowiedzi na występowanie zmiennej modyfikującej np. genotypu lub stosowanego
leku w chorobie
Ø podstawowe problemy w analizie danych mikromacierzowych poziomu metylacji DNA
uzyskanych przy zastosowaniu platformy Infinium 450K firmy Illumina
SNP (ang. Single Nucleotide Polymorphism)
Polimorfizm - zmiana w sekwencji nukleotydowej, która występuje
w populacji z częstością wyższą niż 1%.
Mutacja < 1%.
Przypuszcza się, że genom ludzki zawiera od 3 milionów do 6
milionów SNPs w nieregularnych odstępach: 500 do 1 000 pz.
SNP database: http://www.ncbi.nlm.nih.gov/snp/
SNP database: http://www.ncbi.nlm.nih.gov/snp/
SNP database: http://www.ncbi.nlm.nih.gov/snp/
OMIM: http://www.ncbi.nlm.nih.gov/omim/
OMIM: http://www.ncbi.nlm.nih.gov/omim/
STATYSTYKI OPISOWE
1) Dla wartości ciągłych, w grupach definiowanych przez inne zmienne, np.
kategoryzowane:
Mediany (1-3 kwartyl), N
Średnie, odchylenia standardowe, N
2) Częstości zmiennych kategoryzowanych w grupach
STATYSTYKI OPISOWE
Stanisławska-Sachadyn A, Woodside JV,
Brown KS, Young IS, Murray L, McNulty H,
Strain JJ, Boreham CA, Scott JM, Whitehead
AS, Mitchell LE (2008) Evidence for Sex
Differences in the Determinants of
Homocysteine Concentrations. Mol Genet
Metab. 93:355-62.
ANALIZA TYPU ROZKŁADU ZMIENNYCH CIĄGŁYCH
Variable: X
Test Shapiro-Wilk
Variable: log(X)
Badanie związku między polimorfizmem, a danymi
biochemicznymi
genotyp A
genotyp B
genotyp C
Niezbędne do przeprowadzenia analiz są dane
numeryczne:
- DANE BIOCHEMICZNE np.
- poziom metabolitu
-
DANE FIZJOLOGICZNE np.
BMI
ciśnienie krwi
parametr Gensiniego
Należy ustalić, czy rozkład danych analizowanych jest
normalny
Biosynteza folianów, a MTHFR 677C>T
MTHFR 677CC
MTHFR 677TT
wg. Bagley PJ, Selhub J (1998) A common mutation in the methylenetetrahydrofolate reductase gene is associated with an
accumulation of formylated tetrahydrofolates in red blood cells. Proc Natl Acad Sci U S A. 95:13217-20.
ZASTOSOWANIE REGRESJI LINIOWEJ W BADANIU ZALEŻNOŚCI
FENOTYP-GENOTYP
(R2) proporcja zmienności w stężeniu homocysteiny opisywana przez wybrane czynniki biochemiczne i behawioralne
1
Wartość P dla hipotezy o nielinowej zależności między zmienną objaśniającą, a stężeniem homocysteiny (zmienna
zależna)
2
Szacowane współczynniki regresji oraz błędy standardowe (SE)
Predictor Variables
Males
Females
R2 (P-value)1
Variable Coefficient
(SE)2
R2 (P-value)1
Variable Coefficient
(SE)2
Red blood cell folate (nmol/l)
0.21 (<0.01)
-0.0002 (0.00004)
0.26 (<0.01)
-0.0002 (0.00003)
Serum vitamin B12 (pmol/l)
0.17 (<0.01)
-0.0005 (0.00008)
0.14 (<0.01)
-0.0006 (0.0001)
Creatinine (mmol/l)
0.004 (0.43)
0.0007 (0.0009)
0.02 (0.07)
0.0019 (0.0011)
Current use of cigarettes (yes/no)
0.005 (0.39)
-0.0211 (0.0246)
0.07 (<0.01)
0.0850 (0.0250)
Current use of alcohol (yes/no)
0.001 (0.26)
0.0374 (0.0330)
0.02 (0.10)
0.0545 (0.0305)
Current use of multivitamin
supplements (yes/no)
0.03 (0.03)
0.0619 (0.0283)
0.04 (0.01)
0.0706 (0.0274)
MTHFR 677C>T
CC
CT
0.05 (0.83, 0.01)3
0.05 (0.28, 0.01)
-0.0053 (0.0240)
0.1046 (0.0387)
0.0296 (0.0272)
0.1042 (0.0372)
Stanisławska-Sachadyn A, Woodside JV, Brown KS, Young IS, Murray L, McNulty H, Strain JJ, Boreham CA, Scott JM, Whitehead AS,
Mitchell LE (2008) Evidence for Sex Differences in the Determinants of Homocysteine Concentrations. Mol Genet Metab. 93:355-62.
MODELE REGRESJI LINIOWEJ W BADANIU ZALEŻNOŚCI FENOTYPGENOTYP
Modele regresji liniowej wyjaśniające stężenie homocysteiny w Young Hearts 3.
Variables2
Model
1
Males and Females:Folate+B12+MTHFR
Males
Females
Adjusted R2
Change in
Adjusted R2
Adjusted R2
Change in
Adjusted R2
0.317
--
0.334
--
1a
+folate-B12 interaction
0.335
0.018
0.338
0.004
1b
+folate-MTHFR interaction
0.397
0.080
0.329
-0.005
1c
+B12-MTHFR interaction
0.317
0.000
0.330
-0.004
0.397
--
0.334
--
2
Males:Folate+B12+MTHFR+Folate-MTHFR interaction
Females:Folate+B12+MTHFR
2a
+smoking
0.412
0.015
0.344
0.010
2b
+alcohol
0.394
-0.003
0.338
0.004
2c
+multivitamin supplement
0.395
-0.002
0.330
-0.004
2d
+creatinine
0.399
0.002
0.330
-0.004
0.412
--
0.344
--
3
Males: Folate+ B12+MTHFR+Folate-MTHFR
interaction+Smoking
Females: Folate+B12+MTHFR+Smoking
3a
+smoking-folate interaction
0.408
-0.004
0.362
0.018
3b
+smoking-B12 interaction
0.409
-0.003
0.344
0.000
3c
+smoking-MTHFR interaction
0.422
0.010
0.340
-0.004
Stanisławska-Sachadyn A, Woodside JV, Brown KS, Young IS, Murray L, McNulty H, Strain JJ, Boreham CA, Scott JM, Whitehead AS,
Mitchell LE (2008) Evidence for Sex Differences in the Determinants of Homocysteine Concentrations. Mol Genet Metab. 93:355-62.
MODELE REGRESJI LINIOWEJ W BADANIU ZALEŻNOŚCI FENOTYPGENOTYP
WAŻNA LITERATURA:
Introduction of linear regression analysis.
Chapter 9. Variable Selection and Model Building,
Montgomery DC, Peck EA and Vining GG.
John Wiley and Sons, Inc. New Jersey, 2006.
ZASTOSOWANIE REGRESJI LINIOWEJ W BADANIU ZALEŻNOŚCI
FENOTYP-GENOTYP
Proporcja zmienności (R2) w stężeniu folianów wyjaśniana przez DHFR c.86+60_78 ins/del w
YH3.
Male
Female
R2
(P-value)1
Variable Coefficient
(SE)2
N
R2
(P-value)1
Variable Coefficient
(SE)2
N
DHFR c.86+60_78
ins/del
del/del
0.006
(0.58)
-0.006 (0.03)
0.03 (0.03)
189
0.02 (0.16)
-0.01 (0.03)
0.06 (0.04)
178
MTHFR 677C>T
CT
TT
0.08
(<0.01)
-0.06 (0.02)
-0.15 (0.04)
189
0.03 (0.05)
-0.05 (0.03)
-0.10 (0.04)
178
0.002
(0.87)
-0.02 (0.04)
-0.02 (0.04)
188
0.05 (0.02)
-0.006 (0.04)
0.12 (0.05)
163
0.03 (0.05)
-0.07 (0.03)
-0.10 (0.05)
188
0.03 (0.09)
-0.04 (0.04)
-0.11 (0.05)
163
RBC folates (nmol/l)
Serum folates (nmol/l)
DHFR c.86+60_78
ins/del
del/del
MTHFR 677C>T
CT
TT
Stanisławska-Sachadyn A, Brown KS, Mitchell LE, Woodside JV, Young IS, Scott JM, Murray L, Boreham CA, McNulty H,
Strain JJ, Whitehead AS (2008) Hum Genet.123:289-95.
ZASTOSOWANIE REGRESJI LINIOWEJ W BADANIU ZALEŻNOŚCI
FENOTYP-GENOTYP
Proporcja zmienności (R2) w stężeniach fol/Hcy wyjaśniana przez SLC19A1 c.80G>A w Young
Hearts 3.
All
Males
Females
R2
(P-value)1
Variable
Coefficient
(SE)2
R2
(P-value)1
Variable
Coefficient
(SE)2
R2
(P-value)1
Variable
Coefficient
(SE)2
0.02
(0.04)
0.05 (0.02)
0.07 (0.03)
0.01
(0.43)
0.003 (0.03)
0.05 (0.04)
0.05
(0.02)
0.09 (0.03)
0.10 (0.04)
0.004
(0.54)
0.02 (0.03)
0.04 (0.04)
0.001
(0.95)
-0.01 (0.03)
-0.10 (0.05)
0.01
(0.32)
0.06 (0.04)
0.06 (0.05)
0.003
(0.53)
-0.02 (0.02)
-0.02 (0.02)
0.01
(0.50)
-0.03 (0.02)
-0.03 (0.03)
0.001
(0.89)
-0.01 (0.03)
-0.003 (0.03)
RBC folates (nmol/l)
SLC19A1 c.80G>A
GA
AA
Serum folates (nmol/l)
SLC19A1 c.80G>A
GA
AA
Homocysteine (µmol/l)
SLC19A1 c.80G>A
GA
AA
Stanislawska-Sachadyn A, Mitchell LE, Woodside JV, Buckley PT, Kealey C, Young IS, Scott JM, Murray L, Boreham CA,
McNulty H, Strain JJ, Whitehead AS (2009) Ann Hum Genet. 73:484-91.
ZASTOSOWANIE TESTÓW NIEPARAMETRYCZNYCH W BADANIU
ZALEŻNOŚCI FENOTYP-GENOTYP
Test Kruskala-Wallisa:
"Test rang Kruskala-Wallisa bada hipotezę, że próby zostały pobrane z populacji o tym
samym rozkładzie lub z populacji o rozkładach posiadających ta samą medianę. Ten test
zakłada, że badana zmienna ma charakter ciągły oraz że została zmierzona przynajmniej
na skali porządkowej (rangowej)."
Prof. dr hab. Cezary Watała, Biostatystyka-wykorzystanie metod statystycznych w pracy badawczej w naukach
biomedycznych. α-medica press 2002
Test sumy rang Wilcoxona:
"jest nieparametrycznym odpowiednikiem testu t Studenta. Wymaga, aby porównywane
zmienne były przynajmniej na skali porządkowej (rangowej)."
Prof. dr hab. Cezary Watała, Biostatystyka-wykorzystanie metod statystycznych w pracy badawczej w naukach
biomedycznych. α-medica press 2002
ZASTOSOWANIE TESTÓW NIEPARAMETRYCZNYCH W BADANIU
ZALEŻNOŚCI FENOTYP-GENOTYP
Stanisławska-Sachadyn A1, Woodside JV, Sayers CM, Yarnell JW, Young IS, Evans AE, Mitchell LE, Whitehead AS (2010)
The transcobalamin (TCN2) 776C>G polymorphism affects homocysteine concentrations among subjects with low
vitamin B(12) status. Eur J Clin Nutr. 64:1338-43
Stanisławska-Sachadyn A1, Woodside JV, Sayers CM, Yarnell JW, Young IS, Evans AE, Mitchell LE, Whitehead AS (2010)
The transcobalamin (TCN2) 776C>G polymorphism affects homocysteine concentrations among subjects with low
vitamin B(12) status. Eur J Clin Nutr. 64:1338-43
POPRAWKA DLA WIELOKROTNYCH PORÓWNAŃ METODĄ
BONFERRONIEGO
P=0.01 oznaczona testem Kruskal-Wallisa dla różnic w poziomie witaminy B12 dla
polimorfizmu TCN2 776 C>G oznacza, że jest różnica w poziomie witaminy pomiędzy
genotypami w tym polimorfizmie.
Porównanie w parach:
CC vs GG P=0.015
CC
CG
C
Poprawka Bonferroniego:
P=0.015x3=0.045
GG
G
CC vs CG P=0.01
CG vs GG P=0.5
Polimorfizm NAT1 1095C>A, a poziom homocysteiny
Biochemical
parameter
Homocysteine
(µmol/l)
RBC folate
(nmol/l RBCs)
Folate
(nmol/l)
Vitamin B12
(pmol/l)
NAT1 1095 C>A genotype (n)
Subset
P
CC homozygotes
A allele carriers
All
8.8 [7.5-10.7] (247)
9.2 [7.7-11.3] (151)
0.10
Non-smokers
8.6 [7.5-10.3] (146)
8.8 [7.5-10.9] (99)
0.72
Smokers
9.3 [7.3-11.1] (99)
10.3 [8.2-13.4] (51)
0.015
All
658.0 [478.8-831.6] (230)
638.4 [479.2-841.1] (133)
0.93
Non-smokers
677.9 [512.8-842.0] (138)
638.9 [480.4-907.9] (91)
0.93
Smokers
596.5 [463.4-793.9] (90)
575.6 [438.9-774.2] (41)
0.98
All
13.0 [9.4-18.8] (218)
12.5 [9.6-18.8] (133)
0.84
Non-smokers
14.0 [9.6-19.3] (131)
13.6 [10.3-22.0] (87)
0.69
Smokers
11.5 [9.3-15.7] (85)
10.1 [8.3-14.7] (45)
0.17
All
272.0 [196.0-346.0] (219)
260.0 [197.0-341.0] (133)
0.68
Non-smokers
287.0 [198.0-359.0] (131)
267.0 [203.0-366.0] (87)
0.95
236.0 [190.0-336.0] (86)
227.0 [164.0-312.0] (45)
0.41
Smokers
median [Interquartile range] (n, number of individuals)
RBCs (red blood cells)
Stanisławska-Sachadyn A1, Jensen LE, Kealey C, Woodside JV, Young IS, Scott JM, Murray L, Boreham CA, McNulty H, Strain JJ,
Whitehead AS (2006) Association between the NAT1 1095C > A polymorphism and homocysteine concentration. Am J Med Genet A.
140:2374-7.
Choroby dziedziczone autosomalnie recesywnie
http://biochemhelp.com/Pedigree-of-Humangenetics.html
Choroby dziedziczone autosomalnie recesywnie
http://commons.wikimedia.org/wiki/File:2926_Autosomal_Recessive_Inheritance-new.jpg
Częstość alleli
Genotyp
Grupa krwi
IA/IA, IA/i
A
IB/IB, IB/i
B
IA/IB
AB
i/i
0
http://en.wikipedia.org/wiki/Blood_type_distribution_by_country
REGUŁA HARDY’EGO–WEINBERGA
(p+q)2=p2+2pq+q2=1
•
•
•
•
•
p- częstość allelu dominującego
q- częstość allelu recesywnego
p2- częstość homozygot dominujących
q2- częstość homozygot recesywnych
2pq- częstość heterozygot
p+q=1
Suma częstości alleli w populacji wynosi 1
SZACHOWNICA PUNNETTA
„Schemat punneta2” autorstwa Tebeuszek - Praca własna. Licencja CC
BY-SA 3.0 na podstawie Wikimedia Commons http://commons.wikimedia.org/wiki/File:Schemat_punneta2.svg#mediavie
wer/File:Schemat_punneta2.svg
REGUŁA HARDY’EGO–WEINBERGA - ĆWICZENIE
1 osoba / 2500 w populacji kaukaskiej cierpi na mukowiscydozę. Choroba
jest dziedziczona w sposób autosomalny recesywny.
Jaka jest częstość allelu zmutowanego w populacji kaukaskiej?
Ile osób na 100 niesie zmutowany allel?
REGUŁA HARDY’EGO–WEINBERGA
Częstość genotypów i alleli uzyskana w efekcie analiz genetycznych vs
częstość oczekiwana
sum
CC
CT
TT
sum*2
MTHFR
82
93
22
197
394
alleles
allele freq expected
257
0.652284264
137
0.347715736
83.81853
89.36294
23.81853
REGUŁA HARDY’EGO–WEINBERGA
REGUŁA HARDY’EGO–WEINBERGA - ĆWICZENIE
Czy rozkład genotypów w poniższym przykładzie jest zgodny z regułą Hardy'egoWeinberga?
sum
sum*2
alleles
allele freq expected
210
0.561497326 58.9572
92.0856
0.438502674 35.9572
TYMS
CC
CG
GG
45
120
22
164
187
374
Analiza zależności między genotypem, a chorobą
Odds Ratio
KaplanMeier
TDT
Odds Ratio - iloraz szans
http://www.hutchon.net/ConfidOR.htm
Odds Ratio - iloraz szans
Literature
Altman DG (1991) Practical statistics for medical research. London:
Chapman and Hall.
Altman DG, Deeks JJ, Sackett DL. Odds ratios should be avoided when
events are common [letter]. BMJ 1998;317:1318.
Deeks JJ, Higgins JPT (2010) Statistical algorithms in Review Manager 5.
Retrieved from
http://ims.cochrane.org/revman/documentation/Statistical-methods-inRevMan-5.pdf
Pagano M, Gauvreau K (2000) Principles of biostatistics. 2nd ed.
Belmont, CA: Brooks/Cole.
Parshall MB (2013) Unpacking the 2 x 2 table. Heart & Lung 42:221-226.
[Abstract]
http://www.medcalc.org/calc/odds_ratio.php
Odds Ratio - iloraz szans
Odds Ratio - iloraz szans
Odds Ratio - iloraz szans
Odds Ratio - iloraz szans
POLIMORFIZM
GENOTYP
PRZYPADKI
(% of genotype
carriers)
GRUPA
KONTROLNA
(% of genotype
carriers)
OR (5-95% CI), P
GG
18 (21.18)
62 (40.52)
1 (Ref)
GC
30 (35.29)
76 (49.67)
6.36 (0.69-2.67), P=0.37
CC
37 (43.53)
15 (9.80)
8.50 (3.83-18.85), P<.0001
GENX
CvsGG(Ref)
2.54 (1.37-4.68), P=0.003
CCvsG(Ref)
7.09 (3.58-14.05), P<.0001
Odds Ratio - iloraz szans
POZIOM
METABOLITU
DOLNA POŁOWA
DYSTRYBUCJI
GÓRNA POŁOWA
DYSTRYBUCJI
PRZYPADKI
GRUPA
KONTROLNA
OR (5-95% CI), P
50
150
1 (Ref)
80
120
2.0 (1.30-3.07), P=0.0015
Analiza Kaplana-Meiera
Przy wykorzystaniu tej analizy często tworzone są krzywe przeżycia
Dane:
Obserwacje nie
muszą być pełne.
Zdarzenie w chorobie,
- statystyka wykorzystująca analizę Kaplana-Meiera
Zdarzenie w chorobie,
- statystyka wykorzystująca analizę Kaplana-Meiera
Analiza genomowych profili metylacji DNA przy użyciu
platformy Infinium 450K firmy Illumina
•
Analiza poziomu metylacji w przeszło
480 000 miejsc CpG
•
Poniżej 2% wszystkich miejsc CpG na
genomie
•
Mikromacierz tzw. SNPowa
•
DNA konwertowane dwusiarczynem
sodu przed analizą
Metylacja DNA
Badanie metylacji DNA przez konwersję niemetylowanych
cytozyn dwusiarczynem sodu.
Przykładowy wynik Infinium 450K
Cg14967987:
GGCCCCTTTCGGTGAGCAGTGTCTAAAGTTCTGTCGCGTGTTGCCCACGCGTCGGTGGCT[CG]CTCCTTGCAACTGCTGAGCATTGTATGGCTAGGCTGTAGTTTGTTTTCACTTCACCAGTT
PODSTAWOWE PROBLEMY W ANALIZIE DANYCH
MIKROMACIERZOWYCH POZIOMU METYLACJI DNA
UZYSKANYCH PRZY ZASTOSOWANIU PLATFORMY
INFINIUM 450K firmy ILLUMINA
Porównanie w 480 000 punktów dla przypadków i osób z grupy
kontrolnej:
Ø T-test
Ø Wilcoxon
Ø ANOVA
Czy stosować poprawki dla wielokrotnych porównań i jakie?
PODSTAWOWE PROBLEMY W ANALIZIE DANYCH
MIKROMACIERZOWYCH POZIOMU METYLACJI DNA
UZYSKANYCH PRZY ZASTOSOWANIU PLATFORMY
INFINIUM 450K firmy ILLUMINA
Odrzucenie zmian na niskim poziomie:
STOSUNEK ŚREDNICH WARTOŚCI POZIOMU METYLACJI:
PRZYPADKI / GRUPA KONTROLNA
RATIO>2.0
ANOVA<0.05
Średni poziom metylacji w przypadkach ≥ 5%
RATIO<0.5
ANOVA<0.05
Średni poziom metylacji w kontrolach ≥ 5%
POPRAWKA DLA WIELOKROTNYCH PORÓWNAŃ METODĄ
BENJAMINIEGO
1.
Porównanie 2 grup: t-test, Wilcoxon, Anova
2.
Nadanie rang wynikom testów
3.
Poprawka Benjaminiego: (wynik testu/liczba testów)*przyjęty odsetek wyników fałszywie
ujemnych
4.
Wartość istotna statystycznie: wartość wg testu Benjaminiego > wartość uzyskana testem
porównującym grupy

Podobne dokumenty