pary sex
Transkrypt
pary sex
S t a t y s t y k a , część 3 Michał Żmihorski Porównanie średnich - test T Założenia: • Zmienne ciągłe (masa, temperatura) • Dwie grupy (populacje) • Rozkład normalny* • Równe wariancje (homoscedasticity) w grupach • Pomiary niezależne (osobne replikacje) • Losowe próbkowanie Porównanie średnich - test T Cel: Sprawdzić, czy średnie wartości cech w dwóch grupach są takie same Test T - procedura 1. 2. 3. 4. Ocena wizualna rozkładów (histogram, gęstość), Ocena niezależności pomiarów Test równości wariancji Test T Porównanie średnich - przykłady a<-rnorm(150,14,2) b<-rnorm(150,18,2) par(mfrow=c(2,1)) hist(a,xlim=c(10,24)) hist(b,xlim=c(10,24)) Test T • Równość wariancji a i b (test F Fisher’a) var.test(a,b) Test T t.test(a,b,var.equal=T, paired=F) Two Sample t-test data: a and b t = -17.2393, df = 298, p-value < 2.2e-16 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -4.378884 -3.481574 sample estimates: mean of x mean of y 13.88980 17.82003 Test T Two Sample t-test data: a and b t = -17.2393, df = 298, p-value < 2.2e-16 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -4.378884 -3.481574 sample estimates: mean of x mean of y 13.88980 17.82003 Test T Two Sample t-test data: a and b t = -17.2393, df = 298, p-value < 2.2e-16 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -4.378884 -3.481574 sample estimates: mean of x mean of y 13.88980 17.82003 Test T Two Sample t-test data: a and b t = -17.2393, df = 298, p-value < 2.2e-16 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -4.378884 -3.481574 sample estimates: mean of x mean of y 13.88980 17.82003 Test T Interpretacja: • Średnia masa ciała w dwóch populacjach jest różna (p-value < 2.2e-16) • Ale pomiary mogą nachodzić na siebie! „sarny2<-read.table(c:\\sarny2.txt)” sarny2 plotMeans(sarny2$masa,sarny2$pop,error.bars="conf.int", main="porównanie średnich") 95%CI dla średniej • Przedział, w którym na 95% znajduje się średnia z populacji* • Różnica jest istotna gdy 95%CI dla dwóch średnich na siebie nie nachodzą * Przy założeniu normalności rozkładu i losowego próbkowania Test T Test T Test T • Mimo istotnych różnic pomiary mają (duże) pole wspólne • Trudno na podstawie masy wskazać populację Morał: co innego tendencje ogólne, a co innego poszczególne przypadki Morał 2: co innego bardzo istotne różnice, a co innego bardzo duże różnice Duże różnice vs. istotne różnice p1<-rnorm(10000,15,1) p2<-rnorm(10000,15.015,1) t.test(p1,p2) P=0.001 Różnice małe ale istotne Test T dla par wiązanych Założenia: • Zmienne ciągłe (masa, temperatura) • Dwie grupy (populacje) • Rozkład normalny* • Równe wariancje (homoscedasticity) w grupach • Pomiary zależne (pary replikacji) • Losowe próbkowanie • Wektory o tej samej długości Pomiary zależne (pary replikacji) • Układ „before-after„ • Dwa pomiary dla tych samych jednostek (osobników, powierzchni) Przykłady: • Masa saren przed i po dokarmianiu • Liczba ptaków na jeziorach przed i po ekspansji norki Test T dla par wiązanych • Wiązanie par wyklucza zmienność między parami • Jeżeli jest duża wariancja między parami to wiązany i zwykły dają zupełnie inne wyniki! • Ale wiązany jest właściwy Test T dla par wiązanych Testujemy hipotezę zerową: prawdziwa różnica w średnich = 0 (czyli różnice są przypadkowe) Istotność testu oznacza, że różnica ≠ 0 (czyli, że jest jakaś zmiana wartości cechy) Test T dla par wiązanych - przykład k1<-rnorm(100,5,15) k2<-k1+0.01 t.test(k1,k2,paired=F) t.test(k1,k2,paired=T) t.test(k1,k2,paired=F) Welch Two Sample t-test data: k1 and k2 t = -0.0049, df = 198, p-value = 0.9961 t.test(k1,k2,paired=T) Paired t-test data: k1 and k2 t = -1.184462e+14, df = 99, p-value < 2.2e-16 > head(k1) -7.946815 -26.422174 9.049426 30.875262 19.573002 20.421502 Test T dla par wiązanych t.test(sarny2$masa~sarny2$pop,paired=T) Ale to nie są pary wiązane! Test T dla par wiązanych - wizualizacja Test T dla par wiązanych - wizualizacja Test T - nienormalność • Nienormalność cech w grupach zmniejsza wiarygodność wnioskowania dot. p-value • Rośnie 95%CI dla średnich • Istotne różnice stają się nieistotne • Kilka odstających wyników „psuje” analizę Test T - nienormalność liczebnosc 1 2 3 1 2 3 1 2 3 2 3 1 2 3 1 3 1 2 3 1 2 3 2 3 1 2 3 1 2 100 plot a a a a a a a a a a a a a a a b b b b b b b b b b b b b b b Test T – transformacja danych • = normalizacja • Przekształcamy dane (z obu grup!) • Ponownie wrzucamy do analizy Najczęstsze transformacje • • • • Logarytm Pierwiastek Odwrotność Potęga Test T – transformacja danych liczebnosc 1 2 3 1 2 3 1 2 3 2 3 1 2 3 1 3 1 2 3 1 2 3 2 3 1 2 3 1 2 100 plot a a a a a a a a a a a a a a a b b b b b b b b b b b b b b b t.test(log(kk$liczebnosc)~kk$plot) Nieparametryczna alternatywa testu T • Jak dane trudno normalizować • Rangi zamiast pomiarów oryginalnych • Test Manna-Whitney’a =Test U = Test Wilcoxona • Testuje czy dwie próby pochodzą z tego samego rozkładu (nie różnicę średnich!) Nieparametryczna alternatywa testu T wilcox.test(sarny2$masa~sarny2$pop,paired=F) ...paired=T) Wilcoxon signed rank test with continuity correction data: sarny2$masa by sarny2$pop V = 0, p-value < 2.2e-16 alternative hypothesis: true location shift is not equal to 0 Parametryczne vs. nieparametryczne • • • • • • Par. mocniejsze Par. parametryczne ☺ Par. łatwiejsze do interpretacji biologicznej Par. niewiarygodne dla nienormalnych danych Npar. mniej wrażliwe Npar. też mają swoje założenia Korelacja • • • • Dwie zmienne ciągłe Rozkłady normalne Pomiary niezależne (osobne replikacje) Losowe próbkowanie Korelacja Cel: sprawdzić czy istnieje zależność (korelacja) między dwoma cechami* * zakładamy liniową zależność lub zbliżoną – innej nie wykryjemy w ten sposób Korelacja s1<-rnorm(30,3,1) s2<-rnorm(30,3,1) plot(s1,s2) Korelacja – dopasowanie liniowe s1<-rnorm(30,3,1) s2<-rnorm(30,3,1) plot(s1,s2) abline(lm(s2~s1)) Dopasowanie minimalizujące odchylenia Korelacja - interpretacja • Wielkość korelacji określa współczynnik korelacji r • r waha się od -1 do +1 • r=0 oznacza brak korelacji (brak związku między zmiennymi) • r>0 korelacja dodatnia (im więcej tym więcej) • r<0 korelacja ujemna (im więcej tym mniej) Korelacja - interpretacja cor(s1,s2) -0.1809979 • Zależność ujemna, • ale czy w ogóle jest zależność??? Korelacja - interpretacja cor.test(s1,s2) Pearson's product-moment correlation data: s1 and s2 t = -0.9738, df = 28, p-value = 0.3385 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.5081328 0.1917767 sample estimates: cor -0.1809979 Korelacja - interpretacja cor.test(s1,s2) Pearson's product-moment correlation data: s1 and s2 t = -0.9738, df = 28, p-value = 0.3385 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.5081328 0.1917767 sample estimates: cor -0.1809979 Korelacja - interpretacja cor.test(s1,s2) Pearson's product-moment correlation data: s1 and s2 t = -0.9738, df = 28, p-value = 0.3385 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.5081328 0.1917767 sample estimates: cor -0.1809979 Korelacja vs. przyczynowość • Nie precyzujemy związku przyczynowoskutkowego • Nie wskazujemy przyczyny i skutku • Korelacja nie jest dowodem na przyczynowość t = 4.5671, df = 312, p-value = 7.127e-06 Korelacja - przykład scatterplot(sarny2$masa,sarny2$area) Korelacja vs. regresja • • • • • Regresja = korelacja W regresji mamy przyczynowość Nie jest obojętne miejsce x i y Regresja parametryzuje zależność Jest to model, czyli opis funkcjonowania rzeczywistości Regresja lm(s1~s2) • lm (linear model) • ~ czyli zależność (tu: s1 zależy od s2) Regresja summary(lm(s1~s2)) Effect size ! Pokazuje jak duże są różnice Korelacja nieparametryczna • Korelacja rangowa Spearmana cor.test(s1,s2,method="spearman") Korelacja-nienormalność a1 1 2 3 4 5 6 7 1 2 3 4 5 6 7 4 5 6 7 1 2 3 1000 a2 7 6 5 4 3 2 1 7 6 5 4 3 2 1 4 3 2 1 7 6 5 1000 Korelacja-nienormalność cor.test(corr$a1,corr$a2,method="spearman") Spearman's rank correlation rho data: corr$a1 and corr$a2 S = 3072.578, p-value = 9.784e-05 alternative hypothesis: true rho is not equal to 0 sample estimates: rho -0.7349398 Korelacja-nienormalność Pearson's product-moment correlation data: corr$a1 and corr$a2 t = 237.3911, df = 20, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.9995640 0.9999278 sample estimates: cor 0.9998226 cor.test(log(corr$a1),log(corr$a2),method="pearson") Pearson's product-moment correlation data: log(corr$a1) and log(corr$a2) t = 3.3484, df = 20, p-value = 0.0032 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.2378443 0.8150130 sample estimates: cor 0.5993515 Asocjacja – tabele liczności • „korelacja” na kategoriach • Tabele krzyżowe • Liczba przypadków (nie wartości pomiarów!) w każdym okienku Asocjacja - przykład Cel: sprawdzić czy przypadki rozkładają się losowo w grupach Rozkład teoretyczny 10 0 10 0 10 10 10 10 20 Rozkład teoretyczny przy braku asocjacji: 10*10/20=5 5 5 10 5 5 10 10 10 20 Sprawdzamy jak duża (czy istotna) jest różnica między rozkładami testem Chi-kwadrat (χ2) Asocjacja - przykład Czy płeć wpływa na preferencję środowiskową saren? table(sarny2$pop,sarny2$sex) las pole f m 51 99 100 50 Asocjacja - przykład chisq.test(table(sarny2$pop,sarny2$sex)) Pearson's Chi-squared test data: table(sarny2$pop, sarny2$sex) X-squared = 32.0148, df = 1, p-value = 1.53e-08 Stopnie swobody Chi=4.0, df=1 istotny Chi=4.0, df=6 nieistotny uwagi t.test • Test t jak nierówne wariancje: t.test(a,b,var.equal=F, paired=F) • Ustawienia domyślne: brak „paired=F” w kodzie nic nie zmienia korelacja boxplot vs. plotMeans 1.5*box 50% rekordów median Wyniki nieistotne • Brak różnic • Słaby test • Wnioskiem nie jest brak różnic (!) tylko brak dowodu na różnice • Problem wielkości próby (Power analysis!)