sex oleju

Transkrypt

sex oleju
„Bioinformatyka - rozwój oferty edukacyjnej Uniwersytetu Przyrodniczego we Wrocławiu”
projekt realizowany w ramach Programu Operacyjnego Kapitał Ludzki
współfinansowanego ze środków Europejskiego Funduszu Społecznego
Wykład 2
Porównanie dwóch populacji – testy
Studenta i testy nieparametryczne
• Test Studenta dla par
• Test znaków i znakowany test Wilcoxona
• Test Studenta dla niezależnych prób i test
Wilcoxona-Manna-Whitneya
Rozkład normalny, nieznane odchylenie
standardowe
• Ochylenie standardowe X estymujemy za pomocą
SE X =
s
n
• Jest to standardowy błąd średniej.
Rozkład normalny, nieznane odchylenie
standardowe
• Załóżmy, że próba prosta X1, …, Xn jest pobrana z
populacji o rozkładzie normalnym o średniej µ i
odchyleniu standardowym σ.
• Załóżmy, że µ i σ są nieznane.
X ~ N µ ,σ n
(
)
• σ estymujemy za pomocą próbkowego ochylenia
standardowego s.
Statystyka Studenta
• Załóżmy, że próba prosta rozmiaru n została
wylosowana z populacji normalnej N(µ, σ). Statystyka
Studenta dla jednej próby:
t=
x−µ
s n
ma rozkład Studenta z n – 1 stopniami swobody.
Rozkład Studenta
• Im więcej stopni swobody tym mniejszy rozrzut.
d.f. = n2
d.f. = n1
n1 < n2
0
• W miarę wzrostu liczby stopni swobody rozkład
Studenta zbliża się do standardowego rozkładu
normalnego.
Przedziały ufności dla średniej w
populacji
• Załóżmy, że próba prosta rozmiaru n jest wylosowana z rozkładu
o nieznanej wartości oczekiwanej µ. Przedział ufności na
poziomie istotności C dla µ wynosi
x ± t*
s
,
n
or
s 

* s
, x + t*
x − t

n
n

t* - kwantyl rzędu 1-C/2 z rozkładu Studenta z n-1 stopniami
swobody.
• Przedziały ufności są dokładne jeżeli obserwacje pochodzą z
rozkładu normalnego i w przybliżeniu dokładne w innych
przypadkach, jeżeli tylko rozmiar próby jest odpowiednio duży.
Test Studenta dla jednej próby
• T - zmienna o rozkładzie
t(n – 1),
• P-wartość dla testu
• H0: µ = µ0 przeciwko…
Ha: µ > µ0 to P(T ≥ t)
Ha: µ < µ0 to P(T ≤ t)
Ha: µ ≠ µ0 to 2P(T ≥ | t |)
Test Studenta dla jednej próby
• Załóżmy, że próba prosta rozmiaru n została
wylosowana z populacji o nieznanej średniej µ.
• Statystyka testu Studenta dla hipotezy
H0: µ = µ0 ma postać
t=
x − µ0
s n
P-wartości
P-wartości są dokładne jeżeli obserwacje
pochodzą z rozkładu normalnego i w przybliżeniu
dokładne w większości innych przypadków, o ile
rozmiar próby jest odpowiednio duży.
Przykład
•
•
•
•
SAS
•
•
•
•
•
•
•
•
•
•
•
•
•
Pobieramy próbkę aby ocenić zawartość witaminy
C w oleju sojowym.
Uzyskane wyniki:
26 31 23 22 11 22 14 31.
Znajdź 90% przedział ufności dla średniej
zawartości witaminy C w tej produkcji.
Przetestuj hipotezę,
H0: µ = 40 vs. Ha: µ≠40
data nowy;
input vitC @@ ;
datalines ;
26 31 23 22 11 22 14 31;
run;
proc univariate data=nowy normal;
qqplot;
run;
ods graphics on;
proc ttest h0=40 alpha=0.1;
var vitC;
run;
ods graphics off;
Testy normalności
qqplot
35
Proc Univariate
Tests for Normality
•
•
30
•
Test
--Statistic---
-----p Value-----25
• Shapiro-Wilk
W 0.918579 Pr < W
0.4184
Kolmogorov-Smirnov D 0.222284 Pr > D >0.1500
Cramer-von Mises W-Sq 0.051067 Pr > W-Sq >0.2500
Anderson-Darling A-Sq 0.322074 Pr > A-Sq >0.2500
v
i
t
C
20
15
10
-1.5
-1
-0.5
0
Normal Quantiles
Test Studenta
•
The TTEST Procedure
•
Statistics
•
Lower Upper
Lower CL Upper CL
Var N Mean Mean Mean Std Dev Std Dev Std Dev Std Err
vitC 8 17.683
22.5 27.317 5.0728 7.1913 12.924 2.5425
•
T-Tests
•
Variable
DF t Value Pr > |t|
•
vitC
7
-6.88
0.0002
0.5
1
1.5
Przykład (kontynuacja):
Przetestuj czy zawartość witaminy C jest niższa niż w
specyfikacji.
H0: µ = 40 vs. Ha: µ <40
• ods graphics on;
• proc ttest h0=40 alpha=0.1 sides=L;
•
var vitC;
• run;
• ods graphics off;
Test Studenta dla par
Test Studenta dla par
• W teście Studenta dla par obiekty są powiązane
w pary. Wartości obserwowanej cechy są
porównywane w każdej parze -> Wynik =
różnica.
• Typowa sytuacja – porównujemy wyniki przed i
po zabiegu.
Test Studenta dla par można stosować np. gdy
mamy dwa pomiary na tym samym obiekcie i
badamy różnicę między nimi. Typowa sytuacja –
przed i po zabiegu.
Przykład
SAS
• Utrata witaminy C w przechowywaniu i
transporcie
• Dane – zawartość witaminy C w 18 workach
mieszanki sojowej
• a) w fabryce
• b) po 5 miesiącach i transporcie na Haiti
– Dla każdego osobnika odejmujemy wartość
“przed” od wartości “po” zabiegu.
– Badamy różnicę używając testu Studenta dla
jednej próby (z H0: µ=0).
•
•
•
•
•
•
•
•
•
•
•
•
•
data soy;
infile 'c:/users/mbogdan/ECMI/data/ex07_039.txt' DLM='09'x;
input id factory Haiti;
run;
data soy1;
set soy;
diff=factory-Haiti;
run;
proc univariate data=soy1 normal mu0=0;
var diff;
qqplot;
histogram;
run;
Histogram
P
e
r
c
e
n
t
QQplot
50
15
40
10
5
30
d
i
f
f
20
0
10
-5
-10
0
-7.5
-2.5
2.5
7.5
12.5
-2
-1
0
diff
Test Studenta i testy
nieparametryczne
Testy normalności
Tests for Normality
•
•
Test
--Statistic---
• Shapiro-Wilk
W 0.952279
Kolmogorov-Smirnov D 0.146454
Cramer-von Mises W-Sq 0.082695
Anderson-Darling A-Sq 0.482679
Tests for Location: Mu0=0
•
-----p Value------
Pr < W 0.2434
Pr > D 0.1404
Pr > W-Sq 0.1898
Pr > A-Sq 0.2197
•
Test
-Statistic-
• Student's t t
• Sign
M
Signed Rank S
odds graphics on;
proc ttest data=soy;
paired factory*Haiti;
run;
odds graphics off;
-----p Value------
4.958945 Pr > |t| <.0001
8.5
Pr >= |M| 0.0015
152
Pr >= |S| <.0001
Proc ttest
•
•
•
•
•
1
Normal Quantiles
Wyniki
•
The TTEST Procedure
•
•
•
Statistics
Difference
Lower CL
Upper CL Lower CL
Upper CL
N Mean Mean Mean Std Dev Std Dev Std Dev Std Err
factory - Haiti
27 3.1226 5.3333 7.5441
•
4.401 5.5884 7.6586 1.0755
T-Tests
•
Difference
DF t Value Pr > |t|
•
factory - Haiti
26
4.96
<.0001
2
Odporność testów Studenta
Test równoważności - TOST
•
•
•
•
•
H0: μdiff < −10 or μdiff > 10
H1: −10<= μdiff<= 10
proc ttest data=soy tost(-10,10);
paired factory*Haiti;
run;
• Procedura statystyczna jest odporna jeżeli jej
wyniki nie są wrażliwe na odstępstwa od założeń.
• W rzeczywistości rozkład badanej cechy prawie
nigdy nie jest normalny.
• Test Studenta w dużych próbach (n>=30) jest
odporny na odstępstwa od rozkładu normalnego.
Trzeba jednak bardzo uważać na obserwacje
odstające.
Odporność testu Studenta
• Praktyczne sugestie dla testu Studenta dla jednej próby:
– Rozmiar próby < 15: Stosujemy test Studenta jeżeli rozkład
cechy jest w przybliżeniu normalny. W innym przypadku
stosujemy testy nieparametryczne.
– Rozmiar próby ≥ 15: Stosujemy test Studenta, chyba że
rozkład badanej cechy jest mocno skośny lub występują
obserwacje odstające.
– Duże próby (n ≥ 40): Można stosować test Studenta nawet
dla rozkładów mocno skośnych (ale trzeba uważać na
obserwacje odstające).
Testy nieparametryczne
•
•
•
•
•
•
•
Test znaków
N+- liczba obserwacji dla których
zm1 - zm2 > 0
N– liczba obserwacji dla których
zm1 - zm2 < 0
Statystyka testowa
M=(N+- N-)/2
Założenie, że dysponujemy prostą próbą losową (obserwacje są
niezależne)– zawsze ważne.
Test znakowany Wilcoxona
• Mocniejszy od testu znaków
• Metoda
– Wyznaczamy różnice zm1-zm2 w parach
– Przyznajemy rangi wartościom bezwzględnym
tych różnic (1 dla najmniejszej, N dla największej)
– Przyporządkowujemy znak każdej randze
(+ kiedy zm1>zm2, - kiedy zm1<zm2)
• W+ : suma rang dodatnich
• S= W+ - N(N+1)/4 ,
• Gdzie N – liczba obserwacji dla których
zm1 ≠ zm2
Obs
Y1
Y2
d
|d|
1
33
25
8
8
2
39
38
1
1
3
25
27
-2
2
4
29
20
9
9
5
50
54
-4
4
6
45
40
5
5
7
36
30
6
6
Ranga
Znakowana
ranga
• Test Wilcoxona ma większą moc niż test
znaków.
• Test znaków można stosować gdy dane
nie są liczbowe, a zapisane są w
terminach preferencji (np. lepiej/gorzej,
tak/nie, mniejszy/większy)
Problem dwóch prób
Test Studenta dla dwóch prób
• Test Studenta dla dwóch prób:
– Test istotności
– Przedział ufności
• Odporność
• Małe próby
• Eksperyment – dwa poziomy czynnika.
• Badania obserwacyjne – porównanie prób z
dwóch populacji.
• Nie ma par – próby mogą być różnych
rozmiarów.
Notacja
Notacja
• Z pierwszej populacji pobieramy próbę rozmiaru n1, a z
drugiej populacji próbę rozmiaru n2.
Populacja
1
2
Średnia w
populacji
µ1
µ2
Odchylenie
standardowe
w populacji
σ1
σ2
Populacja
1
2
Rozmiar
próby
n1
n2
Średnia z
próby
x1
x2
Próbkowe
odchylenie
standardowe
s1
s2
Przykład (porównanie szybkości metabolizmu o kobiet i
mężczyzn)
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
Gender
M
M
F
F
F
F
M
F
F
M
F
F
M
F
F
F
F
M
M
Mass
62
62.9
36.1
54.6
48.5
42
47.4
50.6
42
48.7
40.3
33.1
51.9
42.4
34.5
51.1
41.2
51.9
46.9
Rate
•
•
•
•
•
•
•
•
•
•
1792
1666
995
1425
1396
1418
1362
1502
1256
1614
1189
913
1460
1124
1052
1347
1204
1867
1439
Rozkład statystyki testowej
Statystyka testowa
• Naturalnym estymatorem dla µ1 – µ2 jest różnica
średnich próbkowych.
• D= x1 − x2
• Statystyka
z=
(population) mean of differences: µ1 − µ 2
(population) SD of differences of sample standard deviations:
data metabolism;
infile 'c:/users/mbogdan/ECMI/data/metabolism.txt';
input id gender $ mass rate;
run;
proc sort data=metabolism out=met2;
by gender;
run;
PROC BOXPLOT data=met2 ;
PLOT rate*gender;
run;
σ
2
1
n1
+
σ
2
2
n2
(x1 − x2 ) − (µ1 − µ2 )
σ12 σ22
n1
+
n2
ma standardowy rozkład normalny N(0, 1).
• Jeżeli rozkład badanej cechy w obu populacjach jest
rozkładem normalnym, to również D ma rozkład
normalny.
Wnioskowanie – dwie populacje, znane
odchylenia standardowe w populacjach
• Przedział ufności na poziomie ufności C dla
µ1 – µ2 wynosi
x1 − x2 ± z
*
σ 12
n1
+
σ 22
n2
Testowanie
• Testujemy H0: µ1 = µ2 przeciwko jednej z alternatyw:
– Ha: µ1 > µ2
– Ha: µ1 < µ2
– Ha: µ1 ≠ µ2
• Statystyka testowa:
z=
gdzie P(-z*≤Z≤z*) = C.
x1 − x2
σ 12
n1
+
σ 22
n2
Nieznane odchylenia standardowe w
populacjach
Testowanie
Alternatywa
P-wartość
Ha: µ1 > µ2
P(Z>z)
Ha: µ1 < µ2
P(Z<z)
Ha: µ1≠µ2
2*P(Z>| z |)
• µ1, µ2, σ1 i σ2 są nieznane.
• Statystyka testu Studenta:
t=
( x1 − x2 ) − ( µ1 − µ 2 )
s12 s22
+
n1 n2
• Ma w przybliżeniu rozkład Studenta – liczba stopni
swobody jest wyliczana przez program.
P-wartości
Przedział ufności
• Przedział ufności dla µ1 – µ2 na poziomie ufności C
( x1 − x2 ) ± tdf*
gdzie
2
1
2
2
s s
+
n1 n2
P(tdf* ≤ t ≤ tdf* ) = C
SAS
•
•
•
•
proc ttest data=metabolism ci=equal;
class gender;
var rate;
run;
Alternatywa
P-wartość
Ha: µ1 > µ2
P(T ≥ t)
Ha: µ1 < µ2
P(T ≤ t)
Ha: µ1 ≠ µ2
2*P(T ≥ | t |)
Odporność
• Test Studenta dla dwóch prób jest nawet bardziej
odporny na odstępstwa od normalności niż test
dla jednej próby, w szczególności gdy rozkłady
analizowanych cech są symetryczne i próby są
równoliczne.
• Obserwacje odstające stanowią duży problem.
Skośność generalnie nie jest problemem, o ile
tylko rozmiar prób nie jest zbyt mały (n>15).
Przykład
Test Wilcoxona-Manna-Whitneya
• Stosujemy gdy rozkład istotnie różni się od
normalnego (obserwacje odstające, duża
skośność)
• Metoda:
• Zbieramy dane z obu prób.
• Przypisujemy im rangi.
• Wyliczamy sumę rang w obu grupach.
• Statystyka testowa W=min(R1, R2)
• Liczba ziaren produkowanych przez dwie odmiany
tej samej rośliny.
• Dane:
• Odmiana 1: 19, 23, 25, 28, 28, 34 (n1 = 6)
• Odmiana 2: 14, 18, 19, 20, 25 (n2 = 5)
35
•
•
•
•
•
•
•
•
proc boxplot data=seeds;
plot seeds*var/ boxstyle=schematic;
run;
proc npar1way data=seeds wilcoxon;
class var;
var seeds;
exact wilcoxon;
run;
30
s
e
e
d
s
25
20
15
10
1
2
var
•
•
Wilcoxon Scores (Rank Sums) for Variable seeds
Classified by Variable var
•
•
•
var
N
Sum of
Scores
•
•
1
2
6
5
47.0
19.0
•
Exact Test
Expected Std Dev
Mean
Under H0 Under H0 Score
36.0
30.0
5.439753
5.439753
7.833333
3.800000
•
•
One-Sided Pr <= S
0.0238
Two-Sided Pr >= |S - Mean| 0.0498

Podobne dokumenty