ˆ( ˆ

Transkrypt

ˆ( ˆ

„Bioinformatyka - rozwój oferty edukacyjnej Uniwersytetu Przyrodniczego we Wrocławiu”
projekt realizowany w ramach Programu Operacyjnego Kapitał Ludzki
współfinansowanego ze środków Europejskiego Funduszu Społecznego
Proporcja
Wykład 3
• Wnioskowanie o proporcjach:
test istotności dla pojedynczej proporcji
test chi-kwadrat zgodności
test chi-kwadrat niezależności
• p - p-stwo sukcesu w pojedynczej próbie (proporcja
osobników o ustalonej charakterystyce w całej
populacji).
• Pobieramy próbę rozmiaru n.
• X - liczba sukcesów w próbie.
• Jeżeli n jest małe w stosunku do rozmiaru populacji, to X
ma w przybliżeniu rozkład dwumianowy z parametrami
µ = np
Wnioskowanie o proporcjach
ˆ = X / n jako estymatora proporcji w całej
Używamy próbkowej proporcji p
populacji.
•
p̂ jest nieobciążonym estymatorem p, o średniej i SD:
p
•
and
p (1 − p )
n
Gdy n jest duże, p̂ ma w przybliżeniu rozkład normalny. Tak więc
z=
pˆ − p
p(1 − p) / n
ma w przybliżeniu standardowy rozkład normalny.
σ = np(1 − p)
and
Klasyczne przedziały ufności
• Standardowy błąd p̂ wynosi
SE ( pˆ ) =
pˆ (1 − pˆ )
n
• Przybliżony przedział ufności na poziomie ufności C :
pˆ ± z*SE( pˆ ) = pˆ ± z*
gdzie P(Z ≥ z*) = (1 – C)/2.
pˆ (1− pˆ )
n
Przykład:
Program telewizyjny ogłosił ankietę na temat
proponowanego zakazu posiadania broni palnej. Do
programu zadzwoniło 2372 ludzi. Spośród nich,
1921 było przeciwko zakazowi.
Skonstruuj 95% przedział ufności opisujący preferencje
całej populacji.
Czy to badanie jest wiarygodne ?
•
•
•
•
•
•
•
•
•
•
•
data fraction;
input ban $ count;
cards;
yes 451
no 1921
;
run;
proc freq order=freq;
weight count;
tables ban/ binomial alpha=0.01;
run;
The FREQ Procedure
•
•
•
•
•
•
SAS
ban Frequency
no
yes
1921
451
Cumulative Cumulative
Percent Frequency Percent
80.99
19.01
1921
2372
80.99
100.00
•
•
•
•
•
•
Binomial Proportion for ban = no
•
•
•
Exact Conf Limits
99% Lower Conf Limit
99% Upper Conf Limit
Proportion
0.8099
ASE
0.0081
99% Lower Conf Limit 0.7891
99% Upper Conf Limit 0.8306
0.7883
0.8302
Testowanie
• Hipoteza zerowa – H0: p = p0
• Statystyka testowa
pˆ − p0
z=
p0 (1 − p0 ) / n
Alternatywa
P-wartość
Ha: p > p0
P(Z ≥ z)
Ha: p < p0
P(Z ≤ z)
Ha: p ≠ p0
2P(Z ≥ | z |)
Testowanie
• Gdy n jest duże, p̂ ma w przybliżeniu rozkład
normalny, więc
pˆ − p
z=
p(1 − p ) / n
ma w przybliżeniu standardowy rozkład normalny.
Możemy testować H0: p = p0 przeciwko
alternatywom:
– Ha: p > p0
– Ha: p < p0
– Ha: p ≠ p0
Testowanie w dużych próbach
• Jak duża musi być próba aby korzystać z przybliżenia
rozkładem normalnym ?
• Praktyczne wskazanie
np0 ≥ 10, n(1 − p0 ) ≥ 10
Przykład:
SAS
• Władze uczelni twierdzą, że tylko 34% studentów pracuje.
Przeprowadzono eksperyment aby obalić tę tezę (powszechnie
się sądzi, że więcej studentów pracuje.) Przepytano 100 losowo
wybranych studentów i okazało się, że 47 z nich pracuje.
• Czy na poziomie istotności α = 0.05 mamy wystarczające
przesłanki aby twierdzić, że ponad 34% studentów pracuje.
•
•
•
•
•
•
•
•
•
•
•
Binomial Proportion
for work = yes
•
•
•
•
•
•
•
Proportion
0.4700
ASE
0.0499
•
•
•
Exact Conf Limits
•
Test of H0: Proportion = 0.34
•
•
•
•
ASE under H0
0.0474
Z
2.7443
One-sided Pr > Z
0.0030
Two-sided Pr > |Z|
0.0061
data work;
input work $ count;
cards;
yes 47
no 53
;
run;
proc freq;
weight count;
tables work/ binomial (p=0.34 level='yes');
run;
Test równoważności
0.3694
0.5724
ods graphics on;
proc freq;
weight count;
tables work/ binomial (equiv p=.34
margin=.05);
• run;
•
•
•
•
SAS
• Czy frakcja ludzi z wyższym wykształceniem
(magister lub wyżej) w amerykańskiej
populacji przekracza 10 % ?
• data idividuals;
• infile
'c:/users/mbogdan/ECMI/data/individuals.
dat';
• input id age edu gen income class;
• proc freq;
• tables edu/ binomial (p=0.10 level=6);
• run;
•
•
•
•
•
•
Binomial Proportion for edu = 6
•
•
•
Exact Conf Limits
Proportion
0.1002
ASE
0.0013
0.0977
0.1027
•
•
•
•
•
ASE under H0
0.0013
Z
0.1565
One-sided Pr > Z
0.4378
Two-sided Pr > |Z|
0.8756
Najprostszy przykład- dwie klasy
• Przykład:
• Mamy dwie linie homozygotyczne muszki
owocówki: jedna ma czerwone oczy, a druga
fioletowe. Chcemy przetestować hipotezę, że
allel czerwonych oczu jest dominujący. W tym
celu wychodowaliśmy 43 muszki z populacji F2
: 29 ma oczy czerwone a 14 fioletowe.
Test zgodności chi-kwadrat
• Dane jakościowe; próba losowa rozmiaru n.
• Dysponujemy hipotetycznymi wartościami
proporcji π w każdej z klas.
Klasy:
• Oczy czerwone; hipotetyczne p-stwo π = 3/(3+1) =
0.75
• „oczekiwana’’ liczba: E1 = (43)(0.75) = 32.25
• Oczy fioletowe; hipotetyczne p-stwo 1 – π = 1/(3+1)
= 0.25
• „oczekiwana" liczba: E2 = (43)(0.25) = 10.75
• Czy allel oczu czerwonych jest dominujący?
Test zgodności chi-kwadrat
• π - p-stwo, że muszka z populacji F2 ma
czerwone oczy
• H0: π = 0.75;
• HA: π ≠ 0.75;
• Χ2 = Σ(obserwowana - oczekiwana)2 /
oczekiwana = Σ(O-E)2/E
• Jeżeli zachodzi HO to Χ2 ma w przybliżeniu
rozkład chi-kwadrat z df = #klas - 1 = 1.
• Test na poziomie α = 0.05 ; Wartość krytyczna
= 3.84
Rozkład chi-kwadrat z df=2 i 4:
P( χ ≥ X )
• P-wartość:
• Zawsze po prawej stronie rozkładu.
2
•
SAS
•
•
•
•
•
•
•
•
•
•
•
•
data flies;
input eyes $ count;
cards;
purple 14
red 29
;
run;
proc freq;
weight count;
tables eyes/ chisq testp=(0.25 0.75);
exact chisq;
run;
eyes
•
•
•
Frequency
purple
red
14
29
2
Cumulative Cumulative
Percent Percent Frequency
32.56
67.44
25.00
75.00
14
43
Percent
32.56
100.00
•
•
•
•
•
•
•
•
Chi-Square Test
for Specified Proportions
--------------------------------------Chi-Square
1.3101
DF
1
Asymptotic Pr > ChiSq
0.2524
Exact Pr >= ChiSq
0.2894
•
Sample Size = 43
•
•
•
•
•
proc freq;
weight count;
tables eyes/ binomial (p=0.25);
run;
•
•
•
•
•
ASE under H0
0.0660
Z
1.1446
One-sided Pr > Z
0.1262
Two-sided Pr > |Z|
0.2524
Więcej niż dwie kategorie
•
•
Przykład:
U groszków, allel odpowiedzialny za fioletowy kolor kwiatów (F) dominuje
na allelem koloru czerwonego (f), a allel wydłużonych ziaren pyłku (D)
dominuje nad allelem okrągłych ziaren (d). Dysponujemy dwiema
homozygotycznymi populacjam: P1, gdzie oba allele są dominujące
(FFDD) i P2, gdzie oba allele są recesywne. W populacji F1 wszystkie
osobniki mają genotypy FfDd i mają fioletowe kwiaty i wydłużone ziarna
pyłku. Te osobniki następnie się krzyżuje aby uzyskać populację F2.
Spodziewamy się, że geny kontrolujące obie cechy leżą na jednym
chromosomie w odległości 20 cM. Jeżeli tak rzeczywiście jest to cechy
fenotypowe osobników w populacji F2 powinny dzielić się w proporcjach
66:9:9:16
• 66% fioletowe/wydłużone : FFDD lub FfDD lub FFDd
lub FfDd,
• 9% fioletowe/okrągłe : FFdd lub Ffdd,
• 9% czerwone/wydłużone : ffDD lub ffDd,
• 16% czerwone/okrągłe : ffldd
• Wyhodowano 381 osobników z populacji F2 i
zaobserwowano
• 284 fioletowe/wydłużone
• 21 fioletowe/okrągłe
• 21 czerwone/wydłużone
• 55 czerwone/okrągłe
• Czy dane są zgodne z założonym modelem
genetycznym?
•
•
•
•
•
•
•
•
•
data peas;
input colour $ shape $ count;
cards;
purple long 284
purple round 21
red long 21
red round 55
;
run;
•
•
•
•
•
•
•
•
•
•
•
•
data peas; set peas;
if ((colour eq 'purple')*(shape eq 'long')) then cs='pl';
if ((colour eq 'purple')*(shape eq 'round')) then cs='pr';
if ((colour eq 'red')*(shape eq 'long')) then cs='rl';
if ((colour eq 'red')*(shape eq 'round')) then cs='rr';
run;
odds graphics on;
proc freq data=peas;
weight count;
tables cs/ chisq testp=(0.66 0.09 0.09 0.16);
exact chisq;
run;
Test niezależności
Przykład:
•
•
Czy kobiety i mężczyźni ćwiczą z tych samych powodów?
Przepytano 67 kobiet i mężczyzn 67 . Wyniki:
•
•
•
•
•
•
•
•
HSC-HM kobiety 14
HSC-HM mężczyźni 31
HSC-LM kobiety 7
HSC-LM mężczyźni 18
LSC-HM kobiety 21
LSC-HM mężczyźni 5
LSC-LM kobiety 25
LSC-LM mężczyźni 13
Opis: HSC (LSC)-high (low) social comparison ;
HM (LM)-high (low) mastery
• π1, π2, π3, π4 – p-stwa odpowiednio
fioletowe/wydłużone, fioletowe/okrągłe,
czerwone/wydłużone, czerwone/okrągłe.
• H0: π1=0.66, π2 = 0.09, π3=0.09, π4=0.16 ;
p-stwa wyliczone w oparciu o założony model
genetyczny
• HA: specyfikacja p-stw w H0 nie odpowiada
rzeczywistości
• Stosujemy test chi-kwadrat z
• df = #klas - 1 = 4 - 1 = 3
• Χ2 = Σ(O-E)2/E ma w przybliżeniu rozkład χ23 przy
H0.
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
The FREQ Procedure
cs Frequency
Percent
pl
pr
rl
rr
74.54
5.51
5.51
14.44
284
21
21
55
Test Cumulative Cumulative
Percent Frequency Percent
66.00
9.00
9.00
16.00
284
305
326
381
74.54
80.05
85.56
100.00
Chi-Square Test
for Specified Proportions
--------------------------------------Chi-Square
15.0953
DF
3
Asymptotic Pr > ChiSq
0.0017
Exact Pr >= ChiSq
0.0019
Sample Size = 381
•
Warunkowe rozkłady dla kobiet i mężczyzn.
Testowanie w tabelach dwu-dzielczych
• H0: nie ma związku między zmienną opisującą wiersze a
zmienną opisującą kolumny (zmienne te są niezależne)
• Ha: zmienne opisujące wiersze i kolumny są zależne.
oczekiwana liczba w komórce (i,j) =
(liczba obserwacji w i tym rzędzie) x
(liczba obserwacji w j tej kolumnie)/n
• Aby przetestować hipotezę zerową, porównujemy
zaobserwowane liczby w komórkach tabeli z ich wartościami
oczekiwanymi, wyliczonymi przy założeniu,że hipoteza zerowa
jest prawdziwa.
Tutaj n = całkowita liczba obserwacji
Rozkład chi-kwadrat
Statystyka testowa
X =∑
2
( observed count - expected count )
expected count
2
• Statystyka X2 ma w przybliżeniu rozkład chikwadrat.
•
df=(r-1)(c-1)=(#rzędów-1)(#kolumn-1).
• W naszym przykładzie (4-1)(2-1)=3 df.
proc freq
see SAS file: 9-1.sas
The FREQ Procedure (output):
Statistics for Table of goal by sex
proc freq data=sport;
tables goal*sex/expected chisq;
weight count;
exact chisq fisher;
run;
Statistic
DF
Value
Prob
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Chi-Square
3
24.8978
<.0001
Likelihood Ratio Chi-Square
3
26.0362
<.0001
Mantel-Haenszel Chi-Square
1
16.2249
<.0001
Phi Coefficient
0.4311
Contingency Coefficient
0.3958
Cramer's V
0.4311
Sample Size = 134
Fisher's Exact Test
---------------------------------Table Probability (P)
1.907E-08
Pr <= P
1.288E-05
Sample Size = 134
Paradoks Simpsona:
• Reguła, która zachodzi w każdej z kilku klas
• może zmienić się na przeciwną jeżeli dane
zgrupujemy.
Przykład :
• Liczby punktualnych i spóźnionych lotów dla dwóch linii
lotniczych i 5 lotnisk. Zwykle w podsumowaniach pojawiają
się zbiorcze wyniki dla każdej z linii. Nasz przykład pokaże, że
takie podsumowania mogą być zwodnicze/niesprawiedliwe.
L.A.
Phoenix
San Diego
San
Francisco
Seattle
Total
Procent spóźnień
Lotnisko
Alaska Airlines
America West
L.A.
11%
14.4%
Phoenix
5%
7.9%
San Diego
8.6%
14.5%
San Francisco
17%
28.8%
Seattle
14.2%
23.2%
Łącznie
13.3%
10.9%
Kiedy można stosować rozkład chi-kwadrat:
•
Rozkład chi-kwadrat tym lepiej przybliża rozkład statystyki testowej im
więcej jest obserwacji w poszczególnych komórkach i im więcej jest
komórek.
Dla tabel większych niż 2x2: można stosować przybliżenie rozkładem chikwadrat jeżeli:
średnia z oczekiwanej liczby obserwacji w pojedynczych komórkach jest
nie mniejsza niż 5
najmniejsza oczekiwana licza obserwacji w pojedynczej komórce jest nie
mniejsza niż 1
<20% komórek ma oczekiwaną liczbę obserwacji mniejszą niż 5.
•
• Dla tabel 2x2: można stosować przybliżenie rozkładem chi-kwadrat
jeżeli oczekiwana liczba obserwacji w każdej z czterech komórek jest nie
mniejsza od 5.
Alaska Airlines
Punk.
Spóź.
497
62
221
12
212
20
503
102
1841
305
501
Suma
559
233
232
605
2146
3775
America West
Punk. Spóź.
694
117
4840
415
383
65
320
129
201
61
787
Suma
811
5255
448
449
262
7225
Niebezpieczeństwo uproszczeń
• W tym przykładzie występowały trzy zmienne:
linia lotnicza, punktualność i lotnisko.
• Takie dane często reprezentuje się w postaci
kilku tabel dwu-dzielczych.
• Takie uproszczenia ignorujące trzecią zmienną
(tutaj lotnisko) mogą prowadzić do błędnych
wniosków.
Przykład:
• 356 ochotników
sklasyfikowano pod
względem statusu
socio-ekonomicznego
(SES) i nawyku palenia.
• Czy palenie ma związek
z SES?
smoking
SES
Frequency‚
Percent ‚
Row Pct ‚
Col Pct ‚high
‚low
‚middle ‚ Total
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
current ‚
51 ‚
43 ‚
22 ‚
116
‚ 14.33 ‚ 12.08 ‚
6.18 ‚ 32.58
‚ 43.97 ‚ 37.07 ‚ 18.97 ‚
‚ 24.17 ‚ 46.24 ‚ 42.31 ‚
former
‚
92 ‚
28 ‚
21 ‚
141
‚ 25.84 ‚
7.87 ‚
5.90 ‚ 39.61
‚ 65.25 ‚ 19.86 ‚ 14.89 ‚
‚ 43.60 ‚ 30.11 ‚ 40.38 ‚
never
‚
68 ‚
22 ‚
9 ‚
99
‚ 19.10 ‚
6.18 ‚
2.53 ‚ 27.81
‚ 68.69 ‚ 22.22 ‚
9.09 ‚
‚ 32.23 ‚ 23.66 ‚ 17.31 ‚
Total
211
93
52
356
59.27
26.12
14.61
100.00
Palenie ma związek z SES:
smoking
Statistics for Table of smoking by SES
SES
Frequency‚
Expected ‚
Percent ‚
Row Pct ‚
Col Pct ‚high
‚low
‚middle ‚ Total
current ‚
51 ‚
43 ‚
22 ‚
116
‚ 68.753 ‚ 30.303 ‚ 16.944 ‚
‚ 14.33 ‚ 12.08 ‚
6.18 ‚ 32.58
‚ 43.97 ‚ 37.07 ‚ 18.97 ‚
‚ 24.17 ‚ 46.24 ‚ 42.31 ‚
former
‚
92 ‚
28 ‚
21 ‚
141
‚ 83.57 ‚ 36.834 ‚ 20.596 ‚
‚ 25.84 ‚
7.87 ‚
5.90 ‚ 39.61
‚ 65.25 ‚ 19.86 ‚ 14.89 ‚
‚ 43.60 ‚ 30.11 ‚ 40.38 ‚
never
‚
68 ‚
22 ‚
9 ‚
99
‚ 58.677 ‚ 25.862 ‚ 14.461 ‚
‚ 19.10 ‚
6.18 ‚
2.53 ‚ 27.81
‚ 68.69 ‚ 22.22 ‚
9.09 ‚
‚ 32.23 ‚ 23.66 ‚ 17.31 ‚
Total
211
93
52
356
59.27
26.12
14.61
100.00
fate
Przykład (Wpływ aspiryny):
• 21,996 amerykańskich lekarzy (mężczyzn).
• Połowa z nich brała regularnie aspirynę.
• Po 3 latach, 139 z tych którzy brali aspirynę i 239
z tych którzy brali placebo mieli atak serca.
• Ustal czy jest związek między braniem aspiryny a
ryzykiem ataku serca.
Statistics for Table of fate by treatment
Statistic
DF
Value
Prob
Chi-Square
1
26.9176
<.0001
1
27.2352
<.0001
Continuity Adj. Chi-Square
1
26.3819
<.0001
1
26.9164
<.0001
Phi Coefficient
-0.0350
0.0350
Cramer's V
-0.0350
Fisher's Exact Test
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Cell (1,1) Frequency (F)
139
Left-sided Pr <= F
1.203E-07
Right-sided Pr >= F
1.0000
Table Probability (P)
Two-sided Pr <= P
5.228E-08
2.407E-07
Sample Size = 21996
Conclusion: Aspirin reduces chance of heart attack (P<.0001).
Statistic
DF
Value
Prob
Chi-Square
4
18.5097
0.0010
4
18.6635
0.0009
1
12.2003
0.0005
Phi Coefficient
0.2280
0.2223
Cramer's V
0.1612
Sample Size = 356
treatment
Frequency‚
Expected ‚
Percent ‚
Row Pct ‚
Col Pct ‚aspirin ‚placebo ‚ Total
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
heart_at ‚
139 ‚
239 ‚
378
‚
189 ‚
189 ‚
‚
0.63 ‚
1.09 ‚
1.72
‚ 36.77 ‚ 63.23 ‚
‚
1.26 ‚
2.17 ‚
no_heart ‚ 10859 ‚ 10759 ‚ 21618
‚ 10809 ‚ 10809 ‚
‚ 49.37 ‚ 48.91 ‚ 98.28
‚ 50.23 ‚ 49.77 ‚
‚ 98.74 ‚ 97.83 ‚
Total
10998
10998
21996
50.00
50.00
100.00

ˆ( ˆ

Transkrypt

Podobne dokumenty

Konfiguracja karty sieciowej

Instrukcja macOS

Branża motoryzacyjna w Polsce w 2014 roku w

Kliknij tutaj

Załączanie nagrywania w VCR lub DVD

BASICALLY BASIE - The Count Basie Orchestra - 4 CD