Angielska wikipedia

Transkrypt

Angielska wikipedia
PODSTAWY STATYSTYKI
1. Teoria prawdopodobieństwa i elementy kombinatoryki
2. Zmienne losowe i ich rozkłady
3. Populacje i próby danych, estymacja parametrów
4. Testowanie hipotez
5. Testy parametryczne (na przykładzie testu t)
6. Testy nieparametryczne
7. Korelacja liniowa i rangowa
8. Regresja prosta
9. Analiza wariancji
Testy parametryczne
 weryfikacja hipotez dotyczących parametrów
populacji (średnia, wariancja)
 założenie: znany rozkład populacji (głównie: cechy
ilościowe o rozkładzie normalnym)
 hipotezy dotyczące średniej: test t (duże próby – test
średniej standaryzowanej, z)
 hipotezy dotyczące wariancji: test F w analizie
wariancji i analizie regresji
Testy parametryczne - test t
ROZKŁAD t Studenta
Kształt
zależy od
liczby stopni
swobody,
nie zależy od
wariancji
Stosuje się go w analizach statystycznych, jeśli próby są małe (rozrzut danych nie
oddaje prawdziwej zmienności cechy)
Ten rozkład prawdopodobieństwa odkrył i opracował angielski statystyk
William Sealy Gosset
grafika - Wikipedia
Testy parametryczne - test t
William Sealy Gosset (1876 – 1937)
– angielski statystyk.
 Publikował pod pseudonimem Student (stąd nazwa: rozkład t Studenta)
 Pracował w browarach Guinnessa w Dublinie i w Londynie (m.in. nad
kontrolą jakości piwa i surowców do jego produkcji)
 Stąd: rozważania nad statystyką i szacowaniem nieznanych parametrów
(nie był z wykształcenia matematykiem, ale miał genialną intuicję)
 Wniósł wielki wkład w rozwój metod statystycznych (estymacji,
testowania hipotez statystycznych) i doświadczalnictwa
źródło - Wikipedia
Testy parametryczne - test t
ROZKŁAD t Studenta
 k 1
k 1


2  2
2   x 

1  
f x 
k 
k 
k   
2
Test oparty na statystyce, która ma rozkład t Studenta nazywamy
testem t
grafika - Wikipedia
Testy parametryczne - test t
Kiedy i jak stosujemy test t
 Test parametryczny (wnioskowanie o średniej)
 Analiza cech ilościowych ciągłych
 Niewielka liczebność prób
 Próby z populacji o rozkładzie normalnym
 Porównywane próby mają podobne wariancje
Testy parametryczne - test t
Kiedy i jak stosujemy test t
1. Hipotezy o średniej z pojedynczej próby
2. Porównanie średnich z dwóch prób
niezależnych
3. Porównanie średnich z dwóch prób
sparowanych
4. Porównanie średnich z kilku prób – test
Duncana
Testy parametryczne - test t
POJEDYNCZA PRÓBA
Test t – pojedyncza próba
Przykład:
Płeć
HCT
k
0,49

Podstawowa morfologia krwi
k
0,37

k
0,44
HCT – hematokryt (udział erytrocytów we
krwi)
k
0,47
k
0,51

średnia wartość HCT wynosi 0,47
k
0,38
k
0,39
k
0,51
k
0,41
k
0,38
k
0,44
k
0,36
…
m
0,46
m
0,51
m
0,44
W próbie:
x  0,425
s  0,06
n  36
Test t – pojedyncza próba
Etapy testu:
1. Określenie hipotez H0 i H1
H0: średnia wartość HCT w populacji wynosi 0,47
HA: średnia wartość HCT w populacji różni się od 0,47
H0:  = 0,47
HA:  ≠ 0,47
(test dwustronny)
2. Ustalenie poziomu istotności
MAX = 0,05
3. Wybór statystyki???
(z poprzedniego wykładu) Testowanie hipotez
Jedna próba, nieznana wariancja
Statystyka
gdzie:
x
t
n
s
s – standardowe odchylenie w próbie danych
ma rozkład t – Studenta o k = n – 1 stopniach swobody
Stopnie swobody to liczba zmiennych niezależnych użytych
przy obliczaniu statystyki; jest to prawidłowe statystycznie
wyrażona liczebność próby
Test t – pojedyncza próba
3. Wybór i określenie rozkładu statystyki testowej
Statystyka
x
t
n
s
ma rozkład t – Studenta o k = n -1 stopniach swobody
Mamy n = 36, więc k = 35
Test t – pojedyncza próba
4. Obliczenie wartości testu
0,425  0,47
t
36  4,5
0,06
t  4,5
5. Obliczenie wartości t (lub odczyt t)
 T  0,000072
( t0,05;35 = 2,030108 )
6. Decyzja
t < max
H0
H1
(|t| > t)
Odp.: Średnia wartość HCT w populacji różni się od 0,47
Test t – pojedyncza próba
Przykład z poprzedniego wykładu
Próba A
H0: 1 = 235
max= 0,05
n  16
s  32
x  229
t
x
s
n
t = 0,75
T = 0,23
Wniosek?
DWIE NIEZALEŻNE PRÓBY
Test t – dwie próby niezalezne
Płeć
HCT

Podstawowa morfologia krwi
k
0,49

k
0,37
HCT – hematokryt (udział erytrocytów we
krwi)
k
0,44

k
0,47
określono średnie wartości osobno dla
kobiet i mężczyzn
k
0,51
k
0,38
k
0,39
k
0,51
k
0,41
k
0,38
k
0,44
k
0,36
…
m
0,46
m
0,51
m
0,44
W próbach:
xK  0,40 (s  0,04)
xM  0,44 (s  0,08)
nK  nM  18
Test t – dwie próby niezalezne
1. Określenie hipotez H0 i H1
H0: średnia wartość HCT kobiet jest taka sama jak mężczyzn
HA: średnie wartości HCT kobiet i mężczyzn są różne
H0: K = M
HA: K ≠ M
(test dwustronny)
2. Ustalenie poziomu istotności
MAX = 0,05
3. Wybór statystyki testowej???
(z poprzedniego wykładu) Testowanie hipotez
Dwie próby, nieznana wariancja
Statystyka
t 
gdzie
sD 
x1  x 2
sD
s12 s22

n1 n2
oraz
s1, n1 – stand. odchylenie i liczebność w pierwszej próbie;
s2, n2 – stand. odchylenie i liczebność w drugiej próbie
ma rozkład t – Studenta o k = n1+ n2 – 2 stopniach swobody
Test t – dwie próby niezalezne
3. Wybór i określenie rozkładu statystyki testowej
Statystyka
x1  x 2
t 

sD
x1  x 2
s 12
s 22

n1
n2
ma rozkład t – Studenta o k = n1 + n2 - 2 st. swobody
W przykładzie mamy k = 18 + 18 – 2 = 34
Test t – dwie próby niezależne
4. Obliczenie wartości statystyki testowej
t
x K  xM
2
K
2
M
s
s

n K nM
0,40  0,44
t
 1,895
0,0016 0,0064

18
18
t  1,895
Test t – dwie próby niezależne
5. Obliczenie wartości t
 t  0,0666
( t0,05;34 = 2,032244 )
6. Decyzja
t > max
H0
H1
Nie ma podstaw do odrzucenia hipotezy zerowej
A gdyby test był jednostronny?
H0: K = M
H1: K < M
 t  0,0333
Decyzja ?
Testowanie hipotez
Przykład z poprzedniego wykładu
Próba A
n  16
s  32
x  229
213    245
Próba B
H0: 1 = 2
max= 0,05
x1  x 2
t 
sD
t = 1,67
T = 0,1029
Wniosek?
n  25
s  45
x  249
231    267
DWIE SPAROWANE PRÓBY
(pary skorelowane)
Test t – pary skorelowane
Oko lewe
Oko prawe
20,0
14,3
13,9
13,8
18,3
15,8
21,1
33,4
20,1
20,3
24,4
19,9
20,2
14,3
11,6
11,4
28,8
25,1
18,5
24,1
1. Badano odruch źreniczny (czas
trwania pełnego cyklu reakcji na
pojedynczy błysk światła, w
milisekundach)
2. Badanie w obu oczach u 10 osób
Test t – pary skorelowane
1. Określenie hipotez H0 i H1
H0: długość trwania reakcji jest taka sama w obu oczach
HA: długość trwania reakcji jest różna w obu oczach
H0: L = P
HA: L ≠ P
(test dwustronny)
2. Ustalenie poziomu istotności
MAX = 0,05
Test t – pary skorelowane
3. Wybór i określenie rozkładu statystyki testowej
Średnia arytmetyczna różnic
(Di ) w parach obserwacji
D
t
SD
N
 x
1i
D
SD 
 x 2i 
i 1
D
i
i 1

N
Błąd standardowy
średniej
N
Standardowe odchylenie
różnic
S Di
N
N
 D
i
S Di 
N
 D
i 1
N 1
2
Tak określona statystyka ma
rozkład t - Studenta o k = N - 1
stopniach swobody
(N – liczba par)
Test t – pary skorelowane
4. Obliczenie wartości statystyki
N
 x
 x 2i 
1i
D
i 1
N
4 ,5

 0, 45
10
N
 D
S Di 
SD 
i
D

2
i 1
N 1
S Di
N

5,6589
10

288 .21
 5,6589
10  1
 1,7895
D
0, 45
t

 0, 25
S D 1,7895
Test t – pary skorelowane
5. Obliczenie wartości t
 t  0,8082
( t0,05;9 = 2,262157)
6. Decyzja
t > max
H0
H1
Odp.: odruch źreniczny trwa tyle samo w obu oczach.
KILKA PRÓB - TEST DUNCANA
Test t – kilka prób (test Duncana)
1. Badanie frekwencji na zajęciach ze statystyki
2. Podział na 4 grupy w zależności od „atrakcyjności” (ocena na
podstawie ankiety w skali od 2 do 5) wykładowcy
poziom atrakcyjności
2
3
4
5
15
20
10
30
10
13
24
22
12
10
29
29
10
22
12
20
...
...
...
...
średnia
11.13
17.88
20.25
24.38
Przykład z wykladu J. Szydy 2010
Test t – kilka prób (test Duncana)
1. Próby uszeregowane od najniższej do najwyższej średniej
2. Sekwencja kilku testów t dla niezależnych prób
3. Zmodyfikowany poziom istotności MAX
MAX* = 1 - (1 - MAX)n-1
4. W ten sam sposób obliczamy t:
max pojed. testu t
2
3
liczba porównań
* = 1 - (1 – 0,00000096)4-1 = 0,0000029
4
5
H0: 2 = 3 = 4 = 5
H1: 2 ≠ 3 ≠ 4 ≠ 5
Przykład z wykladu J. Szydy 2010
Test t – kilka prób (test Duncana)
1. Próby uszeregowane od najniższej do najwyższej średniej
2. Sekwencja kilku testów t dla niezależnych prób
3. Zmodyfikowany poziom istotności MAX
4. Zmodyfikowane obliczanie t:
2
3
4
* = 1 - (1 – 0,0002)3-1 = 0,0004
* = 1 - (1 – 0,0048)3-1 = 0,0097
5
H0: 2 = 3 = 4
H0: 3 = 4 = 5
H1: 2 ≠ 3 ≠ 4
H1: 3 ≠ 4 ≠ 5
Przykład z wykladu J. Szydy 2010
Test t – kilka prób (test Duncana)
1. Próby uszeregowane od najniższej do najwyższej średniej
2. Sekwencja kilku testów t dla niezależnych prób
3. Zmodyfikowany poziom błędu istotności MAX
4. Zmodyfikowane obliczanie t:
2
3
4
* = 1 - (1 - 0.0036)2-1 = 0.0036
* = 1 - (1 - 0.0625)2-1 = 0.0625
5
H0: 2 = 3
H1: 2 ≠ 3
H0: 4 = 5
H1: 4 ≠ 5
Przykład z wykladu J. Szydy 2010
Test t – kilka prób (test Duncana)
1. Próby uszeregowane od najniższej do najwyższej średniej
2. Sekwencja kilku testów t dla niezależnych prób
3. Zmodyfikowany poziom błędu istotności MAX
4. Zmodyfikowane obliczanie t:
2
3
4
* = 1 - (1 – 0,2722)2-1 = 0,2722
5
H0: 3 = 4
H1: 3 ≠ 4
Przykład z wykladu J. Szydy 2010
Test t – kilka prób (test Duncana)
2
3
A
4
A
5
B
B
1. Atrakcyjność wykładowcy wpływa na frekwencję
2. Frekwencja na zajęciach nie różni się istotnie (=0,05)
w grupach „3” i „4” oraz „4” i „5”
Przykład z wykladu J. Szydy 2010
Testy parametryczne - test t
Kiedy i jak stosujemy test t
 Test parametryczny (wnioskowanie o średniej)
 Analiza cech ilościowych ciągłych
 Niewielka liczebność prób
 Próby z populacji o rozkładzie normalnym
 Porównywane próby mają podobne wariancje
Testy parametryczne - test t
Kiedy i jak stosujemy test t
1. Hipotezy o średniej z pojedynczej próby
2. Porównanie średnich z dwóch prób
niezależnych
3. Porównanie średnich z dwóch prób
sparowanych
4. Porównanie średnich z kilku prób – test
Duncana

Podobne dokumenty