na x - SGGW

Transkrypt

na x - SGGW
Zjazd 7.
SGGW, dn. 28.11.10 r.
Matematyka i statystyka matematyczna
Tematy
1. Jednoczynnikowa analiza
wariancji
2. Porównania szczegółowe
Anna Rajfura
1
Zagadnienia
• Przykład porównania wielu obiektów
w doświadczeniu
• Idea analizy porównania wielu
obiektów
• Terminologia doświadczenia
jednoczynnikowego
• Metoda analizy statystycznej –
analiza wariancji
• Procedury porównań szczegółowych
Anna Rajfura
2
Przykład
Porównywano pięć odmian
pszenicy ozimej
O1, O2, O3, O4, O5
pod względem plonowania.
Uzyskano wyniki o wysokości
plonu w kg z poletka.
Komentarz o powtórzeniach
Anna Rajfura
3
Wyniki wysokości plonowania
W tabeli zestawiono uzyskane wysokości
plonowania (w kg z poletka):
Odmiana
Plony
poletko 1 poletko 2 poletko 3 poletko 4
O1
1,47
1,41
1,40
1,43
O2
1,10
1,15
1,30
1,17
O3
1,41
1,32
1,28
1,33
O4
1,19
1,25
1,26
1,21
O5
1,20
1,35
1,25
1,28
Anna Rajfura
4
Idea porównania pięciu obiektów
Cecha X – plonowanie pszenicy
cecha X 1 – plonowanie pszenicy
odmiany O1,
cecha X 2 – plonowanie pszenicy
odmiany O2,
itd.
Anna Rajfura
5
Idea porównania pięciu obiektów cd.
Cecha X i – plonowanie pszenicy
odmiany Oi, i = 1, 2, ..., 5
Modelem dla kaŜdej cechy jest zmienna
losowa o rozkładzie normalnym.
ZałoŜenia:
2
• X i ~ N (µ i , σ ), i = 1, 2, ..., 5
• X 1 , X 2 , ..., X 5 – niezaleŜne
zmienne losowe
Anna Rajfura
6
Idea porównania pięciu obiektów cd.
Jak zinterpretować wysokość plonowania
odmian przy połoŜeniu krzywych Gaussa
w tym przypadku?
X1 X2 X3
µ1
Anna Rajfura
µ2 µ3
X5 X4
µ5 µ4
wartości cechy
7
Idea porównania pięciu obiektów cd.
Jak zinterpretować wysokość plonowania
odmian przy połoŜeniu krzywych Gaussa
w tym przypadku?
X1=X2
µ1= µ2
Anna Rajfura
X3=X4=X5
µ3= µ4= µ5
wartości cechy
8
Zapis hipotezy zerowej
Pytanie
Czy badane odmiany plonują na
podobnym poziomie?
µ1 = µ2 = µ3= µ4 = µ5 ?
Hipoteza zerowa
H0: µ1 = µ2 = µ3 = µ4 = µ5
Anna Rajfura
9
Interpretacja hipotezy zerowej
Hipoteza zerowa
H0: µ1 = µ2 = µ3 = µ4 = µ5
Hipoteza o braku zróŜnicowania
między pięcioma badanymi
odmianami pod względem
plonowania.
Dygresja
Anna Rajfura
10
Terminologia i oznaczenia
W doświadczeniach czynnikowych:
• Problem badany
w doświadczeniu – porównanie
plonowania odmian pszenicy
ozimej O1, O2, ..., O5 – badanie
wpływu odmiany na wysokość
plonu
Anna Rajfura
11
Terminologia i oznaczenia cd.
• Cecha mierzona
w doświadczeniu X – wielkość
plonu z poletka
• Badany czynnik A – odmiana
Problem badany w doświadczeniu
– wpływ czynnika A na wartość
cechy X.
Anna Rajfura
12
Uwagi
1. Czy na wysokość plonowania wpływa
odmiana?
czynnik A
2. Czy na wysokość plonowania wpływa
odmiana oraz nawoŜenie?
czynnik A
czynnik B
3. Czy na wysokość plonowania wpływa
odmiana, nawoŜenie oraz termin siewu?
czynnik A
Anna Rajfura
czynnik B
czynnik C
13
Uwagi cd.
Ogólniej
MoŜna badać wpływ jednego
czynnika (A), dwóch (A, B), trzech
(A, B, C) lub większej liczby
czynników na wartość mierzonej
cechy.
Anna Rajfura
14
Terminologia cd.
Czynnik – odmiana
Obiekty (poziomy czynnika A) –
poszczególne odmiany O1, O2, ... ;
w tym doświadczeniu
porównujemy 5 odmian, czyli 5
obiektów (5 poziomów czynnika
A); a – liczba poziomów czynnika
A, a = 5.
Anna Rajfura
15
Terminologia cd.
Powtórzenia – kaŜda z odmian
występuje na czterech poletkach,
czyli w czterech powtórzeniach;
liczba powtórzeń n = 4.
Anna Rajfura
16
Terminologia cd.
Jednostki doświadczalne –
poletka; liczba jednostek
doświadczalnych N = 20;
N = a·n, gdy liczba powtórzeń jest
jednakowa dla kaŜdego poziomu
czynnika A;
N = n 1 + n 2 + ... + n a , gdy liczby
powtórzeń nie są jednakowe dla
poziomów czynnika A).
Anna Rajfura
17
Terminologia cd.
Układ doświadczalny (plan
doświadczenia) – opisuje sposób
rozmieszczenia jednostek
doświadczalnych na powierzchni
doświadczalnej.
Układ całkowicie losowy - losowe
przyporządkowanie obiektów do
jednostek doświadczalnych.
Anna Rajfura
18
Przykład cd.
W celu porównania średnich wartości
cechy X dla pięciu obiektów, załoŜono
doświadczenie w układzie całkowicie
losowym w czterech powtórzeniach.
Obiekty
(poziomy
czynnika A)
O1
O2
O3
O4
O5
Anna Rajfura
Wartości cechy X
powt 1
powt 2
powt 3
powt4
1,47
1,10
1,41
1,19
1,20
1,41
1,15
1,32
1,25
1,35
1,40
1,30
1,28
1,26
1,25
1,43
1,17
1,33
1,21
1,28
19
Terminologia cd.
Jednokierunkowa klasyfikacja
danych – wyniki pomiaru cechy
uzyskane w doświadczeniu
przedstawione w tabeli.
Jednokierunkowa – bo
doświadczenie jest
jednoczynnikowe.
Anna Rajfura
20
Jednokierunkowa klasyfikacja danych
Poziomy
czynnika A
Nr powtórzenia
A1
1
x11
2
x12
...
...
n
x1 n
A2
x21
x22
...
x2 n 2
...
M
Aa
xij
1
xa1
xa 2
...
xa na
– wartość cechy X dla i–tego obiektu
w j-tym powtórzeniu (plon dla i–tej odmiany na
j-tym poletku); i=1, 2, ..., a; j=1, 2, ..., n.
Anna Rajfura
21
Przykład cd.
Pytania
1. Czy wszystkie badane odmiany
plonują na podobnym poziomie?
2. Jeśli nie wszystkie, to które
odmiany plonują podobnie?
Anna Rajfura
22
Sformułowanie problemu i analiza
Cecha X badana w a populacjach:
X 1 , X 2 , ..., X a
a > 2
ZałoŜenia
X i ~ N (µ i , σ 2 ), i = 1, 2, ..., a
X 1 , X 2 , ..., X a – cechy (zmienne
losowe) niezaleŜne
Anna Rajfura
23
Sformułowanie problemu i analiza cd.
Hipoteza
H0:
µ 1 = µ 2 = ... = µ a
poziom istotności α (w
przykładzie α = 0,05);
metoda weryfikacji – analiza
wariancji (jednoczynnikowa
analizy wariancji);
test statystyczny F
Anna Rajfura
24
Tabela analizy wariancji (ANOVA TABLE)
Źródła
zmienności
cechy X
Source
Sumy
kwadratów
Stopnie swobody
Średni
kwadrat
Sum of
Squares SS
Df (degrees
of freedom)
Mean Square
MS
Czynnik A
(odmiana)
Between
groups
DfA = a - 1
MS A =
SS A
Df A
SSE
DfE = N - a
MS E =
SS E
Df E
SST
N-1
SSA
Błąd losowy
Within
groups
Całkowita
Total
F
kryt
=F
F emp
F-Ratio
wartość p
p-value
MS A
MS E
α , a - 1, N - a
Wzory na sumy kwadratów
Anna Rajfura
25
Zestawienia obliczeń
Poziomy czynnika A
(odmiany)
A1
A2
Nr powtórzenia (nr poletka)
1
2
x11
x12
x21
x22
M
Aa
...
...
...
n
x1 =
x1 n 1
x2 =
x2 n 2
n1
1
n1
∑
j =1
x1 j
n2
1
n2
∑
j =1
x2 j
...
xa1
xa 2
...
xi = n1i ∑ xij ,
j =1
xa =
xa na
ni
i-ta średnia obiektowa
średnie obiektowe
średnia ogólna
x=
a
1
N
na
1
na
∑x
j =1
a j
ni
∑∑ x
i =1 j =1
ij
SSA = ... , SST = ..., SSE = ...,
Anna Rajfura
26
Tabela ANOVA dla przykładu
Stopnie
Sumy
Źródła
zmienności kwadratów swobody
cechy X
SS
Df
Czynnik A
(odmiana)
0,149
4
Błąd
losowy
0,049
15
Całkowita
0,198
19
Anna Rajfura
Średni
kwadrat
MS
F
emp
0 ,149
0 ,0373
= 11,27
= 0 ,0372
0
0033
,
4
wartość p
0,0002
0 ,049
= 0,0033
15
27
Wartości krytyczne rozkładu F–Snedecora
X ~ Fν1, ν2 - X zmienna losowa o rozkładzie F- Snedecora
z liczbami stopni swobody (ν1, ν2)
poziom istotności α =0,05,
Fα, ν1, ν2 - wartość krytyczna - liczba taka, Ŝe P(X > Fα, ν1, ν2 ) = α
v1
v2
1
2
3
1 161,446 199,499 215,707
2 18,513 19,000 19,164
:
9 5,117 4,256 3,863
10 4,965 4,103 3,708
11 4,844 3,982 3,587
12 4,747 3,885 3,490
13 4,667 3,806 3,411
14 4,600 3,739 3,344
15
4,543
3,682
3,287
4
5
6
7
8
9
10
11
12
13
14
15
224,583 230,160 233,988 236,767 238,884 240,543 241,882 242,981 243,905 244,690 245,363 245,949
19,247 19,296 19,329 19,353 19,371 19,385 19,396 19,405 19,412 19,419 19,424 19,429
3,633
3,478
3,357
3,259
3,179
3,112
3,482
3,326
3,204
3,106
3,025
2,958
3,374
3,217
3,095
2,996
2,915
2,848
3,293
3,135
3,012
2,913
2,832
2,764
3,230
3,072
2,948
2,849
2,767
2,699
3,179
3,020
2,896
2,796
2,714
2,646
3,137
2,978
2,854
2,753
2,671
2,602
3,102
2,943
2,818
2,717
2,635
2,565
3,073
2,913
2,788
2,687
2,604
2,534
3,048
2,887
2,761
2,660
2,577
2,507
3,025
2,865
2,739
2,637
2,554
2,484
3,006
2,845
2,719
2,617
2,533
2,463
3,056
2,901
2,790
2,707
2,641
2,588
2,544
2,507
2,475
2,448
2,424
2,403
W przykładzie:
F kryt = F α , a-1, N-a = F
Femp = 11,27
Anna Rajfura
0,05 , 4, 15
= 3,056
28
Wnioskowanie
Wnioskowanie 1
Jeśli F emp > F kryt, to H0 odrzucamy,
w przeciwnym przypadku H0 nie
moŜna odrzucić.
Wnioskowanie 2
Jeśli wartość p < α, to H0
odrzucamy, w przeciwnym
przypadku H0 nie moŜna odrzucić.
Anna Rajfura
29
Wnioskowanie w przykładzie
Femp = 11,27
F
kryt
=F
Femp > F
Anna Rajfura
0,05 , 4, 15
= 3,056
, więc H0 odrzucamy
kryt
30
Terminologia cd.
Gdy odrzucimy hipotezę H 0 , to
mówimy:
stwierdzono statystycznie istotny
wpływ czynnika A na badaną
cechę
albo:
czynnik A wpływa istotnie
róŜnicująco na badaną cechę.
Anna Rajfura
31
Terminologia cd.
Gdy nie odrzucimy hipotezy H 0 , to
mówimy:
nie stwierdzono statystycznie
istotnego wpływu czynnika A na
badaną cechę
albo:
czynnik A nie wpływa istotnie
róŜnicująco na badaną cechę.
Anna Rajfura
32
Wniosek merytoryczny
W przykładzie stwierdzono
statystycznie istotne
zróŜnicowanie odmian pszenicy ze
względu na wysokość plonu.
Po odrzuceniu hipotezy zerowej
stosuje się porównania
szczegółowe.
Anna Rajfura
33
Wyniki z pakietu statystycznego
ANOVA Table
Analysis of Variance
----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Between groups
0,14927
4
0,0373175
11,51
0,0002
Within groups
0,04865
15
0,00324333
----------------------------------------------------------------------------Total (Corr.)
0,19792
19
Means and 95,0 Percent Tukey HSD Intervals
1,5
Plony
1,4
1,3
1,2
1,1
1
2
3
4
5
odmiany
Anna Rajfura
34
Porównania szczegółowe - idea
X1 X2 X3
µ1
µ2 µ3
X1 = X2 = X 5
µ1 = µ2 = µ5
Anna Rajfura
X5 X4
µ5 µ4
wartości cechy
X3 = X4
µ3 = µ4
wartości cechy
35
Obliczenia
Means and 95,0 Percent LSD Intervals
1,5
plon
1,4
1,3
1,2
1,1
O1
O2
O3
O4
O5
odmiana
Obliczenia na tablicy
Anna Rajfura
36
Wartości krytyczne rozkładu Studenta
X ~ tν - X zmienna losowa o rozkładzie t-Studenta z liczbą stopni swobody
v,
α - poziom istotności,
t α , ν - wartość krytyczna - liczba taka, Ŝe P(|X| > t α , ν ) = α
ν \
α 0,400 0,300 0,200 0,100
0,050
0,025 0,025 0,010 0,005
0,001
1 1,3764 1,9626 3,0777 6,3137 12,7062 25,4519 25,4519 63,6559 127,3211 636,5776
2 1,0607 1,3862 1,8856 2,9200 4,3027 6,2054 6,2054 9,9250 14,0892 31,5998
:
13 0,8702 1,0795 1,3502 1,7709 2,1604 2,5326 2,5326 3,0123 3,3725 4,2209
14 0,8681 1,0763 1,3450 1,7613 2,1448 2,5096 2,5096 2,9768 3,3257 4,1403
15 0,8662 1,0735 1,3406 1,7531
16 0,8647 1,0711 1,3368 1,7459
17 0,8633 1,0690 1,3334 1,7396
18 0,8620 1,0672 1,3304 1,7341
Anna Rajfura
2,1315 2,4899
2,1199
2,1098
2,1009
2,4899 2,9467 3,2860
4,0728
2,4729 2,4729 2,9208 3,2520
2,4581 2,4581 2,8982 3,2224
2,4450 2,4450 2,8784 3,1966
4,0149
3,9651
3,9217
37
Wyniki z pakietu statystycznego
Multiple Range Tests for plon by odmiana
-------------------------------------------------------------------------------Method: 95,0 percent LSD
odmiana
Count
Mean
Homogeneous Groups
-------------------------------------------------------------------------------O2
4
1,18
X
O4
4
1,2275
XX
O5
4
1,27
XX
O3
4
1,335
X
O1
4
1,4275
X
Anna Rajfura
38
Procedury porównań szczegółowych
Procedury te słuŜą do wydzielania
grup jednorodnych, czyli grup
obiektów nie róŜniących się
między sobą.
• procedura Studenta
• procedura Tukeya
• Newmana-Keulsa
Anna Rajfura
39
Procedura Studenta
NIR - Najmniejsza Istotna RóŜnica
(LSD, ang . Least Significant Difference)
Procedura oparta na teście t-Studenta
NIR = tα , Df E ⋅ sr
tα , Df E
,
sr =
2⋅MS E
n
,
-wartość kryt. rozkładu Studenta,
sr
-standardowy błąd róŜnicy średnich
obiektowych,
MSE -średni kwadrat dla błędu z tab. ANOVA
Anna Rajfura
40
NIR Studenta w przykładzie
MS E = 0,0033;
n = 4, to s r = 0,0406;
Df E = 15, t α, DfE = t 0,05, 15 = 2,1315
NIR = 2,1315 — 0,0406 = 0,087
Anna Rajfura
41
Procedura Tukeya
NIR = qα , Df E ,a⋅ s x
T
,
sx =
MS E
n
,
gdzie:
qα ,Df E ,a
- wartość krytyczna
studentyzowanego rozstępu;
a – liczba średnich w całym
doświadczeniu;
sx
- standardowy błąd średniej obiektowej
z próby.
Anna Rajfura
42
NIR Tukeya w przykładzie
Df E = 15, a = 5,
to q α, DfE, a = q 0,05, 15, 5 = 4,367;
s
=
0,
0287
x
MS E = 0,0033, n = 4, to
;
T
NIR = 4,367 — 0,0287 = 0,125.
Obliczenia
Anna Rajfura
43
Wyniki z pakietu statystycznego
Multiple Range Tests for plon by odmiana
-------------------------------------------------------------------------------Method: 95,0 percent Tukey HSD
odmiana
Count
Mean
Homogeneous Groups
-------------------------------------------------------------------------------O2
4
1,18
X
O4
4
1,2275
XX
O5
4
1,27
XX
O3
4
1,335
XX
O1
4
1,4275
X
--------------------------------------------------------------------------------
Anna Rajfura
44
Wyniki z pakietu statystycznego
Means and 95,0 Percent Tukey HSD Intervals
1,5
Plony
1,4
1,3
1,2
1,1
1
2
3
4
5
odmiany
Anna Rajfura
45
Procedura Newmana-Keulsa*
NIR
NK
= qα , Df E ,k ⋅ sx ,
sx =
MS E
n
,
gdzie:
qα ,DfE ,k
- wartość krytyczna
studentyzowanego rozstępu;
k – liczba średnich w grupie,
sx
- standardowy błąd średniej obiektowej
z próby.
Anna Rajfura
46
NIR-y Newmana-Keulsa w przykładzie*
W przykładzie:
s x = 0,0287 ,
q
α,
Df E = 15;
DfE , 2 = q 0,05, 15, 2 = 3,014, to
NIR NK2 = 3,014 — 0,0287 = 0,087;
q
α, DfE
, 3 = q
0,05, 15, 3
= 3,674, to
NIR NK3 = 3,674 — 0,0287 = 0,105;
q
α, DfE, 4
= q
0,05, 15, 4
= 4,076, to
NIR NK4 = 4,076 — 0,0287 = 0,117
Anna Rajfura
47
Wyniki z pakietu statystycznego*
Multiple Range Tests for plon by odmiana
-------------------------------------------------------------------------------Method: 95,0 percent Student-Newman-Keuls
odmiana
Count
Mean
Homogeneous Groups
-------------------------------------------------------------------------------O2
4
1,18
X
O4
4
1,2275
X
O5
4
1,27
XX
O3
4
1,335
X
O1
4
1,4275
X
--------------------------------------------------------------------------------
Anna Rajfura
48
Procedura Duncana*
NIR = t
D
D
α , Df E , k
⋅ sr ,
sr =
2⋅MS E
n
,
gdzie:
sr
- standardowy błąd róŜnicy średnich
obiektowych,
D
α , Df E , k
t
- wartość krytyczna wielokrotnego
testu Duncana; k – liczba średnich w
grupie
Anna Rajfura
49

Podobne dokumenty