zygmunt kaczmarek, dariusz r. mańkowski - IHAR

Transkrypt

zygmunt kaczmarek, dariusz r. mańkowski - IHAR
NR 259
BIULETYN INSTYTUTU HODOWLI I AKLIMATYZACJI ROŚLIN
2011
ZYGMUNT KACZMAREK 1
DARIUSZ R. MAŃKOWSKI 2
1
Instytut Genetyki Roślin, Polskiej Akademii Nauk w Poznaniu
Pracownia Biometrii
2
Instytut Hodowli i Aklimatyzacji Roślin — Państwowy Instytut Badawczy w Radzikowie
Pracownia Ekonomiki Nasiennictwa i Hodowli Roślin
Wprowadzenie do statystycznych analiz
wielozmiennych∗
Część II. Przykład zastosowania
An introduction to multivariate statistical analyses
Part II. The application
Prowadząc doświadczenia oraz analizując dane pochodzące z doświadczeń często obserwuje się
i analizuje wiele cech charakteryzujących pewne obiekty doświadczalne. Często każda z tych cech
analizowana jest osobno. Jednak, by mieć pełen obraz wyłaniający się z prowadzonych badań, należy
sięgnąć do analizy wielocechowej pozwalającej na całościowe podejście do badanego problemu. W
pracy przedstawiono praktyczny przykład obliczeniowy opisanych w części pierwszej metod
wielocechowych analiz statystycznych. W szczególności przedstawiono wielozmienną analizę
wariancji oraz powiązane z nią: analizę kontrastów oraz analizę zmiennych kanonicznych.
Słowa kluczowe: analizy wielocechowe, grupowanie wielocechowe obiektów, jęczmień jary,
macierz korelacji, macierz kowariancji, MANOVA, wielocechowe mary
podobieństwa
While conducting research and analysing experimental data, one often observes and analyses
multiple characteristics of certain experimental objects. Often each of these characteristics is analyzed
separately. However, to have a complete picture emerging from the research you should use
multivariate analysis which allowing a holistic approach to the investigation of the problem. The
paper presents a practical example of the calculation methods of multivariate statistical analysis
formally described in the first part. In particular, this paper presents the MANOVA analysis and an
analysis of contrasts and canonical variables analysis associated with it.
Key words:
multivariate analysis, multivariate grouping, spring barley, correlation matrix,
covariance matrix, MANOVA, multivariate similarity measures
∗ Praca była prezentowana w ramach I Warsztatów Biometrycznych, które odbyły się w IHAR-PIB w Radzikowie
w dniach 14-15 września 2010 r.
35
Zygmunt Kaczmarek ...
WSTĘP
W pierwszej części zaprezentowano teoretyczne podstawy analizy eksperymentalnych
danych wielocechowych za pomocą wielozmiennej analizy wariancji (MANOVA).
W części drugiej omówiony zostanie przykład przeprowadzenia takich analiz i zasady
wnioskowania na podstawie uzyskanych wyników.
Opisywany przykład rozpocznie charakterystyka doświadczenia i danych, następnie
przeprowadzona zostanie wielozmienne analiza wariancji, analiza zmiennych kanonicznych oraz analiza podobieństwa pomiędzy badanymi obiektami.
W przygotowaniu niniejszego opracowania skorzystano z następujących publikacji:
Caliński (1970), Anderberg (1973), Caliński i Kaczmarek (1973), Kaczmarek (1975),
Morrison (1976), Seber (1984), Krzysko (2000), Timm (2002), Kaczmarek i in. (2008).
Omawiane analizy wykonano za pomocą programów: ABS-35 (Ceranka i in., 1975),
ABS-36 (Caliński i in., 1975) i ABS-45 (Caliński i in., 1976) oraz w Systemie SAS®
w wersji 9.2 (SAS Institute Inc., 2009).
1. OPIS DOŚWIADCZENIA WIELOCECHOWEGO
Analizowane dane wielocechowe pochodzą z doświadczenia polowego z jęczmieniem
jarym wykonanego w Instytucie Genetyki Roślin PAN w Poznaniu. W doświadczeniu
porównywano 26 linii jęczmienia jarego (tab. 1), spośród których 12 było liniami
nieoplewionymi (nagimi) [N1–N12], 12 było liniami oplewionymi [P1–P12], a dwie
formy [P] i [N] były formami rodzicielskimi, pierwsza oplewiona a druga nieoplewiona.
Dla każdego obiektu wykonano trzy powtórzenia. Doświadczenie było założone w
układzie losowanych bloków.
W doświadczeniu prowadzono obserwacje czterech cech: średnicy źdźbła,
współczynnika elastyczności, długości kłosa i masy tysiąca ziaren (MTZ). Wartości
średnie dla tych cech przedstawiono w tabeli 2.
W celu scharakteryzowania zmienności i relacji pomiędzy analizowanymi zmiennymi
wyznaczono macierz kowariancji (tab. 3) oraz macierz korelacji (tab. 4).
W macierzy kowariancji, na przekątnej znajdują się wariancje dla poszczególnych
zmiennych, a poza przekątną, na przecięciu dwóch różnych zmiennych — kowariancje
dla tych zmiennych. W wyniku standaryzacji macierzy kowariancji uzyskano macierz
korelacji, w której na głównej przekątnej znajdują się same jedynki, natomiast na przecięciu dwóch zmiennych współczynniki korelacji liniowej Pearsona pomiędzy tymi zmiennymi.
Analiza współczynników korelacji liniowej (tab. 5) wskazuje na występowanie silnej,
wysoce istotnej i wprost proporcjonalnej współzależności pomiędzy średnicą źdźbła i
współczynnikiem elastyczności (r = 0,73). Ponadto stwierdzono występowanie nieco
słabszych i odwrotnie proporcjonalnych współzależności pomiędzy długością kłosa oraz
średnicą źdźbła (r = -0,44) oraz długością kłosa i współczynnikiem elastyczności
(r = -0,35).
36
Zygmunt Kaczmarek ...
Tabela 1
Wartości obserwowanych cech (zmiennych) u form oplewionych i nieoplewionych jęczmienia jarego
badanych w doświadczeniu polowum założonym w układzie losowanych bloków
Values of observed traits (variables) from the experiment carried out in randomized block design with
the husked and naked forms of spring barley
Obiekt
Object
N1
N2
N3
N4
N5
N6
N7
N8
N9
N10
N11
N12
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
P
N
Średnica źdźbła
Stalk diameter
I
II
III
2,52
2,84
2,45
2,39
2,5
2,4
2,45
2,59
2,5
2,41
2,56
2,4
2,45
2,61
2,89
2,4
2,68
2,41
2,31
2,48
2,42
2,65
2,71
2,6
2,55
2,71
2,4
2,34
2,46
2,67
2,51
2,6
2,48
2,45
2,4
2,81
2,89
3,01
3,05
2,75
3,01
2,74
3,01
3,2
3,05
2,81
3,01
2,9
2,85
2,69
2,81
3,01
3,1
2,81
2,85
3,11
3,06
2,73
3,11
2,9
2,8
3,01
2,81
2,91
3,02
2,82
2,6
2,7
2,92
2,8
3,01
2,99
2,8
2,62
3,11
2,69
2,45
2,7
Współczynnik elastyczności
Coefficient of elasticity
I
II
III
22,03
24,81
22,91
25,65
26,71
24,06
25,48
24,72
26,01
23,03
22,01
24,08
25,01
26,12
26,01
26,01
26,22
22,32
22,41
23,46
21,01
25,01
25,74
25,94
25,8
25,89
23,04
26,89
27,01
27,01
24,81
25
23,01
23,2
24,73
25,06
31,73
32,03
28,15
28,01
27,21
27,4
28,76
30,11
27,91
29,03
29,01
27,98
25,91
26,17
24,46
32,01
29,88
27,82
30,11
30,24
31,42
25,81
26,89
27,01
32,01
31,26
28,32
32,01
31,21
27,01
29,71
28,41
29,16
28,97
32,49
27,81
31,23
31
30,96
26,76
26,03
26,05
Długość kłosa
Spike length
I
II
III
7,7
7,1
7,7
8,3
7,6
7,7
8,7
9,9
8,7
7,6
8,3
8,5
9,8
8,8
10
9
7,3
9
9,5
8,6
7,8
8,5
9,2
8,6
7,6
9,5
9,7
8,1
9,5
8,3
8,2
7,4
8,1
6,6
8,2
7
8
6,9
7,2
6,6
5,8
6,1
7,2
7,7
7,3
7,3
7,2
6,7
8,9
8,1
7,6
7
7
7,1
8,7
6,1
7,5
7
6,9
6,7
7,1
6,5
6,6
8,9
7,6
8,6
6,4
7
6,9
6,7
9,4
6,2
6,9
6,8
8,3
7,8
8,5
8,3
MTZ
Mass of 1000 grains
I
II
III
54,55
50,51
47,06
43,56
50,23
52,17
46,61
58,11
48,64
47,28
48,58
49,52
52,34
44,3
47,53
53,61
48,04
55,16
52,5
52,97
48,92
53,93
50,79
54,55
52,71
52,34
54,01
52,61
55,56
51,89
64,13
57,31
59,91
50,53
54,03
52,17
51,06
50
55,5
53,93
54,9
51,74
54,27
55,85
58,64
51,46
53,9
49,46
57,28
57
55,4
51,58
56,7
55,26
57,27
50
53,85
55,62
52,12
56,32
56,25
55,41
50,62
58,72
53,65
60,38
54,94
58,19
60,22
53,3
49,4
49,46
45,5
49,47
48,4
45,11
53,65
50,6
Tabela 2
Wartości średnie analizowanych cech dla form jęczmienia jarego badanych w wielocechowym
doświadczeniu polowym
Mean values of analyzed traits for the forms of spring barley tested in the multivariate experiment
Obiekty
Objects
Średnica źdźbła
Stalk diameter
1
2
I
II
III
2,65
2,77
2,73
N1
N2
N3
N4
N5
N6
N7
2,60
2,43
2,51
2,45
2,65
2,49
2,40
Współczynnik
Długość kłosa
elastyczności
Spike length
Coefficient of elasticity
3
4
Bloki — Blocks
27,21
7,85
27,47
7,80
26,23
7,77
Formy nieoplewione — Naked forms
23,25
7,50
25,47
7,87
25,40
9,10
23,04
8,13
25,71
9,53
24,85
8,43
22,29
8,63
MTZ
Mass of 1000 grains
5
52,72
52,81
52,97
50,70
48,65
51,12
48,46
48,05
52,27
51,46
37
Zygmunt Kaczmarek ...
c. d. Tabela 2
1
N8
N9
N10
N11
N12
N
2
2,65
2,55
2,49
2,53
2,55
2,61
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
P
2,98
2,83
3,08
2,91
2,78
2,97
3,01
2,91
2,87
2,92
2,74
2,93
2,84
3
25,56
24,91
26,97
24,27
24,33
26,28
Formy oplewione — Husked forms
30,64
27,54
28,93
28,67
25,51
29,90
30,59
26,57
30,53
30,08
29,09
29,76
31,06
4
8,76
8,93
8,63
7,90
7,27
8,20
5
53,09
53,02
53,35
60,45
52,24
49,79
7,37
6,17
7,40
7,07
8,20
7,03
7,43
6,87
6,73
8,37
6,77
7,43
7,33
52,19
53,52
56,25
51,61
56,56
54,51
53,71
54,69
54,09
57,58
57,78
50,72
47,79
Tabela 3
Macierz kowariancji dla analizowanych zmiennych uzyskanych z doświadczenia polowego z formami
nagimi i oplewionymi jęczmienia jarego
Covariance matrix for the analyzed variables obtained from the field experiment with the naked and
husked forms of spring barley
Średnica źdźbła
Stalk diameter
Średnica źdźbła
Stalk diameter
Współczynnik elastyczności
Coefficient of elasticity
Długość kłosa
Spike length
MTZ
Mass of 1000 grains
Współczynnik elastyczności
Coefficient of elasticity
Długość kłosa
Spike length
MTZ
Mass of 1000 grains
0,055466
0,489400
-0,105200
0,146238
0,489400
8,084765
-1,012796
0,780378
-0,105200
-1,012796
1,015536
-0,027680
0,146238
0,780378
-0,027680
15,692180
Tabela 4
Macierz korelacji dla analizowanych zmiennych uzyskanych z doświadczenia polowego z formami
nagimi i oplewionymi jęczmienia jarego
Correlation matrix for the analyzed variables obtained from the field experiment with the naked and
husked forms of spring barley
Średnica źdźbła
Stalk diameter
Współczynnik elastyczności
Coefficient of elasticity
Długość kłosa
Spike length
MTZ
Mass of 1000 grains
Średnica źdźbła
1,0000
0,7308**
-0,4433**
0,1568 NS
Stalk diameter
Współczynnik elastyczności
0,7308**
1,0000
-0,3535**
0,0693 NS
Coefficient of elasticity
Długość kłosa
-0,4433**
-0,3535**
1,0000
-0,0069 NS
Spike length
MTZ
0,1568 NS
0,0693NS
-0,0069 NS
1,0000
Mass of 1000 grains
** — istotne przy α=0,01; NS — nie istotne statystycznie; ** — significant at α=0.01; NS — not significant
38
Zygmunt Kaczmarek ...
Tabela 5
Macierze sum kwadratów i iloczynów dla badanych cech uzyskanych z doświadczenia polowego
z formami nagimi i oplewionymi jęczmienia jarego
Sum of squares and products matrices for the analyzed variables obtained from the field experiment
with the naked and husked forms of spring barley
Współczynnik
elastyczności
Coefficient of
elasticity
Dla bloków — For blocks
Średnica źdźbła
Stalk diameter
Średnica źdźbła
Stalk diameter
Współczynnik elastyczności
Coefficient of elasticity
Długość kłosa
Spike length
MTZ
Mass of 1000 grains
Długość kłosa
Spike length
MTZ
Mass of 1000 grains
0,21185384615E+00
0,36050000000E–01
0,22431479487E+02
-0,93230769231E–01 0,80432051282E+00
0,71025641024E–01
0,22480000000E+00 -0,38041884615E+01 -0,23946153847E+00 0,89691538463E+00
Dla obiektów — For objects
Średnica źdźbła
Stalk diameter
Współczynnik elastyczności
Coefficient of elasticity
Długość kłosa
Spike length
MTZ
Mass of 1000 grains
0,32631538462E+01
0,35122858974E+02
0,53612089872E+03
-0,75936153846E+01 -0,84242769231E+02 0,52638461538E+02
0,15075302564E+02
0,11334309487E+03 -0,48464076923E+02 0,75191951282E+03
Dla błędu — For error
Średnica źdźbła
0,85134615385E+00
Stalk diameter
Współczynnik elastyczności
0,30142833333E+01 0,72059320513E+02
Coefficient of elasticity
Długość kłosa
-0,51876923077E+00 0,44403461538E+01 0,26502307692E+02
Spike length
MTZ
-0,38935333333E+01 -0,48669444872E+02 0,46544461538E+02
Mass of 1000 grains
Zapis ‫ݔ‬E ± ݊ należy rozumieć jako ‫ ∙ ݔ‬10±௡ ; form ‫ݔ‬E ± ݊ should be understood as ‫ ∙ ݔ‬10±௡
0,47117361795E+03
2. WIELOZMIENNA ANALIZA WARIANCJI — MANOVA
Model liniowy wielozmiennej jednoczynnikowej analizy wariancji w układzie bloków
ሺ௥ሻ
losowanych dla ‫ݕ‬௜௝ , czyli obserwacji i-tego poziomu czynnika A (i = 1,2,...,a) oraz jtego bloku (j = 1,2,...,b) dotyczącej r-tej cechy (r = 1,2,...,p), można zapisać analogicznie
jak w (3.1) z pierwszej części pracy (Kaczmarek i Mańkowski, 2011):
ሺ௥ሻ
ሺ௥ሻ
ሺ௥ሻ
ሺ௥ሻ
‫ݕ‬௜௝ = ߤ ሺ௥ሻ + ߛ௝ + ߙ௜ + ߝ௜௝
ሺ௥ሻ
gdzie ߤ ሺ௥ሻ jest średnią ogólną dla r-tej cechy,ߙ௜ jest efektem i-tego poziomu czynnika
ሺ௥ሻ
ሺ௥ሻ
A dla r-tej cechy,ߛ௝
jest efektem j-tego bloku dla r-tej cechy,ߝ௜௝ są błędami
eksperymentalnymi dla r-tej cechy.
39
Zygmunt Kaczmarek ...
Pierwszym etapem jednocechowej analizy wariancji jest wyznaczenie sum kwadratów
odchyleń dla wszystkich źródeł zmienności analizowanych w doświadczeniu i występujących w modelu liniowym. W przypadku wielozmiennej analizy wariancji wyznacza się
macierze sum kwadratów i iloczynów dla wszystkich elementów modelu analizy wariancji, czyli dla bloków, obiektów i błędu losowego. Macierze te przedstawiono w postaci
półlogarytmicznej w tabeli 5.
Na przekątnej macierzy sum kwadratów i iloczynów (tab. 6) znajdują się sumy
kwadratów odchyleń dla poszczególnych cech. Wartości poza głównymi przekątnymi
tych macierzy to wartości kowariancji pomiędzy tymi cechami. Biorąc z macierzy sum
kwadratów i iloczynów do analizy tylko wartości sum kwadratów odchyleń dla
poszczególnych cech, uzyskuje się klasyczny model jednocechowej analizy wariancji.
Tabela 6
Porównania szczegółowe — kontrasty
Contrasts — detailed comparison
Statystyka
Współczynnik
elastyczności
Długość kłosa
MTZ
F dla
Średnica źdźbła
Stalk diameter
Coefficient of
Spike length
Mass of 1000 grains
kontrastu
elasticity
wielocecho
Porównanie
N.k.
wego
Comparison
ocena
ocena
ocena
ocena
F-statistic
statystyka
statystyka
statystyka
statystyka
kontrastu
kontrastu
kontrastu
kontrastu
for multivaF
F
F
F
contrast
contrast
contrast
contrast
riate
F-statistic
F-statistic
F-statistic
F-statistic
estimate
estimate
estimate
estimate
contrast
1
2
3
4
5
6
7
8
9
10
11
Porównanie linii nagich z formą rodzicielską N — Comparison of the naked lines with a parental form N
1 N1-N
2,69*
-0,01 0,01 NS
-3,03 9,56**
-0,70 1,39 NS
0,92 0,13 NS
NS
NS
NS
NS
2 N2-N
0,91
-0,18 2,96
-0,81 0,68
-0,33 0,31
-1,13 0,20 NS
3 N3-N
0,90NS
-0,10 0,88 NS
-0,88 0,80 NS
0,90 2,29 NS
1,33 0,28 NS
-3,24 10,93**
-0,07 0,01 NS
-1,33 0,28 NS
4 N4-N
3,32*
-0,16 2,16 NS
5 N5-N
2,67*
0,037 0,12 NS
-0,57 0,33 NS
1,33 5,03*
-1,73 0,48 NS
6 N6-N
0,67NS
-0,12 1,20 NS
-1,43 2,13 NS
0,23 0,15 NS
2,48 0,98 NS
7 N7-N
4,49**
-0,21 3,89 NS
-3,99 16,54**
0,43 0,53 NS
1,67 0,45 NS
8 N8-N
0,72NS
0,04 0,14 NS
-0,72 0,53 NS
0,57 0,91 NS
3,30 1,74 NS
NS
NS
NS
NS
9 N9-N
0,95
-0,06 0,32
-1,37 1,95
0,73 1,52
3,23 1,66 NS
10 N10-N
1,24NS
-0,12 1,34 NS
0,69 0,50 NS
0,43 0,53 NS
3,57 2,02 NS
-2,01 4,19*
-0,30 0,25 NS
10,66 18,10**
11 N11-N
5,76**
-0,08 0,61 NS
12 N12-N
1,17NS
-0,06 0,32 NS
-1,95 3,96 NS
-0,93 2,47 NS
2,46 0,96 NS
Porównanie linii oplewionych z formą rodzicielską P — Comparison of the husked lines with a parental form P
13 P1-P
1,55 NS
0,14 1,73 NS
-0,43 0,19 NS
0,03 <0,01 NS
4,40 3,08 NS
NS
NS
14 P2-P
5,36**
-0,01 0,01
-3,52 12,92**
-1,17 3,85
5,73 5,23*
15 P3-P
6,43**
0,24 5,22*
-2,14 4,75*
0,07 0,01 NS
8,46 11,40**
NS
NS
NS
16 P4-P
2,38
0,06 0,35
-2,39 5,95*
-0,27 0,20
3,82 2,32 NS
NS
NS
17 P5-P
9,99**
-0,06 0,32
-5,55 32,06**
0,86 2,13
8,77 12,24**
18 P6-P
3,27*
0,13 1,49 NS
-1,16 1,40 NS
-0,30 0,25 NS
6,72 7,20**
NS
NS
NS
NS
19 P7-P
2,48
0,16 2,35
-0,47 0,23
0,10 0,03
5,92 5,57*
-4,49 21,01**
-0,47 0,62 NS
6,90 7,57**
20 P8-P
7,55**
0,07 0,43 NS
21 P9-P
2,86*
0,03 0,08 NS
-0,53 0,30 NS
-0,60 1,02 NS
6,30 6,32*
22 P10-P
4,19**
0,07 0,47 NS
-0,99 1,01 NS
1,03 3,02 NS
9,79 15,27**
NS
NS
23 P11-P
5,71**
-0,10 0,94
-1,97 4,04*
-0,57 0,91
9,99 15,90**
24 P12-P
1,17 NS
0,09 0,71 NS
-1,31 1,78 NS
0,10 0,03 NS
2,93 1,37 NS
Błąd standardowy
0,1065
0,9802
0,5944
2,5065
Standard error
40
Zygmunt Kaczmarek ...
c. d. Tabela 6
1
2
25 Nsr-N
Błąd standardowy
Standard error
3
4
5
6
7
8
9
Porównanie formy rodzicielskiej N ze średnim wynikiem dla linii nagich
Comparison of the parental form N with mean value for the naked lines
1,30 NS
-0,08556 1,19 NS -1,60750 4,97*
0,19167 0,19 NS
0,0784
0,7214
0,4375
10
2,12056
11
1,32 NS
1,8447
Porównanie formy rodzicielskiej P ze średnim wynikiem dla linii oplewionych
Comparison of parental form P with mean value for the husked lines
5,74**
0,06917 0,78 NS -2,07917 8,31** -0,09722 0,05 NS
26 Psr-P
6,64472 12,97**
Błąd standardowy
0,0784
0,7214
0,4375
1,8447
Standard error
Porównanie średniego wyniku dla linii nagich ze średnim wynikiem dla linii oplewionych
Comparison of mean value for the naked lines with mean value for the husked lines
27 Psr-Nsr
120,91**
0,38472 156,47**
4,31167 232,19** -1,15556 45,35** 2,52750 12,20**
Błąd standardowy
0,0308
0,2830
0,1716
0,7236
Standard error
Porównanie formy rodzicielskiej P z formą rodzicielską N
Comparison of the parental form P with the parental form P
28 P-N
7,10**
0,23000 4,66*
4,78333 23,81** -0,86667 2,13 NS
1,99667 0,63 NS
Błąd standardowy
0,1065
0,9802
0,5944
2,5065
Standard error
Psr — wartość średnia dla wszystkich linii oplewionych; Nsr — wartość średnia dla wszystkich linii nagich; ** — istotne
przy α = 0,01;
* — istotne przy α = 0,05; NS — nie istotne.
Psr — mean value for all husked lines; Nsr — mean value for all naked lines; ** — significant at α = 0.01; * — significant
at α = 0.05;
NS
— not significant.
N.k. — numer kontrastu; Contrast number
Postawiono hipotezę ogólną w postaci: H0,0: nie ma istotnych różnic pomiędzy
porównywanymi obiektami pod względem wszystkich analizowanych cech. Wartość
statystyki testowej wynosiła F = 7,73 i była istotna statystycznie przy α = 0,05. Pozwoliło
to na odrzucenie hipotezy ogólnej i stwierdzenie, że pomiędzy badanymi obiektami
występowały istotne różnice w ramach obserwowanych cech.
Odrzucenie hipotezy ogólnej pozwoliło dokonać weryfikacji hipotez szczegółowych
dotyczących testowania istotności różnic pomiędzy badanymi obiektami w ramach każdej
z analizowanych cech osobno (jednocechowa analiza wariancji). W procesie testowania
hipotez szczegółowych H0i (i = 1, 2, 3, 4) uzyskano następujące wyniki:
— H0,1: badane obiekty nie różniły się istotnie ze względu na średnicę źdźbła. Statystyka
testowa F = 7,67 była istotna statystycznie. Pozwoliło to na odrzucenie hipotezy
zerowej i stwierdzenie, że obiekty różniły się między sobą ze względu na średnicę
źdźbła.
— H0,2: badane obiekty nie różniły się istotnie ze względu na współczynnik
elastyczności. Statystyka testowa F = 14,88 była istotna statystycznie. Pozwoliło to na
odrzucenie hipotezy zerowej i stwierdzenie, że obiekty różniły się między sobą ze
względu na współczynnik elastyczności.
— H0,3: badane obiekty nie różniły się istotnie ze względu na długość kłosa. Statystyka
testowa F = 3,97 była istotna statystycznie. Pozwoliło to na odrzucenie hipotezy
41
Zygmunt Kaczmarek ...
zerowej i stwierdzenie, że obiekty różniły się między sobą ze względu na długość
kłosa.
— H0,4: badane obiekty nie różniły się istotnie ze względu na MTZ. Statystyka testowa
F = 3,19 była istotna statystycznie. Pozwoliło to na odrzucenie hipotezy zerowej
i stwierdzenie, że obiekty różniły się między sobą ze względu na MTZ.
Wyznaczono kontrasty służące do porównania badanych obiektów oraz błędy
standardowe porównań i statystki testowe służące do testowania hipotez zerowych
mówiących, że poszczególne kontrasty są równe 0, czyli mówiącej, że nie ma różnic
pomiędzy obiektami budującymi dany kontrast ze względu na wszystkie cechy
jednocześnie oraz ze względu na każdą z analizowanych cech z osobna (tab. 6).
Wyznaczenie kontrastów jest jednym ze sposobów statystycznego porównania
badanych obiektów lub ich grup w wielozmiennej analizie wariancji. W uproszczeniu
polega na wykonaniu oddzielnych analiz tylko dla porównywanych obiektów lub ich
grup. Pierwszym krokiem analizy jest określenie, które obiekty, bądź grupy obiektów,
należy porównać. Następnie wskazane kontrasty zapisuje się w postaci macierzy C o k
kolumnach i g wierszach, gdzie k jest liczbą analizowanych cech, a g jest liczbą
testowanych kontrastów (Timm, 2002). Po określeniu tej macierzy można przeprowadzić
testowanie globalnej hipotezy w postaci (Kaczmarek i Mańkowski, 2011):
‫ܪ‬଴଴ : ۱‫ = ۻ܂‬0.
Testowanie poszczególnych kontrastów może przebiegać na dwóch płaszczyznach.
Istnieje możliwość testowania pojedynczych kontrastów wielocechowych uwzględniających wszystkie analizowane cechy jednocześnie, wówczas hipoteza zerowa jest
postaci (Kaczmarek i Mańkowski, 2011):
‫ܪ‬௙଴ ∶ ‫܋‬௙ᇱ ‫ = ۻ܂‬૙,
݂ = 1,2, … , ݃∗
Drugą możliwością jest szczegółowe testowanie kontrastów jednocechowych dla
wszystkich badanych cech, wówczas hipotezę zerową zapisuje się w postaci (Kaczmarek
i Mańkowski, 2011):
‫ܪ‬௙௟ ∶ ‫܋‬௙ᇱ ‫ܕ܂‬୪ = ૙,
Istotnie różne pod względem analizowanych cech od formy rodzicielskiej N okazały
się linie N1, N4, N5, N7 oraz N11. Istotnie różne pod względem analizowanych cech od
formy rodzicielskiej P były linie P2, P3, P5, P6, P8, P9, P10 oraz P11. Stwierdzono
również występowanie istotnych różnic pomiędzy liniami oplewionymi oraz liniami
nieoplewionymi, zarówno w ramach wszystkich analizowanych cech łącznie, jak i dla
każdej cechy osobno (tab. 6).
3. ANALIZA ZMIENNYCH KANONICZNYCH
Dane wielocechowe można przedstawić jako rozmieszczenie badanych obiektów w
przestrzeni n-wymiarowej, gdzie n jest liczbą analizowanych cech. W omawianym doświadczeniu obserwowano 4 cechy, w związku z tym przestrzeń danych jest przestrzenią
czterowymiarową. Ponieważ człowiek jest w stanie zaprezentować graficznie najwyżej
42
Zygmunt Kaczmarek ...
przestrzeń trójwymiarową, poszukuje się sposobu na redukcję wymiarów danych
wielocechowych. Jedną z takich możliwości daje analiza zmiennych kanonicznych.
Zmienne kanoniczne są liniową kombinacją analizowanych zmiennych. Zawierają w
sobie jednak znacznie więcej informacji niż pojedyncze zmienne w zbiorze danych.
Najpierw wyznaczono statystyki F dla analizowanych zmiennych (tab. 7). Istotną wartość
statystyki F miała pierwsza zmienna kanoniczna i objaśniała ona 76% obserwowanej
zmienności. Druga zmienna kanoniczna objaśniała 13% zmienności. Ograniczając się
tylko do dwóch pierwszych zmiennych kanonicznych ‘utracono’ jedynie 11% obserwowanej zmienności. Czyli strata wynikająca ze zmniejszenia liczby wymiarów dla analizowanych obiektów z czterech do dwóch wynosiła jedynie 11% obserwowanej zmienności.
Natomiast 89% zmienności było zawarte w przestrzeni dwuwymiarowej. Wektory własne, opisujące strukturę zmiennych kanonicznych, przedstawiono w tabeli 8. Wektory
własne charakteryzują zależności pomiędzy poszczególnymi analizowanymi cechami a
wyznaczonymi zmiennymi kanonicznymi.
Tabela 7
Wartości statystyki F dla analizowanych zmiennych oraz stopień wyjaśnianej zmienności
F-statistic values and percent of explained variation for analyzed variables
Zmienne kanoniczne
Canonical variables
V1
V2
V3
V4
Lamba Wiksa
Wilks lambda
12,9019
2,1273
1,1061
0,8539
Statystyka F
F-statistic
5,87
0,97
0,50
0,39
Procent zmienności
Percent of variance
75,94%
12,52%
6,51%
5,03%
Tabela 8
Wektory własne
Eigenvectors
Zmienne
Variables
Średnica źdźbła
Stalk diameter
Współczynnik elastyczności
Coefficient of elasticity
Długość kłosa
Spike length
MTZ
Mass of 1000 grains
V1
V2
V3
V4
0,235207
0,102064
–0,12246
0,032005
0,248945
–0,06484
–0,11209
0,03308
1,07355
–0,05099
0,1167
–0,00268
–0,38415
0,033945
0,090056
0,027901
Wyznaczono współrzędne kanoniczne dla wszystkich 26 obiektów i przedstawiono
ich rozmieszczenie w układzie dwóch pierwszych zmiennych kanonicznych (rys. 1). Na
rysunku widać wyraźnie rozdzielające się grupy linii nagich i oplewionych.
W celu określenia dokładnych odległości między poszczególnymi liniami wyznaczono
odległości Mahalanobisa ze względu na cztery analizowane cechy. Przedstawiono je w
postaci 3 tabel. Najpierw wyznaczono odległości pomiędzy liniami nagimi (tab. 9),
43
Zygmunt Kaczmarek ...
następnie odległości Mahalanobisa między liniami oplewionymi i nagimi (tab. 10) oraz
odległości pomiędzy liniami oplewionymi (tab. 11).
V2 (12,5%)
2
P
N5
1,5
N
N3
P12
N2
N4
P7
N9
P9
P10
N6
N8
P4
P5
N7
1
P1
N10
N1
P6
P3
N12
P8
P11
P2
N11
0,5
3
3,5
4
4,5
5
V1 (75,9%)
Rys. 1. Rozmieszczenie badanych linii na płaszczyźnie w układzie dwóch pierwszych zmiennych
kanonicznych V1 i V2
Fig. 1. Location of the studied lines in the two dimensional space at the level of the first two canonical
variables V1 and V2
Tabela 9
Odległości D2 Mahalanobisa pomiędzy liniami nieoplewionymi
D2 Mahalanobis distances between the naked lines
N1
N2
N3
N4
N5
N2
2,92
N3
2,98
1,98
N4
1,96
2,60
2,50
N5
3,74
3,39
1,87
2,98
N6
2,20
1,57
1,24
2,36
2,91
N7
2,29
3,19
2,66
1,13
3,29
N8
2,57
2,65
1,58
3,17
2,64
N9
2,43
2,31
0,97
2,54
2,39
N10
4,12
2,30
2,39
4,36
3,98
N11
3,93
4,46
4,48
5,23
6,02
N12
1,68
2,33
2,98
2,99
4,34
N
2,76
1,61
1,59
3,07
2,75
ଶ
ଶ
Wartości krytyczne: ‫ܦ‬ఈୀ଴,଴ହ
= 2,7, ‫ܦ‬ఈୀ଴,଴ଵ
= 3,26
ଶ
ଶ
Critical values: ‫ܦ‬ఈୀ଴.଴ହ
= 2.7, ‫ܦ‬ఈୀ଴.଴ଵ
= 3.26
44
N6
N7
N8
N9
N10
N11
N12
2,51
1,38
0,89
2,13
3,46
1,81
1,38
3,27
2,51
4,55
4,99
3,28
3,57
0,91
2,34
3,46
2,36
1,42
2,44
3,69
2,42
1,64
3,61
3,01
1,88
2,80
4,04
2,22
Zygmunt Kaczmarek ...
Tabela 10
Odległości D2 Mahalanobisa pomiędzy liniami nieoplewionymi oraz liniami oplewionymi
D2 Mahalanobis distances between the naked lines and the husked lines
N1
N2
N3
N4
N5
P1
6,87
6,17
6,37
7,98
7,08
P2
5,36
5,36
6,04
6,88
7,14
P3
6,51
6,78
6,67
8,01
7,35
P4
5,20
4,87
5,19
6,47
6,00
P5
3,29
4,21
3,70
4,75
4,64
P6
6,86
6,46
6,73
8,18
7,60
P7
7,08
6,53
6,65
8,27
7,39
P8
4,43
5,18
5,34
6,13
6,23
P9
7,49
6,66
7,19
8,67
8,23
P10
7,03
6,45
6,27
8,14
7,14
P11
7,20
6,53
7,09
8,46
8,41
P12
5,84
5,14
5,34
6,89
6,02
P
6,76
5,30
5,81
7,44
6,49
ଶ
ଶ
Wartości krytyczne: ‫ܦ‬ఈୀ଴,଴ହ
= 2,7, ‫ܦ‬ఈୀ଴,଴ଵ
= 3,26
ଶ
ଶ
= 2.7, ‫ܦ‬ఈୀ଴.଴ଵ
= 3.26
Critical values: ‫ܦ‬ఈୀ଴.଴ହ
N6
6,05
5,18
6,18
4,67
3,04
6,21
6,29
4,56
6,65
5,96
6,37
5,04
5,66
N7
8,42
7,26
8,25
6,92
4,74
8,53
8,65
6,40
9,06
8,32
8,70
7,37
8,04
N8
5,36
4,88
5,27
4,06
2,15
5,56
5,56
3,92
6,23
5,16
6,10
4,37
5,29
N9
6,15
5,55
6,13
4,85
2,87
6,35
6,36
4,68
6,92
5,92
6,70
5,15
5,90
N10
4,76
4,58
5,45
3,85
3,40
5,05
5,03
4,47
5,22
4,56
5,03
3,94
4,19
N11
5,68
3,95
4,95
4,43
2,41
5,19
5,63
3,38
5,65
5,01
4,65
5,15
6,28
N12
5,74
4,05
5,59
4,11
2,69
5,65
5,95
3,52
6,10
5,88
5,68
4,80
5,64
N
5,05
4,62
5,49
3,75
3,02
5,40
5,38
4,11
5,85
5,27
5,89
3,97
4,49
Tabela 11
Odległości D2 Mahalanobisa pomiędzy liniami oplewionymi
D2 Mahalanobis distances between the husked lines
P1
P2
P3
P4
P5
P2
2,99
P3
2,33
2,81
P4
1,76
1,85
2,29
P5
4,59
3,62
3,69
3,23
P6
1,17
2,32
1,72
1,83
4,39
P7
0,58
3,01
1,96
1,99
4,59
P8
3,50
1,81
2,36
2,05
2,24
P9
1,75
2,71
3,05
2,60
5,29
P10
1,90
3,61
2,26
2,70
4,17
P11
2,99
2,50
3,39
3,15
4,94
P12
1,16
2,76
2,60
1,03
3,86
P
2,10
3,90
4,27
2,60
5,32
ଶ
ଶ
Wartości krytyczne: ‫ܦ‬ఈୀ଴,଴ହ
= 2,7, ‫ܦ‬ఈୀ଴,଴ଵ
= 3,26
ଶ
ଶ
Critical values: ‫ܦ‬ఈୀ଴.଴ହ = 2.7, ‫ܦ‬ఈୀ଴.଴ଵ = 3.26
P6
P7
P8
P9
P10
P11
P12
0,86
2,97
1,35
1,86
2,19
1,88
3,04
3,45
1,69
1,58
2,81
1,60
2,65
3,93
3,69
3,75
3,01
4,63
2,49
1,63
2,52
2,85
2,86
2,41
3,45
3,45
4,02
1,82
Obliczone odległości D2 Mahalanobisa mogą być testowane statystycznie. Stawia się
hipotezę zerową, mówiącą że odległość ta jest równa zero (‫ܪ‬଴ : ‫ ܦ‬ଶ = 0). Następnie
porównuje się wyznaczoną odległość z odległością krytyczną przy założonym poziomie
istotności. Jeżeli odległość wyliczona jest większa od odległości krytycznej, to hipotezę
zerową odrzucamy (stwierdzamy, że odległość pomiędzy dwoma porównywanymi
obiektami jest istotna). W przeciwnym przypadku — nie mamy podstaw do odrzucenia
hipotezy zerowej orzekającej, że badane obiekty nie różnią się.
Istnieje ścisły związek pomiędzy wynikami testowania odległości Mahalanobisa
pomiędzy dwoma obiektami, a wynikiem testowania kontrastu pomiędzy tymi obiektami
w wielocechowej analizie wariancji. Jeżeli wartość kontrastu była istotna statystycznie
(istniała istotna wielocechowa różnica pomiędzy obiektami) to odległość Mahalanobisa
45
Zygmunt Kaczmarek ...
między tymi obiektami również będzie istotna statystycznie (będzie istotnie różna od
zera).
Na podstawie wyznaczonych odległości Mahalanobisa można utworzyć dendrogram
(zgodnie z metodyką analizy skupień), bądź też dendryt najkrótszych połączeń. Dendryt
najkrótszych połączeń polega na łączeniu ze sobą tych obiektów, które ze względu na
wszystkie analizowane cechy są sobie najbliższe, czyli odległość między nimi jest
najmniejsza, a co za tym idzie, połączenie tych obiektów obarczone będzie najmniejszym
błędem (rys. 2). Dendrogram natomiast powstaje na skutek hierarchicznego łączenia ze
sobą obiektów sobie najbliższych. W wyniku takiego podejścia uzyskuje się wykres
przypominający drzewo. Z dendrogramu można odczytać kolejność tworzenia się
skupień. Im połączenie pomiędzy obiektami lub skupieniami jest bliższe początku
wykresu tym obiekty tworzące dane skupienie są mniej zróżnicowane między sobą. Na
rysunku 3 przedstawiono dendrogram uzyskany dla badanych w wielozmiennym
doświadczeniu form jęczmienia jarego z wykorzystaniem metody aglomeracji średniego
wiązania (UPGMA).
V2 (12,5%)
2
P
N5
1,5
N3
N
N2
N4
N8
P4
P6
P5
N1
P9
P10
N7
1
P7
N9
N6
P1
P12
N10
P3
N12
P8
P11
P2
N11
0,5
3
3,5
4
4,5
5
V1 (75,9%)
Rys. 2. Rozmieszczenie badanych linii na płaszczyźnie w układzie dwóch pierwszych zmiennych
kanonicznych V1 i V2 z dendrytem najkrótszych połączeń rozpiętym na punktach opisujących linie
Fig. 2. Location of the studied lines in the two dimensional space at the level of the first two canonical
variables V1 and V2with the shortest dendrite connections stretched to the point describing the lines
Porównując uzyskany dendryt najkrótszy (rys. 2) oraz dendrogram hierarchicznej
analizy skupień (rys. 3) stwierdzono wyraźne różnice w sposobie tworzenia skupień i ich
strukturze. Różnice te wynikały z różnego podejścia prezentowanych metod do sposobu i
kryteriów tworzenia skupień. Do przeprowadzenia hierarchicznej analizy skupień metodą
46
Zygmunt Kaczmarek ...
UPGMA wykorzystano macierz odległości D2 Mahalanobisa. Połączenia obiektów w
skupienia przebiegało zgodnie z kryterium najmniejszej średniej odległości pomiędzy
łączonymi obiektami lub skupieniami. Natomiast dendryt najkrótszy powstaje na skutek
połączenia ze sobą obiektów, dla których błąd (wyrażony wartością statystyki F)
powodowany przez ich połączenie jest najmniejszy.
Obiekt; Object
N
N8
N10
N12
N1
N2
N6
N9
N3
N11
P5
N4
N7
N5
P
P12
P4
P8
P2
P1
P6
P7
P10
P3
P11
P9
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
Rys. 3. Dendrogram uzyskany metodą UPGMA przedstawiający bliskość badanych w wielozmiennym
doświadczeniu polowym nagich i oplewionych form jęczmienia jarego
Fig. 3. Tree-diagram obtained by UPGMA method, showing the proximity of the naked and husked
spring barley forms tested in the multivariate field experiment
4. PODSUMOWANIE
Omówiony przykład pokazuje, jak wykonywać analizy wielocechowe: wielocechową
analizę wariancji (MANOVA), analizę zmiennych kanonicznych oraz wielocechową
ocenę podobieństwa badanych obiektów.
Wymienione analizy pozwoliły wykazać występowanie różnic pomiędzy badanymi
obiektami, zarówno pojedynczo, jak i pomiędzy grupami obiektów (MANOVA, analiza
kontrastów), pozwoliły również na zredukowanie wielowymiarowej przestrzeni, w której
były opisane badane obiekty, do przestrzeni dwuwymiarowej z niewielką stratą
informacji (analiza zmiennych kanoniczych), pozwoliły wreszcie na pogrupowanie badanych obiektów i scharakteryzowanie zróżnicowania między nimi (odległość Mahalanobisa).
Wielozmienna analiza wariancji często znajduje zastosowanie w badaniach wielocechowych. W literaturze można odnaleźć wiele prac, w których zastosowano tę metodę
47
Zygmunt Kaczmarek ...
analizy danych doświadczalnych. Spośród prac opublikowanych w ostatnich latach
można wymienić między innymi badania Crossa i Franco (2004). Pisali oni o znaczeniu
MANOVA w statystycznej klasyfikacji genotypów badanych w wielozmiennych
doświadczeniach hodowlanych. Możliwość wykorzystania wielozmiennej analizy
wariancji w połączeniu z analizą dyskryminacyjną do wyboru form rodzicielskich w
hodowli kiwi przedstawili Daoyu i Lawes (2000). Do podobnego celu zastosowali
wielozmienną analizę wariancji Nyassé i in. (2002), którzy poszukiwali rodziców do
hodowli odpornościowej roślin kakao. MANOVA znalazła zastosowanie w ocenie
zróżnicowania w kolekcjach zasobów genowych i kolekcjach roboczych wykorzystywanych w hodowli. Ukalska i in. (2007) prowadzili badania nad zmiennością
fenotypową w kolekcji zasobów genowych truskawki. Ukalska i in. (2008) badali
zmienność i współzależności cech użytkowych w kolekcji roboczej pszenicy ozimej.
Należy wskazać również możliwość wykorzystania tej metody w analizie kowariancji.
Można tu wymienić badania Kenga i in. (2006), którzy wykorzystali wielozmienną
analizę wariancji do oszacowania genotypowych i fenotypowych relacji pomiędzy
składowymi plonu sorga. Takie zastosowanie MANOVA opisali również Mądry i in.
(2010).
LITERATURA
Anderberg M.R. 1973. Cluster analysis for applications. Academic Press, New York.
Caliński T. 1970. Wielozmienna analiza wariancji i pokrewne metody wielowymiarowe. PAN, Warszawa.
Caliński T., Czajka S., Kaczmarek Z. 1975. Analiza składowych głównych i jej zastosowania. Algorytmy
biometryczne i statystyczne (ABS-36). AR Poznań.
Caliński T., Dyczkowski A., Kaczmarek Z. 1976. Testowanie hipotez w wielozmiennej analizie wariancji i
kowariancji. Algorytmy biometryczne i statystyczne (ABS-45). AR Poznań.
Caliński T., Kaczmarek Z. 1973. Metody kompleksowej analizy doświadczenia wielocechowego. Trzecie
Colloquium Metodologiczne z Agro-Biometrii, PAN i PTB Warszawa: 257 — 320.
Ceranka B., Chudzik H., Kaczmarek Z., Krzyśko M. 1975. Wielozmienna analiza wyników doświadczeń w
układach blokowych. Algorytmy biometryczne i statystyczne (ABS-35). AR Poznań.
Crossa J., Franco J. 2004. Statistical methods for classifying genotypes. Euphytica, 137: 19 — 37.
Daoyu Z., Lawes G. S. 2000. Manova and discriminant analyses of phenotypic data as a guide for parent
selection in kiwifruit (Actinidia deliciosa) breeding. Euphytica, 114: 151 — 157.
Kaczmarek Z. 1975. Wielozmienna analiza kowariancji i jej niektóre zastosowania. Matematyka Stosowana
5: 139 — 156.
Kaczmarek Z., Czajka S., Adamska E. 2008. Propozycja metody grupowania obiektów jednoi wielocechowych z zastosowaniem odległości Mahalanobisa i analizy skupień. Biul.IHAR 249: 9 — 18.
Kaczmarek Z., Mańkowski D. R. 2011. Wprowadzenie do statystycznych analiz wielozmiennych. Część I.
Podstawy teoretyczne. Biuletyn IHAR, w druku.
Kenga R., Tenkouano A., Gupta S. C., Alabi S. O. 2006. Genetic and phenotypic association between yield
components in hybrid sorgum (Sorgum bicolor (L.) Moench) populations. Euphytica, 150: 319 — 326.
Krzyśko M. 2000. Wielowymiarowa analiza statystyczna. Uniwersytet im. A. Mickiewicza w Poznaniu.
Poznań.
Mądry W., Mańkowski D. R., Kaczmarek Z., Krajewski P., Studnicki M. 2010. Metody statystyczne oparte
na modelach liniowych w zastosowaniach do doświadczalnictwa, genetyki i hodowli roślin. Monografie
i Rozprawy Naukowe IHAR Radzików, nr 34.
Morrison D. F. 1976. Multivariate statistical methods. McGraw-Hill. New York.
48
Zygmunt Kaczmarek ...
Nyassé S., Despréaux D., Cilas C. Validity of a leaf inoculation test to assess the resistance to Phytophthora
megakarya in a cocoa (Theobroma cacao L.) diallel mating design. Euphytica, 123: 395 — 399.
SAS Institute Inc. 2009. SAS/STAT 9.2 User’s Guide, Second Edition. Cary, NC, USA: SAS Publishing,
SAS Institute Inc.
Seber G.A.F. 1984. Multivariate observations. Wiley. New York.
Timm N. H. 2002. Applied multivariate analysis. New York, USA: Springer-Verlag Inc.
Ukalska J., Mądry W., Ukalski K., Masny A. 2007. Wielowymiarowa ocena różnorodności fenotypowej w
kolekcji zasobów genowych truskawki. Cz. II. Grupowanie genotypów. Zesz. Probl. Post. Nauk Rol.
517: 759 — 766.
Ukalska J., Ukalski K., Śmiałowski T., Mądry W. 2008. Badanie zmienności i współzależności cech
użytkowych w kolekcji roboczej pszenicy ozimej (Triticum aestivum L.) za pomocą metod wielowymiarowych. Cz. II. Analiza składowych głównych na podstawie macierzy korelacji fenotypowych i
genotypowych. Biul. IHAR 249: 45 — 57.
49

Podobne dokumenty