zygmunt kaczmarek, dariusz r. mańkowski - IHAR
Transkrypt
zygmunt kaczmarek, dariusz r. mańkowski - IHAR
NR 259 BIULETYN INSTYTUTU HODOWLI I AKLIMATYZACJI ROŚLIN 2011 ZYGMUNT KACZMAREK 1 DARIUSZ R. MAŃKOWSKI 2 1 Instytut Genetyki Roślin, Polskiej Akademii Nauk w Poznaniu Pracownia Biometrii 2 Instytut Hodowli i Aklimatyzacji Roślin — Państwowy Instytut Badawczy w Radzikowie Pracownia Ekonomiki Nasiennictwa i Hodowli Roślin Wprowadzenie do statystycznych analiz wielozmiennych∗ Część II. Przykład zastosowania An introduction to multivariate statistical analyses Part II. The application Prowadząc doświadczenia oraz analizując dane pochodzące z doświadczeń często obserwuje się i analizuje wiele cech charakteryzujących pewne obiekty doświadczalne. Często każda z tych cech analizowana jest osobno. Jednak, by mieć pełen obraz wyłaniający się z prowadzonych badań, należy sięgnąć do analizy wielocechowej pozwalającej na całościowe podejście do badanego problemu. W pracy przedstawiono praktyczny przykład obliczeniowy opisanych w części pierwszej metod wielocechowych analiz statystycznych. W szczególności przedstawiono wielozmienną analizę wariancji oraz powiązane z nią: analizę kontrastów oraz analizę zmiennych kanonicznych. Słowa kluczowe: analizy wielocechowe, grupowanie wielocechowe obiektów, jęczmień jary, macierz korelacji, macierz kowariancji, MANOVA, wielocechowe mary podobieństwa While conducting research and analysing experimental data, one often observes and analyses multiple characteristics of certain experimental objects. Often each of these characteristics is analyzed separately. However, to have a complete picture emerging from the research you should use multivariate analysis which allowing a holistic approach to the investigation of the problem. The paper presents a practical example of the calculation methods of multivariate statistical analysis formally described in the first part. In particular, this paper presents the MANOVA analysis and an analysis of contrasts and canonical variables analysis associated with it. Key words: multivariate analysis, multivariate grouping, spring barley, correlation matrix, covariance matrix, MANOVA, multivariate similarity measures ∗ Praca była prezentowana w ramach I Warsztatów Biometrycznych, które odbyły się w IHAR-PIB w Radzikowie w dniach 14-15 września 2010 r. 35 Zygmunt Kaczmarek ... WSTĘP W pierwszej części zaprezentowano teoretyczne podstawy analizy eksperymentalnych danych wielocechowych za pomocą wielozmiennej analizy wariancji (MANOVA). W części drugiej omówiony zostanie przykład przeprowadzenia takich analiz i zasady wnioskowania na podstawie uzyskanych wyników. Opisywany przykład rozpocznie charakterystyka doświadczenia i danych, następnie przeprowadzona zostanie wielozmienne analiza wariancji, analiza zmiennych kanonicznych oraz analiza podobieństwa pomiędzy badanymi obiektami. W przygotowaniu niniejszego opracowania skorzystano z następujących publikacji: Caliński (1970), Anderberg (1973), Caliński i Kaczmarek (1973), Kaczmarek (1975), Morrison (1976), Seber (1984), Krzysko (2000), Timm (2002), Kaczmarek i in. (2008). Omawiane analizy wykonano za pomocą programów: ABS-35 (Ceranka i in., 1975), ABS-36 (Caliński i in., 1975) i ABS-45 (Caliński i in., 1976) oraz w Systemie SAS® w wersji 9.2 (SAS Institute Inc., 2009). 1. OPIS DOŚWIADCZENIA WIELOCECHOWEGO Analizowane dane wielocechowe pochodzą z doświadczenia polowego z jęczmieniem jarym wykonanego w Instytucie Genetyki Roślin PAN w Poznaniu. W doświadczeniu porównywano 26 linii jęczmienia jarego (tab. 1), spośród których 12 było liniami nieoplewionymi (nagimi) [N1–N12], 12 było liniami oplewionymi [P1–P12], a dwie formy [P] i [N] były formami rodzicielskimi, pierwsza oplewiona a druga nieoplewiona. Dla każdego obiektu wykonano trzy powtórzenia. Doświadczenie było założone w układzie losowanych bloków. W doświadczeniu prowadzono obserwacje czterech cech: średnicy źdźbła, współczynnika elastyczności, długości kłosa i masy tysiąca ziaren (MTZ). Wartości średnie dla tych cech przedstawiono w tabeli 2. W celu scharakteryzowania zmienności i relacji pomiędzy analizowanymi zmiennymi wyznaczono macierz kowariancji (tab. 3) oraz macierz korelacji (tab. 4). W macierzy kowariancji, na przekątnej znajdują się wariancje dla poszczególnych zmiennych, a poza przekątną, na przecięciu dwóch różnych zmiennych — kowariancje dla tych zmiennych. W wyniku standaryzacji macierzy kowariancji uzyskano macierz korelacji, w której na głównej przekątnej znajdują się same jedynki, natomiast na przecięciu dwóch zmiennych współczynniki korelacji liniowej Pearsona pomiędzy tymi zmiennymi. Analiza współczynników korelacji liniowej (tab. 5) wskazuje na występowanie silnej, wysoce istotnej i wprost proporcjonalnej współzależności pomiędzy średnicą źdźbła i współczynnikiem elastyczności (r = 0,73). Ponadto stwierdzono występowanie nieco słabszych i odwrotnie proporcjonalnych współzależności pomiędzy długością kłosa oraz średnicą źdźbła (r = -0,44) oraz długością kłosa i współczynnikiem elastyczności (r = -0,35). 36 Zygmunt Kaczmarek ... Tabela 1 Wartości obserwowanych cech (zmiennych) u form oplewionych i nieoplewionych jęczmienia jarego badanych w doświadczeniu polowum założonym w układzie losowanych bloków Values of observed traits (variables) from the experiment carried out in randomized block design with the husked and naked forms of spring barley Obiekt Object N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12 P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12 P N Średnica źdźbła Stalk diameter I II III 2,52 2,84 2,45 2,39 2,5 2,4 2,45 2,59 2,5 2,41 2,56 2,4 2,45 2,61 2,89 2,4 2,68 2,41 2,31 2,48 2,42 2,65 2,71 2,6 2,55 2,71 2,4 2,34 2,46 2,67 2,51 2,6 2,48 2,45 2,4 2,81 2,89 3,01 3,05 2,75 3,01 2,74 3,01 3,2 3,05 2,81 3,01 2,9 2,85 2,69 2,81 3,01 3,1 2,81 2,85 3,11 3,06 2,73 3,11 2,9 2,8 3,01 2,81 2,91 3,02 2,82 2,6 2,7 2,92 2,8 3,01 2,99 2,8 2,62 3,11 2,69 2,45 2,7 Współczynnik elastyczności Coefficient of elasticity I II III 22,03 24,81 22,91 25,65 26,71 24,06 25,48 24,72 26,01 23,03 22,01 24,08 25,01 26,12 26,01 26,01 26,22 22,32 22,41 23,46 21,01 25,01 25,74 25,94 25,8 25,89 23,04 26,89 27,01 27,01 24,81 25 23,01 23,2 24,73 25,06 31,73 32,03 28,15 28,01 27,21 27,4 28,76 30,11 27,91 29,03 29,01 27,98 25,91 26,17 24,46 32,01 29,88 27,82 30,11 30,24 31,42 25,81 26,89 27,01 32,01 31,26 28,32 32,01 31,21 27,01 29,71 28,41 29,16 28,97 32,49 27,81 31,23 31 30,96 26,76 26,03 26,05 Długość kłosa Spike length I II III 7,7 7,1 7,7 8,3 7,6 7,7 8,7 9,9 8,7 7,6 8,3 8,5 9,8 8,8 10 9 7,3 9 9,5 8,6 7,8 8,5 9,2 8,6 7,6 9,5 9,7 8,1 9,5 8,3 8,2 7,4 8,1 6,6 8,2 7 8 6,9 7,2 6,6 5,8 6,1 7,2 7,7 7,3 7,3 7,2 6,7 8,9 8,1 7,6 7 7 7,1 8,7 6,1 7,5 7 6,9 6,7 7,1 6,5 6,6 8,9 7,6 8,6 6,4 7 6,9 6,7 9,4 6,2 6,9 6,8 8,3 7,8 8,5 8,3 MTZ Mass of 1000 grains I II III 54,55 50,51 47,06 43,56 50,23 52,17 46,61 58,11 48,64 47,28 48,58 49,52 52,34 44,3 47,53 53,61 48,04 55,16 52,5 52,97 48,92 53,93 50,79 54,55 52,71 52,34 54,01 52,61 55,56 51,89 64,13 57,31 59,91 50,53 54,03 52,17 51,06 50 55,5 53,93 54,9 51,74 54,27 55,85 58,64 51,46 53,9 49,46 57,28 57 55,4 51,58 56,7 55,26 57,27 50 53,85 55,62 52,12 56,32 56,25 55,41 50,62 58,72 53,65 60,38 54,94 58,19 60,22 53,3 49,4 49,46 45,5 49,47 48,4 45,11 53,65 50,6 Tabela 2 Wartości średnie analizowanych cech dla form jęczmienia jarego badanych w wielocechowym doświadczeniu polowym Mean values of analyzed traits for the forms of spring barley tested in the multivariate experiment Obiekty Objects Średnica źdźbła Stalk diameter 1 2 I II III 2,65 2,77 2,73 N1 N2 N3 N4 N5 N6 N7 2,60 2,43 2,51 2,45 2,65 2,49 2,40 Współczynnik Długość kłosa elastyczności Spike length Coefficient of elasticity 3 4 Bloki — Blocks 27,21 7,85 27,47 7,80 26,23 7,77 Formy nieoplewione — Naked forms 23,25 7,50 25,47 7,87 25,40 9,10 23,04 8,13 25,71 9,53 24,85 8,43 22,29 8,63 MTZ Mass of 1000 grains 5 52,72 52,81 52,97 50,70 48,65 51,12 48,46 48,05 52,27 51,46 37 Zygmunt Kaczmarek ... c. d. Tabela 2 1 N8 N9 N10 N11 N12 N 2 2,65 2,55 2,49 2,53 2,55 2,61 P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12 P 2,98 2,83 3,08 2,91 2,78 2,97 3,01 2,91 2,87 2,92 2,74 2,93 2,84 3 25,56 24,91 26,97 24,27 24,33 26,28 Formy oplewione — Husked forms 30,64 27,54 28,93 28,67 25,51 29,90 30,59 26,57 30,53 30,08 29,09 29,76 31,06 4 8,76 8,93 8,63 7,90 7,27 8,20 5 53,09 53,02 53,35 60,45 52,24 49,79 7,37 6,17 7,40 7,07 8,20 7,03 7,43 6,87 6,73 8,37 6,77 7,43 7,33 52,19 53,52 56,25 51,61 56,56 54,51 53,71 54,69 54,09 57,58 57,78 50,72 47,79 Tabela 3 Macierz kowariancji dla analizowanych zmiennych uzyskanych z doświadczenia polowego z formami nagimi i oplewionymi jęczmienia jarego Covariance matrix for the analyzed variables obtained from the field experiment with the naked and husked forms of spring barley Średnica źdźbła Stalk diameter Średnica źdźbła Stalk diameter Współczynnik elastyczności Coefficient of elasticity Długość kłosa Spike length MTZ Mass of 1000 grains Współczynnik elastyczności Coefficient of elasticity Długość kłosa Spike length MTZ Mass of 1000 grains 0,055466 0,489400 -0,105200 0,146238 0,489400 8,084765 -1,012796 0,780378 -0,105200 -1,012796 1,015536 -0,027680 0,146238 0,780378 -0,027680 15,692180 Tabela 4 Macierz korelacji dla analizowanych zmiennych uzyskanych z doświadczenia polowego z formami nagimi i oplewionymi jęczmienia jarego Correlation matrix for the analyzed variables obtained from the field experiment with the naked and husked forms of spring barley Średnica źdźbła Stalk diameter Współczynnik elastyczności Coefficient of elasticity Długość kłosa Spike length MTZ Mass of 1000 grains Średnica źdźbła 1,0000 0,7308** -0,4433** 0,1568 NS Stalk diameter Współczynnik elastyczności 0,7308** 1,0000 -0,3535** 0,0693 NS Coefficient of elasticity Długość kłosa -0,4433** -0,3535** 1,0000 -0,0069 NS Spike length MTZ 0,1568 NS 0,0693NS -0,0069 NS 1,0000 Mass of 1000 grains ** — istotne przy α=0,01; NS — nie istotne statystycznie; ** — significant at α=0.01; NS — not significant 38 Zygmunt Kaczmarek ... Tabela 5 Macierze sum kwadratów i iloczynów dla badanych cech uzyskanych z doświadczenia polowego z formami nagimi i oplewionymi jęczmienia jarego Sum of squares and products matrices for the analyzed variables obtained from the field experiment with the naked and husked forms of spring barley Współczynnik elastyczności Coefficient of elasticity Dla bloków — For blocks Średnica źdźbła Stalk diameter Średnica źdźbła Stalk diameter Współczynnik elastyczności Coefficient of elasticity Długość kłosa Spike length MTZ Mass of 1000 grains Długość kłosa Spike length MTZ Mass of 1000 grains 0,21185384615E+00 0,36050000000E–01 0,22431479487E+02 -0,93230769231E–01 0,80432051282E+00 0,71025641024E–01 0,22480000000E+00 -0,38041884615E+01 -0,23946153847E+00 0,89691538463E+00 Dla obiektów — For objects Średnica źdźbła Stalk diameter Współczynnik elastyczności Coefficient of elasticity Długość kłosa Spike length MTZ Mass of 1000 grains 0,32631538462E+01 0,35122858974E+02 0,53612089872E+03 -0,75936153846E+01 -0,84242769231E+02 0,52638461538E+02 0,15075302564E+02 0,11334309487E+03 -0,48464076923E+02 0,75191951282E+03 Dla błędu — For error Średnica źdźbła 0,85134615385E+00 Stalk diameter Współczynnik elastyczności 0,30142833333E+01 0,72059320513E+02 Coefficient of elasticity Długość kłosa -0,51876923077E+00 0,44403461538E+01 0,26502307692E+02 Spike length MTZ -0,38935333333E+01 -0,48669444872E+02 0,46544461538E+02 Mass of 1000 grains Zapis ݔE ± ݊ należy rozumieć jako ∙ ݔ10± ; form ݔE ± ݊ should be understood as ∙ ݔ10± 0,47117361795E+03 2. WIELOZMIENNA ANALIZA WARIANCJI — MANOVA Model liniowy wielozmiennej jednoczynnikowej analizy wariancji w układzie bloków ሺሻ losowanych dla ݕ , czyli obserwacji i-tego poziomu czynnika A (i = 1,2,...,a) oraz jtego bloku (j = 1,2,...,b) dotyczącej r-tej cechy (r = 1,2,...,p), można zapisać analogicznie jak w (3.1) z pierwszej części pracy (Kaczmarek i Mańkowski, 2011): ሺሻ ሺሻ ሺሻ ሺሻ ݕ = ߤ ሺሻ + ߛ + ߙ + ߝ ሺሻ gdzie ߤ ሺሻ jest średnią ogólną dla r-tej cechy,ߙ jest efektem i-tego poziomu czynnika ሺሻ ሺሻ A dla r-tej cechy,ߛ jest efektem j-tego bloku dla r-tej cechy,ߝ są błędami eksperymentalnymi dla r-tej cechy. 39 Zygmunt Kaczmarek ... Pierwszym etapem jednocechowej analizy wariancji jest wyznaczenie sum kwadratów odchyleń dla wszystkich źródeł zmienności analizowanych w doświadczeniu i występujących w modelu liniowym. W przypadku wielozmiennej analizy wariancji wyznacza się macierze sum kwadratów i iloczynów dla wszystkich elementów modelu analizy wariancji, czyli dla bloków, obiektów i błędu losowego. Macierze te przedstawiono w postaci półlogarytmicznej w tabeli 5. Na przekątnej macierzy sum kwadratów i iloczynów (tab. 6) znajdują się sumy kwadratów odchyleń dla poszczególnych cech. Wartości poza głównymi przekątnymi tych macierzy to wartości kowariancji pomiędzy tymi cechami. Biorąc z macierzy sum kwadratów i iloczynów do analizy tylko wartości sum kwadratów odchyleń dla poszczególnych cech, uzyskuje się klasyczny model jednocechowej analizy wariancji. Tabela 6 Porównania szczegółowe — kontrasty Contrasts — detailed comparison Statystyka Współczynnik elastyczności Długość kłosa MTZ F dla Średnica źdźbła Stalk diameter Coefficient of Spike length Mass of 1000 grains kontrastu elasticity wielocecho Porównanie N.k. wego Comparison ocena ocena ocena ocena F-statistic statystyka statystyka statystyka statystyka kontrastu kontrastu kontrastu kontrastu for multivaF F F F contrast contrast contrast contrast riate F-statistic F-statistic F-statistic F-statistic estimate estimate estimate estimate contrast 1 2 3 4 5 6 7 8 9 10 11 Porównanie linii nagich z formą rodzicielską N — Comparison of the naked lines with a parental form N 1 N1-N 2,69* -0,01 0,01 NS -3,03 9,56** -0,70 1,39 NS 0,92 0,13 NS NS NS NS NS 2 N2-N 0,91 -0,18 2,96 -0,81 0,68 -0,33 0,31 -1,13 0,20 NS 3 N3-N 0,90NS -0,10 0,88 NS -0,88 0,80 NS 0,90 2,29 NS 1,33 0,28 NS -3,24 10,93** -0,07 0,01 NS -1,33 0,28 NS 4 N4-N 3,32* -0,16 2,16 NS 5 N5-N 2,67* 0,037 0,12 NS -0,57 0,33 NS 1,33 5,03* -1,73 0,48 NS 6 N6-N 0,67NS -0,12 1,20 NS -1,43 2,13 NS 0,23 0,15 NS 2,48 0,98 NS 7 N7-N 4,49** -0,21 3,89 NS -3,99 16,54** 0,43 0,53 NS 1,67 0,45 NS 8 N8-N 0,72NS 0,04 0,14 NS -0,72 0,53 NS 0,57 0,91 NS 3,30 1,74 NS NS NS NS NS 9 N9-N 0,95 -0,06 0,32 -1,37 1,95 0,73 1,52 3,23 1,66 NS 10 N10-N 1,24NS -0,12 1,34 NS 0,69 0,50 NS 0,43 0,53 NS 3,57 2,02 NS -2,01 4,19* -0,30 0,25 NS 10,66 18,10** 11 N11-N 5,76** -0,08 0,61 NS 12 N12-N 1,17NS -0,06 0,32 NS -1,95 3,96 NS -0,93 2,47 NS 2,46 0,96 NS Porównanie linii oplewionych z formą rodzicielską P — Comparison of the husked lines with a parental form P 13 P1-P 1,55 NS 0,14 1,73 NS -0,43 0,19 NS 0,03 <0,01 NS 4,40 3,08 NS NS NS 14 P2-P 5,36** -0,01 0,01 -3,52 12,92** -1,17 3,85 5,73 5,23* 15 P3-P 6,43** 0,24 5,22* -2,14 4,75* 0,07 0,01 NS 8,46 11,40** NS NS NS 16 P4-P 2,38 0,06 0,35 -2,39 5,95* -0,27 0,20 3,82 2,32 NS NS NS 17 P5-P 9,99** -0,06 0,32 -5,55 32,06** 0,86 2,13 8,77 12,24** 18 P6-P 3,27* 0,13 1,49 NS -1,16 1,40 NS -0,30 0,25 NS 6,72 7,20** NS NS NS NS 19 P7-P 2,48 0,16 2,35 -0,47 0,23 0,10 0,03 5,92 5,57* -4,49 21,01** -0,47 0,62 NS 6,90 7,57** 20 P8-P 7,55** 0,07 0,43 NS 21 P9-P 2,86* 0,03 0,08 NS -0,53 0,30 NS -0,60 1,02 NS 6,30 6,32* 22 P10-P 4,19** 0,07 0,47 NS -0,99 1,01 NS 1,03 3,02 NS 9,79 15,27** NS NS 23 P11-P 5,71** -0,10 0,94 -1,97 4,04* -0,57 0,91 9,99 15,90** 24 P12-P 1,17 NS 0,09 0,71 NS -1,31 1,78 NS 0,10 0,03 NS 2,93 1,37 NS Błąd standardowy 0,1065 0,9802 0,5944 2,5065 Standard error 40 Zygmunt Kaczmarek ... c. d. Tabela 6 1 2 25 Nsr-N Błąd standardowy Standard error 3 4 5 6 7 8 9 Porównanie formy rodzicielskiej N ze średnim wynikiem dla linii nagich Comparison of the parental form N with mean value for the naked lines 1,30 NS -0,08556 1,19 NS -1,60750 4,97* 0,19167 0,19 NS 0,0784 0,7214 0,4375 10 2,12056 11 1,32 NS 1,8447 Porównanie formy rodzicielskiej P ze średnim wynikiem dla linii oplewionych Comparison of parental form P with mean value for the husked lines 5,74** 0,06917 0,78 NS -2,07917 8,31** -0,09722 0,05 NS 26 Psr-P 6,64472 12,97** Błąd standardowy 0,0784 0,7214 0,4375 1,8447 Standard error Porównanie średniego wyniku dla linii nagich ze średnim wynikiem dla linii oplewionych Comparison of mean value for the naked lines with mean value for the husked lines 27 Psr-Nsr 120,91** 0,38472 156,47** 4,31167 232,19** -1,15556 45,35** 2,52750 12,20** Błąd standardowy 0,0308 0,2830 0,1716 0,7236 Standard error Porównanie formy rodzicielskiej P z formą rodzicielską N Comparison of the parental form P with the parental form P 28 P-N 7,10** 0,23000 4,66* 4,78333 23,81** -0,86667 2,13 NS 1,99667 0,63 NS Błąd standardowy 0,1065 0,9802 0,5944 2,5065 Standard error Psr — wartość średnia dla wszystkich linii oplewionych; Nsr — wartość średnia dla wszystkich linii nagich; ** — istotne przy α = 0,01; * — istotne przy α = 0,05; NS — nie istotne. Psr — mean value for all husked lines; Nsr — mean value for all naked lines; ** — significant at α = 0.01; * — significant at α = 0.05; NS — not significant. N.k. — numer kontrastu; Contrast number Postawiono hipotezę ogólną w postaci: H0,0: nie ma istotnych różnic pomiędzy porównywanymi obiektami pod względem wszystkich analizowanych cech. Wartość statystyki testowej wynosiła F = 7,73 i była istotna statystycznie przy α = 0,05. Pozwoliło to na odrzucenie hipotezy ogólnej i stwierdzenie, że pomiędzy badanymi obiektami występowały istotne różnice w ramach obserwowanych cech. Odrzucenie hipotezy ogólnej pozwoliło dokonać weryfikacji hipotez szczegółowych dotyczących testowania istotności różnic pomiędzy badanymi obiektami w ramach każdej z analizowanych cech osobno (jednocechowa analiza wariancji). W procesie testowania hipotez szczegółowych H0i (i = 1, 2, 3, 4) uzyskano następujące wyniki: — H0,1: badane obiekty nie różniły się istotnie ze względu na średnicę źdźbła. Statystyka testowa F = 7,67 była istotna statystycznie. Pozwoliło to na odrzucenie hipotezy zerowej i stwierdzenie, że obiekty różniły się między sobą ze względu na średnicę źdźbła. — H0,2: badane obiekty nie różniły się istotnie ze względu na współczynnik elastyczności. Statystyka testowa F = 14,88 była istotna statystycznie. Pozwoliło to na odrzucenie hipotezy zerowej i stwierdzenie, że obiekty różniły się między sobą ze względu na współczynnik elastyczności. — H0,3: badane obiekty nie różniły się istotnie ze względu na długość kłosa. Statystyka testowa F = 3,97 była istotna statystycznie. Pozwoliło to na odrzucenie hipotezy 41 Zygmunt Kaczmarek ... zerowej i stwierdzenie, że obiekty różniły się między sobą ze względu na długość kłosa. — H0,4: badane obiekty nie różniły się istotnie ze względu na MTZ. Statystyka testowa F = 3,19 była istotna statystycznie. Pozwoliło to na odrzucenie hipotezy zerowej i stwierdzenie, że obiekty różniły się między sobą ze względu na MTZ. Wyznaczono kontrasty służące do porównania badanych obiektów oraz błędy standardowe porównań i statystki testowe służące do testowania hipotez zerowych mówiących, że poszczególne kontrasty są równe 0, czyli mówiącej, że nie ma różnic pomiędzy obiektami budującymi dany kontrast ze względu na wszystkie cechy jednocześnie oraz ze względu na każdą z analizowanych cech z osobna (tab. 6). Wyznaczenie kontrastów jest jednym ze sposobów statystycznego porównania badanych obiektów lub ich grup w wielozmiennej analizie wariancji. W uproszczeniu polega na wykonaniu oddzielnych analiz tylko dla porównywanych obiektów lub ich grup. Pierwszym krokiem analizy jest określenie, które obiekty, bądź grupy obiektów, należy porównać. Następnie wskazane kontrasty zapisuje się w postaci macierzy C o k kolumnach i g wierszach, gdzie k jest liczbą analizowanych cech, a g jest liczbą testowanych kontrastów (Timm, 2002). Po określeniu tej macierzy można przeprowadzić testowanie globalnej hipotezy w postaci (Kaczmarek i Mańkowski, 2011): ܪ : ۱ = ۻ܂0. Testowanie poszczególnych kontrastów może przebiegać na dwóch płaszczyznach. Istnieje możliwość testowania pojedynczych kontrastów wielocechowych uwzględniających wszystkie analizowane cechy jednocześnie, wówczas hipoteza zerowa jest postaci (Kaczmarek i Mańkowski, 2011): ܪ ∶ ܋ᇱ = ۻ܂, ݂ = 1,2, … , ݃∗ Drugą możliwością jest szczegółowe testowanie kontrastów jednocechowych dla wszystkich badanych cech, wówczas hipotezę zerową zapisuje się w postaci (Kaczmarek i Mańkowski, 2011): ܪ ∶ ܋ᇱ ܕ܂୪ = , Istotnie różne pod względem analizowanych cech od formy rodzicielskiej N okazały się linie N1, N4, N5, N7 oraz N11. Istotnie różne pod względem analizowanych cech od formy rodzicielskiej P były linie P2, P3, P5, P6, P8, P9, P10 oraz P11. Stwierdzono również występowanie istotnych różnic pomiędzy liniami oplewionymi oraz liniami nieoplewionymi, zarówno w ramach wszystkich analizowanych cech łącznie, jak i dla każdej cechy osobno (tab. 6). 3. ANALIZA ZMIENNYCH KANONICZNYCH Dane wielocechowe można przedstawić jako rozmieszczenie badanych obiektów w przestrzeni n-wymiarowej, gdzie n jest liczbą analizowanych cech. W omawianym doświadczeniu obserwowano 4 cechy, w związku z tym przestrzeń danych jest przestrzenią czterowymiarową. Ponieważ człowiek jest w stanie zaprezentować graficznie najwyżej 42 Zygmunt Kaczmarek ... przestrzeń trójwymiarową, poszukuje się sposobu na redukcję wymiarów danych wielocechowych. Jedną z takich możliwości daje analiza zmiennych kanonicznych. Zmienne kanoniczne są liniową kombinacją analizowanych zmiennych. Zawierają w sobie jednak znacznie więcej informacji niż pojedyncze zmienne w zbiorze danych. Najpierw wyznaczono statystyki F dla analizowanych zmiennych (tab. 7). Istotną wartość statystyki F miała pierwsza zmienna kanoniczna i objaśniała ona 76% obserwowanej zmienności. Druga zmienna kanoniczna objaśniała 13% zmienności. Ograniczając się tylko do dwóch pierwszych zmiennych kanonicznych ‘utracono’ jedynie 11% obserwowanej zmienności. Czyli strata wynikająca ze zmniejszenia liczby wymiarów dla analizowanych obiektów z czterech do dwóch wynosiła jedynie 11% obserwowanej zmienności. Natomiast 89% zmienności było zawarte w przestrzeni dwuwymiarowej. Wektory własne, opisujące strukturę zmiennych kanonicznych, przedstawiono w tabeli 8. Wektory własne charakteryzują zależności pomiędzy poszczególnymi analizowanymi cechami a wyznaczonymi zmiennymi kanonicznymi. Tabela 7 Wartości statystyki F dla analizowanych zmiennych oraz stopień wyjaśnianej zmienności F-statistic values and percent of explained variation for analyzed variables Zmienne kanoniczne Canonical variables V1 V2 V3 V4 Lamba Wiksa Wilks lambda 12,9019 2,1273 1,1061 0,8539 Statystyka F F-statistic 5,87 0,97 0,50 0,39 Procent zmienności Percent of variance 75,94% 12,52% 6,51% 5,03% Tabela 8 Wektory własne Eigenvectors Zmienne Variables Średnica źdźbła Stalk diameter Współczynnik elastyczności Coefficient of elasticity Długość kłosa Spike length MTZ Mass of 1000 grains V1 V2 V3 V4 0,235207 0,102064 –0,12246 0,032005 0,248945 –0,06484 –0,11209 0,03308 1,07355 –0,05099 0,1167 –0,00268 –0,38415 0,033945 0,090056 0,027901 Wyznaczono współrzędne kanoniczne dla wszystkich 26 obiektów i przedstawiono ich rozmieszczenie w układzie dwóch pierwszych zmiennych kanonicznych (rys. 1). Na rysunku widać wyraźnie rozdzielające się grupy linii nagich i oplewionych. W celu określenia dokładnych odległości między poszczególnymi liniami wyznaczono odległości Mahalanobisa ze względu na cztery analizowane cechy. Przedstawiono je w postaci 3 tabel. Najpierw wyznaczono odległości pomiędzy liniami nagimi (tab. 9), 43 Zygmunt Kaczmarek ... następnie odległości Mahalanobisa między liniami oplewionymi i nagimi (tab. 10) oraz odległości pomiędzy liniami oplewionymi (tab. 11). V2 (12,5%) 2 P N5 1,5 N N3 P12 N2 N4 P7 N9 P9 P10 N6 N8 P4 P5 N7 1 P1 N10 N1 P6 P3 N12 P8 P11 P2 N11 0,5 3 3,5 4 4,5 5 V1 (75,9%) Rys. 1. Rozmieszczenie badanych linii na płaszczyźnie w układzie dwóch pierwszych zmiennych kanonicznych V1 i V2 Fig. 1. Location of the studied lines in the two dimensional space at the level of the first two canonical variables V1 and V2 Tabela 9 Odległości D2 Mahalanobisa pomiędzy liniami nieoplewionymi D2 Mahalanobis distances between the naked lines N1 N2 N3 N4 N5 N2 2,92 N3 2,98 1,98 N4 1,96 2,60 2,50 N5 3,74 3,39 1,87 2,98 N6 2,20 1,57 1,24 2,36 2,91 N7 2,29 3,19 2,66 1,13 3,29 N8 2,57 2,65 1,58 3,17 2,64 N9 2,43 2,31 0,97 2,54 2,39 N10 4,12 2,30 2,39 4,36 3,98 N11 3,93 4,46 4,48 5,23 6,02 N12 1,68 2,33 2,98 2,99 4,34 N 2,76 1,61 1,59 3,07 2,75 ଶ ଶ Wartości krytyczne: ܦఈୀ,ହ = 2,7, ܦఈୀ,ଵ = 3,26 ଶ ଶ Critical values: ܦఈୀ.ହ = 2.7, ܦఈୀ.ଵ = 3.26 44 N6 N7 N8 N9 N10 N11 N12 2,51 1,38 0,89 2,13 3,46 1,81 1,38 3,27 2,51 4,55 4,99 3,28 3,57 0,91 2,34 3,46 2,36 1,42 2,44 3,69 2,42 1,64 3,61 3,01 1,88 2,80 4,04 2,22 Zygmunt Kaczmarek ... Tabela 10 Odległości D2 Mahalanobisa pomiędzy liniami nieoplewionymi oraz liniami oplewionymi D2 Mahalanobis distances between the naked lines and the husked lines N1 N2 N3 N4 N5 P1 6,87 6,17 6,37 7,98 7,08 P2 5,36 5,36 6,04 6,88 7,14 P3 6,51 6,78 6,67 8,01 7,35 P4 5,20 4,87 5,19 6,47 6,00 P5 3,29 4,21 3,70 4,75 4,64 P6 6,86 6,46 6,73 8,18 7,60 P7 7,08 6,53 6,65 8,27 7,39 P8 4,43 5,18 5,34 6,13 6,23 P9 7,49 6,66 7,19 8,67 8,23 P10 7,03 6,45 6,27 8,14 7,14 P11 7,20 6,53 7,09 8,46 8,41 P12 5,84 5,14 5,34 6,89 6,02 P 6,76 5,30 5,81 7,44 6,49 ଶ ଶ Wartości krytyczne: ܦఈୀ,ହ = 2,7, ܦఈୀ,ଵ = 3,26 ଶ ଶ = 2.7, ܦఈୀ.ଵ = 3.26 Critical values: ܦఈୀ.ହ N6 6,05 5,18 6,18 4,67 3,04 6,21 6,29 4,56 6,65 5,96 6,37 5,04 5,66 N7 8,42 7,26 8,25 6,92 4,74 8,53 8,65 6,40 9,06 8,32 8,70 7,37 8,04 N8 5,36 4,88 5,27 4,06 2,15 5,56 5,56 3,92 6,23 5,16 6,10 4,37 5,29 N9 6,15 5,55 6,13 4,85 2,87 6,35 6,36 4,68 6,92 5,92 6,70 5,15 5,90 N10 4,76 4,58 5,45 3,85 3,40 5,05 5,03 4,47 5,22 4,56 5,03 3,94 4,19 N11 5,68 3,95 4,95 4,43 2,41 5,19 5,63 3,38 5,65 5,01 4,65 5,15 6,28 N12 5,74 4,05 5,59 4,11 2,69 5,65 5,95 3,52 6,10 5,88 5,68 4,80 5,64 N 5,05 4,62 5,49 3,75 3,02 5,40 5,38 4,11 5,85 5,27 5,89 3,97 4,49 Tabela 11 Odległości D2 Mahalanobisa pomiędzy liniami oplewionymi D2 Mahalanobis distances between the husked lines P1 P2 P3 P4 P5 P2 2,99 P3 2,33 2,81 P4 1,76 1,85 2,29 P5 4,59 3,62 3,69 3,23 P6 1,17 2,32 1,72 1,83 4,39 P7 0,58 3,01 1,96 1,99 4,59 P8 3,50 1,81 2,36 2,05 2,24 P9 1,75 2,71 3,05 2,60 5,29 P10 1,90 3,61 2,26 2,70 4,17 P11 2,99 2,50 3,39 3,15 4,94 P12 1,16 2,76 2,60 1,03 3,86 P 2,10 3,90 4,27 2,60 5,32 ଶ ଶ Wartości krytyczne: ܦఈୀ,ହ = 2,7, ܦఈୀ,ଵ = 3,26 ଶ ଶ Critical values: ܦఈୀ.ହ = 2.7, ܦఈୀ.ଵ = 3.26 P6 P7 P8 P9 P10 P11 P12 0,86 2,97 1,35 1,86 2,19 1,88 3,04 3,45 1,69 1,58 2,81 1,60 2,65 3,93 3,69 3,75 3,01 4,63 2,49 1,63 2,52 2,85 2,86 2,41 3,45 3,45 4,02 1,82 Obliczone odległości D2 Mahalanobisa mogą być testowane statystycznie. Stawia się hipotezę zerową, mówiącą że odległość ta jest równa zero (ܪ : ܦଶ = 0). Następnie porównuje się wyznaczoną odległość z odległością krytyczną przy założonym poziomie istotności. Jeżeli odległość wyliczona jest większa od odległości krytycznej, to hipotezę zerową odrzucamy (stwierdzamy, że odległość pomiędzy dwoma porównywanymi obiektami jest istotna). W przeciwnym przypadku — nie mamy podstaw do odrzucenia hipotezy zerowej orzekającej, że badane obiekty nie różnią się. Istnieje ścisły związek pomiędzy wynikami testowania odległości Mahalanobisa pomiędzy dwoma obiektami, a wynikiem testowania kontrastu pomiędzy tymi obiektami w wielocechowej analizie wariancji. Jeżeli wartość kontrastu była istotna statystycznie (istniała istotna wielocechowa różnica pomiędzy obiektami) to odległość Mahalanobisa 45 Zygmunt Kaczmarek ... między tymi obiektami również będzie istotna statystycznie (będzie istotnie różna od zera). Na podstawie wyznaczonych odległości Mahalanobisa można utworzyć dendrogram (zgodnie z metodyką analizy skupień), bądź też dendryt najkrótszych połączeń. Dendryt najkrótszych połączeń polega na łączeniu ze sobą tych obiektów, które ze względu na wszystkie analizowane cechy są sobie najbliższe, czyli odległość między nimi jest najmniejsza, a co za tym idzie, połączenie tych obiektów obarczone będzie najmniejszym błędem (rys. 2). Dendrogram natomiast powstaje na skutek hierarchicznego łączenia ze sobą obiektów sobie najbliższych. W wyniku takiego podejścia uzyskuje się wykres przypominający drzewo. Z dendrogramu można odczytać kolejność tworzenia się skupień. Im połączenie pomiędzy obiektami lub skupieniami jest bliższe początku wykresu tym obiekty tworzące dane skupienie są mniej zróżnicowane między sobą. Na rysunku 3 przedstawiono dendrogram uzyskany dla badanych w wielozmiennym doświadczeniu form jęczmienia jarego z wykorzystaniem metody aglomeracji średniego wiązania (UPGMA). V2 (12,5%) 2 P N5 1,5 N3 N N2 N4 N8 P4 P6 P5 N1 P9 P10 N7 1 P7 N9 N6 P1 P12 N10 P3 N12 P8 P11 P2 N11 0,5 3 3,5 4 4,5 5 V1 (75,9%) Rys. 2. Rozmieszczenie badanych linii na płaszczyźnie w układzie dwóch pierwszych zmiennych kanonicznych V1 i V2 z dendrytem najkrótszych połączeń rozpiętym na punktach opisujących linie Fig. 2. Location of the studied lines in the two dimensional space at the level of the first two canonical variables V1 and V2with the shortest dendrite connections stretched to the point describing the lines Porównując uzyskany dendryt najkrótszy (rys. 2) oraz dendrogram hierarchicznej analizy skupień (rys. 3) stwierdzono wyraźne różnice w sposobie tworzenia skupień i ich strukturze. Różnice te wynikały z różnego podejścia prezentowanych metod do sposobu i kryteriów tworzenia skupień. Do przeprowadzenia hierarchicznej analizy skupień metodą 46 Zygmunt Kaczmarek ... UPGMA wykorzystano macierz odległości D2 Mahalanobisa. Połączenia obiektów w skupienia przebiegało zgodnie z kryterium najmniejszej średniej odległości pomiędzy łączonymi obiektami lub skupieniami. Natomiast dendryt najkrótszy powstaje na skutek połączenia ze sobą obiektów, dla których błąd (wyrażony wartością statystyki F) powodowany przez ich połączenie jest najmniejszy. Obiekt; Object N N8 N10 N12 N1 N2 N6 N9 N3 N11 P5 N4 N7 N5 P P12 P4 P8 P2 P1 P6 P7 P10 P3 P11 P9 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 Rys. 3. Dendrogram uzyskany metodą UPGMA przedstawiający bliskość badanych w wielozmiennym doświadczeniu polowym nagich i oplewionych form jęczmienia jarego Fig. 3. Tree-diagram obtained by UPGMA method, showing the proximity of the naked and husked spring barley forms tested in the multivariate field experiment 4. PODSUMOWANIE Omówiony przykład pokazuje, jak wykonywać analizy wielocechowe: wielocechową analizę wariancji (MANOVA), analizę zmiennych kanonicznych oraz wielocechową ocenę podobieństwa badanych obiektów. Wymienione analizy pozwoliły wykazać występowanie różnic pomiędzy badanymi obiektami, zarówno pojedynczo, jak i pomiędzy grupami obiektów (MANOVA, analiza kontrastów), pozwoliły również na zredukowanie wielowymiarowej przestrzeni, w której były opisane badane obiekty, do przestrzeni dwuwymiarowej z niewielką stratą informacji (analiza zmiennych kanoniczych), pozwoliły wreszcie na pogrupowanie badanych obiektów i scharakteryzowanie zróżnicowania między nimi (odległość Mahalanobisa). Wielozmienna analiza wariancji często znajduje zastosowanie w badaniach wielocechowych. W literaturze można odnaleźć wiele prac, w których zastosowano tę metodę 47 Zygmunt Kaczmarek ... analizy danych doświadczalnych. Spośród prac opublikowanych w ostatnich latach można wymienić między innymi badania Crossa i Franco (2004). Pisali oni o znaczeniu MANOVA w statystycznej klasyfikacji genotypów badanych w wielozmiennych doświadczeniach hodowlanych. Możliwość wykorzystania wielozmiennej analizy wariancji w połączeniu z analizą dyskryminacyjną do wyboru form rodzicielskich w hodowli kiwi przedstawili Daoyu i Lawes (2000). Do podobnego celu zastosowali wielozmienną analizę wariancji Nyassé i in. (2002), którzy poszukiwali rodziców do hodowli odpornościowej roślin kakao. MANOVA znalazła zastosowanie w ocenie zróżnicowania w kolekcjach zasobów genowych i kolekcjach roboczych wykorzystywanych w hodowli. Ukalska i in. (2007) prowadzili badania nad zmiennością fenotypową w kolekcji zasobów genowych truskawki. Ukalska i in. (2008) badali zmienność i współzależności cech użytkowych w kolekcji roboczej pszenicy ozimej. Należy wskazać również możliwość wykorzystania tej metody w analizie kowariancji. Można tu wymienić badania Kenga i in. (2006), którzy wykorzystali wielozmienną analizę wariancji do oszacowania genotypowych i fenotypowych relacji pomiędzy składowymi plonu sorga. Takie zastosowanie MANOVA opisali również Mądry i in. (2010). LITERATURA Anderberg M.R. 1973. Cluster analysis for applications. Academic Press, New York. Caliński T. 1970. Wielozmienna analiza wariancji i pokrewne metody wielowymiarowe. PAN, Warszawa. Caliński T., Czajka S., Kaczmarek Z. 1975. Analiza składowych głównych i jej zastosowania. Algorytmy biometryczne i statystyczne (ABS-36). AR Poznań. Caliński T., Dyczkowski A., Kaczmarek Z. 1976. Testowanie hipotez w wielozmiennej analizie wariancji i kowariancji. Algorytmy biometryczne i statystyczne (ABS-45). AR Poznań. Caliński T., Kaczmarek Z. 1973. Metody kompleksowej analizy doświadczenia wielocechowego. Trzecie Colloquium Metodologiczne z Agro-Biometrii, PAN i PTB Warszawa: 257 — 320. Ceranka B., Chudzik H., Kaczmarek Z., Krzyśko M. 1975. Wielozmienna analiza wyników doświadczeń w układach blokowych. Algorytmy biometryczne i statystyczne (ABS-35). AR Poznań. Crossa J., Franco J. 2004. Statistical methods for classifying genotypes. Euphytica, 137: 19 — 37. Daoyu Z., Lawes G. S. 2000. Manova and discriminant analyses of phenotypic data as a guide for parent selection in kiwifruit (Actinidia deliciosa) breeding. Euphytica, 114: 151 — 157. Kaczmarek Z. 1975. Wielozmienna analiza kowariancji i jej niektóre zastosowania. Matematyka Stosowana 5: 139 — 156. Kaczmarek Z., Czajka S., Adamska E. 2008. Propozycja metody grupowania obiektów jednoi wielocechowych z zastosowaniem odległości Mahalanobisa i analizy skupień. Biul.IHAR 249: 9 — 18. Kaczmarek Z., Mańkowski D. R. 2011. Wprowadzenie do statystycznych analiz wielozmiennych. Część I. Podstawy teoretyczne. Biuletyn IHAR, w druku. Kenga R., Tenkouano A., Gupta S. C., Alabi S. O. 2006. Genetic and phenotypic association between yield components in hybrid sorgum (Sorgum bicolor (L.) Moench) populations. Euphytica, 150: 319 — 326. Krzyśko M. 2000. Wielowymiarowa analiza statystyczna. Uniwersytet im. A. Mickiewicza w Poznaniu. Poznań. Mądry W., Mańkowski D. R., Kaczmarek Z., Krajewski P., Studnicki M. 2010. Metody statystyczne oparte na modelach liniowych w zastosowaniach do doświadczalnictwa, genetyki i hodowli roślin. Monografie i Rozprawy Naukowe IHAR Radzików, nr 34. Morrison D. F. 1976. Multivariate statistical methods. McGraw-Hill. New York. 48 Zygmunt Kaczmarek ... Nyassé S., Despréaux D., Cilas C. Validity of a leaf inoculation test to assess the resistance to Phytophthora megakarya in a cocoa (Theobroma cacao L.) diallel mating design. Euphytica, 123: 395 — 399. SAS Institute Inc. 2009. SAS/STAT 9.2 User’s Guide, Second Edition. Cary, NC, USA: SAS Publishing, SAS Institute Inc. Seber G.A.F. 1984. Multivariate observations. Wiley. New York. Timm N. H. 2002. Applied multivariate analysis. New York, USA: Springer-Verlag Inc. Ukalska J., Mądry W., Ukalski K., Masny A. 2007. Wielowymiarowa ocena różnorodności fenotypowej w kolekcji zasobów genowych truskawki. Cz. II. Grupowanie genotypów. Zesz. Probl. Post. Nauk Rol. 517: 759 — 766. Ukalska J., Ukalski K., Śmiałowski T., Mądry W. 2008. Badanie zmienności i współzależności cech użytkowych w kolekcji roboczej pszenicy ozimej (Triticum aestivum L.) za pomocą metod wielowymiarowych. Cz. II. Analiza składowych głównych na podstawie macierzy korelacji fenotypowych i genotypowych. Biul. IHAR 249: 45 — 57. 49