Wykorzystanie wielowymiarowych metod

Transkrypt

Wykorzystanie wielowymiarowych metod
Wykorzystanie wielowymiarowych metod statystycznych
do badania bioróżnorodności jodły pospolitej Abies alba Mill
Szymon Baran, Danuta Kalemba
Robert Pietrzykowski, Wojciech Zieliński
Streszczenie
Praca dotyczy analizy chemotypów jodły pospolitej. Badanymi cechami były następujące związki chemiczne:
santen, tricyklen, α-pinen, kamfen, β-pinen, β-mircen, β-felandren, terpinolen, borneol, octan bornylu. W
wyniku zastosowania trzech metod statystycznych uzyskano potwierdzenie występowania bioróżnorodności
drzew jodły pospolitej ze względu na wybrane składniki lotne w obrębie badanej populacji. W pracy zastosowano: analizę składowych głównych, analizę skupień oraz analizę k-średnich.
1. Wstęp
Polimorfizm chemiczny to zjawisko szeroko rozpowszechnione w świecie roślin, w tym w roślinach olejkodajnych. Polega ono na występowaniu różnych składników w roślinach tego samego gatunku, a różnice mogą
dotyczyć składu ilościowego i jakościowego. Często określone chemotypy występują w różnych populacjach,
ale bywa, że w jednej populacji rośnie kilka odmian chemicznych gatunku. W badaniach bioróżnorodności
wewnątrzgatunkowej w roślinach olejkodajnych wykorzystuje się głównie analizę olejku eterycznego otrzymanego przez destylację z parą wodną surowca. W ostatnich latach ta czasochłonna metoda jest zastępowana
przez nową szybką metodę polegająca na analizie związków lotnych w fazie nadpowierzchniowej za pomocą
mikroekstrakcji do fazy stałej (HS-SPME) [Pawliszyn, 1997].
W pracy zastosowano trzy metody statystyczne: analizę składowych głównych, analizę skupień i metodę
k-średnich w celu uzyskania podziału obiektów (drzew) z jednej populacji jodły pospolitej na grupy ze
względu na skład olejku eterycznego. Następnie porównano podziały uzyskane wymienionymi metodami.
2. Materiał doświadczalny i analiza chemiczna
Materiał doświadczalny stanowiły igły jodły pospolitej Abies alba Mill. z populacji rosnącej w okolicach
Oleśnicy. Do analizy pobrano igły z jednorocznych przyrostów z dziesięciu drzew oznaczonych jako
SP1 , SP2 , SP3 , . . . , SP10 . Badanymi cechami były następujące związki chemiczne: santen, tricyklen, α-pinen,
kamfen, β-pinen, β-mircen, β-felandren , terpinolen , borneol, octan bornylu. Wyżej wymienione cechy uzyskiwano następującymi metodami:
HS-SPME: próbki igieł o masie 2 g umieszczano w 30 ml zamkniętym naczyniu, do którego wprowadzano
pokrytą adsorbentem (PDMS) igłę mikrostrzykawki. Po 30 minutach igłę przenoszono do dozownika chromatografu gazowego (GC) i chromatografu gazowego sprzężonego ze spektrometrem masowym (GC-MS),
gdzie następowała desorpcja składników i ich rozdział na kolumnie.
GC: aparat Carlo Erba Instruments MEGA 5300, detektor FID, kolumna kapilarna CP Sil 5 CB, 30 m ×
0.32 mm, grubość filmu 0.25 µm; temperatura 50-300◦ C, przyrost 4◦ C/min, temperatura dozownika 320◦ C,
temperatura detektora 310◦ C, prędkość przepływu azotu 1.0 ml/min.
GC-MS: aparat Fisons GC 8000 sprzężony z MD 800, kolumna i warunki jak w GC; gaz nośny hel, 0.8
ml/min.; energia jonizacji 70 eV, temperatura źródła jonów 200◦ C. Składniki lotne były identyfikowane przez
porównanie ich indeksów retencji i widm masowych z wzorcami, a ich względne zawartości odczytywano z
analizy GC.
3. Metody statystyczne
W pracy wykorzystano trzy wielowymiarowe metody statystyczne: analizę składowych głównych (PCA),
analizę skupień, w tym metodę k-średnich. Analiza składowych głównych jest ogólnie znaną metodą statystyczną. Jej dokładny opis można znaleźć u Krzyśki (2000), Morisona (1990) i wielu innych autorów.
Ta wielowymiarowa metoda statystyczna może służyć do redukcji danych, interpretacji zależności pomiędzy zmiennymi oraz interpretacji struktury zbioru obserwacji. Zastosowanie tej metody statystycznej można
znaleźć w wielu pracach (Pietrzykowski i in. 1999, Rezzi i in. 2001).
1
Kolejną wykorzystywaną metodą była metoda analizy skupień. W jej wyniku otrzymano podział obserwowanych obiektów na rozłączne grupy. Techniki analizy skupień można podzielić na dwie kategorie: metody
aglomeracyjne oraz podziałowe. Techniki aglomeracyjne polegają na tworzeniu grup poprzez dołączanie do
już istniejących grup kolejnych obiektów. Wynik działania tych technik prezentowany jest przeważnie w
postaci dendrogramu. Odpowiednie przecięcie gałęzi takiego dendrogramu powoduje rozpadniecie się powstałego drzewa na rozłączne grupy (Falniowski 2003). Jednym z problemów analizy skupień jest wybranie
odpowiedniej miary odległości i techniki podziału. Najogólniejszą metrykąjest metryka Minkowskiego o postaci:

1/p
m
X
dik = 
|xij − xkj | ,
j=1
gdzie p jest liczbą określającą rodzaj metryki, m jest liczbą cech, zaś xij , xkj są realizacjami j-tej cechy
odpowiednio w i-tym oraz k-tym obiekcie (Pociecha i in. 1998). Wykorzystując tą metrykę można określić
inne znane metryki: miejską (Manhattan distance, p = 1), euklidesową (Euclidean distance, p = 2) i inne.
Jeżeli chodzi o techniki podziału, to najczęściej stosowane są metody najdalszego i najbliższego sąsiedztwa.
Podział obiektów w analizie skupień jest arbitralny i nie ma jasnych wytycznych jak podzielić obserwowane
obiekty na skupienia.
Metody podziałowe polegają na dzieleniu całego zbioru obiektów zgodnie z ogólną zasadą maksymalizacji
wariancji pomiędzy poszczególnymi grupami, przy jednoczesnej minimalizacji wariancji wewnątrz badanych
grup. W wyniku stosowania metod z tej grupy jest wskazanie skupień w badanym zbiorze obiektów. Przykładem takiej techniki jest metoda k-średnich zaproponowana przez MacQueena (MacQueen 1967). W metodzie
k-średnich X1 , X2 , . . . , Xn są zaobserwowanymi obiektami p cechowymi, to znaczy Xi = (Xil , . . . , Xip ),
gdzie i = l, . . . , n. Założono, że obiekty pochodzą z pewnej nieznanej liczby k populacji. Na podstawie zebranych danych identyfikowano liczbę k oraz ”przydzielono” posiadane obiekty do poszczególnych populacji.
Jeżeli przez J = {Ii , . . . , Ik } oznaczymy podział zbioru {1, . . . , n} na k rozłącznych podzbiorów, a liczby
w zbiorze Ii będziemy traktować jako numery obserwowanych obiektów pochodzących z pierwszej populacji, liczby w zbiorze I2 jako numery obiektów z drugiej populacji, itd. Zakładając, że liczba k populacji jest
ustalona będziemy szukać ”najlepszego” podziału. Jako kryterium określenia wyboru ”najlepszego” podziału
wybrano ten podział, dla którego zróżnicowanie międzygrupowe w stosunku do zróżnicowania wewnątrzgrupowego będzie największe. Jako miernik zróżnicowania międzygrupowego przyjęto:
SAJ =
k
1 X
X̄I − X̄J 2 ,
i
k i=1
zaś miernikiem zróżnicowania wewnątrzgrupowego będzie:
SEJ =
k
1X 1 X
Xj − X̄Ii 2 ,
k i=1 ki
j∈Ij
gdzie
X̄J
k
1X
=
X̄Ii ,
k i=1
1 X
Xj ,
X̄Ii =
ki
2
kXk =
j∈Ii
p
X
Xi2 .
i=1
W efekcie za optymalny podział uznajemy ten dla którego funkcja
f (k) = max
J
SEJ
SAJ
osiąga minimum.
4. Wyniki
Analizę danych doświadczalnych rozpoczęto od metody składowych głównych. Metodę składowych głównych
stosowano w celu interpretacji zbioru danych, a nie do ograniczenia liczby zmiennych. W tabeli 1 zestawiono
2
współczynniki korelacji oraz wartości własne dla poszczególnych składowych. Jak można zauważyć do pierwszej składowej wchodzi sześć cech: z których pięć jest skorelowanych ujemnie, a szósta dodatnio. Pozostałe
cechy związane są z drugą składową. W trzeciej składowej korelacje można by uznać skorelowanie Borneolu
i Tricyklenu, ale te cechy są już związane z pierwszą i drugą składową. Skumulowany procent wyjaśnianej
zmienności przez dwie pierwsze składowe wynosi 72% co może być wystarczające dla efektywności wnioskowania (Morrison 1990). Dlatego w dalszej analizie rozważano podział zmiennych w przestrzeni dwóch
pierwszych składowych. W wyniku zastosowania metody analizy składowych głównych zaproponowano podział na cztery grupy obiektów. W pierwszej grupie znalazły się obiekty oznaczone jako: SP2 , SP9 i SP10 , w
drugiej: SP1 , SP3 , SP4 , SP5 , SP8 , a w trzeciej i czwartej grupie po jednym obiekcie oznaczonym jako: SP6
i SP7 (rysunek 1).
Tab. 1. Współczynniki korelacji i udział poszczególnych składowych wyrażony
w procentach wariancji ogólnej badanych cech uzyskanych na podstawie macierzy kowariancji.
C1
Santen
−0.8649
Tricyklen
−0.6344
α-pinens
0.5079
Kamfen
−0.8761
β-pinen
0.9286
β-Mircen
−0.2767
β-Felandren
−0.6633
Terpinolen
−0.6810
Borneol
−0.0662
Octan bornylu
−0.4552
Wartość własna
4.2302
Procent zmienności
42.30
Skumulowany procent 42.30
C2
0.0266
0.4665
0.6249
0.3739
−0.1011
−0.7932
−0.6799
−0.2082
0.7183
0.7506
2.9730
29.73
72.03
C3
−0.1355
0.5568
−0.2455
0.0721
0.0441
−0.4913
−0.2048
0.0743
−0.6105
−0.2667
1.1285
11.28
83.32
C4
−0.2979
0.1048
−0.5035
−0.0994
−0.2558
0.0056
0.1202
−0.5883
0.1254
0.2111
0.8493
8.49
91.81
C5
−0.1944
−0.2081
−0.0415
−0.2516
−0.2218
−0.1818
0.0115
0.3136
−0.1204
0.2867
0.4235
4.23
96.04
C6
−0.3004
0.0834
−0.0597
0.1020
0.0824
−0.0281
0.1234
0.1955
0.2471
−0.1314
0.2505
2.51
98.55
C7
0.1249
−0.0694
−0.1744
−0.0575
−0.0053
−0.0772
−0.1305
0.0514
0.1248
−0.0931
0.1040
1.04
99.59
C8
0.0227
−0.0608
0.0443
0.0222
−0.0581
−0.1140
0.0945
−0.0450
0.0062
−0.0721
0.0392
0.39
99.98
C9
0.0056
−0.0104
−0.0126
0.0114
0.0282
−0.0116
0.0117
−0.0006
−0.0044
0.0172
0.0018
0.02
100.00
Następnie na bazie uzyskanych informacji przeprowadzono analizę skupień trzema najczęściej stosowanymi
metodami, to znaczy: metodą najdalszego sąsiedztwa, metodą najbliższego sąsiedztwa oraz metodą średniej
arytmetycznej (rysunek 2). Jak wiadomo podział w analizie skupień, jest arbitralny i dlatego informacje
uzyskane w poprzedniej analizie o liczbie możliwych grup były tu bardzo przydatne.
Wykorzystując metodę najbliższego sąsiedztwa uzyskujemy podział na cztery skupienia, czyli taki sam jak
w analizie składowych głównych. W pozostałych dwóch zastosowanych metodach sytuacja jest podobna i w
zależności, gdzie dokonamy podziału możemy uzyskać taki podział jak zaproponowany w analizie składowych
głównych (Tabela 2). Jednak w metodzie najdalszego sąsiedztwa i metodzie średniej arytmetycznej możliwy
jest również podział, w którym dwa obiekty SP6 i SP7 są w tej samej grupie.
Tab. 2. Zestawienie podziałów uzyskanych w analizie skupień w zależności od zastosowanej metody
Metoda
Obiekty przydzielone do grup
metoda najbliższego sąsiedztwa
SP1 , SP3 , SP4 , SP5 , SP8
SP2 , SP9 , SP10
SP6
SP 7
metoda najdalszego sąsiedztwa
SP1 , SP3 , SP4 , SP5 , SP8
metoda średniej arytmetycznej
SP2 , SP9 , SP10
SP6 , SP7
Następnie w celu określenia wpływu cech na podział obiektów zastosowano metodę k-średnich. Rysunek 3
przedstawia funkcję, którą wykorzystano do określenia możliwego podziału na skupienia.
Wyniki po zastosowaniu tej metody zupełnie odbiegają od podziałów które uzyskano w poprzednich metodach ponieważ zgodnie z tą metodą powinno się wybrać taki podział w którym funkcja osiąga minimum. Dla
naszego przypadku jest to podział na dwa skupienia. W tabeli 3 zestawiono wszystkie możliwe podziały na
3
grupy z zastosowaniem metody k-średnich. Jeżeli dokonano podziału na dwie grupy jednorodne to w pierwszej grupie znalazły się obiekty: SP1 , SP2 , SP3 , SP4 , SP5 , SP8 , SP9 , natomiast w drugiej SP6 , SP7 , SP10 .
Stosując taki podział uzyskujemy zupełnie inne pogrupowanie niż w poprzednich metodach. Wybierając
jednak podział na cztery skupienia tak jak to było w poprzednich metodach uzyskujemy taki sam przydział
obiektów do grup jak w metodzie analizy skupień i metodzie składowych głównych (Tabela 3). Dlatego do
analizy wzajemnych powiązań miedzy cechami rozważano podział na cztery skupienia.
Na rysunku 4 przedstawiono średnie w czterech skupieniach ze względu na cechy powodujące ich zróżnicowanie. Jak można zauważyć przebieg krzywych na rysunku 4 wykazuje wyraźne różnice pomiędzy cechami.
Największe zróżnicowanie jest dla cechy siódmej chociaż ma ono ten sam kierunek to znaczy rośnie dla każdego skupienia. Cechy które różnicują te cztery skupienia to: β-felandren , α-pinen, kamfen, B-pinen i octan
bornylu.
SP1
SP2
SP3
SP4
SP5
SP6
SP7
SP8
SP9
SP10
Tab. 3. Zestawienie podziału na grupy metodą k-średnich
Liczba grup
2
3
4
5
6
7
1
1
4
1
1
1
1
3
2
2
2
2
1
1
4
1
1
1
1
1
4
1
5
4
1
1
4
1
5
5
2
2
1
3
6
6
2
2
3
4
3
7
1
1
4
1
1
1
1
3
2
2
2
2
2
3
2
5
4
3
8
1
2
1
4
5
6
7
8
2
3
9
1
2
1
4
5
6
7
8
9
3
5. Podsumowanie
Wykorzystując trzy metody statystyczne dokonano podziału na cztery grupy obiektów i stwierdzono, występowanie bioróżnorodności w populacji jodły pospolitej. Analiza ta wykazała, że wspólnymi cechami rozróżniającymi skupienia były zawartości związków: β-felandren, β-pinen, kamfen, β-pinen, octan bornym.
W tego typu badaniach wskazana jest kompleksowa analiza danych z zastosowaniem wszystkich trzech wielowymiarowych metod statystycznych. W tego typu pracach stosuje się zwykle jedną z trzech przedstawianych
metod statystycznych, co może prowadzić do zupełnie różnych wniosków. Wydaje się, że analizę statystyczną
należałoby rozpocząć od metody analizy składowych głównych lub analizy k-średnich w celu określenia wstępnego podziału na grupy, a dopiero na bazie tych metod zastosować metodę analizy skupień.
Literatura cytowana
Falniowski A. (2003). Metody numeryczne w taksonomii. WUJ, Kraków.
Krzyśko M. (2000). Wielowymiarowa analiza statystyczna. U AM, Poznań.
MacQueen J.B. (1967). Some Methods for Classification and Analysis of Multivariate Observations. Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability, University of California
Press, Berkeley, CA, 1, 281-297.
Morrison D. F. (1990). Wielowymiarowa analiza statystyczna. PWN, Warszawa.
Pawliszyn J. (1997). Solid Phase Microextraction. Theory and Practice. Wiley-VCH, New York.
Pietrzykowski R., Rakoczy-Trojanowska M., Zieliński W. (1999). Wykorzystanie grupowania metoda k-średnich w ocenie zmienności somaklonalnej żyta ozimego Secale Cereale L. Colloquium Biometryczne tom 29,
287-292.
Pociecha J., Podolec B., Sokołowski A., Zając K. (1988). Metody taksonomiczne w badaniach społeczno-ekonomicznych. PWN, Warszawa.
Rezzi S., Bighelli A., Mouillol D., Casanovą J. (2001). Composition and chemical variability of the needle
essential oil of Pinus nigra subsp. laricio from Corsica. Flavour Fragr. J; 16:379-383
4
Rys. 1. Podział obiektów przedstawiony w przestrzeni dwóch pierwszych składowych
5
Rys. 2. Dendrogramy uzyskane w wyniku zastosowania analizy skupień: a) metodą najbliższego sąsiedztwa,
b) metodą najdalszego sąsiedztwa c) metodą średniej arytmetycznej.
6
Rys. 3. Funkcja określająca liczbę grup w metodzie k-średnich.
Rys. 4. Średnie dla podziału na cztery grupy w metodzie k-średnich.
7