Wykorzystanie wielowymiarowych metod
Transkrypt
Wykorzystanie wielowymiarowych metod
Wykorzystanie wielowymiarowych metod statystycznych do badania bioróżnorodności jodły pospolitej Abies alba Mill Szymon Baran, Danuta Kalemba Robert Pietrzykowski, Wojciech Zieliński Streszczenie Praca dotyczy analizy chemotypów jodły pospolitej. Badanymi cechami były następujące związki chemiczne: santen, tricyklen, α-pinen, kamfen, β-pinen, β-mircen, β-felandren, terpinolen, borneol, octan bornylu. W wyniku zastosowania trzech metod statystycznych uzyskano potwierdzenie występowania bioróżnorodności drzew jodły pospolitej ze względu na wybrane składniki lotne w obrębie badanej populacji. W pracy zastosowano: analizę składowych głównych, analizę skupień oraz analizę k-średnich. 1. Wstęp Polimorfizm chemiczny to zjawisko szeroko rozpowszechnione w świecie roślin, w tym w roślinach olejkodajnych. Polega ono na występowaniu różnych składników w roślinach tego samego gatunku, a różnice mogą dotyczyć składu ilościowego i jakościowego. Często określone chemotypy występują w różnych populacjach, ale bywa, że w jednej populacji rośnie kilka odmian chemicznych gatunku. W badaniach bioróżnorodności wewnątrzgatunkowej w roślinach olejkodajnych wykorzystuje się głównie analizę olejku eterycznego otrzymanego przez destylację z parą wodną surowca. W ostatnich latach ta czasochłonna metoda jest zastępowana przez nową szybką metodę polegająca na analizie związków lotnych w fazie nadpowierzchniowej za pomocą mikroekstrakcji do fazy stałej (HS-SPME) [Pawliszyn, 1997]. W pracy zastosowano trzy metody statystyczne: analizę składowych głównych, analizę skupień i metodę k-średnich w celu uzyskania podziału obiektów (drzew) z jednej populacji jodły pospolitej na grupy ze względu na skład olejku eterycznego. Następnie porównano podziały uzyskane wymienionymi metodami. 2. Materiał doświadczalny i analiza chemiczna Materiał doświadczalny stanowiły igły jodły pospolitej Abies alba Mill. z populacji rosnącej w okolicach Oleśnicy. Do analizy pobrano igły z jednorocznych przyrostów z dziesięciu drzew oznaczonych jako SP1 , SP2 , SP3 , . . . , SP10 . Badanymi cechami były następujące związki chemiczne: santen, tricyklen, α-pinen, kamfen, β-pinen, β-mircen, β-felandren , terpinolen , borneol, octan bornylu. Wyżej wymienione cechy uzyskiwano następującymi metodami: HS-SPME: próbki igieł o masie 2 g umieszczano w 30 ml zamkniętym naczyniu, do którego wprowadzano pokrytą adsorbentem (PDMS) igłę mikrostrzykawki. Po 30 minutach igłę przenoszono do dozownika chromatografu gazowego (GC) i chromatografu gazowego sprzężonego ze spektrometrem masowym (GC-MS), gdzie następowała desorpcja składników i ich rozdział na kolumnie. GC: aparat Carlo Erba Instruments MEGA 5300, detektor FID, kolumna kapilarna CP Sil 5 CB, 30 m × 0.32 mm, grubość filmu 0.25 µm; temperatura 50-300◦ C, przyrost 4◦ C/min, temperatura dozownika 320◦ C, temperatura detektora 310◦ C, prędkość przepływu azotu 1.0 ml/min. GC-MS: aparat Fisons GC 8000 sprzężony z MD 800, kolumna i warunki jak w GC; gaz nośny hel, 0.8 ml/min.; energia jonizacji 70 eV, temperatura źródła jonów 200◦ C. Składniki lotne były identyfikowane przez porównanie ich indeksów retencji i widm masowych z wzorcami, a ich względne zawartości odczytywano z analizy GC. 3. Metody statystyczne W pracy wykorzystano trzy wielowymiarowe metody statystyczne: analizę składowych głównych (PCA), analizę skupień, w tym metodę k-średnich. Analiza składowych głównych jest ogólnie znaną metodą statystyczną. Jej dokładny opis można znaleźć u Krzyśki (2000), Morisona (1990) i wielu innych autorów. Ta wielowymiarowa metoda statystyczna może służyć do redukcji danych, interpretacji zależności pomiędzy zmiennymi oraz interpretacji struktury zbioru obserwacji. Zastosowanie tej metody statystycznej można znaleźć w wielu pracach (Pietrzykowski i in. 1999, Rezzi i in. 2001). 1 Kolejną wykorzystywaną metodą była metoda analizy skupień. W jej wyniku otrzymano podział obserwowanych obiektów na rozłączne grupy. Techniki analizy skupień można podzielić na dwie kategorie: metody aglomeracyjne oraz podziałowe. Techniki aglomeracyjne polegają na tworzeniu grup poprzez dołączanie do już istniejących grup kolejnych obiektów. Wynik działania tych technik prezentowany jest przeważnie w postaci dendrogramu. Odpowiednie przecięcie gałęzi takiego dendrogramu powoduje rozpadniecie się powstałego drzewa na rozłączne grupy (Falniowski 2003). Jednym z problemów analizy skupień jest wybranie odpowiedniej miary odległości i techniki podziału. Najogólniejszą metrykąjest metryka Minkowskiego o postaci: 1/p m X dik = |xij − xkj | , j=1 gdzie p jest liczbą określającą rodzaj metryki, m jest liczbą cech, zaś xij , xkj są realizacjami j-tej cechy odpowiednio w i-tym oraz k-tym obiekcie (Pociecha i in. 1998). Wykorzystując tą metrykę można określić inne znane metryki: miejską (Manhattan distance, p = 1), euklidesową (Euclidean distance, p = 2) i inne. Jeżeli chodzi o techniki podziału, to najczęściej stosowane są metody najdalszego i najbliższego sąsiedztwa. Podział obiektów w analizie skupień jest arbitralny i nie ma jasnych wytycznych jak podzielić obserwowane obiekty na skupienia. Metody podziałowe polegają na dzieleniu całego zbioru obiektów zgodnie z ogólną zasadą maksymalizacji wariancji pomiędzy poszczególnymi grupami, przy jednoczesnej minimalizacji wariancji wewnątrz badanych grup. W wyniku stosowania metod z tej grupy jest wskazanie skupień w badanym zbiorze obiektów. Przykładem takiej techniki jest metoda k-średnich zaproponowana przez MacQueena (MacQueen 1967). W metodzie k-średnich X1 , X2 , . . . , Xn są zaobserwowanymi obiektami p cechowymi, to znaczy Xi = (Xil , . . . , Xip ), gdzie i = l, . . . , n. Założono, że obiekty pochodzą z pewnej nieznanej liczby k populacji. Na podstawie zebranych danych identyfikowano liczbę k oraz ”przydzielono” posiadane obiekty do poszczególnych populacji. Jeżeli przez J = {Ii , . . . , Ik } oznaczymy podział zbioru {1, . . . , n} na k rozłącznych podzbiorów, a liczby w zbiorze Ii będziemy traktować jako numery obserwowanych obiektów pochodzących z pierwszej populacji, liczby w zbiorze I2 jako numery obiektów z drugiej populacji, itd. Zakładając, że liczba k populacji jest ustalona będziemy szukać ”najlepszego” podziału. Jako kryterium określenia wyboru ”najlepszego” podziału wybrano ten podział, dla którego zróżnicowanie międzygrupowe w stosunku do zróżnicowania wewnątrzgrupowego będzie największe. Jako miernik zróżnicowania międzygrupowego przyjęto: SAJ = k 1 X X̄I − X̄J 2 , i k i=1 zaś miernikiem zróżnicowania wewnątrzgrupowego będzie: SEJ = k 1X 1 X Xj − X̄Ii 2 , k i=1 ki j∈Ij gdzie X̄J k 1X = X̄Ii , k i=1 1 X Xj , X̄Ii = ki 2 kXk = j∈Ii p X Xi2 . i=1 W efekcie za optymalny podział uznajemy ten dla którego funkcja f (k) = max J SEJ SAJ osiąga minimum. 4. Wyniki Analizę danych doświadczalnych rozpoczęto od metody składowych głównych. Metodę składowych głównych stosowano w celu interpretacji zbioru danych, a nie do ograniczenia liczby zmiennych. W tabeli 1 zestawiono 2 współczynniki korelacji oraz wartości własne dla poszczególnych składowych. Jak można zauważyć do pierwszej składowej wchodzi sześć cech: z których pięć jest skorelowanych ujemnie, a szósta dodatnio. Pozostałe cechy związane są z drugą składową. W trzeciej składowej korelacje można by uznać skorelowanie Borneolu i Tricyklenu, ale te cechy są już związane z pierwszą i drugą składową. Skumulowany procent wyjaśnianej zmienności przez dwie pierwsze składowe wynosi 72% co może być wystarczające dla efektywności wnioskowania (Morrison 1990). Dlatego w dalszej analizie rozważano podział zmiennych w przestrzeni dwóch pierwszych składowych. W wyniku zastosowania metody analizy składowych głównych zaproponowano podział na cztery grupy obiektów. W pierwszej grupie znalazły się obiekty oznaczone jako: SP2 , SP9 i SP10 , w drugiej: SP1 , SP3 , SP4 , SP5 , SP8 , a w trzeciej i czwartej grupie po jednym obiekcie oznaczonym jako: SP6 i SP7 (rysunek 1). Tab. 1. Współczynniki korelacji i udział poszczególnych składowych wyrażony w procentach wariancji ogólnej badanych cech uzyskanych na podstawie macierzy kowariancji. C1 Santen −0.8649 Tricyklen −0.6344 α-pinens 0.5079 Kamfen −0.8761 β-pinen 0.9286 β-Mircen −0.2767 β-Felandren −0.6633 Terpinolen −0.6810 Borneol −0.0662 Octan bornylu −0.4552 Wartość własna 4.2302 Procent zmienności 42.30 Skumulowany procent 42.30 C2 0.0266 0.4665 0.6249 0.3739 −0.1011 −0.7932 −0.6799 −0.2082 0.7183 0.7506 2.9730 29.73 72.03 C3 −0.1355 0.5568 −0.2455 0.0721 0.0441 −0.4913 −0.2048 0.0743 −0.6105 −0.2667 1.1285 11.28 83.32 C4 −0.2979 0.1048 −0.5035 −0.0994 −0.2558 0.0056 0.1202 −0.5883 0.1254 0.2111 0.8493 8.49 91.81 C5 −0.1944 −0.2081 −0.0415 −0.2516 −0.2218 −0.1818 0.0115 0.3136 −0.1204 0.2867 0.4235 4.23 96.04 C6 −0.3004 0.0834 −0.0597 0.1020 0.0824 −0.0281 0.1234 0.1955 0.2471 −0.1314 0.2505 2.51 98.55 C7 0.1249 −0.0694 −0.1744 −0.0575 −0.0053 −0.0772 −0.1305 0.0514 0.1248 −0.0931 0.1040 1.04 99.59 C8 0.0227 −0.0608 0.0443 0.0222 −0.0581 −0.1140 0.0945 −0.0450 0.0062 −0.0721 0.0392 0.39 99.98 C9 0.0056 −0.0104 −0.0126 0.0114 0.0282 −0.0116 0.0117 −0.0006 −0.0044 0.0172 0.0018 0.02 100.00 Następnie na bazie uzyskanych informacji przeprowadzono analizę skupień trzema najczęściej stosowanymi metodami, to znaczy: metodą najdalszego sąsiedztwa, metodą najbliższego sąsiedztwa oraz metodą średniej arytmetycznej (rysunek 2). Jak wiadomo podział w analizie skupień, jest arbitralny i dlatego informacje uzyskane w poprzedniej analizie o liczbie możliwych grup były tu bardzo przydatne. Wykorzystując metodę najbliższego sąsiedztwa uzyskujemy podział na cztery skupienia, czyli taki sam jak w analizie składowych głównych. W pozostałych dwóch zastosowanych metodach sytuacja jest podobna i w zależności, gdzie dokonamy podziału możemy uzyskać taki podział jak zaproponowany w analizie składowych głównych (Tabela 2). Jednak w metodzie najdalszego sąsiedztwa i metodzie średniej arytmetycznej możliwy jest również podział, w którym dwa obiekty SP6 i SP7 są w tej samej grupie. Tab. 2. Zestawienie podziałów uzyskanych w analizie skupień w zależności od zastosowanej metody Metoda Obiekty przydzielone do grup metoda najbliższego sąsiedztwa SP1 , SP3 , SP4 , SP5 , SP8 SP2 , SP9 , SP10 SP6 SP 7 metoda najdalszego sąsiedztwa SP1 , SP3 , SP4 , SP5 , SP8 metoda średniej arytmetycznej SP2 , SP9 , SP10 SP6 , SP7 Następnie w celu określenia wpływu cech na podział obiektów zastosowano metodę k-średnich. Rysunek 3 przedstawia funkcję, którą wykorzystano do określenia możliwego podziału na skupienia. Wyniki po zastosowaniu tej metody zupełnie odbiegają od podziałów które uzyskano w poprzednich metodach ponieważ zgodnie z tą metodą powinno się wybrać taki podział w którym funkcja osiąga minimum. Dla naszego przypadku jest to podział na dwa skupienia. W tabeli 3 zestawiono wszystkie możliwe podziały na 3 grupy z zastosowaniem metody k-średnich. Jeżeli dokonano podziału na dwie grupy jednorodne to w pierwszej grupie znalazły się obiekty: SP1 , SP2 , SP3 , SP4 , SP5 , SP8 , SP9 , natomiast w drugiej SP6 , SP7 , SP10 . Stosując taki podział uzyskujemy zupełnie inne pogrupowanie niż w poprzednich metodach. Wybierając jednak podział na cztery skupienia tak jak to było w poprzednich metodach uzyskujemy taki sam przydział obiektów do grup jak w metodzie analizy skupień i metodzie składowych głównych (Tabela 3). Dlatego do analizy wzajemnych powiązań miedzy cechami rozważano podział na cztery skupienia. Na rysunku 4 przedstawiono średnie w czterech skupieniach ze względu na cechy powodujące ich zróżnicowanie. Jak można zauważyć przebieg krzywych na rysunku 4 wykazuje wyraźne różnice pomiędzy cechami. Największe zróżnicowanie jest dla cechy siódmej chociaż ma ono ten sam kierunek to znaczy rośnie dla każdego skupienia. Cechy które różnicują te cztery skupienia to: β-felandren , α-pinen, kamfen, B-pinen i octan bornylu. SP1 SP2 SP3 SP4 SP5 SP6 SP7 SP8 SP9 SP10 Tab. 3. Zestawienie podziału na grupy metodą k-średnich Liczba grup 2 3 4 5 6 7 1 1 4 1 1 1 1 3 2 2 2 2 1 1 4 1 1 1 1 1 4 1 5 4 1 1 4 1 5 5 2 2 1 3 6 6 2 2 3 4 3 7 1 1 4 1 1 1 1 3 2 2 2 2 2 3 2 5 4 3 8 1 2 1 4 5 6 7 8 2 3 9 1 2 1 4 5 6 7 8 9 3 5. Podsumowanie Wykorzystując trzy metody statystyczne dokonano podziału na cztery grupy obiektów i stwierdzono, występowanie bioróżnorodności w populacji jodły pospolitej. Analiza ta wykazała, że wspólnymi cechami rozróżniającymi skupienia były zawartości związków: β-felandren, β-pinen, kamfen, β-pinen, octan bornym. W tego typu badaniach wskazana jest kompleksowa analiza danych z zastosowaniem wszystkich trzech wielowymiarowych metod statystycznych. W tego typu pracach stosuje się zwykle jedną z trzech przedstawianych metod statystycznych, co może prowadzić do zupełnie różnych wniosków. Wydaje się, że analizę statystyczną należałoby rozpocząć od metody analizy składowych głównych lub analizy k-średnich w celu określenia wstępnego podziału na grupy, a dopiero na bazie tych metod zastosować metodę analizy skupień. Literatura cytowana Falniowski A. (2003). Metody numeryczne w taksonomii. WUJ, Kraków. Krzyśko M. (2000). Wielowymiarowa analiza statystyczna. U AM, Poznań. MacQueen J.B. (1967). Some Methods for Classification and Analysis of Multivariate Observations. Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability, University of California Press, Berkeley, CA, 1, 281-297. Morrison D. F. (1990). Wielowymiarowa analiza statystyczna. PWN, Warszawa. Pawliszyn J. (1997). Solid Phase Microextraction. Theory and Practice. Wiley-VCH, New York. Pietrzykowski R., Rakoczy-Trojanowska M., Zieliński W. (1999). Wykorzystanie grupowania metoda k-średnich w ocenie zmienności somaklonalnej żyta ozimego Secale Cereale L. Colloquium Biometryczne tom 29, 287-292. Pociecha J., Podolec B., Sokołowski A., Zając K. (1988). Metody taksonomiczne w badaniach społeczno-ekonomicznych. PWN, Warszawa. Rezzi S., Bighelli A., Mouillol D., Casanovą J. (2001). Composition and chemical variability of the needle essential oil of Pinus nigra subsp. laricio from Corsica. Flavour Fragr. J; 16:379-383 4 Rys. 1. Podział obiektów przedstawiony w przestrzeni dwóch pierwszych składowych 5 Rys. 2. Dendrogramy uzyskane w wyniku zastosowania analizy skupień: a) metodą najbliższego sąsiedztwa, b) metodą najdalszego sąsiedztwa c) metodą średniej arytmetycznej. 6 Rys. 3. Funkcja określająca liczbę grup w metodzie k-średnich. Rys. 4. Średnie dla podziału na cztery grupy w metodzie k-średnich. 7