Porównanie efektywności wybranych klasyfikatorów liniowych i
Transkrypt
Porównanie efektywności wybranych klasyfikatorów liniowych i
Porównanie efektywności wybranych klasyfikatorów liniowych i nieliniowych w analizie danych matrycy czujnikowej Wojciech Jankowski Kierujący pracą dyplomową: dr inż. Patrycja Ciosek Opiekun naukowy: mgr inż. Anna Kutyła Wstęp Analiza chemometryczna danych wykorzystywana jest do pozyskiwania użytecznych informacji z obszernych, wielowymiarowych danych. Do jej zastosowań można zaliczyć analizę podobieństwa i klasyfikację obiektów. Metody wykorzystywane w chemometrii to m.in.: Analiza Głównych Składowych (PCA), Regresja metodą Cząstkowych Najmniejszych Kwadratów (PLS), algorytm K-Najbliższych Sąsiadów (KNN) oraz sieci neuronowe różnego rodzaju: Sieci Neuronowe ze Wsteczną Propagacją Błędu (BPNN), Samoorganizujące Sieci Neuronowe (SOM) czy Sieci Neuronowe wykorzystujące Kwantowanie Wektorowe (LVQ). Systemem, w którym wykorzystuje się chemometryczną analizę danych jest tzw. elektroniczny język - jest to urządzenie, które umożliwia klasyfikację próbek ciekłych na podstawie ich obrazu chemicznego. Zawiera on matrycę sensorów chemicznych oraz Blok Rozpoznawania Obrazu (PARC). Matryca sensorów odpowiedzialna jest za pozyskiwanie informacji o składzie próbki natomiast PARC przetwarza dane i umożliwia klasyfikację próbki. Analiza chemometryczna stosowana jest w bloku rozpoznawania obrazu elektronicznego języka do obróbki danych, a następnie klasyfikacji. Wyniki W ramach pracy dyplomowej wykonano analizę statystyczną i chemometryczną wyników pomiarów uzyskanych za pomocą matrycy sensorów potencjometrycznych. Przeprowadzono pomiary dla różnych produktów zawierających pomidory: soków, zup, pomidorów świeżych i pomidorów z puszki. Aby zbadać jakość otrzymanych danych wyznaczono średnią i odchylenie standardowe z ostatnich 10 wskazań elektrod jonoselektywnych wykorzystanych w trakcie eksperymentu. Analiza chemometryczna obejmowała dwa etapy: analizę struktury danych oraz stworzenie modelu klasyfikatora. W pierwszym etapie wykorzystano techniki PCA, PLS oraz SOM. Podczas drugiej części analizy przetestowano różne klasyfikatory liniowe i nieliniowe: PLS, liniowe sieci neuronowe, BPNN, LVQ, KNN, oraz porównano ich efektywność w klasyfikacji próbek. Wnioski Analiza struktury danych umożliwiła zaobserwowanie skupień tworzonych przez próbki o podobnych cechach. Dzięki temu możliwe było wizualne rozróżnienie próbek ze względu na typ produktu, a także w dwóch przypadkach, rozróżnienie marek produktów. Porównanie klasyfikatorów wykazało, że do problemów liniowo separowalnych najlepsze są klasyfikatory liniowe, ze względu na dobrą skuteczność i prostotę obliczeniową. W przypadku problemów nieliniowych najlepsze zdolności klasyfikacyjne wykazuje BPNN. Bardzo dobrym klasyfikatorem jest również model wykorzystujący KNN. Uzyskano dla niego bardzo dobre wyniki we wszystkich rozpatrywanych przypadkach bez konieczności przeprowadzania skomplikowanych procedur obliczeniowych.