Porównanie efektywności wybranych klasyfikatorów liniowych i

Transkrypt

Porównanie efektywności wybranych klasyfikatorów liniowych i
Porównanie efektywności wybranych klasyfikatorów liniowych
i nieliniowych w analizie danych matrycy czujnikowej
Wojciech Jankowski
Kierujący pracą dyplomową: dr inż. Patrycja Ciosek
Opiekun naukowy: mgr inż. Anna Kutyła
Wstęp
Analiza chemometryczna danych wykorzystywana jest do pozyskiwania użytecznych
informacji z obszernych, wielowymiarowych danych. Do jej zastosowań można zaliczyć analizę
podobieństwa i klasyfikację obiektów. Metody wykorzystywane w chemometrii to m.in.: Analiza
Głównych Składowych (PCA), Regresja metodą Cząstkowych Najmniejszych Kwadratów (PLS),
algorytm K-Najbliższych Sąsiadów (KNN) oraz sieci neuronowe różnego rodzaju: Sieci
Neuronowe ze Wsteczną Propagacją Błędu (BPNN), Samoorganizujące Sieci Neuronowe (SOM)
czy Sieci Neuronowe wykorzystujące Kwantowanie Wektorowe (LVQ).
Systemem, w którym wykorzystuje się chemometryczną analizę danych jest tzw.
elektroniczny język - jest to urządzenie, które umożliwia klasyfikację próbek ciekłych na podstawie
ich obrazu chemicznego. Zawiera on matrycę sensorów chemicznych oraz Blok Rozpoznawania
Obrazu (PARC). Matryca sensorów odpowiedzialna jest za pozyskiwanie informacji o składzie
próbki natomiast PARC przetwarza dane i umożliwia klasyfikację próbki. Analiza chemometryczna
stosowana jest w bloku rozpoznawania obrazu elektronicznego języka do obróbki danych, a
następnie klasyfikacji.
Wyniki
W ramach pracy dyplomowej wykonano analizę statystyczną i chemometryczną wyników
pomiarów uzyskanych za pomocą matrycy sensorów potencjometrycznych. Przeprowadzono
pomiary dla różnych produktów zawierających pomidory: soków, zup, pomidorów świeżych i
pomidorów z puszki. Aby zbadać jakość otrzymanych danych wyznaczono średnią i odchylenie
standardowe z ostatnich 10 wskazań elektrod jonoselektywnych wykorzystanych w trakcie
eksperymentu.
Analiza chemometryczna obejmowała dwa etapy: analizę struktury danych oraz stworzenie
modelu klasyfikatora. W pierwszym etapie wykorzystano techniki PCA, PLS oraz SOM. Podczas
drugiej części analizy przetestowano różne klasyfikatory liniowe i nieliniowe: PLS, liniowe sieci
neuronowe, BPNN, LVQ, KNN, oraz porównano ich efektywność w klasyfikacji próbek.
Wnioski
Analiza struktury danych umożliwiła zaobserwowanie skupień tworzonych przez próbki o
podobnych cechach. Dzięki temu możliwe było wizualne rozróżnienie próbek ze względu na typ
produktu, a także w dwóch przypadkach, rozróżnienie marek produktów. Porównanie
klasyfikatorów wykazało, że do problemów liniowo separowalnych najlepsze są klasyfikatory
liniowe, ze względu na dobrą skuteczność i prostotę obliczeniową. W przypadku problemów
nieliniowych najlepsze zdolności klasyfikacyjne wykazuje BPNN. Bardzo dobrym klasyfikatorem
jest również model wykorzystujący KNN. Uzyskano dla niego bardzo dobre wyniki we wszystkich
rozpatrywanych przypadkach bez konieczności przeprowadzania skomplikowanych procedur
obliczeniowych.