Wyznaczanie punktów charakterystycznych sygnału
Transkrypt
Wyznaczanie punktów charakterystycznych sygnału
XV KBiIB 2007 Wyznaczanie punktów charakterystycznych sygnału EKG za pomocą wnioskowania bayesowskiego i systemów rozmytych Michał Momot1, Alina Momot2, Adam Gacek1, Norbert Henzel1,3, Paweł Gibiński1 1 Instytut Techniki i Aparatury Medycznej ITAM, ul. Roosevelta 118, 41 – 800 Zabrze, 2 Politechnika Śląska, Instytut Informatyki, ul. Akademicka 16, 44 – 101 Gliwice, 3 Politechnika Śląska, Instytut Elektroniki, ul. Akademicka 16, 44 – 101 Gliwice, [email protected] Streszczenie: Przedstawiona praca opisuje bayesowskie podejście do konstrukcji klasyfikatora opartego na funkcji jądra. Funkcja klasyfikacyjna jest konstruowana z użyciem dystrybuanty standardowego rozkładu normalnego i niezależnych zmiennych gaussowskich. Parametry tych zmiennych są wyznaczane przy użyciu algorytmu iteracyjnego EM (Expectation-Maximization). Praca prezentuje zastosowanie algorytmu wyznaczania parametrów funkcji klasyfikacyjnej do modelowania systemu rozmytego Takagi-Sugeno-Kanga. Zaprezentowano również zastosowanie tego podejścia do wyznaczania punktów charakterystycznych w cyklach QRS na sygnale EKG. Praca zawiera rezultaty eksperymentów numerycznych dla danych z bazy CTS. Abstract: The paper presents application of Bayesian approach to design of kernel based classifier. The classification function is constructed using the probability distribution function of standard normal distribution and independent gaussian random variables. The parameters of such variables are computed using iterative Expectation-Maximization algorithm. The paper presents also application of algorithm of computation parameters of classification function to modeling Takagi-Sugeno-Kang fuzzy systems. Finally the application to detection of characteristic points of QRS cycles in ECG signal is presented, with the results of numerical experiment using CTS database. Słowa kluczowe: biopomiary, system rozmyty, uczenie bayesowskie, uczenie oparte na funkcji jądra, sygnał EKG 1. Wprowadzenie Detekcja punktów charakterystycznych sygnału EKG (początków i końców załamków, szczytu R oraz punktu J) stanowi integralną część niemal każdego systemu komputerowej analizy EKG. Aktualnie stosowane są między innymi następujące metody detekcji punktów charakterystycznych. Pierwsza stosowana metoda jest bezpośrednio oparta na definicji medycznej. W analizowanym sygnale poszukiwany jest punkt, w którym następuje „pierwsze odejście sygnału od linii izoelektrycznej". Moment ten jest wykrywany w miejscu przecięcia przez sygnał progu wyznaczonego na podstawie pierwiastka wartości średniokwadratowej z ustalonej liczby różnic próbek sygnału tuż przed domniemanym końcem zespołu QRS [4]. Jako początek zespołu przyjmuje się próbkę sygnału najbardziej zbliżoną do miejsca przecięcia progu. Kolejna metoda detekcji punktu charakterystycznego opiera się na wykorzystaniu pierwszej i drugiej pochodnej analizowanego sygnału [9]. Najpierw sygnał analizowany przetwarzany jest przez liniowy filtr dolnoprzepustowy. Następnie tworzona jest funkcja opisująca uzyskiwana jako liniowa kombinacja modułów pierwszej i drugiej pochodnej oryginalnego sygnału z wybranej liczby K odprowadzeń. Uzyskaną funkcję filtruje się dwukrotnie filtrem średniej ruchomej w celu jej wygładzenia. Punkt charakterystyczny wyznacza się w miejscu przecięcia funkcji z wcześniej przyjętym progiem detekcji (ustalony procent wartości maksymalnej funkcji opisującej). Podobna do powyżej przedstawionej metody jest metoda opierająca się na trzech odprowadzeniach ortogonalnych X, Y, Z, na podstawie których tworzona jest inna funkcja opisująca, która jest następnie różniczkowana i filtrowana filtrem dolnoprzepustowym. Punkt charakterystyczny wyznacza się w miejscu przecięcia funkcji z wcześniej przyjętym progiem detekcji [4]. Metoda przedstawiona w niniejszej pracy opiera się na wykorzystaniu metod uczenia nadzorowanego, a w szczególności bayesowskiego podejścia do konstrukcji funkcji klasyfikacyjnej. Metoda ta wymaga zbioru uczącego, zawierającego przebiegi sygnału EKG z zaznaczonym punktami charakterystycznymi. PDF created with pdfFactory Pro trial version www.pdffactory.com XV KBiIB 2007 2. Algorytmy klasyfikacji wykorzystujące funkcje jądra Zadanie klasyfikacji polega na znalezieniu reguły, która na podstawie charakteryzujących klasyfikowany obiekt ilościowych cech, opisywanych poprzez wektor liczb rzeczywistych ( x1 , x2 ,K, xd )T , rozpozna obiekt jako pochodzący z jednej ze skończenie wielu klas. W najprostszym przypadku rozważa się istnienie tylko dwóch klas. Z formalnego punktu widzenia polega to na wyznaczeniu funkcji f β : Χ → Υ , gdzie Χ ⊂ R d oraz Υ = {−1,+1} , na podstawie danych par obserwacji postaci ( x, t ) ∈ Χ × Υ tworzących skończony N-elementowy ciąg. Zakłada się często przy tym, że funkcja ta pochodzi z pewnej rodziny funkcji indeksowanych wektorowym parametrem β i jest postaci [2],[3]: N f β ( x) = sgn 2 Φ ∑ β i hi ( x) + β 0 − 1 i =1 gdzie funkcja Φ jest dystrybuantą standardowego rozkładu normalnego h( x) = (h1 ( x), h2 ( x),K, hN ( x)) T (1) N (0,1) , natomiast jest wektorem ustalonych funkcji bazowych. W najprostszym przypadku mają one postać iloczynów skalarnych x T xi , zatem w przestrzeni R d utworzona zostaje hiperpłaszczyzna rozdzielająca określona wzorem wT x + w0 = 0 , gdzie ∑i =1 β i x T xi + β 0 = wT x + w0 . N Dobór wartości parametrów β i odbywa się w procesie uczenia na podstawie skończonego zbioru danych wejściowych i wartości wynikowych. Celem procesu uczenia jest uzyskanie możliwie jak najmniejszej różnicy pomiędzy wartościami wynikowymi modelu a wartościami wynikowymi badanego obiektu dla przyszłych (nieznanych w procesie uczenia) danych wejściowych. Własność ta nazywana jest zdolnością uogólniania modelu i metody jego uczenia [10]. Maksymalizacja zdolności uogólniania może dokonywać się poprzez zastosowanie przekształcenia, które odwzorowuje daną przestrzeń wejściową w przestrzeń o potencjalnie bardzo wielu wymiarach, zwaną przestrzenią cech. Przestrzeń ta powinna charakteryzować się tym, że dane, które w przestrzeni wejściowej nie były separowalne liniowo, w przestrzeni cech można rozdzielić hiperpłaszczyzną. Przekształcenie to najczęściej dokonywane jest z wykorzystaniem funkcji jądra K ( x, x i ) , którą można interpretować jako miarę bliskości (podobieństwa) pomiędzy wektorem wejściowym reprezentowanym przez x a wybranym elementem xi zbioru uczącego. Jej postać analityczna jest określona poprzez przynależność do pewnej rodziny funkcji oraz wartości wektora liczbowych parametrów θ . Zadanie wyznaczenia reguły klasyfikacji zaproponowane w [5] opiera się na poszukiwaniu klasyfikatora w postaci: N P( y = 1 | x) = Φ β 0 + ∑ β i Kθ ( x, xi ) i =1 (2) dla danych par obserwacji w postaci zbioru D = {( x j , y j ) : x j ∈ R d , y j ∈ {0,1}}Nj=1 . Konsekwencją przyjętej postaci klasyfikatora jest konieczność doboru ( N + 1) -elementowego wektora parametrów β i oraz delementowego wektora parametrów θ k . W pracy [5] zaprezentowano wykorzystanie podejścia bayesowskiego do wyznaczania ocen parametrów β i , przy ustalonych wartościach parametrów funkcji jądra równych wspólnej stałej. Jako rozkład a’priori dla każdego z parametrów β i przyjęto rozkład Laplace’a, zakładając ponadto ich niezależność dla różnych wartości indeksu i . Prowadzi to do uczenia klasyfikatora postaci danej wzorem (1) poprzez dobór takich wartości tych parametrów, dla których jest osiągane maksimum prawdopodobieństwa poprawnej klasyfikacji a’posteriori. Wprowadzany jest w tym celu wektor ukrytych zmiennych z = ( z1 ,K , z N ) którego składowe są określone jako liniowe funkcje danych wejściowych [2],[3],[5], zawierające składniki losowe w postaci zmiennych losowych o rozkładach PDF created with pdfFactory Pro trial version www.pdffactory.com XV KBiIB 2007 normalnych N (0, σ j ) , niezależnych dla różnych wartości indeksu j . Optymalizacja wyboru parametrów β i odbywa się przy wykorzystaniu algorytmu EM, tzn. naprzemiennego wyznaczania wartości oczekiwanej (krok E): Q ( β | βˆ t ) = ∫ p( z | y , βˆ t ) log p ( β | z , y ) dz (3) oraz wyznaczania βˆ t +1 , które maksymalizuje wyrażenie (3) ze względu na β (krok M), gdzie górny indeks t opisuje t-ty krok iteracji [5]. 3. Modelowanie systemu rozmytego Takagi-Sugeno-Kanga Opisany wyżej algorytm wyznaczania parametrów funkcji klasyfikacyjnej można zastosować między innymi do modelowania systemów rozmytych TSK [7], [8], a mianowicie do wyznaczania współczynników w konkluzjach rozmytych reguł. Początkowa faza algorytmu polega na grupowaniu wektorów wejściowych zbioru uczącego za pomocą algorytmu rozmytych c–średnich [1], co pozwala na określenie wartości parametrów gaussowskich funkcji przynależności występujących w przesłankach rozmytych reguł. Pojedyncza reguła odpowiada jednej funkcji klasyfikacyjnej opisanej wzorem (1) natomiast wartości odchyleń standardowych σ j składników losowych można wyznaczać na podstawie wartości funkcji przynależności µ P ( i ) ( x j ) wektora wejściowego x j do zbiorów rozmytych P (i ) występujących w przesłankach odpowiednich reguł. Rozsądny wydaje się wybór funkcji, która zachowuje odwrotną proporcjonalność wartości σ j oraz wartości przynależności wektora wejściowego x j do odpowiedniego zbioru rozmytego: ( σ j = µ P(i ) ( x j ) ) −q (4) gdzie q ∈ (0,+∞ ) jest parametrem określającym wpływ wartości funkcji przynależności na wartość wariancji [6]. Warto podkreślić przy tym, że interpretacja wartości wyjściowej, z uwagi na wykorzystanie systemu TSK, jest taka sama jak w każdej z reguł opisywanych formułą (1). 4. Eksperymenty numeryczne Opisany powyżej algorytm został zastosowany do wyznaczania wybranych punktów charakterystycznych (początki i końce załamka P oraz zespołu QRS) na sygnale EKG. Idea użycia procedury klasyfikacji polega na podjęciu decyzji, czy dana próbka stanowi punkt charakterystyczny. Wektory wejściowe konstruowane są w postaci „okna czasowego” wokół rozpatrywanej próbki: x n = (u (n − M ), K , u ( n), K , u (n + M )) (5) gdzie u(n) opisuje cyfrowy sygnał EKG w pojedynczym kanale. Eksperyment został przeprowadzony przy użyciu danych pochodzących z bazy CTS [11]. Wykorzystano dane w pierwszym kanale w sygnałach: ANE20000, ANE20001, ANE20002, zakłócone szumem gaussowskim o odchyleniu standardowym równym 0.4 próbkowego odchylenia standardowego sygnału użytecznogo. Jako parametr M, decydujący o wielkości okna, przyjęto wartość 25, natomiast jako funkcję jądra przyjęto: r d K θ ( x, xi ) = 1 + ∑ θ k xi( k ) (6) k =1 dla r=1 oraz θ1 = θ 2 = K = θ d = 1 . Parametr rozkładu Laplace’a oraz parametr q zostały wyznaczone za pomocą metody rotacji zbioru uczącego. Zarówno zbiór uczący, jak i zbiór testowy stanowiły te same przebiegi sygnałów EKG zakłócone addytywnym białym szumem gaussowskim. Eksperyment polegał na przeprowadzeniu fazy uczenia na pojedynczym przebiegu zakłóconego sygnału EKG, a następnie wyznaczeniu punktów charakterystycznych na tym samym przebiegu zakłóconym szumem niezależnym względem szumu występującego w przebiegu uczącym. Dla pojedynczego przebiegu sygnału EKG eksperyment był powtarzany 200 razy, a jego wyniki były uśredniane. Skuteczność PDF created with pdfFactory Pro trial version www.pdffactory.com XV KBiIB 2007 algorytmu detekcji punktów charakterystycznych została empirycznie oceniona poprzez wyznaczone uśrednione czasy trwania odpowiednio załamka P oraz zespołu QRS, na podstawie położeń ich początków i końców, wykrytych na zbiorach testowych, co przedstawia Tabela 1. Tabela 1: Wyniki eksperymentów ANE20000 ANE20001 ANE20002 wartość referencyjna wartość zmierzona wartość referencyjna wartość zmierzona wartość referencyjna wartość zmierzona czas trwania załamka P [ms] 126.0 107.8 142.0 117.4 102.0 97.2 czas trwania zespołu QRS [ms] 94.0 98.4 94.0 98.2 94.0 100.8 5. Podsumowanie Wyniki przeprowadzonych eksperymentów numerycznych świadczą o tym, że proponowany algorytm, charakteryzuje dobrą skutecznością detekcji punktów charakterystycznych, gdyż wartości zmierzone są zbliżone do wartości referencyjnych. Wydaje się wskazane w dalszej perspektywie przeprowadzenie eksperymentów mających na celu porównanie skuteczności algorytmu przy zastosowaniu różnych funkcji jądra. Interesujące byłoby zbadanie wpływu wartości parametru M (decydującego o wymiarze wektora wejściowego) na skuteczność algorytmu, jak również jego odporność na zakłócenia różnych typów (w tym między innymi zakłócenia impulsowe). Praca powstała w ramach projektu badawczego „Wiarygodne metody wyznaczania punktów charakterystycznych sygnału EKG w trakcie elektrokardiograficznej próby wysiłkowej” (1603/T11/2005/29). 6. Literatura [1] Bezdek J.C.: Pattern Recognition with Fuzzy Objective Function Algorithms. Plenum Press, New York, 1982. [2] Figueiredo M., Adaptive Sparseness for Supervised Learning, IEEE Trans. Pattern Analysis and Machine Intelligence, 25 (9), 1150-1159, 2003. [3] Figueiredo M., Jain A.K., Bayesian Learning of Sparse Classifiers, Proc. of IEEE Computer Society Conference on Computer Vision and Pattern Recognition - CVPR'2001, Hawaii, 2001. [4] Frankiewicz Z., Metody analizy sygnału EKG w obecności zakłóceń; Rozprawa Doktorska, Politechnika Śląska w Gliwicach, 1987. [5] Momot M., Momot A., Bayesowskie podejście do klasyfikacji danych z wykorzystaniem funkcji jądra; Bazy danych: struktury, algorytmy, metody, 383-389, 2006. [6] Momot A., Momot M., Łęski J., The Fuzzy Relevance Vector Machine and Its Application to Noise Reduction in ECG Signal; Journal of Medical Informatics and Technologies, 9, 99-106, 2005. [7] Sugeno M., Kang G.T., Structure identification of fuzzy model, Fuzzy Sets and Systems, 28, 15-33, 1988. [8] Takagi T., Sugeno M., Fuzzy identification of systems and its application to modeling and control, IEEE Trans. on System, Man and Cybernetics, 15 (1), 116-132, 1985. [9] Thakor N.V., Webster J.G., Tompkins W.J., Estimation of QRS complex power spectra for design of a QRS filter; IEEE Transaction on Biomedical Engineering, 11, 702-706, 1984. [10] Vapnik V.N., The nature of statistical learning theory, Springer, New York, 1995. [11] International Electrotechnical Commission Standard 60601-3-2, 1999. PDF created with pdfFactory Pro trial version www.pdffactory.com