algorytmy aproksymacyjnego programowania dynamicznego w
Transkrypt
algorytmy aproksymacyjnego programowania dynamicznego w
MODELOWANIE INŻYNIERSKIE nr 51, ISSN 1896-771X ALGORYTMY APROKSYMACYJNEGO PROGRAMOWANIA DYNAMICZNEGO W GENEROWANIU I REALIZACJI TRAJEKTORII RUCHU ROBOTA MOBILNEGO PIONEER 2-DX Marcin Szuster1a 1 a Katedra Mechaniki Stosowanej i Robotyki, Politechnika Rzeszowska [email protected] Streszczenie W pracy przedstawiono nowe podejście do generowania i realizacji ruchu mobilnego robota kołowego z zastosowaniem algorytmów aproksymacyjnego programowania dynamicznego (APD). Zaproponowano hierarchiczny układ sterowania ruchem robota w nieznanym środowisku ze statycznymi przeszkodami, składający się z warstwy generowania trajektorii oraz warstwy realizacji ruchu. W warstwie generowania trajektorii zrealizowano dwa podstawowe zadania: „podążaj do celu”, oraz „omijaj przeszkody”, stosując algorytmy APD w konfiguracji zależnego od sterowania heurystycznego programowania dynamicznego. Wygenerowana trajektoria ruchu jest realizowana przez układ sterowania ruchem nadążnym, w którym zastosowano algorytm dualnego heurystycznego programowania dynamicznego. Weryfikację algorytmu sterowania przeprowadzono z zastosowaniem robota Pioneer 2-DX. Słowa kluczowe: aproksymacyjne programowanie dynamiczne, mobilny robot kołowy, sieci neuronowe, sterowanie behawioralne, sterowanie nadążne. APPROXIMATE DYNAMIC PROGRAMMING ALGORITHMS IN GENERATING AND REALISATION OF THE WHEELED MOBILE ROBOT PIONEER 2-DX TRAJECTORY Summary In the article a new approach to generating and realisation of the trajectory of the Wheeled Mobile Robot is presented. In this approach Approximate Dynamic Programming (APD) algorithms were used. The hierarchical control system of the WMR movement in the unknown environment with static obstacles was proposed. It consists of two layers: the trajectory generating layer and the tracking control layer. In the trajectory generating layer two basic tasks: the goal seeking task and the obstacle avoiding task, were realised. APD algorithms in the Action Dependant Heuristic Dynamic Programming configuration were used. Using the tracking control system the trajectory is realised. In the tracking control system APD algorithm in the Dual Heuristic Dynamic Programming configuration was used. Using the WMR Pioneer 2-DX verification of the proposed hierarchical control system was performed. Keywords: approximate dynamic programming, behavioral control, neural networks, wheeled mobile robot, tracking control. 100 Marcin Szuster 1. WSTĘP Generowanie w czasie rzeczywistym trajektorii ruchu mobilnego robota kołowego (MRK), z jej jednoczesną realizacją, jest złożonym problemem wymagającym zastosowania odpowiednich algorytmów sterowania [1,2,3,4,7,12,13], korzystających z informacji z układu sensorycznego robota. Zazwyczaj problem ten dekomponuje się na dwa zadania realizowane przez dedykowane algorytmy, tworzące warstwy układu sterowania, z których jedna pełni rolę nadrzędną w stosunku do drugiej. Warstwa planowania trajektorii ruchu na podstawie informacji o stanie otoczenia robota generuje trajektorię ruchu, która jest realizowana przez warstwę sterowania ruchem nadążnym. Zadaniem tej warstwy jest wygenerowanie sygnałów sterowania silnikami, zapewniających realizację zadanej trajektorii z minimalnymi wartościami błędów nadążania. Takie podejście do problemu generowania trajektorii jest charakterystyczne dla tzw. metod lokalnych planowania trajektorii, w których proces generowania trajektorii ruchu odbywa się na podstawie ograniczonej wiedzy o stanie otoczenia robota, dostarczanej przez układ sensoryczny. Drugim typem metod generowania trajektorii ruchu MRK są tzw. metody globalne, które umożliwiają wyznaczanie trajektorii ruchu robota na podstawie znajomości mapy otoczenia. W przypadku tych metod proces generowania trajektorii może się odbywać off-line, jednak ich wadą jest brak możliwości zastosowania w zadaniu planowania trajektorii ruchu w nieznanym środowisku. Wady tej pozbawione są metody lokalne, umożliwiające jednoczesne generowanie i realizację trajektorii, na podstawie informacji z układu sensorycznego. Przykładami takich metod są algorytmy sterowania behawioralnego, których idea wywodzi się z obserwacji świata zwierząt. Polegają one na realizacji elementarnych zadań typu „podążaj do celu” (GS, ang. Goal Seeking), czy „omijaj przeszkody” (OA, ang. Obstacle Avoiding) przez robot. Pierwsze z zadań polega na wygenerowania sterowania behawioralnego, które umożliwia wyznaczenie zadanych parametrów ruchu kół MRK, których realizacja powoduje przemieszczenie MRK z położenia początkowego, do zadanego celu we współrzędnych mapy, przy czym lokalizacje przeszkód nie są brane pod uwagę. W zadaniu typu OA, na podstawie pomiarów układu sensorycznego MRK, generowana jest bezkolizyjna trajektoria ruchu robota. Realizując trajektorię MRK, zajmuje środek dostępnej wolnej przestrzeni, przy czym nie jest możliwe zadanie celu ruchu. Realizacja tak skomplikowanych zadań, jak generowanie trajektorii ruchu, czy realizacja ruchu nadążnego MRK, wymaga zastosowania złożonych metod. Z tego powodu w algorytmach sterowania robotów stosowane są nowoczesne metody sztucznej inteligencji (AI, ang. Artificial Intelligence) [2,3,7,13], takie jak algorytmy z logiką rozmytą (FL, ang. Fuzzy Logic System) czy sztuczne sieci neuronowe (SN, ang. Neural Networks). W ostatnich latach można również zaobserwować wzrost zainteresowania algorytmami aproksymacyjnego programowania dynamicznego (APD, ang. Approximate Dynamic Programming), nazywanymi również algorytmami neuronowego programowania dynamicznego (NPD, ang. Neuro-Dynamic Programming). Ich idea bazuje na programowaniu dynamicznym Bellmana, które w połączeniu z możliwościami aproksymacji nieliniowych przebiegów przez SN z zadaną dokładnością, umożliwiają generowanie sterowania suboptymalnego w procesach on-line. W prezentowanym w artykule hierarchicznym układzie sterowania ruchem MRK Pioneer 2-DX zastosowano algorytmy APD. W warstwie generowania trajektorii ruchu, w zadaniach typu GS i OA, zastosowano algorytmy zależnego od sterowania heurystycznego programowania dynamicznego (ADHDP, ang. Action Dependant Heuristic Dynamic Programming), w warstwie realizacji ruchu algorytm dualnego heurystycznego programowania dynamicznego (DHP, ang. DualHeuristic Dynamic Progrmming). Wyniki prac prezentowane w artykule stanowią kontynuację wcześniejszych prac autora, związanych z algorytmami generowania trajektorii ruchu MRK [9,10,11] oraz układami realizacji ruchu nadążnego [8], w których zastosowano metody AI. Artykuł składa się z następujących części: w części pierwszej zawarto wprowadzenie w tematykę badań, w części drugiej przedstawiono obiekt sterowania, MRK Pioneer 2-DX, część trzecia prezentuje rodzinę algorytmów APD, w części czwartej przedstawiono hierarchiczny układ sterowania ruchem MRK. Części piąta zawiera opis stanowiska laboratoryjnego, kolejna część prezentuje wyniki badań weryfikacyjnych algorytmu sterowania, ostatnia część stanowi podsumowanie artykułu. 2. MOBILNY ROBOT KOŁOWY PIONEER 2-DX Obiektem sterowania jest MRK Pioneer 2-DX, wyposażony w dwa koła napędzające oraz samonastawne koło podpierające. Robot wyposażony jest w układ sensoryczny zbudowany z 8 czujników ultradźwiękowych wbudowanych w ramę oraz dodatkowy czujnik laserowy przestrzeni. Ruch robota analizowany jest w płaszczyźnie xy. MRK Pioneer 2-DX przedstawiono na rys. 1.b, jego schemat w laboratoryjnym torze pomiarowym ze statycznymi przeszkodami przedstawiono na rys. 1.a. MRK składa się z dwóch kół napędzających 1 i 2, koła samonastawnego 3 oraz ramy 4, na której zamontowano skaner laserowy przestrzeni. Jest to obiekt nieholonomiczny, którego dynamika jest opisana nieliniowymi równaniami ruchu. W artykule zaproponowano 101 ALGORYTMY APROKSYMACYJNEGO PROGRAMOWANIA DYNAMICZNEGO… hierarchiczny układ sterowania ruchem MRK, w którym warstwa generowania trajektorii realizuje sterowanie behawioralne typu GS lub OA. Zadaniem algorytmu sterowania jest wygenerowanie bezkolizyjnej trajektorii ruchu MRK na podstawie sygnału z układu sensorycznego (OA) lub trajektorii do celu G( , ), znajdującego się w odległości od punktu A( , ) ramy robota. Z punktem A związano ruchomy układ współrzędnych x1y1, gdzie: - kąt pomiędzy prostą pG a osią x, - kąt obrotu ramy MRK, - kąt pomiędzy prostą pG a osią x1 ruchomego układu współrzędnych, , , gdzie h – parametr dyskretyzacji czasu, k – indeks kroków iteracji, M – dodatnio określona macierz bezwładności MRK Pioneer 2-DX, – wektor kątów obrotu kół napędzających, &' ( – wektor momentów od sił odśrodkowych i Coriolis’a, )' ( – wektor oporów ruchu, *+ – wektor zakłóceń o ograni- czonych wartościach, , 3. ALGORYTMY APD Rozwój algorytmów AI umożliwił realizację idei programowania dynamicznego Bellmana w formie algorytmów APD [14,15]. Dekompozycja problemu na generowanie suboptymalnego prawa sterowania u, realizowanego przez strukturę aktora, oraz aproksymację funkcji wartości V, realizowaną przez strukturę krytyka, w których zastosowano SN, umożliwia zastosowanie tych algorytmów w sterowaniu on-line obiektami dynamicznymi. - odległości do przeszkód zmierzone przez skaner laserowy przed MRK, po prawej i lewej stronie ramy robota, , , - kąty pomiędzy osią i-tego pomiaru i osią ramy MRK, i=1,2,3, - sygnał sterujący j-tego koła, j=1,2, – wektor sygnałów sterowania. - prędkość kątowa j-tego koła. Rodzina algorytmów APD, schematycznie przedstawiona na rys. 2, obejmuje sześć struktur. Rys. 2. Schemat rodziny algorytmów adaptacyjnego programowania dynamicznego Algorytm heurystycznego programowania dynamicznego (HDP, ang. Heuristic Dynamic Programming) jest podstawowym przedstawicielem rodziny algorytmów APD. Składa się z SN aktora, generującej suboptymalne prawo sterowania u, oraz SN krytyka, która aproksymuje funkcję wartości V. W algorytmie DHP SN aktora również generuje suboptymalne prawo sterowania, natomiast SN krytka aproksymują pochodne funkcji wartości względem stanu obiektu. Powoduje to zwiększenie złożoności struktury krytyka, oraz algorytmu adaptacji wag jego SN, jednocześnie umożliwia osiągnięcie wyższej jakości sterowania. Trzecim algorytmem z grupy podstawowych struktur APD, jest algorytm Globalnego Dualnego Heurystycznego Programowania Dynamicznego (GDHP, ang. Globalised Dual Heuristic Dynamic Programming). W algorytmie tym struktury aktora i krytyka są zrealizowane w sposób analogiczny jak w HDP, natomiast algorytm adaptacji wag SN krytyka jest Rys. 1. a) Schemat robota mobilnego w laboratoryjnym torze pomiarowym, b) robot Pioneer 2-DX Korzystając z formalizmu Maggiego [5,6], sformułowano dynamiczne równania ruchu MRK Pioneer 2-DX. Model ciągły dynamiki MRK został dyskretyzowany poprzez stosowanie metody Eulera. Przyjęto wektor stanu , , , w którym wektor odpowiada wektorowi prędko- ści kątowych w zapisie ciągłym. Dyskretny model dynamiki MRK przyjęto w postaci układu równań # "$ #"$ % % &' *+ !" ( #, , , ! )' ( (1) 102 Marcin Szuster złożony, gdyż jest połączeniem algorytmów adaptacji wag SN krytyka struktur HDP i DHP. Sprawia to, iż pomimo złożoności struktury krytyka analogicznej jak w algorytmie HDP, i uproszczonej w stosunku do DHP, algorytm GDHP, przez zastosowanie złożonego prawa adaptacji wag SN, zapewnia wysoką jakość realizacji sterowania. Pozostałe struktury rodziny algorytmów APD to wersje zależne od sterowania (AD-, ang. Action Dependant) podstawowych algorytmów, w których sygnał wyjściowy z SN aktora jest jednocześnie sygnałem wejściowym do SN krytyka. Wszystkie algorytmy rodziny APD, z wyjątkiem ADHDP, wymagają znajomości modelu matematycznego sterowanego obiektu w celu wyznaczenia algorytmów adaptacji wag SN aktora i/lub krytyka. gdzie 62 ,27 ,2 ,1 ,/0 " Λ- 80 . # , , +9 (5) , gdzie 62 – macierz diagonalna, :2 , 1 jeżeli < > ? , w przeciwnym przypadku :2 , 0, ? – <= 7 dodatnia stała, i=1,2, 2 - wektor sygnałów sterowa- nia nadzorującego, wyznaczonych stosując analizę stabilności układu zamkniętego z zastosowaniem teorii stabilności Lapunov’a, 80 – dodatnio określona macierz diagonalna wzmocnień regulatora PD. Sygnał sterowania generowanego przez SN RVFL struktury aktora określony jest zależnością 4. HIERARCHICZNY UKŁAD STEROWANIA 'A gdzie A ,B ( B C'D A (, (6) – wektor wejść do i-tej SN aktora, B – wektor wag warstwy wyjściowej sieci, adaptowanych w czasie ruchu MRK, S(.) – wektor sigmoidlanych bipolarnych funkcji aktywacji neuronów, DA – macierz stałych wag warstwy wejściowej. W artykule zaprezentowano hierarchiczny układ sterowania ruchem MRK Pioneer 2-DX, który składa się z warstwy generowania trajektorii ruchu, realizującej koncepcję sterowań behawioralnych w zadaniach typu GS i OA, oraz z warstwy realizacji ruchu. Schematycznie warstwę realizacji ruchu MRK przedstawiono na rys. 3. 4.1 REALIZACJA RUCHU Problem realizacji ruchu nadążnego zdefiniowano jako wygenerowanie sygnałów sterowania modułami napędowymi MRK, które zapewnią realizację zadanej trajektorii ruchu + , + , generowanej + w czasie ruchu przez warstwę planowania trajektorii, przy minimalnych wartościach błędów nadążania - gdzie + # # - + + , , (2) + - wektor zadanych kątów obrotu kół, Rys. 3. Schemat warstwy realizacji ruchu MRK - Neuronowy algorytm sterowania ruchem nadążnym został szczegółowo omówiony w [8]. wektor zadanych prędkości kątowych. Na podstawie błędów (2) zdefiniowano uogólniony błąd nadążania . - ! Λ- 4.2 REALIZACJA ZADANIA TYPU „PODĄŻAJ DO CELU” (3) , gdzie Λ - stała macierz diagonalna dodatnio określona. Warstwa planowania trajektorii ruchu MRK w zadaniu typu GS składa się ze struktury generujacej behawioralne sygnały sterowania, zbudowanej z dwóch algorytmów ADHDP oraz regulatora proporcjonalnego P. Generuje sygnały sterowania behawioralnego W warstwie tej zastosowano algorytm DHP, zrealizowany z zastosowaniem SN RVFL. Całkowity sygnał sterowania ruchem nadążnym MRK , , składa się z sygnału sterowania generowanego przez strukurę aktor-krytyk DHP , , , sygnału sterowania regulatora PD, ,/0 , dodatkowego sygnału sterowania ,1 , oraz sygnału sterowania nadzorującego ,2 3 ! ,2 # ,/0 # ,1 5, , GH I , gdzie F - sygnał sterujący GH - sygnał sterujący zadaną prędkością kątową obrotu ramy MRK H . Sygnały sterowania behawioralnego , są , o strukturze wynikającej z analizy $4#, F zadaną prędkością ruchu punktu A ramy MRK, stabilności zamkniętego układu sterowania, zrealizowanej z zastosowaniem teorii stabilności Lyapunov’a. Całkowity sygnał sterowania ruchem nadążnym przyjęto w formie zależności , E wyznaczane na podstawie znajomości położenia i orientacji ramy MRK oraz na podstawie znajomości położenia celu G. W algorytmie sterowania zastosowano innowacyjne podejście do generowania sterowań behawioralnych w nieznanym środowisku, (4) 103 ALGORYTMY APROKSYMACYJNEGO PROGRAMOWANIA DYNAMICZNEGO… z zastosowaniem algorytmów ADHDP, w których nie jest wymagana znajomość modelu matematycznego sterowanego obiektu do syntezy algorytmów adaptacji wag. Zastosowano regulator P, który w początkowym etapie adaptacji wag „wskazuje” algorytmom ADHDP właściwy kierunek przeszukiwania przestrzeni rozwiązań, przez co nie jest konieczne stosowanie metody uczenia typu „prób i błędów”, a generowana trajektoria ruchu już przy pierwszym przebiegu procesu adaptacji wag SN umożliwia realizację założonego zadania. 4.3 REALIZACJA ZADANIA TYPU „OMIJAJ PRZESZKODY” Warstwa generowania trajektorii w zadaniu typu OA jest zbudowana w sposób analogiczny. Algorytm generowania sygnałów sterowania behawioralnego ,h bazuje na sygnałach z układu sensorycznego MRK. Przyjęto błąd generowania prędkości ruchu ThF , oraz błąd zajmowania środka wolnej przestrzeni ThGH ThF Zadaniem algorytmów APD jest wygenerowanie suboptymalnego prawa sterowania, które minimalizuje funkcję wartości J'A , , (, która w przypadku ogólnym jest funkcją stanu obiektu A sterowania , , wyrażoną zależnością J'A ,, ,, (, F (#V 7 # , (#V # /V 7 , , 7 (11) ( – minimalna odległość do [ min' ( /V 7 , [ /' [ ! [ (b # 0.5I – znormali- zowana minimalna odległość do przeszkód po lewej 7 stronie ramy robota, 2 Ea [ /' [ ! [ (b # 0.5I - znormalizowana minimalna odległość do przeszkód po prawej stronie MRK. Przyjęto funkcje kosztu struktur ADHDP oraz całkowite sygnały sterowania warstwy generowania trajektorii w zadaniu typu OA, analogicznie jak w punkcie 4.2. , w posatci zależności U' 2 Ea 7 (6) Przyjęto błąd generowania prędkości ruchu T oraz kąt między osią ramy MRK, a prostą pG, F 7 przeszkód po lewej stronie MRK, gdzie n – ostatni krok skończonego procesu dyskretnego, L – współczynnik dyskontacji przyszłych kar/nagród, 0 S L S 1, QR 'A , , ( - funkcja kosztu w kroku k. T min' [ 7 – minimalna odległość do przeszkód po prawej stronie, ∑MNOP L QR 'A ( gdzie , oraz sygnału ThGH U' (7) Schematycznie strukturę warstwy generowania trajektorii w zadaniach typu GS i OA przedstawiono na rys. 4.a) i b) odpowiednio. gdzie f(.) – funkcja sigmoidalna unipolarna, V - zdefiniowana maksymalna prędkość punktu A, V - chwilowa prędkość punktu A, 7 min' (/ [\ – 7 minimalna znormalizowana odległość do przeszkód przed MRK. Przyjęto funkcje kosztu struktur ADHDP w postaci QR F 'T QR F aT , F GH gdzie _ F, ` F , _ , F GH , GH ` ] ( ^ ] b GH ^ _ FT _ GH ] ! ^` F ] ! ^` F GH F GH , , (8) – dodatnie stałe. Całkowity sygnał sterowania behawioralnego typu GS, składający się z sygnałów sterowania struktur aktor-krytyk, oraz sygnałów sterowania regulatora P, został przyjęty w postaci gdzie , , 8 T / F , , !, / , 8 diagonalna. Na podstawie sygnałów , , (9) – stała macierz są generowane zadane prędkości kątowe obrotu kół napędzających MRK zgodnie z zależnością c + + d f e V7 V 7 H7 # H7 gc F GH d, Rys. 4. Schemat warstwy generowania trajektorii ruchu MRK w zadaniu typu: a) GS, b) OA. 5. STANOWISKO BADAWCZE (10) Prezentowany hierarchiczny układ sterowania, realizujący zadania typu GS lub OA, przetestowano na stanowisku badawczym składającym się z MRK Pioneer gdzie r, l1 – wymiary wynikające z geometrii MRK, H 7 - maksymalna prędkość kątowa obrotu ramy MRK. 104 Marcin Szuster przebieg wartości kąta ψ , zawartego między osią ramy MRK, a prostą pG. 2-DX, wyposażonego w skaner laserowy przestrzeni Hokuyo UBG-4LX-F01, układ zasilania oraz komputer PC z kartą kontrolno-pomiarową dSpace DS1102, oraz oprogramowaniem Matlab/Simulink i dSpace ControlDesk. Stanowisko badawcze przedstawiono na rys. 5. Rys. 5. Schemat stanowiska badawczego 6. WYNIKI BADAŃ W przedstawionym środowisku testowym przeprowadzono szereg eksperymentów weryfikacyjnych zaprojektowanego algorytmu generowania trajektorii w zadaniach typu GS i OA. W dalszej części pracy, w celu uproszczenia zapisu zmiennych, w oznaczeniach pominięto symbol k. Podczas eksperymentów wartość parametru dyskretyzacji czasu wynosiła h=0.01 [s]. Trajektorie ruchu w zadaniach typu GS i OA były generowane on-line przez warstwę generowania ruchu i realizowane przez algorytm sterowania ruchem nadążnym. Rys. 7. Przebieg wartości odległości lG do celu G4, b) przebieg wartości kąta ψ Odległość do celu jest redukowana w trakcie ruchu MRK, natomiast początkowa wartość kąta wynika z orientacji ramy w pozycji startowej. Wartość kąta jest redukowana w trakcie eksperymentu do wartości bliskiej zeru, co oznacza, że rama MRK porusza się w kierunku celu. Wygenerowanie sygnałów sterowania , których przebiegi przedstawiono odpowiednio F i GH 6.1 REALIZACJA ZADANIA TYPU „PODĄŻAJ DO CELU” Zrealizowano zadanie typu GS do celów G1(9.5, 5.0), G2(9.5, 9.5), G3(0.5, 9.5), G4(0.5, 0.5), G5(9.5, 0.5), przy czym ruch rozpoczynał się w pozycji startowej punktu A ramy MRK S(5.0, 5.0). Trajektoria ruchu była generowana na postawie odległości punktu A ramy MRK do celu G, , oraz orientacji ramy MRK. Tory ruchu MRK do celów zlokalizowanych w poszczególnych punktach mapy otoczenia przedstawiono na rys. 6. na rys. 8.a) i b), umożliwiło realizację zadania typu GS. Rys. 8. Przebieg wartości sygnału sterowania a) uGv, b) Rys. 6. Mapa otoczenia z torami ruchu MRK Sygnały Poniżej zostaną przedstawione wyniki eksperymentu, w którym wygenerowana została trajektoria ruchu do punktu G4(0.5, 0.5), w zadaniu typu GS. Na rys. 7.a) przedstawiono przebieg odległości do celu lG, na rys. 7.b) sterowania F i GH składają . GH się z sygnałów generowanych przez algorytmy ADHDP oraz regulator P. 105 ALGORYTMY APROKSYMACYJNEGO PROGRAMOWANIA DYNAMICZNEGO… W początkowej fazie ruchu duży wpływ na wartości sygnałów F i GH mają sygnały sterowania generowane 6.2 REALIZACJA ZADANIA TYPU „OMIJAJ PRZESZKODY” przez regulator P, ze względu na zastosowanie zerowych wartości początkowych wag SN struktur ADHDP. Jednak proces adaptacji wag SN powoduje redukcję udziału sygnałów sterowania regulatora P w całkowitych sygnałach sterowania warstwy generowania trajektorii, gdzie dominujacy wpływ przejmują sygnały F i GH Zrealizowano zadanie typu OA, w którym na podstawie sygnałów z układu sensorycznego MRK warstwa planowania trajektorii wygenerowała bezolizyjną trajktorię ruchu MRK. Tor ruchu MRK pokazano na rys. 10, gdzie szarymi kropkami zaznaczono lokalizacje przeszkód wykrytych przez skaner laserowy. algorytmów ADHDP. Wartość sygnału sterowania 1 powoduje generowanie trajektorii, w której F MRK poruszą się z maksymalną zadaną wartością prędkości, dopiero gdy punkt A znajuje się w zadanej odległości do celu, prędkość jest redukowana, następuje etap hamowania i zatrzymanie robota w pobliżu celu. Wartość sygnału powoduje wygenerowanie takiego GH przebiegu wartości prędkości kątowej obrotu ramy MRK, aby było możliwe osiągnięcie celu. Na rys. 9.a przedstawiono przebiegi zadanych prędkości kątowych obrotu kół, na rys. 9.b wygenerowane sygnały sterowania ruchem nadążnym MRK, na rys. 9.c przebiegi wartości błędów nadążania koła 2 MRK. Rys. 10. Mapa otoczenia z trajektorią ruchu MRK Bezkolizyjna trajektoria ruchu została wygenerowana z zastosowaniem sygnałów sterowania hF i hGH , przedstawionych na rys. 11. Rys. 11. Przebieg wartości sygnału sterowania a) uOv, b) hGH Składają się one z sygnałów sterowania generowanych przez regulator P oraz sygnałów sterowania algorytmów ADHDP, których wartości mają dominujący udział w całkowitych sygnałach sterowania. Przebiegi wartości wag SN algorytmu ADHDP, generującego sygnał sterujący uOAv, przedstawiono na rys. 11. Struktury aktora oraz krytyka zostały zrealizowane w formie SN RVFL. Zastosowano zerowe wartości początkowe wag warstw wyjściowych SN, wartości te pozostają ograniczone w trakcie procesu generowania trajektorii ruchu MRK Pioneer 2-DX. Rys. 9. a) Przebiegi wartości zadanych prędkości kątowych kół, b) sygnały sterowania ruchem nadążnym, c) błędy nadążania koła 2 MRK Największe wartości błędów nadążania występują w początkowym okresie ruchu, ze względu na zastosowanie zerowych wartości początkowych wag SN. 106 Marcin Szuster 7. PODSUMOWANIE Zaproponowano hierarchiczny układ sterowania ruchem MRK Pioneer 2-DX, składający się z warstwy generowania trajektorii ruchu, oraz warstwy realizacji ruchu. W warstwie generowania trajektorii ruchu zastosowano koncepcję sterowania behawioralnego typu GS i OA. W układzie sterowania zastosowano algorytmy APD w konfiguracji ADHDP oraz DHP, z SN RVFL. Algorytm umożliwia generowanie i realizację trajektorii ruchu w zadaniu typu GS, z położenia początkowego do celu, oraz w zadaniu typu OA, gdzie generowana jest bezkolizyjna trajektoria ruchu MRK, a cel nie jest sprecyzowany. Zaproponowany algorytm sterowania działa on-line i nie wymaga fazy wstępnego uczenia wag SN. Badania weryfikacyjne przeprowadzono z zastosowanie MRK Pioneer 2-DX, wyposażonego w skaner laserowy przestrzeni Hokuyo UBG-4LX-F01. Rys. 12. Przebieg wartości wag SN a) krytyka, b) aktora, algorytmu ADHDP generującego sygnał sterowania uOAv Literatura 1. Arkin R. C.: Behavioural-based robotics. Cambridge: MIT Press, 1998. 2. Burghardt A.: Sterowanie behawioralne minirobota kołowego. „PAK” 2004, Vol. 11, p. 26 - 29. 3. Drainkov D., Saffiotti A.: Fuzzy logic techniques for autonomous vehicle navigation. New York: Springer, 2001. 4. Fahimi F.: Autonomous robots: modeling, path planning, and control. New York: Springer, 2009. 5. Giergiel J., Zylski W.: Description of motion of a mobile robot by Maggie’s Equations. „J. Theor. and App. Mech.” 2005, 3, Vol. 43, p. 511 - 521. 6. Giergiel M., Hendzel Z., Żylski W.: Modelowanie i sterowanie mobilnych robotów kołowych. Warszawa: PWN, 2002. 7. Hendzel Z.: Fuzzy reactive control of wheeled mobile robot. “J. Theor. App. Mech.” 2004, 3, Vol. 42, p. 503 517. 8. Hendzel Z., Szuster M.: Discrete model-based adaptive critic designs in wheeled mobile robot control. L. Rutkowski et al. (Eds.): ICAISC 2010, Part II, „LNCS” 2010, Vol. 6114, p. 264 - 271. 9. Hendzel Z., Szuster M.: Neuronowe programowanie dynamiczne w sterowaniu behawioralnym mobilnym robotem kołowym. „Acta Mech. Automatica” 2011, 1, Vol. 5, p. 28 - 36. 10. Hendzel Z., Szuster M.: Neural dynamic programming in reactive navigation of wheeled mobile robot. L. Rutkowski et al. (Eds.): ICAISC 2012, Part II, „LNCS” 2012, Vol. 7268, p. 450 - 457. 11. Hendzel Z., Szuster M.: Neural sensor-based navigation of wheeled mobile robot in unknown environment. „PAR” 2013, 1, p. 114 - 120. 12. Maaref H., Barret, C.: Sensor-based navigation of a mobile robot in an indoor environment. „Robot. Auton. Syst.” 2002, Vol. 38, p. 1 - 18. 13. Millan J.: Reinforcement learning of goal-directed obstacle-avoiding reaction strategies in an autonomous mobile robot. „Robot. Auton. Syst.” 1995, 4, Vol. 15, p. 275 - 299. 14. Powell W.B.: Approximate dynamic programming: solving the curses of dimensionality. Princeton: WilleyInterscience, 2007. 15. Prokhorov D., Wunch D.: Adaptive critic designs. „IEEE Trans. Neural Netw” 1997, Vol. 8, p. 997 - 1007. 107