algorytmy aproksymacyjnego programowania dynamicznego w

Transkrypt

algorytmy aproksymacyjnego programowania dynamicznego w
MODELOWANIE INŻYNIERSKIE nr 51, ISSN 1896-771X
ALGORYTMY APROKSYMACYJNEGO
PROGRAMOWANIA DYNAMICZNEGO
W GENEROWANIU I REALIZACJI
TRAJEKTORII RUCHU ROBOTA
MOBILNEGO PIONEER 2-DX
Marcin Szuster1a
1
a
Katedra Mechaniki Stosowanej i Robotyki, Politechnika Rzeszowska
[email protected]
Streszczenie
W pracy przedstawiono nowe podejście do generowania i realizacji ruchu mobilnego robota kołowego z zastosowaniem algorytmów aproksymacyjnego programowania dynamicznego (APD). Zaproponowano hierarchiczny
układ sterowania ruchem robota w nieznanym środowisku ze statycznymi przeszkodami, składający się z warstwy
generowania trajektorii oraz warstwy realizacji ruchu. W warstwie generowania trajektorii zrealizowano dwa podstawowe zadania: „podążaj do celu”, oraz „omijaj przeszkody”, stosując algorytmy APD w konfiguracji zależnego
od sterowania heurystycznego programowania dynamicznego. Wygenerowana trajektoria ruchu jest realizowana
przez układ sterowania ruchem nadążnym, w którym zastosowano algorytm dualnego heurystycznego programowania dynamicznego. Weryfikację algorytmu sterowania przeprowadzono z zastosowaniem robota Pioneer 2-DX.
Słowa kluczowe: aproksymacyjne programowanie dynamiczne, mobilny robot kołowy, sieci neuronowe, sterowanie behawioralne, sterowanie nadążne.
APPROXIMATE DYNAMIC PROGRAMMING
ALGORITHMS IN GENERATING AND REALISATION
OF THE WHEELED MOBILE ROBOT PIONEER 2-DX
TRAJECTORY
Summary
In the article a new approach to generating and realisation of the trajectory of the Wheeled Mobile Robot is
presented. In this approach Approximate Dynamic Programming (APD) algorithms were used. The hierarchical
control system of the WMR movement in the unknown environment with static obstacles was proposed. It consists of two layers: the trajectory generating layer and the tracking control layer. In the trajectory generating
layer two basic tasks: the goal seeking task and the obstacle avoiding task, were realised. APD algorithms in the
Action Dependant Heuristic Dynamic Programming configuration were used. Using the tracking control system
the trajectory is realised. In the tracking control system APD algorithm in the Dual Heuristic Dynamic Programming configuration was used. Using the WMR Pioneer 2-DX verification of the proposed hierarchical control system was performed.
Keywords: approximate dynamic programming, behavioral control, neural networks, wheeled mobile robot,
tracking control.
100
Marcin Szuster
1. WSTĘP
Generowanie w czasie rzeczywistym trajektorii ruchu
mobilnego robota kołowego (MRK), z jej jednoczesną
realizacją, jest złożonym problemem wymagającym
zastosowania odpowiednich algorytmów sterowania
[1,2,3,4,7,12,13], korzystających z informacji z układu
sensorycznego robota. Zazwyczaj problem ten dekomponuje się na dwa zadania realizowane przez dedykowane
algorytmy, tworzące warstwy układu sterowania,
z których jedna pełni rolę nadrzędną w stosunku do
drugiej. Warstwa planowania trajektorii ruchu na podstawie informacji o stanie otoczenia robota generuje
trajektorię ruchu, która jest realizowana przez warstwę
sterowania ruchem nadążnym. Zadaniem tej warstwy
jest wygenerowanie sygnałów sterowania silnikami,
zapewniających realizację zadanej trajektorii z minimalnymi wartościami błędów nadążania. Takie podejście do
problemu generowania trajektorii jest charakterystyczne
dla tzw. metod lokalnych planowania trajektorii,
w których proces generowania trajektorii ruchu odbywa
się na podstawie ograniczonej wiedzy o stanie otoczenia
robota, dostarczanej przez układ sensoryczny. Drugim
typem metod generowania trajektorii ruchu MRK są
tzw. metody globalne, które umożliwiają wyznaczanie
trajektorii ruchu robota na podstawie znajomości mapy
otoczenia. W przypadku tych metod proces generowania
trajektorii może się odbywać off-line, jednak ich wadą
jest brak możliwości zastosowania w zadaniu planowania
trajektorii ruchu w nieznanym środowisku. Wady tej
pozbawione są metody lokalne, umożliwiające jednoczesne generowanie i realizację trajektorii, na podstawie
informacji z układu sensorycznego. Przykładami takich
metod są algorytmy sterowania behawioralnego, których
idea wywodzi się z obserwacji świata zwierząt. Polegają
one na realizacji elementarnych zadań typu „podążaj do
celu” (GS, ang. Goal Seeking), czy „omijaj przeszkody”
(OA, ang. Obstacle Avoiding) przez robot. Pierwsze
z zadań polega na wygenerowania sterowania behawioralnego, które umożliwia wyznaczenie zadanych parametrów ruchu kół MRK, których realizacja powoduje
przemieszczenie MRK z położenia początkowego, do
zadanego celu we współrzędnych mapy, przy czym
lokalizacje przeszkód nie są brane pod uwagę. W zadaniu typu OA, na podstawie pomiarów układu sensorycznego MRK, generowana jest bezkolizyjna trajektoria
ruchu robota. Realizując trajektorię MRK, zajmuje
środek dostępnej wolnej przestrzeni, przy czym nie jest
możliwe zadanie celu ruchu. Realizacja tak skomplikowanych zadań, jak generowanie trajektorii ruchu, czy
realizacja ruchu nadążnego MRK, wymaga zastosowania
złożonych metod. Z tego powodu w algorytmach sterowania robotów stosowane są nowoczesne metody sztucznej inteligencji (AI, ang. Artificial Intelligence)
[2,3,7,13], takie jak algorytmy z logiką rozmytą (FL,
ang. Fuzzy Logic System) czy sztuczne sieci neuronowe
(SN, ang. Neural Networks). W ostatnich latach można
również zaobserwować wzrost zainteresowania algorytmami aproksymacyjnego programowania dynamicznego
(APD, ang. Approximate Dynamic Programming),
nazywanymi również algorytmami neuronowego programowania dynamicznego (NPD, ang. Neuro-Dynamic
Programming). Ich idea bazuje na programowaniu
dynamicznym Bellmana, które w połączeniu z możliwościami aproksymacji nieliniowych przebiegów przez SN
z zadaną dokładnością, umożliwiają generowanie sterowania suboptymalnego w procesach on-line.
W prezentowanym w artykule hierarchicznym układzie sterowania ruchem MRK Pioneer 2-DX zastosowano algorytmy APD. W warstwie generowania trajektorii
ruchu, w zadaniach typu GS i OA, zastosowano algorytmy zależnego od sterowania heurystycznego programowania dynamicznego (ADHDP, ang. Action Dependant Heuristic Dynamic Programming), w warstwie
realizacji ruchu algorytm dualnego heurystycznego
programowania dynamicznego (DHP, ang. DualHeuristic Dynamic Progrmming).
Wyniki prac prezentowane w artykule stanowią kontynuację wcześniejszych prac autora, związanych z
algorytmami generowania trajektorii ruchu MRK
[9,10,11] oraz układami realizacji ruchu nadążnego [8],
w których zastosowano metody AI. Artykuł składa się
z następujących części: w części pierwszej zawarto
wprowadzenie w tematykę badań, w części drugiej
przedstawiono obiekt sterowania, MRK Pioneer 2-DX,
część trzecia prezentuje rodzinę algorytmów APD,
w części czwartej przedstawiono hierarchiczny układ
sterowania ruchem MRK. Części piąta zawiera opis
stanowiska laboratoryjnego, kolejna część prezentuje
wyniki badań weryfikacyjnych algorytmu sterowania,
ostatnia część stanowi podsumowanie artykułu.
2. MOBILNY ROBOT KOŁOWY
PIONEER 2-DX
Obiektem sterowania jest MRK Pioneer 2-DX, wyposażony w dwa koła napędzające oraz samonastawne
koło podpierające. Robot wyposażony jest w układ
sensoryczny zbudowany z 8 czujników ultradźwiękowych
wbudowanych w ramę oraz dodatkowy czujnik laserowy
przestrzeni. Ruch robota analizowany jest w płaszczyźnie xy. MRK Pioneer 2-DX przedstawiono na rys. 1.b,
jego schemat w laboratoryjnym torze pomiarowym ze
statycznymi przeszkodami przedstawiono na rys. 1.a.
MRK składa się z dwóch kół napędzających 1 i 2, koła
samonastawnego 3 oraz ramy 4, na której zamontowano
skaner
laserowy
przestrzeni.
Jest
to
obiekt
nieholonomiczny, którego dynamika jest opisana nieliniowymi równaniami ruchu. W artykule zaproponowano
101
ALGORYTMY APROKSYMACYJNEGO PROGRAMOWANIA DYNAMICZNEGO…
hierarchiczny układ sterowania ruchem MRK, w którym
warstwa generowania trajektorii realizuje sterowanie
behawioralne typu GS lub OA. Zadaniem algorytmu
sterowania jest wygenerowanie bezkolizyjnej trajektorii
ruchu MRK na podstawie sygnału z układu sensorycznego (OA) lub trajektorii do celu G( , ), znajdującego się w odległości
od punktu A( , ) ramy
robota. Z punktem A związano ruchomy układ współrzędnych x1y1, gdzie:
- kąt pomiędzy prostą pG a osią
x, - kąt obrotu ramy MRK,
- kąt pomiędzy prostą
pG a osią x1 ruchomego układu współrzędnych,
,
,
gdzie h – parametr dyskretyzacji czasu, k – indeks
kroków iteracji, M – dodatnio określona macierz bezwładności MRK Pioneer 2-DX,
– wektor kątów
obrotu kół napędzających, &'
(
– wektor momentów od sił odśrodkowych i Coriolis’a, )'
( –
wektor oporów ruchu, *+ – wektor zakłóceń o ograni-
czonych wartościach, ,
3. ALGORYTMY APD
Rozwój algorytmów AI umożliwił realizację idei programowania dynamicznego Bellmana w formie algorytmów APD [14,15]. Dekompozycja problemu na generowanie suboptymalnego prawa sterowania u, realizowanego przez strukturę aktora, oraz aproksymację funkcji
wartości V, realizowaną przez strukturę krytyka,
w których zastosowano SN, umożliwia zastosowanie tych
algorytmów w sterowaniu on-line obiektami dynamicznymi.
- odległości do przeszkód zmierzone przez
skaner laserowy przed MRK, po prawej i lewej stronie
ramy robota,
,
,
- kąty pomiędzy osią
i-tego pomiaru i osią ramy MRK, i=1,2,3,
- sygnał
sterujący j-tego koła, j=1,2,
– wektor sygnałów sterowania.
- prędkość kątowa
j-tego koła.
Rodzina algorytmów APD, schematycznie przedstawiona na rys. 2, obejmuje sześć struktur.
Rys. 2. Schemat rodziny algorytmów adaptacyjnego programowania dynamicznego
Algorytm
heurystycznego
programowania
dynamicznego
(HDP,
ang.
Heuristic
Dynamic
Programming) jest podstawowym przedstawicielem
rodziny algorytmów APD. Składa się z SN aktora,
generującej suboptymalne prawo sterowania u, oraz SN
krytyka, która aproksymuje funkcję wartości V.
W algorytmie DHP SN aktora również generuje
suboptymalne prawo sterowania, natomiast SN krytka
aproksymują pochodne funkcji wartości względem stanu
obiektu. Powoduje to zwiększenie złożoności struktury
krytyka, oraz algorytmu adaptacji wag jego SN,
jednocześnie umożliwia osiągnięcie wyższej jakości
sterowania. Trzecim algorytmem z grupy podstawowych
struktur APD, jest algorytm Globalnego Dualnego
Heurystycznego Programowania Dynamicznego (GDHP,
ang. Globalised Dual Heuristic Dynamic Programming).
W algorytmie tym struktury aktora i krytyka są
zrealizowane w sposób analogiczny jak w HDP,
natomiast algorytm adaptacji wag SN krytyka jest
Rys. 1. a) Schemat robota mobilnego w laboratoryjnym torze
pomiarowym, b) robot Pioneer 2-DX
Korzystając z formalizmu Maggiego [5,6], sformułowano dynamiczne równania ruchu MRK Pioneer 2-DX.
Model ciągły dynamiki MRK został dyskretyzowany
poprzez stosowanie metody Eulera. Przyjęto wektor
stanu
,
,
,
w
którym
wektor
odpowiada wektorowi prędko-
ści kątowych w zapisie ciągłym. Dyskretny model dynamiki MRK przyjęto w postaci układu równań
# "$
#"$
%
%
&'
*+
!"
(
#,
,
,
! )'
(
(1)
102
Marcin Szuster
złożony, gdyż jest połączeniem algorytmów adaptacji
wag SN krytyka struktur HDP i DHP. Sprawia to, iż
pomimo złożoności struktury krytyka analogicznej jak
w algorytmie HDP, i uproszczonej w stosunku do DHP,
algorytm GDHP, przez zastosowanie złożonego prawa
adaptacji wag SN, zapewnia wysoką jakość realizacji
sterowania. Pozostałe struktury rodziny algorytmów
APD to wersje zależne od sterowania (AD-, ang. Action
Dependant) podstawowych algorytmów, w których
sygnał wyjściowy z SN aktora jest jednocześnie
sygnałem wejściowym do SN krytyka. Wszystkie
algorytmy rodziny APD, z wyjątkiem ADHDP,
wymagają
znajomości
modelu
matematycznego
sterowanego obiektu w celu wyznaczenia algorytmów
adaptacji wag SN aktora i/lub krytyka.
gdzie
62 ,27
,2
,1
,/0
" Λ-
80 .
#
,
,
+9
(5)
,
gdzie 62 – macierz diagonalna, :2 ,
1 jeżeli
< > ? , w przeciwnym przypadku :2 ,
0, ? –
<=
7
dodatnia stała, i=1,2, 2
- wektor sygnałów sterowa-
nia nadzorującego, wyznaczonych stosując analizę stabilności układu zamkniętego z zastosowaniem teorii
stabilności Lapunov’a, 80 – dodatnio określona macierz
diagonalna wzmocnień regulatora PD.
Sygnał sterowania generowanego przez SN RVFL
struktury aktora określony jest zależnością
4. HIERARCHICZNY UKŁAD
STEROWANIA
'A
gdzie A
,B
(
B
C'D A
(,
(6)
– wektor wejść do i-tej SN aktora, B
–
wektor wag warstwy wyjściowej sieci, adaptowanych
w czasie ruchu MRK, S(.) – wektor sigmoidlanych
bipolarnych funkcji aktywacji neuronów, DA – macierz
stałych wag warstwy wejściowej.
W artykule zaprezentowano hierarchiczny układ sterowania ruchem MRK Pioneer 2-DX, który składa się
z warstwy generowania trajektorii ruchu, realizującej
koncepcję sterowań behawioralnych w zadaniach typu
GS i OA, oraz z warstwy realizacji ruchu.
Schematycznie warstwę realizacji ruchu MRK przedstawiono na rys. 3.
4.1 REALIZACJA RUCHU
Problem realizacji ruchu nadążnego zdefiniowano
jako wygenerowanie sygnałów sterowania modułami
napędowymi MRK, które zapewnią realizację zadanej
trajektorii ruchu +
, +
, generowanej
+
w czasie ruchu przez warstwę planowania trajektorii,
przy minimalnych wartościach błędów nadążania
-
gdzie
+
#
#
-
+
+
,
,
(2)
+
- wektor zadanych kątów obrotu kół,
Rys. 3. Schemat warstwy realizacji ruchu MRK
-
Neuronowy algorytm sterowania ruchem nadążnym
został szczegółowo omówiony w [8].
wektor zadanych prędkości kątowych. Na podstawie
błędów (2) zdefiniowano uogólniony błąd nadążania
.
-
! Λ-
4.2 REALIZACJA ZADANIA TYPU
„PODĄŻAJ DO CELU”
(3)
,
gdzie Λ - stała macierz diagonalna dodatnio określona.
Warstwa planowania trajektorii ruchu MRK
w zadaniu typu GS składa się ze struktury generujacej
behawioralne sygnały sterowania, zbudowanej z dwóch
algorytmów ADHDP oraz regulatora proporcjonalnego
P. Generuje sygnały sterowania behawioralnego
W warstwie tej zastosowano algorytm DHP,
zrealizowany z zastosowaniem SN RVFL. Całkowity
sygnał
sterowania
ruchem
nadążnym
MRK
,
,
składa się z sygnału sterowania
generowanego przez strukurę aktor-krytyk DHP ,
,
,
sygnału sterowania regulatora PD, ,/0 , dodatkowego
sygnału sterowania ,1 , oraz sygnału sterowania
nadzorującego ,2
3
! ,2
# ,/0
# ,1
5,
,
GH
I , gdzie
F
- sygnał sterujący
GH
-
sygnał sterujący zadaną prędkością kątową obrotu ramy
MRK H . Sygnały sterowania behawioralnego ,
są
, o strukturze wynikającej z analizy
$4#,
F
zadaną prędkością ruchu punktu A ramy MRK,
stabilności
zamkniętego
układu
sterowania,
zrealizowanej z zastosowaniem teorii stabilności
Lyapunov’a. Całkowity sygnał sterowania ruchem
nadążnym przyjęto w formie zależności
,
E
wyznaczane na podstawie znajomości położenia
i orientacji ramy MRK oraz na podstawie znajomości
położenia celu G. W algorytmie sterowania zastosowano
innowacyjne podejście do generowania sterowań
behawioralnych
w
nieznanym
środowisku,
(4)
103
ALGORYTMY APROKSYMACYJNEGO PROGRAMOWANIA DYNAMICZNEGO…
z zastosowaniem algorytmów ADHDP, w których nie
jest wymagana znajomość modelu matematycznego
sterowanego obiektu do syntezy algorytmów adaptacji
wag. Zastosowano regulator P, który w początkowym
etapie adaptacji wag „wskazuje” algorytmom ADHDP
właściwy kierunek przeszukiwania przestrzeni rozwiązań,
przez co nie jest konieczne stosowanie metody uczenia
typu „prób i błędów”, a generowana trajektoria ruchu
już przy pierwszym przebiegu procesu adaptacji wag SN
umożliwia realizację założonego zadania.
4.3 REALIZACJA ZADANIA TYPU
„OMIJAJ PRZESZKODY”
Warstwa generowania trajektorii w zadaniu typu OA
jest zbudowana w sposób analogiczny. Algorytm generowania sygnałów sterowania behawioralnego ,h
bazuje na sygnałach z układu sensorycznego MRK.
Przyjęto błąd generowania prędkości ruchu ThF , oraz
błąd zajmowania środka wolnej przestrzeni ThGH
ThF
Zadaniem algorytmów APD jest wygenerowanie
suboptymalnego prawa sterowania, które minimalizuje
funkcję wartości J'A , , (, która w przypadku
ogólnym jest funkcją stanu obiektu A
sterowania , , wyrażoną zależnością
J'A
,,
,,
(,
F
(#V
7
#
,
(#V
#
/V 7 ,
,
7
(11)
( – minimalna odległość do
[
min'
(
/V 7 ,
[
/'
[
!
[
(b # 0.5I – znormali-
zowana minimalna odległość do przeszkód po lewej
7
stronie ramy robota,
2 Ea [ /' [ !
[
(b # 0.5I - znormalizowana minimalna odległość
do przeszkód po prawej stronie MRK.
Przyjęto funkcje kosztu struktur ADHDP oraz całkowite sygnały sterowania warstwy generowania trajektorii
w zadaniu typu OA, analogicznie jak w punkcie 4.2.
,
w posatci zależności
U'
2 Ea
7
(6)
Przyjęto błąd generowania prędkości ruchu T
oraz kąt między osią ramy MRK, a prostą pG,
F
7
przeszkód po lewej stronie MRK,
gdzie n – ostatni krok skończonego procesu dyskretnego,
L – współczynnik dyskontacji przyszłych kar/nagród,
0 S L S 1, QR 'A , , ( - funkcja kosztu w kroku k.
T
min'
[
7
– minimalna odległość do przeszkód po prawej stronie,
∑MNOP L QR 'A
(
gdzie
, oraz sygnału
ThGH
U'
(7)
Schematycznie strukturę warstwy generowania trajektorii w zadaniach typu GS i OA przedstawiono na
rys. 4.a) i b) odpowiednio.
gdzie f(.) – funkcja sigmoidalna unipolarna, V - zdefiniowana maksymalna prędkość punktu A, V
- chwilowa prędkość punktu A, 7
min'
(/ [\ –
7
minimalna znormalizowana odległość do przeszkód przed
MRK.
Przyjęto funkcje kosztu struktur ADHDP w postaci
QR F 'T
QR
F
aT
,
F
GH
gdzie _ F, ` F , _
,
F
GH ,
GH
`
]
(
^
]
b
GH
^
_ FT
_
GH
]
! ^`
F
]
! ^`
F
GH
F
GH
,
,
(8)
– dodatnie stałe.
Całkowity sygnał sterowania behawioralnego typu
GS, składający się z sygnałów sterowania struktur
aktor-krytyk, oraz sygnałów sterowania regulatora P,
został przyjęty w postaci
gdzie ,
,
8 T
/
F
,
,
!,
/
, 8
diagonalna. Na podstawie sygnałów ,
,
(9)
– stała macierz
są generowane
zadane prędkości kątowe obrotu kół napędzających
MRK zgodnie z zależnością
c
+
+
d
f
e
V7
V
7
H7
# H7
gc
F
GH
d,
Rys. 4. Schemat warstwy generowania trajektorii ruchu MRK
w zadaniu typu: a) GS, b) OA.
5. STANOWISKO BADAWCZE
(10)
Prezentowany hierarchiczny układ sterowania, realizujący zadania typu GS lub OA, przetestowano na
stanowisku badawczym składającym się z MRK Pioneer
gdzie r, l1 – wymiary wynikające z geometrii MRK,
H 7 - maksymalna prędkość kątowa obrotu ramy MRK.
104
Marcin Szuster
przebieg wartości kąta ψ , zawartego między osią ramy
MRK, a prostą pG.
2-DX, wyposażonego w skaner laserowy przestrzeni
Hokuyo UBG-4LX-F01, układ zasilania oraz komputer
PC z kartą kontrolno-pomiarową dSpace DS1102, oraz
oprogramowaniem Matlab/Simulink i dSpace ControlDesk. Stanowisko badawcze przedstawiono na rys. 5.
Rys. 5. Schemat stanowiska badawczego
6. WYNIKI BADAŃ
W przedstawionym środowisku testowym przeprowadzono szereg eksperymentów weryfikacyjnych zaprojektowanego algorytmu generowania trajektorii w zadaniach typu GS i OA. W dalszej części pracy, w celu
uproszczenia zapisu zmiennych, w oznaczeniach pominięto symbol k. Podczas eksperymentów wartość parametru dyskretyzacji czasu wynosiła h=0.01 [s]. Trajektorie ruchu w zadaniach typu GS i OA były generowane
on-line przez warstwę generowania ruchu i realizowane
przez algorytm sterowania ruchem nadążnym.
Rys. 7. Przebieg wartości odległości lG do celu G4, b) przebieg
wartości kąta ψ
Odległość do celu jest redukowana w trakcie ruchu
MRK, natomiast początkowa wartość kąta
wynika
z orientacji ramy w pozycji startowej. Wartość kąta
jest redukowana w trakcie eksperymentu do wartości
bliskiej zeru, co oznacza, że rama MRK porusza się
w kierunku celu. Wygenerowanie sygnałów sterowania
, których przebiegi przedstawiono odpowiednio
F i
GH
6.1 REALIZACJA ZADANIA TYPU
„PODĄŻAJ DO CELU”
Zrealizowano zadanie typu GS do celów G1(9.5, 5.0),
G2(9.5, 9.5), G3(0.5, 9.5), G4(0.5, 0.5), G5(9.5, 0.5),
przy czym ruch rozpoczynał się w pozycji startowej
punktu A ramy MRK S(5.0, 5.0). Trajektoria ruchu
była generowana na postawie odległości punktu A ramy
MRK do celu G, , oraz orientacji ramy MRK. Tory
ruchu MRK do celów zlokalizowanych w poszczególnych
punktach mapy otoczenia przedstawiono na rys. 6.
na rys. 8.a) i b), umożliwiło realizację zadania typu GS.
Rys. 8. Przebieg wartości sygnału sterowania a) uGv, b)
Rys. 6. Mapa otoczenia z torami ruchu MRK
Sygnały
Poniżej zostaną przedstawione wyniki eksperymentu,
w którym wygenerowana została trajektoria ruchu do
punktu G4(0.5, 0.5), w zadaniu typu GS. Na rys. 7.a)
przedstawiono przebieg odległości do celu lG, na rys. 7.b)
sterowania
F
i
GH
składają
.
GH
się
z sygnałów generowanych przez algorytmy ADHDP oraz
regulator P.
105
ALGORYTMY APROKSYMACYJNEGO PROGRAMOWANIA DYNAMICZNEGO…
W początkowej fazie ruchu duży wpływ na wartości
sygnałów F i GH mają sygnały sterowania generowane
6.2 REALIZACJA ZADANIA TYPU
„OMIJAJ PRZESZKODY”
przez regulator P, ze względu na zastosowanie zerowych
wartości początkowych wag SN struktur ADHDP.
Jednak proces adaptacji wag SN powoduje redukcję
udziału sygnałów sterowania regulatora P w całkowitych
sygnałach sterowania warstwy generowania trajektorii,
gdzie dominujacy wpływ przejmują sygnały
F i
GH
Zrealizowano zadanie typu OA, w którym na
podstawie sygnałów z układu sensorycznego MRK
warstwa
planowania
trajektorii
wygenerowała
bezolizyjną trajktorię ruchu MRK. Tor ruchu MRK
pokazano na rys. 10, gdzie szarymi kropkami zaznaczono
lokalizacje przeszkód wykrytych przez skaner laserowy.
algorytmów ADHDP. Wartość sygnału sterowania
1 powoduje generowanie trajektorii, w której
F
MRK poruszą się z maksymalną zadaną wartością
prędkości, dopiero gdy punkt A znajuje się w zadanej
odległości do celu, prędkość jest redukowana, następuje
etap hamowania i zatrzymanie robota w pobliżu celu.
Wartość sygnału
powoduje wygenerowanie takiego
GH
przebiegu wartości prędkości kątowej obrotu ramy
MRK, aby było możliwe osiągnięcie celu. Na rys. 9.a
przedstawiono przebiegi zadanych prędkości kątowych
obrotu kół, na rys. 9.b wygenerowane sygnały
sterowania ruchem nadążnym MRK, na rys. 9.c
przebiegi wartości błędów nadążania koła 2 MRK.
Rys. 10. Mapa otoczenia z trajektorią ruchu MRK
Bezkolizyjna trajektoria ruchu została wygenerowana
z zastosowaniem sygnałów sterowania hF i hGH ,
przedstawionych na rys. 11.
Rys. 11. Przebieg wartości sygnału sterowania a) uOv, b)
hGH
Składają
się
one
z
sygnałów
sterowania
generowanych przez regulator P oraz sygnałów
sterowania algorytmów ADHDP, których wartości mają
dominujący udział w całkowitych sygnałach sterowania.
Przebiegi wartości wag SN algorytmu ADHDP,
generującego sygnał sterujący uOAv, przedstawiono na
rys. 11. Struktury aktora oraz krytyka zostały
zrealizowane w formie SN RVFL. Zastosowano zerowe
wartości początkowe wag warstw wyjściowych SN,
wartości te pozostają ograniczone w trakcie procesu
generowania trajektorii ruchu MRK Pioneer 2-DX.
Rys. 9. a) Przebiegi wartości zadanych prędkości kątowych kół,
b) sygnały sterowania ruchem nadążnym, c) błędy nadążania
koła 2 MRK
Największe wartości błędów nadążania występują
w początkowym okresie ruchu, ze względu na
zastosowanie zerowych wartości początkowych wag SN.
106
Marcin Szuster
7. PODSUMOWANIE
Zaproponowano hierarchiczny układ sterowania ruchem MRK Pioneer 2-DX, składający się z warstwy
generowania trajektorii ruchu, oraz warstwy realizacji
ruchu. W warstwie generowania trajektorii ruchu zastosowano koncepcję sterowania behawioralnego typu GS
i OA. W układzie sterowania zastosowano algorytmy
APD w konfiguracji ADHDP oraz DHP, z SN RVFL.
Algorytm umożliwia generowanie i realizację trajektorii
ruchu w zadaniu typu GS, z położenia początkowego do
celu, oraz w zadaniu typu OA, gdzie generowana jest
bezkolizyjna trajektoria ruchu MRK, a cel nie jest
sprecyzowany. Zaproponowany algorytm sterowania
działa on-line i nie wymaga fazy wstępnego uczenia wag
SN. Badania weryfikacyjne przeprowadzono z zastosowanie MRK Pioneer 2-DX, wyposażonego w skaner
laserowy przestrzeni Hokuyo UBG-4LX-F01.
Rys. 12. Przebieg wartości wag SN a) krytyka, b) aktora,
algorytmu ADHDP generującego sygnał sterowania uOAv
Literatura
1.
Arkin R. C.: Behavioural-based robotics. Cambridge: MIT Press, 1998.
2.
Burghardt A.: Sterowanie behawioralne minirobota kołowego. „PAK” 2004, Vol. 11, p. 26 - 29.
3.
Drainkov D., Saffiotti A.: Fuzzy logic techniques for autonomous vehicle navigation. New York: Springer, 2001.
4.
Fahimi F.: Autonomous robots: modeling, path planning, and control. New York: Springer, 2009.
5.
Giergiel J., Zylski W.: Description of motion of a mobile robot by Maggie’s Equations. „J. Theor. and App.
Mech.” 2005, 3, Vol. 43, p. 511 - 521.
6.
Giergiel M., Hendzel Z., Żylski W.: Modelowanie i sterowanie mobilnych robotów kołowych. Warszawa: PWN,
2002.
7.
Hendzel Z.: Fuzzy reactive control of wheeled mobile robot. “J. Theor. App. Mech.” 2004, 3, Vol. 42, p. 503 517.
8.
Hendzel Z., Szuster M.: Discrete model-based adaptive critic designs in wheeled mobile robot control.
L. Rutkowski et al. (Eds.): ICAISC 2010, Part II, „LNCS” 2010, Vol. 6114, p. 264 - 271.
9.
Hendzel Z., Szuster M.: Neuronowe programowanie dynamiczne w sterowaniu behawioralnym mobilnym robotem kołowym. „Acta Mech. Automatica” 2011, 1, Vol. 5, p. 28 - 36.
10. Hendzel Z., Szuster M.: Neural dynamic programming in reactive navigation of wheeled mobile robot. L.
Rutkowski et al. (Eds.): ICAISC 2012, Part II, „LNCS” 2012, Vol. 7268, p. 450 - 457.
11. Hendzel Z., Szuster M.: Neural sensor-based navigation of wheeled mobile robot in unknown environment.
„PAR” 2013, 1, p. 114 - 120.
12. Maaref H., Barret, C.: Sensor-based navigation of a mobile robot in an indoor environment. „Robot. Auton.
Syst.” 2002, Vol. 38, p. 1 - 18.
13. Millan J.: Reinforcement learning of goal-directed obstacle-avoiding reaction strategies in an autonomous mobile
robot. „Robot. Auton. Syst.” 1995, 4, Vol. 15, p. 275 - 299.
14. Powell W.B.: Approximate dynamic programming: solving the curses of dimensionality. Princeton: WilleyInterscience, 2007.
15. Prokhorov D., Wunch D.: Adaptive critic designs. „IEEE Trans. Neural Netw” 1997, Vol. 8, p. 997 - 1007.
107