Rola i znaczenie syntezy logicznej w eksploracji

Transkrypt

Rola i znaczenie syntezy logicznej w eksploracji
Tadeusz Łuba*, Grzegorz Borowik*, Karol Kowalski*,
Paweł Pecio*, Cezary Jankowski*, Michał Mańkowski**
Rola i znaczenie syntezy logicznej
w eksploracji danych
dla potrzeb telekomunikacji i medycyny
Metody syntezy logicznej są wykorzystywane głównie do
optymalizacji systemów cyfrowych przetwarzających sygnały
binarne. Ich podstawowym zadaniem jest poprawa implementacji
oraz możliwości odwzorowania systemów w różnych technologiach. Można jednak wykazać, że wiele metod syntezy logicznej, a w szczególności tych wykorzystywanych do optymalizacji
kombinacyjnych układów logicznych, może być z powodzeniem
zastosowanych w typowych zadaniach przetwarzania i wyszukiwania informacji, odkrywania/eksploracji wiedzy, optymalizacji baz
danych, a także w dziedzinie systemów ekspertowych, maszynowego uczenia się czy sztucznej inteligencji.
Przez eksplorację danych, znaną również pod nazwą odkrywania wiedzy w bazach danych, rozumie się proces automatycznego pozyskiwania z baz danych znaczących, ale dotychczas
nieznanych informacji. Dlatego te informacje określa się jako
„ukryte”, a celem jest te informacje wyekstrahować. W wyniku
eksploracji danych można na pewnym poziomie abstrakcji: zdiagnozować pacjenta, przeprowadzić sondaż, np. przed wyborami
prezydenckimi, klasyfikować dane internetowe czy podjąć decyzję
o przyznaniu bądź odrzuceniu kredytu.
Jednym z ważniejszych zastosowań algorytmów eksploracji
danych w telekomunikacji jest wykrywanie anomalii w systemach
i sieciach telekomunikacyjnych. Ponieważ decyzja o wykryciu
anomalii jest podejmowana na podstawie kombinacji reguł
decyzyjnych wygenerowanych przez algorytm dla danych treningowych, algorytm jest typową procedurą uczenia się maszyn.
System tworzy bazę wiedzy, zawierającą wzorce analizowanych
anomalii, a następnie – przy użyciu algorytmu podejmowania
decyzji i klasyfikacji – klasyfikuje bieżące dane. Charakterystycznym przykładem danych treningowych jest baza dla klasyfikacji poczty elektronicznej [21], która zawiera 58 042 rekordów
reprezentowanych przez 64 atrybuty, natomiast celem algorytmu
jest uzyskanie reguł decyzyjnych klasyfikujących dane zgodnie
z następującymi warunkami: y_spam, n_spam, other itd.
Innym zastosowaniem algorytmów eksploracji danych jest
wsparcie diagnostyki medycznej w przypadku różnych chorób.
Wtedy głównym zadaniem algorytmu jest indukcja reguł decyzyjnych, które są obliczane na podstawie wyników badań medycznych zgromadzonych w bazie danych pacjentów. Wygenerowane
reguły decyzyjne (zwane również klasyfikatorami) umożliwiają
diagnozowanie nowego pacjenta. Typowym przykładem bazy
danych oraz jej analizy jest Wisconsin Breast Cancer Database
(źródło: dr William H. Wolberg, University of Wisconsin Hospital,
Madison, Wisconsin, USA). Diagnoza raka piersi dla nowego
pacjenta jest w niej realizowana za pomocą bazy danych o dziewięciu atrybutach i zgromadzonej dla 699 pacjentek [26].
Systemy decyzyjne i kombinacyjne układy logiczne są bardzo
podobne. System decyzyjny jest zwykle opisany przez tablicę
decyzyjną, natomiast kombinacyjny układ logiczny – przez tablicę
prawdy. Atrybuty warunkowe systemu decyzyjnego odpowiadają
* Instytut Telekomunikacji Politechniki Warszawskiej
** Instytut Radioelektroniki, Wydział Elektroniki i Technik Informacyjnych Politechniki Warszawskiej,
e-mail: [email protected], [email protected]
110
zmiennym wejściowym układu logicznego, a atrybuty decyzyjne –
zmiennym wyjściowym. Stąd wiele pojęć z tych obydwu obszarów
może być wzajemnie na siebie odwzorowanych, a podobieństwo
systemów decyzyjnych oraz układów logicznych umożliwia wykorzystanie specjalistycznych metod syntezy logicznej w dziedzinie
eksploracji danych. Na przykład zadanie redukcji danych w systemach informacyjnych jest rozwiązywane przez minimalizację
liczby cech (atrybutów/parametrów), a następnie usunięcie nadmiarowych obiektów. Podobnym zadaniem w dziedzinie syntezy
logicznej jest redukcja argumentów.
Innym zagadnieniem w eksploracji danych jest podejmowanie
decyzji na podstawie wcześniej zgromadzonych danych. Polega
ono na uogólnianiu wiedzy oraz indukowaniu reguł decyzyjnych.
W wyniku indukcji otrzymuje się zbiór reguł logicznych, który
umożliwia podejmowanie decyzji nie tylko dla obiektów należących do bazy pierwotnej, dla której przeprowadzono obliczenia,
ale przede wszystkim dla nowych obiektów do niej nienależących.
Jest to bardzo ważne w przypadku zadań maszynowego uczenia
się. Zagadnieniem analogicznym do indukcji reguł z dziedziny
eksploracji danych jest zagadnienie minimalizacji funkcji logicznych z dziedziny syntezy logicznej. Ze względu na inne interpretacje i aplikacje, zagadnienia te wydają się zupełnie różne,
aczkolwiek jest to stwierdzenie błędne.
Problemem badawczym w zasygnalizowanych zadaniach jest
osiągnięcie dużej szybkości obliczeń i możliwość przetwarzania
coraz większych baz danych. W obliczeniach tych ogromną rolę
mogą odegrać zaawansowane algorytmy syntezy logicznej, stosowane do tej pory tylko do projektowania układów i systemów
cyfrowych [10].
Celem artykułu jest wskazanie i omówienie możliwości zastosowania zaawansowanego algorytmu syntezy logicznej – algorytmu uzupełnienia funkcji boolowskich – w typowych zadaniach
eksploracji danych, takich jak: ekstrakcja cech, indukcja reguł
decyzyjnych i wielu innych. W dalszej części artykułu przedstawiono podstawowy algorytm uzupełnienia funkcji boolowskich
i omówiono możliwości optymalizacji algorytmu uzupełnienia.
Kolejny rozdział pokazuje, w jaki sposób można zredukować
cztery podstawowe algorytmy eksploracji danych do algorytmu
uzupełnienia. W końcowej części artykułu przedstawiono potencjalne możliwości zastosowania algorytmów syntezy logicznej do
eksploracji danych w telekomunikacji oraz praktyczne zastosowanie szybkiego algorytmu dyskretyzacji danych onkologicznych.
Algorytm uzupełnienia funkcji
boolowskich
Podstawowymi pojęciami z dziedziny eksploracji danych są
macierz porównań oraz funkcja rozróżnialności. Znajdują one
zastosowanie m.in. w algorytmach ekstrakcji cech, dyskretyzacji
danych czy indukcji reguł decyzyjnych. Podstawowym zadaniem
algorytmów eksploracji danych jest znajdowanie implikantów
prostych funkcji rozróżnialności. Jak powszechnie wiadomo,
znalezienie implikantów prostych jest problemem o niewielomianowej złożoności obliczeniowej [9, 15] i polega na przekształ-
PRZEGLĄD TELEKOMUNIKACYJNY  ROCZNIK LXXXVII  WIADOMOŚCI TELEKOMUNIKACYJNE  ROCZNIK LXXxIII  nr 5/2014
ceniu koniunkcyjnej postaci normalnej funkcji rozróżnialności
do dysjunkcyjnej postaci normalnej. Znalezienie wszystkich
implikantów prostych monotonicznej funkcji boolowskiej może
zostać zredukowane do obliczenia uzupełnienia tej funkcji, gdzie
uzupełnienie redukuje się do obliczenia pokrycia kolumnowego
macierzy binarnej [6].
Twierdzenie [6]. Każdy wiersz i macierzy C – uzupełnienia
macierzy M – odpowiada pokryciu kolumnowemu L macierzy M,
gdzie j ∈ L wtedy i tylko wtedy, gdy Cij = 1.
Siła algorytmu kryje się w procedurze rozkładu Shannona
monotonicznej funkcji f. Wtedy:
f = x j f xj + f xj .
Zaproponowane podejście bardzo przyspiesza obliczenia,
a wydajna reprezentacja algorytmu w pamięci operacyjnej maszyny obliczeniowej umożliwia osiągnięcie wyników, które nie mogą
być osiągnięte przy użyciu innych publikowanych metod i systemów. Macierz porównań jest rozkładana rekursywnie, aż do
wystąpienia szczególnych postaci uzyskanych kofaktorów. Obliczenie kofaktorów rozpoczyna się od wyboru zmiennej rozkładu.
Odpowiedni wybór zmiennej ma istotne znaczenie dla redukcji
obliczeń. Wybór zmiennej przeprowadza się według następującego algorytmu.
1. Wybieramy wiersz macierzy porównań z największą liczbą zer.
2. W wybranym wierszu wybieramy zmienne, które mają jedynkę.
3. Spośród wybranych w punkcie 2. zmiennych wybieramy tę,
która ma najwięcej jedynek w swojej kolumnie.
Proces rozkładu na kofaktory realizuje się według tej samej
zasady, aż do uzyskania kofaktorów, które zawierają tylko jeden
wiersz. W następnym etapie obliczeń otrzymane kofaktory są
uzupełniane.
1. Jeżeli którykolwiek z kofaktorów zawiera wiersz samych zer,
jego uzupełnieniem jest zbiór pusty.
2. Jeżeli na którymś z poziomów rekursji w kolumnie odpowiadającej wybranej zmiennej rozdzielającej są tylko jedynki, to kofaktor
jedynkowy takiej macierzy też jest pusty. Natomiast w przypadku
otrzymania kofaktora, który jest zbiorem pustym (macierz nie
zawiera żadnych wierszy), jego uzupełnieniem jest tautologia
(wiersz samych zer).
3. Jeżeli kofaktor zawiera tylko jedną jedynkę, jego uzupełnienie
jest identyczne jak kofaktor.
4. Jeżeli kofaktor zawiera więcej niż jedną jedynkę, jego uzupełnienie zawiera tyle wierszy, ile jest jedynek w kofaktorze, przy
czym wszystkie wiersze mają jedynkę (pozostałe pozycje zera) na
pozycjach odpowiadających kolejnym jedynkom kofaktora.
Po obliczeniu uzupełnień na poszczególnych liściach drzewa
rozkładu wyniki cząstkowe są scalane zgodnie ze wzorem:
działanie algorytmu dla dużych macierzy rozróżnialności. W tym
celu rozważono macierz losową o zadanym stosunku p jedynek
w macierzy do rozmiaru macierzy, liczby kolumn m oraz liczby
wierszy n.
1. W przypadku, w którym macierz losowa o liczbie kolumn m
i prawdopodobieństwie p występowania jedynek ma tylko jeden
wiersz, najbardziej prawdopodobne uzupełnienie zawiera mp
wierszy.
2. Jeżeli prawdopodobieństwo wystąpienia pustego wiersza
w macierzy jest większe od 1/2, to jej uzupełnienie nie zawiera
żadnego wiersza.
3. Jeżeli dochodzi do podziału macierzy, jest wybierana zmienna rozdzielająca taka, że liczba jedynek jest równa pn. Dzięki
temu macierz powstała w wyniku przepisania wierszy z zerami
ma parametry p:=p; m:=m–1; n:=n(1–p) oraz macierz powstała
w wyniku wyzerowania kolumny ma parametry p:=p; m:=m–1;
n:=n. W obu przypadkach ignoruje się kolumnę rozdzielającą,
ponieważ nie ma ona wpływu na liczbę reduktów.
Na rys. 1 i 2 przedstawiono wyniki symulacji przeprowadzonej
zgodnie z założeniami. Można z nich wywnioskować, że dla macierzy o małym stosunku jedynek w macierzy czas obliczeń może
znacznie wzrosnąć po podzieleniu jej na mniejsze fragmenty.
Z kolei dla macierzy o dużej koncentracji jedynek, ze względu na
małe nachylenie wykresu, wejściową macierz należałoby podzielić
na bardzo dużo części, żeby uzyskać jakikolwiek zauważalny
zysk w czasie obliczeń. W każdym przypadku trzeba pamiętać
o problemie łączenia wyników w całość, co może okazać się
również dużym utrudnieniem.
„„Rys. 1. Zależność liczby reduktów od liczby wierszy dla różnej
liczby kolumn w macierzy
f = x j f xj + f xj .
Dziel i rządź
W celu przyspieszenia obliczeń dla istniejącej macierzy
porównań, można zastanowić się nad stosunkowo standardowym podejściem „dziel i rządź”. W tym przypadku miałoby to
polegać na liczeniu uzupełnień dla części macierzy porównań
osobno, a następnie połączeniu wyników niezależnych obliczeń
w końcowy rezultat.
Specyfika algorytmu uzupełnienia funkcji boolowskich powoduje, że czas jego wykonywania jest ściśle związany z czasem
usuwania nadmiarowych reduktów. Nadmiarowe redukty są usuwane zgodnie z własnością pochłaniania: a + ab = a, a zadanie
jest realizowane przez porównanie każdej pary reduktów. Odbywa
się to ze złożonością kwadratową, zatem jest ważne badanie,
w jaki sposób liczba wierszy w tablicy porównań wpływa na liczbę
końcowych reduktów (i tym samym na czas obliczeń).
W celu przeprowadzenia takiego badania zaimplementowano model opierający się na kilku założeniach, symulujących
„„Rys. 2. Zależność liczby reduktów od liczby wierszy dla różnej
koncentracji jedynek w 30-kolumnowej macierzy
PRZEGLĄD TELEKOMUNIKACYJNY  ROCZNIK LXXXVII  WIADOMOŚCI TELEKOMUNIKACYJNE  ROCZNIK LXXxIII  nr 5/2014
111
Indukcja reguł decyzyjnych
„„Tabela 1. Porównanie czasów obliczeń (na podstawie [4])
Indukcja reguł decyzyjnych jest
jednym z najważniejszych zadań
ROSE2
RSES/ROSETTA
w eksploracji danych. Reguły decyzyjne indukowane z danych uczących są
House
17
232
1s
1s
187 ms
4
używane do klasyfikowania nowych
obiektów. Przez nowe obiekty rozumie
Breast-cancerdiscerns
10
699
2s
823 ms
27
się takie, które nie służyły do indukcji.
wisconsin
missing*
Znany jest ich opis za pomocą wartoout of
ści atrybutów, natomiast celem klaKAZ
22
31
memory**
70 min
234 ms
5574
syfikowania jest przyporządkowanie
(30 min)
obiektu do odpowiedniej klasy decydiscerns
out of memory
zyjnej. Jeżeli dla klasyfikowanego
Trains
33
10
6 ms
689
missing
(5 h 38 min)
obiektu znana jest ponadto jego rzekr-vs-kp
37
3196
16 s
1 m 31 s
1 m 15 s
4
czywista klasyfikacja, to nazywa się go
przykładem testowym, gdyż możliwe
Agaricusdiscerns
jest wtedy porównanie proponowanej
lepiota23
8124
29 min
4 m 47 s
507
missing
decyzji klasyfikacyjnej z rzeczywistą.
mushroom
Klasyfikowanie obiektów opiera się na
out of
out of memory
dostosowaniu opisu obiektu do części
Urology
36
500
memory
42 s 741 ms
23 437
(12 h)
warunkowych reguł decyzyjnych.
(2h 29 min)
Problem znalezienia minimalnediscerns
out of memory
Audiology
71
200
14 s 508 ms
37 367
go
zbioru
reguł, który pokrywa zbiór
missing
(1 h 17 min)
przykładów i poprawnie je klasyfiout of memory
discerns
kuje, jest NP-zupełny. W dowodach
Dermatology
35
366
3 m 32 s
143 093
missing
(3 h 27 min)
wykorzystuje się transformację tego
discerns
out of memory
problemu do problemu minimalneLung-cancer
57
32
111 h 57 m 3 604 887
missing
(5 h 20 min)
go pokrycia zbioru [1, 6]. Najbardziej
znane z dotychczas zaproponowa* przerwane obliczeń z powodu występowania wartości nieokreślonych
nych opierają się na zasadzie gene** brak pamięci operacyjnej
rowania kolejnych pokryć (Sequential covering). Polegają one na uczeniu się pojedynczej reguły,
Zastosowanie algorytmu
usuwaniu przykładów, które ona pokrywa i powtarzaniu procesu
uzupełnienia
dla pozostałych przykładów. W rezultacie powstaje zbiór reguł
w zadaniach eksploracji danych pokrywających rozważany zbiór przykładów. Inną metodąa indukcji reguł zastosowano w algorytmie LEM2 który zaproponował
Ekstrakcja cech
Grzymala-Busse [7].
Dla binarnego systemu decyzyjnego z tabeli 2 otrzymuje
Do zadań określanych mianem redukcji wiedzy należy uproszsię przy użyciu procedury LEM2 z programu RSES2 [25] wynik
czenie systemu decyzyjnego z punktu widzenia minimalnego
zbioru cech/atrybutów zachowujących zdolności klasyfikacyjne następujący:
(a2,1) & (a3,0) & (a1,0) & (a4,0) → (d,1),
systemu [16]. Redukcja wiedzy w systemach decyzyjnych polega
(a2,1) & (a1,1) & (a4,0) & (a3,0) & (a5,0) → (d,1),
na wyznaczaniu tak zwanych reduktów oraz ewentualnie usuwa(a2,1) & (a1,1) & (a3,1) → (d,1),
niu nadmiarowych obiektów. Wybór podzbioru atrybutów odgrywa
(a
,0) & (a2,1) & (a3,0) & (a4,1) & (a5,0) → (d,1),
ważną rolę w odkrywaniu wiedzy – jest podstawą do wydajniejszej
1
(a1,1) & (a2,1) & (a3,0) & (a4,0) & (a5,1) → (d,0),
klasyfikacji, predykcji i budowy modeli przybliżonych [20].
(a1,0) & (a2,1) & (a4, 1) & (a5,1) → (d,0),
Obliczanie reduktów można sprowadzić do wyznaczenia impli(a
,0) & (a1,0) & (a2,0) → (d,0).
kantów prostych funkcji rozróżnialności [4], a przeprowadzone
4
eksperymenty potwierdziły niezwykłą skuteczność ekstrakcji cech
przy zastosowaniu algorytmu uzupełnienia funkcji boolowskich
Stosując system ESPRESSO (typowy program minimalizacji
(tabela 1). Interesującymi bazami danych, dla których przeprofunkcji boolowskich), dla decyzji o wartości 1, otrzyma się wyrawadzono obliczenia, są bazy medyczne, np. baza audiology czy
żenie logiczne:
baza dermatology [26]. W pierwszej z nich liczba obiektów jest
„„Tabela 2. Binarny system d = a1a3 + a1a4a5 + a2a5,
równa 200 i zawiera wyniki badań choroby związanej ze słuchem,
a dla decyzji o wartości 0:
sklasyfikowanej do 24 różnych klas. Dla dermatology database decyzyjny
d = a2 + a1a3a5 + a4a5.
a1 a2 a3 a4 a5 d
istnieje 366 instancji oraz 34 atrybuty. Porównano czas obliczeń
metody ekstrakcji cech z zastosowaniem algorytmu uzupełnie1 1 1 0 0 0 1
Wyrażenia otrzymane z systemu
nia funkcji boolowskich do czasu obliczeń systemów eksploracji
2 0 1 0 0 0 1 ESPRESSO można zapisać w kondanych. Porównanie przeprowadzono również dla znanego na
3 1 1 1 0 1 1 wencji reguł decyzyjnych:
świecie przykładu prostej bazy danych house [26], ale istotnego
4 0 1 0 0 1 1 (a 1) & (a ,1) → (d,1),
o tyle, że ma ona wiele atrybutów o wartościach nieokreślonych.
1,
3
5 0 1 0 1 0 1
Jest to binarny przykład bazy danych zgromadzonych przed
(a1,0) & (a4,0) & (a5,1) → (d,1),
6 0 1 1 1 1 0
wyborami prezydenckimi w Stanach Zjednoczonych. Kolejnym
(a2,1) & (a5,0) → (d,1),
przykładem jest przykład problemu transportowego trains [26].
7 0 0 0 0 0 0
(a2,0) → (d,0),
W tym przypadku nie jest możliwe uzyskanie wyniku za pomocą
8 1 1 0 0 1 0
oprogramowania RSES, ROSETTA czy ROSE2 [23, 24, 25]. Dla
9 0 1 0 1 1 0 (a1,1) & (a3,0) & (a5,1) → (d,0),
porównania metoda zbudowana na algorytmie syntezy logicznej
10 0 0 1 0 0 0 (a ,1) & (a ,1) → (d,0),
podaje wynik obliczeń w czasie 6 ms.
4
5
Baza danych
112
Liczba
atrybutów
Liczba
obiektów
Oprogramowanie
Metoda
uzupełnienia
Liczba
reduktów
PRZEGLĄD TELEKOMUNIKACYJNY  ROCZNIK LXXXVII  WIADOMOŚCI TELEKOMUNIKACYJNE  ROCZNIK LXXxIII  nr 5/2014
W celu porównania wyniku procedury LEM2 do wyniku procedury ESPRESSO uzyskane formuły z LEM2 można zapisać
w konwencji wyrażeń boolowskich:
d = a 1a 2a 3a 4 + a 1a 2a3a 4a 5 + a1a 2a 3 + a 1a 2a3a 4a 5
d = a 1a 2a 3a 4a 5 + a 1a 2a 4a 5 + a1a 2a 4.
W porównaniu do procedury LEM2 system ESPRESSO umożliwia osiągnięcie wyników, które zawierają – w sensie zbiorów –
wyniki algorytmu eksploracji danych. Świadczy to o tym, że wynik
osiągnięty za pomocą metod syntezy logicznej jest „bardziej ogólny”. Można się zatem zastanowić, w jaki sposób – wprowadzając do procesu wnioskowania boolowskiego procedury syntezy
logicznej – algorytm uogólniania reguł decyzyjnych sprowadzić
do stosowanej w metodzie ESPRESSO [6] procedury ekspansji
i uzupełniania. Wstępne prace autorów wykazały, że procedury
ekspansji i uzupełniania można przystosować do zadań eksploracji danych w algorytmie wykonującym następujące obliczenia.
1. Wyznaczenie macierzy rozróżnialności dla obiektu ui ustalonej
klasy decyzyjnej.
2. Obliczenie wszystkich uogólnionych reguł obiektu ui.
3. Obliczenie rodziny minimalnych uogólnionych reguł klasy
decyzyjnej Dk.
4. Wyznaczenie tablicy pokryć klasy Dk.
Chcąc uzyskać minimalny zbiór reguł (niekoniecznie o najmniejszej liczności) reprezentujących klasę Dk. należy utworzyć
tablicę pokryć (TP). Tablicą pokryć jest binarna tablica o liczbie
kolumn n (n jest licznością rodziny R(Dk )) i liczbie wierszy równej
k (k– liczba obiektów klasy Dk). Element TP(i,j) tej tablicy przyjmuje wartość 1, gdy reguła ri jest równa wartości tego atrybutu
w obiekcie ui, w przeciwnym przypadku 0.
5. Obliczenie minimalnego zbioru uogólnionych reguł klasy Dk.
Minimalny zbiór uogólnionych reguł reprezentujących (pokrywających) klasę Dk można wyznaczyć, obliczając minimalne
pokrycie kolumnowe TP.
Z powyższych rozważań wynika, że zadanie indukcji reguł
decyzyjnych ustalonej klasy Dk jest analogiczne do zadania minimalizacji funkcji boolowskiej f = (F, R), w której wektory zbioru F odpowiadają obiektom klasy Dk, a macierzą rozróżniającą
jest – tworzona z macierzy R – macierz blokująca [6]. Złożoność
obliczeniową tego problemu można oszacować złożonością
obliczeniową zadania minimalizacji funkcji boolowskiej. Obliczeniem decydującym o eksplozji kombinatorycznej tego problemu
jest zatem obliczenie wszystkich pokryć kolumnowych tablicy
pokryć. O złożoności tego problemu decyduje szybko rosnąca (ze
wzrostem liczby atrybutów) liczność rodziny minimalnych reguł
klasy Dk. Zatem obliczenia uogólnionych reguł decyzyjnych dla
rzeczywistych baz danych muszą być – przynajmniej dla tablicy
pokrycia – realizowane algorytmami heurystycznymi. Skuteczna w redukcji atrybutów procedura uzupełniania (Complement)
może być natomiast zastosowana głównie do obliczania zbioru
minimalnych reguł dla pojedynczych obiektów ui.
Należy jednak podkreślić, że jest to nowa strategia obliczeniowa, której istotą jest przesunięcie algorytmów heurystycznych
na wyższy poziom obliczeń.
Dyskretyzacja
Głównym problemem w realizacji systemów eksploracji
danych jest efektywna dyskretyzacja danych liczbowych (numerycznych) dla atrybutów warunkowych. Na przykład atrybuty
bazy danych Indian Pima Database Diabetes [26] dotyczą: liczby
przebytych ciąży, stężenia glukozy w osoczu w dwugodzinnym
doustnym teście tolerancji glukozy, ciśnienia rozkurczowego
(mm Hg), grubości fałdu skóry w tricepsie (mm), dwugodzinnego poziomu insuliny w surowicy (µU/ml), wskaźnika masy ciała
(waga w kg /(wzrost w m)2), funkcji rodowodu cukrzycy, wieku,
oraz klasy decyzyjnej (0 lub 1). Większość z tych cech ma wartości
numeryczne, więc dla właściwej analizy tej bazy danych należy
te wartości poddać kwantyzacji. Z podobnym problemem mamy
do czynienia w klasyfikacji poczty elektronicznej (e-mail), gdzie
rekordy charakteryzujące różne parametry sieciowe, wykorzystywane do analizy i wykrywania anomalii, często są podane jako
wartości numeryczne.
Podstawowa metoda dyskretyzacji danych polega na wyznaczaniu przedziałów wartości danych numerycznych, które docelowo reprezentują atrybuty dyskretne [9]. Zakładane przedziały
uzyskane dla proponowanego zestawu cięć są następnie analizowane w celu uzyskania minimalnego zbioru cięć różnicującego obiekty wyróżnionych klas decyzyjnych. Zadanie to można
sprowadzić do wyboru minimalnego zbioru cięć przy użyciu
transformacji monotonicznej funkcji boolowskiej w postaci CNF
do postaci DNF.
Niech A będzie systemem decyzyjnym podanym w tabeli 3,
a przedziały wartości atrybutów wynoszą odpowiednio: r(ut, a) ∈
[1;4], r(ut, b)∈ [0;2].
Z tabeli 3 wynika, że wartości atrybutów dla podanych obiektów U wynoszą:
ρ(uj, a)∈{1,6; 1,8; 2,0; 2,6; 2,8; 3,2},
ρ(uj, b)∈{0,25; 0,4; 0,5; 1,0; 1,5}.
„„Tablela 3. Przykładowy
system decyzyjny
Dyskretyzacja systemu polega na
A
a
b
d
konstrukcji podziałów P dla poszczegól2,6
1,5
0
u1
nych przedziałów wartości atrybutów V.
2,0 0,25 0
u2
Następnie rzeczywista wartość atrybutu
1,6
1,0
1
u3
jest zamieniana na odpowiadający pod2,8
0,5
1
u
4
przedział, tzn. zawierający daną wartość
2,8
1,0
0
u
atrybutu.
5
3,2
1,5
1
u6
W pierwszym etapie konstrukcji
1,8
0,4
0
u7
proponuje się cięcia, będące zbiorem
wszystkich reprezentantów podprze2,6
0,5
1
u8
działów wyznaczonych przez kolejne
wartości obiektów rozpatrywanego atrybutu i różnych od jego
wartości. Zakłada się, że podprzedziałowi odpowiada tylko jeden
punkt, na przykład mogą to być średnie arytmetyczne wartości
krańcowych podprzedziałów. Otrzymuje się wtedy następujący
zbiór cięć:
(a, 1,3), (a, 1,7), (a, 1,9), (a, 2,3), (a, 2,7), (a, 3,0), (a, 3,6),
(b, 0,125), (b, 0,325), (b, 0,45), (b, 0,75), (b, 1,25), (b, 1,75).
Można zauważyć, że pojedyncze cięcie definiuje nowy binarny
atrybut warunkowy, np. dla atrybutu a i cięcia (a, 1,9) przyjmuje się
wartość 0, jeśli ρ(uj, a) < 1,9, w przeciwnym przypadku wartość 1.
Inaczej mówiąc, obiekty położone po różnych stronach wartości
ρ = 1,9 są rozróżniane przez to cięcie. Stąd powyższy zbiór cięć
może zostać zredukowany do:
(a, 1,7), (a, 1,9), (a, 2,3), (a, 2,7), (a, 3,0),
(b, 0,325), (b, 0,45), (b, 0,75), (b, 1,25),
ponieważ pozostałe cięcia nie wykonują żadnego rozróżnienia.
Stawiając sobie za zadanie otrzymanie minimalnego zbioru
cięć rozróżniającego wszystkie obiekty systemu decyzyjnego,
przeprowadza się drugi etap konstrukcji. Niech C będzie zbiorem
proponowanych cięć, tzn. C = {ca1, ca2, ca3, ca4, ca5, cb1, cb2, cb3,
cb4}, gdzie:
ca1 = (a, 1,7), ca2 = (a, 1,9), ca3 = (a, 2,3), ca4 = (a, 2,7), ca5 = (a, 3,0),
cb1 = (b, 0,325), cb2 = (b, 0,45), cb3 = (b, 0,75), cb4 = (b, 1,25).
Niech χ(ui, uj) będzie funkcją rozróżnialności względem zbioru
cięć, zdefiniowaną dla pary różnych obiektów (ui, uj) o różnych
decyzjach. Na przykład aby rozróżnić obiekty u1 oraz u3, użyje
się cięcia ca1 lub ca2 lub ca3 lub cb4. Wtedy:
χ(u1, u3) = ca1 + ca2 + ca3 + cb4,
χ(u1, u4) = ca4 + cb3 + cb4,
χ(u1, u6) = ca4 + ca5,
χ(u1, u8) = cb3 + cb4,
χ(u2, u3) = ca1 + ca2 + cb1 + cb2 + cb3,
χ(u7, u8) = ca2 + ca3 + cb2.
Stąd, aby dokonać rozróżnienia pomiędzy wszystkimi obiektami o różnej decyzji, tworzy się wyrażenie boolowskie, będące
PRZEGLĄD TELEKOMUNIKACYJNY  ROCZNIK LXXXVII  WIADOMOŚCI TELEKOMUNIKACYJNE  ROCZNIK LXXxIII  nr 5/2014
113
koniunkcją powyższych formuł. Przekształcając otrzymaną formę
w postaci iloczynu sum boolowskich do postaci sumy iloczynów,
otrzymuje się wszystkie minimalne zbiory cięć spełniające założenia. Po przekształceniu wyrażenia otrzymuje się:
ca3 ca5 cb3 + ca2 ca5 cb1 cb3 + ca1 ca5 cb2 cb3 + ca2 ca5 cb2 cb3
+ ca3 ca4 cb3 cb4 + ca4 cb2 cb3 cb4 + ca2 ca4 cb1 cb3 cb4.
Przykładowym zbiorem cięć jest więc {ca3, ca5, cb3}. Ostatecznie, przyjmując kodowanie podziałów:
Pa = {[1; 2,3), [2,3; 3,0), [3,0; 4]} = {0, 1, 2}
Pb = {[0; 0,75), [0,75; 2]} = {0, 1},
otrzymuje się dyskretny system decyzyjny zaprezentowany
w tabeli 4, który po usunięciu nadmiarowych wierszy przyjmuje
postać z tab. 5.
Nietrudno zauważyć, że oblicze„„Tabela 4: System decyzyjny po dyskretyzacji
nia mające na celu przekształcenie
formuły CNF w DNF można przeproA
a
b
d
wadzić stosując – omówiony już wcześniej – algorytm uzupełnienia funkcji
1
1
0
u1
boolowskiej, który następnie został
0
0
0
u2
wykorzystany do obliczania reduktów
0
1
1
u3
tablic decyzyjnych. Jest to możliwe ze
względu na fakt, ze wyrażenie logicz1
0
1
u4
ne w postaci monotonicznej funkcji
1
1
0
u5
boolowskiej CNF może być repre2
1
1
u6
zentowane macierzą binarną. Wtedy
proces przekształcania CNF do DNF
0
0
0
u7
redukuje się do procesu obliczenia
1
0
1
u8
minimalnych pokryć kolumnowych
„„Tabela 5. Uproszczony tej macierzy.
system z tabeli 4
Mimo ogromnej złożoności obliczeniowej, tak zorganizowany algorytm
A
a
b
d
dyskretyzacji może znaleźć zastosowa1
1
0
{u1, u5}
nie w zadaniach wyznaczania punktów
0
0
0
{u2, u7}
odcięcia parametrów diagnostycznych
niektórych chorób (patrz następny roz0
1
1
u3
dział). Oczywiście w ogólnym przy1
0
1
{u4, u8}
padku typowych numerycznych baz
2
1
1
u6
danych algorytm uzupełniania przekracza barierę złożoności obliczeniowej
dopuszczalnej dla aktualnie stosowanych komputerów. Wtedy
trzeba stosować odpowiednie algorytmy heurystyczne [8].
Zastosowania praktyczne
Telekomunikacja i radiokomunikacja
Eksploracja danych znajduje szerokie zastosowanie w telekomunikacji, w tym do wspomagania obserwacji ruchu w sieci oraz
przy tworzeniu filtrów klasyfikujących wiadomości elektroniczne
jako poprawne lub jako spam. W pracach [8, 14] przeprowadzono
eksperymenty, mające zweryfikować przydatność algorytmów
syntezy logicznej do stworzenia modułu filtru antyspamowego.
Do eksperymentów wybrano bazę Spambase Data Set z repozytorium [26]. Zawiera ona 4601 instancji, z których 1813 (39,4%)
stanowi spam.
Tablica danych bazy Spambase nie jest całkowicie spójna –
istnieją trzy pary sprzecznych obiektów. Każda wiadomość jest
opisana 57 atrybutami numerycznymi oraz klasą decyzyjną („1”
oznacza spam, a „0” poprawną wiadomość). Wśród cech znajduje
się 48 opisujących częstość występowania pewnego słowa w wiadomości, 6 – częstość występowania pewnego znaku. Kolejne
2 określają odpowiednio średni i najdłuższy ciąg składający się
tylko z wielkich liter. Ostatni atrybut stanowi sumaryczną liczbę
wielkich liter w wiadomości.
Trzeba podkreślić, że te cechy nie są wystarczające, aby stworzyć pełnowartościowy filtr antyspamowy. Klasyfikacja wiadomości jest bardzo złożonym procesem i takie odkrywanie wiedzy
z tych danych może stanowić jedynie pewien moduł. Jednak dla
114
celów pokazowych wybrana baza stanowi wystarczające przybliżenie komercyjnie zbieranych danych. Eksperymenty wykazały,
że zastosowanie nowych strategii obliczeniowych (omówionych
w poprzednim rozdziale) poprawia parametr pokrycia (Accuracy)
względem systemu RSES o ok. 3%.
Innym zastosowaniem jest badanie propagacji fal radiowych.
Zależy ona od wielu czynników. Są wśród nich zarówno te możliwe
do uwzględnienia na etapie projektowania sieci, jak i takie, których
nie udało się przewidzieć lub nie jest możliwe jednoznaczne określenie ich wpływu na planowaną transmisję. Czynniki te mogą być
zarówno stałe w czasie i przestrzeni, jak i zmienne – występujące
tylko przez określony czas bądź na określonym obszarze. Przykładowo, projektując linię radiową, bierze się pod uwagę ukształtowanie terenu bądź zalesienie, które uznaje się za niezmienne.
Można teoretycznie ustalić wpływ zjawisk atmosferycznych na
transmisję, ale nie jest się w stanie opisać ich wyrażeniem, od
którego można by uzależniać parametry transmisji w czasie. Przyjmuje się określoną sprawność linii radiowej, statystyczny rozkład
czasowy zjawisk i na tej podstawie tak ustala parametry łącza,
aby otrzymać zadaną sprawność. Podejście to powoduje, że przy
sprzyjających warunkach parametry są przewymiarowane, zaś
przy skrajnie niesprzyjających transmisja nie dojdzie do skutku
bądź nie osiągnie się oczekiwanych rezultatów.
Podobnie jest w przypadku mobilnych użytkowników sieci
radiowej, np. abonentów telefonii komórkowej. Celem operatora
jest zapewnienie możliwie największej pojemności i jakości sieci.
Idealne byłoby rozwiązanie, w którym zarówno stacja bazowa, jak
i użytkownicy, mogą w czasie rzeczywistym dostosować się do
warunków, osiągając możliwie najwyższą jakość [17].
Jednym z proponowanych rozwiązań, wychodzącym naprzeciw wspomnianym oczekiwaniom, jest technika inteligentnych
anten. Nie należy tu jednak traktować pojęcia anteny w dosłownym znaczeniu tego słowa. W świetle ostatnich koncepcji jako
antenę należy rozumieć cały układ nadawczo-odbiorczy, od
źródła sygnału (często cyfrowego) po promienniki i odbłyśniki.
Fundamentem tego podejścia jest twierdzenie, zgodnie z którym
system sam mógłby się najlepiej dostosować do stawianych mu
wymagań, gdyby był w stanie jednocześnie ocenić środowisko
radiowe i sieć co najmniej tak dobrze, jak zrobi to operator oraz
gdyby miał algorytmy analizy na tyle wydajne, by móc w czasie
rzeczywistym generować wyniki i na ich podstawie modyfikować swoje działanie. Pewnym odzwierciedleniem tego poglądu
jest stosowane już od czasów GSM sterowanie mocą w sieciach
telefonii komórkowej bądź wprowadzone później sterowanie krotnością modulacji kwadraturowej w zależności od poziomu strat.
Z kolei transmisja w technice Bluetooth próbuje zaradzić częstym
i nieprzewidzianym zakłóceniom w paśmie 2,4 GHz techniką frequency hopping. Jednak stosowane dzisiaj rozwiązania są tylko
pewnymi elementami bardziej ogólnej koncepcji inteligentnych
anten i nie zapewniają kompleksowego rozwiązania. Są też tylko
na tyle inteligentne, na ile zaplanował to projektant. Rozwiązania te
nie potrafią rozwijać swoich możliwości na podstawie zebranego
doświadczenia. Czyni to producent sprzętu, uwzględniając zdobytą wiedzę w kolejnej aktualizacji sprzętu bądź oprogramowania.
Właśnie na tym polu pojawia się możliwość zastosowania
algorytmów sztucznej inteligencji, a w tym algorytmów syntezy
logicznej. Proces analizy danych, redukcji nadmiarowej informacji oraz generowania reguł decyzyjnych jesteśmy już w stanie
przekazać samym urządzeniom, bez potrzeby angażowania do
tego procesu człowieka. Za pomocą szybkich algorytmów (np.
algorytmu uzupełnienia funkcji boolowskich) możliwe stało się
redukowanie ogromnych zbiorów danych w czasie wystarczającym, by algorytm mógł działać w reżimie czasu rzeczywistego.
Z drugiej strony rozwiązania te są na tyle proste i wydajne, że
stało się możliwie ich zaimplementowanie już nie tylko na pojedynczym komputerze, ale także na jednordzeniowych mikrokontrolerach ARM. Dzięki temu istnieje fizyczna możliwość zbierania
danych o transmisji, zarówno w warstwie fizycznej, jak i dostępu
PRZEGLĄD TELEKOMUNIKACYJNY  ROCZNIK LXXXVII  WIADOMOŚCI TELEKOMUNIKACYJNE  ROCZNIK LXXxIII  nr 5/2014
do medium oraz ich analizy w czasie rzeczywistym. Można gromadzić dane mające wpływ na jakość transmisji – od warunków
propagacji, temperatury, skali opadów, przez moc zakłóceń, aż
po obciążenie sieci. Po stronie odbiornika jest możliwość badania
jakości łącza, stopy błędów, można zweryfikować, czy stosowany rozmiar informacji nadmiarowej jest odpowiedni oraz czy
użytkownik osiągnął oczekiwaną jakość łącza w przypadku sieci
stosujących algorytmy QoS. Dzięki znajomości pełnego stanu
środowiska układ nadawczo-odbiorczy może sam dopasować
dynamicznie parametry transmisji, tak aby spełnić cele zadane
przez operatora. Przechodzi się zatem od sieci, której architekturę ustala operator, do sieci celów. Sieć celów – na podstawie
wiedzy o swoim stanie i zdobytym doświadczeniu – sama dąży
do osiągnięcia stawianych wymagań. W idealnym przypadku
operator lokuje sieć jako zespół identycznych urządzeń z pewną
podstawową wiedzą. Z czasem każde z nich dostosowuje transmisję do warunków, w jakich się znajduje.
Zastosowanie algorytmów sztucznej inteligencji w technice
transmisji bezprzewodowej [17] może znacznie poprawić efektywność wykorzystania pasma przez możliwie najlepsze dostosowanie w chwili transmisji. Dodatkowo takie dostosowanie ma
niebagatelne znaczenie w przypadku transmisji w środowiskach
o dużych zakłóceniach lub zwiększonych wymaganiach bezpieczeństwa. Nie trudno znaleźć zastosowanie dla algorytmów
inteligentnej transmisji w systemach komunikacji ratowniczej bądź
wojskowej, gdy w parze z wysokimi wymaganiami dotyczącymi
jakości i dostępności łączy idzie także ich odporność na zakłócenia oraz ingerencję osób trzecich.
Medycyna
Przy współpracy Centrum Onkologii – Instytutem im. Marii
Skłodowskiej-Curie w Warszawie przeprowadzono badania dotyczące wyznaczania punktu odcięcia dla parametru Topoisomerase II-alfa (TOP2) z wykorzystaniem opracowanych w Zakładzie
Podstaw Telekomunikacji Politechniki Warszawskiej metod analizy
danych. Do badań wykorzystano dane kliniczne zgromadzone
w latach 1988–2002 w Instytucie Matki i Dziecka w Warszawie.
Wybrano jednorodną grupę pacjentów poniżej 25 roku życia,
chorych na kostniakomięsaka (osteosarcoma) – złośliwy, pierwotny nowotwór tkanki kostnej. Z badań wykluczono chorych
z niekorzystnymi czynnikami prognostycznymi [13].
W analizie uwzględniono następujące parametry kliniczne:
wiek, płeć, lokalizację guza, wielkość guza, złamanie patologiczne, podtyp mięsaka kości, reakcję histologiczną na chemioterapię
przedoperacyjną, rodzaj zabiegu. Parametrem decyzyjnym było
przeżycie pacjenta.
Analizę statystyczną przeprowadzono z użyciem komercyjnego pakietu oprogramowania SPSS wersja 12. Punkt odcięcia
rozstrzygnięto badając wskaźnik wiarygodności (likelihood ratio).
Początkowo dla parametru TOP2 założono trzy punkty odcięcia:
10%, 25% i 40%. Najwyższy wynik LR = 2 uzyskano dla cięcia
25%. Następnie przeprowadzono wiele testów statystycznych,
m.in. test chi2, mających na celu zbadanie zależności pomiędzy
parametrami i parametrem TOP2 dla punktu odcięcia równego
25%. W analizie jednoczynnikowej użyto estymatora Kaplana-Meiera oraz testu log-rank. W analizie wieloczynnikowej zmiennych
zależnych od czasu użyto modelu proporcjonalnego hazardu
Cox-a dla parametrów istotnych statystycznie w teście log-rank
(p <0,05) lub takich, które wykazywały tendencję statystyczną
(p <0,1). Badania miały na celu uzasadnić wybór cięcia w punkcie
25% dla TOP2 [13].
Punkt odcięcia dla parametru TOP2 został niezależnie wyznaczony za pomocą unikalnej metody dyskretyzacji danych. Analizę
rozpoczęto od określenia początkowego zestawu 39 cięć {2,5;
5; 7,5; 10; 12,5; 15; 17,5; 20; 22,5; 25; 27,5; 30; … ; 95; 97,5} dla
parametru TOP2 (w procentach). To samo nastąpiło w przypadku innych parametrów bazy danych, tj. dla parametrów: „wiek,”
„„Rys.3. Rozkład cięć dla parametru TOP2
„płeć,” „lokalizacja guza,” „wielkość guza,” „złamanie patologiczne,” „podtyp osteosarcoma,” „odpowiedź histologiczna,” „typ
operacji,” dla których założono cięcia jako średnie arytmetyczne
z kolejnych wartości, natomiast dla parametru „żywe utkanie”
założono punkt odcięcia równy 10%. Następnie cięcia były analizowane tak, aby uzyskać minimalny zestaw cięć przy zachowaniu
możliwości klasyfikacji. Aby wykonać to zadanie, obliczono implikanty proste funkcji rozróżnialności z wykorzystaniem algorytmu
uzupełnienia funkcji boolowskich. W rezultacie otrzymano 225 310
możliwych minimalnych zestawów cięć dla rozpatrywanych parametrów. Późniejsza analiza ilościowa wykazała, że dla 95 201
rozwiązań punkt odcięcia dla TOP2 jest równy 25%. Rozkład cięć
dla parametru TOP2 pokazano na rys. 3.
***
Przeprowadzona analiza algorytmu uzupełnienia oraz wykonane eksperymenty potwierdzają, że istniejące komputerowe
narzędzia eksploracji danych nie w pełni wykorzystują możliwości
metod opracowanych dla potrzeb syntezy logicznej, stosowanej
w projektowaniu systemów cyfrowych. Między innymi pokazano,
że zastosowanie algorytmu uzupełnienia funkcji boolowskich
w typowych procedurach eksploracji danych przyśpiesza proces
obliczania reduktów. Następuje to w tak znacznym stopniu, że
realne staje się systematyczne obliczanie wszystkich reduktów
o najmniejszej liczności, co dotychczas było niemożliwe do wykonania za pomocą istniejących systemów eksploracji danych [23,
24, 25]. Oczywiście bariera złożoności obliczeniowej systematycznego obliczania reguł nie znika, przesuwa się tylko „punkt
ciężkości” tych obliczeń.
Implementacja algorytmu uzupełnienia według autorskiego
pomysłu w znacznym stopniu przyspieszyła obliczenia i umożliwiła obliczenia praktyczne. Między innymi przeprowadzono kilka
eksperymentów obliczeniowych przy współpracy z Centrum Onkologii – Instytutem im. Marii Skłodowskiej-Curie w Warszawie.
Literatura
[1] Andersen T. L., Martinez T.R.: Learning and generalization with bounded
order rule sets, in: Proc. of 10th Int. Symp. On Computer and Information Sciences, 1995
[2] Borowik G.: Boolean function complementation based algorithm for
data discretization, in: Moreno-Díaz R., Pichler F.R., Quesada-Arencibia
A. (eds.) Computer Aided Systems Theory – EUROCAST 2013, vol.
8112, Springer Heidelberg (2013)
[3] Borowik G.: Data mining approach for decision and classification systems using logic synthesis algorithms, in: Klempous R., Nikodem J.,
Jacak W., Chaczko Z. (eds.) Advanced Methods and Applications
in Computational Intelligence, Topics in Intelligent Engineering and
Informatics, vol. 6, Springer International Publishing (2014), doi:
10.1007/978-3-319-01436-4_1
[4] Borowik G., Łuba T.: Fast algorithm of attribute reduction based on
the complementation of Boolean function, in: Klempous R., Nikodem
J., Jacak W., Chaczko Z. (eds.) Advanced Methods and Applications
in Computational Intelligence, Topics in Intelligent Engineering and
Informatics, vol. 6, Springer International Publishing (2014), doi:
10.1007/978-3-319-01436-4_2
PRZEGLĄD TELEKOMUNIKACYJNY  ROCZNIK LXXXVII  WIADOMOŚCI TELEKOMUNIKACYJNE  ROCZNIK LXXxIII  nr 5/2014
115
[5] Borowik G.: Wpływ algorytmów syntezy logicznej na skuteczność eksploracji danych w medycynie i telekomunikacji. Materiały XIV Seminarium
Radiokomunikacja i Techniki Multimedialne. Fundacja Wspierania Rozwoju Radiokomunikacji i Technik Multimedialnych. Warszawa 2014
[6] Brayton R. K., Hachtel G. D., McMullen C. T., Sangiovanni-Vincentelli
A.: Logic Minimization Algorithms for VLSI Synthesis. Kluwer Academic
Publishers (1984)
[7] Grzymala-Busse J.W., Wang A.Y.: Modified algorithms LEM1 and LEM2
for rule induction from data with missing attribute values, in: Proc. of
5th Int. Workshop on Rough Sets and Soft Computing (RSSC’97) at
JCIS’97, 1997
[8] Jankowski C.: Dyskretyzacja danych numerycznych metodami
przekształceń boolowskich. Praca dyplomowa inżynierska. Instytut
Telekomunikacji. Politechnika Warszawska. Warszawa 2014
[9] Komorowski J., Pawlak Z., Polkowski L., Skowron A.: Rough sets:
A tutorial, (1999)
[10]Łuba T.: Programowalne układy przetwarzania sygnałów i informacji.
Wydawnictwa Komunikacji i Łączności, Warszawa (2008)
[11]Łuba T., Rybnik J.: Rough sets and some aspects in logic synthesis, in:
Słowiński R. (ed.) Intelligent Decision Support – Handbook of Application and Advances of the Rough Sets Theory. Kluwer Academic
Publishers (1992)
[12]Łuba T., Lasocki R., Rybnik J.: An Implementation of Decomposition
Algorithm and its Application in Information Systems Analysis and
Logic Synthesis. In Rough Sets, Fuzzy Sets and Knowledge Discovery, W. Ziarko (Ed.). Workshops in Computing Series. Springer Verlag,
1994
[13]Ługowska I., Woźniak W., Klepacka T., Michalak E., Szamotulska K.:
A prognostic evaluation of vascular endothelial growth factor in children and young adults with osteosarcoma, Pediatric Blood and Cancer
57(1), 63–68 (2011), doi: 10.1002/pbc.23021
[14]Mańkowski M.: Uogólnianie reguł decyzyjnych metodą uzupełniania
funkcji boolowskich. Praca dyplomowa inżynierska. Instytut Radioelektroniki. Politechnika Warszawska. Warszawa 2014
[15]Papadimitriou C.H.: Computational complexity. Academic Internet Publ.
(2007)
[16]Pawlak Z.: Rough Sets. Theoretical Aspects of Reasoning about Data.
Kluwer Academic Publishers (1991)
[17]Rondeau T.W., Bostian C.W.: Artificial Intelligence in Wireless Communications. Artech House (2009)
[18]Stefanowski J., Vanderpooten D.: A general two stage approach to rule
induction from examples, in: Ziarko W. (red.), Rough Sets, Fuzzy Sets
and Knowledge Discovery, Springer-Verlag, 1994
[19]Stefanowski J.: Algorytmy indukcji reguł decyzyjnych w odkrywaniu
wiedzy, Rozprawa habilitacyjna. Seria Rozprawy, nr 361, Wydawnictwo
Politechniki Poznańskiej, Poznań (2001)
[20]Ślęzak D., Janusz A.: Ensembles of bireducts: towards robust classification and simple representation, Proceedings of the Third international
conference on Future Generation Information Technology. SpringerVerlag, Jeju Island, Korea (2011), doi: 10.1007/978-3-642-27142-7_9
[21]Žádník M., Michlovský Z.: Is Spam Visible in Flow-Level Statistics? Tech.
rep., CESNET National Research and Education Network (2009), http://
www.fit.vutbr.cz/research/view_pub.php?id=9277
[22]Espresso – multi-valued {PLA} minimization, http://embedded.eecs.
berkeley.edu/pubs/downloads/espresso
[23]ROSE2 – Rough Sets Data Explorer, http://idss.cs.put.poznan.pl/site/
rose.html
[24]ROSETTA – A Rough Set Toolkit for Analysis of Data, http://www.lcb.
uu.se/tools/rosetta/
[25]RSES – Rough Set Exploration System, http://logic.mimuw.edu.
pl/~rses/
[26]UC Irvine Machine Learning Repository, http://archive.ics.uci.edu/ml/
Jacek JANUSZEWSKI*
Perspektywy rozwoju nawigacyjnych
i wspomagających systemów satelitarnych
w bliskiej i dalszej przyszłości
Pierwsze lata drugiego dziesięciolecia XXI wieku to okres
dynamicznego rozwoju nawigacyjnych systemów satelitarnych
(NSS). I tak w funkcjonującym już od niemal 20 lat amerykańskim systemie GPS jest modernizowany zarówno jego segment
kosmiczny (satelity nowego bloku IIF), jak i segment naziemny
(kolejne stacje monitorujące, rozpoczęcie budowy infrastruktury
lądowej trzeciej generacji). W grudniu 2011 r, ponownie przywrócono pełną zdolność operacyjną rosyjskiemu systemowi
GLONASS. Budowany intensywnie przez Chiny system BeiDou
(poprzednia nazwa Compass) jest już z powodzeniem wykorzystywany w rejonie wschodniej Azji. Trwa budowa europejskiego
systemu Galileo. Wiele istotnych zmian można również odnotować w przypadku satelitarnych systemów wspomagających
SBAS (Satellite Based Augmentation System). Do funkcjonujących od lat systemów WAAS i MSAS, odpowiednio w USA i Japonii, dołączył europejski EGNOS. W ostatnich latach oddano do
eksploatacji trzy jego serwisy. Zbliża się też do końca budowa
dwóch kolejnych SBAS, SDCM i GAGAN, odpowiednio w Rosji
i Indiach. W tej sytuacji na rynku jest dostępnych coraz więcej
odbiorników różnych klas, w tym wiele zintegrowanych. Należy
tutaj wyraźnie stwierdzić, że najważniejsze parametry techniczno-eksploatacyjne wszystkich wymienionych modernizowanych
i budowanych systemów NSS i SBAS są celowo tak dobierane
* Akademia Morska w Gdyni, Katedra Nawigacji,
e-mail: [email protected]
116
przez ich twórców i dyspozytorów, aby w przyszłości – i to tej
bliższej, niż dalszej – na ich podstawie mógł powstać nowy zintegrowany nawigacyjny system satelitarny o zasięgu globalnym
o nazwie GNSS (Global Navigation Satellite System).
W artykule wyjaśniono co te zmiany oznaczają i będą oznaczać dla milionów użytkowników, w szczególności wskazano
konsekwencje pojawienia się nowych częstotliwości nośnych,
nowych sygnałów, nowych serwisów oraz problem ich kompatybilności i międzyoperacyjności, w tym częstotliwości
nośnych, układów odniesienia i własnych czasów poszczególnych systemów. Kolejną – i to chyba najważniejszą – kwestią
do rozstrzygnięcia jest wybór dla wszystkich systemów techniki
wielokrotności, zapewniającej jednoznaczny dostęp do kanału
radiokomunikacyjnego.
Na początku 2014 roku na orbitach okołoziemskich znajdowało się ponad 80 operacyjnych satelitów: 31 systemu GPS,
24 systemu GLONASS, 4 systemu Galileo, 15 systemu BeiDou,
3 systemu EGNOS oraz po dwa satelity WAAS i MSAS. Z całą
pewnością można stwierdzić, że po ogłoszeniu pełnej zdolności
operacyjnej budowanych obecnie systemów Galileo, BeiDou,
SDCM i GAGAN liczba satelitów wzrośnie do przeszło 130. Fakt
ten będzie wielkim wyzwaniem dla konstruktorów i producentów
nowych odbiorników tychże systemów. Wydawać by się mogło,
że z punktu widzenia użytkowników zwiększenie liczby dostępnych NSS i SAS oraz liczby oferowanych przez nich serwisów
przyniesie same korzyści. Okazało się jednak, że funkcjonowa-
PRZEGLĄD TELEKOMUNIKACYJNY  ROCZNIK LXXXVII  WIADOMOŚCI TELEKOMUNIKACYJNE  ROCZNIK LXXxIII  nr 5/2014