kolum _02.qxd - Przegląd Telekomunikacyjny

Transkrypt

kolum _02.qxd - Przegląd Telekomunikacyjny
Piotr CHOŁDA*, Andrzej JAJSZCZYK*
Ocena gotowości w sieciach
telekomunikacyjnych
W miarę rozwoju sieci telekomunikacyjnych stają się one coraz większe, wprowadza się do nich nowe techniki, korzysta
z nich coraz więcej użytkowników. W związku z tym zmieniają
się również dotyczące tych sieci wymagania, z których najważniejszymi są: dostępność w każdym miejscu, szybkość transmisji, niska cena, bezpieczeństwo oraz niezawodność [1]. Operator, który chce być konkurencyjny, musi zatroszczyć się o zapewnienie użytkownikowi usług na odpowiednim poziomie.
Sieci telekomunikacyjne często ulegają uszkodzeniom. Skala obecnych przedsięwzięć powoduje, że problem uszkodzeń
urządzeń telekomunikacyjnych nie może być zaniedbywany.
Wynika to stąd, że po pierwsze, żywiołowe zmiany techniki
zwiększają podatność na uszkodzenia (chęć szybkiej modernizacji nie zawsze idzie w parze z sumiennością testowania itp.),
po drugie istotny wpływ ma ilość przesyłanej informacji. Może
o tym świadczyć następujący przykład. Nowoczesna technika
transmisji sygnałów w sieci światłowodowej umożliwia przesyłanie w jednym włóknie 160 kanałów optycznych, z których każdy ma przepływność 10 Gbit/s [2]. W takim włóknie można
przesyłać sygnały związane z ponad stu milionami rozmów telefonicznych. W pojedynczym kablu znajduje się kilkadziesiąt
lub więcej włókien światłowodowych. Często zdarza się, że taki
kabel zostaje przypadkowo przerwany podczas robót ziemnych. Gdyby właściciel kabla – operator dużej sieci telekomunikacyjnej – zaniedbał wprowadzenia odpowiednich procedur
neutralizujących skutki tego typu uszkodzeń, powstałoby niebezpieczeństwo przerwania ogromnej liczby połączeń,
a w efekcie czasowego ustania działalności. Jest jasne, że sytuacja taka byłaby również niedopuszczalna w przypadku mniejszego przedsiębiorstwa oferującego usługi telekomunikacyjne.
Niniejszy artykuł stanowi przegląd podstawowych metod
oceny gotowości wybranych fragmentów sieci telekomunikacyjnych. W pierwszej części przypomniano podstawowe pojęcia
związane z niezawodnością, w drugiej omówiono problemy obliczania gotowości złożonych struktur niezawodnościowych
(łańcuchów telekomunikacyjnych realizujących usługę transportową między dwoma punktami). Opisane metody zilustrowano przykładami.
PODSTAWOWE INFORMACJE
DOTYCZĄCE NIEZAWODNOŚCI
Na początku zostaną przedstawione najważniejsze terminy
związane z niezawodnością sieci (zgodne z Polską Normą [3]).
Celem funkcjonowania sieci telekomunikacyjnej jest świadczenie usługi transportowej (przenoszenie danych) i ze względu na to zadanie definiuje się podstawowe terminy dotyczące
jej niezawodności. Za normalny (poprawny) stan sieci uznaje
się stan, w którym sieć w sposób wcześniej założony (np.
* Katedra Telekomunikacji, Akademia Górniczo-Hutnicza
w Krakowie, e-mail: [email protected]
[email protected]
66
z ustaloną przepływnością) świadczy usługę transportową
klientowi końcowemu, którym może być pojedynczy użytkownik-abonent (taka sytuacja występuje w przypadku sieci telefonicznych różnego typu), urządzenie obliczeniowe (terminal
systemowy, serwer bazy danych) albo operator sieci różny od
operatora sieci świadczącej usługę (np. w sieciach wielodomenowych). W związku z tym, że sieć jest strukturą złożoną, jej niezawodność jest zależna od niezawodności jej elementów składowych. Wszystkie pojęcia stosowane w teorii niezawodności
odnosi się ogólnie do tzw. obiektów (item, entity) [3]; sa nimi dowolne części składowe, elementy, przyrządy, podsystemy, jednostki funkcjonalne, urządzenia lub systemy, które mogą być
rozpatrywane indywidualnie. Obiektem może być sprzęt lub
oprogramowanie, niekiedy nawet personel. Również zbiory
obiektów mogą być traktowane jako pojedynczy obiekt. Ze stanem działania (operating state) [3] mamy do czynienia, gdy
obiekt spełnia wymaganą funkcję. O stanie zdatności (up state) [3] mówi się w sytuacji, w której obiekt charakteryzuje się
zdolnością do wypełniania wymaganych funkcji1). Stan ten odnosi się do gotowości, nazywanej również dyspozycyjnością
(availability), czyli zdolności obiektu do utrzymywania się w stanie umożliwiającym wypełnianie wymaganych funkcji w danych
warunkach, w danej chwili lub w danym przedziale czasu. Dyspozycyjność zależy łącznie od trzech czynników [3]:
M nieuszkadzalności (reliability) – zdolności obiektu do spełniania wymaganych funkcji w danych warunkach w danym
przedziale czasu, na początku którego obiekt jest w stanie spełniać te funkcje;
M obsługiwalności (maintainability) – zdolności obiektu do
utrzymywania lub odtwarzania w danych warunkach eksploatacji stanu, w którym może on spełniać wymagane funkcje przy
założeniu, że obsługa jest przeprowadzana w ustalonych warunkach z zachowaniem ustalonych procedur i środków;
M zapewnienia środków obsłudze obiektu (maintenance support performance) – zdolności organizacji zajmującej się obsługą do zapewnienia w danych warunkach, na żądanie, środków
potrzebnych do obsługi obiektu przy danej polityce obsługi.
Pod pojęciem niezawodności (dependability) rozumie się zespół właściwości, które opisują gotowość obiektu i wpływające
na nią trzy powyższe czynniki. W tym rozumieniu termin „niezawodność” jest używany tylko do ogólnego opisu jakościowego
[3]. Do opisu ilościowego służy na przykład prawdopodobieństwo działania (reliability2)), oznaczane R (t1, t2). Jest to prawdopodobieństwo, że obiekt może spełniać wymaganą funkcję
w danych warunkach w ustalonym przedziale czasu (t1, t2) [3].
Zakłada się, że w chwili t1 obiekt jest w stanie wypełniać wymaganą funkcję.
––––––––
1)
Zakłada się przy tym, że dostarczono wymaganych środków zewnętrznych. Założenie to występuje w wielu definicjach normy. Pomijamy je
w dalszych fragmentach.
2)
Należy zwrócić uwagę na fakt, że w języku angielskim to samo słowo
oznacza również właściwość obiektu (nieuszkadzalność), której wskaźnikiem jest prawdopodobieństwo działania.
PRZEGLĄD TELEKOMUNIKACYJNY
ROCZNIK LXXVI
nr 2--3/2003
Zdarzenie polegające na tym, że obiekt traci zdolność do
spełniania wymaganych funkcji, nazywa się uszkodzeniem
(failure) [3]. Po uszkodzeniu obiekt przechodzi w stan niezdatności (fault), charakteryzujący się niezdolnością do spełniania
wymaganych funkcji [3]. Niezdatność nie obejmuje sytuacji,
w których element nie może działać ze względu na brak zewnętrznych zasobów, konserwację profilaktyczną (preventive
maintenance) albo inne zaplanowane przez operatora działania. Obiekt znajdujący się w tym stanie nazywa się niezdatnym (faulty). Odróżnia się niezdatność zupełną (complete fault,
function-preventing fault) od niezdatności częściowej (partial
fault). Drugi z tych stanów charakteryzuje się niezdolnością
obiektu do wypełniania niektórych, lecz – w przeciwieństwie do
pierwszego – nie wszystkich wymaganych funkcji [3]. W stanie niezdatności zazwyczaj pojawiają się błędy (errors), czyli
rozbieżności między obliczonymi, zaobserwowanymi lub zmierzonymi a prawdziwymi, ustalonymi lub teoretycznie poprawnymi wartościami określającymi stan sieci [3]. W sytuacji, gdy
obiekt nie jest z jakiegokolwiek powodu zdolny spełniać wymaganych funkcji, jego stan określamy jako przestój (disabled
state, outage) [3].
W przypadku sieci telekomunikacyjnych nie każde uszkodzenie ma rozległe skutki – w razie zastosowania odpowiednich
procedur wznawiania pracy użytkownik końcowy nawet nie odczuwa, że pewne elementy sieci są niezdatne. Odczuwa dopiero przestój sieci, czyli stan, w którym ze względu na uszkodzenie nie może zrealizować połączenia (nie jest w stanie ustanowić lub utrzymać kanału łączności; ewentualnie jest to dużo
trudniejsze niż wcześniej) [4]. W najprostszym przypadku poprawne działanie sieci świadczy o tym, że wszystkie urządzenia
pośredniczące w realizacji połączenia między użytkownikami
końcowymi działają poprawnie. Taka sytuacja współcześnie
zdarza się jednak rzadko (co najwyżej w przypadku sieci lokalnych) – z powodów wymienionych we wprowadzeniu nie powinno to zaistnieć w dużych sieciach łączności. W takich sieciach, już na etapie projektowania, planuje się rozmieszczenie
urządzeń nadmiarowych (redundantnych) oraz wprowadzenie
odpowiednich procedur naprawczych, które mają zagwarantować, że w razie wystąpienia niezdatności łączność między użytkownikami końcowymi nie tylko nie zostanie przerwana, ale nawet nie nastąpi odczuwalne pogorszenie jej jakości. Oczywiście
w takiej sytuacji należy przewidzieć szybkie zadziałanie sygnalizacji informującej o wystąpieniu niezdatności oraz szybką naprawę. Zazwyczaj naprawa sprzętu trwa jednak kilka godzin
i w tym czasie należy zastosować procedury wznawiania pracy
(network survivability procedures [4]), czyli działania podejmowane automatycznie przez sieć, w której pewne elementy są
niezdatne. Procedury te mają na celu uchronienie przed degradacją lub rozłączeniem tych połączeń klienta, na które mają
wpływ uszkodzenia. Celem pracy projektantów zajmujących się
problematyką niezawodności jest zaprojektowanie sieci w taki
sposób, aby była to sieć odporna na uszkodzenia (fault-tolerant
network): sieć, która przy ograniczonej (wcześniej założonej)
liczbie przewidzianych uszkodzeń jest w stanie poprawnie działać, to znaczy zapewniać odpowiedni poziom niezawodności
oraz gotowości [4]. Pod pojęciem przeżywalności sieci (network survivability) rozumie się umiejętność przywrócenia przez
sieć normalnego stanu działania, a więc przesłania po uszkodzeniu danych pochodzących z łączy, które wskutek tego
uszkodzenia stały się niezdatne.
Nieuszkadzalność całej sieci zależy od trzech czynników [4]:
M nieuszkadzalności składników tej sieci,
M procedur przywracających poprawne działanie sieci po
uszkodzeniu (network survivability procedures),
M architektury sieci – jej topologii oraz stosowanych protokołów.
PRZEGLĄD TELEKOMUNIKACYJNY
ROCZNIK LXXVI
nr 2--3/2003
Parametrem chętnie używanym w obliczeniach niezawodnościowych dotyczących sieci telekomunikacyjnych, jest gotowość (np. [2], [5]). Gotowość chwilowa (instantaneous availability) to prawdopodobieństwo, że obiekt jest w stanie wypełniać
wymaganą funkcję w danych warunkach w danej chwili. Gotowość stacjonarna (steady-state availability) to średnia wartość
gotowości chwilowej w warunkach stacjonarnych w danym
przedziale czasu. Współczynnika tego nie oblicza się dla całej
sieci3), lecz jedynie dla wybranych łańcuchów telekomunikacyjnych (fragmentów sieci między określonymi parami urządzeń
przesyłających sobie wzajemnie dane). W takim przypadku obliczenie gotowości powinno przebiegać w sposób iteracyjny,
uwzględniający wymienione powyżej czynniki, mające wpływ
O Rys. 1. Podstawowe parametry niezbędne do obliczenia gotowości.
Oznaczenia: MTBF (wartość średnia czasu między kolejnymi uszkodzeniami), MTTR (wartość średnia czasu do przywrócenia zdatności),
MTTF (wartość średnia czasu do kolejnego uszkodzenia)
na niezawodność sieci: najpierw oblicza się gotowość poszczególnych elementów, następnie należy uwzględnić połączenia
tych elementów oraz stosowane procedury naprawcze i obliczyć gotowość całego łańcucha. W przypadku ogólnym jest to
zadanie bardzo złożone, niejednokrotnie utrudniane na przykład przez nierównomierny rozkład ruchu, który również powinien być uwzględniony. Czas takich obliczeń zależy wykładniczo od rozmiarów sieci [6].
Dla pojedynczego urządzenia gotowość można ująć (przy
wielu założeniach upraszczających4)) jako iloraz średniego czasu, w którym działa ono poprawnie, do całego czasu, w którym
powinno działać. Wyraża się wzorem5) [2]:
A=
MUT
,
MUT + MDT
gdzie: MUT – wartość średnia czasu zdatności (Mean Up Time),
MDT – wartość średnia czasu przestoju (Mean Down Time). Parametrem dualnym w stosunku do gotowości jest niegotowość
(unavailability):
U = 1− A =
MDT
MUT + MDT
W najprostszych obliczeniach gotowości korzysta się zazwyczaj z trzech następujących parametrów:
–––––––
3)
Dokładna ocena ilościowa niezawodności całej sieci jest zadaniem niezwykle złożonym i dotychczas nie udało się rozwiązać tego problemu.
Współczynnik gotowości umożliwia jednak pewną orientację w stanie niektórych fragmentów sieci i można go stosować przynajmniej w celu porównywania różnych rozwiązań.
4)
Należy przyjąć np., że elementy sieci są obiektami nienaprawialnymi
i po uszkodzeniu wymienia się je na nowe (w przypadku wielu urządzeń
elektronicznych traktowanych jako całość jest to oczywiście nieprawda;
z drugiej strony ich naprawa polega zazwyczaj na wymianie uszkodzonej
karty na nową). Problemami tymi zajmuje się teoria odnowy; więcej wiadomości por. [7], [8].
5)
W polskiej literaturze fachowej współczynnik gotowości oznacza się zazwyczaj symbolami k lub K.
67
M MTBF6) (Mean Time Between Failures) – wartość średnia czasu między kolejnymi uszkodzeniami urządzenia; dokładne wyznaczenie MTBF wymaga znajomości rozkładu czasów wystąpienia uszkodzeń w systemie;
M MTTR (Mean Time To Restoration/Recovery) – wartość średnia czasu upływającego od chwili wystąpienia uszkodzenia do
uzyskania zdatności;
M MTTF (Mean Time to Failure) – wartość średnia czasu upływającego od chwili odzyskania przez urządzenie zdatności do
wystąpienia ponownego uszkodzenia.
Zależności między nimi ilustruje rys. 1.
W przypadku zgrubnych obliczeń gotowości przyjmuje się:
MUT + MDT = MTBF oraz MDT = MTTR. W większości przypadków jest to dobre przybliżenie. Gotowość można obliczyć
wtedy według poniższego wzoru:
A=
MTBF – MTTR
MTBF
=
MTTF
MTBF
=
MTTF
MTTR + MTTF
Do opisu zdatności sieci telekomunikacyjnej często stosuje
się również współczynnik spodziewanej utraty ruchu ELT
(Expected Loss of Traffic), który stanowi miarę niegotowości
elementów sieci, czyli oczekiwaną ilość ruchu, który zostanie
utracony na wskutek uszkodzenia. W przypadku sieci SDH parametr ELT stanowi liczbę synchronicznych modułów transportowych STM-n (Synchronous Transport Module) cyfrowej hierarchii synchronicznej SDH i jest wyrażany w godzinach na rok, co
oznacza, że w ciągu roku statystycznie tyle właśnie godzin
przepływu modułów STM-n zostanie utraconych (przy założeniu, że każdy kanał optyczny transportuje strumień STM-n).
h
oznacza utratę 250 × 155 ×
y
×3600 = 139 500 000 megabitów w roku (155 Mbit/s – przepływność kontenera STM-1, 3600 – liczba sekund w godzinie).
Główne czynniki powodujące niezdatność w sieci telekomunikacyjnej oraz ich parametry niezawodnościowe zestawiono
poniżej. Za [9] podano również wartości umożliwiające oszacowanie zdatności tych czynników (trzeba pamiętać, że są to jedynie liczby mające przybliżyć rząd wielkości).
M Sprzęt. Z punktu widzenia zagadnień niezawodności parametry sprzętu opisuje się zazwyczaj za pomocą MTBF. Wartość
tę podaje wytwórca sprzętu, który ma doświadczenie związane
z jakością swojego produktu. MTBF urządzeń telekomunikacyjnych zazwyczaj wynosi kilkaset tysięcy godzin. Drugim parametrem jest MTTR. Z reguły wyznacza się go na poziomie kilku godzin. Wartość ta zależy od umowy z serwisantem sprzętu, którym w większości przypadków jest producent.
M Oprogramowanie. Zazwyczaj nie ocenia się zdatności oprogramowania, jednak w celu dokonania zgrubnego oszacowania
i porównania wpływu tego czynnika na zdatność całego łańcucha telekomunikacyjnego autor [9] proponuje charakteryzować
oprogramowanie za pomocą takich samych parametrów jak
w przypadku sprzętu. Podaje wartość MTTR na poziomie kilku
minut („czas naprawy” obejmuje głównie czas ponownego ładowania oprogramowania i np. ustawienia tablic trasowania);
oszacowanie wartości MTBF jest jeszcze bardziej arbitralne, autor cytowanej pozycji przyjmuje kilkadziesiąt tysięcy godzin.
M Wpływ środowiska. Zagadnienie wpływu środowiska (temperatury, klimatu itd.) jest niezwykle ważne z punktu widzenia
zapewniania zdatności urządzeń, omówienie tego problemu
można znaleźć np. w [7]. W przypadku sieci telekomunikacyjnej
uwzględnia się przede wszystkim problem dostawy zasilania,
Dla przykładu ELT = 250 STM- 1
–––––––
6)
Obecnie skrótem MTBF częściej oznacza się wartość średnią czasu działania między uszkodzeniami (mean operating time between failures) [3].
68
z sieci publicznej (wpływ środowiska jest pośredni, np. trzęsienia ziemi powodują uszkodzenie linii wysokiego napięcia). Czas
niezdatności, wywołany przerwą zasilania, zależy od miejsca,
ale często przyjmuje się, że wynosi on około pół godziny w ciągu roku [9]. Tego typu uszkodzeniom przeciwdziała się, stosując np. generatory prądu (baterie albo siłownie oparte na silnikach wysokoprężnych itp.).
M Błędy personelu obsługującego sieć (human errors). Również w tym przypadku ocena gotowości jest z punktu widzenia
teorii niezawodności nieuprawniona, jednak dla praktycznej
orientacji znowu podajemy za autorem [9]: MTBF – kilkanaście-kilkadziesiąt tysięcy godzin, MTTR – kilka godzin. Tego typu
błędy próbuje się eliminować przez usuwanie czynników, które
sprzyjają poważniejszym (częstszym) uszkodzeniom zależnym
od błędnej pracy człowieka (np. zwiększa się liczbę pracowników w godzinach nocnych).
Zazwyczaj projektanci skupiają się na minimalizowaniu wpływu uszkodzeń sprzętu. Czyni się tak na dwa sposoby. Po pierwsze, można stosować układy równoległe (szczególnie w przypadku niewielkich sieci, w których da się zrównoleglić niezbędne urządzenia albo przynajmniej najważniejsze z nich). Po
drugie, w przypadku dużej sieci obowiązuje podobne (chociaż
oszczędniejsze) postępowanie, to znaczy również stosuje się
nadmiarowe urządzenia, łącza itp. – jest ich więcej, niż potrzeba do przeniesienia ruchu, ale wolne zasoby zostają wykorzystane dopiero w sytuacji wystąpienia niezdatności.
Operator sieci za pomocą odpowiednich urządzeń i oprogramowania monitoruje stan sieci. W razie stwierdzenia niezdatności powinien zastosować następującą procedurę [4].
M Wykrycie uszkodzenia (failure detection): stwierdzenie miejsca (przynajmniej obszaru sieci), w którym wystąpił defekt oraz
określenie jego rodzaju (np. uszkodzenie łącza, uszkodzenie
określonego urządzenia itd.). Wykrycie uszkodzenia jest sygnalizowane albo przez protokoły sygnalizacyjne, albo przez urządzenia sieciowe.
M Przekierowanie ruchu (rerouting of traffic): ustanowienie nowych tras fizycznych, na które zostanie przeniesiona informacja
pochodząca z kanałów łączności przebiegających w uszkodzonych częściach sieci. Przekierowanie jest procedurą, która
ma za zadanie przywrócić poprawne działanie systemu. Sposób dokonywania przekierowania ruchu jest jednym z głównych problemów związanych z niezawodnością sieci.
M Przydzielenie przepływności na nowej trasie (bandwidth
allocation): rozmieszczenie odzyskanego z uszkodzonych łączy
ruchu na nowych trasach. Jest to problem, którym zajmuje się
inżynieria ruchu. Zazwyczaj problem przydziału wiąże się z problemem przekierowania ruchu.
Operator powinien oczywiście podjąć dodatkowe czynności,
polegające na naprawie uszkodzonych elementów, ale nie są to
czynności interesujące z punktu widzenia zapewniania poprawnego działania sieci bezpośrednio (w sensie np. kilkunastu milisekund) po uszkodzeniu. Jeżeli niezdatność powstałą w wyniku uszkodzenia pozostawi się zbyt długo nienaprawioną, może
to doprowadzić do sytuacji, że w przypadku wystąpienia kolejnych uszkodzeń w innych częściach sieci, nie będzie w ogóle
możliwe przywrócenie poprawnego działania (bez przerwania
pracy całej sieci).
OBLICZANIE GOTOWOŚCI ZŁOŻONYCH
SYSTEMÓW (ŁAŃCUCHÓW
TELEKOMUNIKACYJNYCH)
W przypadku złożonych układów należy obliczyć gotowość
zastępczą. Rozpoczynając od najprostszych układów, oblicza
się gotowość bardzo złożonych systemów – procedura przypo-
PRZEGLĄD TELEKOMUNIKACYJNY
ROCZNIK LXXVI
nr 2--3/2003
mina obliczanie rezystancji zastępczej układu elektronicznego.
Przy obliczeniach niezawodnościowych przyjmuje się założenie, że wszystkie uszkodzenia są od siebie niezależne w sensie
teorii prawdopodobieństwa (s-independent, statistically-independent). Aby ułatwić obliczenia gotowości złożonych systemów, korzysta się ze schematów blokowych niezawodności
(reliability block diagrams) [9], które umożliwiają wizualizację
zagadnienia. Schematy przedstawiają strukturę badanej sieci
ze względu na niezawodność (por. rys. 2, rys. 3, rys. 4).
System ma niezawodnościową strukturę szeregową (series
system), jeżeli uszkodzenie dowolnego elementu powoduje
niezdatność systemu (rys. 2) [8]. Jego gotowość zastępcza wynosi [9]:
#reg
2
#wzm
Al = Ak × Atrans
× Areg
× Awzm
gdzie: Al – gotowość całego łącza, Ak – gotowość kabla danego
łącza, Atrans – gotowość pojedynczego transpondera, Areg – gotowość pojedynczego regeneratora, #reg – liczba regeneratorów wchodzących w skład danego łącza, Awzm – gotowość pojedynczego wzmacniacza, #wzm – liczba wzmacniaczy wchodzących w skład danego łącza.
Gotowość kabla oblicza się za pomocą parametru przecięcia
kabla CC (Cable Cut), wyrażonego w kilometrach i oznaczającego średnią długość kabla, która w ciągu roku ulega jednemu
przerwaniu. Dla kabla o długości L wartość parametru MTBFk
wyrażonego w godzinach wynosi [2]:
n
A szer =
∏
Ai
MTBFk (L ) =
i =1
gdzie: A1, ... , Ai, ..., An oznaczają gotowości poszczególnych n
elementów, wchodzących w skład struktury szeregowej. Gotowość obliczona dla całej struktury szeregowej jest zawsze
mniejsza od gotowości każdego z elementów tego połączenia:
A szer ≤ min {A i } . Za pomocą struktury szeregowej można moi
delować pojedyncze łącze telekomunikacyjne: trzeba uwzględnić gotowość transponderów, kabla, regeneratorów, wzmacniaczy itp. (rys. 3). Wzór na gotowość ma w tym przypadku następującą postać [5]:
CC × 365× 24
.
L
Dla systemów światłowodowych (których dotyczy zamieszczony niżej przykład) przyjmuje się CC = 300 km, natomiast
średni czas naprawy niezdatności kabla MTTRk = 24 godz.
Wzór w przypadku gotowości zastępczej niezawodnościowej struktury równoległej (parallel system) ma następującą postać [9]:
n
Arówn= 1−
∏ (1− Ai )
i =1
Obowiązuje on jedynie dla struktur równoległych, w których
do zdatności działania wystarcza zdatność przynajmniej jednego elementu (rys. 2) [8]. Sytuacja taka występuje na przykład
przy zastosowaniu nadmiarowych (redundantnych) układów
zasilających. Podobnie jak poprzednio, warto zwrócić uwagę na
zależność między gotowością zastępczą całej struktury równoległej a gotowością wchodzących w jej skład elementów: gotowość zastępcza jest zawsze większa od gotowości któregokolwiek z elementów składowych: Arówn ≥ max {Ai } . Często
i
O Rys. 2. Gotowość zastępcza dla struktury: a) szeregowej; b) równoległej. Oznaczenia: Ai – gotowość elementu nr i
zdarza się jednak (na przykład przy łączeniu grupy transponderów w układach nadawczych lub odbiorczych), że w strukturze
równoległej pracuje N urządzeń, z których N-1 musi być w stanie zdatności, aby cały system był zdatny. W takiej sytuacji obliczenia znacznie się komplikują. Na przykład jeżeli gotowość
poszczególnych urządzeń jest jednakowa, gotowość zastępcza
wyraża się wzorem [9]:
A(N −1,N ) = NAN −1 (1 − A ) + AN
O Rys. 3. Schemat blokowy niezawodności pojedynczego łącza
gdzie: A jest gotowością pojedynczego urządzenia należącego
do systemu. W przypadku ogólniejszym (z ograniczeniem, że
elementy składowe mają identyczną gotowość), gdy wśród połączonych równolegle N urządzeń do zapewnienia poprawnej
pracy systemu potrzeba poprawnego działania r urządzeń (tzw.
struktura r-z-N, ang. r-out-of-N) można zastosować wzór oparty
na rozkładzie dwumianowym [10]:
N
A (r , N ) =
N 
∑  k  Ak (1− A)N −k
k =r
gdzie: r – liczba urządzeń, które muszą działać poprawnie (spośród N urządzeń), A – gotowość pojedynczego urządzenia.
O Rys. 4. Schemat blokowy niezawodności przykładowego połączenia z protekcją (pominięto przełączniki)
PRZEGLĄD TELEKOMUNIKACYJNY
ROCZNIK LXXVI
nr 2--3/2003
Aby zilustrować, w jaki sposób przeprowadza się obliczenia
gotowości, posłużymy się przykładem uproszczonego połączenia światłowodowego (rys. 4). Jest to połączenie między dwoma węzłami, korzystające z najprostszej metody protekcji
1 + 1. Ścieżka robocza to połączenie światłowodowe o długości 200 km z jednym regeneratorem. Ścieżka protekcyjna to połączenie światłowodowe przechodzące przez przełącznicę
optyczną; ma długość 400 km, w jego skład wchodzą dwa
69
wzmacniacze optyczne. Schemat blokowy niezawodności
wskazuje, że całe połączenie jest złożoną strukturą równoległo-szeregową (dla uproszczenia pominęliśmy przełączniki, których niezawodność również należy uwzględnić w przypadku
dokładnych obliczeń). Gotowość układu wyraża się wzorem:
A = At2 × (1 − (1− Ar × Ak (Lr )) (1 − Aw2 × A p × A k (L p )))
kilka sposobów. Jednym z wygodniejszych jest posłużenie się
grafami prawdopodobieństwowymi [11], które uwzględniają
możliwe ścieżki przesyłania danych, dzięki czemu umożliwiają
obliczenie gotowości zastępczej. Wynikiem dosyć żmudnych
obliczeń dla naszego przykładu jest wzór:
A = A1A 4 + A 2 A 5 + A1A 3 A 5 + A 2 A 3 A 4 − A1A 2 A 3 A 4 –
− A1A 2A 3 A 5 − A1A 2 A 4 A 5 − A1A 3 A 4 A 5 − A 2 A 3 A 4 A 5 +
gdzie:
Ak (Lr ) = 1 −
MTTR k
L × MTTR k
= 1− r
≈ 99 ,817 %
MTBFk (Lr )
CC × 365 × 24
i analogicznie:
Ak (L p ) = 1−
L p × MTTR
k
CC × 365 × 24
≈ 99,634 %
Gotowość pozostałych elementów zawiera tabela 1. Gotowość całego systemu wynosi: A ≈ 99,995%, co stanowi wartość
dosyć wysoką, mimo faktu, że np. gotowość obu kabli jest relatywnie niska.
O Tabela 1. Przykładowe wartości parametrów MTBF, MTTR oraz gotowości różnych elementów składowych sieci optycznej (na podstawie [5])
Element
Przełącznica optyczna (OXC)
MTBF
[godz.]
MTTR
[godz.]
Gotowość
[%]
10 000
6
99,940
Wzmacniacz liniowy
500 000
24
99,995
Regenerator
500 000
6
99,998
Transponder
500 000
6
99,998
Obliczenia odnoszące się do struktur nie będących złożeniem struktur szeregowych i równoległych (mostki, gwiazdy)
wymagają zastosowania bardziej skomplikowanych metod teorii niezawodności, wywodzącej się z rachunku prawdopodobieństwa. Jako przykład posłuży nam sieć przedstawiona na
rys. 5. Dokładnego obliczenia jej gotowości można dokonać na
+ 2A1A 2A 3 A 4 A 5.
Ze względu na nakład obliczeniowy często korzysta się z metod zgrubnego szacowania niezawodności takiego systemu
[10]. Metoda polega na znalezieniu dwóch zbiorów (tabela 2) –
zbioru minimalnych ścieżek zdatności sieci, czyli minimalnego
O Tabela 2. Minimalne ścieżki i przekroje zdatności przykładowej
sieci z rys. 5.
Minimalne ścieżki zdatności
Minimalne przekroje niezdatności
Urz1, Urz4
Urz1, Urz2
Urz2, Urz5
Urz4, Urz5
Urz1, Urz3, Urz5
Urz1, Urz3, Urz5
Urz2, Urz3, Urz4
Urz2, Urz3, Urz4
zestawu elementów, który zapewnia poprawne działanie sieci
oraz zbioru minimalnych przekrojów niezdatności sieci, czyli minimalnego zbioru elementów, których jednoczesne uszkodzenie powoduje przestój całej sieci. Oszacowaniem górnym (Aog)
gotowości całej sieci jest gotowość struktury równoległej złożonej z minimalnych ścieżek zdatności, natomiast oszacowaniem
dolnym (Aod) jest gotowość struktury szeregowej złożonej z minimalnych przecięć niezdatności (rys. 5b, c). W naszym przykładzie:
Aog = 1− (1 − A1A 4 )(1 − A 2 A 5 )(1 − A1A 3 A 5 )(1− A 2 A 3 A 4 )
Aod = [1− (1− A1) (1− A 2 )] [1− (1 − A 4 ) (1 − A 5 )] ×
× [1 − (1− A1) (1− A 3 ) (1− A 5 )] [1− (1− A 2 ) (1− A 3 ) (1 − A 4 )].
Korzysta się tu z intuicyjnego faktu (udowodnionego formalnie, np. [10]) że sieć nie może być bardziej niezawodna, niż
struktura równoległa, która powstaje ze wszystkich możliwie
O Rys. 6. Przykład ilustrujący obliczanie gotowości przesyłanych danych. Oznaczenia: Aconi – gotowość połączenia nr i, Dconi – szybkość
transmisji danych przez połączenie nr I
O Rys. 5. Przykład sposobu szacowania gotowości: a) układ rzeczywisty; b) układ złożony z minimalnych ścieżek zdatności; c) układ złożony z minimalnych przekrojów niezdatności. Oznaczenia: Ai – gotowość elementu nr I
70
najlepszych ścieżek tej sieci i analogicznie nie może być bardziej podatna na uszkodzenia, niż struktura szeregowa złożona
z najgorszych przecięć tej sieci: Aod ≤ A ≤ Aog. W sytuacji, gdy
wszystkie elementy mają tę samą gotowość: A1 = A2 = A3 =
= A4 = A5 = 95%; Aod ≈ 99,475%, A ≈ 99,478%, Aog ≈ 99,980%.
Jak można zauważyć, w tym przypadku oszacowanie dolne
dobrze przybliża dokładny wynik (ale nie stanowi to żadnej reguły).
PRZEGLĄD TELEKOMUNIKACYJNY
ROCZNIK LXXVI
nr 2--3/2003
Odrębnym problemem jest obliczanie gotowości przenoszonych danych (load availability)7). Obliczenie tego parametru
jest uzasadnione w sytuacji, gdy część danych jest przesyłana
z jakiegoś terminalu różnymi połączeniami, charakteryzującymi
się różnymi wartościami gotowości (rys. 6). Dobrym przykładem są sieci oparte na protokole IP. Gotowość przenoszonych
danych jest średnią ważoną gotowości poszczególnych połączeń i wyraża się wzorem [5]:
AD =
∑ Acon #i × Dcon #i
i
,
∑Dcon #i
i
gdzie: AD – gotowość danych przesyłanych między dwoma węzłami sieci za pomocą i połączeń, Acon#i – gotowość połączenia
i, Dcon#i – szybkość transmisji danych przez połączenie i,
∑D con #i
– szybkość transmisji danych między węzłami (zakła-
i
da się, że połączenie jest jednokierunkowe). Dla przykładowych
danych: Acon1= 99,1%, Dcon1= 10 Mbit/s, Acon2 = 99,2%, Dcon2 =
= 20 Mbit/s, Acon3 = 99,3%, Dcon3 = 30 Mbit/s, Acon4 = 99,4%,
Dcon4 = 40 Mbit/s, gotowość danych wynosi: Ad = 99,3%. Warto
zauważyć, że zawsze istnieje związek: min { Ai } ≤ AD ≤ max { Ai } .
i
i
✽✽✽
Celem artykułu było przedstawienie podstawowych wiadomości dotyczących niezawodności sieci telekomunikacyjnych,
uporządkowanie terminologii oraz pokazanie elementarnych
sposobów oceny gotowości. Tematyka niezawodności, ze
względu na jej rosnące znaczenie w działalności operatorskiej,
staje się coraz bardziej interesująca. W artykule staraliśmy się
––––––––
7)
Z punktu widzenia teorii niezawodności obliczanie takiego parametru
nie jest uzasadnione. Podajemy go jednak za [5] dlatego, że wydaje się
mieć praktyczne zastosowanie.
PRZEGLĄD TELEKOMUNIKACYJNY
ROCZNIK LXXVI
nr 2--3/2003
ograniczyć elementy teoretyczne na rzecz praktycznych. Dokładne zaznajomienie się z tą dziedziną matematyki stosowanej
wymaga sięgnięcia do bogatej literatury poświęconej omawianym problemom.
LITERATURA
[1] Snow A. P.: Network Reliability: The Concurrent Challenges of Innovation, Competition, and Complexity, IEEE Transactions on Reliability, Vol. 50, No. 1, March 2001
[2] De Maesschalck S., Colle D., Lievens I.: Pan-European Optical
Transport Networks: an availability-based comparison, dokument
wewnętrzny projektu europejskiego LION, marzec 2002
[3] PN-93/N-50191: Polska Norma. Słownik terminologiczny elektryki.
Niezawodność; jakość usługi, Polski Komitet Normalizacji, Miar i Jakości, sierpień 1994
[4] Kroculick J., Hood C.: Using Inheritance to Derive Non-Conflicting
Survivability Strategies, Proceedings of 1998 IEEE International
Conference on Communications ICC’98, 7-11 June 1998, Atlanta,
Georgia, USA
[5] Willems G., Arijs P., Van Parys W., Demeester P.: Capacity vs. Availability Trade-offs in Mesh-Restorable WDM Networks, Proceedings
of 3rd Int. Workshop on the Design of Reliable Communication
Networks (DRCN 2001), Budapest, Hungary, October 2001
[6] Belovich S. G.: A Design Technique for Reliable Networks Under
a Non-Uniform Traffic Distribution, IEEE Transactions on Reliability,
Vol. 44, No. 3, September 1995
[7] Prażewska M. et al.: Niezawodność urządzeń elektronicznych, Wydawnictwa Komunikacji i Łączności, Warszawa 1987
[8] Kapiński J., Firkowicz Sz.: Zasady profilaktyki obiektów technicznych, Państwowe Wydawnictwo Naukowe, Warszawa 1981
[9] Oggerino Ch.: High Availability Network Fundamentals, Cisco
Press, Indianapolis 2001
[10] Grosh D. L.: A Primer of Reliability Theory, John Wiley & Sons, New
York 1989
[11] Jajszczyk A.: Wstęp do telekomutacji, Wydawnictwa Naukowo-Techniczne, Warszawa 2000
Praca wykonana w ramach projektu badawczego KBN nr 7 T11 D01020
Artykuł recenzowany
(Artykuł nadesłano do red. – wrzesień 2002 r.)
71

Podobne dokumenty