kolum _02.qxd - Przegląd Telekomunikacyjny
Transkrypt
kolum _02.qxd - Przegląd Telekomunikacyjny
Piotr CHOŁDA*, Andrzej JAJSZCZYK* Ocena gotowości w sieciach telekomunikacyjnych W miarę rozwoju sieci telekomunikacyjnych stają się one coraz większe, wprowadza się do nich nowe techniki, korzysta z nich coraz więcej użytkowników. W związku z tym zmieniają się również dotyczące tych sieci wymagania, z których najważniejszymi są: dostępność w każdym miejscu, szybkość transmisji, niska cena, bezpieczeństwo oraz niezawodność [1]. Operator, który chce być konkurencyjny, musi zatroszczyć się o zapewnienie użytkownikowi usług na odpowiednim poziomie. Sieci telekomunikacyjne często ulegają uszkodzeniom. Skala obecnych przedsięwzięć powoduje, że problem uszkodzeń urządzeń telekomunikacyjnych nie może być zaniedbywany. Wynika to stąd, że po pierwsze, żywiołowe zmiany techniki zwiększają podatność na uszkodzenia (chęć szybkiej modernizacji nie zawsze idzie w parze z sumiennością testowania itp.), po drugie istotny wpływ ma ilość przesyłanej informacji. Może o tym świadczyć następujący przykład. Nowoczesna technika transmisji sygnałów w sieci światłowodowej umożliwia przesyłanie w jednym włóknie 160 kanałów optycznych, z których każdy ma przepływność 10 Gbit/s [2]. W takim włóknie można przesyłać sygnały związane z ponad stu milionami rozmów telefonicznych. W pojedynczym kablu znajduje się kilkadziesiąt lub więcej włókien światłowodowych. Często zdarza się, że taki kabel zostaje przypadkowo przerwany podczas robót ziemnych. Gdyby właściciel kabla – operator dużej sieci telekomunikacyjnej – zaniedbał wprowadzenia odpowiednich procedur neutralizujących skutki tego typu uszkodzeń, powstałoby niebezpieczeństwo przerwania ogromnej liczby połączeń, a w efekcie czasowego ustania działalności. Jest jasne, że sytuacja taka byłaby również niedopuszczalna w przypadku mniejszego przedsiębiorstwa oferującego usługi telekomunikacyjne. Niniejszy artykuł stanowi przegląd podstawowych metod oceny gotowości wybranych fragmentów sieci telekomunikacyjnych. W pierwszej części przypomniano podstawowe pojęcia związane z niezawodnością, w drugiej omówiono problemy obliczania gotowości złożonych struktur niezawodnościowych (łańcuchów telekomunikacyjnych realizujących usługę transportową między dwoma punktami). Opisane metody zilustrowano przykładami. PODSTAWOWE INFORMACJE DOTYCZĄCE NIEZAWODNOŚCI Na początku zostaną przedstawione najważniejsze terminy związane z niezawodnością sieci (zgodne z Polską Normą [3]). Celem funkcjonowania sieci telekomunikacyjnej jest świadczenie usługi transportowej (przenoszenie danych) i ze względu na to zadanie definiuje się podstawowe terminy dotyczące jej niezawodności. Za normalny (poprawny) stan sieci uznaje się stan, w którym sieć w sposób wcześniej założony (np. * Katedra Telekomunikacji, Akademia Górniczo-Hutnicza w Krakowie, e-mail: [email protected] [email protected] 66 z ustaloną przepływnością) świadczy usługę transportową klientowi końcowemu, którym może być pojedynczy użytkownik-abonent (taka sytuacja występuje w przypadku sieci telefonicznych różnego typu), urządzenie obliczeniowe (terminal systemowy, serwer bazy danych) albo operator sieci różny od operatora sieci świadczącej usługę (np. w sieciach wielodomenowych). W związku z tym, że sieć jest strukturą złożoną, jej niezawodność jest zależna od niezawodności jej elementów składowych. Wszystkie pojęcia stosowane w teorii niezawodności odnosi się ogólnie do tzw. obiektów (item, entity) [3]; sa nimi dowolne części składowe, elementy, przyrządy, podsystemy, jednostki funkcjonalne, urządzenia lub systemy, które mogą być rozpatrywane indywidualnie. Obiektem może być sprzęt lub oprogramowanie, niekiedy nawet personel. Również zbiory obiektów mogą być traktowane jako pojedynczy obiekt. Ze stanem działania (operating state) [3] mamy do czynienia, gdy obiekt spełnia wymaganą funkcję. O stanie zdatności (up state) [3] mówi się w sytuacji, w której obiekt charakteryzuje się zdolnością do wypełniania wymaganych funkcji1). Stan ten odnosi się do gotowości, nazywanej również dyspozycyjnością (availability), czyli zdolności obiektu do utrzymywania się w stanie umożliwiającym wypełnianie wymaganych funkcji w danych warunkach, w danej chwili lub w danym przedziale czasu. Dyspozycyjność zależy łącznie od trzech czynników [3]: M nieuszkadzalności (reliability) – zdolności obiektu do spełniania wymaganych funkcji w danych warunkach w danym przedziale czasu, na początku którego obiekt jest w stanie spełniać te funkcje; M obsługiwalności (maintainability) – zdolności obiektu do utrzymywania lub odtwarzania w danych warunkach eksploatacji stanu, w którym może on spełniać wymagane funkcje przy założeniu, że obsługa jest przeprowadzana w ustalonych warunkach z zachowaniem ustalonych procedur i środków; M zapewnienia środków obsłudze obiektu (maintenance support performance) – zdolności organizacji zajmującej się obsługą do zapewnienia w danych warunkach, na żądanie, środków potrzebnych do obsługi obiektu przy danej polityce obsługi. Pod pojęciem niezawodności (dependability) rozumie się zespół właściwości, które opisują gotowość obiektu i wpływające na nią trzy powyższe czynniki. W tym rozumieniu termin „niezawodność” jest używany tylko do ogólnego opisu jakościowego [3]. Do opisu ilościowego służy na przykład prawdopodobieństwo działania (reliability2)), oznaczane R (t1, t2). Jest to prawdopodobieństwo, że obiekt może spełniać wymaganą funkcję w danych warunkach w ustalonym przedziale czasu (t1, t2) [3]. Zakłada się, że w chwili t1 obiekt jest w stanie wypełniać wymaganą funkcję. –––––––– 1) Zakłada się przy tym, że dostarczono wymaganych środków zewnętrznych. Założenie to występuje w wielu definicjach normy. Pomijamy je w dalszych fragmentach. 2) Należy zwrócić uwagę na fakt, że w języku angielskim to samo słowo oznacza również właściwość obiektu (nieuszkadzalność), której wskaźnikiem jest prawdopodobieństwo działania. PRZEGLĄD TELEKOMUNIKACYJNY ROCZNIK LXXVI nr 2--3/2003 Zdarzenie polegające na tym, że obiekt traci zdolność do spełniania wymaganych funkcji, nazywa się uszkodzeniem (failure) [3]. Po uszkodzeniu obiekt przechodzi w stan niezdatności (fault), charakteryzujący się niezdolnością do spełniania wymaganych funkcji [3]. Niezdatność nie obejmuje sytuacji, w których element nie może działać ze względu na brak zewnętrznych zasobów, konserwację profilaktyczną (preventive maintenance) albo inne zaplanowane przez operatora działania. Obiekt znajdujący się w tym stanie nazywa się niezdatnym (faulty). Odróżnia się niezdatność zupełną (complete fault, function-preventing fault) od niezdatności częściowej (partial fault). Drugi z tych stanów charakteryzuje się niezdolnością obiektu do wypełniania niektórych, lecz – w przeciwieństwie do pierwszego – nie wszystkich wymaganych funkcji [3]. W stanie niezdatności zazwyczaj pojawiają się błędy (errors), czyli rozbieżności między obliczonymi, zaobserwowanymi lub zmierzonymi a prawdziwymi, ustalonymi lub teoretycznie poprawnymi wartościami określającymi stan sieci [3]. W sytuacji, gdy obiekt nie jest z jakiegokolwiek powodu zdolny spełniać wymaganych funkcji, jego stan określamy jako przestój (disabled state, outage) [3]. W przypadku sieci telekomunikacyjnych nie każde uszkodzenie ma rozległe skutki – w razie zastosowania odpowiednich procedur wznawiania pracy użytkownik końcowy nawet nie odczuwa, że pewne elementy sieci są niezdatne. Odczuwa dopiero przestój sieci, czyli stan, w którym ze względu na uszkodzenie nie może zrealizować połączenia (nie jest w stanie ustanowić lub utrzymać kanału łączności; ewentualnie jest to dużo trudniejsze niż wcześniej) [4]. W najprostszym przypadku poprawne działanie sieci świadczy o tym, że wszystkie urządzenia pośredniczące w realizacji połączenia między użytkownikami końcowymi działają poprawnie. Taka sytuacja współcześnie zdarza się jednak rzadko (co najwyżej w przypadku sieci lokalnych) – z powodów wymienionych we wprowadzeniu nie powinno to zaistnieć w dużych sieciach łączności. W takich sieciach, już na etapie projektowania, planuje się rozmieszczenie urządzeń nadmiarowych (redundantnych) oraz wprowadzenie odpowiednich procedur naprawczych, które mają zagwarantować, że w razie wystąpienia niezdatności łączność między użytkownikami końcowymi nie tylko nie zostanie przerwana, ale nawet nie nastąpi odczuwalne pogorszenie jej jakości. Oczywiście w takiej sytuacji należy przewidzieć szybkie zadziałanie sygnalizacji informującej o wystąpieniu niezdatności oraz szybką naprawę. Zazwyczaj naprawa sprzętu trwa jednak kilka godzin i w tym czasie należy zastosować procedury wznawiania pracy (network survivability procedures [4]), czyli działania podejmowane automatycznie przez sieć, w której pewne elementy są niezdatne. Procedury te mają na celu uchronienie przed degradacją lub rozłączeniem tych połączeń klienta, na które mają wpływ uszkodzenia. Celem pracy projektantów zajmujących się problematyką niezawodności jest zaprojektowanie sieci w taki sposób, aby była to sieć odporna na uszkodzenia (fault-tolerant network): sieć, która przy ograniczonej (wcześniej założonej) liczbie przewidzianych uszkodzeń jest w stanie poprawnie działać, to znaczy zapewniać odpowiedni poziom niezawodności oraz gotowości [4]. Pod pojęciem przeżywalności sieci (network survivability) rozumie się umiejętność przywrócenia przez sieć normalnego stanu działania, a więc przesłania po uszkodzeniu danych pochodzących z łączy, które wskutek tego uszkodzenia stały się niezdatne. Nieuszkadzalność całej sieci zależy od trzech czynników [4]: M nieuszkadzalności składników tej sieci, M procedur przywracających poprawne działanie sieci po uszkodzeniu (network survivability procedures), M architektury sieci – jej topologii oraz stosowanych protokołów. PRZEGLĄD TELEKOMUNIKACYJNY ROCZNIK LXXVI nr 2--3/2003 Parametrem chętnie używanym w obliczeniach niezawodnościowych dotyczących sieci telekomunikacyjnych, jest gotowość (np. [2], [5]). Gotowość chwilowa (instantaneous availability) to prawdopodobieństwo, że obiekt jest w stanie wypełniać wymaganą funkcję w danych warunkach w danej chwili. Gotowość stacjonarna (steady-state availability) to średnia wartość gotowości chwilowej w warunkach stacjonarnych w danym przedziale czasu. Współczynnika tego nie oblicza się dla całej sieci3), lecz jedynie dla wybranych łańcuchów telekomunikacyjnych (fragmentów sieci między określonymi parami urządzeń przesyłających sobie wzajemnie dane). W takim przypadku obliczenie gotowości powinno przebiegać w sposób iteracyjny, uwzględniający wymienione powyżej czynniki, mające wpływ O Rys. 1. Podstawowe parametry niezbędne do obliczenia gotowości. Oznaczenia: MTBF (wartość średnia czasu między kolejnymi uszkodzeniami), MTTR (wartość średnia czasu do przywrócenia zdatności), MTTF (wartość średnia czasu do kolejnego uszkodzenia) na niezawodność sieci: najpierw oblicza się gotowość poszczególnych elementów, następnie należy uwzględnić połączenia tych elementów oraz stosowane procedury naprawcze i obliczyć gotowość całego łańcucha. W przypadku ogólnym jest to zadanie bardzo złożone, niejednokrotnie utrudniane na przykład przez nierównomierny rozkład ruchu, który również powinien być uwzględniony. Czas takich obliczeń zależy wykładniczo od rozmiarów sieci [6]. Dla pojedynczego urządzenia gotowość można ująć (przy wielu założeniach upraszczających4)) jako iloraz średniego czasu, w którym działa ono poprawnie, do całego czasu, w którym powinno działać. Wyraża się wzorem5) [2]: A= MUT , MUT + MDT gdzie: MUT – wartość średnia czasu zdatności (Mean Up Time), MDT – wartość średnia czasu przestoju (Mean Down Time). Parametrem dualnym w stosunku do gotowości jest niegotowość (unavailability): U = 1− A = MDT MUT + MDT W najprostszych obliczeniach gotowości korzysta się zazwyczaj z trzech następujących parametrów: ––––––– 3) Dokładna ocena ilościowa niezawodności całej sieci jest zadaniem niezwykle złożonym i dotychczas nie udało się rozwiązać tego problemu. Współczynnik gotowości umożliwia jednak pewną orientację w stanie niektórych fragmentów sieci i można go stosować przynajmniej w celu porównywania różnych rozwiązań. 4) Należy przyjąć np., że elementy sieci są obiektami nienaprawialnymi i po uszkodzeniu wymienia się je na nowe (w przypadku wielu urządzeń elektronicznych traktowanych jako całość jest to oczywiście nieprawda; z drugiej strony ich naprawa polega zazwyczaj na wymianie uszkodzonej karty na nową). Problemami tymi zajmuje się teoria odnowy; więcej wiadomości por. [7], [8]. 5) W polskiej literaturze fachowej współczynnik gotowości oznacza się zazwyczaj symbolami k lub K. 67 M MTBF6) (Mean Time Between Failures) – wartość średnia czasu między kolejnymi uszkodzeniami urządzenia; dokładne wyznaczenie MTBF wymaga znajomości rozkładu czasów wystąpienia uszkodzeń w systemie; M MTTR (Mean Time To Restoration/Recovery) – wartość średnia czasu upływającego od chwili wystąpienia uszkodzenia do uzyskania zdatności; M MTTF (Mean Time to Failure) – wartość średnia czasu upływającego od chwili odzyskania przez urządzenie zdatności do wystąpienia ponownego uszkodzenia. Zależności między nimi ilustruje rys. 1. W przypadku zgrubnych obliczeń gotowości przyjmuje się: MUT + MDT = MTBF oraz MDT = MTTR. W większości przypadków jest to dobre przybliżenie. Gotowość można obliczyć wtedy według poniższego wzoru: A= MTBF – MTTR MTBF = MTTF MTBF = MTTF MTTR + MTTF Do opisu zdatności sieci telekomunikacyjnej często stosuje się również współczynnik spodziewanej utraty ruchu ELT (Expected Loss of Traffic), który stanowi miarę niegotowości elementów sieci, czyli oczekiwaną ilość ruchu, który zostanie utracony na wskutek uszkodzenia. W przypadku sieci SDH parametr ELT stanowi liczbę synchronicznych modułów transportowych STM-n (Synchronous Transport Module) cyfrowej hierarchii synchronicznej SDH i jest wyrażany w godzinach na rok, co oznacza, że w ciągu roku statystycznie tyle właśnie godzin przepływu modułów STM-n zostanie utraconych (przy założeniu, że każdy kanał optyczny transportuje strumień STM-n). h oznacza utratę 250 × 155 × y ×3600 = 139 500 000 megabitów w roku (155 Mbit/s – przepływność kontenera STM-1, 3600 – liczba sekund w godzinie). Główne czynniki powodujące niezdatność w sieci telekomunikacyjnej oraz ich parametry niezawodnościowe zestawiono poniżej. Za [9] podano również wartości umożliwiające oszacowanie zdatności tych czynników (trzeba pamiętać, że są to jedynie liczby mające przybliżyć rząd wielkości). M Sprzęt. Z punktu widzenia zagadnień niezawodności parametry sprzętu opisuje się zazwyczaj za pomocą MTBF. Wartość tę podaje wytwórca sprzętu, który ma doświadczenie związane z jakością swojego produktu. MTBF urządzeń telekomunikacyjnych zazwyczaj wynosi kilkaset tysięcy godzin. Drugim parametrem jest MTTR. Z reguły wyznacza się go na poziomie kilku godzin. Wartość ta zależy od umowy z serwisantem sprzętu, którym w większości przypadków jest producent. M Oprogramowanie. Zazwyczaj nie ocenia się zdatności oprogramowania, jednak w celu dokonania zgrubnego oszacowania i porównania wpływu tego czynnika na zdatność całego łańcucha telekomunikacyjnego autor [9] proponuje charakteryzować oprogramowanie za pomocą takich samych parametrów jak w przypadku sprzętu. Podaje wartość MTTR na poziomie kilku minut („czas naprawy” obejmuje głównie czas ponownego ładowania oprogramowania i np. ustawienia tablic trasowania); oszacowanie wartości MTBF jest jeszcze bardziej arbitralne, autor cytowanej pozycji przyjmuje kilkadziesiąt tysięcy godzin. M Wpływ środowiska. Zagadnienie wpływu środowiska (temperatury, klimatu itd.) jest niezwykle ważne z punktu widzenia zapewniania zdatności urządzeń, omówienie tego problemu można znaleźć np. w [7]. W przypadku sieci telekomunikacyjnej uwzględnia się przede wszystkim problem dostawy zasilania, Dla przykładu ELT = 250 STM- 1 ––––––– 6) Obecnie skrótem MTBF częściej oznacza się wartość średnią czasu działania między uszkodzeniami (mean operating time between failures) [3]. 68 z sieci publicznej (wpływ środowiska jest pośredni, np. trzęsienia ziemi powodują uszkodzenie linii wysokiego napięcia). Czas niezdatności, wywołany przerwą zasilania, zależy od miejsca, ale często przyjmuje się, że wynosi on około pół godziny w ciągu roku [9]. Tego typu uszkodzeniom przeciwdziała się, stosując np. generatory prądu (baterie albo siłownie oparte na silnikach wysokoprężnych itp.). M Błędy personelu obsługującego sieć (human errors). Również w tym przypadku ocena gotowości jest z punktu widzenia teorii niezawodności nieuprawniona, jednak dla praktycznej orientacji znowu podajemy za autorem [9]: MTBF – kilkanaście-kilkadziesiąt tysięcy godzin, MTTR – kilka godzin. Tego typu błędy próbuje się eliminować przez usuwanie czynników, które sprzyjają poważniejszym (częstszym) uszkodzeniom zależnym od błędnej pracy człowieka (np. zwiększa się liczbę pracowników w godzinach nocnych). Zazwyczaj projektanci skupiają się na minimalizowaniu wpływu uszkodzeń sprzętu. Czyni się tak na dwa sposoby. Po pierwsze, można stosować układy równoległe (szczególnie w przypadku niewielkich sieci, w których da się zrównoleglić niezbędne urządzenia albo przynajmniej najważniejsze z nich). Po drugie, w przypadku dużej sieci obowiązuje podobne (chociaż oszczędniejsze) postępowanie, to znaczy również stosuje się nadmiarowe urządzenia, łącza itp. – jest ich więcej, niż potrzeba do przeniesienia ruchu, ale wolne zasoby zostają wykorzystane dopiero w sytuacji wystąpienia niezdatności. Operator sieci za pomocą odpowiednich urządzeń i oprogramowania monitoruje stan sieci. W razie stwierdzenia niezdatności powinien zastosować następującą procedurę [4]. M Wykrycie uszkodzenia (failure detection): stwierdzenie miejsca (przynajmniej obszaru sieci), w którym wystąpił defekt oraz określenie jego rodzaju (np. uszkodzenie łącza, uszkodzenie określonego urządzenia itd.). Wykrycie uszkodzenia jest sygnalizowane albo przez protokoły sygnalizacyjne, albo przez urządzenia sieciowe. M Przekierowanie ruchu (rerouting of traffic): ustanowienie nowych tras fizycznych, na które zostanie przeniesiona informacja pochodząca z kanałów łączności przebiegających w uszkodzonych częściach sieci. Przekierowanie jest procedurą, która ma za zadanie przywrócić poprawne działanie systemu. Sposób dokonywania przekierowania ruchu jest jednym z głównych problemów związanych z niezawodnością sieci. M Przydzielenie przepływności na nowej trasie (bandwidth allocation): rozmieszczenie odzyskanego z uszkodzonych łączy ruchu na nowych trasach. Jest to problem, którym zajmuje się inżynieria ruchu. Zazwyczaj problem przydziału wiąże się z problemem przekierowania ruchu. Operator powinien oczywiście podjąć dodatkowe czynności, polegające na naprawie uszkodzonych elementów, ale nie są to czynności interesujące z punktu widzenia zapewniania poprawnego działania sieci bezpośrednio (w sensie np. kilkunastu milisekund) po uszkodzeniu. Jeżeli niezdatność powstałą w wyniku uszkodzenia pozostawi się zbyt długo nienaprawioną, może to doprowadzić do sytuacji, że w przypadku wystąpienia kolejnych uszkodzeń w innych częściach sieci, nie będzie w ogóle możliwe przywrócenie poprawnego działania (bez przerwania pracy całej sieci). OBLICZANIE GOTOWOŚCI ZŁOŻONYCH SYSTEMÓW (ŁAŃCUCHÓW TELEKOMUNIKACYJNYCH) W przypadku złożonych układów należy obliczyć gotowość zastępczą. Rozpoczynając od najprostszych układów, oblicza się gotowość bardzo złożonych systemów – procedura przypo- PRZEGLĄD TELEKOMUNIKACYJNY ROCZNIK LXXVI nr 2--3/2003 mina obliczanie rezystancji zastępczej układu elektronicznego. Przy obliczeniach niezawodnościowych przyjmuje się założenie, że wszystkie uszkodzenia są od siebie niezależne w sensie teorii prawdopodobieństwa (s-independent, statistically-independent). Aby ułatwić obliczenia gotowości złożonych systemów, korzysta się ze schematów blokowych niezawodności (reliability block diagrams) [9], które umożliwiają wizualizację zagadnienia. Schematy przedstawiają strukturę badanej sieci ze względu na niezawodność (por. rys. 2, rys. 3, rys. 4). System ma niezawodnościową strukturę szeregową (series system), jeżeli uszkodzenie dowolnego elementu powoduje niezdatność systemu (rys. 2) [8]. Jego gotowość zastępcza wynosi [9]: #reg 2 #wzm Al = Ak × Atrans × Areg × Awzm gdzie: Al – gotowość całego łącza, Ak – gotowość kabla danego łącza, Atrans – gotowość pojedynczego transpondera, Areg – gotowość pojedynczego regeneratora, #reg – liczba regeneratorów wchodzących w skład danego łącza, Awzm – gotowość pojedynczego wzmacniacza, #wzm – liczba wzmacniaczy wchodzących w skład danego łącza. Gotowość kabla oblicza się za pomocą parametru przecięcia kabla CC (Cable Cut), wyrażonego w kilometrach i oznaczającego średnią długość kabla, która w ciągu roku ulega jednemu przerwaniu. Dla kabla o długości L wartość parametru MTBFk wyrażonego w godzinach wynosi [2]: n A szer = ∏ Ai MTBFk (L ) = i =1 gdzie: A1, ... , Ai, ..., An oznaczają gotowości poszczególnych n elementów, wchodzących w skład struktury szeregowej. Gotowość obliczona dla całej struktury szeregowej jest zawsze mniejsza od gotowości każdego z elementów tego połączenia: A szer ≤ min {A i } . Za pomocą struktury szeregowej można moi delować pojedyncze łącze telekomunikacyjne: trzeba uwzględnić gotowość transponderów, kabla, regeneratorów, wzmacniaczy itp. (rys. 3). Wzór na gotowość ma w tym przypadku następującą postać [5]: CC × 365× 24 . L Dla systemów światłowodowych (których dotyczy zamieszczony niżej przykład) przyjmuje się CC = 300 km, natomiast średni czas naprawy niezdatności kabla MTTRk = 24 godz. Wzór w przypadku gotowości zastępczej niezawodnościowej struktury równoległej (parallel system) ma następującą postać [9]: n Arówn= 1− ∏ (1− Ai ) i =1 Obowiązuje on jedynie dla struktur równoległych, w których do zdatności działania wystarcza zdatność przynajmniej jednego elementu (rys. 2) [8]. Sytuacja taka występuje na przykład przy zastosowaniu nadmiarowych (redundantnych) układów zasilających. Podobnie jak poprzednio, warto zwrócić uwagę na zależność między gotowością zastępczą całej struktury równoległej a gotowością wchodzących w jej skład elementów: gotowość zastępcza jest zawsze większa od gotowości któregokolwiek z elementów składowych: Arówn ≥ max {Ai } . Często i O Rys. 2. Gotowość zastępcza dla struktury: a) szeregowej; b) równoległej. Oznaczenia: Ai – gotowość elementu nr i zdarza się jednak (na przykład przy łączeniu grupy transponderów w układach nadawczych lub odbiorczych), że w strukturze równoległej pracuje N urządzeń, z których N-1 musi być w stanie zdatności, aby cały system był zdatny. W takiej sytuacji obliczenia znacznie się komplikują. Na przykład jeżeli gotowość poszczególnych urządzeń jest jednakowa, gotowość zastępcza wyraża się wzorem [9]: A(N −1,N ) = NAN −1 (1 − A ) + AN O Rys. 3. Schemat blokowy niezawodności pojedynczego łącza gdzie: A jest gotowością pojedynczego urządzenia należącego do systemu. W przypadku ogólniejszym (z ograniczeniem, że elementy składowe mają identyczną gotowość), gdy wśród połączonych równolegle N urządzeń do zapewnienia poprawnej pracy systemu potrzeba poprawnego działania r urządzeń (tzw. struktura r-z-N, ang. r-out-of-N) można zastosować wzór oparty na rozkładzie dwumianowym [10]: N A (r , N ) = N ∑ k Ak (1− A)N −k k =r gdzie: r – liczba urządzeń, które muszą działać poprawnie (spośród N urządzeń), A – gotowość pojedynczego urządzenia. O Rys. 4. Schemat blokowy niezawodności przykładowego połączenia z protekcją (pominięto przełączniki) PRZEGLĄD TELEKOMUNIKACYJNY ROCZNIK LXXVI nr 2--3/2003 Aby zilustrować, w jaki sposób przeprowadza się obliczenia gotowości, posłużymy się przykładem uproszczonego połączenia światłowodowego (rys. 4). Jest to połączenie między dwoma węzłami, korzystające z najprostszej metody protekcji 1 + 1. Ścieżka robocza to połączenie światłowodowe o długości 200 km z jednym regeneratorem. Ścieżka protekcyjna to połączenie światłowodowe przechodzące przez przełącznicę optyczną; ma długość 400 km, w jego skład wchodzą dwa 69 wzmacniacze optyczne. Schemat blokowy niezawodności wskazuje, że całe połączenie jest złożoną strukturą równoległo-szeregową (dla uproszczenia pominęliśmy przełączniki, których niezawodność również należy uwzględnić w przypadku dokładnych obliczeń). Gotowość układu wyraża się wzorem: A = At2 × (1 − (1− Ar × Ak (Lr )) (1 − Aw2 × A p × A k (L p ))) kilka sposobów. Jednym z wygodniejszych jest posłużenie się grafami prawdopodobieństwowymi [11], które uwzględniają możliwe ścieżki przesyłania danych, dzięki czemu umożliwiają obliczenie gotowości zastępczej. Wynikiem dosyć żmudnych obliczeń dla naszego przykładu jest wzór: A = A1A 4 + A 2 A 5 + A1A 3 A 5 + A 2 A 3 A 4 − A1A 2 A 3 A 4 – − A1A 2A 3 A 5 − A1A 2 A 4 A 5 − A1A 3 A 4 A 5 − A 2 A 3 A 4 A 5 + gdzie: Ak (Lr ) = 1 − MTTR k L × MTTR k = 1− r ≈ 99 ,817 % MTBFk (Lr ) CC × 365 × 24 i analogicznie: Ak (L p ) = 1− L p × MTTR k CC × 365 × 24 ≈ 99,634 % Gotowość pozostałych elementów zawiera tabela 1. Gotowość całego systemu wynosi: A ≈ 99,995%, co stanowi wartość dosyć wysoką, mimo faktu, że np. gotowość obu kabli jest relatywnie niska. O Tabela 1. Przykładowe wartości parametrów MTBF, MTTR oraz gotowości różnych elementów składowych sieci optycznej (na podstawie [5]) Element Przełącznica optyczna (OXC) MTBF [godz.] MTTR [godz.] Gotowość [%] 10 000 6 99,940 Wzmacniacz liniowy 500 000 24 99,995 Regenerator 500 000 6 99,998 Transponder 500 000 6 99,998 Obliczenia odnoszące się do struktur nie będących złożeniem struktur szeregowych i równoległych (mostki, gwiazdy) wymagają zastosowania bardziej skomplikowanych metod teorii niezawodności, wywodzącej się z rachunku prawdopodobieństwa. Jako przykład posłuży nam sieć przedstawiona na rys. 5. Dokładnego obliczenia jej gotowości można dokonać na + 2A1A 2A 3 A 4 A 5. Ze względu na nakład obliczeniowy często korzysta się z metod zgrubnego szacowania niezawodności takiego systemu [10]. Metoda polega na znalezieniu dwóch zbiorów (tabela 2) – zbioru minimalnych ścieżek zdatności sieci, czyli minimalnego O Tabela 2. Minimalne ścieżki i przekroje zdatności przykładowej sieci z rys. 5. Minimalne ścieżki zdatności Minimalne przekroje niezdatności Urz1, Urz4 Urz1, Urz2 Urz2, Urz5 Urz4, Urz5 Urz1, Urz3, Urz5 Urz1, Urz3, Urz5 Urz2, Urz3, Urz4 Urz2, Urz3, Urz4 zestawu elementów, który zapewnia poprawne działanie sieci oraz zbioru minimalnych przekrojów niezdatności sieci, czyli minimalnego zbioru elementów, których jednoczesne uszkodzenie powoduje przestój całej sieci. Oszacowaniem górnym (Aog) gotowości całej sieci jest gotowość struktury równoległej złożonej z minimalnych ścieżek zdatności, natomiast oszacowaniem dolnym (Aod) jest gotowość struktury szeregowej złożonej z minimalnych przecięć niezdatności (rys. 5b, c). W naszym przykładzie: Aog = 1− (1 − A1A 4 )(1 − A 2 A 5 )(1 − A1A 3 A 5 )(1− A 2 A 3 A 4 ) Aod = [1− (1− A1) (1− A 2 )] [1− (1 − A 4 ) (1 − A 5 )] × × [1 − (1− A1) (1− A 3 ) (1− A 5 )] [1− (1− A 2 ) (1− A 3 ) (1 − A 4 )]. Korzysta się tu z intuicyjnego faktu (udowodnionego formalnie, np. [10]) że sieć nie może być bardziej niezawodna, niż struktura równoległa, która powstaje ze wszystkich możliwie O Rys. 6. Przykład ilustrujący obliczanie gotowości przesyłanych danych. Oznaczenia: Aconi – gotowość połączenia nr i, Dconi – szybkość transmisji danych przez połączenie nr I O Rys. 5. Przykład sposobu szacowania gotowości: a) układ rzeczywisty; b) układ złożony z minimalnych ścieżek zdatności; c) układ złożony z minimalnych przekrojów niezdatności. Oznaczenia: Ai – gotowość elementu nr I 70 najlepszych ścieżek tej sieci i analogicznie nie może być bardziej podatna na uszkodzenia, niż struktura szeregowa złożona z najgorszych przecięć tej sieci: Aod ≤ A ≤ Aog. W sytuacji, gdy wszystkie elementy mają tę samą gotowość: A1 = A2 = A3 = = A4 = A5 = 95%; Aod ≈ 99,475%, A ≈ 99,478%, Aog ≈ 99,980%. Jak można zauważyć, w tym przypadku oszacowanie dolne dobrze przybliża dokładny wynik (ale nie stanowi to żadnej reguły). PRZEGLĄD TELEKOMUNIKACYJNY ROCZNIK LXXVI nr 2--3/2003 Odrębnym problemem jest obliczanie gotowości przenoszonych danych (load availability)7). Obliczenie tego parametru jest uzasadnione w sytuacji, gdy część danych jest przesyłana z jakiegoś terminalu różnymi połączeniami, charakteryzującymi się różnymi wartościami gotowości (rys. 6). Dobrym przykładem są sieci oparte na protokole IP. Gotowość przenoszonych danych jest średnią ważoną gotowości poszczególnych połączeń i wyraża się wzorem [5]: AD = ∑ Acon #i × Dcon #i i , ∑Dcon #i i gdzie: AD – gotowość danych przesyłanych między dwoma węzłami sieci za pomocą i połączeń, Acon#i – gotowość połączenia i, Dcon#i – szybkość transmisji danych przez połączenie i, ∑D con #i – szybkość transmisji danych między węzłami (zakła- i da się, że połączenie jest jednokierunkowe). Dla przykładowych danych: Acon1= 99,1%, Dcon1= 10 Mbit/s, Acon2 = 99,2%, Dcon2 = = 20 Mbit/s, Acon3 = 99,3%, Dcon3 = 30 Mbit/s, Acon4 = 99,4%, Dcon4 = 40 Mbit/s, gotowość danych wynosi: Ad = 99,3%. Warto zauważyć, że zawsze istnieje związek: min { Ai } ≤ AD ≤ max { Ai } . i i ✽✽✽ Celem artykułu było przedstawienie podstawowych wiadomości dotyczących niezawodności sieci telekomunikacyjnych, uporządkowanie terminologii oraz pokazanie elementarnych sposobów oceny gotowości. Tematyka niezawodności, ze względu na jej rosnące znaczenie w działalności operatorskiej, staje się coraz bardziej interesująca. W artykule staraliśmy się –––––––– 7) Z punktu widzenia teorii niezawodności obliczanie takiego parametru nie jest uzasadnione. Podajemy go jednak za [5] dlatego, że wydaje się mieć praktyczne zastosowanie. PRZEGLĄD TELEKOMUNIKACYJNY ROCZNIK LXXVI nr 2--3/2003 ograniczyć elementy teoretyczne na rzecz praktycznych. Dokładne zaznajomienie się z tą dziedziną matematyki stosowanej wymaga sięgnięcia do bogatej literatury poświęconej omawianym problemom. LITERATURA [1] Snow A. P.: Network Reliability: The Concurrent Challenges of Innovation, Competition, and Complexity, IEEE Transactions on Reliability, Vol. 50, No. 1, March 2001 [2] De Maesschalck S., Colle D., Lievens I.: Pan-European Optical Transport Networks: an availability-based comparison, dokument wewnętrzny projektu europejskiego LION, marzec 2002 [3] PN-93/N-50191: Polska Norma. Słownik terminologiczny elektryki. Niezawodność; jakość usługi, Polski Komitet Normalizacji, Miar i Jakości, sierpień 1994 [4] Kroculick J., Hood C.: Using Inheritance to Derive Non-Conflicting Survivability Strategies, Proceedings of 1998 IEEE International Conference on Communications ICC’98, 7-11 June 1998, Atlanta, Georgia, USA [5] Willems G., Arijs P., Van Parys W., Demeester P.: Capacity vs. Availability Trade-offs in Mesh-Restorable WDM Networks, Proceedings of 3rd Int. Workshop on the Design of Reliable Communication Networks (DRCN 2001), Budapest, Hungary, October 2001 [6] Belovich S. G.: A Design Technique for Reliable Networks Under a Non-Uniform Traffic Distribution, IEEE Transactions on Reliability, Vol. 44, No. 3, September 1995 [7] Prażewska M. et al.: Niezawodność urządzeń elektronicznych, Wydawnictwa Komunikacji i Łączności, Warszawa 1987 [8] Kapiński J., Firkowicz Sz.: Zasady profilaktyki obiektów technicznych, Państwowe Wydawnictwo Naukowe, Warszawa 1981 [9] Oggerino Ch.: High Availability Network Fundamentals, Cisco Press, Indianapolis 2001 [10] Grosh D. L.: A Primer of Reliability Theory, John Wiley & Sons, New York 1989 [11] Jajszczyk A.: Wstęp do telekomutacji, Wydawnictwa Naukowo-Techniczne, Warszawa 2000 Praca wykonana w ramach projektu badawczego KBN nr 7 T11 D01020 Artykuł recenzowany (Artykuł nadesłano do red. – wrzesień 2002 r.) 71