Systemy modułowe: ewolucja niezawodności White Paper 76
Transkrypt
Systemy modułowe: ewolucja niezawodności White Paper 76
Systemy modułowe: ewolucja niezawodności Neil Rasmussen i Suzanne Niles White Paper 76 Streszczenie Natura już dawno dowiodła, że w przypadku złożonych systemów szansę na przetrwanie i rozwój mają jedynie konstrukcje modułowe. Istotny składnik tego sukcesu stanowi podstawowa cecha niezawodności w postaci odporności na awarie, dzięki której można przenieść wykonywane przez system modułowy operacje z uszkodzonych modułów do tych, które działają prawidłowo, wykonując jednocześnie naprawę. Również w centrach danych zastosowano już konstrukcje modułowe w postaci nowych, odpornych na awarie architektur serwerów i systemów pamięci masowych. W miarę ewolucji centrów danych, które zapożyczają z wzorców obecnych w naturze, również infrastruktura fizyczna sieci o znaczeniu krytycznym (NCPI) musi się rozwijać, aby obsłużyć nowe strategie przetrwania, odtwarzania i wzrostu. ©2006 American Power Conversion. Wszelkie prawa zastrzeżone. Żadna część niniejszej publikacji nie może być używana, reprodukowana, fotokopiowana, transmitowana ani zapisywana w jakimkolwiek systemie przechowywania informacji bez pisemnej zgody właściciela praw autorskich www.apc.com Wer. 2006- 2 Wstęp Modułowość to rozpowszechniona technika organizacji i upraszczania złożonego systemu. Począwszy od podstawowych elementów, takich jak baterie latarki, aż po skomplikowane komórki organizmu, modułowość sprawdza się w ogromnej liczbie sytuacji. Mimo to, w przypadku systemów stworzonych przez człowieka, które znajdują się na granicy między konstrukcjami monolitycznymi, a modułowymi, często można zauważyć sceptycyzm i powolną akceptację tej techniki zanim dane rozwiązanie modułowe przyjmie się i zacznie przynosić sprawdzone korzyści. W takiej właśnie fazie przejściowej znajduje się infrastruktura fizyczna sieci o znaczeniu krytycznym (NCPI). Fizyczne atrybuty architektury opartej na gotowych elementach konstrukcyjnych — skalowalność, elastyczność, prostota i przenośność — są zrozumiałe i nie stanowią przedmiotu poważnych sporów, ale tematem dyskusji jest ciągle jeden aspekt konstrukcji modułowej w tej branży: niezawodność. Zastosowanie klasycznej, prostej analizy niezawodności do tej nowej koncepcji („więcej części oznacza większe ryzyko awarii”) w najlepszym przypadku dostarcza niepełnych wyników, a w najgorszym może wprowadzać w błąd. Celem tego dokumentu jest pokazanie na podstawie kilku studiów przypadków, że modułowość zapewnia nie tylko bardziej oczywiste i zrozumiałe korzyści, lecz ma także bardziej ukrytą i mniej zrozumiałą zaletę związaną z niezawodnością, jaką jest odporność na awarie. Charakterystyczna dla konstrukcji modułowych odporność na awarie gwarantuje nową, skuteczną ochronę przed problemami. Dzięki niej w złożonych systemach możliwe jest zastosowanie strategii niezawodności, która jest nie tylko wystarczająca, ale także zapewnia największe korzyści. ©2006 American Power Conversion. Wszelkie prawa zastrzeżone. Żadna część niniejszej publikacji nie może być używana, reprodukowana, fotokopiowana, transmitowana ani zapisywana w jakimkolwiek systemie przechowywania informacji bez pisemnej zgody właściciela praw autorskich www.apc.com Wer. 2006- 3 Studium dotyczące natury: początki życia Historia modułowości jest znacznie dłuższa niż historia centrów danych czy baterii do latarki. Pierwsze systemy niemodułowe — organizmy jednokomórkowe — żyły na Ziemi już trzy miliardy lat temu. Na podstawie skamielin tych organizmów ustalono, że wykształciły one muszle, czułki, otwory gębowe, Zdjęcie dzięki uprzejmości Davida Walkera, Briana Darntona kończyny, chwytaki i wiele innych skomplikowanych struktur. Niektóre organizmy osiągały zaskakujące Wczesne formy życia jednokomórkowego rozmiary — nawet do 15 cm długości. Te złożone, jednokomórkowe organizmy monolityczne zdominowały podstawowy łańcuch pokarmowy Ziemi na wiele miliardów lat. W pewnym momencie, mniej więcej 500 milionów lat temu, pojawiły się organizmy wielokomórkowe. W ciągu kilkudziesięciu milionów lat rozwinęły się tak szybko, że prześcignęły trwającą trzy miliardy lat ewolucję złożonych organizmów jednokomórkowych i przejęły dominację na świecie. Zalety modułowości w przypadku organizmów wielokomórkowych Dlaczego modułowa budowa wielokomórkowa uzyskała przewagę nad zadomowioną budową monolityczną? • Możliwość skalowania i wzrostu. Wzrost systemu, zarówno pod względem rozmiaru, jak i pojawiania się nowych zdolności był możliwy po prostu przez dodanie nowych modułów (komórek), które mogły współpracować z istniejącymi modułami za pośrednictwem standardowych interfejsów. • Prostszy proces duplikacji. Duplikowanie wielu mniejszych i niezbyt skomplikowanych komórek było prostsze, szybsze i bardziej niezawodne niż duplikacja pojedynczej, ale bardziej złożonej komórki. Wczesne formy życia wielokomórkowego • Możliwość wyspecjalizowania funkcji modułów. Przekazywanie zadań i specjalizowanie czynności wykonywanych przez komórkę zapewniało podobne korzyści, jak w przypadku pracy zespołowej. W pierwszych organizmach wielokomórkowych jeden rodzaj komórek był odpowiedzialny za przemieszczanie, inny za ochronę, jeszcze inny za wykrywanie pożywienia itd. • Szybka adaptacja do środowiska. Dodawanie, dzielenie i modyfikowanie komórek umożliwiało szybsze sprawdzanie stopniowych zmian w strukturze, które były przyjmowane lub odrzucane. • Odporność na awarie. Dzięki nadmiarowości komórek poszczególne komórki mogły ulec uszkodzeniu, co nie wpływało negatywnie na cały system, a także pozwalało na jednoczesną naprawę komórki bez wyłączania całego systemu (co w tym przypadku oznaczałoby nieprawidłowe funkcjonowanie lub śmierć). ©2006 American Power Conversion. Wszelkie prawa zastrzeżone. Żadna część niniejszej publikacji nie może być używana, reprodukowana, fotokopiowana, transmitowana ani zapisywana w jakimkolwiek systemie przechowywania informacji bez pisemnej zgody właściciela praw autorskich www.apc.com Wer. 2006- 4 Ostatnia z powyższych cech, odporność na awarie, stanowi podstawowy atrybut niezawodności systemów modułowych, która świadczy o ich przewadze nad systemami monolitycznymi. Modułowość umożliwia podział systemu na wiele mniejszych części, co zapewnia nadmiarowość poszczególnych komponentów. Awaria jednej lub nawet wielu części nie musi wpływać negatywnie na działanie całego systemu. Nawet pojedyncze zadrapanie oznacza ubytek setek komórek ludzkiej skóry, ale nie umieramy na skutek takiej straty. Inne komórki kontynuują swoją pracę podczas wykonywania naprawy. My, ludzie nie wynaleźliśmy modułowości — my jesteśmy modułowi. Dzięki ogromnej liczbie modułów (komórek) każdego dnia możemy cieszyć się odpornością na awarie. Studium dotyczące informatyki: dyski twarde W czasach, gdy w centrach danych stosowano komputery mainframe, urządzenia pamięci masowej miały postać dużych, samodzielnych dysków twardych ze stosami 14-calowych, metalowych talerzy, z rozbudowanymi mechanizmami odczytu i zapisu oraz obudowami o wielkości pralki. W 1978 roku firma IBM opatentowała koncepcję użycia macierzy mniejszych dysków, ale nigdy jej nie zastosowała, uznając, że takie rozwiązanie nigdy nie będzie tak niezawodne, jak konwencjonalna konstrukcja monolityczna. Badania nad odpornością na awarie i ich Pamięć masowa komputera mainframe IBM 33703370 zastosowaniem w praktyce dopiero się rozpoczynały. Była to głównie domena przemysłu lotniczego, gdzie ceną awarii elementu w systemie elektronicznym mogło być życie ludzkie.1. 1 Obecnie operacje IT spełniają podstawową funkcję niemal w każdej branży, włącznie z lecznictwem i wojskowością. Dlatego też centra danych mają kluczowe znaczenie, a ich awaria może oznaczać nawet utratę życia. Z tego powodu odporność na błędy zaczyna odgrywać coraz większą rolę dla ich konstrukcji, nawet jeśli jest to nieopłacalne ekonomiczne. ©2006 American Power Conversion. Wszelkie prawa zastrzeżone. Żadna część niniejszej publikacji nie może być używana, reprodukowana, fotokopiowana, transmitowana ani zapisywana w jakimkolwiek systemie przechowywania informacji bez pisemnej zgody właściciela praw autorskich www.apc.com Wer. 2006- 5 W 1987 roku naukowcy z Berkeley zaobserwowali rosnącą różnicę między szybkością komputerów, a szybkością dostępu do pamięci masowej. Zauważyli, że pojawienie się zewnętrznych dysków twardych dla komputerów osobistych zapewnia możliwość ich użycia jako elementów konstrukcyjnych dla systemu o większej szybkości przesyłania danych. Rok później przedstawili dokument „A Case for Redundant Arrays of Inexpensive Disks (RAID)” (Omówienie nadmiarowej macierzy niedrogich dysków [RAID]), proponując kilka schematów zapisu danych („poziomów RAID”), które mogły zostać wykorzystane przez macierze RAID do zapisywania, odczytywania i odzyskiwania danych. W 1990 roku teoria doczekała się praktycznej realizacji w postaci 5,25-calowych dysków stosowanych w komputerach osobistych, które osiągnęły już wystarczającą pojemność, wydajność i niezawodność, aby możliwe było ich użycie w pierwszych macierzach RAID. Te nowe, modułowe urządzenia pamięci masowej zapewniły kompromis między nadmiarowością oraz szybkością odczytu i zapisu, a także wymagały znacznie mniejszej przestrzeni w porównaniu do urządzeń pamięci masowej komputerów mainframe, które zastąpiły. Zalety modułowości w przypadku macierzy RAID Dlaczego modułowe macierze RAID są lepsze od starych, monolitycznych urządzeń pamięci masowej? • Możliwość skalowania i wzrostu. Pojemność pamięci masowej można z łatwością zwiększyć przez zwiększenie liczby modułów w macierzy lub przez dodanie macierzy. Macierz RAID • Prostszy proces duplikacji. Wyprodukowanie wielu małych dysków, które służą jako moduły RAID, jest znacznie prostsze niż wyprodukowanie starszych, skomplikowanych i większych dysków. • Możliwość wyspecjalizowania funkcji modułów. Poszczególne dyski w macierzy mogą zostać użyte do zapewnienia dodatkowej pojemności, większej szybkości dostępu lub większej nadmiarowości w zależności od poziomu RAID zdefiniowanego dla macierzy. Ponadto same macierze RAID mogą być traktowane jako moduły wyższego poziomu. Każda macierz RAID może mieć inne zastosowanie. • Szybka adaptacja do środowiska. Dyski można dodawać lub usuwać. Można także z łatwością zmieniać poziom RAID w celu uzyskania żądanego kompromisu pod względem pojemności, wydajności i nadmiarowości. • Odporność na awarie. Schematy zapisu danych w macierzach RAID uwzględniają nadmiarowość, która zapewnia możliwość odtworzenia danych w przypadku awarii jednego z dysków. Zaskoczeniem dla projektantów był fakt, że przyczyną entuzjastycznego przyjęcia macierzy RAID przez rynek była nie tyle wyższa szybkość — główny cel tego projektu — ale wyższa niezawodność wynikająca z odporności na awarie. Do momentu, kiedy autorzy dokumentu z 1988 roku przedstawili możliwości technologii RAID w zakresie odporności na awarie — podczas prezentacji przed publicznością po prostu wyjmowali jeden z dysków, podczas gdy macierz kontynuowała pracę — powszechnie panowała typowa, choć błędna opinia dotycząca niezawodności: system z wieloma dyskami musi być mniej niezawodny, skoro składa się z większej liczby części. ©2006 American Power Conversion. Wszelkie prawa zastrzeżone. Żadna część niniejszej publikacji nie może być używana, reprodukowana, fotokopiowana, transmitowana ani zapisywana w jakimkolwiek systemie przechowywania informacji bez pisemnej zgody właściciela praw autorskich www.apc.com Wer. 2006- 6 Studium dotyczące informatyki: serwery kasetowe W chwili tworzenia tego dokumentu serwery kasetowe znajdują się w połowie drogi do przejścia do konstrukcji modułowej. Przez wiele lat tradycyjne, samodzielne serwery stawały się coraz większe i szybsze, wykonując coraz większą liczbę zadań w miarę rozwoju komputerowych technik sieciowych. Nowe serwery były dodawane do centrów danych, jeśli było to konieczne. Często stanowiły one szybki środek zaradczy stosowany bez większej koordynacji lub planowania. Wielu operatorów centrów danych odkrywało, że serwery zostały dodane bez ich wiedzy. Wynikająca z tego złożona struktura obudów i okablowania w coraz większym stopniu prowadziła do nieporozumień, pomyłek i braku elastyczności. Serwery kasetowe, które zaczęły się pojawiać w 2001 roku, stanowią bardzo prosty i typowy przykład architektury modułowej — kasety w obudowie serwera Serwery konwencjonalne kasetowego są fizycznie identyczne i mają takie same procesory. Są one gotowe do skonfigurowania i użycia w dowolnym celu wybranym przez użytkownika. Wprowadzenie takich serwerów wniosło do środowiska serwerowego wiele zalet modułowości, takich jak skalowalność, łatwość duplikacji, specjalizacja funkcji i możliwość dostosowania. Te tradycyjne zalety modułowości przyczyniły się do rosnącej popularności serwerów kasetowych w centrach danych, ale ich pełny potencjał w dalszym ciągu oczekuje na szerokie wdrożenie pozostałej podstawowej możliwości konstrukcji modułowej: odporności na awarie. Odporne na awarie serwery kasetowe z wbudowaną logiką przełączania awaryjnego, która przenosi wykonywane operacje z kaset uszkodzonych do działających prawidłowo, stały się dostępne dopiero od niedawna, a ich ceny są coraz bardziej atrakcyjne. Niezawodność takich serwerów jest znacznie wyższa niż w przypadku stosowanych obecnie technik obejmujących nadmiarowe oprogramowanie i klastry pojedynczych serwerów. Oznacza to, że serwery kasetowe mogą stać się dominującą architekturą serwerową w centrach danych. Wraz z pojawieniem się zautomatyzowanej odporności na awarie analitycy branżowi przewidują szybką migrację do serwerów kasetowych w ciągu najbliższych pięciu lat. ©2006 American Power Conversion. Wszelkie prawa zastrzeżone. Żadna część niniejszej publikacji nie może być używana, reprodukowana, fotokopiowana, transmitowana ani zapisywana w jakimkolwiek systemie przechowywania informacji bez pisemnej zgody właściciela praw autorskich www.apc.com Wer. 2006- 7 Zalety modułowości w przypadku serwerów kasetowych Dlaczego modułowe serwery kasetowe uzyskają przewagę nad większymi, samodzielnymi serwerami? • Możliwość skalowania i wzrostu. Możliwości obliczeniowe można z łatwością zwiększyć przez dodanie kolejnych modułów (kaset). • Prostszy proces duplikacji. O wiele prostsze jest wyprodukowanie Serwer kasetowy małych kaset niż całych serwerów. Zasilacze, wentylatory chłodzące, (10 kaset w obudowie) połączenia sieciowe i inne komponenty pomocnicze są scentralizowane w obudowie i współużytkowane przez kasety, dzięki czemu struktura kasety jest uproszczona. • Możliwość wyspecjalizowania funkcji modułów. Poszczególne kasety można skonfigurować przy użyciu oprogramowania według wymagań użytkownika. • Szybka adaptacja do środowiska. Kasety można dodawać lub usuwać zgodnie z potrzebami biznesowymi lub finansowymi. Możliwa jest także zmiana konfiguracji kaset w celu uruchamiania różnych aplikacji. • Odporność na awarie. Awaria kasety może zostać obsłużona automatycznie przez wbudowaną logikę przełączania awaryjnego, która bezproblemowo przenosi wykonywane operacje do innych kaset. Zmieniająca się definicja awarii dla systemów IT Powyższe studia przypadków pokazały, że konstrukcja modułowa jest lepsza od złożonej konstrukcji monolitycznej. Wynika to z podstawowych przyczyn, które są ściśle związane z naturą modułowości. Jedna z tych przyczyn, odporność na awarie, ma ogromne znaczenie dla przyszłości centrów danych. Kiedy serwery i urządzenia pamięci masowej w całym centrum danych staną się odporne na awarie, zmieni się definicja awarii systemu IT. Przyjrzyjmy się dwóm różnym scenariuszom awarii w centrum danych (Rysunek 1). Po prawej stronie przedstawiono awarię wszystkich szaf, która może wystąpić w przypadku uszkodzenia dużego, pojedynczego zasilacza UPS, który chroni całe centrum danych. W wyniku jego awarii następuje przerwanie zasilania urządzeń. Po lewej stronie przedstawiono awarię pojedynczej szafy. W tradycyjnych centrach danych obydwa scenariusze byłyby postrzegane przez kierowników działów IT jako identyczna awaria, ponieważ w przypadku awarii pojedynczej szafy wzajemne zależności między serwerami, macierzami dyskowymi, przełącznikami i routerami spowodowałyby kaskadowe skutki, których efektem było unieruchomienie całego centrum danych. ©2006 American Power Conversion. Wszelkie prawa zastrzeżone. Żadna część niniejszej publikacji nie może być używana, reprodukowana, fotokopiowana, transmitowana ani zapisywana w jakimkolwiek systemie przechowywania informacji bez pisemnej zgody właściciela praw autorskich www.apc.com Wer. 2006- 8 Ze względu na pojawianie się nowych konstrukcji modułowych typu macierzowego przeznaczonych do celów obliczeniowych i przechowywania danych, awaria pojedynczej szafy (po lewej stronie) zaczyna być postrzegana przez kierowników działów IT jako „lepsza” awaria. Dzieje się tak, gdyż dostępna obecnie nadmiarowość zasobów zapewnia centrum danych możliwość przetrwania nawet w przypadku awarii pojedynczych elementów. Wraz z rosnącą popularnością architektur odpornych na awarie w centrach danych będą dopuszczalne uszkodzenia większej liczby elementów, które nie będą jednak powodować całkowitej awarii systemu. Kiedy spełnią się nadzieje pokładane w serwerach kasetowych odnośnie ich bezproblemowej odporności na awarie, uszkodzenie jednej, dwóch, trzech, a nawet większej liczby szaf będzie zdarzeniem, które nie sprawi większych kłopotów. Rysunek 1 — Dwa scenariusze awarii w centrum danych Widok z góry, cztery rzędy po osiem szaf w każdym Awaria jednej szafy Awaria wszystkich szaf ©2006 American Power Conversion. Wszelkie prawa zastrzeżone. Żadna część niniejszej publikacji nie może być używana, reprodukowana, fotokopiowana, transmitowana ani zapisywana w jakimkolwiek systemie przechowywania informacji bez pisemnej zgody właściciela praw autorskich www.apc.com Wer. 2006- 9 Implikacje dla infrastruktury NCPI Ten nowy paradygmat zarządzania awariami — przewidywanie, że kilka modułów z pewnością ulegnie awarii, w połączeniu z zaawansowanym przygotowaniem w celu uniknięcia skutków tej awarii — wpływa na sposób, w jaki nowa architektura IT powinna być chroniona przez infrastrukturę fizyczną sieci o znaczeniu krytycznym. Na przykład warstwa IT w centrach danych będzie coraz bardziej odporna na awarie, a więc stosowanie pojedynczego, dużego zasilacza UPS będzie stawało się nie optymalne, ponieważ jego awaria spowoduje wyłączenie całego systemu — jest to niepożądany efekt w przypadku odpornego na awarie centrum danych, które może przetrwać utratę szafy. Gdyby zasilacze UPS zostały rozproszone w całym centrum danych (po jednym zasilaczu dla każdej szafy), awaria pojedynczego zasilacza UPS miałaby wpływ tylko na jedną szafę, a nie na cały system. Pomimo że większa liczba zasilaczy UPS powoduje zwiększenie prawdopodobieństwa awarii pojedynczego zasilacza, taka sytuacja może być dopuszczalna dla systemu. Przyjmijmy, że do unieruchomienia całego systemu konieczna jest awaria trzech szaf. W takim przypadku trzy zasilacze UPS musiałyby jednocześnie ulec awarii, aby cały system przestał działać. Prawdopodobieństwo takiego zdarzenia jest bardzo niskie — znacznie mniejsze niż ryzyko awarii pojedynczego, dużego zasilacza UPS. Z tego powodu teoria niezawodności zdecydowanie faworyzuje rozproszoną architekturę zasilania i chłodzenia, gdyż dzięki niej systemy IT są bardziej odporne na awarie. Porównanie monolitycznej i modułowej infrastruktury NCPI Architektura infrastruktury fizycznej sieci o znaczeniu krytycznym (NCPI) praktycznie nie zmieniła się w ciągu przeszło 30 lat historii centrów danych. Zarówno w najmniejszych pomieszczeniach komputerowych, jak i w największych obiektach korporacyjnych stosowany jest stały model infrastruktury fizycznej, który stanowi scentralizowaną instalację ochrony zasilania i chłodzenia. Prace konstrukcyjne nad tego rodzaju infrastrukturą prowadzą do stworzenia monolitycznej, unikatowej konfiguracji sprzętu i połączeń. Zastąpienie takiej architektury konstrukcją modułową sprawi, że infrastruktura NCPI nie tylko będzie mogła poprawnie obsługiwać modułowe, odporne na awarie urządzenia IT, lecz również sam sprzęt NCPI będzie mógł korzystać z zalet modułowości — włącznie Scentralizowany, monolityczny zasilacz UPS z niezawodnością zapewnianą przez odporność na awarie. Zalety modułowości dla infrastruktury NCPI Dlaczego modułowa infrastruktura NCPI zastąpi konwencjonalną, monolityczną infrastrukturę NCPI? • Możliwość skalowania i wzrostu. Modułową infrastrukturę NCPI można skalować zgodnie z aktualnymi wymaganiami informatycznymi centrum danych. Ta zaleta jest szczególnie ważna dla infrastruktury NCPI, w przypadku której stosowano tradycyjną metodę polegającą na jednorazowym wdrożeniu urządzeń zasilających i chłodzących dobranych pod kątem planowanych, maksymalnych wymagań urządzeń IT. Takie postępowanie oznaczało znaczne marnotrawienie zarówno kapitału, jak i kosztów operacyjnych. ©2006 American Power Conversion. Wszelkie prawa zastrzeżone. Żadna część niniejszej publikacji nie może być używana, reprodukowana, fotokopiowana, transmitowana ani zapisywana w jakimkolwiek systemie przechowywania informacji bez pisemnej zgody właściciela praw autorskich www.apc.com Wer. 2006- 10 Usunięto: coraz mniej • Prostszy proces duplikacji. Konstrukcja modułowa oznacza produkowanie dużej liczby mniejszych urządzeń zamiast małej liczby dużych urządzeń. Większy wolumen produkcji oznacza niższą liczbę defektów. Mniejsza i prostsza konstrukcja umożliwia większą automatyzację i wymaga mniej pracy ręcznej podczas produkcji, dzięki czemu liczba defektów jest niższa. • Możliwość wyspecjalizowania funkcji modułów. Urządzenia do ochrony zasilania i chłodzenia mogą być produkowane w wielu różnych konfiguracjach dostosowanych do określonych wymagań dotyczących dostępności i chłodzenia różnych części centrum danych. • Szybka adaptacja do środowiska. Do centrów danych stale dodawane są nowe urządzenia, a sprzęt IT jest wymieniany co 2–3 lata. Oznacza to, że wyposażenie centrum danych ulega ciągłym modyfikacjom. Nowe urządzenia mogą mieć różne rozmiary i kształty, odmienne wymagania w zakresie zasilania lub chłodzenia, różne wtyczki itd. Modułowa infrastruktura NCPI ułatwia skalowanie lub zmianę konfiguracji w celu zaspokojenia tych zmieniających się potrzeb w branży IT. • Modułowy zasilacz UPS poziomu szafy Odporność na awarie. Tak jak odporny na awarie sprzęt IT umożliwia kontynuację pracy centrum danych w przypadku awarii jednego podzespołu, tak odporny na awarie sprzęt NCPI zapewnia ciągłe zasilanie lub chłodzenie w przypadku awarii podzespołu NCPI. Odporność na awarie można osiągnąć przez nadmiarowość urządzeń NCPI lub wewnętrzną nadmiarowość podzespołów wewnątrz urządzeń NCPI — na przykład przez zastosowanie dodatkowych modułów zasilania w zasilaczu UPS. Podobnie jak we wcześniejszych studiach przypadków konstrukcji modułowej, pierwsze cztery atrybuty, które przedstawiono powyżej, mają ogromny wpływ na powodzenie konstrukcji, ale piąty z nich — odporność na awarie — odgrywa rolę krytyczną. Co więcej, ponieważ działanie centrów danych jest ściśle uzależnione od zasilania i chłodzenia, niezawodność wynikająca z odporności na awarię jest równie ważna dla infrastruktury NCPI, jak dla chronionego przez nią sprzętu IT. Odporne na awarie centrum danych bez odpornej na awarie infrastruktury NCPI jest tyle samo warte, co podwieszany most o szerokiej jezdni, lecz słabych linach. Wniosek Przejście od konstrukcji monolitycznej do modułowej stanowi naturalną ewolucję złożonych systemów ze względu na wydajność, elastyczność i niezawodność tej drugiej. Poznanie historii sukcesów ułatwia przekonanie się o potencjale modułowości w zakresie możliwości wprowadzenia znaczących, a wręcz rewolucyjnych ulepszeń systemów, które od momentu swojego powstania miały monolityczną formę i nigdy nie były postrzegane w inny sposób. Odporność na awarie i inne ważne atrybuty modułowości — możliwość skalowania, adaptacji, specjalizacji i duplikacji — są bezsprzecznie i nieodłącznie związane zarówno ze stworzonymi przez człowieka systemami modułowymi, jak i organizmami naturalnymi. ©2006 American Power Conversion. Wszelkie prawa zastrzeżone. Żadna część niniejszej publikacji nie może być używana, reprodukowana, fotokopiowana, transmitowana ani zapisywana w jakimkolwiek systemie przechowywania informacji bez pisemnej zgody właściciela praw autorskich www.apc.com Wer. 2006- 11 Branża IT mogła się już przekonać o tych zaletach w momencie wprowadzenia modułowych konstrukcji służących do składowania danych i zastosowań obliczeniowych, takich jak macierze RAID i serwery kasetowe. Co więcej, centra danych niedługo pójdą w ślady innych branż, takich jak przemysł lotniczy, wdrażając w całych systemach pewien atrybut konstrukcji modułowych, który był wykorzystywany w systemach o znaczeniu krytycznym już od lat 70. ubiegłego wieku: odporność na awarie. Koncepcja odporności na awarie mówi, że dokładna kontrola jakości podzespołów to tylko pierwszy krok do osiągnięcia niezawodności systemu, a podstawową taktyką zapewniającą niezawodność jest utrzymanie ciągłej pracy systemu w przypadku awarii podzespołu. W miarę jak modułowość i odporność na awarie stają się nowym modelem przy projektowaniu centrów danych, także infrastruktura fizyczna sieci o znaczeniu krytycznym musi podążać w tym samym kierunku, tak aby umożliwić skuteczną ochronę tych centrów danych, lecz również wykorzystać modułowość do poprawy własnej wydajności, elastyczności i niezawodności. Powiązane dokumenty White Paper Dokument White Paper 117 firmy APC, „Fizyczna Infrastruktura sieci o znaczeniu krytycznym: Optymalizacja wartości biznesowej” Dokument White Paper 116 firmy APC, „Standaryzacja i modułowość w infrastrukturze fizycznej sieci o znaczeniu krytycznym” O autorach: Neil Rasmussen jest założycielem i Naczelnym Dyrektorem Technicznym firmy American Power Conversion. W firmie APC Neil zarządza największym na świecie budżetem badawczo-rozwojowym przeznaczonym na infrastrukturę zasilania, chłodzenia i szaf w sieciach o kluczowym znaczeniu. Główne centra rozwojowe produktów znajdują się w Massachusetts, Missouri, Danii, na Rhode Island, na Tajwanie oraz w Irlandii. Obecnie Neil kieruje w firmie APC pracami, które mają na celu opracowanie modularnych, skalowalnych rozwiązań dla centrów danych. Przed założeniem firmy APC w 1981 r. Neil Rasmussen uzyskał tytuł inżyniera i magistra o specjalności elektrotechnika w Massachusetts Institute of Technology (MIT), gdzie napisał pracę analizującą źródło zasilania o mocy 200 MW dla reaktora Tokamak Fusion. W latach 1979–1981 pracował w MIT Lincoln Laboratories nad systemami magazynowania energii koła zamachowego oraz systemami wytwarzania energii słonecznej. Suzanne Niles jest autorką dokumentów white paper zatrudnioną w oddziale NCPI Science Center firmy APC. Studiowała matematykę w Wellesley College, a na uczelni MIT uzyskała tytuł inżyniera informatyki, pisząc pracę dyplomową na temat rozpoznawania znaków pisma odręcznego. Od 25 lat zajmuje się edukacją rozmaitych grup słuchaczy, wykorzystując różnorodne środki, od podręczników oprogramowania po fotografie i piosenki dla dzieci. ©2006 American Power Conversion. Wszelkie prawa zastrzeżone. Żadna część niniejszej publikacji nie może być używana, reprodukowana, fotokopiowana, transmitowana ani zapisywana w jakimkolwiek systemie przechowywania informacji bez pisemnej zgody właściciela praw autorskich www.apc.com Wer. 2006- 12