Dlaczego warto grac w Apollo 13 – Cezary Krzeminski
Transkrypt
Dlaczego warto grac w Apollo 13 – Cezary Krzeminski
Konferencja "Bezpieczny Projekt" ♦ Wrocław ♦ 22 czerwca 2010 Apollo 13 An ITSM Case Experience www.omec.pl 1 Konferencja "Bezpieczny Projekt" ♦ Wrocław ♦ 22 czerwca 2010 W kwietniu 1971, w trakcie lotu Apollo 13, NASA była blisko wielkiej katastrofy. Pomimo tego, udało się doprowadzić do, prawdopodobnie, największego sukcesu w historii lotów kosmicznych. www.omec.pl 2 Konferencja "Bezpieczny Projekt" ♦ Wrocław ♦ 22 czerwca 2010 Cały system Apollo składający się z kompleksu naziemnego, rakiety nośnej, statku kosmicznego stanowił jeden z najbardziej ambitnych i wymagających systemów inżynierii stworzonych kiedykolwiek przez człowieka. Dla powodzenia misji konieczne było wydajne i efektywne zarządzania wszystkimi elementami systemu składającego się z: procesów, ludzi i sprzętu. www.omec.pl 3 Konferencja "Bezpieczny Projekt" ♦ Wrocław ♦ 22 czerwca 2010 Dzięki zastosowaniu odpowiednich procesów ITIL udało się zrealizować następujące cele: • Uratować życie astronautów w bardzo trudnej i kryzysowej sytuacji. • Zaoszczędzić miliony dolarów na późniejsze próby ustalenia przyczyn awarii oraz koszty związane z opóźnieniami kolejnych misji. • Zapewnić realizację programu kosmicznego zgodnie z harmonogramem. www.omec.pl 4 Konferencja "Bezpieczny Projekt" ♦ Wrocław ♦ 22 czerwca 2010 Zintegrowanie ludzi, procesów i technologii umożliwiło Centrum Kontroli Misji: • Szybko ustalać przyczyny i wprowadzać odpowiednie poprawki i rozwiązania. • Stale monitorować i zarządzać kluczowymi pojemnościami i wydajnością zasobów. • Zagwarantowanie dostępności i ciągłości krytycznych systemów. • Aktywne zapobieganie sytuacji zagrożenia życia. www.omec.pl 5 Konferencja "Bezpieczny Projekt" ♦ Wrocław ♦ 22 czerwca 2010 W trakcie gry symulacyjnej Apollo 13 – an ITSM Case experience uczestnicy zapoznają w praktyce się z procesami ITIL: • Wcielają się w role pracowników Centrum Kontroli Misji. • Otrzymują i muszą odpowiednio reagować na rzeczywiste zdarzenia misji. • Muszą zaprojektować, przetestować i doskonalić własne procedury postępowania. ...w celu naśladowania sukcesu Centrum Kontroli Misji w 1970 roku. www.omec.pl 6 Konferencja "Bezpieczny Projekt" ♦ Wrocław ♦ 22 czerwca 2010 RES GESTA PER EXCELLENTIAM Osiągnięcia poprzez doskonałość „Niepowodzenie nie jest opcją…” Wiele organizacji IT staje przed podobnymi wyzwaniami. Potrzeba zapewnienia doskonałości operacyjnej dla krytycznych usług IT. Niepowodzenie nie jest opcją… www.omec.pl 7 Konferencja "Bezpieczny Projekt" ♦ Wrocław ♦ 22 czerwca 2010 ITIL w Apollo 13 Zarządzanie Konfiguracją Zarządzanie Wersjami Service desk Zarządzanie Incydentami Zarządzanie Problemami Zarządzanie Zmianami Zarządzanie Poziomem Usług Zarządzanie Finansami Zarządzanie Dostępnością 13 S-IC stage separation fail Zarządzanie Pojemnością 13 velocity 870 CO2 Zarządzanie Ciągłością www.omec.pl 8 Konferencja "Bezpieczny Projekt" ♦ Wrocław ♦ 22 czerwca 2010 Zarządzanie Konfiguracją Do zapewnienia identyfikacji, kontroli, utrzymania i weryfikacji wszystkich istotnych elementów konfiguracji (Cofiguration Item - CI). Gra symulacyjna Uczestnicy gry symulacyjnej uczą się i nabierają doświadczenia: Release component Supplier BEECH SM-109 Part of CI number Change Thermostatic switch 28V dc power Oxygen tank 1: 10024XTA0009 Oxygen tank 2: 10024XTA0008 North American Rockwell RFC Block II oxygen tank shelf serial number 0632AAG3277 bolt ass: bs-3277-2 includes change requested 65 v dc switch Price Release componentblock II Configuration database Oxygen tanks Detail of registration $ 2.100.000 SM-O2-4 Identyfikacja - Elementy Konfiguracji, Atrybuty, Relacje Kontrola komponentów konfiguracji Monitorowanie statusu Dokładność i zakres CMDB Stage components $ 125.000 (S-IC, S-II) $ 500.000 $ 1.000.000 Internal stage components (O2 tanks) stage component structure (circuit boards) $ 1.500.000 Consumables (duct tape,books) CMDB-2 CMDB Będzie to przydatne przy: •Wsparciu przy budowie •Identyfikowaniu dostawców •Rozwiązywaniu incydentów •Zarządzaniu zmianami www.omec.pl 9 Konferencja "Bezpieczny Projekt" ♦ Wrocław ♦ 22 czerwca 2010 W celu zapewnienia, że sprzęt i oprogramowanie są bezpieczne, możliwe do prześledzenia, i że tylko poprawne, autoryzowane i przetestowana wersje są dystrybuowane i instalowane. Zarządzanie Wersją Gra symulacyjna Release component Captured Events North American LES-508 Uczestnicy gry symulacyjnej uczą się i zdobywają doświadczenie: Nor th American Rockwell Manual firing activation C M -109 $ 250.000 LES -1 Release component Block II oxygen tank BEECH shelf serial number 0632AAG3277 bolt ass: bs-3277 -2 SM-109 T hermostatic switch 28V dc power Oxygen tank 1: 10024XTA0009 Oxygen tank 2: Nor th American Rockwell 10024XTA0008 change requested 65 v dc switch Oxyge n ta nks block II $ 2.100.000 SM -O2-4 User Operations guides guides Release component North American Rockwell CSM-109 Operating instructions Release component Operating S-508 instructions manuals Release component S-508 manuals OI -CS M-109 -1 • Electrical control manual OI -CS M-109 -2 • Environmental control manual Nor th American Rockwell OI -LM -7 -1 • Lunar module engine control manual MOC R -4 configuration OI -LM -7 -2 • Lunar Module environmental control manual Oxygen shelf OI -S-IVB-508 -1 • S -IVB engine control manual $ 12.000.000 S-CS M-2 OI -CS M-109 -1 • Electrical control manual OI -CS M-109 -2 • Environmental control manual OI -LM -7 -1 • Lunar module engine control manual OI -LM -7 -2 • Lunar Module environmental control manual OI -S-IVB-508 -1 • S-IVB engine control manual $ 2.500 $ 2.500 OM -1.1 OM -1.2 0632AAG3277 IT Release component Grumman Release component LM-7 IT system IT packaged release Grum man Apollo Lunar Surface Experimental PackageALSEP) ( Mission Control Centre MOCR-4 Manual engine l firing ALSEP: $ 5.000.000 LM : $ 12.000.000 S -LM -3 NASA Service organisation MOC R configuration S-IC -8 S-II -8 S-IVB -508 CS M -109 Release component McDonnel Douglas S-IVB-508 Mc Do nnel Do uglas $ 25.000.000 MOC R -2 Engine J2: 203,000lbs IU configuration: S-IU -508 $ 25.000.000 S -IVB -4 CMDB Release component North American Rockwell Release component Detail of registration Configuration database Stage components $ 125.000 (S-IC, S-II) Internal stage $ 500.000 components (O2 tanks) stage component $ 1.000.000 structure (circuit boards) S-II-8 Nor th American Rockwell Consumables $ 1.500.000 (duct tape,books) C MDB -2 programmed S-IC -8 Release component RCA RCA-110 RC A Duplex memory T riplex redundancy of critical circuits Data links to MOC R -4 $ 15.000.000 COMP -1 J2 engine thrust Fuel: 1,750,000lbs. $ 25.000.000 S -II -2 Release component Release component Consumables BOEING Spares S-IC-8 Plastic bag Presure hose Airtight duct tape Cardboard Lithium hydroxide box Boein g Instrumentation interfacing link: S -II-8 Fuel: 5,031,500lbs MOC R: programmed link MOC R -4 $ 1.500 $ 35.000.000 S -IC -1 CONS-1 Systems management tools Budowa i Konfigurowanie wersji - Opracowanie procedur Testy i zatwierdzanie wersji Komunikacja i szkolenia - integracja z Centrum Kontroli Misji Dostarczenie szczegółów konfiguracji Kontrola kosztów Podczas budowy należy również określić Znane Błędy i przekazać do zarządzania operacyjnego. www.omec.pl 10 Konferencja "Bezpieczny Projekt" ♦ Wrocław ♦ 22 czerwca 2010 Service desk Zapewnienie pojedynczego punktu kontaktu z użytkownikami, skupia się na obsłudze incydentów i zapytań oraz dostarcza informacje dla użytkowników. Gra symulacyjna Uczestnicy gry symulacyjnej uczą się i zdobywają doświadczenie: Ustanowienie pojedynczego punktu kontaktu z załogą Przyjmowanie i rejestracja incydentów Informowanie o statusie zgłoszenia Zespół gra rolę Capsule Communications (CapCom) odpowiada za komunikację z załogą. W rolę załogi (użytkownika) wciela się prowadzący grę. www.omec.pl 11 Konferencja "Bezpieczny Projekt" ♦ Wrocław ♦ 22 czerwca 2010 Zarządzanie Incydentami Odpowiada za przywrócenie normalnego działania usługi w możliwie jak najkrótszym czasie, minimalizując zakłócenia w biznesie Gra symulacyjna Uczestnicy gry symulacyjnej uczą się i zdobywają doświadczenie: Rejestracja i klasyfikacja incydentów Rozwiązywanie incydentów Monitorowanie i śledzenie incydentów Priorytetyzowanie - jak priorytetyzować zmiany Należy samodzielnie przygotować procedury i narzędzia potrzebne do zarządzania i raportowania wyników procesu. www.omec.pl 12 Konferencja "Bezpieczny Projekt" ♦ Wrocław ♦ 22 czerwca 2010 Odpowiada za zidentyfikowanie przyczyny incydentu i znalezienie sposobu na przywrócenie poprawnego działania usług oraz za minimalizuje niekorzystne konsekwencje występowania błędów.. Zarządzanie Problemami Uczestnicy gry symulacyjnej uczą się i zdobywają doświadczenie: 22 Matching The first stage of the Apollo 13 rocket (S-IC) has reported a stage separation fail. This stage should now separate from the rocket and fall to earth. details: Impact: If the stage has not separated then this is an emergency: Abort mission and activate Launch Escape System (LES) Known Error-2 Work-around: See Known Error (KE) 2. If KE-2 is not available then details request : The first stage of the Apollo 13 rocket RETRO officer to authorise LES abort. (S-IC) has reported a stage separation fail. This was detected during launch test. SD must have written authorisation The crew systems reported separation OK. from RETRO on the incident solution, Resolution: then instruct SD to notify crew to abort Circuit problem to MOCR console. mission & activate Launch Escape The SD should confirm with the crew system. that separation has occurred. If crew says separation has failed then activate the Launch escape System (FIDO) (LES). Incident Ti me delay Incident Time delay details: Too much communications details: static. Crew cannot hear all Too much communications Apollo 13 commands from CapCom. static. Crew cannot hear all Priori ty commands from CapCom. Incident Apollo 13 Incident Apollo 13 Priority Ti me delay Incident details: Too much communications static. Crew cannot hear all Apollo 13 commands from CapCom. Notes number Incident number 8 Priority Priori ty Incident number 8 CI: Period dispatched: 16 CI: Period dispatched: Routed to: 16 Incident number 8 CI: Routed to: Period dispatched: Period closed: Routed to: Time delay details: Too much communications static. Crew cannot hear all commands from CapCom. 8 CI: 16 Powtarzające się incydenty (SSR) Period closed: Solution: Solution: 12 Crew safety Internal process 20 Internal process Period closed: Solution: 23 34 Costs Crew safety 16 Routed to: Solution: Costs Crew safety Period dispatched: Period closed: Internal process Identyfikowanie Znanych Błędów przy budowie procesu Analiza powtarzających się incydentów Rozwiązania tymczasowe Organizacja zespołu problemów Użycie Znanych Błędów Rola menadżera Problemu Costs Crew safety Internal process Costs Celem jest zmniejszanie liczby incydentów oraz poprawianie wskaźników rozwiązywalności zgłoszeń przez Service Desk. www.omec.pl 13 Konferencja "Bezpieczny Projekt" ♦ Wrocław ♦ 22 czerwca 2010 Zapewnia, że dla zmian zostały przyjęte standardowe metody i procedury zapewniające skuteczność i efektywność wprowadzania zmian oraz minimalizuje ryzyko negatywnego wpływu zmiany na usługi. Zarządzanie Zmianami Uczestnicy gry symulacyjnej uczą się i zdobywają doświadczenie: Wniosek o zmianę Klasyfikacja zmian Planowanie Zmiany Analiza wpływu, autoryzacja, budowa, testowanie, ocena zmiany Rola menadżera Zmiany Zarządzający zmianą musi koordynować krytyczne zmiany, aby załoga mogła powrócić do domu. www.omec.pl 14 Konferencja "Bezpieczny Projekt" ♦ Wrocław ♦ 22 czerwca 2010 Utrzymanie jakości usług zdefiniowanych w SLA poprzez cykl uzgadniania, monitorowania, raportowania i przeglądu ich parametrów i doskonalenia jakości świadczonych usług. Zarządzanie Poziomem Usług ITIL Team: Innovation and learning •ALSEP deployment •Photos of landing sites Internal • Internal processes: • Incidents resolved: • Average resolution: ROUND 2 Customer •Crew safety: Financial Kluczowe Wskaźniki Wydajności • Costs incurred: $157,780,000 Raport poziomów usług Uczestnicy gry symulacyjnej uczą się i zdobywają doświadczenie: Docelowy poziom usług - zadanie Kluczowych Wskaźników Wydajności (KPI) Raporty poziomu usług Doskonalenie usług - analiza wydajności zespołu i priorytety doskonalenia Dyrektor lotu musi raportować poziom usług na zakończenie każdej rundy. www.omec.pl 15 Konferencja "Bezpieczny Projekt" ♦ Wrocław ♦ 22 czerwca 2010 Zarządzanie Finansami Zarządzanie finansowe składa się z trzech głównych procesów: budżetowania, rachunkowości i pobierania opłat. Uczestnicy gry symulacyjnej uczą się i zdobywają doświadczenie: Cost: Księgowanie kosztów - sprzętu - wyposażenia - wsparcia specjalistów - zewnętrznych dostawców Raportowanie kosztów Zespół musi rejestrować i raportować o kosztach powyżej budżetu. Doskonalenie zespołu powinno mieć również na celu ograniczenie zbędnych kosztów. www.omec.pl 16 Konferencja "Bezpieczny Projekt" ♦ Wrocław ♦ 22 czerwca 2010 Zarządzanie Dostępnością Zapewnienie, że projektowana, implementowana, mierzona i zarządzana dostępność infrastruktury IT spełnia wymagania biznesowe. Uczestnicy gry symulacyjnej uczą się i zdobywają doświadczenie: Computer support Systems Triple redundant systems Projektowanie dostępności - systemy redundantne - niezawodność Monitorowanie dostępności Analiza krytycznych komponentów Zarządzanie Dostępnością jest używane w celu rozwiązania sytuacji zagrażających życiu i podjęcia decyzji, czy należy uruchomić procedury awaryjne. www.omec.pl 17 Konferencja "Bezpieczny Projekt" ♦ Wrocław ♦ 22 czerwca 2010 Zarządzanie Pojemnością Zapewnienie pojemności i wydajności usług IT w stopniu zapewniającym wymagania biznesowe w sposób efektywny kosztowo. Uczestnicy gry symulacyjnej uczą się i zdobywają doświadczenie: Monitorowanie pojemności Dostrajanie pojemności Planowanie pojemności Zarządzanie pojemnością monitoruje niezbędne parametry eksploatacyjne i zgłasza incydenty, w sytuacji gdy ustalone progi są osiągane. Zarządzanie pojemność wywołuje zmiany kursu i uruchamia zespół do rozwiązania problemu CO2 zagrażający życiu załogi. www.omec.pl 18 Konferencja "Bezpieczny Projekt" ♦ Wrocław ♦ 22 czerwca 2010 Zarządzanie Pojemnością Zapewnienie pojemności i wydajności usług IT w stopniu zapewniającym wymagania biznesowe w sposób efektywny kosztowo. Uczestnicy gry symulacyjnej uczą się i zdobywają doświadczenie: Zarządzanie Zapotrzebowaniem - systemy modułu dowodzenia W relacji z Zarządzaniem Dostępnością - które systemy są krytyczne i muszą być włączone. www.omec.pl 19 Konferencja "Bezpieczny Projekt" ♦ Wrocław ♦ 22 czerwca 2010 Opracowanie planu przywrócenia usług w celu zapewniania funkcjonowania, poprzez redukcję wpływu katastrof, redukowanie wrażliwości na zagrożenia przez efektywną analizę i zarządzanie ryzykiem. Zarządzanie Ciągłością Contingency card Impact: Continuity demands: 1 healthy O2 tank, 2 healthy fuel cells 1 Healthy bus Availability card coordi nat es from CM comput er Oxygen tank 1 Fuel cell 1 Bus a Uczestnicy gry symulacyjnej uczą się i zdobywają doświadczenie: Zależności pomiędzy procesami Zarządzania Dostępnością i Ciągłością Plany awaryjne Wywołanie planów awaryjnych Autoryzacja (SSR) Fuel cell 2 Oxygen tank 2 Fuel cell 3 Availability status: Cell1 O2 tank 1 Cell2 O2 tank 2 Cell3 (SSR) Bus b Bus a Bus b Zespół pod kierunkiem Problem Menadżera musi korzystać z informacji procesu Zarządzania Dostępnością i określić, czy wystąpiła sytuacja kryzysowa. www.omec.pl 20