Deník jedné bankovní krize

Následující text je výpovědí síťového technika, který zažil krizovou situaci ve své bance. Říkejme mu třeba Jef...


Následující text je výpovědí síťového technika, který zažil krizovou situaci ve
své bance. Říkejme mu třeba Jeff Nowak.
Šesté a nejvyšší podlaží centrály mojí banky o rozloze 70 000 čtverečních stop
nemělo nikdy celou plochu v jedné rovině. Jedna řada stolů podél vnější zdi
byla např. umístěna na 40centimetrovém vyvýšeném stupni, aby zde stojící stoly
byly ve stejné úrovni s okolním podlažím.
Během rekonstrukce, jejímž účelem bylo napravit některé z těchto kosmetických
chyb, objevili dělníci velké trhliny, v nichž bylo možno spatřit zkorodované
výztuže, které drží celou stavbu pohromadě. Odhalení trhlin znamenalo, že nelze
zaručit konstrukční stabilitu budovy. Vrcholový management rychle vyhlásil
krizový stav a nařídil evakuaci všech osob z budovy.
Přemístění sítě
Vstoupil v platnost náš nouzový plán přemístění. V sázce bylo mnohé: kdyby
selhaly systémy IT a jimi zajišťované funkce, přišlo by to banku a její
mateřskou společnost na miliony dolarů v podobě ztraceného výnosu i zákazníků.
Zároveň by to znamenalo nastolení systémového, datového, finančního a
provozního chaosu, z nějž by se banka už nemusela vzpamatovat.
Ústředí banky je mozkem a nervovým centrem bankovního impéria rozkládajícího se
přes pět států. Při stěhování bylo přemístěno přes 300 lidí přímo odpovědných
za udržení poboček v chodu a za zajištění podpory pro klíčové funkce banky.
Toto je můj výčet událostí, které jsme v průběhu celé akce zažili, spolu s
několika tipy pro plánování nouzových opatření.
Ohlédnutí
Nejprve se ještě vraťme o rok a půl zpět do doby, kdy se všeobecně předpokládal
problémový přechod na rok 2000. Stav, který tehdy panoval, má s dále
popisovanými událostmi mnoho společného.
Jako součást svých příprav na přechod do nového milénia banka vypracovala plán
evakuace centrály pro případ, že by celkové ochromení jakýmkoli způsobem
zasáhlo budovu, která by přestala sloužit svému účelu. Plány zahrnovaly
vytvoření a vybavení dvou krizových stanovišť staršími počítači, monitory a
huby, zálohovanými servery s nastavenou datovou komunikací (frame relay) v síti
WAN.
Krizové stanoviště číslo jedna (DS1, Disaster Site One) bylo umístěno ve
vzdálenosti zhruba 40 minut přes město v zadním traktu pobočky naší mateřské
banky. Bylo potřeba zajistit jeho komunikaci přes síť WAN prostřednictvím
technologie frame relay, záložní spojení s firmou, která je hostitelem našich
mainframů (dále nazývána firma X), a nainstalovat sem naše servery s Novell
NetWarem, Windows NT a záložní server Oracle. V obslužných místnostech bylo
naskládáno přes 80 počítačů společně s monitory, telefony, kabely, faxovými
přístroji, tiskárnami, huby, dalšími kabely, papíry a jinými potřebami.
Optimální plán přípravy a konfigurace stanoviště DS1 v průběhu několika hodin
vyžadoval dva inženýry, zástupce manažera IS, čtyři administrátory a dva
asistenty. Krizové stanoviště číslo dvě (DS2, Disaster Site Two) bylo umístěno
ve školicím centru firmy, 10 minut od naší centrály. Zde bylo zapojeno a
připraveno ke spuštění více než 20 pracovních stanic. Měli jsme tu naskládány
dva servery Novell, jeden NT Server a velký počet telefonů a ostatního
příslušenství.
Protože stanoviště DS2 bylo již z poloviny připraveno, jeho zprovoznění dle
plánu vyžadovalo jen dva techniky a tři administrátory. Většina pracovníků měla
přejít na stanoviště DS1, kde bylo centrum operací oddělení IS, a ostatní
zaměstnanci pak měli přesídlit do kanceláří v různě vzdálených pobočkách.
Zálohy
Zavedený postup v bance vyžadoval, aby probíhalo plné zálohování serverů
pětkrát v týdnu přes noc a rotace pásků po dvou týdnech. Vzdálené pobočky
posílaly centrále jeden pásek každý týden, čímž se zajišťovalo bezpečnostní
zálohování mimo pracoviště pobočky. Pro servery v centrále platilo stejné
opatření ještě s několika postupy navíc.
Plná obnova se na serverech prováděla jednou týdně na obou stanovištích DS. Tím
se zajišťovala aktualizace aplikací, oprav a updatů. V případě havárie by bylo
třeba obnovit jen datové adresáře a v nejhorším případě by došlo ke ztrátě dat
nejvýše za poslední týden a navíc by se to netýkalo uživatelských účtů. Nakonec
jsme ještě všechny pásky z centrály uložili do ohnivzdorného trezoru v DS2.
Poté, co se žádná událost Y2K nekonala, jsme vzali všechny plány, vymazali jsme
"Y2K" z nadpisu a přejmenovali jsme je na "plány obnovy", tzv. Business
Resumption Plans (BRP). Připravili jsme hned několik scénářů podle závažnosti
možných situací, od "budova neobyvatelná, systémy v akci" přes "budova
neobyvatelná, systémy dočasně zastaveny" až po "velká hromada suti".
Všichni zaměstnanci obdrželi jednu kopii plánu BRP pro dané pracoviště.
Vzhledem k tomu, že potřeby zaměstnanců, aplikací a pracovišť se průběžně mění,
všichni zaměstnanci si jednou za čas prošli své plány verbálně i v praxi přímo
na pracovišti, s veškerým vybavením a s podporou pro nouzový provoz IS.
Den před dnem D
V ten den jsme si udělali test. Vytáhli jsme na světlo několik zaprášených
počítačů, zapojili jsme je a čekali. Přišli pracovníci, vyzkoušeli si svá
vstupní hesla, spustili aplikace, zkontrolovali přístup k osobním i pracovním
datům, ověřili konektivitu WAN a odešli. Sestavili jsme malý seznam přání, kde
jsme uvedli požadavky na vybavení a pomůcky a také pár potřebných menších změn
v konfiguracích a prohlásili jsme, že jsme připraveni na všechno. Během
pracovní porady nám bylo řečeno, abychom se připravili na neplánované cvičení.
Den D, 18:00 hodin
Byl jsem zrovna doma a chystal se na trénink v ragby, když se mi ohlásil pager.
Zobrazil číslo mojí šéfky následované číslem 911. Takové hlášení znamená, že se
děje něco nepříjemného a vážného. Sdělila mi, že operační centrum bylo
prohlášeno za neobyvatelné a že vstoupil v platnost náš krizový plán.
Byl jsem si jist, že se jedná o to cvičení, na něž jsme byli předem upozorněni.
Brašnu se sportovními potřebami jsem hodil do auta a jel jsem k našemu
krizovému místu. Předpokládal jsem, že tam už někdo bude čekat, kdo mi pak
řekne, že si zase můžu jít svou cestou. Všechno ale dopadlo jinak. Byl jsem
první, kdo na kritické místo přijel. To bylo špatné znamení, protože
předstihnout časoměřiče v příjezdu na testovací stanoviště dávalo tušit, že ve
skutečnosti se o žádné cvičení nejedná. Třikrát jsem vyzkoušel všechny klíče ze
svého svazku a nakonec jsem našel jeden, který fungoval, a odemkl jsem dveře.
Potom začalo jít všechno s kopce.
Ještě nikdy jsem nebyl první, kdo vchází do budovy, a ještě nikdy jsem nemusel
deaktivovat poplašné zařízení. Ani jsem nevěděl, kde je. Vydal jsem se na
zoufalý lov po skříňce s alarmem. Když jsem konečně tu skříňku našel, všechno
se jen zhoršilo.
Krizové místo se nacházelo v jiné pobočce naší mateřské společnosti. Z toho
důvodu zde měli jinou skříňku s poplašným zařízením, než na jakou jsem byl
zvyklý. Naťukal jsem svůj kód. Nic se nedělo. Zkusil jsem to znovu, dvakrát,
třikrát, ale zelené světélko ne a ne naskočit. Zkoušel jsem různá tlačítka, ale
pořád jen to strašné červené světélko. Čekal jsem, až spustí zvukový alarm a
přijede policie, a přeříkával jsem si svoji historku. Když přijel jeden
administrátor a bez úspěchu se snažil zadat svůj kód, přestal jsem si připadat
tak špatně. Společně jsme zkoušeli další tlačítka, až jsem nakonec přestal a
pozorně jsem si přečetl nápisy na všech tlačítkách a na jednom tlačítku objevil
slovo "enter". Konečně jsme získali přístup do budovy a odvrátili jsme trapné
střetnutí se zástupci zákona. V našem druhém krizovém stanovišti byl nedávno
povýšený technik, který měl klíče od budovy, ale neměl klíč k místnosti se
serverem, kde se mělo pracovat.
Tip číslo 1: Při neustálém pohybu pracovníků, kdy přecházejí na jiná oddělení,
je třeba zajistit, aby všichni měli klíče a vstupní kódy potřebné k plnění
úkolů v rámci aktuálního krizového plánu.
Nevhodný čas
Krize na nás udeřila ve špatné chvíli, neboť jsme zrovna měli málo pracovníků
vzhledem k období dovolených a k několika ukončeným pracovním poměrům. Navíc
jsme v této době měli několik nováčků, kteří se ještě nenaučili pracovat s
našimi systémy a aplikacemi. A co bylo ještě horší, nejdůležitější osoba v
oddělení, náš provozní asistent, byl povýšen a přeřazen do jiného oddělení.
Tento případ měl rychlé řešení: okamžité degradování. Měli jsme všehovšudy tři
zaměstnance IS v DS2 a pět v DS1. Pracovníci v DS1 měli oporu v několika lidech
z datového centra a z oddělení bankovních operací.
Všechny naše prověrky havarijní situace měly limitovaný rozsah, prováděli jsme
nastavení a testování vždy jen jednoho pracoviště. Jak se později ukázalo,
tento postup zanechal v našem "neprůstřelném" krizovém plánu několik velkých
děr. První problém nastal, když jsme začali se zapojením uživatelských stanic a
telefonů. Neměli jsme je na co dát. Na stanovišti DS1, kde jsme prováděli
testování vždycky v přední místnosti, jsme pokaždé používali stejné stoly a
židle. Nyní jsme potřebovali pracovní desky a židle pro 80 zaměstnanců, ale
měli jsme jich dost jen pro 20 lidí. Tip číslo 2: Máte-li záložní pracoviště,
které není trvale připraveno k provozu, obstarejte si podrobný plán dotyčného
prostoru, sejděte se nad ním s manažery oddělení a přesně zmapujte, kam chtějí
umístit jednotlivé sekce a uživatele.
Další řešení
Na základě testu z předešlého dne jsme se také poučili, že potřebujeme více
monitorů a hubů. Začali jsme psát nákupní seznam, což mohlo pokračovat až do
noci. Mnozí pracovníci z oddělení IS, datového centra a bankovních operací byli
vysláni do naší centrály s jasným posláním, aby sebrali všechno, co půjde,
dokud tam máme povolen přístup. To zahrnovalo huby, monitory, stoly, skládací
židle a jakékoli další předměty, které by se mohly hodit. Noc jsme strávili
zapojováním počítačů, rekonstrukcí dat na krizových serverech, posíláním lidí
pro různé zásoby, konzumací pizzy placené bankou a voláním manželkám, kdy
obvyklou větou bylo: "Ne, nejsem venku s klukama, jsem v práci. Nečekej na mě a
běž spát."
Dle krizových plánů jsme měli mít všechno na svém místě během dvou hodin ha! Ve
dvě hodiny ráno jsme začali s obnovou dat na obou stanovištích a říkali jsme
si, že je ještě noc. Byli jsme již z 90 % se vším hotovi, ale chyběli nám
manažeři z jednotlivých oddělení, aby nám poskytli poslední kousíčky chybějící
v mozaice celého nastavení. Tip číslo 3: Nezapomeňte na lepicí pásku. Tento
kouzelný prostředek drží kabely pohromadě aby nepřekážely, upíná věci nahoře,
drží je připoutané dole, nebo dokonce přidržuje nápisy. Zabraňuje uživatelům,
aby zakopávali o kabely, rozbili si hlavu, anebo co je horší (alespoň pro mě)
aby odpojovali počítače a poškozovali síťové karty nebo přípojky. V osudný den
D jsme žádnou lepicí pásku neměli.
Den D + 1, 7:45
Krizové plány vyžadovaly od uživatelů, aby se objevili v deset hodin ráno. Bylo
zřejmé, že ne každý si tento odstavec přečetl. Od 7:45 se začali objevovat
první uživatelé připraveni ujmout se svých telefonů, faxů a počítačů. To byl
moment, kdy na nás jako velký, ošklivý bumerang již podruhé dolehl zpětný náraz
z našich omezených nácvikových lekcí. Nikdy jsme nekontrolovali licence na
serveru. Nikdy jsme nemuseli každý se mohl během testů přihlásit a když se
jeden člověk naloguje při testech, tak můžou i stovky nebo tisíce dalších, že?
Chyba. Jak to vypadá, náš hlavní server Novell 4.11 měl licenci pouze pro 25
uživatelů. Dokud se přihlašovalo prvních 25 uživatelů, všechno šlo hladce.
Potom přišel pan dvacátý šestý a chtěl se přihlásit, po něm to zkusil 27. a 28.
uživatel, to byl zrovna viceprezident. Zkusili jsme restartovat systém, ale
nakonec jsme museli zavolat technickou podporu Novellu. Uprostřed telefonické
konzultace (hned potom, co jsem technikovi řekl, že to určitě nemůže být
problém s licencí) Mickey, náš technik z DS2, na dálku diagnostikoval problém s
licencí a okopíroval do našeho serveru "kouzelný" soubor pro 1 000 uživatelů
"aby si mohli všichni hrát". Když jsme tohle sfoukli, mohli pracovníci
bankovního oddělení dokončit své postupy předepsané pro krizovou situaci a
začít dělat něco, co by se podobalo jejich denní kancelářské práci. (Doplnění
licencí pro server bylo naprosto legální a platné v rámci naší smlouvy s firmou
Novell a na konci čtvrtletí jsme zaplatili jen za dodatečná připojení, která
jsme použili.)
Tip číslo 4: Zajistěte si dostatečný počet licencí.

Konfigurace
Omezený rozsah testování nás také poznamenal v tom, že jsme neprovedli
konfiguraci TCP/IP na žádné z našich LAN. To mělo za následek chybová hlášení a
zvýšenou paniku mezi uživateli. Tento problém vyřešily dvě rychlé instalace a
následné konfigurace HCP (Host Configuration Protocol). Porůznu vyskakovaly
další drobné požáry, my jsme je hasili, hned potom se objevily zase jiné menší
požáry, které jsme opět zadusili a tak dál. Byla to skoro stejná práce jako
běžná podpora IS.

Den D + 2
Dopoledne se projevila další klíčová (to znamená chybějící) součást krizového
plánování, ale tentokrát to nebyla moje chyba: parkování. Nebylo místo k
parkování. Dva plavčíci z blízkého bazénu nás mile požádali, abychom odstranili
svá auta z jejich parkoviště, dříve než je nechají odtáhnout a prodat.
Dopadlo to tak, že jsme zaplatili místní samoobsluze Safeway, aby nám na jejich
parkovišti přenechali k užívání 20 parkovacích míst. Naši ostatní lidé byli
nuceni použít dvouhodinová parkovací místa na ulici. Po uplynutí jedné hodiny a
58 minut jsme pravidelně vybíhali na ulici a vzájemně přeparkovávali, abychom
nedostali lístek za stěrač. Výkonné síly v centrále nakonec zajistily autobus
na každé ráno z parkoviště centrály do našich krizových center po dobu trvání
krize.
Dalším chybějícím článkem v našem plánu byl bezpečný (a nepostradatelný) proces
stahování souborů. Oddělení pro zpracování dat provádí denní download dat z
firmy X. Celý proces zahrnuje zpracování dat, vytváření výkazů a načtení nových
dat zpět do firmy X. Protože je to zabezpečený proces, firma X povoluje na naší
síti přístup pouze na několik určitých IP adres. Teď, když jsme se octli v jiné
části sítě WAN, počítače hlásily "neoprávněné" IP adresy při pokusu o stažení
dat. Několik telefonických hovorů s help deskem ve firmě X nakonec pomohlo
vyřešit i tento problém. Na konci dne jsme byli unaveni, ale přežili jsme. To
nejhorší už nás potkalo a my jsme se stále drželi na nohou.

Dny D + 3 D + 14
Zatímco krizové plány určovaly plnou obsazenost krizových stanovišť po dobu do
30 dnů, nedostatek místa změnil tento předpoklad na dobu tří dnů. Velký počet
lidí byl vměstnán do dvou malých budov s celkem třemi fungujícími toaletami,
což hraničilo s nehumánností.
Když bylo zřejmé, že tato dočasná sídla budeme používat asi delší dobu,
management a pracovníci IS začali stěhovat běžence do jiných místních poboček.
IS se vzdalo jednoho ze svých dvou center podpory krizového řešení a nacpalo
své administrátory do náhradní místnosti ještě v jiné pobočce. Síťovým
inženýrům bylo doporučeno, aby pracovali z domova. V polovině prvního týdne byl
vybraným pracovníkům povolen omezený přístup do budovy, aby zde mohli
vyzvedávat zásoby.

Konečně návrat
Po dvou týdnech od první kontroly budovy prošla naším bývalým sídlem inspekce,
tentokrát ještě kvalifikovanějších inženýrů, a budova byla prohlášena za
bezpečnou. Vrátili jsme se tedy zpět do našeho ústředí.
Během uplynulých dvou týdnů byly udržovány všechny nezbytné systémy v chodu.
Uživatelé, systémy a aplikace měli zajištěnou svoji podporu ve všech pobočkách.
Přemístění pracovníci měli lokální přístup k datům a k aplikacím, které
potřebovali k plnění svých povinností. Úsilí vynaložené na obnovu po havarijním
stavu bylo z větší části senzačním úspěchem.

Den D + 15
Kvalifikovaní stavební inženýři tedy po spoustě drahého vrtání, tahání, bušení
a měření prohlásili budovu za bezpečnou. V zájmu usnadnění přesunu zpět do naší
budovy jsme měli stanoven návrat ve fázích. Toto opatření fungovalo dobře,
každý den se do budovy nastěhovalo zpět jedno oddělení, někdy dvě. To nám
dávalo čas k řešení menších problémů, které vyvstávaly s návratem každého
pracoviště, což bylo lepší, než kdybychom celý den řešili jeden velký chaos.
Nejvíc zádrhelů se objevilo v případech, kdy některé oddělení bylo
rozkouskováno a rozmístěno na několik různých stanovišť (to znamenalo také více
paralelních serverů a databází), kdy pracovníci po návratu potřebovali opět
sdílet všechna svá data a aplikace. Bylo třeba sloučit jednotlivé kopie
databází, vyrovnat konfliktní záznamy apod. Bez ohledu na drobné nepříjemnosti
byli všichni rádi, že jsou zase doma. Po dvou týdnech ve stísněných podmínkách
ještě nikdy nepřipadaly uživatelům jejich staré "kóje" tak pěkné, a proto jen
radostně čekali, až jim ještě odstraníme zmíněné menší závady.

Mravní ponaučení
Stručně řečeno, ponaučením pro řídící management v bance byl především fakt, že
potřebujeme více místa. Je těžké předem odhadnout, jak mohou být podmínky
stísněné, ale dostatečně pomůže podrobná mapa stanoviště. My z oddělení IS jsme
poznali, že musíme ověřit, jestli naše servery a sítě dokážou zvládnout plný
počet uživatelů. Teď už také víme, že jsme měli štěstí, když jsme nemuseli
použít scénář "velká hromada suti". V současné době pracuji na novém krizovém
plánu pro naše databázové servery. V místech, kde může nastat krizový stav,
budeme zamykat kopie důležitých dokumentů do ohnivzdorných trezorů. Zároveň
jsme začali zkoumat možnosti nasazení rozsáhlé sítě pro ukládání dat z více
pracovišť.
Pro plánovače krizových postupů mám tuto radu: Nemůžete myslet na všechno.
Některý úkol může trvat déle než si naplánujete, pracovníci a pracoviště
nebudou mít splněny své základní požadavky nebo se všechno bude prostě ubírat
špatným směrem. Murphyho zákon je silnější než zemská přitažlivost. Uvolněte se
a snažte se to překlenout. V nejhorším případě získáte dobrý materiál pro
vyprávění vašim vnukům nebo pro váš příští přijímací pohovor.
1 0824 / pen









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.