Příprava na konec světa

Záložní datové centrum možná může teoreticky přebrat veškerou zátěž, kterou představují IT operace vaší firmy...


Záložní datové centrum možná může teoreticky přebrat veškerou zátěž, kterou
představují IT operace vaší firmy. Ale jak to bude fungovat v praxi? Vince
Tuesday už to ví.
Klasický model IT bezpečnosti pokrývá tři oblasti: integritu dat, jejich
důvěryhodnost a dostupnost. Já osobně jsem se během své kariéry zaměřoval
především na první dvě z těchto oblastí, protože moji zaměstnavatelé
disponovali vždy separátním týmem zajišťující funkčnost IT v katastrofických
situacích a její zotavení po katastrofě. Nyní u nás ale došlo k reorganizaci a
moje oddělení je nově zodpovědné i za tuto oblast.
Nesoustředíme se ani tak na odolnost infrastruktury, jako spíše na zotavení po
skutečné katastrofě. Systém je odolný, pokud je schopen pokračovat v práci i
poté, co mu selže disk nebo připojení k síti. Naše aplikace jsou navrženy tak,
aby tímto způsobem běžně fungovaly. A náš tým pro podporu IT operací zajišťuje,
aby naše systémy zůstaly v provozu i tváří v tvář takovým drobným selháním. V
této oblasti tedy máme čisté svědomí.
Naše nová zodpovědnost se tedy váže spíše k událostem, které jsou sice
podstatně méně pravděpodobné, ale zato daleko obtížnější ke zvládnutí. Jde
například o tornáda, záplavy nebo vypuknutí závažné infekce mezi IT zaměstnanci.
Lidé, kteří byli v naší firmě za tuto oblast zodpovědní před námi, položili
dobré základy. Firma disponuje dvěma datovými centry, která provozují veškeré
potřebné aplikace. Každé z center je teoreticky schopno v případě potřeby
převzít veškerou zátěž našich IT operací. Za normálních okolností to není
potřeba, ale musíme počítat i se situacemi, kdy by druhé centrum bylo vyřazeno
z provozu.

Nevěřte teorii
Dokud se otázkou zastupitelnosti našich datových center nezačal zabývat náš
tým, nikdo výše zmíněnou teorii neověřil v praxi. Nikdy jsme nezkoušeli převést
všechny naše IT operace pouze do jednoho ze zmíněných datacenter. Zdá se, že ve
skutečnosti se všichni báli, že by provedení takového kroku zapříčinilo
zahlcení systémů a nedostupnost některých životně důležitých služeb. To by
ovšem nebylo dobré.
A tak jsme se v posledních několika týdnech rozhodli k činu. Přemístili jsme
všechno, co bylo třeba, do jednoho z datových center. Zabralo nám to měsíc
tvrdé práce. Každý víkend jsem spolupracoval s jedním z týmů, aby realizoval
přesun své aplikace do vybraného centra. Poté jsem vždy strávil celou neděli
prováděním testů, které měly zjistit, nakolik provoz aplikace v nové lokalitě
splňuje naše kvalitativní požadavky. Výsledek mohl být vždy dvojí a já jsem byl
připraven vypořádat se s každou z variant: Buď nastane problém a my se do
pondělního rána stihneme vrátit k původnímu stavu, nebo bude vše v pořádku a
aplikace budou i během pracovního týdne pracovat z nové lokality. Docela mě
překvapilo, u jak malého množství našich aplikací byla stanovena nějaká
kritéria hodnotící kvalitu jejich provozu. Jak potom může podpůrný tým vědět,
zda vše funguje tak, jak má, že uživatelé dostávají skutečně služby, které
potřebují? Naše činnost tak měla ještě jeden nečekaný pozitivní efekt: Množství
týmů jsme přiměli k vytvoření kritérií provozu a k lepšímu monitoringu jimi
spravovaných aplikací. Dočkali jsme se několika skutečně rušných nedělí, to
když se objevily dříve skryté problémy a my jsme systémy museli vrátit do
původního stavu. Jedno pondělí, když jsme v 7 hodin ráno zjistili, že optický
spoj do druhé lokality nefunguje, jsme udělali nejrychlejší přechod na záložní
řešení, jakého jsem se kdy zúčastnil. Po všem tom shonu jsme se konečně dočkali
okamžiku, kdy bylo všechno hotovo a my jsme po celý týden všechny naše aplikace
provozovali z jedné lokality. Nedošlo k žádným výpadkům, a naši uživatelé tak
neměli příležitost postřehnout jakoukoli změnu. Ačkoli jsme si na začátku své
práce nebyli jisti, jak rychle se nám podaří zrealizovat přechod na záložní
centrum, podařilo se nám prokázat, že je tato akce možná.

Nejhorší scénář
Jakmile jsme dokončili realizaci tohoto významného úkolu, který posunul naši
společnost v otázkách bezpečnosti IT infrastruktury o notný kus vpřed, narazili
jsme na jeden dlouhodobější problém. Obě naše datová centra se nacházejí na
jednom metropolitním území a také všichni naši zaměstnanci pracují v
kancelářích v této oblasti. Z historického hlediska je to samozřejmě logické a
často výhodné. Navíc tu nehrozí příliš velké riziko, protože většina problémů,
jako například požáry nebo výpadky elektřiny, je vždy lokalizovaná jen do jedné
části města.
Nicméně události z poslední doby nás přiměly zaměřit se i na možné katastrofy
většího rozsahu. Takové události by mohly způsobit nefunkčnost obou našich
datových center, případně dosáhnout situace, kdy by naši zaměstnanci nebyli
schopni nebo i ochotni vrátit se do práce. Úřady regulující práci finančního
sektoru v naší zemi nedávno zveřejnily návrh, který vymezuje některé podmínky,
které by měli hráči na tomto trhu splňovat. Lze předpokládat, že se stanou
jakýmsi zlatým standardem, podle kterého se firmy v tomto odvětví budou muset
řídit, protože to jejich zákazníci budou očekávat. Protože se v tomto odvětví
pohybujeme, s uvedenými dokumenty se musíme nějak vypořádat.
Uvedené návrhy specifikují mimo jiné maximální čas pro zotavení systémů v
případě katastrofy většího (ale regionálního) rozsahu. Byl stanoven na 2
hodiny. Pokud by se ale katastrofa týkala našeho metropolitního území, naše
firma by přišla o všechno.

Hledáme řešení
Abychom tento problém vyřešili, management naší společnosti nám nabídl něco, co
v tomto období rozhodně není obvyklé poměrně velký rozpočet. Více peněz s sebou
ovšem pochopitelně nese i větší zodpovědnost. Musíme vybudovat nové datové
centrum vzdálené minimálně 320 kilometrů od stávající lokality a demonstrovat
jeho schopnost nahradit jedno z našich stávajících center. A to vše během
následujících 12 měsíců. Jedná se o skutečně ambiciózní cíl, a tak se může
stát, že ani stanovený rozpočet nebude dostatečný. Peníze samotné totiž nemohou
vyřešit všechny problémy, kterým nyní stojíme tváří v tvář. Musíme změnit
způsob, jakým lidé pracují. V současnosti počítáme s tím, že do nové lokality
přesuneme jedno z našich stávajících datových center, přičemž ve druhém z nich
zůstane většina personálu. V nové lokalitě bude jen základní tým, který zajistí
jeho udržování v chodu.
Otázkou je, co bude dál. Rozdělíme každou z funkcí na dvě osoby? Rozdělíme týmy
na dvě poloviny? Najmeme nové lidi? Budou nám stačit peníze? Těžko s jistotou
odpovědět. Až následujících 12 měsíců ukáže. Do té doby ale budu navštěvovat
jiná datová centra a zkoumat jejich zajištění umožňující bezporuchový chod i
celkovou bezpečnost lokality i stavby, abych zjistil, kde je to nejlepší místo
pro naše systémy.
Máme na své straně jednu velkou výhodu. Se všemi těmi start-upy, které v
posledních měsících zkrachovaly, by neměl být problém získat nějaký volný
prostor v datovém centru poměrně lacino.
Řešíte podobné problémy jako Vince Tuesday? Podělte se o svoje zkušenosti s
námi i se čtenáři Computerworldu. Můžete psát na adresu bezpecnost@idg.cz.

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.