Rychlé zotavení po katastrofě aneb Připravujeme se na nejhorší

1. 7. 2004

Sdílet

Utrácíte zbytečně moc peněz za systémy a opatření, jež vám mají umožnit bezproblémové obnovení provozu po katas...
Utrácíte zbytečně moc peněz za systémy a opatření, jež vám mají umožnit
bezproblémové obnovení provozu po katastrofě? Jistě, vypadá to jako směšná
otázka. Jak byste mohli? Novinové titulky varují před dalšími a dalšími
riziky... Tento článek je věnován speciálně obnovení provozu po katastrofě a je
plný návrhů, jak na to. Jejich realizace ovšem obvykle vyžaduje více peněz,
nikoliv méně. A jakmile zjistíte, že jste na tom v této oblasti celkem dobře,
pravděpodobně začnete mít obavy o své dodavatele a smluvní partnery.
"Abyste se vyhnuli nadměrným výdajům, měli byste pro obnovu v případě
katastrofy vytvořit tři úrovně opatření, a to na základně oprávněných požadavků
uživatelů," radí Tim DeLisle, ředitel konzultantské firmy Corigelan, jež se
danou problematikou zabývá. CIO by se podle jeho názoru nejprve měl podnikových
manažerů zeptat, jaké aplikace jsou skutečně natolik kritické, aby vyžadovaly
pro zachování chodu firmy obnovu do 24 hodin. Těch by mělo být jen málo.
Rozhodně podle něj není nutné zrcadlit všechno. "Druhá úroveň aplikací, které
vyžadují obnovu mezi 24 až 72 hodinami, může vyžadovat pouze levné zálohování
na pásky, zatímco poslední řada aplikací nemusí vyžadovat zálohování žádné,"
vysvětluje DeLisle.
Vše, co vedoucí podnikoví pracovníci a regulátoři vyžadují, je podniknutí
rozumných kroků pro kontinuitu operací firmy. Není nutné firmu zruinovat kvůli
neoprávněně vysokým nárokům. Následující tipy od skutečných uživatelů s dobře
propracovanými plány mohou sloužit k inspiraci, jak udržet podnik v chodu během
nejběžnějších katastrof. Jedním z klíčů, jak udržet firmu na nohách v případě,
že dojde k nejhoršímu, je přitom předvídání určitých kaskádových efektů, které
může katastrofa mít na fungování IT.
I když některé katastrofy hrozí pouze v určitých částech světa, problémy, které
způsobují, se mohou vyskytnout i v jiných souvislostech. To je i případ
hurikánu, který v roce 1992 zasáhl jižní Floridu. Tehdy došlo v datovém centru
radnice v Miami--Dade k výpadku napájení. Naftové generátory se přehřály, když
ve studni došla voda, což bylo důsledkem narušení hlavního vodovodního řadu
větrem a následným snížením úrovně hladiny. Později IT manažeři nechali
nainstalovat generátory chlazené vzduchem.
Experti tvrdí, že jedním z problémů obnovy provozu v případě katastrofy je
fakt, že ačkoliv většina firem má k dispozici plány pro podobné běžné případy
jako jsou havárie vody nebo masivní výpadky elektřiny zmíněné plány nejsou
pravidelně testovány a nejsou s nimi seznámeni koncoví uživatelé. Ve
skutečnosti nedávný průzkum, jehož se zúčastnilo 283 čtenářů Computerworldu,
ukázal, že 81 % respondentů ví o tom, že jejich firma má plány pro případ
katastrofy. Nicméně 71 % respondentů z firem, jež tyto plány mají, řeklo, že za
celý minulý rok neproběhl žádný jejich nácvik.
Abyste se vyhnuli přerušení provozu během katastrofy, musíte předvídat. Jak
odborníci, tak uživatelé se shodují v tom, že existují kroky, které mohou
zvýšit vaše šance na to, abyste při nejběžnějších typech katastrof vyvázli bez
úrazu.

Havárie způsobené počasím
"Podíváte-li se na to, proč zařízení během přírodních pohrom způsobených vodou
selhávají, jedná se vždy o velmi předvídatelné okolnosti. Někdo tomu říká vyšší
moc, já tomu zase říkám projev stupidity," tvrdí Ken Brill, výkonný ředitel The
Uptime Institute.
Již zmíněné datové centrum v Miami-Dade ohrožují každý rok od června do
listopadu hurikány, přesto IT manažeři stále bojují s tím, aby každý pochopil
důležitost plánování pro případ katastrofy. "Vždy je důležité ujistit se, že
všichni zaměstnanci jsou do těchto plánů plně zapojeni a účastní se jich,"
konstatuje Ruben Lopez, ředitel pro technologické služby centra.
Datové centrum v Miami-Dade každoročně věnuje 56 hodin testování plánu pro
obnovení provozu po katastrofě přepojením na alternativní datové centrum a
obnovením dat. Tento čas využívá k odhalování nedostatků a jejich pozdější
nápravě.
"Kontinuita operací a připravenost na katastrofu je v zásadě pouze o zjištění
nedostatků a stanovení kroků k jejich nápravě. Nejde o to, jak na papíře dostat
jedničku s hvězdičkou," upozorňuje Joe Torres, koordinátor datového centra pro
případ katastrof. Zdůrazňuje, že během testování plánu pro obnovu netestuje
lidi, ale samotný plán podle jeho slov totiž nelze být závislý na konkrétních
lidech. "Dáte jim brožuru s instrukcemi, a oni musejí být schopni tyto
instrukce dodržet," říká Torres.
Jedním z kroků, které byly v Miami-Dade v tomto směru podniknuty, bylo zvážení
přínosů softwaru, který by zaměstnancům pomohl v případě naléhavé události
telefonicky kontaktovat ty správné manažery.
Walter Hatten, manažer pro technické služby Hancock Bank, se zase zaměřil na
konsolidaci vlastní serverové farmy a vytvoření redundantní komunikační sítě v
té oblasti země, která je průměrně každých 3,5 roku zasažena hurikánem. Banka
se 100 pobočkami a ústředím v Mexickém zálivu konsoliduje 500 serverů na
linuxový mainframe tak, aby snížila dobu nutnou pro obnovu v případě katastrofy.

"Jenom samotný rozsah obnovení 500 serverů pro nás znamená riziko, že to nebude
schopni realizovat včas," říká Hatten. Linux zvolil kvůli otevřeným standardům
a škálovatelnosti. Tvrdí, že mainframe přinese větší rychlost obnovy dat, a
celý proces se tak podaří zkrátit z řádu dní na hodiny.

Když je zavřeno
Maria Herrerová je CTO právní kanceláře Patton Boggs, která má 400 advokátů
specializovaných na mezinárodní obchodní právo. Vzhledem k blízkosti sídla
firmy a amerického Kapitolu je podle jejích slov jednou z neustálých obav
uzavření budovy v důsledku teroristické hrozby.
Herrerová vytvořila duplicitní provozní prostředí v několika dalších pobočkách
a uzavřela smlouvy se dvěma firmami, které se zabývají obnovou provozu po
katastrofě: SunGard Data Systems se zabývá obnovou serverů a pracovních stanic,
AmeriVault má na starosti zálohování dat.
V lednu společnost AmeriVault nainstalovala na desktopech firmy rozhraní
CentralControl a na všech serverech právní kanceláře Patton Boggs agentský
software. Po dokončení počáteční zálohy veškerých dat nyní AmeriVault provádí
inkrementální zálohování změn ve svých centrech ve Walthamu a Filadelfii.
V případě havárie lze data obnovit na dálku, dokonce i z domova. Administrátoři
k tomu využívají point-and-click funkce webového portálu společnosti
AmeriVault. Data je možné také dodat na páskách pro případ rozsáhlého
obnovování. "Každý měsíc či dva stahujeme několik dokumentů od AmeriVault,
abychom systém otestovali," vysvětluje Herrerová. "Jsme schopni kompletně
obnovit data ve firmě za zhruba 10 hodin," dodává.
Herrerová také navrhuje, aby se zkoušek procesu obnovy po katastrofě účastnil
veškerý IT personál, jelikož v případě nouze podle jejích slov nikdy nevíte,
koho budete mít po ruce. Příslušným způsobem také zaškolila zaměstnance ve
všech čtyřech pobočkách po celé zemi. "Firma SunGard má několik středisek, kde
se IT specialisté a právníci mohou setkat a pracovat, pokud dojde k uzavření
sídla firmy," říká Herrerová.
Doug Lilly, starší provozní technik telekomunikací na ministerstvu pro
technologie a informace Delaware, říká, že jeho úřad má k dispozici trojici
datových center, jež mají na starosti podporu zhruba 20 tisíc státních
zaměstnanců. Ministerstvo využívá k replikaci dat mezi datovými centry
Symmetrix Remote Data Facility společnosti EMC. Pro zálohování využívá také
centrální nástroj pro správu od firmy CommVault Systems.
"Pokud by toto středisko vybombardovali, měli bychom k dispozici náhradní
servery, ale data bychom museli obnovit z pásek," vysvětluje Lilly. "Software
firmy CommVault je schopen přenášet data rychlostí 60-65 GB za hodinu. Trvalo
by několik hodin, než by lidé byli opět on-line."
Lilliho IT tým má k dispozici kopii procedur pro obnovu po katastrofě také
doma. "Vedoucí týmu všechny vyrozumí; nosíme s sebou mobilní telefony a
hanheldy BlackBerry, které se připojují k redundantním sítím," upřesňuje.
"Jedná se o značně unifikovanou messagingovou platformu, spojující schopnost
přenášet data, hlas, fax a video do jedné aplikace. Tak jsme k zastižení
kdykoliv a kdekoliv."

Výpadky elektřiny
Edward Koplin, inženýr strojírenské firmy Jack Dale Associates, říká, že
nedostatečné testování obnovy po katastrofě je hlavní příčinou výpadků datových
center v případě přerušení dodávky elektrického proudu. Doporučuje, aby firmy
často testovaly své naftové generátory při plném zatížení po takovou dobu, po
jakou se předpokládá jejich využití při výpadku.
Brill z The Uptime Institute k tomu dodává: "Na výpadek proudu byste měli být
vždy připraveni s nejméně dvěma rezervními generátory oproti potřebnému počtu,
a tyto generátory byste měli testovat doslova odpojením od sítě. Testoval bych
je po takovou dobu, po kterou předpokládám, že by měly pod zátěží fungovat. A
prováděl bych to přinejmenším každé dva až tři roky a nejlépe v létě."
Jim Rittas, bezpečnostní administrátor, který odpovídá ze sítě společnosti
Mizuho Markets, pobočky tokijské Mizuho Financial Group druhé největší firmy na
světě zabývající se finančními službami, říká, že jeho firma je teď schopna
provést kompletní obnovu dat po výpadky proudu nebo jiné havárii během jediné
hodiny, oproti dřívějším dvěma dnům. Dosáhla toho díky zrcadlení dat ve své
pobočce v New Jersey. "Dalším opatřením byla diverzifikace našeho internetového
připojení. Nyní máme připojení jak v New Yorku, tak v New Jersey, dříve jsme se
připojovali pouze přes New York," dodává Rittas.
Výzkumná firma TowerGroup doporučuje přeměnit části center zajišťujících
kontinuitu operací firmy a obnovu po katastrofě na zisková datová centra. Firmy
mají obvykle jedno aktivní datové centrum a pak neobsluhované záložní
středisko. Pokud zvolí takzvaný aktivní model, kdy záložní centra fungují nejen
při výjimečných událostech, tak se eliminuje nutnost přemístění IT zaměstnanců
v případě katastrofy.
Integrací IT prostředků pro obnovu po katastrofě s personálem do provozních
rozpočtů napříč geograficky rozptýlenými datovými centry také pomáhá setřít
čáru mezi obnovou v případě katastrofy a provozními výdaji.
"Optimální je mít neustále k dispozici kopii dat v náhradním centru, nikoliv
pouze některá data," říká Wayne Schletter, ředitel globálních technologií
společnosti Mizuno Capital Markets. "Nebudete chtít slepovat věci kousek po
kousku, když se něco stane. Chcete přece být připraveni ihned," dodává.

Klasické chyby
Steve Ulfelder

Obnova po katastrofě je nepříjemným úkolem. A také proto mají podle Scotta
Lundstroma, analytika AMR Research, prakticky ve všech firmách související
projekty nepřiměřeně nízkou prioritu.
"Neexistují žádní uživatelé, kteří by vyžadovali zajištění kontinuity operací
firmy," konstatuje Lundstrom. "A vzhledem k tomu, že v povaze prakticky všech
IT firem je nikoli prevence, ale hašení požárů, obnova po katastrofě nikdy
nezíská takové zdroje, které by si zasloužila," dodává.
Jelikož obnova po katastrofě stojí oproti ostatním IT projektům v pozadí,
zákonitě se stávají chyby. Zeptali jsme se IT manažerů a dalších expertů, na co
se při plánování obnovy provozu po katastrofě nejčastěji zapomíná. Zde je pět
klasických případů:

Chyba č. 1: Neví se, co je důležité
IT oddělení často zapomínají, že je třeba ptát se koncových uživatelů i
vedoucích pracovníků na to, které aplikace jsou pro ně nejpotřebnější. To vede
k chybným závěrům o prioritách v případě obnovy po katastrofě. Lidé kolem IT
mají tendenci předpokládat, že nejdříve je třeba obnovit výkonné podnikové
aplikace.
Ve skutečnosti mohou být nejpotřebnější aplikace daleko prozaičtější například
e-mail a nástroje pro plánování, jako je třeba Microsoft Outlook. Jak zjistíte
pravdu? Zeptejte se uživatelů.
"Samotná firma potřebuje plán pro případ, že dojde k narušení jejího chodu,"
objasňuje Elbert Lane, vedoucí vývojář softwaru firmy Gap, který se již po 20
let zabývá plánováním obnovy provozu po katastrofě u několika firem. "Je třeba
definovat postupy pro vyřízení papírování apod., takže otázka zní: Jak tyto
postupy obnovit? Nejedná se pouze o problém IT, ale o problém celé firmy."
A poučení? Lidé pohybující se kolem IT neustále slyší slovo "kritický" ve
spojení s CRM a ERP softwarem. Ale abyste zjistili, které aplikace chtějí
uživatelé skutečně obnovit nejdříve, stačí se jich prostě zeptat.

Chyba č. 2: Předpokládá se, že jde výhradně o záležitost IT
V případě krize může být výkonnost IT týmu záležitostí, která firmu zajímá ze
všeho nejméně. "Běžně se předpokládá, že kontinuita provozu firmy a obnova IT
systémů po katastrofě jsou jedna a táž věc," říká Don OConnor, CIO Southern
California Water. "Ale není tomu tak."
Dokonce i nedostatečně připravená IT oddělení se mnohdy zabývají tím, co by
dělala, pokud by došlo ke katastrofě. Ale lze totéž říci i o jiných odděleních
firem? "Podle mé zkušenosti je reakce ze strany IT poměrně rychlá. To, co
zaostává, jsou uživatelé," vysvětluje OConnor.
A poučení? Vedoucí pracovníci musejí pochopit, že rebootování systémů a obnova
dat je pouze jednou z částí problému. Plány pro obnovu provozu po katastrofě
musejí pamatovat také na provozní manažery a koncové uživatele, kteří budou v
krizi odpovídat za chod firmy. "Příliš často je kontinuita něčím, co dostává za
úkol IT," dodává Lundstrom. "Ale jedná se o problém celého podniku."

Chyba č. 3: Očekává se poslední bitva
Jak říká jedno přísloví, generálové se často připravují na svoji poslední
bitvu, a podobně firmy mrhají svými rozpočty na obnovu po katastrofě a svou
energii na přípravu na takovou katastrofu, která se odehrála naposledy. Byť je
to pochopitelné, současně tím porážejí samy sebe katastrofy jsou již svou
povahou prakticky nepředvídatelné.
Nedávná historie ukazuje působivý příklad. 11. září 2001 zdevastoval
teroristický útok na World Trade Center mnoho finančních firem sídlících v New
Yorku. Mnohé z nich by si bývaly přály mít záložní zařízení někde poblíž, a tak
taková zařízení za ohromné peníze začaly budovat hned za řekou v Jersey City.
Ale další závažná krize kontinuity operací firem velký výpadek proudu v srpnu
2003 zasáhla i Jersey City.
A poučení? I když je rozumné zvažovat určité široké krizové kategorie (útok
teroristů, hackerů, zemětřesení, požáry apod.), nemyslete si, že jste schopni
spolehlivě předvídat budoucnost. Neplánujte tedy specifické krizové události,
ale spíše jejich následky.

Chyba č. 4: Lidé jsou přehlíženi
Další lekce z 11. září: Špičkové záložní zařízení pomůže pouze tehdy, pokud je
někdo může používat. "Některé firmy měly záložní datová centra na jižním
Manhattanu," říká Carl Claunch, analytik Gartneru. Nicméně okamžitě po kolapsu
věží World Trade Center policie oblast uzavřela. "Samotné vybavení bylo v
pořádku, ale jen tam leželo a bylo k ničemu." A to se může stát i v takových
případech, kdy je budova uzavřena kvůli karanténě nebo když se rozbije výtah,
či je uzavřena důležitá silnice.
Dalším aspektem tohoto chytáku je odbornost těch, kteří nakonec k záložnímu
vybavení získají přístup. Příliš mnoho společností zejména těch, které
zanedbávají procvičování svých plánů pro obnovu spoléhá na IT hrdiny, kteří je
mají vytáhnout z krize. Ale jak poznamenává Lane: "Nikdy nevíte, zda budete mít
klíčový personál k dispozici."
A poučení? Zde se dostává ke slovu důkladná dokumentace. "Naši dokumentaci
vytváříme takovým způsobem, aby kdokoliv z firmy byl schopen aplikaci
restartovat," vysvětluje Lane. "Měli byste mít někoho, kdo je schopen všechno
nastartovat, byť pracuje třeba v podatelně."

Chyba č. 5: Cvičení jsou prováděna s pochybnými postupy
"Samozřejmě, firmy provádějí testování. Ale jelikož plné testování vyžaduje
velké množství zdrojů, jsou příslušná cvičení plánována dlouho dopředu,"
upozorňuje Claunch. A jaký je pak výsledek? IT pracovníci, hnaní přirozenou
touhou při cvičení vyniknout, podvádějí. "Připravují se. Sbírají nástroje,
přezkoumávají postupy. A pak, když se stane skutečná katastrofa, je to o něčem
zcela jiném!"
Toto je přetrvávající problém IT firem, které jsou vytíženy na maximum ještě
předtím, než se do jejich pracovní náplně dostane obnova po katastrofě. Lane
říká, že i v jejich firmě se cvičení plánují dopředu. "Jsme koncový prodejce,
musíme poskytovat podporu pro naše obchody, a to nepřetržitě," dodává.
A poučení? Zde nelze nalézt žádnou jednoduchou odpověď. Každý věří, že
překvapivý nácvik katastrof je efektivnější, ale provádět takový nácvik v
prostředí e-businessu, které je nepřetržitě v chodu, představuje ohromnou
zátěž. Claunch navrhuje, aby takové překvapivé testy byly prováděny vždy na
jednotlivé podskupině IT tak by se zbytek zaměstnanců mohl starat o běžný
provoz. Některé firmy využívají auditory, kteří mají zajistit, aby pracovníci
IT nespoléhali na předem připravené informace.