Hloupé chyby v datových centrech

Lidská chyba stojí podle organizace Uptime Institute za přibližně 70 % výpadků datových center. Na vině jsou nesprávné šetření, špatné školení či neautorizovaný zásah některých zaměstnanců.


Univerzitní síť se zhroutila, když někdo nedopatřením zapojil dva síťové kabely do nesprávného rozbočovače. Přehřáté systémy se vypnuly poté, co pracovník změnil v nastavení termostatu datového centra jednotky teploty ze stupňů Fahrenheita na stupně Celsia.

To je jen pár pohrom v datových centrech, které nebyly způsobeny selháním techniky nebo přírodními katastrofami, ale chybou člověka.

Podle společnosti Uptime Institute, která se zabývá výzkumem a konzultačními službami se zaměřením na provoz datových center, způsobují lidské chyby téměř 70 procent problémů, které v současné době postihují datová centra. „Tato skupina analyzovala 4 500 incidentů v DC včetně 400 případů úplných výpadků,“ uvádí Julian Kudritzki, viceprezident společnosti Uptime Institute, která nedávno publikovala sadu pokynů pro udržitelnost provozu datových center.

„Nejsem překvapen,“ komentuje Kudritzki tyto výsledky. „Řízení provozu je oblast s největší zranitelností, ale je také největší příležitostí, jak výpadkům zabránit. Dobrá zpráva je to, že personál lze účinně přeškolit.“

Ať už se jedná o nedbalost, nedostatečný trénink, rozhraní i pro koncové uživatele, napjatý rozpočet, lidské chyby jsou zkrátka nevyhnutelné. V současné době se díky neustále se zvyšující složitosti IT systémů – a souvisejícímu problému mnohem přepracovanějšího personálu datových center – stává, že „zbytečně dochází k chybám, kterým by se dalo normálně předejít,“ prohlašuje Charles King, analytik společnosti Pund-IT.

„Když se zkombinuje vysoká úroveň složitosti a přepracování, bývají následky obvykle dost ošklivé,“ upozorňuje King. Jak společnosti stále více závisejí na technologiích při dosahování svých firemních cílů, stávají se tyto chyby kritičtějšími a zároveň také dražšími.

Nesprávný kabel
Vezměme si jako příklad přepínač univerzitního datového centra, který byl přetížen, protože IT zaměstnanec omylem zapojil dva síťové kabely do downstreamového rozbočovače. „Stalo se to před několika roky na Indiana University School of Medicine,“ vzpomíná Jeramy Jay Bowers, bezpečnostní analytik této školy.

„Problém vznikl z neoptimalizovaného návrhu sítě,“ vysvětluje Bowers, který v době incidentu pracoval ve škole jako systémový inženýr. Oddělení IT pro lékařskou univerzitu bylo rozděleno do dvou lokalit – jedna místnost byla v budově lékařské univerzity a druhá v blízké univerzitní nemocnici – „to tedy rozhodně není ideální stav,“ popisuje Bowers.

Oddělení používalo optická vlákna – přesněji řečeno purpurový kabel – propojující přepínač v první budově se druhým objektem. Kabel procházel skrz stropy, několik dveří a přes křídlo další brány do nemocnice. Byl připojen ke 12portovému přepínači umístěnému v IT místnosti budovy nemocnice, a personál tak mohl snadno provést odpojení od sítě lékařské univerzity a připojit se k síti nemocnice pomocí konektoru ve zdi, vysvětluje Bowers.

Jednoho dne si Bowers vybíral volno a byl si zaběhat, když v tom mu začal zvonit jeho iPhone – přepínač v serverovně lékařské univerzity byl přetížen a způsoboval odepření všech hostovaných služeb.
„Zelené kontrolky se při průchodu paketů rozsvěcují a zhášejí,“ vysvětluje. „Provoz se zvýšil natolik, že kontrolky prakticky neustále svítily.“

Bowers začal rychle hledat pomocí telefonu chybu. Dokázal zjistit, že se v síti lékařské univerzity nic nezměnilo. Potom si vzpomněl na onen purpurový kabel. Požádal po telefonu svého spolupracovníka, aby vodič vypojil, a aktivita přepínače se vrátila do normálu. Poté, co spolupracovník kabel opět zapojil, opakovalo se přetížení přepínače, takže problém byl na druhém konci purpurového kabelu – v budově univerzitní nemocnice.

Ukázalo se, že zaměstnanec, který obvykle působil na odloučeném pracovišti, přišel do IT místnosti univerzitní nemocnice pracovat na nějakém projektu IT a potřeboval konektivitu navíc. Nedopatřením vytvořil smyčku zasunutím dvou síťových kabelů z univerzitního přepínače do rozbočovače, který sám do sítě přidal, aby si mohl připojit další zařízení.

„Data začala být posílána neustále dokola,“ popisuje Bowers, což nakonec způsobilo přetížení přepínače v budově lékařské univerzity.

Bowers uvádí, že síť byla postavena narychlo tehdy, když začal pracovat na univerzitě, takže zdědil konfiguraci, kterou by lepší přístup při plánování a návrhu sítě musel bezpochyby označit jako problematickou. Minimálně teď však IT oddělení ví, že se problému dalo předejít, protože neplánovitě narychlo zapojená kabeláž je v kombinaci s nezasvěcenými techniky opravdu nebezpečná kombinace. „Po tomto incidentu jsme neprováděli žádná oficiální školení, jen jsme personálu zdůrazňovali, aby to už nikdo víckrát nedělal,“ vzpomíná Bowers. Tato událost však v kombinaci s jiným incidentem, kdy uživatel nevědomě zprovoznil neautorizovaný bezdrátový přístupový bod v síti lékařské univerzity a přetížil tím přepínač, Bowerse přivedla k názoru, že: „lidské chyby způsobují více problémů než chyby techniky,“ dodává.

Ztráta všeho za 35 dolarů
Nehody v datových centrech jsou ale spíše způsobovány, ať už přímo nebo nepřímo, snahou zaměstnanců uspořit peníze. V následujícím případu bylo vše způsobeno snahou ušetřit 35 dolarů za zálohovací pásku.

Před několika lety pracoval Charles Barber jako manažer technické podpory ve společnosti vyrábějící zdravotnické přístroje (tato firma již neexistuje). Produkovali samostatná, na serveru založená zařízení připojená k běžeckým pásům, která sbírala data ze zátěžových testů pacientů. Jedním ze zákazníků firmy byla malá zdravotní praxe v St. Louis, kde administrativní asistentka vykonávala také IT činnosti.

„Byla velmi schopná“ – i když to nebyla školená IT profesionálka, vzpomíná Barber.

Jednou v pátek večer uslyšela divný hluk ze serveru zařízení a pochopila, že došlo k poruše pevného disku. V sobotu koupila nový pevný disk, nainstalovala ho a spustila Microsoft Windows Server a SQL Server, protože měla uloženy disky a dokumentaci.

Barber jí poskytl písemné instrukce ke konfiguraci serveru pro případ, že by se něco takového přihodilo, a asistentka vše úspěšně vykonala. „Měl jsem v terénu inženýry, kteří mi volali, abych jim s takovými věcmi pomohl,“ uvádí Barber, „ale tato žena to zvládla sama.“

Poté strávila neděli a většinu pondělka obnovou dat a testováním systému před použitím skutečného zátěžového testu pacienta koncem pondělního dne a test proběhl dobře. V úterý ráno však volala Barberovi, že všechny informace, které obnovila na server ze záložní pásky, zmizely. „Je to člověk, který každý den dělá zálohu celého systému,“ vysvětluje Barber. „Když však šla nainstalovat svou zálohu, zjistila, že má jen výsledky testu pacienta z pondělí.“

Protože měla jen jednu záložní pásku, použila ji k zálohování pondělních výsledků testu a neuvědomila si, že se tímto procesem smazala záloha disku obsahující všechna historická data ze serveru.
„Tyto pásky stojí 35 dolarů. Kdyby jí jen její zaměstnavatel dovolil koupit druhou... Namísto toho ztratili data za tři měsíce,“ varuje Barber. „Celých 30 sekund jsem lapal po dechu, když jsem si uvědomil, co se stalo. Byla to velmi šikovná dáma, ale její šéfové nebyli ochotni zaplatit 35 dolarů za jednu záložní pásku navíc.“

Omyly po celém světě
„Během poloviny osmdesátých let měla letecká základna Air Force v Arizoně nainstalovat novou kabeláž v objektu,“ vzpomíná John Eyre, který byl v tu dobu inženýrem Air Force. Pro instalaci minipočítačů Wang byla potřebná nová kabeláž – každý počítač potřeboval koaxiální kabely pro připojení k terminálům a dodavatel doporučoval pro natažení kabelů dvoupalcovou průchodku.

Eyre byl sice přesvědčen, že není dostatečně široká, aby pojala kabel, ale protože to bylo doporučeno firmou Wang a projekt měl zpoždění, Eyrovi nadřízení pokračovali s jejím použitím, popisuje Eyre.

„Když byly všechny kabely nataženy, zjistil management, že v každém místě, kde použili průchodku k natažení kabelu, byl kabel natolik poškozen, že byl vlastně nepoužitelný,“ tvrdí Eyre. Celou instalaci bylo nutné předělat s využitím širší trubky, což zpozdilo zprovoznění sítě o devět měsíců.

Poučení? „Pokud nadměrně spěcháte, abyste stihli termín a získali další úspěch, způsobí to obvykle jen problémy,“ uzavírá Eyre.

Minimalizace chyb v datových centrech
Když přijde na pohromy v datových centrech, co je nebezpečnější – systémy, nebo lidé, kteří tato zařízení konfigurují a udržují?

„Myslím, že obojí,“ prohlašuje Kudritzki z Uptime Institutu. „Máte-li dobře udržované a spolehlivě běžící datové centrum, budou vaše zařízení pracovat s nejlepšími výsledky. Máte-li naopak špatně spravované centrum, budete mít pravděpodobně problémy.“

„Součástí dobře fungujícího datacentra je věnování pozornosti personálu, který s příslušnými systémy přichází do přímého kontaktu,“ dodává Kudritzki. Manažerům, kteří věnují čas provádění obezřetných rozhodnutí ohledně úrovně personálu, jejich školení, údržby zařízení a celkové problematiky provozu, se zřejmě povede předejít pohromám a dosáhnout maximálního provozního času. „Management by neměl používat provizorní přístup v oblasti lidských zdrojů, kde mohou okolnosti způsobit odstavení datového centra,“ varuje King ze společnosti Pund-IT. Efektivní řízení personálu vyžaduje dobře promyšlené strategie.

„Řešení problémů souvisejících s personálem vyžaduje systémové strategie a řešení, ale školicí programy jsou často omezené a orientované na konkrétní úlohy,“ vysvětluje King. „Je v tom trocha ironie – ačkoli většina personálu rozumí systémové podstatě technologií, se kterými pracují, jen málo z nich si uvědomuje, že samotná datová centra jsou vysoce složité propojené systémy,“ dodává King. „Školicí programy a trénink zdůrazňující holistický přístup ke správě datového centra mohou pomoci tento problém vyřešit.“

Recept na chyby
V červenci tohoto roku vydala společnost Uptime Institute novou sadu specifikací navržených ke zlepšení doby provozuschopnosti datových center, a to popsáním provozních problémů včetně lidského faktoru.

Dokument nese označení „Data Center Site Tier Standard: Operational Sustainability“ a obsahuje různé instrukce a témata – mj. jak zvyklosti týmu správy datového centra a rizika s nimi spojená mohou ovlivnit dlouhodobý provoz.

„Při nedostatečné správě mohou i nejpokročilejší datová centra zaznamenat výpadky provozu,“ varuje Julian Kudritzki, viceprezident společnosti Uptime Institute. Instrukce řeší čtyři aspekty, kterým by měl management věnovat pozornost, aby datové centrum dosáhlo nejvyšší možné doby provozuschopnosti. Obsahují péči o personál – nejde ale jen o dostatek lidí, ale o dostatečné množství kvalifikovaných osob umožňující dosažení provozních cílů datového centra. Například v pokročilých datových centrech (Tier 4) doporučuje Uptime Institute nepřetržitou (24 x 7) přítomnost minimálně dvou zaměstnanců, kteří se budou provozu datového centra naplno věnovat.

Management také musí udělat správná rozhodnutí ohledně všech aspektů údržby včetně preventivních činností, každodenního úklidu a úloh souvisejících se životním cyklem. Školení je také neodmyslitelné: Zaměstnanci, kteří jsou schopni reagovat na neplánované události, mohou zamezit výpadkům – standard doporučuje mimo jiné lokální školení pro danou práci, dále trénink mimo lokalitu u dodavatele a konečně formální certifikaci.

Pro celkové plánování, koordinaci a správu datového centra doporučení od Uptime Institute doporučuje, aby manažeři stanovili lokální zásady a také pravidla pro správu financí, dále využívali nástroje pro správu energie a chladicích systémů a také udržovali knihovnu místní infrastruktury, jako je například ITIL (IT Infrastructure Library).











Komentáře