Hloupé chyby v datových centrech

9. 2. 2011

Lidská chyba stojí podle organizace Uptime Institute za přibližně 70 % výpadků datových center. Na vině jsou nesprávné šetření, špatné školení či neautorizovaný zásah některých zaměstnanců.

Univerzitní síť se zhroutila, když někdo nedopatřením zapojil dva síťové kabely do nesprávného rozbočovače. Přehřáté systémy se vypnuly poté, co pracovník změnil v nastavení termostatu datového centra jednotky teploty ze stupňů Fahrenheita na stupně Celsia.

To je jen pár pohrom v datových centrech, které nebyly způsobeny selháním techniky nebo přírodními katastrofami, ale chybou člověka.

Podle společnosti Uptime Institute, která se zabývá výzkumem a konzultačními službami se zaměřením na provoz datových center, způsobují lidské chyby téměř 70 procent problémů, které v současné době postihují datová centra. „Tato skupina analyzovala 4 500 incidentů v DC včetně 400 případů úplných výpadků,“ uvádí Julian Kudritzki, viceprezident společnosti Uptime Institute, která nedávno publikovala sadu pokynů pro udržitelnost provozu datových center.

„Nejsem překvapen,“ komentuje Kudritzki tyto výsledky. „Řízení provozu je oblast s největší zranitelností, ale je také největší příležitostí, jak výpadkům zabránit. Dobrá zpráva je to, že personál lze účinně přeškolit.“

Ať už se jedná o nedbalost, nedostatečný trénink, rozhraní i pro koncové uživatele, napjatý rozpočet, lidské chyby jsou zkrátka nevyhnutelné. V současné době se díky neustále se zvyšující složitosti IT systémů – a souvisejícímu problému mnohem přepracovanějšího personálu datových center – stává, že „zbytečně dochází k chybám, kterým by se dalo normálně předejít,“ prohlašuje Charles King, analytik společnosti Pund-IT.

„Když se zkombinuje vysoká úroveň složitosti a přepracování, bývají následky obvykle dost ošklivé,“ upozorňuje King. Jak společnosti stále více závisejí na technologiích při dosahování svých firemních cílů, stávají se tyto chyby kritičtějšími a zároveň také dražšími.

Nesprávný kabel
Vezměme si jako příklad přepínač univerzitního datového centra, který byl přetížen, protože IT zaměstnanec omylem zapojil dva síťové kabely do downstreamového rozbočovače. „Stalo se to před několika roky na Indiana University School of Medicine,“ vzpomíná Jeramy Jay Bowers, bezpečnostní analytik této školy.

„Problém vznikl z neoptimalizovaného návrhu sítě,“ vysvětluje Bowers, který v době incidentu pracoval ve škole jako systémový inženýr. Oddělení IT pro lékařskou univerzitu bylo rozděleno do dvou lokalit – jedna místnost byla v budově lékařské univerzity a druhá v blízké univerzitní nemocnici – „to tedy rozhodně není ideální stav,“ popisuje Bowers.

Oddělení používalo optická vlákna – přesněji řečeno purpurový kabel – propojující přepínač v první budově se druhým objektem. Kabel procházel skrz stropy, několik dveří a přes křídlo další brány do nemocnice. Byl připojen ke 12portovému přepínači umístěnému v IT místnosti budovy nemocnice, a personál tak mohl snadno provést odpojení od sítě lékařské univerzity a připojit se k síti nemocnice pomocí konektoru ve zdi, vysvětluje Bowers.

Jednoho dne si Bowers vybíral volno a byl si zaběhat, když v tom mu začal zvonit jeho iPhone – přepínač v serverovně lékařské univerzity byl přetížen a způsoboval odepření všech hostovaných služeb.
„Zelené kontrolky se při průchodu paketů rozsvěcují a zhášejí,“ vysvětluje. „Provoz se zvýšil natolik, že kontrolky prakticky neustále svítily.“

Bowers začal rychle hledat pomocí telefonu chybu. Dokázal zjistit, že se v síti lékařské univerzity nic nezměnilo. Potom si vzpomněl na onen purpurový kabel. Požádal po telefonu svého spolupracovníka, aby vodič vypojil, a aktivita přepínače se vrátila do normálu. Poté, co spolupracovník kabel opět zapojil, opakovalo se přetížení přepínače, takže problém byl na druhém konci purpurového kabelu – v budově univerzitní nemocnice.

Ukázalo se, že zaměstnanec, který obvykle působil na odloučeném pracovišti, přišel do IT místnosti univerzitní nemocnice pracovat na nějakém projektu IT a potřeboval konektivitu navíc. Nedopatřením vytvořil smyčku zasunutím dvou síťových kabelů z univerzitního přepínače do rozbočovače, který sám do sítě přidal, aby si mohl připojit další zařízení.

„Data začala být posílána neustále dokola,“ popisuje Bowers, což nakonec způsobilo přetížení přepínače v budově lékařské univerzity.

Bowers uvádí, že síť byla postavena narychlo tehdy, když začal pracovat na univerzitě, takže zdědil konfiguraci, kterou by lepší přístup při plánování a návrhu sítě musel bezpochyby označit jako problematickou. Minimálně teď však IT oddělení ví, že se problému dalo předejít, protože neplánovitě narychlo zapojená kabeláž je v kombinaci s nezasvěcenými techniky opravdu nebezpečná kombinace. „Po tomto incidentu jsme neprováděli žádná oficiální školení, jen jsme personálu zdůrazňovali, aby to už nikdo víckrát nedělal,“ vzpomíná Bowers. Tato událost však v kombinaci s jiným incidentem, kdy uživatel nevědomě zprovoznil neautorizovaný bezdrátový přístupový bod v síti lékařské univerzity a přetížil tím přepínač, Bowerse přivedla k názoru, že: „lidské chyby způsobují více problémů než chyby techniky,“ dodává.

Ztráta všeho za 35 dolarů
Nehody v datových centrech jsou ale spíše způsobovány, ať už přímo nebo nepřímo, snahou zaměstnanců uspořit peníze. V následujícím případu bylo vše způsobeno snahou ušetřit 35 dolarů za zálohovací pásku.

Před několika lety pracoval Charles Barber jako manažer technické podpory ve společnosti vyrábějící zdravotnické přístroje (tato firma již neexistuje). Produkovali samostatná, na serveru založená zařízení připojená k běžeckým pásům, která sbírala data ze zátěžových testů pacientů. Jedním ze zákazníků firmy byla malá zdravotní praxe v St. Louis, kde administrativní asistentka vykonávala také IT činnosti.

„Byla velmi schopná“ – i když to nebyla školená IT profesionálka, vzpomíná Barber.

Jednou v pátek večer uslyšela divný hluk ze serveru zařízení a pochopila, že došlo k poruše pevného disku. V sobotu koupila nový pevný disk, nainstalovala ho a spustila Microsoft Windows Server a SQL Server, protože měla uloženy disky a dokumentaci.

Barber jí poskytl písemné instrukce ke konfiguraci serveru pro případ, že by se něco takového přihodilo, a asistentka vše úspěšně vykonala. „Měl jsem v terénu inženýry, kteří mi volali, abych jim s takovými věcmi pomohl,“ uvádí Barber, „ale tato žena to zvládla sama.“

Poté strávila neděli a většinu pondělka obnovou dat a testováním systému před použitím skutečného zátěžového testu pacienta koncem pondělního dne a test proběhl dobře. V úterý ráno však volala Barberovi, že všechny informace, které obnovila na server ze záložní pásky, zmizely. „Je to člověk, který každý den dělá zálohu celého systému,“ vysvětluje Barber. „Když však šla nainstalovat svou zálohu, zjistila, že má jen výsledky testu pacienta z pondělí.“

Protože měla jen jednu záložní pásku, použila ji k zálohování pondělních výsledků testu a neuvědomila si, že se tímto procesem smazala záloha disku obsahující všechna historická data ze serveru.
„Tyto pásky stojí 35 dolarů. Kdyby jí jen její zaměstnavatel dovolil koupit druhou... Namísto toho ztratili data za tři měsíce,“ varuje Barber. „Celých 30 sekund jsem lapal po dechu, když jsem si uvědomil, co se stalo. Byla to velmi šikovná dáma, ale její šéfové nebyli ochotni zaplatit 35 dolarů za jednu záložní pásku navíc.“

Omyly po celém světě
„Během poloviny osmdesátých let měla letecká základna Air Force v Arizoně nainstalovat novou kabeláž v objektu,“ vzpomíná John Eyre, který byl v tu dobu inženýrem Air Force. Pro instalaci minipočítačů Wang byla potřebná nová kabeláž – každý počítač potřeboval koaxiální kabely pro připojení k terminálům a dodavatel doporučoval pro natažení kabelů dvoupalcovou průchodku.

Eyre byl sice přesvědčen, že není dostatečně široká, aby pojala kabel, ale protože to bylo doporučeno firmou Wang a projekt měl zpoždění, Eyrovi nadřízení pokračovali s jejím použitím, popisuje Eyre.

„Když byly všechny kabely nataženy, zjistil management, že v každém místě, kde použili průchodku k natažení kabelu, byl kabel natolik poškozen, že byl vlastně nepoužitelný,“ tvrdí Eyre. Celou instalaci bylo nutné předělat s využitím širší trubky, což zpozdilo zprovoznění sítě o devět měsíců.

Poučení? „Pokud nadměrně spěcháte, abyste stihli termín a získali další úspěch, způsobí to obvykle jen problémy,“ uzavírá Eyre.

Minimalizace chyb v datových centrech
Když přijde na pohromy v datových centrech, co je nebezpečnější – systémy, nebo lidé, kteří tato zařízení konfigurují a udržují?

„Myslím, že obojí,“ prohlašuje Kudritzki z Uptime Institutu. „Máte-li dobře udržované a spolehlivě běžící datové centrum, budou vaše zařízení pracovat s nejlepšími výsledky. Máte-li naopak špatně spravované centrum, budete mít pravděpodobně problémy.“

„Součástí dobře fungujícího datacentra je věnování pozornosti personálu, který s příslušnými systémy přichází do přímého kontaktu,“ dodává Kudritzki. Manažerům, kteří věnují čas provádění obezřetných rozhodnutí ohledně úrovně personálu, jejich školení, údržby zařízení a celkové problematiky provozu, se zřejmě povede předejít pohromám a dosáhnout maximálního provozního času. „Management by neměl používat provizorní přístup v oblasti lidských zdrojů, kde mohou okolnosti způsobit odstavení datového centra,“ varuje King ze společnosti Pund-IT. Efektivní řízení personálu vyžaduje dobře promyšlené strategie.

„Řešení problémů souvisejících s personálem vyžaduje systémové strategie a řešení, ale školicí programy jsou často omezené a orientované na konkrétní úlohy,“ vysvětluje King. „Je v tom trocha ironie – ačkoli většina personálu rozumí systémové podstatě technologií, se kterými pracují, jen málo z nich si uvědomuje, že samotná datová centra jsou vysoce složité propojené systémy,“ dodává King. „Školicí programy a trénink zdůrazňující holistický přístup ke správě datového centra mohou pomoci tento problém vyřešit.“

Recept na chyby
V červenci tohoto roku vydala společnost Uptime Institute novou sadu specifikací navržených ke zlepšení doby provozuschopnosti datových center, a to popsáním provozních problémů včetně lidského faktoru.

Dokument nese označení „Data Center Site Tier Standard: Operational Sustainability“ a obsahuje různé instrukce a témata – mj. jak zvyklosti týmu správy datového centra a rizika s nimi spojená mohou ovlivnit dlouhodobý provoz.

„Při nedostatečné správě mohou i nejpokročilejší datová centra zaznamenat výpadky provozu,“ varuje Julian Kudritzki, viceprezident společnosti Uptime Institute. Instrukce řeší čtyři aspekty, kterým by měl management věnovat pozornost, aby datové centrum dosáhlo nejvyšší možné doby provozuschopnosti. Obsahují péči o personál – nejde ale jen o dostatek lidí, ale o dostatečné množství kvalifikovaných osob umožňující dosažení provozních cílů datového centra. Například v pokročilých datových centrech (Tier 4) doporučuje Uptime Institute nepřetržitou (24 x 7) přítomnost minimálně dvou zaměstnanců, kteří se budou provozu datového centra naplno věnovat.

Management také musí udělat správná rozhodnutí ohledně všech aspektů údržby včetně preventivních činností, každodenního úklidu a úloh souvisejících se životním cyklem. Školení je také neodmyslitelné: Zaměstnanci, kteří jsou schopni reagovat na neplánované události, mohou zamezit výpadkům – standard doporučuje mimo jiné lokální školení pro danou práci, dále trénink mimo lokalitu u dodavatele a konečně formální certifikaci.

Pro celkové plánování, koordinaci a správu datového centra doporučení od Uptime Institute doporučuje, aby manažeři stanovili lokální zásady a také pravidla pro správu financí, dále využívali nástroje pro správu energie a chladicích systémů a také udržovali knihovnu místní infrastruktury, jako je například ITIL (IT Infrastructure Library).

Našli jste v článku chybu?

Sdílet

Autor článku

Cara Garretsonová

Témata:

Mohlo by vás zajímat

Anketa

Využíváte už některé z inovativních metod šifrování?

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Spěcháte na návratnost investic AI? Je možné, že to bude drahé

Vyšlo nové číslo CFOworldu 4/2024

Vivolink představí svoje ProAV a systémová řešení na veletrhu ISE 2025 v Barceloně

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

Co se v roce 2025 mění pro firmy, zaměstnance a daňové poplatníky?

Arrow Electronics je AWS Rising Star Distributor Partner roku v regionu EMEA

Jak zabránit zneužívání umělé inteligence – je AI Akt řešením?

Novela zákoníku práce pohledem firem? Rychlejší výpovědi a nedořešení dohodáři

AT Computers je IDG Distributorem roku společnosti Lenovo

Hloupé chyby v datových centrech

Sdílet

Autor článku

Cara Garretsonová

Témata:

Mohlo by vás zajímat

Předpověď kybernetických hrozeb pro rok 2025: Připravte se na větší a odvážnější útoky

Europol zatnul tipec hackerům, chystali hromadný útok během Vánoc

Co je nejoblíbenější způsob použití umělé inteligence v práci?

Kybernetická bezpečnost: Podcast o tajemstvích bezpečnostních operačních center s Pavlem Hrabcem

Anketa

Využíváte už některé z inovativních metod šifrování?

Kvíz týdne

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Z našich webů

Spěcháte na návratnost investic AI? Je možné, že to bude drahé

Vyšlo nové číslo CFOworldu 4/2024

Vivolink představí svoje ProAV a systémová řešení na veletrhu ISE 2025 v Barceloně

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

Co se v roce 2025 mění pro firmy, zaměstnance a daňové poplatníky?

Arrow Electronics je AWS Rising Star Distributor Partner roku v regionu EMEA

Jak zabránit zneužívání umělé inteligence – je AI Akt řešením?

Novela zákoníku práce pohledem firem? Rychlejší výpovědi a nedořešení dohodáři

AT Computers je IDG Distributorem roku společnosti Lenovo

Dále u nás najdete

Nestrkejte mrtvolu do auta, když kolem jede Google Street View

OpenAI zavádí do ChatGPT „Santa Mode“. Co říká na Ježíška?

Vánoce v minulosti: Oplzlé koledy, bujaré veselí a na večeři hrachová kaše.

Simona Kijonková: Dívala jsem se na investice za 1,4 miliardy

Neplaťte si IT kurzy sami, využijte dotace od EU

Gynekologie zavedla poplatky, pacientky si to nenechaly líbit

Online nákupy pohodlně. Známe trendy v e-commerce pro rok 2025

Hranolky, pizza, tatarák: příběhy pokrmů jsou často vymyšlené

Příjem z prodeje nemovitosti a uspokojení vlastní bytové potřeby

Při balení dárků nemusíte vůbec používat izolepu, dokonce ani papír

Nové HDMI 2.2 už je za rohem

Změna komunikace Petra Fialy se nepovedla, je v ní vidět křečovitost

Čtvrtinu dat posílaných z mobilu na internet tvoří obsah na sociální sítě

Let's Encrypt příští rok nabídne certifikáty jen na šest dnů

Hrozbou číslo jedna pro české počítače je spyware Formbook

640 kB paměti by mělo stačit každému: skutečně?

Operátoři testují nástroj proti podvrženým mobilním číslům

Jaká jsou úskalí recenzí spotřebitele z pohledu podnikatele?

Noční můry? Dětský spánek zlepší přírodní medicína a rituály

Pár triků, díky kterým dokážete letos o Vánocích nepřibrat