Kterak lidská chyba způsobí kolaps celého IT

IT služby mohou zcela zhavarovat i na základě jediné lidské chyby. A zatím to nevypadá, že by se podařilo zajistit, aby lidé chyby nedělali.

Kterak lidská chyba způsobí kolaps celého IT


Existuje pramálo důkazů, že by zlepšování procesů, bezpečnostní školení či pokroky technologií nějak omezovaly lidské chyby v IT provozu. Když nic jiného, tak roste riziko technologických katastrof navzdory veškerým snahám, které se v tomto odvětví udělají.

Narušení bezpečnosti a výpadky IT se dějí stále častěji a navíc se jejich dopad stále zhoršuje: Roste totiž počet lidí, u nichž je riziko, že budou každým novým incidentem ovlivnění, protože stoupá vzájemná provázanost uživatelů.

 

Příčiny problému

Jaký je společný bod selhání u téměř každého incidentu? Lidská chyba. Lidé jsou nějakým způsobem zodpovědní za většinu IT katastrof. To vedlo (samozřejmě kromě dalších technologií) ke zvýšenému zájmu o nástroje umělé inteligence (AI) v naději, že se tím posílí zabezpečení a spolehlivost.

Nové technologie a metody však přinášejí další, zatím neexistující rizika. Stephen Hawking nedávno jako fyzik a kosmolog poznamenal: „Vývoj plné umělé inteligence by mohl znamenat konec lidské rasy.“  A zničení lidstva, řízené umělou inteligencí, by samozřejmě bylo největší selhání IT vůbec.

Vzhledem k pokračujícím a zdánlivě nezastavitelným řetězům selhání zabezpečení informací to však může být riziko, které se vyplatí.

Důkazy jsou totiž neúprosné: Jen za posledních několik měsíců došlo například ke gigantickému narušení systémů řetězce Home Depot, kdy unikly informace o 56 milionech platebních karet, a z finanční instituce JPMorgan Chase bylo ukradeno 76 milionů jmen a adres. Firma Hold Security vloni odhadla, že gang ruských zločinců se jménem CyberVors ukradl více než 1,2 miliardy unikátních kombinací e-mailových adres a hesel ze 420 tisíc webů a serverů FTP.

A ještě jednou – ani nejsilnější bezpečnostní ochrany IT při ochraně dat nic nezmohou, když někdo udělá chybu: Ve své analýze „Security Services 2014 Cyber Security Intelligence Index“ analytici IBM zjistili, že lidská chyba je jednou z příčin v 95 % zkoumaných případů.

 

Ohrožení doby provozu

Výpadky IT sice nezpůsobují tak velký rozruch jako úniky dat, ale mohou být podobně ničivé. Datová centra mohou tvrdit, že nabízejí 99,999% dostupnost (tedy s prostojem za rok omezeným na pouhých 5 minut a 26 sekund), hlavní poskytovatelé cloudových služeb pak proklamují dostupnost nejméně 99,99 % (to znamená, že výpadek nesmí přesáhnout 52 minut a 56 sekund za rok), ale výpadky se stále objevují.

Celková rizika z těchto nefungujících služeb rostou proto, že se nyní mezi hrstku poskytovatelů cloudu koncentruje příliš mnoho kritických IT služeb. Malé lidské chyby mohou snadno způsobit velké problémy, které ovlivní velký počet uživatelů.

Například Amazon uváděl, že jeho nedávný výpadek způsobila změna konfigurace, která byla „vykonána nesprávně“. Microsoft zase podotkl, že nedávný problém s jeho platformou Azure způsobila aktualizace systému. A není výjimkou, že dochází i k výpadkům služeb Google Gmail, Facebook nebo Yahoo Mail.

Uptime Institute uvádí, že analýza dat o abnormálních incidentech za dobu 20 let ukazuje, že lidská chyba je na vině ve více než 70 % všech výpadků datových center. Tato selhání jsou nyní navíc dražší než v minulosti.

Když společnost Kroll Ontrack, poskytovatel služeb pro obnovu dat, udělala průzkum mezi svými zákazníky ohledně ztráty dat, uvedla třetina respondentů, že hlavní příčinou byly poruchy desktopů a serverů, zatímco pouze 14 % uvedlo, že by ztráty mohly způsobit lidské chyby. To druhé číslo však není tak malé, jak by se mohlo zdát.

Jeff Pederson, manažer obchodu pro obnovu dat ve společnosti Kroll, poznamenává, že 25 až 30 % obratu jeho firmy tvoří obnova dat ztracených v důsledku lidské chyby.

 

Trocha prevence

Standardní odpovědí, když se něco pokazí, je připomenout uživatelům, že obnova po havárii je sdílenou odpovědností. Existují však konkrétní kroky, které uživatelé, dodavatelé a poskytovatelé služeb IT mohou udělat, aby předcházeli výpadkům a narušením.

Jedním z kroků je používání osvědčených postupů. Například CenturyLink, globální poskytovatel datových center, nedávno obdržel od konsorcia Uptime Institute certifikát Management and Operations Stamp of Approval pro svých 57 datových center. Tento certifikační program uznává zařízení s přísnými procesy řízení provozu.

Drew Leonard, viceprezident CenturyLink, uvedl, že snaha udržet bezchybný provoz je zásadní, protože výpadek může poškodit pověst datového centra na celá léta.

Dodavatelé se také obracejí k novým bezpečnostním nástrojům, které se spoléhají na prediktivní analýzy a strojové učení, aby umožnily uživatelům „pokusit se zasáhnout před vznikem evidentních škod“, uvádí John McClurg, ředitel zabezpečení v Dellu.

Myšlenkou je využívat strojovou analýzu incidentů, a interpretaci přitom nechat na lidi, říká Kevin Conklin, viceprezident pro marketing a strategie ve společnosti Prelert, která se specializuje na systémy strojového učení. „Lidé jsou ale velmi nepředvídatelní,“ dodává Conklin.

 

Tento příspěvek vyšel v Computerworldu 4/2015. Časopis (starší čísla i předplatné těch nadcházejících) si můžete objednat na adrese našeho vydavatelství.

Úvodní foto: © AA+W - Fotolia.com


Komentáře