Udržte si servery v maximálním provozním stavu (2.)

11. 11. 2011

Sdílet

 Autor: © senticus - Fotolia.com
Ve světě IT plném těžko identifikovatelných cílů snad neexistuje záludnější a obtížněji postižitelný pojem, než je doba provozuschopnosti serverů.

Dokončení včerejšího článku...

Walter Beddoe, viceprezident IT a logistiky ve společnosti Six Telekurs, jež je poskytovatelem finančních dat, který používá software pro správu provozuschopnosti serverů od společnosti Uptime Software, prohlašuje, že je důležité hledat nástroj schopný spustit alarm, kdykoli stav zařízení překročí určitou nastavenou úroveň – jako může být například zaplnění paměti či nadměrné zatížení procesoru.

I když většina nástrojů má vestavěné funkce upozornění, Beddoe zdůrazňuje potřebu hledat produkt s možností nakonfigurovat si způsob varování – prahové úrovně, při jejichž dosažení odpovídající správní systémy odešlou administrátorovi e-mail nebo zprávu SMS.

„Potřebujete smysluplnou informaci, abyste mohli podniknout kroky potřebné k nápravě situace – něco, co bude fungovat ve vašem prostředí včetně upozornění na velké obrazovce pro provozní personál,“ vysvětluje.

Jerry Gregg, provozní manažer společnosti Carfax, která vytváří reporty týkající se flotil vozidel, tvrdí, že je důležité pochopit, že doby provozuschopnosti vypočítávané mnoha nástroji pro měření výkonu jsou ve své podstatě pouhé aproximace. „V nejlepším případě to je jen hrubé vodítko,“ poznamenává.

Gregg tvrdí, že některé základní nástroje tohoto typu mohou být dokonce zavádějící, protože nedokážou adekvátně rozlišit hodinový výpadek serveru během nedělního rána a desetiminutový výpadek, který nastane ve čtvrtek odpoledne v okamžiku, kdy běží řada kritických podnikových procesů. Z toho důvodu je podle něho dobré investovat do měřicích nástrojů, které poskytují funkce nepřetržité analýzy zohledňující události.

Pro zvýšení smysluplnosti analýzy provozuschopnosti spoléhá Gregg na nástroje, které ukazují vliv poruch serveru na klíčové firemní služby. Gregg používá software ProactiveNet Performance Management od společnosti BMC Software k přímé korelaci odstávek serverů s byznysovými transakcemi a s dalšími druhy firemních dat orientovaných na služby. „Umožňuje nám to kvantifikovat vliv výpadků nejen v čase, ale také ve financích,“ pochvaluje si.

Informace vytvářené aplikací mu pomáhají zjistit, zda hrozí, že by schéma poruch mohlo mít významný dopad na důležité firemní oblasti. Také IT manažerům pomáhá odůvodnit výdaje na nové servery, lepší vybavení sítě a další technologie a služby pro zvýšení spolehlivosti. „Bez těchto informací byste dělali rozhodnutí o nákladech a přínosech bez faktické znalosti výdajů,“ tvrdí Gregg.

Zamezte činnost hackerům
Při zajišťování dlouhé provozní doby serverů hraje významnou roli také zabezpečení. Není žádným překvapením, že zařízení ohrožené malwarem a nezabezpečenými síťovými cestami mohou selhat s pravděpodobností vyšší, než je tomu u jejich dobře chráněných protějšků. „Začněte s fyzickým zabezpečením budovy svého datového centra,“ radí Beddoe.

Dále je důležité, aby pravidla pro přístup k serveru byla známá a vynucovaná. „Je dobré mít zabezpečené skříně, antivirové programy, firewally a ukázněné správce,“ popisuje Beddoe. „Vše hraje při zabezpečení serveru a zlepšování provozuschopnosti stejně důležitou roli.“

John Luludis dohlíží na provoz serverů společnosti Superior Technology Solutions, která vyvíjí zákaznický software a poskytuje IT konzultace. Podle něho je při zajišťování maximální doby provozu serverů důležité nespokojit se jen se základními metodami zabezpečení.

Luludis pevně věří v přínos pravidelných nezávislých auditů. „Musím podrobovat naši síť pravidelným penetračním testům, protože i když jsem přesvědčen o dostatečné míře její ochrany, je také důležité mít k dispozici nezávislé vyhodnocení,“ vysvětluje.

Chraňte svoje data
I je když Howard ze společnosti Princeton Radiology rovněž přesvědčen o přínosu pravidelné údržby serverů, poznamenává, že určité množství poruch je navzdory nejvyššímu úsilí manažerů i personálu v podstatě nevyhnutelné. Pro ochranu před ztrátou dat způsobenou poruchou serveru doporučuje Howard vytvořit si plán zabezpečení dat, který je propojen s komplexní strategií firemní kontinuity.

Princeton používá pro replikaci všech svých ukládaných informací úložiště od společnosti Compellent Technologies, které je umístěno mimo lokalitu jeho mateřské firmy. „I když to je vlastně datové centrum pro obnovu po havárii, provozujeme odtamtud některé servery v takzvaném primárním modu, takže ve své podstatě využíváme replikaci oběma směry,“ popisuje Howard.

Gabiam naproti tomu při ochraně před nečekanou poruchou serveru spoléhá na technologii vyvažování zátěže, která je vestavěna v jejich síťové infrastruktuře. „Pokud se nějaký server zhroutí nebo nějaká aplikace přestane odpovídat, jsou takové přenosy přesměrovány na jiné podobné servery, které mohou požadovanou zátěž samy zvládnout,“ vysvětluje.

Gabiam je na rozdíl od Howarda z Princetonu fanouškem clusteringu a využívá produkt Novell Cluster Services k zajišťování další vrstvy redundance. „Pokud jeden z uzlů clusteru selže nebo je potřebné jeho odstavení z důvodu údržby, může clusterovaná aplikace nebo komponenta služby běžící na takovém uzlu bez problému běžet na jiném zařízení,“ vysvětluje Gabiam.

Tento migrační proces lze nakonfigurovat tak, že funkce převzetí služeb může pracovat jak v manuálním, tak i automatickém režimu. „Obvykle byste chtěli, aby aplikace při hardwarové či softwarové poruše automaticky přešla na jiný preferovaný uzel,“ popisuje Gabiam, „ale správci mohou iniciovat migraci na jiný server, pokud potřebují provést údržbu konkrétního zařízení.

Sledujte kvalitu hardwaru
Pořizování kvalitních serverů či blade systémů namísto levných produktů je zcela evidentní cesta ke zlepšování dlouhodobé spolehlivosti serverů. „U životnosti hardwaru je výrazný rozdíl, když přecházíte ze střední třídy na nejvyšší třídu,“ prohlašuje Jeffrey Driscoll, provozní ředitel společnosti E-N Computers, která je poskytovatelem IT služeb.

V reálném světě manažeři omezovaní rozpočtem často čelí bolestné volbě mezi plnění jejich serverových potřeb pomocí levných řešení, nebo zda koupit lepší a spolehlivější systémy, které splňují zavedená kritéria výkonu, avšak jsou cenově méně výhodné. Co s tím?
Driscoll radí nakupovat uvážlivě, hledat akční nabídky, kdekoli je to možné, nebo chytře komunikovat s vedoucími manažery ohledně získání rozpočtu odrážejícího reálné provozní potřeby.

Také není špatný nápad ukázat managementu příklady finančních škod, které by mohly být způsobeny nespolehlivými servery. „To je snadno prokazatelné pomocí jednoduchých čísel a odhadů,“ prohlašuje Driscoll.

Zdravý rozum nadevše
Jednoduchý selský rozum může být nejlepší cestou k zajištění maximální doby provozuschopnosti bez narušení rozpočtu. „Hardware je hardware. Jednou se každý porouchá,“ prohlašuje Gabiam. „Je důležité učit se ze všech událostí a být, pokud se daná záležitost zopakuje znovu, připraven s jasným plánem.“

Používání zdravého úsudku také znamená vědět, kdy je čas pro snížení ztrát vinou poruchového hardwaru a přejít na novější řešení nehledě na současnou fázi životního cyklu hardwaru. „Pokud IT personál vydává čtvrtinu svého úsilí na hašení požárů a podporu zastaralých systémů, kdo by to nepokládal za velké plýtvání časem a penězi?“ ptá se Beddoe.

Ačkoli maximalizace doby provozuschopnosti serverů stojí určitou práci navíc, většina manažerů cítí, že konečný výsledek převáží vynaloženou námahu. „Je těžké říci, že se plýtvá úsilím, když se to týká zvyšování doby, po kterou systémy spolehlivě fungují,“ uvádí Luludis. „Pomoci může cokoli, co uděláte.“

Beddoe cítí, že snaze o zajištění nejdelší doby provozuschopnosti výrazně pomůže vytvoření spolehlivějšího datového centra. „Aktivní prostředí“, které neustále povzbuzuje personál k identifikaci a potlačení potenciálních problémů, ještě než mohou způsobit nějakou škodu, je podle něj klíčem k maximalizaci doby provozuschopnosti.

„Za 17 let jsme neměli žádný významný výpadek, který by měl vliv na naše klienty,“ dodává Beddoe.