Udržte si servery v maximálním provozním stavu (1.)

10. 11. 2011

Sdílet

 Autor: © ekzman - Fotolia.com
Ve světě IT plném těžko identifikovatelných cílů snad neexistuje záludnější a obtížněji postižitelný pojem, než je doba provozuschopnosti serverů.

Jejich udržování v životaschopném probuzeném stavu nebo alespoň v připravenosti k okamžitému spuštění v případě potřeby je ambicí blízkou snad všem šéfům datových center.

Jen málo správců může upřímně prohlásit, že dělají absolutně všechno pro to, aby zajistili nejvyšší provozuschopnost svých systémů. Experti prohlašují, že naopak mnoho administrátorů zbytečně plýtvá časem a finančními prostředky na technologie a postupy, které mají malý nebo dokonce žádný kladný vliv na spolehlivost chodu. „Dosažení vynikajících hodnot provozuschopnosti serverů je umění spojující vědu a řízení,“ prohlašuje Walter Beddoe, viceprezident IT a logistiky ve společnosti Six Telekurs, která je poskytovatelem finančních dat.

„Jedná se o kombinaci mnoha různých aspektů včetně nasazení kompetentního personálu, použití hardwaru odolného proti poruchám, aplikace metod dynamického zabezpečení a pokročilých způsobů údržby a řízení změn,“ vysvětluje Beddoe. „Nejvíce ze všeho však musíte být odhodláni vydat ze sebe to nejlepší.“ Alan Howard, ředitel IT ve společnosti Princeton Radiology, která zajišťuje diagnostické zdravotnické snímky, naléhá na manažery, aby neplýtvali časem a prostředky na aktivity a nástroje, které nepřispívají přímo ke zlepšování doby provozuschopnosti.

„Například úsilí vkládané do clusteringu může být velmi nehospodárné,“ tvrdí Howard a poznamenává, že redundanci lze lépe zajistit pomocí nástroje poskytujícího plnou automatizaci.

„Neautomatizovaný clustering, kde je synchronizace prováděna ručně, může naopak způsobit více problémů, než jich vyřeší,“ dodává Howard. „Selhání primárního uzlu může způsobit chaos. Bylo by pro nás bývalo lepší řešit selhání primárního uzlu než důsledky přechodu na záložní uzel.“

Jeho pracoviště mělo cluster Windows Serveru, který způsobil zhroucení aplikace ihned po překonání poruchy prostřednictvím převzetí služeb, protože v případě záložního serveru nebyl použit konfigurační soubor příslušného softwaru. „Při nápravě situace bylo nutno vynaložit mnohem větší úsilí, než by bylo potřebné při opravě selhaného clusterového uzlu,“ tvrdí Howard.

Společnost Princeton Radiology již nepoužívá servery v tradičním clusterovém zapojení. Namísto toho mají „cluster“ samostatných serverů, které jsou všechny namapovány k dvouřadičovému úložišti Compellent Storage Center SAN. „Mezi těmito servery je možné snadno na vyžádání provádět migraci virtuálních strojů.“

Zajištění organizovanosti
Většina manažerů souhlasí, že důsledné plánování veškeré práce související se servery – od nákupu po řízení výměny – je klíčovým faktorem pro zaručení spolehlivosti systému.

Raoul Gabiam, technický manažer provozu IT na George Washington University, uvádí, že na jeho pracovišti je správa životního cyklu integrální součástí plánování provozuschopnosti serverů. „Vědět, kdy a jak vyměnit hardware a upgradovat software, je velmi důležité, protože to ovlivňuje výkon a udržitelnost i celkovou dobu provozu,“ vysvětluje.

„Pokud například máte provést upgrade softwaru, hraje pochopení hardwarových požadavků a stav toho současného zásadní roli. Můžete chtít koupit hardware jako součást upgradu softwaru, abyste zajistili, že budou splněny požadavky programového vybavení a abyste se vyhnuli dalším výpadkům. Nebo tak budete chtít minimalizovat počet změn,“ vysvětluje Gabiam.

Gabiam také pevně věří ve standardizaci a koordinaci jako ve způsob zajištění spolehlivého serverového provozu. „Než někdo začne provádět jakékoli instalace nebo změny, musí k tomu existovat proces řízení změn,“ vysvětluje.

Řízení změn (change management process) znamená znát „veškeré konfigurace i infrastrukturu a vyhodnotit změny ještě před jejich fyzickou implementací“, popisuje Gabiam. „Díky tomu budete vždy vědět, jak se budou příslušné technologie chovat a jak na sebe budou vzájemně působit.“ Obor řízení změn umožňuje předvídat způsob reakce serverů při různých konfiguracích nebo při umístění do nového prostředí.

Paul Franko, technologický ředitel společnosti Online Resources, která poskytuje transakční služby finančním institucím, tvrdí, že velkou roli hraje také přístup. Uvádí, že vyvíjí nadstandardní úsilí, aby zajistil zodpovědné a okamžité provádění rutinních kritických úloh souvisejících se servery.

„Máme implementován systém kontrol a bilancí, aby bylo zajištěno dodržování našich zásad,“ vysvětluje. Podle Franka může rutinní manažerská kontrola administrativní práce personálu společně s dvojnásobnou kontrolou pomocí dalších způsobů minimalizovat vliv lidských chyb. „Lidé dělají chyby, a pokud nemáte více kontrolních bodů, může vám snadno něco zásadního uniknout,“ vysvětluje.

Provádějte preventivní údržbu
Rutinní preventivní údržba je snad nejsnadnějším a nejméně bolestným způsobem zvýšení spolehlivosti serverů. „Doba provozuschopnosti je jen tak dlouhá, jak to dovolí nejslabší část celého řetězce,“ prohlašuje Beddoe.

Zajišťování různých základních úloh – aktualizace systémového softwaru, poskytování stabilního napájení a zajištění adekvátního chlazení – může velmi výrazně podpořit vytváření datových center se servery, které jsou v dobrém stavu, a to bez toho, že by došlo k překročení rozpočtu či vyrušování personálu od jiných důležitých činností.

„Chcete-li zajistit, aby byla veškerá důležitá práce prováděna ve vhodnou dobu, měly by být definovány a naplánovány úlohy týkající se údržby serverů,“ radí Franko. „Některé úkoly se musejí udělat rovnou – například aktualizace zabezpečení – a jiné má smysl sdružit do takzvaných dávek a ty provádět v pravidelných intervalech.“ Tato druhá kategorie například zahrnuje aktualizace softwaru v případě nekritických vylepšení funkcí.

Franko dodává, že práce na údržbě by měla být prováděna způsobem, který nesnižuje dobu provozuschopnosti serverů. „Při provádění určitých úkonů údržby systémy neodstavujeme nebo se o to alespoň snažíme,“ prohlašuje Franko.

V případě, kdy je důležité server vypojit z důvodu údržby, naplánuje Frankův tým práci na noc nebo na víkend, kdy je vytížení nízké. Jediným legitimním důvodem pro odstavení funkčního serveru během obvyklých pracovních hodin může být instalace kritické aktualizace softwaru, jako je například instalace bezpečnostní záplaty nultého dne.

Automatizujte základní úlohy
Není tajemstvím, že správa serveru se za posledních pár let stala mnohem složitější, a to zejména kvůli příchodu technologií, jako jsou virtualizace a další související systémy a postupy navržené ke zvýšení efektivity a využití serverů.

Samotná virtualizace pomáhá chránit datová centra před odstavováním v nich umístěných zařízení. Konsolidací serverů a jejich připojením do sdíleného prostředí umožňuje virtualizace provoz více virtuálních strojů na různých hostitelích. Selhání kteréhokoli z těchto hostitelských systémů způsobí redistribuci pracovní zátěže mezi zbývající zařízení. „Může dojít k poruše serveru, ale na služby to vlastně nemá žádný vliv,“ poznamenává Gabiam.

Pro realizaci takto koncipované správy, v níž hraje stále zásadnější roli virtualizované prostředí, nabízejí dodavatelé jako Xenos Software, Uptime Software, Nimsoft nebo Nagios Enterprises nástroje navržené pro pomoc personálu datových center při sledování výkonu serverů, při odhalování nově vznikajících problémů a při hledání příležitosti pro zvýšení výkonu.

Beddoe je přesvědčen, že takové nástroje jsou zcela nezbytné. „Potřebujete nějaké ujištění, že všechny vaše servery neustále pracují podle očekávání,“ vysvětluje.

Dokončení článku přineseme zítra...