Systémy odolné proti poruchám

Když skutečně musíte mít své počítače celou dobu v provozu, to, co potřebujete, není vysoká dostupnost, ale systé...


Když skutečně musíte mít své počítače celou dobu v provozu, to, co potřebujete,
není vysoká dostupnost, ale systémy odolné proti poruchám.
Ve Spojených státech amerických kdysi dávno společnost Federal Express
používala tento slogan: "Kdy to tam opravdu, ale opravdu nutně musí být přes
noc?" ("When it absolutely, positively has to be there overnight?") To je
trochu jako požadavek na dnešní počítačové systémy, s tou výjimkou, že to, co
je požadováno, není dodávka přes noc, ale nonstop fungování. Tedy bez ohledu na
problémy s individuálními hardwarovými nebo softwarovými komponentami, na
výpadky napájení nebo na jiné druhy pohrom. Termínem pro koncepci splňující
daný požadavek je odolnost proti poruchám (fault tolerance), která je
zabudována do softwaru, přichází jako část hardwaru nebo je poskytována
kombinací jich obou. Společnosti zejména ve finančních službách a v leteckém
průmyslu používají konfigurace odolné proti poruchám na ochranu některých svých
životně důležitých a klíčových aplikací již po několik let. Ale elektronický
obchod a globalizace se stávají stále rostoucí měrou tím faktorem, který
vyžaduje kontinuální dostupnost služeb v distribuovaných prostředích.
Hráči v oblasti odolnosti Na globálním trhu je několik řešení slibujících
odolnost proti poruchám. Dodavateli jsou mj. Stratus Computer Systems, Compaq
Computer, IBM nebo Marathon Technologies. Je důležité rozlišovat mezi odolností
proti poruchám a vysokou dostupností v těchto termínech mají mnozí zmatek.
Jak konfigurace odolné proti poruchám, tak konfigurace s vysokou dostupností,
jsou navrhovány kvůli maximalizování dostupnosti aplikace a systému. Obě
používají některá záložní řešení např. zrcadlené servery a disky jako základní
přístup pro obnovu po výpadku. Ale zatímco cílem konfigurací pro vysokou
dostupnost je pomoci firmám obnovit systém rychle po havárii, v případě
požadavků na odolnost proti poruchám nebo v případě nezbytné nepřetržité
dostupnosti rychlé obnovení nestačí. Zde je třeba kompletně eliminovat dobu
obnovy. Důraz je kladen na převzetí aplikace (záložním systémem) a ne jenom
přepojením (fail-over) na nový server. "Mezi těmito dvěma zdánlivě stejnými
řešeními existuje kvalitativní a kvantitativní rozdíl," říká Jean S. Bozman,
analytik u IDC z Framinghamu. "U odolnosti proti poruchám hovoříte o době
nečinnosti (downtime) pět minut nebo méně za rok. U vysoké dostupnosti máte
dobu přepojení (fail-over time), která se může měnit v závislosti na
konfiguraci," dodává Bozman. "Odolnost proti poruchám je o skutečné redundanci
na fyzické úrovni, kde jakákoliv komponenta může selhat a nikdo o tom neví
dokonce ani sekundu," říká Gary Collins, manažer počítačových operací u K-B
Toys v Pittsfieldu.
Redundance
Výsledkem je, že všechny systémy s konfigurací odolnou proti poruchám vyžadují
vysoký stupeň vestavěné hardwarové redundance, provozuschopnosti a možností
vzdáleného managementu. Všechny hlavní hardwarové prvky jako jsou CPU, paměti a
disky jsou duplikovány. Všechny redundantní komponenty provádějí všechny
procesy.
Replikované komponenty provádějí stejné instrukce ve stejném čase, takže
dokonce i kdyby jedna zhavarovala, aplikace by vydržela běžet beze změny.
Výsledkem je, že administrátoři mohou přidat kapacitu, spustit rutinní údržbu
nebo odstranit vadné komponenty, aniž by odstavili celý systém. "Hovoříme o
dvou systémech zpracovávajících stejné zatížení ve stejném čase. V případě, že
jeden vypadne, neztratíte vůbec nic," říká Bozman. Servery NonStop Himalaya
Compaqu jsou jedním příkladem. Systémy jsou sestaveny z clusteru procesorů
každý se svou vlastní pamětí a kopií operačního systému pracujících v tandemu,
ale kompletně navzájem na sobě nezávisle. Servery používají koncepci nazývanou
párování procesů (process pair), která se skládá z primárního procesu a
záložního (backup) procesu, které běží na oddělených procesorech. Záložní
proces zrcadlí všechny informace primárního procesu a je schopen je okamžitě
převzít v případě, že primární procesor selže. Zesílené operační systémy,
diagnostické nástroje na základní desce a sofistikovaný software pro řízení
zatížení (workload-management) pak redundanci doplňují. Kromě jiných věcí je
takový software pro odolnost proti poruchám navrhován tak, aby zabránil ztrátám
dat během poruch a aby řídil takové úlohy, jako je vynucené přepojení z
havarovaného systému. Přínosem je detekování hardwarových problémů, které by
mohly přivodit shození systému a rychlá redistribuce zatížení na ostatní
systémy.
Např. software pro odolnost proti poruchám od Stratusu monitoruje využití CPU,
paměti a diskových zdrojů a neustále to srovnává s uživatelsky definovanými
mezními hodnotami. Systémy jsou schopné v případě hrozícího výpadku varovat
přímo administrátory nebo dodavatele. Nasazení
"Uvedené schopnosti jsou kritické např. pro společnost e-Smart Direct
Services," říká Mischa Weisz, prezident a CEO dodavatelské společnosti
Etobicoke. Jako poskytovatel procesů elektronických plateb a autorizačních
služeb pro obchodníky a finanční instituce, potřebují platformu, jejíž
spolehlivost lze charakterizovat prostým zlomkem 24/7 (tedy funkční 24 hodin
denně po 7 dní v týdnu). Nyní je výpočetní prostředí této firmy založeno na
technologiích od Stratusu a vykazuje podle Weisze téměř 100% dostupnost
systému. "Pro mě odolnost proti poruchám znamená, že když se něco stane na
jednom místě, hardware a podpůrný software jsou schopny transportovat
zpracování aplikací bez prodlevy na jiné místo, čímž se zajistí nepřetržitost
služeb," říká Weisz. Ne každá společnost samozřejmě potřebuje náročná řešení
tohoto typu. Je však třeba vždy mít k dispozici všechny potřebné podklady pro
zvážení, jaká úroveň dostupnosti systému je třeba.
1 0038 / pen

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.