Clustery: Především vysoká dostupnost

Práce na počítačích zapojených do clusterů doznala v posledních letech značné obliby. Díky vzájemně propojeným...


Práce na počítačích zapojených do clusterů doznala v posledních letech značné
obliby. Díky vzájemně propojeným a cenově dostupným serverům typu PC lze dnes
řešit početní úlohy s rychlostí, před níž musí mnohé "velkopočítače" s úctou
smeknout. Dokonce i v oblasti vysoce výkonných vědeckých počítačů
(high-performance-computing HPC) serverové clustery obsazují ve stále
hojnějším počtu místa v žebříčku 500 nejvýkonnějších počítačů světa. Nejvyšší
pozici již léta drží superpočítač Asci-White společnosti IBM se svým
úctyhodným výpočetním výkonem 4,9 teraflopů. Toto zařízení je sestaveno z 512
uzlů, které jsou tvořeny výkonnými paralelními superpočítači řady RS/6000 SP a
vzájemně propojeny pomocí SP switchů. Vědci jako například Thomas Sterling,
který pracuje na univerzitě California Institute of Technology a ve výzkumné
laboratoři Jet Propulsion Laboratory organizace NASA, nevylučují, že clustery
se již v polovině tohoto desetiletí stanou dominantní architekturou světa
superpočítačů.

Podpora uzlů
V komerční sféře však clustery slouží především jinému účelu: Mají být
zárukou vysoké dostupnosti. Jestliže na některém z počítačů nastane porucha a
dojde k jeho výpadku, převezme jeho práci některý ze sousedů. Za předpokladu
správné konfigurace clusteru se uživatel ani nedozví, že jím používaná
aplikace momentálně běží na jiném serveru. V takovémto tzv. failover clusteru
nemusí hrát počet uzlů podporovaných clusterovým softwarem žádnou velkou roli.
Např. první clusterové řešení Wolfpack společnosti Microsoft dokáže propojit
pouze dva počítače. To je však dostatečný počet k tomu, aby byla zajištěna
náhrada v případě výpadku jednoho serveru. Také společnost IBM nabízí své
softwarové řešení pro zajištění vysoké dostupnosti s názvem HACMP (High
Availability Cluster Multiprocessing), které umožňuje propojení až 32 uzlů.
Firma Sun se dnes v rámci svého řešení Sun Cluster 3.0 spokojuje s osmi
propojenými počítači, jejichž počet má však do konce letošního roku vzrůst na
šestnáct. Sun svou architekturu prezentuje jako systém pro všeobecné použití
(general-purpose-system), který je vhodný pro zajištění jak vysoké
dostupnosti, tak i značné škálovatelnosti.

Jednoduchá správa
Jestliže je řeč o clusterech, pak se nelze vyhnout problematice správy
systému. "Nejdůležitější na technologii clusterů je správa systému (system
management), protože právě ta představuje úskalí, na kterém může práce v
clusterech ztroskotat," vysvětluje Klaus Gottschalk, který je u společnosti
IBM zodpovědný za prodej architektury systémů. Musí být zajištěna společná
správa počítačů, které jinak jeden na druhém nejsou vzájemně závislé.
Softwarová firma Veritas nabízí v současné době jako jediný nezávislý výrobce
prostřednictvím svého produktu Cluster Server clusterový software, který
navíc z jedné správcovské konzole umožňuje správu různorodých počítačů. "Ať
už se ve firmě pracuje na clusteru postaveném na platformě Windows NT, HP-UX
nebo Solaris, lze provádět správu všech tří typů z jediné konzole, přičemž
nezáleží na použitém operačním systému," popisuje celkový koncept Robert
Gorbahn z firmy Veritas. Půvab řešení Veritasu spočívá kromě jiného také v
tom, že jej lze nasadit v prostředí různých operačních systémů. K výše
zmíněným platformám přibudou v brzké době také Windows 2000, na kterých bude
možné nakonfigurovat cluster o 32 uzlech. Pracuje se rovněž na verzích pro
Linux a AIX. Software Cluster Server firmy Veritas je vystavěn podobným
modulárním způsobem jako produkt Sun Cluster 3.0. Standardní verze obsahuje
všechny funkce specifické pro operační systém, například IP adresy, souborový
systém NFS (Network File System), a také různé služby, které lze spouštět nebo
zastavovat. Kromě toho jsou pro nejrozšířenější aplikace zadarmo k dispozici
tzv. agenti, s jejichž přispěním výraznou měrou vzrůstá dostupnost aplikací.
Úkolem těchto agentů je zajistit, aby při výpadku některého z uzlových
počítačů byly na něm běžící aplikace čistě ukončeny a nově spuštěny na
některém z ostatních clusterových serverů.

Souborové systémy
S cílem vytvořit základy pro oba clusterové programy, HACMP (pro vysokou
dostupnost) a PSSP (Parallel System Support Programs pro značnou
škálovatelnost), sestavila "Velká modrá" projekt s názvem Phoenix. V rámci
tohoto projektu mají být funkce, které jsou využívány oběma typy clusterů,
vytvořeny na jediné, společné bázi. Jde například o programy pro detekci
chybových stavů, ošetřování událostí nebo pro rozpoznávání síťové topologie.
Podobně jako Sun pracuje rovněž IBM na clusterovém souborovém systému (Cluster
File System) a kromě souborových systémů NFS a Unix zpřístupní pro všechny
varianty clusterů vlastní tzv. General Parallel File System (GPFS), který je
dosud aplikován pouze v rámci dražších clusterů technologie SP. "V současné
době musí být pro GPFS nainstalována konfigurace SP, v brzké době však již
bude možné stavět na libovolné rychlé síťové technologii, jakou je například
Gigabitový Ethernet," předpovídá Gottschalk. Za tímto účelem vyvíjí IBM
řešení, s jehož pomocí bude možné využívat všechny velké servery provozované
pod AIX jako potenciální SP uzly. Vhodný řídicí software PSSP má ve své
odlehčené verzi (s kódovým označením Blue Hammer) spolupracovat také s
platformou Linux. Nevýhoda jeho nasazení spočívá v "demokratickém" způsobu
práce: Ke spuštění souborového systému GPFS dojde teprve poté, co se přihlásí
většina serverů instalovaných v rámci clusteru. Z hlediska výkonnosti
clusterového řešení je kromě podpory všeobjímajícího souborového systému
rozhodující také komunikace mezi počítačovými uzly. Snad jen firma Veritas
trvá na tom, že mezi všemi počítači v clusteru musí být nataženo po dvou
nezávislých ethernetových kabelech. Jen tak lze zajistit bezpečnost proti
výpadkům během vzájemné výměny stavových hlášení. Společnost Sun zajišťuje
komunikaci pomocí technologie s názvem Cluster Interconnect. Jde o až šest
paralelních spojení, která se starají o přenos dat mezi počítači nebo přes
která funkce Heartbeat řídí provoz jednotlivých komponent. Protokol TCP/IP
podporuje Ethernet a Gigabitový Ethernet. Technologie Cluster Interconnect a
souborový systém Global File-System jsou rovněž nezbytným předpokladem k tomu,
aby data, která jsou z hlediska subsystému fyzicky uložena na některém ze
serverů, byla k dispozici také ostatním uzlům clusteru. Jestliže dojde k
výpadku některého z uzlů, zůstávají na něm uložená data pro ostatní uzly
čitelná. Alespoň v případě, že jsou uložena na záznamovém zařízení firmy Sun.

Clusterové databáze
Poté, co společnost Oracle představila svůj produkt s názvem Parallel Server,
ve světě komerčního zpracování dat opětovně vzplály diskuse o clusterových
databázích. Takovéto spojení do clusterů podporuje většina clusterových
aplikací (s výjimkou produktů firmy Microsoft). V rámci databáze jsou na
několika serverech spuštěny stejné, vzájemně nezávislé instance. Díky tomu je
i navzdory výpadku některého z uzlů možné pokračovat v práci. Nevýhodou je, že
všechny instance pracují se společně využívanými pevnými disky, a je proto
nezbytné postarat se o integritu dat. Takzvaný Log-Manager sice dokáže
zabránit přístupu k datům ze dvou uzlů současně, degraduje tím však výhodu
plynoucí z paralelizace. Kromě toho, jakmile je v rámci systému instalován,
představuje další možnou příčinu potíží, tzv. point of failure. Odborníci
proto doporučují počkat na další verzi Oracle Parallel Serveru.
1 1838 / wep

Studie o unixových clusterech
Americká společnost D. H. Brown Associates zabývající se průzkumy trhu
každoročně podrobuje aktuální unixová clusterová řešení důkladnému zkoumání
zaměřenému především na vysokou dostupnost. Analytici testovali kromě jiných
produkty od firem Compaq (clusterový software Tru-Cluster Server pro operační
systém Tru64 Unix), IBM (clusterový program HACMP pro AIX), Hewlett--Packard
(HP-UX ve spojení s produktem MC/Service Guard) a Sun (operační systém Solaris
a starší verze Sun Cluster). Jednotlivé testy byly rozděleny do šesti
kategorií, kterým byly přiřazeny různé váhy. Testující definovali
následujících šest kategorií: Funkce pro zálohování a obnovu dat (backup a
recovery), možnosti konfigurace pro případ výpadku, paralelní přístup k
databázi, správa, dojem jednolitosti systému (single-system image) a obnova po
katastrofické události (disaster recovery).
V celkovém hodnocení loňských výsledků (studie za letošní rok zatím není k
dispozici) se od sebe jednotlivé produkty sice liší jen minimálně, při
podrobnějším zkoumání jednotlivých kategorií lze však stanovit jasné pořadí.
Například Compaq zaujal první místo v kategoriích paralelního přístupu k
databázi a dojmu jednolitosti systému, pokud však jde o možnosti obnovy po
katastrofické události, zde se propadl na poslední místo. Společnost IBM se
dvakrát umístila na prvních místech (obnova po katastrofické události,
možnosti konfigurace pro případ výpadku) a jednou naopak pole uzavřela
(zálohování a obnova dat). Hewlett-Packard vyšel z testování s rovnoměrně
rozdělenými silnými a slabými stránkami: V různých disciplínách vybojoval HP
po jednom prvním, druhém, třetím a čtvrtém místě a dvakrát skončil pátý, nikdy
se však nepropadl až na samé dno. To se naopak přihodilo firmě Sun, a to
dokonce dvakrát (správa, dojem jednolitosti systému). Na nejvyšší příčku Sun
bohužel ani jednou nedosáhl.

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.