Gridy pro inteligentní ukládání dat

Úložné gridy (storage grids) je možné popsat jako modulární systém paměťových buněk. Tvoří je inteligentní jedn...


Úložné gridy (storage grids) je možné popsat jako modulární systém paměťových
buněk. Tvoří je inteligentní jednotky, které v kterémkoliv okamžiku přebírají
nové úlohy a mohou pracovat dohromady "v týmu". Dovolují podniku rychle
reagovat na obchodní požadavky, aniž by bylo nutné neustále investovat do
nového hardwaru.
Mozkové buňky jsou autonomní jednotky, které se aktivují podle potřeby a
spontánně spolupracují na řešení určité úlohy. Správa počítačových sítí je
proti nim přímo archaickou záležitostí tam obvykle dochází k jednoznačnému
přidělení uživatelů, aplikací a serverů. Nelze očekávat, že webový server
nabídne spontánně svůj úložný prostor jiné aplikaci, jejíž počítač právě bojuje
s nedostatkem kapacity. Zálohování dat je řešeno tak, že probíhá jen na
systémech, které jsou přímo připojeny na odpovídajícím řadiči a jsou řízeny
určitým programem. Pevné disky a diskové svazky mimo oblast přímého přístupu
zůstávají nedosažitelné.

Inteligentní kooperace
Je jasné, že taková omezená spolupráce poskytuje malý užitek, existující metody
však překonávání historicky vzniklých překážek nijak nezlehčují. Nyní se začíná
rýsovat východisko v podobě storage gridů, neboť ty řeší přinejmenším tři
problémy správy systémů pro ukládání dat: Interoperabilita funguje i za
hranicemi jednotlivých systémů, škálovatelnost je vždy dána rostoucími
paměťovými kapacitami a storage prostor je přidělován flexibilně.
Úložné gridy jsou součástí nového počítačového paradigmatu. Grid computing jako
takový je dalším vývojovým krokem současné síťové architektury. Namísto
poskytnutí možnosti pouhé výměny dat podporuje grid inteligentní spolupráci
propojených systémů. Uživatel již nemusí provozovat danou aplikaci na určeném
serveru. Spíše se dožaduje poskytnutí nějaké služby a grid samostatně
rozhoduje, jakým způsobem mu bude poskytnuta. Uživatel nemusí vědět, na kterém
CPU jsou zpracována data a na který pevný disk se ukládají výsledky. Má k
dispozici souhrn zdrojů ze všech systémů.
Srdce každého gridu tvoří Scheduler nebo Distributed Resource Manager (DRM).
Ten zná použitelné zdroje a přiděluje je požadovaným úlohám. Tento přístup se
radikálně liší od dnes obvyklých způsobů práce počítačových sítí a vyžaduje
vysoce flexibilní hardware. Storage grid se kupříkladu neskládá jen z pevných
disků a řadičů, nýbrž i z inteligentních modulů, které jsou schopny samostatně
realizovat různé úlohy. Storage Utility vždy propojuje hardware s integrovaným
softwarem, jenž zajišťuje komplexní funkce datového managementu. Už dnes je
grid computing a koncept úložného gridu víc než pouhou vizí. Podle IDC dosáhnou
letos investice podniků a výzkumných institucí do gridových řešení až miliardy
dolarů.

Využití zdrojů
Virtualizace znamená, že využívání výpočetní a ukládací kapacity je odděleno od
vrstvy skutečného hardwaru. Aplikace tu žádá o určitý "paměťový kontingent",
jehož poskytnutí se řídí obchodními požadavky či prioritami. Čím důležitější
daný proces je, tím spíš obdrží dodatečné zdroje, které momentálně nevyužívají
jiné programy. Nehraje žádnou roli, na kterém storage systému se data
nacházejí, proto si nemusí každý server držet rezervu pro "své" aplikace. Celá
síť zajišťuje, že programy běží s požadovaným výkonem. V ideálním případě se
tak nevyskytují žádné oddělené, nevyužité rezervoáry výpočetní nebo paměťové
kapacity. Disponibilní hardware je lépe vytížen podle studie IDC totiž využívá
typický intelovský server obvykle jen 15 procent své výpočetní kapacity pro
produktivní práci.

Inteligentní buňky
Virtualizační software řídí fyzické přiřazování logických procesů. Virtualizace
se přitom odehrává na různých úrovních sítí pro ukládání dat: v kontroléru
storage systému, na serverech nebo SAN zařízeních. Virtualizace je tudíž
rozhodujícím krokem na cestě do samoorganizujícího se grid computingu. Zde už
nepracují "hloupé" systémy, které musejí být kontrolovány a řízeny jinými. V
úložných gridech pracují takzvané chytré buňky (smart cells). To jsou autonomní
paměťové moduly s vlastním procesorem a pracovní pamětí. V důsledku toho se
mohou paměťové jednotky koordinovat s ostatními. Prostřednictvím protokolu
gridu (definovaného organizací Global Grid Forum) se jednotky ohlašují
Scheduleru a oznamují, které funkce zvládnou. Scheduler rozhoduje, které úlohy
mají jednotky převzít.
Toto přiřazení není ovšem stanoveno natrvalo, nýbrž se může měnit podle
situace. Když je kupříkladu použit pevný disk pro archivaci v rámci správy
dokumentů, ale ERP systém potřebuje vytvořit mnoho dočasných souborů pro
měsíční uzávěrky, uvolní mu grid úložnou kapacitu archivačního systému. Protože
se jedná o inteligentní buňky, mohou být na modulu instalovány nové softwarové
komponenty, aby bylo možné provádět úlohy bez prodlení. Hledá-li se například v
archivu určitý e-mail, nejsou data přenesena na jeden server, který je krok za
krokem zpracovává. Naopak jsou paralelně prohledány všechny chytré buňky s
archivovanými daty, což probíhá podstatně rychleji.
Poněvadž jsou přes síť volány všechny úložné moduly, není pro aplikaci
podstatné, na které jednotky data uloží. Díky gridu to funguje dokonce i
globálně: při výpadku v místním výpočetním centru mohou poskytnout pomoc jiná,
třebaže jsou vzdálená i tisíce kilometrů. Poněvadž storage grid pracuje
nezávisle na počtu používaných buněk, dají se do něj začlenit také externí
kapacity. Přestane-li úložný prostor stačit, může podnik přidat nové buňky
buďto je dokoupit nebo pronajmout u poskytovatele služeb. Poněvadž prostorové
rozmístění nehraje žádnou roli, provádí se přidělování tak dynamicky, jako
třeba při odběru elektrického proudu.

Storage grid v praxi
Storage gridy působí dojmem science--fiction, v základních rysech jsou však již
realitou. Všichni význační dodavatelé spolupracují v rámci organizace Global
Grid Forum na vývoji protokolů a softwarových komponent nezbytných pro zavedení
konceptu gridu v podniku. Úspěch internetu a webu je založen na tom, že
základní techniky jsou k dispozici pro všechny účastníky trhu. Tohoto přístupu
se výrobci drží i v oblasti grid computingu.
Jako u všech mladých technologií také zde je ještě živá diskuze, kdy se už může
mluvit o opravdových storage gridech. Jeden z dodavatelů například nabízí
produktovou řadu s tímto označením a na první pohled také splňuje
nejdůležitější požadavky na takové řešení. Ve skutečnosti jde o úložný cluster,
s nímž komunikace probíhá na abstraktní rovině. Tím je oddělen přístup k datům
od hardwaru a lze přiřazovat zdroje v reálném čase.
Podíváme-li se však do zákulisí, většina výrobců vkládá inteligenci do
kontroléru a řídicího softwaru. Podobné koncepty nabízejí i jiní dodavatelé v
oblasti SAN systémů. Jednotlivé storage jednotky však nejsou inteligentní a
samostatně se organizující. Také není možné paralelizovat úlohy, zatímco
například virová ochrana nebo fulltextové hledání jsou provozovány v úložných
modulech samých.
Hlubší implementaci principu gridu představil například Hewlett-Packard jako
Storageworks Reference Information Storage System (RISS). Toto řešení se
zakládá na chytrých buňkách propojených v síti. Uživatel může systém kdykoliv
rozšířit, aniž by měnil základní konfiguraci. Protože jsou moduly inteligentní,
proběhne mnoho procesů ihned. Kupříkladu je instalován software pro
fulltextovou indexaci je-li hledán nějaký dokument, probírají data všechny
chytré buňky současně. Tak se dají aktivně archivovat a opět hledat informace z
různých e-mailových programů jako Notes a Exchange, dokumenty z balíku Office
nebo v jiných běžných datových formátech.

Pružné reakce
Mezi první velké uživatele úložných gridů patří jedna z newyorských bank.
Instalovala Reference Information Storage System od HP s 10TB kapacitou, aby
bylo možné spolehlivě archivovat všechny e-maily po dobu nezbytných 10 let.
Burzovní dozor SEC vyžaduje, že po toto období musejí být obchodní případy a k
tomu patří i informace z Lotus Notes v úplnosti zdokumentovány. Vyhledat určitý
e-mail z dosud archivovaných 5 TB běžně trvalo deset až dvanáct hodin a
vyžadovalo to trvalý dohled jednoho pracovníka. Prostřednictvím paralelního
hledání v inteligentních buňkách mají být příště tyto procesy otázkou několika
málo minut.
Kdo investuje do inteligentních, autonomních jednotek z adaptivního světa
gridů, může je používat pro mnohé účely a využít zdroje tak, že přinesou co
možná největší užitek. Kdo chce reagovat, musí však být pružný. Tento způsob
ochrany investic se v našem mozku osvědčil. Proč by tedy neměl slavit úspěch
také v našich sítích?

Cluster a SAN předchůdci gridu
Mnoho firem již má zkušenosti s předchůdcem gridu, s clusterem. Ten dostojí
několika atributům gridu, jako je vysokorychlostní propojení v síti namísto
spojení interními sběrnicemi nebo redundantní struktura skládající se z
rovnoprávných jednotek. I když ještě nejsou zavedeny do praxe důležité
softwarové komponenty, zveřejněné organizací Global Grid Forum v rámci volně
použitelného Globus Toolkitu, již v clusterech se ukazuje, jaké výhody se dají
očekávat od gridu: dostupnost, škálovatelnost a výkon je možné dynamicky
přizpůsobovat.
DAS
V souvislosti se správou systémů pro ukládání dat je klíčová možnost rozloučit
se s koncepty jako Direct Attached Storage (DAS), z důvodu nepružnosti už
zastaralými. V nejjednodušším případě se jednalo o pevné disky vestavěné v
serverech nebo o externí diskové pole spravované RAID kontrolérem (Redundant
Array of Independent Disks). Ve druhém případě se již pevné disky vzájemně
podporují při ochraně dat a vytvářejí úložný pool, který však stále představuje
izolovaný svět. Řadič pole je řízen serverovým operačním systémem, který také
zajišťuje správu dat. To funguje bezproblémově například v prostředí nepříliš
rozsáhlých sítí atd. Avšak jestliže narůstá spravovaná úložná kapacita,
přidávají-li se další servery nebo musí-li procházet potenciálním úzkým hrdlem
příliš mnoho dat, dostavují se problémy se správou storage zdrojů. U řešení
typu DAS jsou výkon a škálovatelnost silně omezeny svým designem.
NAS
Ve srovnání s tím nabízí větší flexibilitu Network Attached Storage (NAS).
Klienti zde přistupují přes síť do úložného poolu bez toho, že by přístup k
němu kontroloval jediný server. Řešení NAS nenabízí jen vyšší výkon, ale
dovoluje také přístup přes různé protokoly. Zdroje mohou být přidělovány
čekajícím úlohám relativně pružně, třebaže mnohé NAS systémy jsou proprietární.
Uživatel tudíž nemá zcela svobodnou volbu v souvislosti s tím, který hardware a
software je podporován. To může vést například k tomu, že musejí být použita
různá řešení zálohování pro rozličné systémy, což omezuje interoperabilitu a
tlačí náklady vzhůru.
SAN
Maximum pružnosti a výkonu momentálně nabízejí Storage Area Networks (SANs). To
jsou separátní sítě pro ukládání dat (zpravidla na bázi protokolu Fibre
Channel), pracující paralelně k LAN a kvůli rychlému přenosu dat rezervované
pro storage systémy. I velké úložné oblasti s rozsahem mnoha terabajtů se
chovají jako uzavřené jednotky. Ukládání dat rozložené na vícero pevných disků
funguje bez znatelné ztráty výkonu, takže sítě SAN jsou vysoce škálovatelné.
Mohou se navíc skládat z různých úložných systémů rozdílných výrobců.

Storage grid pro dynamické ukládání
Úložné gridy (storage gridy) jsou součástí konceptu označovaného jako grid
computing. Sestávají z inteligentních jednotek, které jsou navzájem propojeny
skrze vysokorychlostní síť. Úložné jednotky nejsou pevně přiřazeny určité
úloze, serveru nebo aplikaci, nýbrž je lze používat dynamicky.
Díky síťovému propojení už nehraje roli prostorové rozmístění zdrojů. Podnik
může využívat své systémy v různých lokalitách nebo si podle potřeby krátkodobě
pronajímat kapacitu od poskytovatelů služeb. Úložné gridy navíc nabízejí vysoký
výkon a jsou vysoce škálovatelné. Kapacita může dynamicky růst bez obav ze
vzniku úzkého hrdla.
Chytré buňky, inteligentní, autonomní paměťové jednotky, mohou bez prodlení
zvládnout takové úlohy jako fulltextové vyhledávání, antivirovou ochranu nebo
dotazování v databázi, takže úlohy běží paralelně. Nové funkce lze instalovat
podle potřeby. Scheduler poskytuje funkce úložného gridu jako služby. Jedna
aplikace si objednává jen určitou funkci, aniž by musela přesně vědět, na
kterém CPU se data zpracovávají nebo na kterém paměťovém médiu jsou uložena.
Zdroje se přidělují dynamicky podle výskytu požadavků a jejich priorit.









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.