Storage systémy, které umějí více

Systém NearStore firmy Network Appliance v minulém roce odstartoval éru nákladově výhodných polí využívajících ATA...


Systém NearStore firmy Network Appliance v minulém roce odstartoval éru
nákladově výhodných polí využívajících ATA disky pro tzv. disk-to-disk
zálohování nebo near-line systémy pro ukládání dat. Tato řešení nabízejí
rychlejší zálohování i obnovování dat při takových cenách na megabajt, které
jsou srovnatelné s páskovými zálohovacími systémy. Prodejci se nyní předhánějí
ve snaze přidat do svých storage řešení založených na standardu ATA "aplikačně
specifickou inteligenci", která má za úkol redukovat zatížení aplikačního
serveru a současně nabídnout efektivní způsob uchovávání i obnovy dat.
Typickým příkladem je Centera, systém společnosti EMC pro indexování, ukládání
a vyvolávání souborů se stálým (neměnným) obsahem. Použitím schématu Content
Adressed Storage v tomto řešení obchází klientská aplikace souborový systém
serveru voláním proprietárního API. Centera zachytí každý požadavek na uložení
souboru, odděluje metadata (specifikující např. datum a čas vytvoření) a spustí
hashovací algoritmus, aby vytvořila unikátní 27 znaků dlouhé ID obsahu. Poté
aplikaci vrátí soubor s popisem obsahu (Content Descriptor File, CDF), který
ukazuje jak na uložený objekt, tak na metadata. Poté aplikace může požadovat
pouze obsahové ID daného objektu. Při abstrahování od typu storage média tímto
způsobem se aplikace nemusí starat o I/O systém disku (diskového pole),
sledování cesty k souboru nebo udržovat informace o změnách v konfiguraci
back-endového storage systému.
"V podstatě jde o to, že s těmito úlohami nemusíte zatěžovat server a aplikace
mohou běžet efektivněji na levnějších výpočetních platformách," tvrdí Steve
Duplessie, analytik společnosti Enterprise Storage Group. Zmíněná technologie
také eliminuje ukládání redundantních souborů, a to vytvářením
několikanásobných odkazů, které ukazují na jedinou instanci uloženého souboru.
To znamená, že pro uložení přílohy archivovaného e-mailu, který byl zaslán
tisíci uživatelů, vytvoří Centera tisíc CDF referencí na jediné ID obsahu, jež
odkazuje na jeden uložený soubor.

Efektivní zálohy
Start-upová firma Avamar Technologies dovádí tento přístup ještě dále a
zaměřuje se na problémy neefektivity při zálohování. Zatímco CDF technologie,
již používá Centera, může eliminovat ukládání redundantních souborů, zálohovací
řešení Axion firmy Avamar indexuje jednotlivé datové bloky, které tvoří soubory
na disku, aby odstranila redundanci nejen souborů, ale i jejich částí. Když se
např. změní jedna věta v dokumentu, Axion aktualizuje pouze odpovídající bloky
příslušející danému souboru. "Tato technologie je natolik efektivní, že lze
denně uložit 10-100násobné množství záloh, než by bylo možné v případě systému
typu disk-to-disk, který zrcadlí páskovou zálohu," tvrdí Jed Yueh,
viceprezident společnosti. Výsledkem je řešení, které vyžaduje menší prostor
pro zálohování, umožňuje rychlejší obnovu a může být využito pro efektivní
zálohování v distribuovaných systémech v rámci sítí wide-area network.

Paralelní síla
Další start-up, společnost Netezza, chce dovést koncept inteligentního systému
pro ukládání dat ještě dále tím, že do něj zabuduje paralelní výpočetní
potenciál pro každou diskovou jednotku. Své řešení Netezza Performance Server
navrhla jako datové zařízení, které optimalizuje dotazy business intelligence
systémů pro velké databáze, nahrazujíce tradiční databázi Oracle běžící na
high-endových unixových serverech a storage EMC. CEO Jit Saxena říká, že
diskový I/O systém je při zasílání dotazu v takové databázi úzkým hrdlem.
Paralelní výpočetní architektura Netezza připojuje jednotky označované jako
Snippet Processing Unit (SPU) ke každému disku (může jich být až 450 v každém
zařízení) a integruje je pomocí front-endu založeného na symetrickém
mutiprocessingu. Ten může přijímat SQL dotazy od kterékoliv aplikace, jež
podporuje protokol ODBC (Open Database Connectivity). Každá jednotka SPU
obsahuje dedikovanou paměť a komunikuje prostřednictvím spojení založeného na
Gigabit Ethernetu.
"Každý disk jsme tak vybavili vysokou mírou inteligence," říká Saxena. "Tím, že
disky pracují paralelně, se výkon zvyšuje 10-20krát oproti výkonu tradičního
systému, a to s polovičními či třetinovými náklady." A protože systém je
read-intensiv a je nasazen specificky pro určitou aplikaci, je použití ATA
disků zcela vyhovující.

Více inteligence
Použitím inteligentních storage zařízení založených na standardu ATA, které
ulehčují I/O zpracování při úlohách specifických pro určité aplikace, mohou
dodavatelé změnit pohled, jímž se uživatelé dívají na tradiční roli serveru.
"Dochází k tomu, že je myšlenka distribuovaného computingu dovedena zase o krok
dále," říká Duplessie. Avšak i produkty zavedených firem, mezi něž patří
zmíněná Centera, si teprve získávají své místo na trhu. "Ještě bude nějakou
dobu trvat, než uživatelé zjistí, jak tyto produkty nejlépe využít," předpovídá
Jamie Gruener, analytik společnosti Yankee Group.

Co znamená RAIN
Zařízení jako Centera nebo Axion používají pro řešení redundance a zlepšení
spolehlivosti architekturu označovanou Redundant Arrays of Independent Nodes
(RAIN, redundantní pole nezávislých uzlů). Oba systémy sestávají z nezávisle
fungujících storage uzlů, které jsou vestavěny ve standardní 19" skříni (jde
tedy o rackové řešení). Každý z těchto uzlů obsahuje jednu nebo více diskových
jednotek, CPU, paměť a ethernetová propojení, která slouží jako komunikační
platforma v rámci celé skříně. Podobně jako u zařízení typu NAS
(Network-Attached Storage) běží v každém uzlu jeho vlastní operační systém
(např. Centera je provozována na verzi Linuxu označované jako CentraStar).
RAIN je v podstatě implementací architektury RAID přes jeho uzly, namísto přes
pole disků. Centera používá RAIN pro zrcadlení disků. Axion pak podporuje tzv.
RAIN-5, což označuje implementaci RAID-5 na úrovni uzlů, díky čemuž je
vyžadováno méně redundantních disků. Architektura RAIN navíc umožňuje vysokou
míru škálování. V systému Centera může být clusterováno až 16 samostatných
racků pro kapacitu až 150 TB zrcadlené storage kapacity a až 7 clusterů může
být uspořádáno do "domény", která podporuje až 1,05 petabajtu dat.

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.