Fixní obsah středem pozornosti

Uživatelé začínají ve stále širší míře uvažovat nad možnostmi ukládání dat reprezentujících fixní (neměnn


Uživatelé začínají ve stále širší míře uvažovat nad možnostmi ukládání dat
reprezentujících fixní (neměnný) obsah a není divu už dnes totiž např.
analytici předpovídají, že zhruba v roce 2005 bude tento typ obsahu zabírat
více než polovinu storage zdrojů firem.
Ukládání neměnného obsahu se týká těch typů dat, jakými jsou např. digitální
obrázky, e-mailové zprávy, prezentace, videosoubory, obrazové záznamy v
medicíně či obrazové kopie šeků přesněji takového obsahu, který se v průběhu
doby již nemění. Na rozdíl od transakčních dat, jež jsou využívána pouze
krátkodobě, musejí být data reprezentující fixní obsah zpravidla k dispozici po
delší dobu.
Analytické firmy, např. Yankee Group, tvrdí, že trh systémů určených pro
ukládání neměnného obsahu vzroste (vezmeme-li jako měřítko objem samotných dat)
z 308 tisíc terabajtů očekávaných v tomto roce až na 1 251 tisíc terabajtů v
roce 2006. Společnost Enterprise Storage Group pak očekává, že referenční
informace s fixním obsahem budou v roce 2005 představovat 54 % veškerých dat,
přičemž jejich objem se bude zvyšovat rychleji než v případě transakční a
souborově orientované storage.
Fixní obsah je reprezentován často různorodými typy dat, na která je potřeba
odkazovat a adresovat je. Z hlediska dodavatelů se jedná o poměrně velký tržní
potenciál. Stále častěji jsou navíc vyžadovány různé specifické možnosti pro
ukládání takových dat a jejich diferenciaci od krátkodobě využívaných
transakčních dat.
Rostoucí objem fixního obsahu je doprovázen mnohými problémy. "Největším z nich
je zejména najít opravdu vyhovující řešení," říká Jamie Gruener, analytik z
Yankee Group. "Tento faktor má ovšem více rozměrů nejde jen o to ukládat
informace v indexované podobě, ale také mít možnost skutečně rychlého přístupu
k nim. Informace většinou musejí být uchovávány v nezměněné podobě bez možnosti
dalšího přepisu." Mezi další problémy patří výběr typu médií používaných pro
ukládání dat fixního obsahu a s tím související náklady.

WORM, RAID a další
Na rozdíl od transakčních dat mohou být data fixního obsahu ukládána pomocí
zařízení, která umožňují dosahovat relativně krátkých přístupových časů. Dosud
byla tradičně ukládána pomocí řešení typu "Write Once Read Many Times" (WORM)
využívajících optická média nebo pásky namísto nákladných diskových polí, tj.
RAID systémů (od dodavatelů, jako jsou společnosti EMC, Hitachi, HP, IBM či
Sun), které jsou obvykle vyžadovány pro rychlé zpracování transakčních dat. Při
uložení v běžném WORM systému jsou data navíc zabezpečena proti dodatečným
změnám či přepisu.
Objem dat však rychle roste a dosavadní řešení typu WORM důsledkem toho nejsou
schopna zajistit dostatečně rychlý přístup k obsahu. "Uživatelé dnes často
potřebují jiný typ storage systémů takový, který dokáže obsloužit více
uživatelů současně a umožní skutečně rychlý přístup k datům, která potřebují,"
říká Gruener. "Pásky jsou ideální pro archivaci dat, která není nezbytné
vyvolávat příliš často, avšak jestliže se potřebujete opakovaně dostat k
určitým datům v průběhu 24 hodin, není to při použití archivace velkého objemu
dat vždy možné."
V nabídce dodavatelů se proto začal objevovat nový typ on-line řešení pro
ukládání dat založený na levném diskovém poli (využívajícím ATA disky) v
kombinaci s ochranou proti změnám dat používanou v dosavadních WORM systémech.
Pro něj se používá označení "WORM disk" a poskytuje kapacitu v řádu terabajtů
při nákladech srovnatelných s páskovými systémy. WORM disk je systém vhodný pro
nasazení mezi primární ukládací zařízení a sekundární páskovou off-line storage
určenou pro zálohování.
Uživatelé se tedy v případě ukládání dat neměnného obsahu začínají stále
častěji poohlížet po řešeních založených na ATA discích, které jsou běžně
používány především v PC. Tyto disky totiž nejsou drahé a ve srovnání s
páskovými systémy umožňují dvakrát rychlejší zápis a pět až desetkrát rychlejší
vyvolání dat.
"Požadavky na výkon systému pro ukládání dat a rychlost přístupu k souborům
odpovídají tomu, jak často jsou daná data využívána," říká Gruener. "Jestliže
potřebujete data pouze archivovat či zálohovat, nebudete k nim obvykle chtít
přistupovat denně. Ovšem v oblastech, kde pracujete s obsahem, který využíváte
pravidelně a navíc musí být dostupný pro více uživatelů, jsou nároky na
rychlost samozřejmě vyšší."
Mezi softwarová řešení pro zabezpečení dat v diskových systémech proti přepisu
patří např. SnapLock společnosti Network Appliance určený pro její operační
systém DataONTAP.
Příkladem organizace, která pracuje s fixním obsahem a byla konfrontována s
rostoucím objemem dat, je St. Vincent Hospital and Health Services. Data jsou
generována systémem McKesson ALI UltraPACS, který je určen pro zpracování a
archivaci obrazové dokumentace a komunikaci v oblasti medicíny. Pro archivaci
dat proto nasadili systém StorageTek BladeStore, pro jehož správu je využíván
software Application Storage Manager stejného dodavatele. "Nyní je BladeStore
konfigurován pro objem 4 terabajtů, hodláme jej však škálovat až na 12
terabajtů," říká Rich Banta, systémový inženýr společnosti. Původně uvažoval o
ukládání/archivaci obrazových informací s využitím páskových knihoven
StorageTek L700 ihned po jejich naskenování PACS systémem, avšak vzhledem k
rychlosti vyvolání dat, kterou takové řešení poskytuje, tuto možnost zamítl.

Rychlost a náklady
"Při použití pásky trvalo vyvolání dat přinejmenším 68 sekund ať byla uložena
ve vzdáleném zařízení ve firemní síti nebo v lokální jednotce," tvrdí Banta.
Proto namísto toho zvolil řešení BladeStore, které používá ATA disky. "Systémy
založené na ATA discích jsou levné, neboť náklady na 1 megabajt dat se pohybují
přibližně kolem 1 centu. Architektura našeho řešení, v jehož rámci jsou na
páskách vytvářeny navíc ještě dvě záložní kopie, pak představuje náklady ve
výši 4 centů na megabajt." Podle údajů společnosti Giga Information Group
přijde 1 megabajt obsahu ukládaného na SCSI discích přibližně na 3-5 centů,
stejné množství dat archivované v řešení SAN (Storage Area Network) založeném
na technologii Fibre Channel znamená náklady ve výši 7-15 centů.
Banta však dodává, že BladeStore není ideálním médiem typu WORM vyhovujícím
jeho potřebám, a společnost se stále neobejde bez systému pro správu obsahu od
společnosti FileNet. "BladeStore je i přes vyšší rychlost vhodný spíše jako
systém pro dlouhodobou archivaci." Nadále proto hledají vhodná zařízení, s
nimiž by bylo možné vybudovat skutečné WORM řešení, jejich požadavky se však
prozatím naplnit nedaří.

Orientace na objekty
V minulém roce představila společnost EMC řešení Centera, které je označováno
jako objektově orientovaný systém pro ukládání dat. Tradičně je na storage
nahlíženo jako na bloky nebo soubory dat, které představují subjekty, jež jsou
vyvolávány z určitého místa a typu média. Blokově orientovaná data jsou uložena
v síti SAN nebo v přímo připojovaných systémech pro ukládání, souborově
orientovaná data v řešeních typu NAS (Network-Attached Storage).
V případě objektově orientovaných systémů pro ukládání dat je však každá část
dat reprezentována jako objekt, jemuž je automaticky přidělen unikátní
digitální identifikátor či "otisk". Digitální otisk je pak používán pro
vyvolání objektu bez ohledu na jeho polohu a umístění nezávisle na tom, zda je
uložen na pásce, optickém médiu či ATA disku. S tím, jak jsou data v průběhu
svého životního cyklu přemísťována, např. z disku na pásku, sleduje jejich
otisk (používá se i označení metadata) změnu umístění, takže data mohou být
vždy vyvolána velmi rychle a to tak, že s nimi mohou být souvisle korelovány i
další datové objekty, které se k nim nějakým způsobem vztahují.
Digitální otisk přitom neslouží pouze k identifikaci umístění dat, ale také pro
popis jejich charakteru. Např. záznam rentgenového snímku uložený na optickém
médiu pak může být asociován s klíčovým slovem v systému pro správu dokumentů a
odsud se záznamy pacienta. Ve společnosti Rogers Medical Intelligence Solutions
používají takový přístup při ukládání klinických informací. Jejich řešení je
postaveno na produktu Centera v kombinaci se systémem firmy Documentum. Ten
slouží ke správě obsahu a zajišťuje třídění a uspořádání dat před jejich
vložením do "skladu" dat. V rámci tohoto řešení jsou pak k dispozici záznamy
pořízené za posledních 10-12 let, které lze v současnosti efektivně prohledávat
a analyzovat.

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.