Automatizovaný tiering: Jak snížit objem uchovávaných dat (1.)

3. 1. 2011

Sdílet

Inteligentní software dokáže automaticky umístit data do cenově nejefektivnější formy storage. To firmám dovolí ušetřit výdaje za drahé úložiště i optimalizovat přístup k datům.

Stále ne zcela jistá ekonomika a závratným tempem rostoucí objem ukládaných dat jsou jedním z důvodů, proč téměř všichni dodavatelé úložných systémů nabízejí produkty slibující zmenšení objemu uchovávaných informací. Redukce množství dat totiž nejenže snižuje náklady na hardware, software, energii a plochu datového centra, ale také ulehčuje sítím a zkracuje dobu zálohování. Jak ale poznat, kterou technologii použít? Nejprve je nutné pochopit způsob, jakým vaše firma data používá, a určit, kdy se úspory tvořené snížením objemu dat vyplatí vzhledem ke snížení výkonu.

Metoda, která se nejlépe hodí pro potřeby konkrétního uživatele, příliš nezávisí na oboru jeho podnikání, ale především na typu ukládaných dat. Například deduplikace obvykle nepřináší významnější úspory pro rentgenové snímky, inženýrská testovací data, video nebo hudbu. Může však například významně snížit náklady na zálohování virtuálních počítačů použitých jako servery. Zde je pět metod pomáhajících významně snížit objem uchovávaných dat.

1. Deduplikace
Deduplikace – proces hledání a eliminace duplicitních částí dat uložených v různých množinách dat – dokáže snížit objem ukládaných informací až o 90 %. Díky ní lze například uchovat jen jednu kopii přílohy odeslané stovkám zaměstnanců. Deduplikace se stala téměř podmínkou v oblasti zálohování, archivace a ve všech typech druhotného ukládání dat, kde je rychlost přístupu méně důležitá než snížení objemu.

Chris Watkis, ředitel IT ve firmě Grey Healthcare Group, která zajišťuje zdravotnický marketing, uvádí dosažení redukčního poměru až 72 : 1 při zálohování všech informací, a to díky deduplikačnímu procesu využívajícímu applianci Virtual Tape Library od společnosti FalconStor Software. Firma i365, která je dodavatelem služeb cloudového úložiště, dosahuje podle slov svého technologického ředitele Davida Allena ve smíšené zátěži u souborů Microsoft Exchange, SharePoint, SQL Server a u virtuálních strojů VMware redukce dat v poměru 30 : 1 až 50 : 1.

Data lze přitom deduplikovat na souborové nebo blokové úrovni, přičemž různé produkty jsou schopny zkoumat bloky s různou velikostí. Ve většině případů platí, že čím podrobnější vyhodnocení dokáže systém provádět, tím větší jsou úspory místa. Detailní deduplikace však může trvat déle, a proto zpomaluje přístup k datům.

Deduplikace může být realizována formou předběžného zpracování, dále v reálném čase při zápisu do cílového umístění nebo může být provedena následným procesingem, a to až po uložení dat v konečném storage systému. Posledně jmenovaná metoda je „nejlepším řešením při požadavku rychlých přesunů dat – například při časově omezeném zálohování,“ uvádí Greg Schulz, analytik společnosti The Server and StorageIO Group. Radí však zvažovat i metodu předběžného zpracování, pokud uživatel má čas a potřebuje snížit náklady.

Zatímco deduplikace v reálném čase dokáže zmenšit množství ukládaných dat v průměru poměrem cca 20 : 1, nedovoluje škálovatelnost řešení, může snížit výkon a také může nutit uživatele kupovat více serverů za účelem provádění deduplikace, prohlašují kritici. Na druhou stranu Schulz tvrdí, že tento proces využívající následné zpracování vyžaduje použít větší úložiště jako vyrovnávací paměť, a toto místo pak není použitelné pro jiné účely.

Zákazníkům s více platformami serverů a úložišť dokáže celopodniková deduplikace uspořit finance eliminací duplicitních kopií dat uložených v různých platformách. „To je důležité, protože většina organizací vytváří až 15 kopií shodných informací pro použití aplikacemi, jako jsou dolování dat (data mining), systémy ERP  nebo CRM (řízení vztahů se zákazníky),“ prohlašuje Randy Chalfant, viceprezident strategií ve společnosti Nexsan, která je dodavatelem diskových úložišť. Uživatelé budou chtít také možná zvážit použití jednoho systému deduplikace, který umožní aplikacím a uživatelům data rehydratovat (vrátit do původní nededuplikované podoby) v případě potřeby a také zabránit nekompatibilitě mezi více systémy.

Schulz uvádí, že základní deduplikační produkty pracují v režimu předběžného zpracování do okamžiku dosažení nastaveného limitu zátěže a poté se přepnou do režimu následného zpracování. Další varianta – deduplikace založená na zásadách – umožňuje správcům úložišť volit, které soubory lze deduplikovat, a to na základě jejich velikosti, důležitosti či dalších kritérií.

Společnost SFL Data, která shromažďuje, ukládá, indexuje, prohledává a poskytuje data pro společnosti a právní firmy zapojené do právních sporů, našla rovnováhu mezi snížením výkonu a redukcí objemu dat. Využívá produkt Ocarina Networks 2400 Storage Optimizer pro „téměř on-line“ ukládání komprimovaných a deduplikovaných souborů v clusteru BlueArc Mercury 50, který lze rozšiřovat až na dva petabajty využitelné kapacity. Firma poté provádí rehydrataci souborů, které uživatelé vyžadují.

„Rehydratace souborů trochu prodlužuje přístupový čas, ale je to mnohem lepší, než říci zákazníkům, že musí počkat dva dny, než pro ně budou soubory dostupné,“ uvádí Ruth Townsend, technický ředitel SFL, a poznamenává, že díky deduplikaci a kompresi jejich společnost ušetří až 50 procent místa.

Dokončení článku vám přineseme zítra…