Zdá se vám, že se všichni opakují? Deduplikujte je...

9. 1. 2010

Sdílet

Digitální data z moderních elektronických přístrojů přibývají enormní rychlostí a v nejbližších čtyřech letech se jejich objem na Zemi zpětinásobí. Co s tím?

Křivka nárůstu množství dat začíná mít exponenciální charakter. Výrobci úložišť se v tuto chvíli snaží držet krok s tímto trendem pravidelným zvyšováním kapacit disků. Množství dat ale narůstá i z jiného důvodu, a to kvůli ukládání duplicitních souborů ať už úmyslným, či většinou právě nechtěným.

Měli bychom ale rozlišovat dvě oblasti: oblast ukládání primárních dat a systematické zálohování těchto primárních dat.

V oblasti zálohování je totiž problematika duplicit souborů ještě mnohem důležitější. Proč? Odpověď je jednoduchá. Firmy, které pravidelně a systematicky zálohují a udržují svoje historická data, např. měsíc zpět, tak, aby se byly schopny vrátit do libovolného bodu, v jakém bylo jejich IT prostředí za poslední měsíc, provádí většinou každý týden tzv. plnou zálohu a denně pak zálohu změněných a nových souborů. Při tradičním způsobu zálohování jsou celé soubory uloženy na zálohovacím médiu až pětkrát.

Představte si však, že máte některý soubor uložen dvakrát a následně ho pravidelně zálohujete. Tento jediný soubor máte tedy v zálohách 10x a takto duplikovaných jsou jich desítky. S rostoucím množstvím zálohovaných dat se zvětšuje i tzv. zálohovací okno – čas, za který je schopen server data zazálohovat. Den má a stále bude mít jen 24 hodin, a proto bude obrovský tlak na zvyšování rychlosti záloh.

S těmito fakty se dá bojovat buď hrubou silou (zvětšováním kapacit, rychlejšími disky), nebo inteligentnějšími technologiemi, jako je např. deduplikace. Ovšem není deduplikace jako deduplikace.

Jeden z pohledů je, zdali se deduplikace děje na souborové úrovni, nebo se týká i jejich částí. Jestliže duplicita na úrovni souborů bývá průměrně 10 %, na úrovni jejich části se tento průměr může blížit až 50 %.

Dnes si většina IT vendorů problematiku duplicit uvědomuje a pustili se s vervou do práce. Velká část těchto řešení jde však cestou deduplikace dat na cíli. To znamená, že klient během zálohování opět přenáší po sítích všechna svoje data plná duplicit a teprve při ukládání na cílové diskové úložiště je deduplikuje. Nicméně na trhu jsou i „chytrá“ řešení, která umí deduplikovat již na klientovi. Tento postup zachytí duplicitní části souborů ještě před vlastním přenosem dat a nikdy již stejnou část souboru nezálohuje. To se děje napříč všemi zálohovacími klienty, napříč operačními systémy a nezávisle na aplikacích, které tato data vytvořily.

A výsledný efekt? Výrazné zkrácení doby záloh. Namísto jednotek či desítek hodin zálohujete minuty či desítky minut a množství duplicitních dat v zálohách lze snížit až o 90 %. Inteligentní deduplikační řešení se začínají stávat jedním z nástrojů, jak čelit trendu informační explozi a stanou se běžným trendem v ukládání dat a v zálohování.

Autor pracuje ve společnosti EMC Czech Republic.