Křivka nárůstu množství dat začíná mít exponenciální charakter. Výrobci úložišť se v tuto chvíli snaží držet krok s tímto trendem pravidelným zvyšováním kapacit disků. Množství dat ale narůstá i z jiného důvodu, a to kvůli ukládání duplicitních souborů ať už úmyslným, či většinou právě nechtěným.
Měli bychom ale rozlišovat dvě oblasti: oblast ukládání primárních dat a systematické zálohování těchto primárních dat.
V oblasti zálohování je totiž problematika duplicit souborů ještě mnohem důležitější. Proč? Odpověď je jednoduchá. Firmy, které pravidelně a systematicky zálohují a udržují svoje historická data, např. měsíc zpět, tak, aby se byly schopny vrátit do libovolného bodu, v jakém bylo jejich IT prostředí za poslední měsíc, provádí většinou každý týden tzv. plnou zálohu a denně pak zálohu změněných a nových souborů. Při tradičním způsobu zálohování jsou celé soubory uloženy na zálohovacím médiu až pětkrát.
Představte si však, že máte některý soubor uložen dvakrát a následně ho pravidelně zálohujete. Tento jediný soubor máte tedy v zálohách 10x a takto duplikovaných jsou jich desítky. S rostoucím množstvím zálohovaných dat se zvětšuje i tzv. zálohovací okno – čas, za který je schopen server data zazálohovat. Den má a stále bude mít jen 24 hodin, a proto bude obrovský tlak na zvyšování rychlosti záloh.
S těmito fakty se dá bojovat buď hrubou silou (zvětšováním kapacit, rychlejšími disky), nebo inteligentnějšími technologiemi, jako je např. deduplikace. Ovšem není deduplikace jako deduplikace.
Jeden z pohledů je, zdali se deduplikace děje na souborové úrovni, nebo se týká i jejich částí. Jestliže duplicita na úrovni souborů bývá průměrně 10 %, na úrovni jejich části se tento průměr může blížit až 50 %.
Dnes si většina IT vendorů problematiku duplicit uvědomuje a pustili se s vervou do práce. Velká část těchto řešení jde však cestou deduplikace dat na cíli. To znamená, že klient během zálohování opět přenáší po sítích všechna svoje data plná duplicit a teprve při ukládání na cílové diskové úložiště je deduplikuje. Nicméně na trhu jsou i „chytrá“ řešení, která umí deduplikovat již na klientovi. Tento postup zachytí duplicitní části souborů ještě před vlastním přenosem dat a nikdy již stejnou část souboru nezálohuje. To se děje napříč všemi zálohovacími klienty, napříč operačními systémy a nezávisle na aplikacích, které tato data vytvořily.
A výsledný efekt? Výrazné zkrácení doby záloh. Namísto jednotek či desítek hodin zálohujete minuty či desítky minut a množství duplicitních dat v zálohách lze snížit až o 90 %. Inteligentní deduplikační řešení se začínají stávat jedním z nástrojů, jak čelit trendu informační explozi a stanou se běžným trendem v ukládání dat a v zálohování.
Autor pracuje ve společnosti EMC Czech Republic.