Deduplikace záloh pomůže snížit velikost úložiště

30. 4. 2013

Sdílet

 Autor: © 4designersart - Fotolia.com
Deduplikace již není luxusní funkce dostupná pouze pro korporátní řešení a můžete s ní počítat (a pokud možno správně).

Deduplikace je pokročilá kompresní technologie, která se snaží o eliminaci opakovaných dat. Obecný princip je poměrně jednoduchý, proč vůbec ukládat blok dat, pokud již někde na úložišti existuje a stačí na něj napsat adresu? A proč to dělat jen v rámci souboru, když je mnohem pravděpodobnější, že podobný blok nalezneme ještě několikrát v tisících souborů, se kterými se v rámci jednoho úložiště pracuje? Takto se pochopitelně nemusí přistupovat jen k ukládaným souborům, ale i k proudům dat posílaným po síťovém rozhraní a kdekoli jinde, ke je k dispozici dostatečný objem dat.

Úspěšnost deduplikace samozřejmě závisí na mnoha parametrech, ale u vhodných datových „kolekcí“ – například mailových archivů, kde se tatáž příloha může vyskytovat znovu a znovu – může deduplikační poměr dosáhnout 100:1. Deduplikace je dnes běžně dostupná i pro koncové uživatele, například je součástí souborového systému ZFS, který se objevuje u řady řešení NAS.

Počítání s možností deduplikace je důležité při odhadování velikostí záloh, zejména těch diskových. Její dopad může být obrovský, ale samozřejmě závisí na způsobu zálohování, typu dat a použité metodě, která musí být zvolena vhodně podle toho, jakým způsobem se v souborech vyskytují totožné bloky dat.

Deduplikace zónová dokáže pracovat s bloky s proměnou délkou, nejčastěji v násobcích 8 kB. Dosahuje nejlepších výsledků, s průměrným deduplikačním poměrem 20:1, v případě typického zastoupení datových typů. Pevné bloky o velikosti 64 a 128 kB dosahují výrazně horších výsledků, protože jsou příliš veliké na to, aby se vyskytovaly častěji. Průměrný deduplikační poměr můžeme očekávat 7:1. Pevné bloky o velikosti 4 kB vedou k poměru 13:1 u obecné směsice datových typů, ale mohou mít vyšší nároky na výkon řešení.

Efektivita řešení závisí na tom, kolik záloh je na úložišti udržováno. Samozřejmě, čím více záloh téhož systému je, tím je pravděpodobnější, že deduplikační systém uvidí více duplicitních dat. Provozovatelé často uvádějí poměr 20:1 – ale to v případě, že je retence 16 týdnů, což je stáří nejstarší zálohy. V případě dvou týdnů to již může být jen 4:1.

Deduplikace je samozřejmě velmi efektivní, pokud probíhá před vlastním zápisem na médium, pozdější nasazení prostě znamená, že úložný prostor musí velikostí odpovídat datům před redukcí. Pokud uvažujeme 10TB zálohu (což dnes při kompletní záloze několika počítačů není velký objem ani pro menší firmu), měsíční retence vede ke 40 TB dat (pokud uvažujeme pouze víkendové plné zálohování). Pokud uvažujeme změnu asi 2 procent dat během týdne, udává se deduplikační výsledek asi 7:1 a výsledné množství uložení dat je pouze 5,6 TB místo původních 40 TB. Samozřejmě, při 16 týdnech uchovávání dat by  mohlo být dosaženo poměru 20:1 a ukládali bychom 8 TB místo 160 TB.

Je celkem očividné, že deduplikace může řešit problémy s nedostatečnou kapacitou úložišť nebo naopak, vést k odlišným zálohovacím strategiím, protože si je uživatel s úložištěm dané velikosti může dovolit.

Autor článku