Je čas modernizovat infrastrukturu pro zálohování dat

2. 1. 2011

Sdílet

Aktuální dostupnost technologií, které přinášejí výrazné zlepšení výkonu a spolehlivosti zálohování a obnovy dat, je výzvou pro zvážení, zda již nenastal ve vaší firmě čas pro jejich modernizaci.

Dave Russell, viceprezident pro výzkum v Gartneru, v této souvislosti prohlásil, že velká část organizací zápasí se svými praktikami pro zálohy a obnovu dat a situaci komplikuje nárůst objemu informací, k němuž v posledních letech dochází. Firmy jsou navíc nyní nuceny chránit i data mobilních pracovníků či těch, kteří pracují na dálku (např. z domova) a pro tyto situace již dřívější zálohovací řešení obvykle nedostačují. Dnešní aktuální téma proto trochu netradičně věnujeme pohledu na to, jakými změnami tato oblast prošla a jaké jsou současné možnosti.

Možná že také patříte mezi ty zaměstnance, kteří mají pocit, že zálohovací systém v jejich firmě je již zastaralý a potřeboval by modernizaci. Podobných organizací, které si dosud vystačily s léta sloužícím řešením, existuje celá řada, nicméně pokud se seznámíte s možnostmi nových systémů, uvidíte, že inovace je opravdu v mnoha případech již akutní.

Nové technologie změnily v základech způsob, jak záloha a obnova dat probíhá, neboť stále větší roli v nich hrají disky, zatímco pásky se odsouvají do pozadí. Řada problémů, které provázely datová centra dlouhé roky, byla úspěšně vyřešena a někteří komentátoři říkají, že nastává nová éra zálohování. Před tím, než ale začnete připravovat svůj plán na modernizaci, je potřeba se blíže seznámit s novými řešeními založenými na vysokorychlostních discích, schématy pro redukci objemu replikovaných dat a tím, jak fungují techniky pro ochranu dat v reálném čase. Alespoň několik z nich si zde přiblížíme.

Disky uprostřed procesu
Strategie D2D2T (Disk-to-Disk-to-Tape) získaly na popularitě v předchozích letech zejména díky rozdílu mezi rychlostí zařízení, která jsou zálohována, přenosovou kapacitou sítě a cílovými médii, na něž byly zálohy ukládány (pásky).

Průměrná propustnost disků před 15 lety byla kolem 4–5 MB/s, zatímco pásky dokázaly ukládat průměrně rychlostí kolem 256 KB/s, což bylo úzkým hrdlem celého systému. Dnes máme disky s běžnou propustností kolem 70 MB/s, ale pásky jsou schopny ukládat více než 120 MB/s. Zatímco disky tedy zvýšily svoji rychlost 15–20x, u pásek došlo k 500násobnému zrychlení. Díky tomu páska není úzkým hrdlem, ale je naopak výzvou využít její potenciál, zvlášť v případě, kdy jsou vytvářeny jen inkrementální zálohy, jež jsou dnes nejobvyklejší, a za několik hodin je tak na pásku uloženo jen několik málo gigabajtů dat.

D2D2T strategie tento problém řeší tím, že používají jako mezičlánek či jakýsi buffer další disk, jenž je uzpůsoben k tomu, aby přijímal data nízkou rychlostí a následně je po větších celcích vysokorychlostně ukládal na pásku.

Některé firmy, obzvlášť ty velké, pak čelí problému, jak sdílet disky při záloze mnoha systémů. Sice je možné zálohovat vždy na jednu konkrétní diskovou jednotku, ale pak nastávají potíže, pokud má být tento disk sdílen více zálohovacími servery současně. To neumí řada produktů dodnes, zvláště disky připojené přes Fibre Channel. Řešením je VTL (Virtual Tape Library, knihovna virtuálních pásek), která zpravidla využívá diskové pole, jež je rozděleno do logických částí a ty se navenek jeví jako páskové mechaniky. Tím se problém vyřeší, neboť s knihovnami pásek se již zálohovací produkty naučily pracovat a umí je sdílet, i když jde v tomto případě o pásky virtuální. Dalším přístupem, který umožňuje vytvářet sdílené disky je IDT (Intelligent Disk Target, inteligentní cílový disk). Ten využívá jako rozhraní pro zálohovací systém protokoly NFS či CIFS, pomocí kterého je disk reprezentován a tyto protokoly také umožňují jeho sdílení mezi více zálohovacími servery.

Výrobci VTL i IDT ovšem měli problém v tom, že cena disků dělala jejich produkty efektivní jen jako mezičlánek, ale ne jako řešení pro kompletní zálohy a zákazníci všechny data pak rychle přenášeli dále na pásky. Tento problém ovšem vyřešila deduplikace dat.

Význam deduplikace
Typické zálohy duplikují data dvojím způsobem, neboť jsou opakovaně vytvářeny jak plné, tak i inkrementální zálohy obvykle stále podobných souborů. Deduplikační systémy dokážou identifikovat obě situace a eliminovat redundantní data, díky čemuž dochází ke snížení nároku na diskový prostor. Tento údaj se udává v poměru vyjadřujícím stupeň komprese a obvykle se pohybujícím mezi 10 : 1 až 50 : 1, případně i více v závislosti na úrovni redundance v datech.

Deduplikační systémy také dokážou „kouzla“ na subsouborové úrovni, neboť jsou schopny rozpoznat v souborech libovolné segmenty dat delší než jeden bajt, které jsou redundantní s jinými a eliminovat je.

Tyto technologie pak umožňují uživatelům zálohovat jen skutečně změněná data místo kompletních každodenních objemů, v nichž ovšem drtivá většina obsahu byla shodná se zálohou ze včerejšího dne. Deduplikace může probíhat buď až v cíli, což je metoda, která je obvykle využívána ve středních a velkých datových centrech a vyznačuje se vysokou rychlostí, anebo u zdroje, kdy jsou duplicitní data eliminována již na samém počátku, což je řešení vhodné pro mobilní pracovníky nebo zaměstnance pracující na dálku.

Díky poklesu nároků na úložný prostor se pak opět stávají cenově zajímavé zálohovací systémy jen s pevnými disky a lze se obejít zcela bez pásek.

Průběžné zálohování
Další technologií záloh využívající disky, která v poslední době získává na popularitě, je CDP (Continuous Data Protection, kontinuální ochrana dat nebo také backup v reálném čase), o které je možné uvažovat jako o replikaci s možností vrátit se o krok zpět („undo“). Pokaždé, když je na zálohovaném systému změněn určitý blok dat, je následně přenesen do CDP systému. Ten si ovšem ukládá každou uskutečněnou změnu do logovacího souboru, díky čemuž je pak možné vrátit tyto změny na velmi jemné úrovni, krok po kroku. Dá se říci, že lze systém obnovit do libovolného stavu, pro který byla data uložena v CDP systému.

Existují i takzvané skoro-CDP systémy (near-CDP system), které fungují podobně až na to, že obsahují diskrétní body v čase, ke kterým umí data obnovit. Co to znamená? Jedná se o jakousi kombinaci snapshotu s replikací, přičemž snapshot je možné chápat jako „momentku“ (řečeno žargonem fotografů) daného disku a všech dat na něm, která se v konkrétním okamžiku jakoby zmrazí. Ta je následně uložena a je k ní možné pak přistupovat i v případě, že byla data na původním zdroji již změněna.