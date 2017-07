Co se týče ukládání dat, je cloud zemí doslova zaslíbenou. Nedávná zpráva společnosti 451 Research uvádí, že do roku 2017 budou AWS a Azure dvěma z pěti největších dodavatelů podnikového ukládání dat, přičemž AWS bude dokonce na druhém místě ze všech alternativ.

Při využití cloudu jako primárního úložiště je však problémem latence mezi úložištěm a uživateli, resp. aplikacemi. Díky několika zásadám, které musíte dodržet, bude mít cloudové úložiště výkon a vlastnosti požadované firmami.

„Při každém přesunu infrastruktury někam mimo vaše datové centrum vstupuje do hry latence a máte problém s rychlostí světla – tu nelze překonat,“ připomíná Scott Sinclair, analytik v Enterprise Strategy Group.

Na rozdíl od většiny problémů s ukládáním dat však podle něj trik pro dosažení vysoce výkonného cloudového úložiště nespočívá v pouhém přidání více rotačních disků či SSD. Nové technologie musejí spoléhat na specifické inovace, které problém vyřeší – zejména na společné umístění dat velmi blízko k místu zpracování nebo zavedení nějakého druhu optimalizace sítě či mechanismu ukládání do vyrovnávací paměti cache.

Například služba AWS nabízí jedenáctidevítkovou „odolnost“ dat a je navržena tak, aby zvládla současnou ztrátu dat ve dvou lokalitách. AWS také zákazníkům umožňuje platit podle jejich růstu, a okamžitě tak využít výhody případných poklesů cen úložišť. To je zcela něco jiného než nákup fixní úložné kapacity za současné ceny dříve, než bude toto úložiště skutečně potřeba.

Existuje jen málo organizací – pokud vůbec existují – které se dokážou vyrovnat měřítku AWS. Proč tedy Amazon, provozovatel AWS a světoznámého e-shopu, využívá výhody cloudového úložiště jen pro roli zálohy namísto primárního úložiště?

Problém s rychlostí světla mezi datovým centrem a cloudovým úložištěm je totiž obtížné vyřešit. Existují však způsoby, jak překonat latenci a v jistém smyslu i rychlost světla.

Nutná opatření

Latence se obvykle projevuje nízkým výkonem. To je místo, kde vstupuje do hry využívání vyrovnávací paměti cache, globální deduplikace a globální zamykání souborů. Ukládání do místní vyrovnávací paměti cache je prvním krokem k eliminaci vlivu latence.

Mnoho analytiků vám řekne, že 70 % dat nikdo nepoužil více než 60 dnů. Je známé, že 90 % firemních dat se po dobu šesti měsíců vůbec nepoužívalo. To znamená, že pokud uložíte do vyrovnávací paměti cache v provozovně aktuální a aktivní data, může být zbytek dat uložený v cloudu.

Cílem je mít v cache maximum aktivních dat. Toho lze dosáhnout dostatečně velkým místem pro ukládání aktivních dat do paměti cache a využitím efektivního algoritmu pro použití cache.

Firmy obvykle podceňují potřebnou velikost místní paměti cache, i přestože plánují svůj růst. Často přidávají více uživatelů, než odhadovaly, nebo vkládají více typů dat do paměti cache, než původně plánovaly, protože data v cache nepotřebují zálohování, obnovení po havárii ani archivační systémy.

Algoritmus ukládání do paměti cache využívá strojové učení pro zjišťování, jaká data mají být lokálně uložená v cache a jaká lze ponechat v cloudu – třeba na základě informací o zápisu dat v čase. Cílem je předpovědět, jaká data jsou potřeba, podle údajů, ke kterým se přistupuje, a předem načíst ta, která chybějí v cache.

Při použití globální deduplikace nemusí být využívání paměti cache z perspektivy souborů tak černobílé. Globální deduplikační tabulka v cache totiž umožňuje algoritmům pro cache využít celé bloky společné pro různé soubory, takže se do cache stahují jen chybějící části souboru, ale nikoliv celý soubor. To výrazně zkracuje dobu přístupu k souboru, který není celý v cache.

Globální deduplikace je užitečná zejména při přenosu souboru z jedné lokální paměti cache do jiné v situaci, kdy jsou obě cache připojené ke stejnému cloudovému úložišti. Protože má každá z nich deduplikační tabulku, ví, jaké bloky přenášeného souboru jí chybějí.

Přes síť WAN se mezi dvěma různými lokálními paměťmi cache přenášejí jen chybějící bloky. Firma Electronic Arts tak třeba zkrátila časy přenosů souborů sestavení hry s velikostí 10 až 50 GB z více než deseti hodin na pouhé minuty, protože se přenášely jen nové bloky souborů.

Problém upovídanosti

Přestože jsou ukládání do paměti cache a deduplikace velkou pomocí, neřeší problém s latencí zcela – třeba tzv. upovídanost aplikací. Ta spolu s latencí může mít mnohem větší vliv na výkon než samotný přenos dat. Například CAD – ale podobně i další technické aplikace – má značný počet operací se soubory, které se při otevírání souboru dějí postupně. V případě řešení AutoCAD dochází při otevírání souboru k téměř 16 tisícům operací.

Pokud je autoritativní kopie souboru (se zámkem souboru) 90 milisekund daleko (třeba napříč kontinentem), potom trvá otevření souboru 16 tisíc krát 90 ms, což jsou už desítky minut. Samotný přenos dat – třeba ve velikosti 1,5 MB – je jen zlomkem tohoto času.

Zde přichází ke slovu globální zamykání souborů. Když se zámek souboru přenese z Londýna do Moskvy, je to podobné, jako by byla autoritativní kopie souboru uložená v Moskvě (přestože je autoritativní kopie stále v Londýně), takže se uplatní latence LAN namísto WAN a dojde k jejímu poklesu zhruba na setinu i méně. Čas potřebný k otevření pak výrazně klesne.

Samozřejmě že ne každá aplikace má úroveň upovídanosti jako AutoCAD, ale veškeré aplikace, které byly vyvinuté pro vysokorychlostní sítě LAN s nízkou latencí, mohou trpět určitou mírou upovídanosti, která bude často způsobovat více problémů s výkonem než samotný přenos dat.

Nasazení cloudového úložiště pro všechny své soubory firmy navíc povede k promyšlení využívání úložiště z obecného hlediska. Protože cloud zajišťuje dostatečnou odolnost a redundanci, systémy a procesy pro zálohování, obnovu po havárii a archivaci už nemusejí být potřeba. Budou totiž přirozeným vedlejším produktem využívání cloudu pro účely primárního úložiště.

