Vybíráme úložiště pro big data

26. 4. 2015

Sdílet

 Autor: Fotolia
V éře big dat firmy shromažďují informace příslovečně nadsvětelnou rychlostí. Tradiční strategie ukládání dat ale s tímto trendem nedokáže udržet krok. Jak se tedy můžete vyhnout potížím s úložišti pro velké objemy údajů?

Pokud jde o big data, úložiště se již nepovažuje za monolitické silo, které by bylo svou povahou proprietární a uzavřené, tvrdí Ashish Nadkarni, analytik IDC.

Velké množství těchto systémů se podle něj v současné době nasazuje s využitím interních disků -- je to podobné modelům použitým firmami jako Facebook nebo Google, kde je úložiště tvořené právě interními disky v serverech.

Ty přitom mívají v sobě až 48 HDD a samotná platforma ukládání se řídí softwarem. Používají se k tomu univerzální operační systémy, na kterých běží softwarové jádro.

Uložená data rostou ročně o zhruba třetinu, uvádí Aberdeen Group. To znamená, že oddělení IT musí zdvojnásobit svou úložnou kapacitu každých 24 až 30 měsíců. „Dnes se na ukládání dat vydává průměrně 13 % z rozpočtů IT,“ popisuje Dick Csaplar, analytik Aberdeenu, a dodává: „Za dva roky by to mohlo být 26 % a potom i 52 %.Velmi brzy se to vymkne kontrole, takže nemůžete dělat stále totéž znovu a znovu.“

Přestože je faktem, že náklady na úložiště klesají, nesnižují se podle něj dostatečně rychle, aby vyrovnaly potřebu dalších výdajů na úložiště, jak objem dat roste.

Záplava nestrukturovaných dat také stále stoupá. „Těžký úkol, který se každý snaží vyřešit, jsou nestrukturovaná data pocházející z dokumentů, u nichž byste nečekali, že z nich budete dolovat informace,“ prohlašuje Vince Campisi, ředitel IT z GE Software, která propojuje počítače, big data a lidi s cílem usnadnit analýzu údajů.

„Tradiční principy BI v koncepci a podobě stále platí, ale množství přicházejících informací je mnohem větší než postačí pro transakce v systémech využívaných pro provoz běžného podnikání.“

Jak tedy vytvořit strategii ukládání dat v éře big dat, škálovat architekturu ukládání dat, aby dokázala udržet krok s daty a růstem podniku a udržet přitom náklady na ukládání dat pod kontrolou? Poučte se u některých pokročilých uživatelů.

 

Použití levnějších úložišť

V těsných politických závodech mohou informace způsobit rozdíl. Zeptejte se lidí z poradenské  společnosti Catalist. Ta získává údaje od milionů voličů doplněné o obrovské množství „pozorování“ založených dalších veřejných záznamech, jako jsou třeba transakce v oblasti nemovitostí nebo žádosti o úvěrovou historii dotyčného subjektu.

Informace produkované jejími analytickými nástroji sdělují organizátorům kampaně, jaké lidi oslovit a mohou dokonce doporučit kandidátům, aby přes noc změnili svou volební strategii.

„Měli jsme velké úložiště EMC, které jsme vyřadili, protože bylo příliš drahé a spotřebovávalo mnoho energie,“ vzpomíná Jeff Crigler, technologický ředitel Catalistu, a poznamenává, že systému EMC docházela i kapacita.

Firma tedy vybudovala cluster serverů NAS, z nichž každý zvládne uložit petabyte dat. „Je to v podstatě velká krabice disků s procesorem, který je dostatečně inteligentní, aby mohl fungovat podobně jako řešení od EMC.“  Disky mají vysokou kapacitu, software nabízí luxusní konfiguraci a funkce zajišťuje nenáročný procesor.

Csaplar z Aberdeenu vidí rostoucí trend ústupu od drahých úložišť, která stojí více než dva miliony korun, směrem k levnějším serverům, které nyní zvládnou udělat více práce. „Výkon těchto zařízení roste a přebírá funkce, které dříve vykonávala specializovaná zařízení. Je to podobné, jako když se sítě vyvinuly z rozbočovačů a síťových karet připojených do sítě do funkce umístěné přímo v procesoru,“ dodává Csaplar.

Jsem přesvědčený, že se ukládání dat také ubírá tímto směrem, myslí si Csaplar. Namísto nákupu velkých a drahých diskových polí firmy používají přístup JBOD (skupina disků) – nasazují neinteligentní zařízení pro ukládání dat a výpočetní kapacitu serverů k jejich správě. „To snižuje celkové náklady na úložiště a nepřijdete o žádnou funkcionalitu -- nebo možná dostanete 80 % výsledků za 20 % nákladů,“ poznamenává Csaplar.

Catalist nahradil svá zařízení s cenami více než dva miliony korun za čtyři úložné jednotky NAS za tři čtvrtě milionu. „To bylo před rokem a půl,“ a náklady na ukládání dat nadále klesaly.

Csaplar očekává, že se na trhu objeví obyčejné levné systémy, až více organizací zjistí, že splňují jejich potřeby. Velcí dodavatelé, jako je EMC, vidí hrozbu a proto kupují firmy, které dodávají menší úložiště.

 

Mezera mezi ukládáním a zpracováním

Současný software umožňuje ukládání dat ještě blíže k analytickým nástrojům a komprese souborů udržuje nároky na úložiště pod kontrolou. Dodavatelé, jako je HP, respektive její divize Vertica, mají přímo uvnitř databáze k dispozici analytické funkce, které podnikům dovolují dělat analytické výpočty bez nutnosti extrahovat informace do odděleného prostředí kvůli zpracování. Také Greenplum (součást EMC) nabízí podobné funkce.

Obě řešení jsou součástí nové generace sloupcových databází, které jsou navržené tak, aby, pokud jde o analytické pracovní zátěže, nabídly výrazně lepší výkon, menší nároky na úložiště a lepší efektivitu než databáze založené na řádcích. Greenplum se nedávno stala součástí firmy Pivotal Labs, nabízející podnikovou platformu PaaS a jež je součástí EMC.

Například firma Catalist si vybrala databázi Vertica speciálně kvůli výše zmíněným funkcím, uvádí Crigler. Protože je databáze sloupcová namísto řádková, hledá kardinalitu dat ve sloupci a na základě toho může dělat kompresi. Kardinalita popisuje vztah jedné tabulky dat k jiné, na rozdíl od vztahů jeden vůči mnoha nebo mnoho vůči mnoha.

V databázi máme sloupec nazývaný ‚Stav‘ pro záznam každé osoby. V souboru o velikosti 300 milionů registrovaných voličů se ale objevuje jen padesátkrát, popisuje Crigler.

„V řádkově založených relačních open source databázových systémech, jako jsou například Postgres nebo MySQL, by se objevoval 300milionkrát. Pokud použijete takovou úroveň komprese na všechno -- od názvů ulic po příjmení Novák, tak to (a i další kompresní algoritmy) přinese z hlediska úložného prostoru obrovské úspory.“

Volba databázové technologie tedy skutečně ovlivní množství potřebného úložného místa.

Na straně úložiště pomáhají deduplikace, komprese a virtualizace snižovat velikost souborů a množství dat ukládaných pro pozdější analýzu. A tiering dat je dobře známá možnost rychlého předání nejdůležitějších dat analytickým nástrojům.

SSD jsou dalším populárním médiem pro ukládání dat v případě, že musí být data rychle dostupná. Tyto systémy udržují data v režimu velmi rychlé odezvy, vysvětluje Csaplar.

Uchovávají data v těsné blízkosti procesorů, aby tak serverům umožnily rychlou analýzu dat. Původně byly pro mnoho podniků příliš drahé, ale ceny už klesly na úroveň, kdy si vrstvy vytvořené ze SSD mohou mohou dovolit i středně velké společnosti, dodává Csaplar.

 

Vzestup cloudů

bitcoin_skoleni

Cloudové úložiště hraje ve strategiích ukládání big dat stále významnější roli. V oborech, kde organizace působí po celém světě, jako jsou ropný průmysl nebo těžaři zemního plynu, se údaje ze senzorů posílají přímo do cloudu -- a v mnoha případech se tam dělá i analýza.

Kompletní článek zahrnující spoustu dalších poznatků, trendů a zajímavostí jste si mohli přečíst v Computerworldu 12/2014.