Takto prudký nárůst představuje pro ty, kdo s daty dále pracují, výzvu už sám o sobě. Nestrukturovaná data navíc IT specialistům v podnicích komplikují život i z jiných důvodů. Mívají velmi různou velikost a mohou být uloženy jako soubory, nebo objekty, což s sebou nese nové požadavky na výkon úložiště. Ty by měla řešit nová kategorie úložišť poskytující sjednocené rychlé ukládání souborů i objektů.
Velké a malé v různých kombinacích
Nestrukturovaná data mohou zahrnovat obrovské množství velmi malých souborů nebo objektů – třeba i miliardy. Jednat se může také o zálohy, které zahrnují širokou škálu typů datových souborů, například i fotografií či videí, různých velikostí.
Samotná data však nejsou jediným faktorem, který ovlivňuje aktuální požadavky na úložiště. Stále důležitější je i následná práce s nestrukturovanými daty. Ve firmách dochází k velkému rozmachu analytiky, strojového učení a dalších způsobů, jak z obrovského množství dat získat použitelné informace.
Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?
Rychle se tak například rozšiřuje využívání digitálních snímků, například PACS systémů pro archivaci snímků ve zdravotnictví. Do této kategorie spadá průkopnické využití strojového učení pro diagnostiku rakoviny americkou společností Paige. Ta následně pro strojové rozpoznávání milionů snímků ve vzorcích tkání pacientů potřebuje úložnou kapacitu v petabajtovém měřítku, navíc s rychlým přístupem a vysokou propustností – bez ohledu na to, zda data mají podobu souborů nebo objektů.
Mění se také požadavky na úložiště s tím, jak se propojují technologie zálohování a ochrany dat. Následkem toho opět vzniká řada souborů a objektů o různorodých objemech. Dříve mohly být zálohy odsouvány do nejpomalejších úložišť, nyní je potřeba mít k nim rychlý přístup, například pro případ ransomwarového útoku je zapotřebí vysoká rychlost obnovy.
Výkon i pro objektová data
Klíčovou inovací a hlavním rozdílem oproti minulosti je přidání rychlého objektového úložiště. Po celá desetiletí byla přitom souborová úložiště hlavní volbou, a to i když v posledních desetiletích docházelo k nárůstu kapacity a výkonu škálovatelných zařízení NAS pro nestrukturovaná data. Naproti tomu význam objektových úložišť se zvyšoval postupně, nejprve s rozvojem webu a později díky vzestupu cloud computingu.
Jaký je hlavní rozdíl mezi oběma technologiemi? Soubory a objekty mohou obsahovat stejné typy obsahu. Zatímco souborové systémy ale používají hierarchický systém založený na adresářích, objektová úložiště mají „plochou“ strukturu s objekty, kterým je přiřazen individuální identifikátor.
Pište pro Computerworld
Máte dobré nápady, máte co říct? Chcete se podělit o své znalosti se čtenáři Computerworldu?
Je tu ideální příležitost. V redakci neustále hledáme externí autory, kteří rozšíří náš záběr. Nabízíme možnost publikací zajímavých článků nejen na webu, ale také v našem tištěném magazínu.
Pokud máte zájem, ozvěte se šéfredaktorovi na e-mail: radan.dolejs@iinfo.cz
Historicky představovala objektová úložiště nejméně výkonný typ úložiště a tvořila zcela samostatnou kategorii produktů. To se však mění právě s tím, jak zákazníci stále častěji potřebují zpracovávat velké objemy nestrukturovaných dat, která mohou být ve formátu objektů i souborů. Stále více aplikací i případů použití nyní využívá přístup k objektům namísto souborů. Organizace proto potřebují platformu, která dokáže podporovat oba způsoby přístupu a zajistit ochranu investic během tohoto přechodu i po něm. V důsledku těchto změn došlo ke vzniku vysoce výkonných úložišť kombinujících přístup k oběma datovým typům.
Moderní podnikové aplikace nestojí jen na databázi
Nestrukturovaná data vznikají na různých místech a na mnoho dalších se mohou dostat během svého životního cyklu. To představuje velký rozdíl oproti minulosti, kdy základem podnikového IT byla databáze a nad ní systém plánování podnikových zdrojů (ERP). Tato data se vytvářela a dále zůstávala uvnitř firmy, byla po celou dobu své existence poměrně statická.
K proměně přístupu došlo proto i na straně úložných systémů. Dnešní nově vznikající produkty pro rychlá souborová a objektová úložiště podporují formáty souborů systému NFS a protokolu SMB a jsou navrženy tak, aby odpovídaly způsobu fungování moderních podnikových aplikací.
Rychlá souborová a objektová úložiště si navíc poradí i s nestrukturovanými daty ve formátech s objektovým přístupem, které jsou důsledkem jejich cloudového původu, jako je např. úložiště Amazon S3. Rychlé souborové a objektové úložiště se hodí rovněž pro práci v hybridním cloudu, kdy nestrukturovaná data mohou přecházet mezi více lokalitami (místem instalace a samotným cloudem).
Jak vybírat úložiště
Co zákazníci požadují, respektive měli by požadovat, od rychlého úložiště souborů a objektů? V první řadě kapacitu. Úložiště musí umožňovat škálování podle konkrétních potřeb, což u mnoha podnikových úloh zahrnujících nestrukturovaná data může znamenat i petabajty. Sady nestrukturovaných dat mohou být obrovské.
Za druhé, přístup k souborovým a objektovým úložištím by mělo podporovat klíčové protokoly, jako jsou NFS a SMB v případě přístupu k souborům a S3 v případě přístupu k objektům (viz výše).
Za třetí musí úložiště nabízet rychlý přístup a vysokou propustnost. Nízká latence – zejména při čtení – se vyžaduje od úložiště vytvořeného pro podporu aplikací umělé inteligence a strojového učení. To mj. znamená, že je třeba zvolit úložiště typu all-flash, které nabízí rychlý přístup k datům na pevném disku a nákladová efektivita se přitom blíží klasickému rotačnímu disku s jeho sekvenčním čtením/pomalým výkonem.
Nestrukturovaná data mohou vyžadovat velmi vysokou rychlost přístupu, ať už jde o analýzu rozsáhlých datových souborů, nebo o masivní obnovu po útoku ransomwaru. Nízká latence musí být spojena s vysokou propustností. Pro analýzu dat to znamená rychlost v desítkách gigabajtů za sekundu. Pokud jde o obnovu systémů po výpadku nebo útoku ransomwaru, měli by podnikoví zákazníci volit úložiště s propustností, která se blíží 300 TB za hodinu; taková rychlost obnovy umožní minimalizovat prostoje a s nimi spojené finanční škody
Vysoký výkon z hlediska latence i propustnosti by platforma navíc měla poskytovat automaticky a bez nutnosti ladění. Svět nestrukturovaných dat a moderní analytiky se vyvíjí tak rychle, že je obtížné předvídat, jaké nástroje, formát souborů, velikost datových sad nebo metody přístupu budou zapotřebí v nejbližší budoucnosti. Jakékoli řešení úložiště, které k poskytnutí vysokého výkonu pro daný případ použití vyžaduje ruční konfiguraci nebo ladění, bude působit jako brzda inovací a projekty zdržovat.
Připraveno podle podkladů Pure Storage
Získejte pro svůj produkt či službu ocenění IT produkt roku! Soutěž „IT produkt roku“ vyhlašuje redakce Computerworldu s cílem vyzdvihnout výrobky disponující vlastnostmi, které je významně odlišují od konkurenčních produktů stejné kategorie. Může přitom jít jak o celkově inovativní pojetí produktu, tak o jednotlivé funkční zdokonalení, výrazně zjednodušené ovládání nebo třeba o výjimečně příznivou cenu.
Soutěž probíhá ve třech samostatných kolech v kalendářním roce a každý postupující produkt či služba do jednoho ze tří finálových kol získává právo na titul IT produkt roku.
Máte-li zájem účastnit se soutěže IT produkt roku, neváhejte. Kontaktujte nás prosím na itprodukt@iinfo.cz.
O přihlášku a více informací si můžete napsat nebo zavolat na telefonech 776 204 420 nebo 604 266 707 či 725 326 893, případně na také na adrese itprodukt@iinfo.cz.