Jak big data mění trh s databázemi?

27. 12. 2016

Sdílet

 Autor: © Andrea Danti - Fotolia.com
Od NoSQL přes NewSQL až po datovou algebru a dále – inovace na poli databázových řešení se objevují rychle a nespoutaně.

Při použití slova „databáze“ si většina lidí představí tradiční osvědčené systémy RDBMS (Relational Database Management System), které v IT světě dominovaly více než 30 let. To se však může velmi brzy zásadně změnit.

O tento klíčový segment podnikového trhu totiž nyní soupeří celá řada nových dodavatelů, a zatímco jejich přístupy jsou různorodé, většina z nich má jedno společné: velký důraz na big data.

Nárůst alternativ je zapříčiněn tím, co se běžně označuje za „tři V“ vlastností big dat – volume, velocity a variety (objem, rychlost a různorodost).

Data se totiž v současné době objevují rychleji a ve větších objemech než kdykoliv v minulosti a také jsou mnohem rozmanitější. Jinými slovy je to zcela nový svět dat, pro nějž  tradiční systémy správy relačních databází nebyly navržené.

„V podstatě neumožňují škálování pro velká, rychlá a různorodá data,“ vysvětluje Gregory Piatetsky-Shapiro, prezident společnosti KDnuggets, která se zaměřuje na poradenství pro analýzy a datovou vědu.

To nedávno zjistila také společnost Harte Hanks. Přibližně až do roku 2013 používala tato marketingová agentura kombinaci různých databází včetně Microsoft SQL Serveru a Oracle Real Application Clusterů (RAC).

„Všimli jsme si, že v průběhu času s nárůstem objemu dat nedokázaly naše systémy zpracovat informace dostatečně rychle,“ tvrdí Sean Iannuzzi, tamější šéf technologií a rozvoje. „Nakupování dalších serverů situaci příliš nezlepšilo, takže jsme chtěli mít platformu, která by nativně umožňovala lepší škálování.“

Klíčovým cílem ale byla minimalizace narušení provozu, jak popisuje Iannuzzi, takže podle jeho slov nemohli jednoduše přejít na Hadoop.

Namísto toho si vybrali produkt Splice Machine, který v podstatě umístí plnohodnotnou databázi SQL nad populární platformu Hadoop pro big data a umožní existujícím aplikacím připojit se.

Harte Hanks je nyní v počátečních fázích implementace, ale už dnes vidí přínos, a to včetně lepší odolnosti proti chybám, vysoké dostupnosti, redundance, stability a celkově vyššího výkonu, uvádí Iannuzzi.

 

Trhu nahrávají změny

„Je to určitý druh dokonalé bouře vyvolávající vznik nových databázových technologií,“ popisuje Carl Olofson, viceprezident pro výzkum v IDC. Podle něj nové systémy jsou mnohem schopnější zvládnout velké soubory dat rychleji a pružněji. V minulosti se totiž takové objemy musely uložit na rotační disky a data musela být určitým způsobem strukturovaná, vysvětluje Olofson.

Nyní je k dispozici 64bitové adresování, takže lze nakonfigurovat větší paměťový prostor, a stejně tak jsou dostupné mnohem rychlejší sítě a navíc je možné snadno propojit více počítačů dohromady, aby pracovaly jako jedna velká databáze. „Tyto technologie přinesly nové možnosti, které donedávna nebyly k dispozici,“ popisuje Olofson.

Mezitím se také změnila pracovní zátěž. Zatímco například před deseti lety byly webové stránky převážně statické, dnes zde máme živé prostředí webových služeb a interaktivního nakupování. To v důsledku vyžaduje nové úrovně škálovatelnosti, tvrdí Olofson.

Společnosti také využívají data novými způsoby. Zatímco dříve se tradičně zaměřovaly na zpracování transakcí, například záznam objemu prodeje, a ukládaly taková data k pozdější analýze, dnes se toho vykonává mnohem více.

Příkladem může být správa stavu aplikací. Řekněme, že hrajete on-line hru. Technologie musí zaznamenávat všechny vaše relace, které máte se systémem, a propojit je dohromady, aby vytvořila nepřetržitou zkušenost, přestože měníte zařízení nebo jsou vaše různé pohyby zpracovávané rpzličnými servery, vysvětluje Olofson.

Tato data ale musejí být trvalá, aby podniky mohly například analyzovat otázky typu, „proč nikdy nikdo neprochází přes křišťálovou místnost“. V kontextu on-line nakupování může být ekvivalentem otázka, „proč více lidí nekupuje konkrétní značku obuvi poté, co kliknou na nabídku škály barev“.

„V minulosti jsme se takové problémy ani nepokoušeli řešit nebo se nám v případě pokusu nedařilo najít vhodný způsob,“ popisuje Olofson.

 

Nové typy databází

Hadoop patří mezi novými soupeři mezi to nejlepší. Přestože to není databáze sama o sobě, je tato technologie připravena plnit klíčovou roli a pomoci firmám v zápase s big daty. Hadoop je v podstatě datově zaměřená platforma pro spouštění vysoce paralelizovaných aplikací a je velmi škálovatelná.

Tím, že společnostem umožní škálování distribuovaným způsobem namísto rozšiřování dalšími drahými servery, „umožňuje velmi levně pracovat s velkými soubory dat a získávat z nich důležité informace“, vysvětluje Olofson.

Mezi další nové alternativy RDBMS patří rodina nabídek NoSQL včetně produktů MongoDB (podle iniciativy DB-Engines je to v současné době čtvrtý nejpopulárnější databázový systém) nebo MarkLogic.

„Relační databáze jsou založené na skvělé technologii, která přinášela užitek po desítky let, ale byla navržena v jiné době s jinými technologickými omezeními a odlišnými potřebami trhu,“ vysvětluje Joe Pasqua, výkonný viceprezident pro produkty ve společnosti MarkLogic.

Platforma big dat podle něj ale není homogenní, zatímco v mnoha tradičních technologiích je to stále základní požadavek. „Představte si, že by jediným programem, který byste měli ve svém notebooku, byl Excel,“ uvádí Pasqua. „Představte si, že přitom chcete uchovávat informace o své síti přádel nebo napsat smlouvu. Řádky a sloupce se pro takové účely prostě nehodí.“

Kombinování datových sad může být zvláště ošidné. „Relační řešení vyžaduje, abyste před spojením všech datových sad dohromady rozhodli, jak propojíte sloupce,“ tvrdí Pasqua. „Naše řešení dokáže uložit libovolný formát či strukturu a začít je okamžitě používat.“

NoSQL databáze nepoužívají relační datový model a obvykle ani nemají žádné SQL rozhraní. Zatímco mnoho úložných systémů NoSQL obětuje konzistenci ve prospěch rychlosti a dalších faktorů, MarkLogic předkládá svou vlastní nabídku jako konzistentněji koncipované řešení vytvořené pro podniky.

 

 

Setrvání u SQL

Podle výzkumné organizace Market Research Media zažívá trh databází NoSQL výrazný nárůst, ale ne všichni si myslí, že je to správný přístup, alespoň ne ve všech případech.

NoSQL systémy „vyřešily mnoho problémů se svou škálovatelnou architekturou, ale za cenu ztráty principů SQL“, připomíná Monte Zweben, výkonný ředitel společnosti Splice Machine. To v důsledku představuje problém pro současný kód.

Splice Machine je příkladem jiné třídy alternativ známých jako NewSQL, což je kategorie s očekáváním silného budoucího růstu.

„Naší filozofií je udržet SQL a navíc přidat škálovatelnou architekturu,“ vysvětluje Zweben. „Nastal čas pro něco nového, ale snažíme se to udělat tak, aby lidé nemuseli svůj kód předělávat.“

Další dodavatel, společnost Deep Information Sciences, při volbě své strategie rovněž zvolila setrvání u SQL, ale přichází  ještě s jiným přístupem.  

Její databáze DeepSQL využívá stejné aplikační programové rozhraní (API) a relační model jako MySQL, takže se při jejím využití nemusejí dělat žádné změny aplikace. S daty ale pracuje odlišným způsobem, a to za pomoci strojového učení.

DeepSQL se podle výrobce může automaticky přizpůsobit pro fyzické, virtuální a cloudové hostitele a jakékoli kombinaci takové pracovní zátěže, což eliminuje potřebu manuální optimalizace databáze.

Výsledkem je pak výrazně vyšší výkon a možnost škálování „až na stovky miliard řádků“, uvádí Chad Jones, ředitel strategie  ve firmě Deep Information Sciences.

Zcela odlišný přístup používá společnost Algebraix Data, která prohlašuje, že vyvinula první skutečně matematický základ pro data. Zatímco hardware počítačů se matematicky modeluje před výrobou, totéž neplatí pro software, tvrdí Charles Silver, výkonný ředitel Algebraixu.

„Software a zejména data nikdy nebyly vyvíjené na matematickém základě,“ vysvětlujeSilver a dodává: „Software byl převážně věcí lingvistiky.“

Po pěti letech výzkumu a vývoje Algebraix vytvořil to, co označuje za „algebru dat“, která využívá teorii matematické množiny pro „univerzální jazyk dat“, uvádí Silver.

„Malé neférové tajemství big dat je, že data stále existují v malých silech, které se nemísí s ostatními daty,“ vysvětluje Silver. „Prokázali jsme, že je to všechno možné reprezentovat matematicky, takže se to všechno integruje.“

Společnost Algebraix je nyní vybavena platformou vytvořenou na tomto základě a nabízí společnostem podnikové analýzy jako službu. Zlepšený výkon, kapacita a rychlost – to jsou výhody, které Algebraix svým zákazníkům slibuje.

 

A co tradiční výrobci

Čas ukáže, kteří z nových soupeřů uspějí a kteří ne, ale dlouhodobí lídři, jako je například Oracle, mezitím také nejsou nečinní...

 

bitcoin_skoleni

Tento příspěvek vyšel v Computerworldu 4/2016. Oproti této on-line verzi je výrazně obsáhlejší a přináší další poznatky a tipy, které lze využít při praktické implementaci u vás ve firmě.

Časopis (starší čísla i předplatné těch nadcházejících) si můžete objednat na adrese našeho vydavatelství.