Big data potřebují standardizovat – chystá se pro ně obdoba modelu LAMP?

29. 12. 2014

Sdílet

 Autor: © Ben Chams - Fotolia.com
Uvidíme v tomto oroce vznik komplexní sady pro big data, ekvivalentní tomu, co ve světě IT webů znamená LAMP (Linux, Apache HTTP server, MySQL a PHP)? Mnozí experti si to umějí představit.

Richard Daley, zakladatel a ředitel společnosti Pentaho, která se orientuje na analýzy a business intelligenci, se domnívá, že sada pro big data se začne vytvářet už v letošním roce – s tím, jak vznikne konsenzus kolem některé z referenčních architektur big dat.

Dá se ale prý předpokládat, že horní vrstvy této sady bude možná tvořit více proprietárních prvků, než je tomu u sady LAMP.

„Existují tisíce referenčních architektur big dat,“ tvrdí Daley. „Bude se zřejmě opakovat historie. Totéž jsme viděli při vzniku sady LAMP. Hnacím faktorem je tlak v podobě nákladů a velikosti.“

Daley si však myslí, že organizace, jež jsou u technologií big dat tomuto tlaku vystavené, zejména takové, které je využívají pro marketing nebo pro detekci narušení sítě, rychle začínají vidět pozitivní aspekty.

Podle studie CompTIA mělo již nějakou formu big dat v roce 2013 cca 42 procent organizací. „V uplynulých 12 měsících jsme viděli, že přínos big dat dokáže využít stále více subjektů,“ tvrdí Daley a dodává: „Analýza a využití big dat přinášejí mnohem větší užitek než jen jejich ukládání pro případný pozdější rozbor.“

Explozi dynamických, interaktivních webových stránek koncem devadesátých let a v následující dekádě částečně způsobila dostupnost sady LAMP, kterou tvoří Linux, Apache HTTP server, MySQL a PHP (nebo Perl či Python).

Tyto bezplatné open source komponenty jsou samy o sobě nezávisle vytvořenými výkonnými nástroji. Pokud se však seskupí do podoby webové vývojové platformy, vytvářejí mocnou synergii.

Komponenty jsou snadno dostupné a mají otevřené licence s relativně minimálními omezeními. Možná nejdůležitější je dostupnost zdrojového kódu, který poskytuje vývojářům obrovské množství flexibility.

Zatímco akronym LAMP specifikuje jednotlivé komponenty (přestože v některých vrstvách existují i náhrady), Daley tvrdí, že u big dat existuje v každé vrstvě mnohem více možností –  v závislosti na uvažovaném účelu použití.

 

„D“ – datová vrstva

Spodní vrstvou sady – tedy základem – je datová vrstva. Je to místo pro distribuce Hadoopu, databáze NoSQL (HBase, MongoDB, CouchDB a mnoho dalších) a dokonce i pro relační databáze a analytické databáze jako SAS, Greenplum, Teradata nebo Vertica.

„Každou z těchto technologií lze použít pro aplikace big dat,“ prohlašuje Daley. „Hadoop a NoSQL jsou otevřené, více škálovatelné a nákladově efektivnější, ale nedokážou udělat všechno. Pak zde přicházejí ke slovu řešení jako Greenplum a Vertica s velmi rychlými analytickými aplikacemi.“

V mnoha směrech ale má tato vrstva sady většinu práce teprve před sebou, myslí si Daley. Relační a analytické databáze podle něj za sebou mají dlouholetý vývoj, ale technologie Hadoop a NoSQL jsou stále ještě v relativně raném stadiu.

„K Hadoop a NoSQL musím říci, že je ještě brzy na jejich plné přijetí,“ uvádí Daley. „Jsme sice již za propastí ve smyslu jejich akceptace –- státivně rann přínos big data již jsme za stadiem raných osvojitelů. Ale pro obě tato prostředí tady existuje ještě spousta práce ve smyslu správy, služeb a provozní způsobilosti.“

Hadoop je podle Daleyho velmi složitou technologií a stále má poněkud hrubé obrysy. A pokud se podíváte na prostředí NoSQL, je to prý pořád trochu zmatek. Každý stroj NoSQL má svůj vlastní dotazovací jazyk.

 

„I“ – integrační vrstva

Další v pořadí je integrační vrstva. To je místo, kde dochází k přípravě dat, jejich čištění, transformaci a k datové integraci.

„Velmi zřídka se data získávají jen z jednoho zdroje,“ vysvětluje Daley a dodává: „Pokud se díváme na všestrannou zákaznickou aplikaci, stahujeme data ze tří, čtyř nebo dokonce pěti zdrojů. Když někdo potřebuje analytickou nebo dokonce prediktivní aplikaci, 70 procent času se spotřebovává v této vrstvě přetvářením dat.“

Přestože tato vrstva není atraktivní součástí big dat, je to také oblast, která je poměrně vyspělá, s množstvím nástrojů (jako Sqoop a Flume) a existující mezery dodavatelé rychle zaplňují, připomíná Daley.

 

„A“ – analytická vrstva

Další v pořadí je analytická vrstva, kde dochází k analýzám a vizualizaci.

bitcoin_skoleni

 

Kompletní článek zahrnující spoustu dalších poznatků, trendů a zajímavostí si můžete přečíst v Computerworldu 6/2014.