Google: BigData jsou obyčejná data, jen je jich víc

21. 3. 2013

Sdílet

 Autor: © Ben Chams - Fotolia.com
Nástroje jako BigQuery a Dremel společnosti Google by měly zpřístupnit velká data běžnému smrtelníkovi ovládajícímu jazyk SQL. Zatímco BogQuery mohou využívat i zákazníci, Dremel si zatím společnost nechává pro sebe.

Google se rozhodl zpracovat dvě obrovské kolekce dat, které získal ze svého App Engine, webové služby, která umožňuje vývojářům vytvářet a provozovat vlastní online aplikace na infrastruktuře Google.

První dataset popisuje způsoby, jakými lidé využívají službu, a dnes narostl přibližně na 2000 gigabajtů, čili téměř 2 terabajty dat. Druhá datová množina o velikosti 10 gigabajtů ukazuje, jaké vyúčtování za tuto službu dostávali zákazníci. Google chtěl analyzovat vzájemné vztahy mezi těmito kolekcemi informací, takže je spojil do služby nazvané Big Query. Spojení trvalo 60 sekund a propojilo všechna data a operace související s jedním každým uživatelem. 60 sekund je absurdně krátký čas pro podobně rozsáhlé množiny dat a nebylo potřeba žádné speciální programování, postačovaly standardní nástroje zabudované do Big Query. A jak společnost minulý týden ohlásila, tyto nástroje jsou dnes dostupné pro vývojáře budující svá řešení na App Engine.

Nástroje se chovají podobně, jako řada rychlých dotazů, které se běžně používají u běžných relačních databází s jazykem SQL. Rozdílné je především obrovské množství dat. Poslední reinkarnace BigQuery je opět ukázkou toho, kam směřují dnešní nástroje určené pro „BigData“ – snaží se chovat víc a víc jako tradiční databáze.

Minulý týden Google do BigQuery začlenil dva nové nástroje, „Big JOIN“ umožňuje vývojářům kombinovat data velkých souborů stejným způsobem, jakým Google zpracovat své záznam v App Engine, a „Big Group Aggreagations“ data dělí do charakteristických segmentů, například tak, jak uživatel separoval záznamy a operace týkající se jednotlivých uživatelů.

Již dlouhou dobu existují nástroje, které nabízejí spouštění dotazů SQL na platformách big dat, příkladem toho je například Hadoop. Ty často vyžadují značné množství času, pokud ne rovnou speciální programovací vzdělání. Nástroje jako BigQuery a Dremel se snaží tuto situaci změnit.

Dremel je softwarová platforma, která spojuje výkon mnoha stovek serverů a dokáže provádět dotazy na souborech o velikosti petabajtů dat s dobou běhu dotazu pouhých sekund. Poprvé ji Google zmínil v odborném článku, který způsobil v akademické komunitě docela pozdvižení. Řada z vědců by do té doby přísahala na to, že to není proveditelné.

Google nikdy software Dremel neuvolnil, ale BigQuery může kdokoli používat na jeho infrastruktuře. Pouze je třeba vstupní data zformátovat podle standardu CSV nebo JSON a nahrát je na do Google Cloud Storage, obecné služby zaměřené na ukládání velkých dat. Google v současnosti spolupracuje se společnostmi jako je Informatica a Talend a vyvíjejí nástroje, které usnadní streamování velkého množství dat z lokálních softwarových řešení.