Analýza velkých objemů dat už není neřešitelným problémem

18. 6. 2011

Sdílet

Software Greenplum HD založený na platformě Hadoop (řešení pro data management od Apache), který umožňuje analyzovat velké objemy dat, představila společnost EMC.

Podle ní se Hadoop ukazuje jako nejvhodnější řešení pro tyto operace. Greenplum HD je k dispozici ve dvou základních variantách, Community Edition a Enterprise Editions, jež představují ucelenou platformu včetně instalace, školení a globální podpory.

Community Edition představuje plně certifikovaný bezplatný softwarový stack, jenž lze snadno stáhnout a který je optimalizován pro provoz formou virtualizovaného stroje. Navíc zajišťuje odolnost proti chybám u součástí Name Node a Job Tracker, které u standardních implementací softwaru Hadoop představují místa náchylná k selhání.

Enterprise Edition je určen pro nasazení v podnikových datových centrech a nabízí mimo jiné takové funkce, jako je ochrana proti poruchám prostřednictvím automatizované detekce a notifikace nefunkčních uzlů, administrace více lokalit, podpora snapshotů či replikace na velkou vzdálenost. Poskytuje také zjednodušený přístup k datům v databázích pomocí rozhraní Network File System (NFS).

Díky všem těmto funkcím poskytuje podle výrobce dvoj- až pětinásobné zvýšení výkonu oproti standardním balíčkovým verzím softwaru Apache Hadoop.

bitcoin_skoleni

EMC rovněž oznámila vysoce výkonné účelové appliance Greenplum HD Data Computing Appliance (DCA) určené k zpracování strukturovaných i nestrukturovaných datových sad pro účely obchodní analýzy.

Zařízení vycházející ze serveru x86 kombinuje open source platformu Apache Hadoop s databází EMC Greenplum a mimo jiné podporuje externí tabulky softwaru Hadoop, díky čemuž umožňuje přístup k datům v souborovém systému HDFS (Hadoop Distributed File System), aniž by bylo nutné data vyvolávat. Správci tak mohou paralelně číst a zapisovat soubory z databáze Greenplum do systému HDFS.