Apache vydává novou verzi Hadoop

3. 3. 2012

Sdílet

 Autor: © Petya Petrova - Fotolia.com
Organizace Apache Software Foundation připravuje aktualizaci technologie distribuovaného zpracování dat Hadoop. Podle představitelů Apache by tato platforma nově měla pracovat s mnohem větším množstvím počítačových clusterů a zvládat i vyšší zátěž.

Nové vydání Hadoop 0.23 by mohlo být nazýváno jako verze 2 nebo 3. Podle Aruna Murthyho je jeho hlavním cílem pracovat s 6000 uzly clusterů, současná verze běží na 4000 uzlech clusterů. Murthy je viceprezident Apache Hadoop a zakladatel firmy Hortonworks, která nabízí technologie a služby Hadoop. Verze 0.23 je v současné době prozatím nabízena jako alfa, finální verze by měla být k dispozici koncem tohoto roku.


Hadoop se stal populární díky možnosti správy velkých datových souborů. Plány pro Hadoop 0.23 prozrazují, že by měl pracovat s 6000 uskupeními, každé s 16 nebo více jádry, a zpracovávat souběžně 10 tisíc úkolů. Uživatelé tak provedou více práce. Alespoň podle Murthyho vyjádření během prezentace na konferenci O`Reilly Strata ve městě Santa Clara. Nakonec dodal, že „výkon je něco, čeho uživatelé nemají nikdy dost.“

bitcoin_skoleni


Ostatní vylepšení se zaměřují také na HDFS (Hadoop Distributed File System) a stejně tak na jeho vysokou dostupnost. Bude vylepšen i MapReduce, což je programovací model a softwarový framework v Hadoopu. Murthy prozrazuje, že toto vylepšení nazvané Yarn, „z Hadoopu učiní mnohem obecnější systém na zpracování dat.“ Yarn je vysoce výkonný přepsaný MapReduce. A podle Erica Baldeschwielera z firmy Hortonworks nabízí dvakrát vyšší propustnost ve velkých skupinách. Kompatibilita s protokolem Wire plánovaná pro verzi 0.23 umožní serveru a klientovi provádět nezávisle vylepšení.


Na zmíněné konferenci také oznámily firmy MarkLogic a Hortonworks integraci mezi Hortonworks Data Platform a provozní databázovou platformou firmy MarkLogic. Toto spojení podle společnosti MarkLogic umožní uživatelům kombinovat MapReduce s interaktivní analýzou v reálném čase a indexováním v jediné platformě. Toto řešení by mělo pomoci uživatelům lépe pracovat s velkým datovým zatížením. Společnost MarkLogic certifikuje svůj Connector pro Hadoop s platformou Hortonworks Data Platform.