Apache vydává novou verzi Hadoop

3. 3. 2012

Sdílet

 Autor: © Petya Petrova - Fotolia.com
Organizace Apache Software Foundation připravuje aktualizaci technologie distribuovaného zpracování dat Hadoop. Podle představitelů Apache by tato platforma nově měla pracovat s mnohem větším množstvím počítačových clusterů a zvládat i vyšší zátěž.

Nové vydání Hadoop 0.23 by mohlo být nazýváno jako verze 2 nebo 3. Podle Aruna Murthyho je jeho hlavním cílem pracovat s 6000 uzly clusterů, současná verze běží na 4000 uzlech clusterů. Murthy je viceprezident Apache Hadoop a zakladatel firmy Hortonworks, která nabízí technologie a služby Hadoop. Verze 0.23 je v současné době prozatím nabízena jako alfa, finální verze by měla být k dispozici koncem tohoto roku.


Hadoop se stal populární díky možnosti správy velkých datových souborů. Plány pro Hadoop 0.23 prozrazují, že by měl pracovat s 6000 uskupeními, každé s 16 nebo více jádry, a zpracovávat souběžně 10 tisíc úkolů. Uživatelé tak provedou více práce. Alespoň podle Murthyho vyjádření během prezentace na konferenci O`Reilly Strata ve městě Santa Clara. Nakonec dodal, že „výkon je něco, čeho uživatelé nemají nikdy dost.“

bitcoin školení listopad 24


Ostatní vylepšení se zaměřují také na HDFS (Hadoop Distributed File System) a stejně tak na jeho vysokou dostupnost. Bude vylepšen i MapReduce, což je programovací model a softwarový framework v Hadoopu. Murthy prozrazuje, že toto vylepšení nazvané Yarn, „z Hadoopu učiní mnohem obecnější systém na zpracování dat.“ Yarn je vysoce výkonný přepsaný MapReduce. A podle Erica Baldeschwielera z firmy Hortonworks nabízí dvakrát vyšší propustnost ve velkých skupinách. Kompatibilita s protokolem Wire plánovaná pro verzi 0.23 umožní serveru a klientovi provádět nezávisle vylepšení.


Na zmíněné konferenci také oznámily firmy MarkLogic a Hortonworks integraci mezi Hortonworks Data Platform a provozní databázovou platformou firmy MarkLogic. Toto spojení podle společnosti MarkLogic umožní uživatelům kombinovat MapReduce s interaktivní analýzou v reálném čase a indexováním v jediné platformě. Toto řešení by mělo pomoci uživatelům lépe pracovat s velkým datovým zatížením. Společnost MarkLogic certifikuje svůj Connector pro Hadoop s platformou Hortonworks Data Platform.