Google uvolnil open source aplikaci Refine 2.0 pro třídění dat

13. 11. 2010

Sdílet

Společnost Google updatovala a znovu vydala open-source software na čištění, analyzování a transformování dat, nyní nazvaný Google Refine.

Tento software, jenž byl původně nazván Freebase Gridworks, získala společnost díky nákupu firmy Metaweb v červenci. Google Refine je kolekce nástrojů, která přijde vhod, když potřebujete získat užitečné informace ze souboru dat, zvláště pokud jde o neuspořádaná data.

Tato desktopová aplikace dokáže například najít všechny varianty určitého slova v souboru dat a nahradit je jiným termínem. Tento proces nazvaný normalizace není nic nového. Nicméně normalizování dat obvykle vyžaduje psaní kódu, který je specifický pro soubor dat, podotýká Christopher Groskopf, vývojář pro web Chicago Tribune.

"Genialita programu Gridworks je v tom, že je natolik obecný, že může pracovat se širokou škálou dat i bez nutnosti psát jakýkoliv kód. Ještě lepší je to, že výsledné operace jsou přenosné, takže proces použitý k vyčištění dat z roku 2009 se dá použít pro data z roku 2010," napsal Groskopf v blogovém příspěvku.

Software samozřejmě obsahuje řadu dalších nástrojů. Zahrnuje výrazový jazyk, který může být využit k analýze souboru dat. Filtry mohou být použity k izolaci podmnožin dat, které pak mohou být analyzovány nebo změněny pomocí sady transformačních příkazů.

Program pracuje s textovými soubory, data mohou být rozdělena do různých sloupců využitím čárek. Výsledky mohou být exportovány v JSON (JavaScript Object Notation) formátu, jenž může být jednoduše transformován do HTML tabulek nebo jiných formátů.

Aplikace může pracovat až s několika set tisíci řádky dat na jeden datový soubor v závislosti na paměti počítače. A na rozdíl od většiny tabulkových programů, tento software dokáže interaktivně transformovat velké podmnožiny dat, tvrdí společnost.

Společnost Google tento týden také informovala, že přidala několik nových funkcí do tohoto software, jenž byl oficiálně nazván Google Refine 2.0, včetně možnosti propojit záznamy s jinými databázemi a několik nových transformačních příkazů a výrazů.