Google Cloud Dataflow, jenž může sloužit jako případná náhrada Hadoopu, nabízí aplikační rámec, který v rámci jednoho procesu sjednotí data z různých zdrojů. Google Cloud Pub/Sub pro změnu představuje právě službu pro správu datových toků v reálném čase.
Obě služby tak rozšiřují nabídku nástrojů pro analýzu cloudových dat a vhodně doplňují už komerčně rozšířenou službu Google BigQuery sloužící k analýze rozsáhlých souborů nestrukturovaných dat. Podle Googlu, který je několik uplynulých měsíců nabízel v beta verzích k vyzkoušení, jsou navíc praktické v tom, že nemají tak vysoké nároky na údržbu jako běžné vnitropodnikové systémy.
Google začal služby nabízet jako součást Google Cloud Platformy, kolekce nástrojů pro správu a organizaci cloudových procesů. Díky Google Dataflow, která je schopna zpracovávat data z různých zdrojů, tak uživatel v podstatě nepotřebuje další ETL (extract, transform, load) software, tedy software pro extrakci, následný převod a nahrání dat. Zároveň Dataflow může sloužit jako rychlejší alternativa ke službám jako Hadoop, které data zpracovávají po dávkách.
Google Cloud Pub/Sub pro změnu slouží k posílání velkých objemů zpráv (informací či jiných dat), díky čemuž analytickým systémům umožňuje pracovat s nimi takřka okamžitě. Právě do služeb jako je Dataflow je Pub/Sub schopen poslat až milion zpráv v jediné vteřině. A podle Googlu jen během necelého půl roku zkušebního provozu rozeslali uživatelé prostřednictvím Pub/Sub přes trilion zpráv.
A cena za služby? U Pub/Sub začíná na čtyřiceti amerických centech (tedy necelých 10 Kč) za prvních 250 milionů zpráv, přičemž se zvyšujícím se objemem přenášených dat bude cena klesat.
U Dataflow se pak cena odvíjí v závislosti na povaze vykonávané práce, času, jaký operace zabere, a množství zpracovaných dat.