Big data či snad Velká data označuje poradenská firma Gartner za soubory dat, jejichž velikost je mimo schopnosti zachycovat, spravovat a zpracovávat data běžně používaným softwarovými prostředky v rozumném čase. Dříve byla „big data“záležitostí pouze pro vědce a internetové giganty včetně několika megasociálních monster, jako je Amazon, Twitter, Facebook, Shuterfly.
Stále více a více korporací všech druhů se snaží získat konkurenční výhodu ponořením se do velkých dat s nadějí, že se jim podaří odhalit něco užitečného v informacích, které vlastní. Společnosti jako je Walmart, Pfizer či prodejní řetězec Wawa oznamují (nebo tiše realizují) své velké plány na big data. Jak říká Asish Nadkarni, analytik firmy IDC:„Pokud to nebudou dělat oni, jejich konkurence ano.“ Výsledná rostoucí potřeba úložného prostor je značná, zdvojnásobuje se každých 30 měsíců.
Organizace všech velikosti jsou zaplavena daty, z interních i externích zdrojů. Značná část těchto dat je streamována v reálném čase – a mnoho z toho je zastaralé během minut, hodin nebo několika dnů. Cena akcií, je například relevantní minutu či dvě, než se cena změní. Baseballový výsledek má hodnotu po 24 hodin nebo do další hry. Patří sem i aktualizace počasí, dopravy, trendová témata na sociálních sítích a tweety o událostech po světě.
Tato data musí být uložena v primárních úložištích, dokud o ně panuje největší zájem, a potom přesunuta na levnější, i když pomalejší úložiště. Trendy posledních let jasně ukazují, že data uložená po delší dobu většinou nepotřebují být na jednoduše dostupných primárních discích.
Správci mohou samozřejmě zmenšit potřebný úložný prostor pomocí deduplikace, která eliminuje redundantní data – pomocí kompresních nástrojů identifikuje krátké opakující se řetězce v jednotlivých souborech a uloží jedinou kopií každého. Kolik se dá tak ušetřit? Ve studii Aberdeen group. 13 % respondentů uvedlo, že zredukovaly data o 50 %, ale typičtější hodnota pro většinu společností bude 30- 50% redukce často opakovaných strukturovaných dat.
Vzhledem k nárokům na hardware i na personál se data přesouvají na bedra externích specializovaných společností. Novou změnou paradigmatu je potom budování výpočetních kapacity u ukládací vrstvy. Je prakticky nemožné, pokud máte pouze minuty na analýzu dat, je přesouvat od úložiště k poskytovateli analytických služeb.