Data míří do gridů

Pokud bychom měli soudit pouze podle pozornosti médií, pak datový grid hraje v porovnání s výpočetním gridem druhé h...


Pokud bychom měli soudit pouze podle pozornosti médií, pak datový grid hraje v
porovnání s výpočetním gridem druhé housle. Firmy a veřejné instituce, jež
hledají lepší způsoby sdílení a správy velkého množství dat, si ale datových
gridů všímají stále více.
Výpočetní grid umožňuje uživatelům vzít výpočetní zdroje v distribuovaném a
heterogenním prostředí a spravovat je jako jeden celek. Jako jeden celek je
rovněž mohou využít pro řešení svých výpočetních problémů.
Datový grid funguje podobně. Využívá middlewarové vrstvy a metadat k tomu, aby
uživatelům poskytl centralizovaný pohled na distribuovaná data, aniž by tato
data bylo nutno fyzicky centralizovat.
Data mohou být umístěna na systémech s různými operačními systémy, například
Windows, Unix nebo Linux. Mohou být strukturovaná či nestrukturovaná, mohou být
uložena na různých typech médií. Z hlediska uživatele jsou všechny tyto
skutečnosti do značné míry transparentní.
Datový a výpočetní grid mohou navzájem spolupracovat. Existují zde však jisté
hranice možností. Datový grid například nenabízí prostředky pro vyhledávání a
kategorizaci nestrukturovaných dat.

Pomalu kupředu
Technologie datových gridů se nachází ve stadiu raného přijetí a již delší dobu
přitahuje hlavně pozornost výzkumných institucí, které disponují rozsáhlými a
rozptýlenými úložišti dat. Jde například o organizace jako Pfizer Global
Research & Development, CASS (Center for Advanced Spatial Studies) při
Arkansaské univerzitě nebo výzkumná konsorcia typu DataGrid, což je projekt
Evropské unie, vedený výzkumným centrem pro fyziku elementárních částic CERN.
Datové gridy najdou podle analytiků a uživatelů širší uplatnění spolu s tím,
jak budou dospívat standardy, a poté, co budou vyřešeny některé palčivé
problémy. K těm patří například správa bezpečnosti v distribuovaných
prostředích. "Považuji přísliby gridů za velmi vzrušující," říká Paul Lewis,
ředitel pro výzkum informační architektury firmy Pfizer. "Nicméně je před námi
ještě množství další práce," dodává vzápětí.

Hledání podpory
Na trhu se již objevují první produkty, které podporují práci s daty v
gridových prostředích. Kupříkladu již zmíněná firma Pfizer využívá software pro
datové gridy od společnosti Avaki. CASS zase využívá výhod gridových funkcí
vlajkové lodi firmy Oracle, databáze Oracle 10g.
Samotná koncepce gridů však vyžaduje propojenost nesourodých aplikací a zdrojů
dat. Dokud tedy výrobci nenabídnou v rámci vlastních produktů standardizované
gridové funkce, rozhraní a procesy, bude přijímání datových gridů omezené.
"Výrobci musejí říci: My budeme v našich produktech gridy podporovat,
konstatuje Lewis a dodává: "Pokud takovou podporu nabídne více výrobců, usnadní
nám to práci, jelikož budeme moci v případě potřeby zvýšené kapacity využít
většího počtu počítačů."
Vznikající produkty pro datové gridy, jako je ten od firmy Avaki, jsou i přes
zmíněné problémy již využívány v praxi. Nicméně přední vizionáři, kteří stojí
za úsilím týkajícím se datových gridů, chtějí více než jen nasazení gridů v
jednotlivých firmách. Představují si vývoj systémů, které budou propojovat
velký počet firem nebo celé dodavatelské řetězce či základny zákazníků.
"Ekvivalent internetového protokolu pro vzdálený přístup k datům se teprve
vyvíjí," upozorňuje Ian Foster, vedoucí vědecký pracovník a ředitel Distributed
Systems Lab při ANL. Foster je současně spoluředitelem projektu Globus Alliance
pro standardizaci gridů. "Jistě, máme některá velmi dobrá řešení pro data pevně
umístěná v souborech a začínáme řešit relační a XML databáze, ale to neznamená,
že bychom už byli na konci cesty," konstatuje.

Gridy podstupují zkoušku
Mezi průkopníky velkých datových gridů se řadí projekt DataGrid, který během
uplynulých dvou let věnoval 10 milionů eur na vývoj testovací základny
propojující nejvýznamnější evropské výzkumné instituce. Ty by měly společně
využívat desítek tisíc výpočetních zdrojů.
Projekt DataGrid řešil jednotný přístup k těmto zdrojům, bezpečnost a replikaci
dat tak, aby se data umístěná na jiném systému jevila uživateli jako lokální.
"Gridový middleware je stále křehký a bezpečnost rozhodně nelze označit za
dokonalou," popisuje situaci Fabrizio Gigliardi, který celému projektu šéfuje.
Nicméně pokroky byly podle něj natolik průkazné, že EU schválila projektu více
než 30milionovou dotaci pro další dva roky. Ta by měla sloužit k financování
většího subprojektu s názvem Enabling Grids for E-science in Europe (EGEE).
Současné datové gridy firmy Avaki umožňují výzkumným pracovníkům společnosti
Pfizer sdílení dat o genetickém výzkumu. Dříve byla publikována a
zpřístupňována dalším vědcům prostřednictvím FTP. "To není efektivní způsob
využití naší sítě, a navíc bylo třeba sdílení realizovat manuálně," vysvětluje
Lewis. "Při přenosu přes FTP také může snadno docházet k chybám," dodává.
Nyní jsou data publikována pomocí gridu a přístup k nim má kdokoliv s
příslušnými oprávněními. "Díky využití mechanismů vyrovnávací paměti se data
uživatelům skutečně jeví jako lokální," vysvětluje Lewis.

Přínosy gridu
Jedním z klíčových přínosů gridového přístupu je možnost optimálně využít
kombinace nabídek různých výrobců. "To znamená potenciální snížení nákladů na
hardware," pochvaluje si Fred Limp, ředitel CASS při Arkansaské univerzitě.
"Využívání Oracle 10g nám dává flexibilitu," říká Limp. "Grid snižuje náklady a
zlepšuje schopnosti našeho centra při zpracování dat. Mám pro vlastní aplikace
k dispozici libovolný zdroj v rámci gridu podle potřeby," dodává.
Phillip Russom, analytik Forrester Research, tvrdí, že produkty firem Oracle a
Avaki představují špičku v oblasti gridových produktů, nicméně očekává, že se
brzy připojí i další výrobci. Primárními firemními uživateli přitom podle něj
pravděpodobně budou finanční instituce, pojišťovny a další společnosti s
vysokými požadavky na práci s daty. "Gridový přístup pro ně může znamenat
způsob integrace stávajících datových skladů či integraci integrací," uzavírá
Russom.

Typická prostředí datových gridů
vědecké aplikace
aplikace náročné na výpočetní výkon
rozsáhlé soubory dat a archivů
projekty a firmy zahrnující rozptýlené uživatele a zdroje
projekty a firmy vyžadující velký rozsah funkcí a zdrojů
Zdroj: Globus Alliance









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.