Jak zpracovat petabajty dat

Vědecké experimenty, které budou spuštěny v následujících letech, vyprodukují obrovská množství nových dat. Jejic...


Vědecké experimenty, které budou spuštěny v následujících letech, vyprodukují
obrovská množství nových dat. Jejich skladování, distribuce i zpracování si
vyžádá zcela nové přístupy. Proto vzniká nová počítačová síť jménem GriPhyN.
V roce 1990 vznikl v Evropských laboratořích částicové fyziky (CERN) v Ženevě
systém world wide web. I nyní je toto pracoviště zapojeno v projektu, který by
měl posunout možnosti počítačového zpracování dat o pořádný kus cesty dopředu.
Do projektu GriPhyN (grid Physics Network) se přitom zapojí také univerzity z
USA a americká National Science Foundation (NSF) již oznámila udělení grantu ve
výši téměř 12 milionů dolarů.
V CERNu se na urychlovači částic LHC (Large Hadron Collider) připravují
experimenty, které by měly umožnit nahlédnout do úplných základů struktury
hmoty. Cílem je zodpovědět otázky typu "proč proton váží 2 000krát více než
elektron". Každý z experimentů zaměstná řádově tisíce vědců z celého světa. A
každý z nich bude produkovat petabajty dat (peta = 1015) ročně.
Již v loňském roce byl přitom zahájen další velmi ambiciózní projekt pátrání po
gravitačních vlnách produkovaných pulzary, supernovami a dalšími exotickými
vesmírnými objekty. Už nyní je v provozu také automatická prohlídka oblohy
(SDSS Sloan Digital Sky Survey), jejímž cílem je pořízení dosud nejobsáhlejšího
astronomického katalogu v digitální podobě.

Grid pro fyziky
Enormní množství dat, jejich skladování, zpracování a zpřístupnění tisícům
vědců z celého světa, to všechno jsou faktory dosud bezprecedentní. Žádný
počítač není dostatečně výkonný, aby všechny tyto funkce zvládl. Koncepce
GriPhyN proto přináší řešení v podobě propojení univerzit, superpočítačových
center, výzkumných laboratoří a dalších zdrojů do jediného obřího počítače
virtuálního. Jeden z vedoucích celého projektu, profesor Ian Foster z
University of Chicago, přirovnal GriPhyN k jakémusi Napsteru pro vědce.
Termín grid (z 1. části zkratky GriPhyN) ukazuje na analogii s elektrickou
rozvodnou sítí. Kdykoliv připojíte spotřebič k této síti, nevíte, zda
odebíranou energii vyrobila tepelná elektrárna nacházející se v severních
Čechách, vodní elektrárna na Vltavě či jedna z jaderných elektráren pouze
očekáváte její dodávku. Princip gridu je podobný. Po zadání úlohy do
celosvětové sítě daný vědec nebude vědět, zda jeho úlohu zrovna řeší Národní
počítačové centrum v Indianě či PC na některé universitě. Síť automaticky tuto
úlohu zadala některému v daný okamžik zrovna nevyužitému zdroji.
Aby bylo možno uvést myšlenku gridu do praxe, musí informační technologie
překonat řadu doposud neřešených problémů:
Rychlý a jednoduchý přístup k datovým souborům z databází, jejichž velikost
vzroste v následujícím desetiletí ze 100 TB na 100 PT.
Jednoduchý přístup k distribuovaným výpočetním zdrojům, jejichž výkon během
následujících deseti let vzroste z teraflopů na petaflopy.
Spojení řádově tisíců pracovišť, přičemž šířka přenosového pásma jednotlivých z
nich se může lišit o celé řády.
Cílů projektu přitom nelze dosáhnout pouhým přidáním výpočetních zdrojů.
Realizace myšlenky bude vyžadovat řadu nových řešení, například algoritmy
distribuovaného počítání, vysokorychlostní sítě, uchování rozsáhlého množství
dat a prostředky pro jeho řízení a kontrolu.
Mezi jednotlivými experimenty, pro jejichž řešení GriPhyN vzniká, existuje
navíc řada odlišností. Hledání velmi slabých signálů v rámci projektu LIGO bude
vyžadovat velký výpočetní výkon, řádově až petaflopy, což je nesrovnatelně více
než oba experimenty na LHC. Tyto pokusy budou na druhé straně ale produkovat o
dva řády více dat než LIGO, jehož množství výstupních dat je zase mnohem větší
než u SDSS. Rovněž rozsah vědecké komunity u jednotlivých experimentů je různý.
Zatímco data LHC budou očekávat tisíce vědců, u zbývajících projektů to budou
stovky.

Vrstevnatá struktura
Navrhované řešení předpokládá propojení výpočetních zdrojů CERNu, univerzit a
výzkumných laboratoří do víceúrovňové hierarchické počítačové sítě, jež by byla
mezikontinentální co se týká geografického rozložení. Tato síť by měla mít pět
vrstev:
Vrstva 0 CERN, experimenty ATLAS a CMS
Vrstva 1 americké národní centrum pro experimenty ATLAS, CMS, LIGO a SDSS
Vrstva 2 regionální centra umístěná na univerzitách (malé země, státy USA)
Vrstva 3 výpočetní zdroje výzkumných skupin na jednotlivých univerzitách
Vrstva 4 individuální pracovní stanice (tisíce)
Každá vrstva je definována kapacitou dat, které je schopna ukládat a poskytovat
na vstupu/výstupu. V rámci grantu americké Národní vědecké nadace bude
financována vrstva 2, zatímco vrstvu 1 by mělo vybudovat americké Ministerstvo
energetiky (DoE), neboť právě v jeho národních laboratořích budou centra pro
ATLAS a CMS. Vrstvu nula má na starosti samozřejmě CERN. A zbývající dvě vrstvy
jsou úkolem jednotlivých pracovišť, která budou do gridu zapojena.
Zatímco vrstvy 3 a 4 vzniknou v podstatě "jenom" rozšířením současných kapacit
a zdrojů, u vrstvy 2 se bude jednat o zcela nový výpočetní zdroj.
Multigigabitová páteřní síť propojí jednotlivá pracoviště 2. vrstvy s centry
vrstvy 1 a s CERNem. K této síti budou připojena pracoviště nižších vrstev
pomocí v té době již existujícího internetu nové generace. Předpokládá se
existence 19-20 center 2. úrovně. Odhadované náklady na jejich zřízení jsou
85-90 milionů dolarů investovaných v průběhu 5 let.

Expertní obsazení
Tým GriPhyN je tvořen sedmi výzkumnými skupinami a členy všech čtyř rozsáhlých
experimentů. Požadavky na výpočetní výkon během následujícího desetiletí
vzrostou řádově ze stovek terabajtů na stovky petabajtů. Výpočetní i skladovací
kapacity musí být z technických i strategických důvodů geograficky rozloženy
mezi národní, regionální a univerzitní centra i individuální počítače. Rozsah
tohoto úkolu zdaleka přesahuje současné možnosti řízení a zpracování dat.
Základem koncepce budoucího systému je proto představa tzv. virtuálních dat
(Virtual Data), která zahrnuje definici a dodání potenciálně neomezeného
virtuálního prostoru. V tomto virtuálním datovém prostoru bude každý požadavek
uspokojen buď přímým přístupem k datům, nebo výpočtem. Užitá strategie při
řešení každého požadavku bude záviset na lokálních i globálních zdrojích a
bezpečnostních omezeních.
Ačkoliv hlavním cílem projektu GriPhyN je základní výzkum v oblasti virtuálních
datových sítí, budou zároveň vytvářeny i softwarové systémy a aplikovány
technologie umožňující analýzu dat. Vzniklé výpočetní kapacity najdou své
uplatnění například i v biologii (projekt čtení lidského genomu), medicíně
(projekt mapování lidského mozku), studiu životního prostředí (dálkový průzkum
Země), rentgenové krystalografii (databáze molekulárních struktur), geofyzice
(časové řady seizmických dat), meteorologii (analýza satelitních snímků) a řadě
dalších oborů.

Virtuální datová síť
Ve zmíněných experimentech se objevují problémy, lišící se v následujících
aspektech od v současné době vyřešených úkolů:
Analýza dat je nejen výpočtově, ale i datově intenzivní a může zahrnovat tisíce
počítačů a dalších síťových zdrojů. Problémem není jenom přenos velkého
množství dat, ale též koordinované řízení jejich zpracování.
Potřebná koordinace se přitom týká velkého počtu zdrojů, které jsou ze
strategických a technických důvodů geograficky značně distribuované a nejsou
ani centrálně řízené.
Rozsah uživatelských požadavků a možností jednotlivých zdrojů je obrovský od
komplexních problémů jednotlivých experimentů po individuálních požadavky
jednotlivých účastníků.
Virtuální datová síť má proto následující charakteristiky:
Velký rozsah (národní, celosvětový), zahrnuje velké množství zdrojů.
Je to víc než "jenom" síť v podobě, jakou má například dnešní internet;
poskytuje nové sofistikované služby, mechanismy a rozhraní, které dohromady
umožní, aby vzdálené zdroje byly využity při koordinovaném úsilí.
Poskytuje nový stupeň průhlednosti v tom, jak jsou integrovány manipulace s
údaji o datech a zpracovací kapacitě. Tato průhlednost je nezbytná z toho
důvodu, aby síť využívající mnohaúrovňové a rozptýlené zdroje bylo možno nějak
optimalizovat.
Představa virtuálních dat znamená, že všechna data s výjimkou dat
experimentálních mohou existovat pouze jako specifikace postupu jejich odvození
z experimentálních dat. To znamená, že grid může obsahovat nula, jednu či hned
několik kopií odvozených dat v závislosti na pravděpodobnosti požadavků na ně a
na relativních nákladech jejich výpočtu, skladování a přenosu.
Konkrétní příklad může vypadat následujícím způsobem (viz také schéma na této
stránce). Astronom se zabývá souvislostmi mezi orientací galaxií a efektem
gravitační čočky vytvořené temnou mezigalaktickou hmotou. Ke svému výzkumu
využije data pocházející ze SDSS. Potřebuje přitom analyzovat řádově desítky
milionů galaxií. Pro každou z nich musí nejdříve získat její snímek, zpracovat
jej a uložit výsledek. Vykonání tohoto požadavku znamená několikanásobný
přístup do katalogu virtuálních dat.
Nejdříve je zjištěno, zda už podobná analýza nebyla provedena. Pokud ne, jsou
vyhledány aplikace potřebné pro transformaci hrubých dat a k určení místa
jejich uložení. Může se jednat o síťovou cache, vzdálené diskové systémy či
"hluboký" archiv. Dále jsou zjištěny možnosti zapojení jednotlivých počítačů a
sítí, kterou budou schopny požadované operace provést. Tento jednotlivý
požadavek tak může zahrnovat využití tisíců procesorů a přesun terabajtů dat po
celé síti.
Cílem projektu přitom samozřejmě není jen teoretický výzkum v dané oblasti, ale
rovněž aplikace získaných poznatků při vývoji výpočetních nástrojů. Postupně by
měla být vyvinuta celá komplexní sada nástrojů virtuální sítě (Virtual Data
Toolkit, VDT).

IT pro virtuální data
Realizace pojmu virtuálních dat v sobě zahrnuje nutný výzkum ve třech hlavních
směrech.
Technologie virtuálních dat: Budou vyžadovány nové metody katalogizace,
charakterizace, ověřování a archivace softwarových produktů, které budou
sloužit k integraci manipulace s virtuálními daty, s existujícími informačními
modely a přenosovými protokoly. Tyto metody musejí být aplikovány v prostředí,
ve kterém jsou jednotlivé softwarové komponenty, data a výpočetní kapacity
distribuovány, pod lokální kontrolou a s možností updatu. Katalog virtuálních
dat je zdrojem mnoha typů informací, jako jsou například metadata, procedury,
reprodukce dat či informace o samotném gridu. Ačkoliv obsahuje různé typy dat s
různými charakteristikami, jednotná reprezentace a přístupové metody zjednoduší
plánování požadavků.
Plánování síťových dat a výpočetních zdrojů: Faktory, které ovlivňují vývoj
plánu, zahrnují požadavek uživatele, plánování na globální i lokální úrovni a
celkový stav systému. Požadavek nemusí znamenat pouze samotnou žádost o splnění
určitého úkolu, ale může zároveň obsahovat optimalizační kritéria, jako je
zpracování v nejkratším možném čase či využití co nejmenšího množství síťových
zdrojů. Jakýkoliv plán je samozřejmě omezen dostupností zdrojů, a to znamená
nutnost získání informací o systému. To ovšem komplikuje plánování kvůli
rozsáhlosti systému a obtížnosti stanovení budoucího stavu systému.
Řízení výměny dat a prováděných úkolů mezi jednotlivými centry a organizacemi:
Poté, co je vyvinut plán pro vyřešení daného požadavku, vyvstane potřeba
mechanismu, který bude řídit provedení tohoto plánu v rámci virtuální datové
sítě. V souladu s představou nástrojů virtuálních dat mají i výkonné mechanismy
splňovat vrstevnatou strukturu. Budou založeny na existenci agentů různých
úrovní, kteří budou řídit distribuované výpočty, lokalizaci a následné zapojení
zdrojů, detekci chyb a interakci mezi plánem a jeho provedením. Simulace
chování gridu budou velmi důležitým vývojovým nástrojem.

Budoucnost
Grid zcela převrátí celosvětově zažitou představu jednotlivých pracovišť
soustředěných do center. Namísto přesunu lidí a zdrojů z různých míst do těchto
laboratorních center umožní přesun dat k lidem na různých místech.
Využití ve vědeckém výzkumu je zřejmé. Ale i komerční společnosti by mohly
možností těžit z možností nové sítě. Pokud by tato myšlenka přilákala soukromé
investory, mohl by grid velmi rychle následovat bouřlivý rozvoj internetu,
který následoval po jeho otevření komerčnímu světu.

text ON-LINE
Kompletní verzi tohoto článku najdete na portálu Science World
(www.scienceworld.cz) a datem 28. 2. 2003.

Proč se staví nová síť: urychlovač částic
SSDI Sloan Digital Sky Survey
Jedná se o jednu z nejambicióznějších astronomických map oblohy všech dob.
Cílem projektu je detailní zmapování jedné čtvrtiny oblohy, určení pozic a
absolutních jasností více než 100 milionů astronomických objektů a změření
vzdáleností více než milionu galaxií a kvasarů. Určení vzdáleností blízkých
galaxií umožní sestavit třírozměrný obraz vesmíru v objemu tisíckrát větším,
než bylo dosud uskutečněno. Naopak zjištění vzdáleností kvasarů, tedy
nejvzdálenějších známých objektů ve vesmíru, poskytne nevídaný pohled na
rozložení hmoty až na samé hranici pozorovatelného vesmíru.
Pozorování probíhá na Apache Point Observatory, která se nachází v Sacramento
Mountains (Nové Mexiko). Observatoř je položená ve výšce 2 788 metrů, což
společně s odlehlou polohou poskytuje tmavé noci bez světelného znečištění a
smogu. Pojmenování dostala podle nadace, která ji z velké části financuje.
Dalekohled pro přehlídku má průměr hlavního zrcadla 2,5 metru a je vybaven
elektronickým detektorem, který převádí záření kosmických objektů do digitální
podoby. Dalekohled rovněž obsahuje dvojici spektrografů, které slouží k
zjištění složení a vzdálenosti sledovaných objektů. Kamera hlavního dalekohledu
se skládá ze 30 "fotometrických" CCD čipů s matricí 2 048 x 2 048 obrazových
bodů, uspořádaných v poli 5 x 6, a z dalších 24 čipů o rozměrech 2 048 x 400,
které slouží pro astrometrii (měření poloh) a ke kontrole zaostření.
Projekt byl zahájen v roce 1999 a v konečném výsledku se předpokládá zmapování
téměř 8 500 čtverečních stupňů hvězdné oblohy. Na začátku letošního roku byl
zhruba v jedné polovině, podařilo se zmapovat 52 % plánové plochy a pořídit
spektra 38 % objektů. Ve srovnání s ostatními experimenty zahrnujícími projekt
GriPhyN je SDSS sice "nejmenší", ale jeho obrovský význam spočívá v tom, že už
dodává výsledky a vyvíjené nástroje virtuální datové sítě na nich mohou být
testovány.
LIGO Laser Interferometer Gravitational-Wave Observatory
Cílem projektu LIGO je detekce kosmických gravitačních vln. Skládá se ze dvou
vzdálených observatoří umístěných ve Spojených státech. Jedna z nich je v
Hanfordu (stát Washington), druhá v Livingstonu (Luisiana).
Každá observatoř je tvořena interferometrem s ramenem o délce 4 km, který
pomocí laserové paprsku měří změny ve vzdálenostech testovacích hmot. Změny
jsou řádu 10-16 centimetru. Znamená to, že testovací hmoty musejí být izolovány
od jakéhokoliv rušení. Pro vyhodnocování získaných dat to znamená hledání
extrémně slabého signálu ve srovnání se zdroji zašumění. Další výzvou je velmi
nízká frekvence detekovaných jevů. Odhaduje se, že LIGO zachytí méně než jeden
projev gravitačních vln za rok.
LHC Large Hadron Collider
Doslova explozi nových dat bude znamenat zprovoznění urychlovače nové generace
v CERNu. Množství získaných dat bude ohromující a bude se pohybovat v řádu
petabajtů (1015 bajtů) ročně.
Urychlovač LHC by měl být zprovozněn v roce 2007. Jeho úkolem je proniknout
mnohem hlouběji do struktury hmoty, než bylo možné doposud. Prostředkem k tomu
bude urychlení paprsků protonů a jejich srážky s energií 14 TeV. Pro srovnání s
energií 1 TeV (teraelektronvolt) se pohybuje letící komár, v urychlovači se
ovšem s takovou energií "pracuje" v prostoru bilionkrát menším, než je rozměr
našeho komára.
Dosažení obrovských energií (a tedy rychlostí) je umožněno extrémně silným
magnetickým polem, které protony urychluje. Takové magnetické pole je možno
vytvořit využitím jevu supravodivosti. Ovšem v tak velkém měřítku jako u LHC
supravodivosti ještě použito nebylo. Protože k supravodivosti dochází při velmi
nízkých teplotách, bude LHC pracovat téměř při teplotě absolutní nuly. Částice
budou urychlovány v prstenci o obvodu 27 km, který bude postaven v blízkosti
Ženevy na úpatí pohoří Jura.

Další informace
http://www.griphyn.org/index.php projekt GriPhyN
http://www.sdss.org výzkum Sloan Digital Sky Survey
http://www.ligo.caltech.edu Laser Interferometer Gravitational Wave Observatory
http://public.web.cern.ch/public/ European Organization for Nuclear Research









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.