CERN uvažuje o přenosu výpočtů dat z LHC na cloud

Sdílet

 Autor: © T. L. Furrer - Fotolia.com
Výzkumné centrum CERN plánuje nahradit paralelní výpočetní infrastrukturu typu grid veřejným cloudem.

Jeden z nejpřevratnějších objevů ve fyzice za poslední desítky let se výzkumníkům z CERNu podařil pomocí staré dobré infrastruktury grid computingu. Do budoucna však CERN přemýšlí o přechod na cloud.

Infrastruktura typu grid computing byla v posledních letech široce využívána pro výzkum, který skončil objevem Higgsova bosonu neboli takzvané „božské částice“.

Ve veřejném cloudu jsou data a výpočty skladovány v centrálně spravovaných datacentrech a uživatelé se k těmto zdrojům mohou připojit. CERN v minulosti, v období před cloudem, vytvořil síť typu grid spoléhající na více než 150 počítačových sítí, které mezi sebou sdílejí informace a společně provádějí komplexní výpočty.

Několik prvních let po vzniku grid computingu se tato infrastruktura mohla postarat ročně o 15 až 20 petabajtů dat. Tento rok je CERN na dobré cestě k vyprodukování až 30 PT dat. „Nebylo možné, aby toto mohl CERN provozovat vlastními prostředky,“ řekl Ian Bird, projektový vedoucí grid computingu v CERNu. Před pár lety byla fráze grid computing stejně významná jako je dnes cloud. „V jistém smyslu jsme cloud předběhli,“ řekl Bird.

CERN, ve kterém je těžištěm výzkumu Higgsova bosonu Velký hadronový urychlovač, je v gridu považován za 0. vrstvu. Shromažďuje data získaná při rozbíjení částic v tunelu LHC, která jsou dále pomocí gridu odeslána na jedenáct míst v 1. vrstvě. To jsou hlavní laboratoře s obrovskými datacentry. Ty většinu těchto dat zpracují a poté vytvoří sady dat, které jsou šířeny do více než 120 akademických institucí po celém světě. Tam jsou prováděny další testy a výzkumy.

Celý grid má diskovou kapacitu 200 PB a výpočetní kapacitu 300 000 jader, z nichž většina je propojena se 150 počítačovými centry přes linky 10 Gb/s. Grid je způsob, kterým lze svázat vše dohromady, aby to vypadalo jako jediný systém. Všechny zapojené servery používají varianty linuxové distribuce Red Hat a jejích derivací. CERN se také stará o jednu z nich nazvanou Scientific Linux.

Výzkum ale není obvykle organizován centrálně. Podle Birda se jedná o chaotický proces, kvůli kterému je složité naplánovat přesné množství výpočetních zdrojů, které budou potřeba k testům na různých serverech. Pokud dojde například k nárazu v LHC, náraz částice zanechá stopy v detektoru. První úroveň analýzy je rekonstrukce nárazu a vystopování cesty částic. Ta je většinou prováděna v 0. vrstvě a v serverech 1. vrstvy. Ostatní úrovně analýzy jsou rozděleny do menších datasetů a poslány partnerským akademickým institucím. Tam se provede množství statických analýz, histogramů a dolování data. „Průběh práce se vážně nedá předvídat,“ řekl Bird.

A to je také důvod, proč je Bird nadšen z potenciálu používání služby založené na cloudu. „Zjišťujeme, co vše by používání cloudového řešení zahrnovalo,“ řekl. „Momentálně si ale nejsme jisti cenou a dopadem na náš rozpočet.“ CERN je sponzorován akademickými institucemi, které mají přístup k datům vytvářeným v CERNu. „Z technického úhlu pohledu by to fungovat mohlo,“ řekl. „Jen nevíme, kde sehnat dostatek peněz.“

CERN se dvěma velkými evropskými výzkumnými organizacemi podnikl kroky k vytvoření veřejného cloudového zdroje Hellix Nebula (Vědecký cloud). Bird v cloudu vidí budoucnost a doufá, že do deseti let bude tam, kde je grid computing nyní. „Zatím nevím, jak se tam dostaneme,“ řekl. Ale i když to přinese nějaké problémy, Bird je přesvědčen, že si vědci, kteří provádí nejvýznamnější vědecké objevy, s cloudem určitě poradí.