Pronájem počítačů se vrací

Bioinformatika je životně závislá na výkonném hardwaru. Rozvoj biotechnologie stále stojí a padá se zvyšováním výk...


Bioinformatika je životně závislá na výkonném hardwaru.
Rozvoj biotechnologie stále stojí a padá se zvyšováním výkonnosti hardwaru.
Zatímco u řady softwarových produktů roste s každou další verzí hardwarová
náročnost, aniž by uživatel na první pohled zaznamenal výraznější změny
funkčnosti, o úspěšnosti bioinformatických projektů může rozhodnout množství
dostupné paměti RAM.
Bioinformatika jako nový obor vznikla vzájemnou kooperací mnoha vědních
disciplín. Setkávají se v ní např. znalosti biologů, biochemiků, molekulárních
genetiků, informatiků, lékařů, biostatistiků. Disciplína přitahuje nemalou
pozornost díky občasným, mediálně nicméně snadno prezentovaným výsledkům, jako
je přečtený lidský genom či sestavený "atlas" lidského mozku.
Mohlo by se tedy zdát, že rozvoji oboru spojenému s rychlou frekvencí nových
objevů nestojí nic v cestě. Zůstává zde však poněkud nečekaně minimálně jeden
problém. Ačkoliv výkon současných superpočítačů roste rok od roku mílovými
kroky, na poli biotechnologického výzkumu se však stále potýká s hranicemi
svých možností.

Složité systémy
Bioinformatikou v užším slova smyslu jsou obvykle míněny mechanismy kódování a
sdílení informace v živých systémech; v širším slova smyslu však tento pojem
zahrnuje i biomatematickou analýzu chování těchto biologických systémů, jejich
zkoumání a modelování procesů v nich probíhajících. Živé objekty, ať už
zkoumané nebo simulované, v sobě obsahují obrovské množství informací.
Pouhé přečtení většiny lidského genomu trvalo několik let a to se do něj
zapojily vědecké laboratoře po celém světě. V jistém ohledu by se dalo říci, že
živé systémy jsou stále složitější než současné počítače; právě proto trvá hlad
po výkonnějším hardwaru.
Při řešení bioinformatických úloh najdou uplatnění nejvýkonnější výpočetní
kapacity dneška v podobě superpočítačů i obrovských sítí "obyčejných" počítačů,
ať už jde o cluster nebo distribuovaný výpočet využívající internetu. V tomto
ohledu je bioinformatika podobná například analýze a předvídání počasí, jinému
datově velmi náročnému výzkumu přírodních systémů.

Rozhoduje RAM
Biotechnologičtí výzkumníci jsou dosud často nuceni se vyrovnávat s faktem, že
velká část jejich úspěchů závisí na dostupnosti dostatečně výkonného hardwaru,
případně že jeho nedostupnost značně ovlivní časový průběh projektů. Výstižně
tento fakt shrnul Mark Boguski, ředitel Allen Brain Atlas Project (www.
brainatlas.org, organizace je sponzorovaná spoluzakladatelem Microsoftu Paulem
Allenem, odtud i název). Na konferenci Bio-IT World Conference&Expo, kterou
pořádala společnost IDG, Boguski mj. uvedl: "Naše práce často stojí a padá na
vlastnictví dostatku paměti RAM."
Boguski dobře ví, o čem mluví. Allen Brain Atlas Project, výzkum, usilující mj.
o podrobné zmapování mozku myši, vygeneroval za tři roky svého trvání přes 1
petabyte (1 000 000 gigabytů) dat. "Toto je myslím skutečná výzva pro
existující síťové a úložné technologie," uvedl Boguski.
Spolehlivé uložení takového množství informací tak, aby přístup k nim byl
dostatečně rychlý, nepředstavuje ani dnes jednoduchou záležitost. Ještě
podstatně náročnější je však problém výpočetního výkonu, schopném v operativním
čase s těmito daty pracovat. Mnoho biotechnologických společností řeší tuto
svízel pronájmem výpočetního času od firem, specializujících se na jeho
poskytování právě pro tyto účely. Jako bychom se vraceli do dob počátků
sálových počítačů, kdy se stroje také spíše pronajímaly než kupovaly...

Clustery a gridy
Pronájem výpočetního výkonu však představuje smysluplné řešení jen u
krátkodobějších, méně náročných projektů. Při obrovských cenách superpočítačů
se čím dál více výzkumných týmů rozhoduje pro pořízení clusterů. Ne každá úloha
lze však jednoduše rozdělit na části a paralelizovat pro velké množství
výpočetních jednotek.
Obvyklou součástí dnešního biotechnologického výzkumu je tak i vývoj vlastního
sofwarového řešení, upravujícího výpočetní běh pro místní podmínky daného
pracoviště. Tak je tomu i v případě Allen Brain Atlas Project, jehož 26 členů
zahrnuje jak vědce, tak IT specialisty, pomáhajících výzkumnému týmu ve
zdolávání technologických překážek. Nutností je samozřejmě spolupráce s výrobci
hardwaru.
Biotechnologická společnost Novartis se s narůstajícími požadavky na
zpracovávající výkon vypořádala za pomoci vlastního gridu. K účelu pilotního
projektu si minulý rok pořídila software společnosti United Devices a úspěšně
propojila 2 700 stolních počítačů ve svých kancelářských a podpůrných
provozech. Podobně jako u většiny gridů (a na rozdíl od "regulérních" clusterů)
byly počítače dále využívány pro své původní účely a biotechnologický software
běžel pouze na pozadí. Zkušební grid dosáhl ekvivalentní výpočetní síly jako
superpočítač s 5 Tflops (bilionů operací s pohyblivou desetinnou čárkou).
Úspěch tohoto projektu vedl Novartis k záměru spustit nový grid, tentokrát na
každém PC v jeho pobočkách po celém světě. Pro tento účel v současné době
společnost upgraduje svých 65 000 stolních počítačů na sestavy Hewlett-Packard
s procesory Pentium 4.
Formou clusteru vznikl i nejvýkonnější "domácí" (ve smyslu nikoliv
superpočítačový) počítač dneška (a číslo tři na seznamu prvních 500
superpočítačů), Terascale Computing Facility (TCF) na strojní fakultě Virginia
Tech. Systém sestává z 1100 počítačů s procesory Apple G5, kde každý uzel
disponuje dvěma těmito 64bitovými PowerPC procesory o rychlosti 2 GHz, 4 GB
paměti RAM a 160 GB úložného prostoru. Celková cena TCF byla vyčíslena na 5,2
milionů dolarů, což zástupci univerzity ohodnotili jako jeden z nejlevnějších
superpočítačů na světě. Výkon 10 Tflops je plně využit pro vědecké účely.

Jak pronajmout výpočetní výkon
I přes nástup technologií gridů a clusterů je pro mnohé společnosti stále
efektivnější zvolit cestu pronájmu výpočetního výkonu a ponechat starosti s
provozem rozsáhlého a složitého zařízení na straně poskytovatele. Tento postup
zvolila např. Americká diabetická asociace (ADA). Součástí jejího výzkumu je
častý požadavek na další výpočetní výkon, současně některé projekty vyžadují
dodatečnou krátkodobou kapacitu, jež by se nevyplatila nákladně budovat
vlastními silami.
Pronájem času superpočítačů je velmi drahý, ADA však využívá společného
projektu firem Gateway a United Devices, který je nastaven tak, aby klient
platil jen za množství výkonu, které reálně spotřebuje. Vstupní poplatek
programu činí 1 000 dolarů a následně se platí již jen za běh aplikací. V
případě ADA jde o 30 centů za GHz a hodinu, takže např. simulace, která běží na
1 000 počítačích o rychlosti 1 GHz, vyjde na 1 800 dolarů.









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.