Algoritmy pro biotechnologie

Od farmakogenetiky po sekvenování Bioinformatika motivuje dodavatele hardwaru i softwaru k vývoji stále výkonnějších ...


Od farmakogenetiky po sekvenování
Bioinformatika motivuje dodavatele hardwaru i softwaru k vývoji stále
výkonnějších počítačů i chytřejších algoritmů. Jaká je ale podstata oněch
výpočetně náročných úloh, od kterých se současně tolik očekává například ve
farmaceutickém průmyslu? V následujícím článku si představíme několik z nich.
Začít můžeme například vyhodnocováním klinických a dalších testů, které jsou
součástí cyklu vývoje léků. V podstatě se jedná o obyčejnou statistiku.
Zajímavou však úlohu činí skutečnost, že neexistují pouze látky účinné a
neúčinné, ale také léky působící pouze za určitých podmínek nebo u určitých
skupin obyvatelstva. Informatika pak musí dodat nástroje, které dokáží v
ohromných souborech dat vyhmátnout na první pohled unikající souvislosti.

Léky na míru
Příkladem je třeba kauza léku BiDil, který je určen na srdeční choroby
(podrobněji referoval např. server Osel.cz). V 80. letech byl tento preparát
testován, avšak jeho účinnost na obecnou populaci se nepodařilo prokázat a k
výrobě léku nedošlo. Teprve díky nové analýze dat "po jednotlivých skupinách",
kterou provedli informatici americké firmy Nitro Med, se ukázalo, že látka dává
nadějné výsledky u Afroameričanů, prakticky neúčinná je však u bílých. Následné
klinické testy tento rozdíl potvrdily, a výsledkem je tak první lék určený pro
konkrétní populaci. BiDil se nyní nachází ve fázi schvalování.
Lék pro konkrétní populaci je samozřejmě jen prvním krokem, protože se stále
jedná o hodně hrubé měřítko. V budoucnu se ale předpokládá medicína ušitá na
míru přímo konkrétním jedincům v závislosti na analýze jejich genetické
informace. Už nyní dává medicína dělící se podle jednotlivých populací šanci
různým izolovaným skupinám a menšinám, které se od "obecného vzorku" značně
odlišují a často trpí specifickými chorobami. Kromě velkých, plošně působících
farmaceutických koncernů se předpokládá také vznik malých biotechnologických
firem zaměřených právě na vývoj léků pro takové konkrétní skupiny/populace.
Podobný scénář alespoň zazněl na jarním setkání First Tuesday, které bylo
věnováno právě biotechnologiím.
Většina výše popsaných problémů patří z informatického hlediska do kategorie
získávání znalostí z dat.
"Popsaná koncepce se označuje jako farmakogenomika a věští se jí světlá
budoucnost. Vývoj nového léku je však bohužel náročný a drahý a farmaceutické
firmy samozřejmě nejsou dobročinné organizace. Musejí vydělávat a to znamená,
že se jim nemalé investice musejí vrátit. To značně omezuje vývoj léků, které
by působily jen na malé skupiny lidí. Prozatím se dá proto počítat spíše s tím,
že lékaři budou na základě výsledků výzkumu ve farmakogenomice volit ze
stávajících preparátů ty, u kterých bude pro danou skupinu obyvatel menší
riziko nežádoucích vedlejších účinků," uvádí k tomu prof. Ing. Jaroslav Petr,
DrSc., který pracuje ve Výzkumném ústavu živočišné výroby v pražské Uhříněvsi a
přednáší biotechnologie na České zemědělské univerzitě.

Sekvence DNA
Již téměř klasickou úlohu z oblasti bioinformatiky představuje sekvenování,
tedy "čtení" DNA písmenko po písmenku. Nejznámějším případem je samozřejmě
projekt lidského genomu.
Bioinformatika pomohla především následujícím způsobem: Namísto čtení DNA
písmenko po písmenku se nyní postupuje v zásadě tak, že dojde k namnožení
molekul DNA, jejich následnému náhodnému sestříhání a pak k softwarové analýze
překryvů, z níž má být stanovena původní sekvence. (Ve skutečnosti je to trochu
složitější, uplatní se také schopnost DNA přepisovat se do RNA zřejmě
nejpoužívanější je v tomto případě metoda tzv. estů, se kterou přišel bývalý
ředitel firmy Celera Craig Venter, asi nejznámější postava z celého projektu
lidského genomu. Princip však zůstává stejný.)
Popsaná úloha vypadá triviálně, je však třeba si uvědomit, že před sebou máme
řetězce dlouhé miliardy písmenek. Samozřejmě, že úlohu můžeme "řešit" prostě
tak, že veškeré existující rozstříhané sekvence složíme lineárně za sebe.
Takový výsledek bude vyhovovat zadání v tom smyslu, že uplatníme všechny
sekvence my jsme ale DNA stříhali a potřebujeme samozřejmě najít překryvy. V
úloze jde vlastně o to, že hledáme nejkratší řetězec vyhovující všem podmínkám,
minimum v obrovském stavovém prostoru. Po stránce algoritmu má úloha blízko ke
známému problému obchodního cestujícího.

Komplikace
Kopírování DNA navíc neprobíhá se 100% účinností, dochází při něm k chybám.
Úkolem algoritmu je proto najít nejspíše nejpravděpodobnější sekvenci. A zbývá
dodat (což platí v bioinformatice velmi často), že aby se na problému mohly
podílet výzkumné týmy z celého světa, je třeba jej efektivně paralelizovat.
"Bez pokroku v počítačové technice by vývoj v genomice rozhodně nenabral takové
tempo, jakého jsme svědky," vysvětluje Jaroslav Petr. "Čtením sekvencí DNA ale
úloha počítačů v genomice zdaleka nekončí. Počítače nám pomáhají pochopit, co
je v genomu vlastně zapsáno. Zcela samostatný problém představuje hledání genů.
Ty tvoří jen zlomek z celého genomu u člověka asi 1,5 %. Dnes máme k dispozici
algoritmy, které umějí geny ze záplavy písmen genetického kódu vyhmátnout. Je
třeba ale dodat, že stávající algoritmy umějí dobře hledat pouze "typické"
geny. Vůči genům, které by se vymykaly tomu, co o genech zatím víme a které by
právě proto byly nejspíš úžasně zajímavé mohou být současné algoritmy slepé."

Proteiny
Klíčovou proceduru, která by mohla výrazně zefektivnit vývoj léků, představuje
počítačové modelování 3D struktury proteinů. Právě 3D struktura má přitom těsný
vztah i k biologické funkci.
Připravit protein laboratorně a pak zkoumat jeho účinky je nákladné a časově
náročné mnohem účinnější je použít modelování "in silico". Jako vstup máme
pouhou sekvenci proteinu (tedy pořadí aminokyselin), z níž bychom se měli
postupně naučit odhadovat prostorovou strukturu i biologickou funkci. Vlastní
laboratorní testování by pak probíhalo pouze na molekulách, které už byly
počítačově předvybrány.
Celý problém je přitom komplikován tím, že tvar a funkce proteinu závisejí na
"písmenkách" různých aminokyselin v různé míře někdy stačí záměna jediné
aminokyseliny k tomu, že vznikne nefunkční protein, jindy změny nemají nijak
zřetelný dopad a kód vykazuje značnou redundanci. Funkčně odpovídající protein
můžeme také často sestavit ze zcela odlišných řetězců aminokyselin.
Spíše než analýza sekvence proteinu písmenko po písmenku se proto uplatňuje
rozpoznávání obecnějších struktur, tzv. vzorů. Do kategorie rozpoznává vzorů,
tedy na samé pomezí umělé inteligence, patří přitom i řada úloh v oblasti
genomiky (více např. článek DNA bojuje proti spamu v CW 30/2004). Pro
rozpoznávání vzorů byl již navržen také efektivní kvantový algoritmus
(podrobnosti článek Kvantové rozpoznávání obrazů v CW 39/2003).

Priony i paměť
Dejme opět slovo Jaroslavu Petrovi: "Vědní disciplína zvaná proteomika tedy
věda o bílkovinách v organismu prožívá v současné době boom. Velmi zajímavé
jsou případy, kdy protein mění své trojrozměrné uspořádání bez toho, že by se
měnilo jeho aminokyselinové složení. S novým tvarem získá protein i nové
vlastnosti. To je případ tzv. prionů čili proteinových infekčních částic, jež
vyvolávají smutně proslulé choroby, jako je BSE u skotu nebo
Creutzfeldt-Jakobova choroba lidí. Tyto choroby vznikají vlastně
"zašmodrcháním" bílkoviny, která je nám vlastní a ve svém původním tvaru nám
nijak neškodí. Studium takových prostorových přesmyků se zdá být důležité nejen
pro studium chorob, ale i pro pochopení normálních funkcí našeho těla. Velmi
podobné "šmodrchání" jiné bílkoviny se v našem mozku významně účastní ukládání
informací do paměti."

Kladistika
Kladistické analýzy bývají využívány především v evoluční biologii. Zhruba
řečeno v nich vycházíme z toho, že jednotlivé druhy se od sebe postupně
oddělovaly známým "stromečkem". Jak ale určit konkrétní průběh onoho větvení?
Představte si, že máme např. člověka, sysla a slona. Jak stanovit stromeček?
Jaký z těchto druhů se od společného předka odštěpil jako první? (Jinak řečeno:
Má např. člověk blíže k syslu nebo ke slonovi nebo je od obou vzdálen stejně?
Poslední verze by platila, pokud by se nejdříve oddělil předek člověka a až
potom předek sysla od předka slona.)
Kladistika funguje tak, že vybere nějaké znaky (vcelku lhostejno, zda jde
přitom o sekvence DNA nebo třeba o stavbu očí) a organismy podle nich srovnává.
Výsledkem je pak např. mnohorozměrný prostor plný nul a jedniček to za
předpokladu, že u každého testovaného organismu rozlišujeme pouze to, zda daný
znak má nebo nemá.
Úloha má v principu opět nekonečně řešení (mutace vznikají náhodně), my však
opět hledáme nejúspornější cestu grafem minimum stavového prostoru. Ptáme se
prostě, jakým nejmenším počtem větvení a kroků-mutací se můžeme dostat k
existující diverzitě.
Jakmile pro nějaký (obvykle hodně velký) soubor znaků stanovíme vývojový
stromeček, vybereme si znaky jiné a provedeme srovnání znovu. To, co nás
především zajímá, je především stabilita jednou utvořeného stromu. Pokud nám
pro jiné znaky vyjde stejný strom, pak jsme evoluční události zřejmě
zaregistrovali správně.
Kladistika vede k závěrům, které příliš neladí s tradiční biologickou
taxonomií, jak se učí na základních a středních školách. Vyjde nám totiž
například to, že latimerie (ryba stojící blízko předkům obojživelníků) je
vlastně příbuznější člověku než kaprovi, takže celá skupina "ryby" nemá z
evolučního hlediska žádný smysl. (Na vysvětlenou: Stromeček v tomto případě
probíhal tak, že nejprve došlo k oddělení předka kapra a až později se oddělil
předek člověka a předek latimerie.) Zájemce o podrobnější popis kladistických
metod lze odkázat např. na knihu Jak se dělá evoluce (Jan Zrzavý, David Storch,
Stanislav Mihulka: Jak se dělá evoluce, Paseka, Praha, 2004).
V kladistice ovšem nejde pouze o tvorbu teoretických konstrukcí a vývojových
stromečků. Je důležité např. vědět, jak blízko mají jednotlivé organismy k
člověku a identifikovat podobnosti i odlišnosti metabolických procesů třeba v
případě testování nových léků na zvířatech nebo při pokusech používat zvířata
pro pěstování transplantátů určených lidským pacientům.

Jazykové stromečky
Následující aplikace je od vlastní bioinformatiky poněkud odlehlá, nicméně
dobře ukazuje, že některé jednou vzniklé algoritmy mají mnohem obecnější
uplatnění.
Podobně jako dochází k větvení druhů, větvily se v minulosti také jednotlivé
jazyky. Situace je v tomto případě samozřejmě složitější o to, že jednou
vzniklé jazyky nejsou oddělené úplně pevně, mísí se a dochází mezi nimi nadále
k přebírání slov i gramatických pravidel. Podobné výpůjčky nebyly ovšem
především v minulosti nijak časté, a proto i v případě jazyků umíme na základě
kladistických analýz konstruovat naše oblíbené stromečky. Opět platí, že
výstupem z programu může být např. určitý konkrétní strom. Posléze změníme
kritéria/vstupní data a analyzujeme stabilitu získaného stromu. Pokud dostaneme
stejný strom např. po srovnání osobních zájmen i jmen rodinných příslušníků,
naše výsledky to činí výrazně věrohodnější.

DNA jako počítač
Speciální kapitolou bioinformatiky jsou pak také tzv. DNA počítače a DNA čipy,
kterým jsme se věnovali v CW 20/2004.

Analýza prostorového uspořádání proteinů je velmi významná pro vysvětlení
funkce prionů, které jsou příčinou známé nemoci šílených krav. Podobné
"šmodrchání" proteinů se podle všeho ale uplatňuje i v procesu paměti. Kromě
analýz proteinů v laboratoři se při výzkumu stále více uplatňuje modelování "in
silico".

Sekvenci nukleové kyseliny nemusíme pracně číst písmenko po písmenku. Pokrok v
informatice umožňuje ale i následující postup: Dlouhou molekulu rozstříháme a
pak hledáme nejkratší řetězec vyhovující všem podmínkám, minimum v obrovském
stavovém prostoru. Po stránce algoritmu má úloha blízko ke známému problému
obchodního cestujícího.

Cena sekvenování DNA klesne
"Mnohé začínající biotechnologické společnosti se před několika lety začaly
zabývat farmakogenomikou. Myšlenka je poměrně prostá, stačí přečíst variace
genetické informace (tedy DNA) pacienta a na jejím základě určit, zda daný lék
pacientovi pomůže či zda mu hrozí vedlejší účinky. Tyto jednoduché principy se
ale zatím nepodařilo přeměnit do komerčně úspěšných technologií. První problém
představuje cena přečtení DNA. Ačkoli se technologie DNA sekvenování stále
vylepšuje, přesto se cena čtení genů odpovídajících za účinek daného léku
pohybuje ve stovkách dolarů. Velké farmaceutické firmy také nikdy nebyly
farmakogenomice příliš nakloněny, neboť menší skupina pacientů by pro ně
znamenala nižší tržby.
Co bude s farmakogenomikou dále? Velká část výzkumu léků šitých na míru se nyní
přesunula na univerzity. Farmaceutické firmy užívají farmakogenomiku ke
"vzkříšení" léků, které během klinických zkoušek vykazovaly účinnost jen u
části pacientů. Nezbývá než věřit, že klesající cena DNA sekvenování dovolí
přečíst celý genetický kód pacienta, a ten pak bude součástí jeho zdravotní
karty podobně jako je tomu dnes s informací o očkování."
text ON-LINE
Kompletní podobu tohoto textu najdeme na portálu Science World
(www.scienceworld.cz) s datem 24. 9. 2004.









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.