Svět bioinformatiky

Následující text se pokusí stručně popsat problémy, které řeší současná bioinformatika. Při tom se nevyhneme odb...


Následující text se pokusí stručně popsat problémy, které řeší současná
bioinformatika. Při tom se nevyhneme odbornější biologické terminologii.
Současná genomika, protenomika a farmacie se ovšem stále více posouvá od
původní biologie k informačním technologiím.
V současné době máme k dispozici sekvence DNA řady virů, bakterií, rostlin,
živočichů i člověka. Jedná se o posloupnosti "písmenek", které odpovídají
pořadí jednotlivých dusíkatých bází. Sled těchto bází adeninu, guaninu,
cytosinu a thyminu slouží v DNA k vlastnímu kódování genetické informace.
Obrovské surové databáze sekvencí DNA (např. lidský genom obsahuje přibližně 3
miliardy písmenek) ale samy o sobě k ničemu nejsou a užitečné informace z nich
musíme nějak dále extrahovat. K tomu slouží celá kategorie specializovaného
softwaru.
Počítače se přímo uplatnily už při čtení lidského genomu. Velmi záhy se
objevila idea, že než se pracně sekvenovat s dlouhými řetězci DNA písmenko po
písmenku, můžeme zkusit větší množství identické DNA nastříhat náhodně, přečíst
kusy kódu a celou mapu sestavit na základě softwarově identifikovatelných
překryvů.
O něco později Craig Venter přišel s myšlenkou tzv. estů (z anglického
expressed sequence tag). Tato technologie znamenala analýzu tzv. cDNA, tedy
právě čtených genů. Využití estů mělo sice řadu odpůrců, umožnilo ovšem
provádět celý proces paralelně, a právě tento přístup způsobil, že přečtení
lidského genomu mohlo být s velkou mediální slávou vyhlášeno již v roce 2000
podstatně dříve, než se původně předpokládalo.
Co se vlastně při procesu čtení (expresi) genů děje? DNA slouží v organismech
mj. jako předloha pro syntézu proteinů. Proces je to několikastupňový a
uplatňuje se v něm i sestra DNA ribonukleová kyselina, RNA. Původní DNA můžeme
rozdělit na sekvenci přepisovanou do struktury proteinů a části, které se
nečtou. Za geny v užším slova smyslu označujeme právě sekvence DNA kódující
proteiny; části, které jsou při přepisu dále vystříhány, se označují jako
introny, sekvence, která se nakonec převede na bílkovinu, je pak tzv. exon.
Problém estů představuje fakt, že se nacházejí v různém stupni sestřihu některé
ještě obsahují intronové sekvence.

Nejen geny
Co s částmi, které se vůbec nečtou? Tyto úseky se někdy označují jako odpadní
či balastní (junk) DNA, ale jak dále uvidíme, toto označení není příliš na
místě.
V médiích se často můžeme setkat s výroky uvádějícími, že člověk a šimpanz mají
společných 98,5 % genů. Konkrétní číslo je do značné míry libovolné (závisí na
použité metodice), zajímavé však je, že nekódující sekvence se liší zřejmě více
než vlastní geny. Z čehož se přímo vnucuje závěr, že podstatné (druhově
specifické) nejsou pouze geny, ale i části DNA mezi nimi. Zde je pak další
výzva pro bioinformatiku: Nabídnout softwarové nástroje, které budou schopné
analyzovat tyto nekódující sekvence.
Dosavadní analýzy ukázaly, že nekódující sekvence vykazují dokonce vyšší míru
komplexity než vlastní geny. Frekvenční charakteristiky, které získáme z
rozmístění bází v DNA, jsou každopádně podobné statistickým rozdělením platným
v přirozených jazycích (vyhovují tzv. Zipfovu zákonu). Jak se tedy ukazuje,
když hovoříme o DNA jako o textu, nemusí to být pouhá metafora.
Nekódující sekvence obsahují ovšem i skutečný "junk", např. bývalé geny, které
byly poškozeny mutacemi a ztratily svoji funkci. Tzv. sobecká DNA zase
představuje úseky mnohokrát opakované; některé sekvence DNA byly také vneseny
prostřednictvím virů. Některé části DNA mohou dokonce měnit svoji polohu v
řetězci, a tím narušovat vlastní geny tento jev je příčinou celé řady
genetických poruch.

Podobné sekvence
Dalším úkolem bioinformatiky je porovnávání genomů mezi sebou. Srovnáním DNA
více organismů pomáhá pochopit průběh biologické evoluce. Při porovnání
relativně blízkých organismů (k dispozici máme např. genom myši) se nabízejí i
přímé aplikace v medicíně. Některé lidské genetické poruchy mají totiž svoji
analogii i u dalších organismů.
Kromě porovnávání genomů více druhů můžeme analyzovat i variabilitu v rámci
druhu jediného. V této souvislosti jsou velmi zajímavé tzv. jednonukleotidové
polymorfismy (SNP single nucleotide polymorphism). SNP označuje geny, které se
liší o jediné "písmenko" (u zcela nepříbuzných lidí se takto liší v průměru 1
báze z 1 000).
Výsledkem SNP či jiných odchylek v genomu mohou být rozdílné proteiny. Proces
přepisu DNA do struktury proteinů je ale velmi složitý, stejný gen lze často
číst různými způsoby. Geny také nejsou aktivní neustále, ale pouze za určitých
podmínek. Nezáleží jen na tom, jaké geny se čtou (exprimují), ale také jak a
kdy se čtou. Mapa DNA představuje tedy pouze první krok.
Již v první polovině 90. let se objevily lékařské testy, které měly na základě
analýzy vyhodnotit náchylnost člověka k určité chorobě, např. k rakovině prsu.
Nyní se přístup mění: Lékaři by rádi analyzovali nikoliv samotné geny, ale
jejich okamžitou aktivitu. V této souvislosti se velmi nadějnými zdají být
čipové technologie analýzou na DNA čipech můžeme poměrně snadno srovnávat,
které geny jsou aktuálně zapnuty a které vypnuty (jde vlastně o analýzu RNA,
která je meziproduktem při syntéze určitého proteinu, převedenou na cDNA). DNA
čip se také ideálně hodí pro testování potenciálního léčiva tímto způsobem opět
zjistíme, zda se exprese genů v důsledku podání léku nějak změnila.
V postgenomické éře se stále více úsilí bude věnovat také přímo analýze
proteinů. Potřebujeme sestavit co nejúplnější databáze bílkovin, které se
vyskytují v lidském organismu. Podobně jako DNA i protein můžeme popisovat
sekvencí písmenek (které tentokrát neodpovídají dusíkatým bázím, ale
jednotlivým aminokyselinám). Vlastnosti bílkoviny závisejí do značné míry na
prostorové struktuře její molekuly. Extrémně zajímavé jsou pro nás softwarové
nástroje, které na základě sekvence písmenek dokáží odhadnout, jak se náš
bílkovinný chumáček nakonec "smotá".
Kudy povede další cesta? Recepty jsou jednoduché: Sekvenovat, sekvenovat,
sekvenovat a to jak genomy dalších živočišných druhů, genomy bakterií, tak i
další genomy lidské (lépe tak porozumíme existující variabilitě). Doplňovat
databáze proteinů. A zkusit chápat, co ty terabajty dat vlastně znamenají.
William Haseltine, CEO společnosti Humane Genome Science, pokládá za nadějné
především paralelní srovnávání genomu člověka a myši. Podle Haseltina však v
tuto chvíli po pravdě řečeno nevíme, jaká metoda povede k cíli a jaká naopak
vyzní do ztracena. Musíme prostě zkoušet různé přístupy a doufat, že jejich
kombinace posune naše chápání života na kvalitativně vyšší stupeň.
Na závěr tohoto stručného výkladu zbývá odkázat na podrobnější informace.
Současný šéfredaktor našeho partnerského BioIT Worldu Kevin Davies je rovněž
autorem knihy Rozluštěný genom (Cracking The Genome). Publikace, která popisuje
historii projektu, představuje přitom také vhodný úvod do světa bioinformatiky
podrobně jsou zde diskutovány především aplikace v oblasti medicíny. Český
překlad knihy vyšel letos v nakladatelství Paseka.









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.