Biologická olympiáda pro umělou inteligenci

Umělé inteligenci AlphaFold se podařila revoluce v biologii – s vysokou přesností umí určovat prostorovou strukturu proteinů.

Biologická olympiáda pro umělou inteligenci
ilustrační foto | Shutterstock.com

Tu zprávu jste už možná zaznamenali, obletěla svět. Málo se ví, že se na této revoluci přímo podílí i Čech, Augustin Žídek, se kterým se týdeníku Hrot nyní podařilo spojit. A i když minulý týden trávil na online konferenci CASP14, kde došlo k vyhlášení průlomových výsledků, našel si čas, aby odpověděl na naše dotazy. 

 „Ultimátní vizí společnosti DeepMind je vytvořit umělou inteligenci, kterou lze použít na zlepšení chápání světa okolo nás pomocí akcelerace vědeckého výzkumu. AlphaFold představuje první důkaz této teze, kdy se nám podařil významný průlom v 50 let starém vědeckém problému,“ řekl týdeníku Hrot Augustin Žídek, který je do výzkumného projektu AlphaFold přímo zapojen. Pomocí umělé inteligence se jim daří určovat prostorovou strukturu proteinů, což je i dnes jeden z nejtěžších úkolů biologie. 

Augustin Žídek se do výzkumné společnosti DeepMind, spadající pod Google, zapojil před čtyřmi lety, po studiu informatiky na Cambridgeské univerzitě. AlphaFold není prvním úspěchem DeepMindu, v podobném duchu o sobě společnost dala vědět již v roce 2016, kdy umělá inteligence AlphaGo porazila nejlepšího hráče světa ve hře go – o desetiletí dříve, než se předpokládalo. 

Nobelovka pro umělou inteligenci?

„AlphaFold 2 je úžasná věc, jsem z toho ohromně nadšený. Mohla by to být první Nobelova cena za použití strojového učení!“ napsal mi Stanislav Fořt, bývalý Augustinův spolužák z Cambridge, který aktuálně dělá doktorát v oboru umělá inteligence na Stanfordu a v DeepMindu je na výzkumné stáži.

Podle Fořta je DeepMind unikátní jak kombinací špičkových softwarových a výzkumných inženýrů, tak na akademické poměry obrovskou skupinou vědců, kteří společně pracují na aplikaci umělé inteligence ve vědě a medicíně. „Já osobně vidím DeepMind jako novodobou obdobu Bellových laboratoří, které během své dlouhé historie ve 20. století přišly mimo jiné s objevem tranzistoru, laseru, fotovoltaických panelů, CCD čipu, informační teorie nebo třeba programovacího jazyka C,“ vyjmenovává Fořt.

Proteinová olympiáda

Unikátní je i samotná vědecká soutěž CASP (Critical Assessment of Techniques for Protein Structure Prediction), ve které AlphaFold již podruhé zvítězil. „Je to taková olympiáda pro strukturní biology, která má zásadní vliv na rozvoj celého oboru,“ popisuje bioinformatik Marian Novotný z Přírodovědecké fakulty Univerzity Karlovy. 

Jednou za dva roky organizátoři CASP vyzvou strukturní biology, kteří jsou těsně před dokončením určení struktur proteinů tradičními metodami, aby jim poslali sekvence proteinů. Tyto sekvence předají soutěžním týmům, které se z nich pomocí nejrůznějších metod (v posledních letech pomocí umělé inteligence) snaží predikovat struktury proteinů. Výsledky soutěže se hodnotí na škále od 0 do 100, kdy 100 je dokonalá shoda předpovědi umělé inteligence a struktury proteinu zjištěné experimentálními metodami. 

V roce 2016 nejlepší týmy dosahovaly skóre 40, v roce 2018 se poprvé zúčastnil tým AlphaFold a dosáhl skóre kolem 70 bodů, i když jednotlivé ročníky nelze přímo porovnávat, protože každý ročník je jinak obtížný.

„Do skupiny AlphaFold jsem se přidal pár měsíců před minulým kolem soutěže CASP13. Zaujalo mě především to, že se AlphaFold zabývá podstatným a zároveň praktickým problémem, jehož vyřešení může pomoct biologii nebo medicíně,“ vysvětluje Žídek. 

„Na CASP panuje soutěživě spolupracující prostředí – je důležité, že se týmy pravidelně potkávají. Například před dvěma lety AlphaFold pro hluboké učení jako první použil vzdálenost mezi atomy, v letošním ročníku soutěže CASP14 to již používali všichni,“ komentuje Novotný. A potvrzuje to i Žídek: „Bylo skvělé vidět, jak hodně se náš tým i celá komunita od předchozího ročníku posunuly. Na letošním ročníku jsme si potvrdili a validovali kvalitu předpovědí AlphaFoldu 2, který je naprosto odlišným systémem než AlphaFold nasazený v CASP13.“ 

Nová verze AlphaFold 2 dosáhla průměrného skóre 92,4; výrazně více než ostatní týmy. „Přijde mi neskutečné, jak dobře se dovedou nasčítat malá zlepšení za dva roky práce. Měli jsme i pár okamžiků, kdy došlo ke skokovému zlepšení nebo překvapivým výsledkům našich experimentů, ale celkově to bylo spíše kontinuální zlepšování,“ popisuje dvouletý vývoj Žídek „A samozřejmě řada nápadů, které jsme zkoušeli, vůbec nefungovala.“

Černá skříňka

„Zatím ještě nevíme, jaké metody AlphaFold 2 pro své zlepšení využil, ale zcela obecně využívají velké množství volně dostupných dat z proteinových databází, na kterých své systémy trénují, učí,“ vysvětluje Novotný. „Celý proces hlubokého učení si můžeme představit jako pavučinu, kdy každá jednotka dělá něco naprosto jednoduchého, ale jak jsou spolu spojené a vzájemně komunikují, vzniká tím ta komplexita a možnost učení,“ přirovnává profesor Filip Železný z Českého vysokého učení technického v Praze. 

„Na vstupu AlphaFoldu jsou data o proteinové sekvenci,“ popisuje Železný. „Z nich AlphaFold předpovídá vzdálenost mezi každou dvojicí aminokyselin ve výsledné struktuře proteinu, přičemž se počítají vzdálenosti všech dvojic najednou, protože ty jsou na sobě informačně závislé. Na protein se dívali komplexně, což je blízké reálnému světu biologie, ale velmi náročné na výpočet,“ shrnuje Železný, proč by to bez umělé inteligence nešlo.

„Tým AlphaFold v CASP13 vytěžil z hlubokého učení to podstatné a šikovně to přenesl do domény proteomiky a našel pro to převratnou aplikaci – určování struktury proteinů, což je letitý problém a jednou by to na Nobelovku klidně mířit mohlo,“ hodnotí Železný. Upozorňuje ale, že AlphaFold zatím nevyřešil skládání proteinů. Ze vstupních dat – primární sekvence – umí predikovat výslednou strukturu proteinu, ale nevysvětluje, jak ke skládání dochází. „Hluboké učení je taková černá skříňka – ze vstupních dat získáme výsledky, ale nevíme proč,“ dodává Železný.

Revoluce v biologii

Prostorová struktura proteinů je přitom zásadní – i jediná mutace-chyba v primární sekvenci může narušit správné složení, a tedy i funkci proteinů. Primární strukturu, pořadí aminokyselin, dnes již umíme velmi dobře a jednoduše určovat – sekvenci známe asi u 200 milionů proteinů. Určování prostorové struktury je ale stále složité: „Pomocí technik, jako jsou rentgenová krystalografie, NMR spektroskopie nebo kryoelektronová mikroskopie, umíme prostorovou strukturu proteinu určit, je to ale velmi nákladné a často to trvá roky,“ vysvětluje Novotný, proč strukturu známe asi jen u 170 tisíc proteinů – u tisíciny známých proteinových sekvencí.

Umělá inteligence může zásadním způsobem pomoci při řešení proteinových struktur, a otevřít tak i mnoho zcela nových možností ať už v oblasti základního výzkumu, nebo například vývoje nových léčiv. „Významem bych to přirovnal například k osekvenování lidského genomu, může to způsobit revoluci v biologii,“ shrnuje bioinformatik Novotný.

Proteiny (bílkoviny)
Jsou základem všech živých organismů a mají řadu funkcí: stavební (například kolagen), transportní (přenašeč kyslíku hemoglobin), zajišťující pohyb (aktin a myosin), řídící a regulační (hormony) nebo ochrannou (imunoglobuliny). 
Primární struktura – proteinů je určena pořadím (sekvencí) 21 aminokyselin, které si můžeme představit jako korálky na šňůrce. 
Sekundární struktura – jednotlivé aminokyseliny spolu lokálně interagují a „šňůrka korálků se kroutí do preferovaných uspořádání“ – alfa helixů nebo beta skládaných listů spojených smyčkami. 
Terciární struktura – udává uspořádání celé šňůrky korálků v prostoru. 
Kvartérní struktura – proteiny živých organismů často tvoří velké komplexy, kdy spolu funkčně interaguje několik podjednotek proteinů, „několik šňůrek korálků“.

Článek vyšel v tištěném vydání týdeníku Hrot.

Týdeník hrot

  • Testování ve školách je vládní trapas
  • Čím se liší konzervativec od liberála?
Objednat nyní