Využitím modelů umělé inteligence, známých jako velké jazykové modely, dosáhli vědci velkého pokroku v předpovídání struktury proteinů na základě jejich sekvence. Tento přístup však nebyl u protilátek tak úspěšný, částečně kvůli jejich vysoké variabilitě.
Aby překonali toto omezení, výzkumníci z MIT vyvinuli výpočetní techniku, která umožňuje velkým jazykovým modelům přesněji předpovídat struktury protilátek. Jejich práce by mohla vědcům umožnit prohledávat miliony možných protilátek a identifikovat ty, které by mohly být použity k léčbě SARS-CoV-2 a dalších infekčních onemocnění.
„Naše metoda nám umožňuje škálovat, na rozdíl od jiných, do bodu, kdy dokážeme najít několik jehel v kupce sena,“ říká Bonnie Bergerová, Simonsova profesorka matematiky, vedoucí skupiny pro výpočetní biologii v MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) a jedna z hlavních autorek nové studie. „Kdybychom dokázali pomoci farmaceutickým firmám vyhnout se klinickým zkouškám s nesprávnými látkami, ušetřilo by to opravdu hodně peněz.“
Technika, která se zaměřuje na modelování hypervariabilních oblastí protilátek, má také potenciál pro analýzu celých repertoárů protilátek od jednotlivých osob. To by mohlo být užitečné pro studium imunitní odpovědi lidí, kteří jsou super-respondéry na nemoci, jako je HIV, aby se zjistilo, proč jejich protilátky tak efektivně brání viru.
Bryan Bryson, docent biologického inženýrství na MIT a člen Ragon Institute of MGH, MIT a Harvardu, je také hlavním autorem článku, který vyšel tento týden v Proceedings of the National Academy of Sciences. Rohit Singh, bývalý výzkumný vědec CSAIL, který je nyní asistentem profesora biostatistiky, bioinformatiky a buněčné biologie na Duke University, a Chiho Im ’22 jsou hlavními autory článku. Na výzkumu se podíleli také vědci ze Sanofi a ETH Zurich.
Modelování hypervariability
Proteiny se skládají z dlouhých řetězců aminokyselin, které se mohou skládat do obrovského počtu možných struktur. V posledních letech se předpovídání těchto struktur stalo mnohem jednodušším díky programům umělé inteligence, jako je AlphaFold. Mnohé z těchto programů, jako jsou ESMFold a OmegaFold, jsou založeny na velkých jazykových modelech, které byly původně vyvinuty k analýze obrovského množství textu, což jim umožňuje naučit se předpovídat další slovo v sekvenci. Tento stejný přístup může fungovat i u proteinových sekvencí – učením se, které proteinové struktury jsou pravděpodobně tvořeny z různých vzorů aminokyselin.
Tato technika však ne vždy funguje na protilátkách, zejména na segmentu protilátky známém jako hypervariabilní oblast. Protilátky mají obvykle tvar písmene Y a tyto hypervariabilní oblasti se nacházejí na koncích Y, kde detekují a vážou se na cizí proteiny, známé také jako antigeny. Spodní část Y poskytuje strukturální oporu a pomáhá protilátkám interagovat s imunitními buňkami.
Hypervariabilní oblasti se liší délkou, ale obvykle obsahují méně než 40 aminokyselin. Odhaduje se, že lidský imunitní systém může produkovat až 1 kvintilion různých protilátek změnou sekvence těchto aminokyselin, což pomáhá zajistit, aby tělo mohlo reagovat na obrovské množství potenciálních antigenů. Tyto sekvence nejsou evolučně omezeny stejným způsobem jako jiné proteinové sekvence, takže je pro velké jazykové modely obtížné naučit se přesně předpovídat jejich struktury.
„Jedním z důvodů, proč jazykové modely dokáží dobře předpovídat strukturu proteinů, je to, že evoluce omezuje tyto sekvence takovým způsobem, že model může rozluštit, co tato omezení znamenala,“ říká Singh. „Je to podobné jako učení se pravidel gramatiky pohledem na kontext slov ve větě, což vám umožňuje zjistit, co to znamená.“
Aby modelovali tyto hypervariabilní oblasti, vědci vytvořili dva moduly, které se opírají o existující jazykové modely proteinů. Jeden z těchto modulů byl trénován na hypervariabilních sekvencích z přibližně 3 000 struktur protilátek nalezených v Protein Data Bank (PDB), což mu umožnilo naučit se, které sekvence mají tendenci generovat podobné struktury. Druhý modul byl trénován na datech, která korelují asi 3 700 sekvencí protilátek s tím, jak silně se vážou na tři různé antigeny.
Výsledný výpočetní model, známý jako AbMap, dokáže předpovídat struktury protilátek a sílu vazby na základě jejich sekvence aminokyselin. Aby prokázali užitečnost tohoto modelu, výzkumníci jej použili k předpovědi struktur protilátek, které by silně neutralizovaly hrot proteinu viru SARS-CoV-2.
Výzkumníci začali se sadou protilátek, o kterých se předpokládalo, že se vážou na tento cíl, a poté generovali miliony variant změnou hypervariabilních oblastí. Jejich model dokázal identifikovat struktury protilátek, které by byly nejúspěšnější, mnohem přesněji než tradiční modely struktury proteinů založené na velkých jazykových modelech.
Poté vědci provedli další krok a seskupili protilátky do skupin s podobnými strukturami. Vybrali protilátky z každé z těchto skupin k experimentálnímu testování ve spolupráci s výzkumníky ze Sanofi. Tyto experimenty zjistily, že 82 procent těchto protilátek mělo lepší sílu vazby než původní protilátky, které byly použity v modelu.
Identifikace různých dobrých kandidátů v rané fázi vývoje by mohla pomoci farmaceutickým firmám vyhnout se vynakládání velkých finančních prostředků na testování kandidátů, kteří nakonec selžou, říkají výzkumníci.
„Nechtějí dát všechna vejce do jednoho koše,“ říká Singh. „Nechtějí říkat: Vezmu tuto jednu protilátku a provedu s ní preklinické testy, a pak se ukáže, že je toxická. Raději by měli mít sadu dobrých možností a všechny je posunout dál, aby měli na výběr, pokud se některá pokazí.“
Porovnání protilátek
Pomocí této techniky by se výzkumníci mohli také pokusit zodpovědět některé dlouholeté otázky o tom, proč různí lidé reagují na infekci různě. Například proč někteří lidé rozvíjejí mnohem závažnější formy Covidu a proč někteří lidé, kteří jsou vystaveni HIV, nikdy nebudou infikováni?
Vědci se snažili odpovědět na tyto otázky prováděním sekvenování jednobunkovej RNA z imunitních buněk od jednotlivých osob a jejich porovnáváním – proces známý jako analýza repertoáru protilátek. Předchozí práce ukázala, že repertoáry protilátek od dvou různých lidí se mohou překrývat jen 10 procent. Nicméně, sekvenování neposkytuje tak komplexní obraz výkonu protilátky jako strukturní informace, protože dvě protilátky, které mají různé sekvence, mohou mít podobné struktury a funkce.
Nový model může pomoci vyřešit tento problém rychlou generací struktur pro všechny protilátky nalezené u jednotlivce. V této studii výzkumníci ukázali, že když se vezme v úvahu struktura, je mezi jednotlivci mnohem větší překryv než 10 procent pozorovaných v sekvenčních porovnáních. Nyní plánují dále zkoumat, jak tyto struktury mohou přispívat k celkové imunitní odpovědi těla proti konkrétnímu patogenu.
„Zde se jazykový model velmi krásně hodí, protože má škálovatelnost sekvenční analýzy, ale přibližuje se přesnosti strukturní analýzy,“ říká Singh.
Výzkum byl financován společností Sanofi a Abdul Latif Jameel Clinic for Machine Learning in Health.
Související články
Hackeři se chlubí masivním únikem dat z firmy sledující a prodávající polohu Američanů
Připravte se na vzrušení z závodů eVTOL
Mac malware: 100 milionů uživatelů Apple v ohrožení krádeže dat
Sdílet na sociálních sítích:
Komentáře