Vytvořte si AI tutoriál na míru! Vyzkoušejte generátor tutoriálů a ušetřete čas.

Mohou velké jazykové modely pomoci navrhovat nové léky a materiály?

Sdílet na sociálních sítích:
Napsal: Jan Kubice
Věda

Nová metoda umožňuje uživatelům pomocí běžné řeči popsat požadovanou molekulu a získat detailní postup její syntézy.

Obrázek novinky

Mohou velké jazykové modely pomoci navrhovat nové léky a materiály?

Proces objevování molekul s vlastnostmi potřebnými k vytvoření nových léků a materiálů je zdlouhavý a nákladný. Spotřebovává obrovské výpočetní zdroje a měsíce lidské práce, aby se zúžil obrovský prostor potenciálních kandidátů.

Velké jazykové modely (LLM), jako je ChatGPT, by mohly tento proces zjednodušit. Schopnost LLM porozumět a uvažovat o atomech a vazbách, které tvoří molekulu, podobně jako o slovech tvořících věty, však představuje vědeckou překážku.

Výzkumníci z MIT a MIT-IBM Watson AI Lab vytvořili slibný přístup, který doplňuje LLM o další modely strojového učení, tzv. grafové modely, které jsou speciálně navrženy pro generování a predikci molekulárních struktur.

Jejich metoda využívá základní LLM k interpretaci dotazů v běžné řeči, které specifikují požadované molekulární vlastnosti. Automaticky přepíná mezi základním LLM a grafovými AI moduly k navržení molekuly, vysvětlení důvodů a generování podrobného plánu její syntézy. Prolíná generování textu, grafů a kroků syntézy, kombinuje slova, grafy a reakce do společné slovní zásoby pro LLM.

Ve srovnání s existujícími přístupy založenými na LLM generovala tato multimodální technika molekuly, které lépe odpovídaly specifikacím uživatelů a měly vyšší pravděpodobnost platného syntetického plánu, čímž se zlepšila úspěšnost z 5 % na 35 %.

Překonala také LLM, které jsou více než 10krát větší a navrhují molekuly a syntetické cesty pouze s textovými reprezentacemi, což naznačuje, že multimodálnost je klíčem k úspěchu nového systému.

„Doufejme, že by to mohlo být komplexní řešení, kde bychom od začátku do konce automatizovali celý proces navrhování a výroby molekuly. Pokud by vám LLM dokázal poskytnout odpověď za pár sekund, znamenalo by to obrovskou úsporu času pro farmaceutické společnosti,“ říká Michael Sun, postgraduální student MIT a spoluautor článku o této technice.

Sunovy spoluautoři zahrnují hlavního autora Gangu Lia, postgraduálního studenta na University of Notre Dame; Wojciecha Matusika, profesora elektrotechniky a informatiky na MIT, který vede skupinu Computational Design and Fabrication Group v Laboratoři počítačové vědy a umělé inteligence (CSAIL); Meng Jianga, docenta na University of Notre Dame; a hlavního autora Jie Chena, hlavního vědeckého pracovníka a manažera v MIT-IBM Watson AI Lab. Výzkum bude prezentován na Mezinárodní konferenci o reprezentaci učení.

To nejlepší z obou světů

Velké jazykové modely nejsou konstruovány tak, aby rozuměly nuancím chemie, což je jeden z důvodů, proč mají potíže s inverzním molekulárním designem, procesem identifikace molekulárních struktur, které mají určité funkce nebo vlastnosti.

LLM převádějí text na reprezentace zvané tokeny, které používají k sekvenční predikci dalšího slova ve větě. Molekuly jsou však „grafové struktury“ složené z atomů a vazeb bez zvláštního uspořádání, což ztěžuje jejich kódování jako sekvenčního textu.

Na druhou stranu, výkonné grafové AI modely reprezentují atomy a molekulární vazby jako propojené uzly a hrany v grafu. I když jsou tyto modely populární pro inverzní molekulární design, vyžadují komplexní vstupy, nerozumí běžné řeči a poskytují výsledky, které mohou být obtížně interpretovatelné.

Výzkumníci z MIT zkombinovali LLM s grafovými AI modely do jednotného rámce, který využívá to nejlepší z obou světů.

Llamole, což znamená velký jazykový model pro objevování molekul, používá základní LLM jako brankáře k pochopení dotazu uživatele – požadavku v běžné řeči na molekulu s určitými vlastnostmi.

Uživatel například hledá molekulu, která může pronikat hematoencefalickou bariérou a inhibovat HIV, vzhledem k tomu, že má molekulovou hmotnost 209 a určité charakteristiky vazby.

Jak LLM předpovídá text v reakci na dotaz, přepíná se mezi grafovými moduly.

Jeden modul používá grafový difuzní model k generování molekulární struktury na základě vstupních požadavků. Druhý modul používá grafovou neuronovou síť k zakódování generované molekulární struktury zpět do tokenů pro LLM. Konečný grafový modul je prediktor grafových reakcí, který přijímá jako vstup intermediální molekulární strukturu a předpovídá krok reakce, hledá přesnou sadu kroků k výrobě molekuly ze základních stavebních bloků.

Výzkumníci vytvořili nový typ spouštěcího tokenu, který říká LLM, kdy má aktivovat každý modul. Když LLM předpovídá spouštěcí token „design“, přepne se na modul, který načrtne molekulární strukturu, a když předpovídá spouštěcí token „retro“, přepne se na modul retrosyntézy, který předpovídá další krok reakce.

„Krása toho spočívá v tom, že vše, co LLM vygeneruje před aktivací konkrétního modulu, se do tohoto modulu samo o sobě načítá. Modul se učí pracovat způsobem, který je konzistentní s tím, co předcházelo,“ říká Sun.

Stejným způsobem je výstup každého modulu zakódován a zpět načítán do procesu generování LLM, takže rozumí tomu, co každý modul dělal, a bude pokračovat v předpovídání tokenů na základě těchto dat.

Lepší, jednodušší molekulární struktury

Nakonec Llamole vrátí obrázek molekulární struktury, textový popis molekuly a podrobný plán syntézy, který poskytuje podrobnosti o tom, jak ji vyrobit, až po jednotlivé chemické reakce.

V experimentech zahrnujících navrhování molekul, které odpovídaly specifikacím uživatelů, Llamole překonal 10 standardních LLM, čtyři jemně doladěné LLM a špičkovou doménově specifickou metodu. Zároveň zvýšil úspěšnost retrosyntézy z 5 % na 35 % generováním molekul vyšší kvality, což znamená, že měly jednodušší struktury a levnější stavební bloky.

„Samy o sobě se LLM těžce snaží zjistit, jak syntetizovat molekuly, protože to vyžaduje mnoho kroků plánování. Naše metoda dokáže generovat lepší molekulární struktury, které jsou také snadněji syntetizovatelné,“ říká Liu.

Pro trénování a vyhodnocování Llamole výzkumníci vytvořili dvě datové sady od nuly, protože existující datové sady molekulárních struktur neobsahovaly dostatek detailů. Doplnili stovky tisíc patentovaných molekul generovanými popisy v běžné řeči a upravenými šablonami popisu.

Datová sada, kterou vytvořili pro doladění LLM, obsahuje šablony týkající se 10 molekulárních vlastností, takže jedním z omezení Llamole je, že je trénován k návrhu molekul s ohledem pouze na těchto 10 numerických vlastností.

V budoucím výzkumu chtějí výzkumníci zobecnit Llamole tak, aby mohl začlenit libovolnou molekulární vlastnost. Navíc plánují vylepšit grafové moduly, aby zvýšili úspěšnost retrosyntézy Llamole.

A v dlouhodobém horizontu doufají, že tento přístup použijí k překročení hranic molekul a vytvoří multimodální LLM, které dokáží zpracovávat i jiné typy grafových dat, jako jsou propojené senzory v energetické síti nebo transakce na finančním trhu.

„Llamole demonstruje proveditelnost použití velkých jazykových modelů jako rozhraní ke komplexním datům nad rámec textového popisu a očekáváme, že se stanou základem, který bude interagovat s dalšími AI algoritmy k řešení jakýchkoli grafových problémů,“ říká Chen.

Tento výzkum je částečně financován MIT-IBM Watson AI Lab, Národní vědeckou nadací a Úřadem námořního výzkumu.

Související články

Sdílet na sociálních sítích:

Komentáře

Zatím žádné komentáře. Buďte první, kdo napíše svůj názor!