发布信息

研发新药物和新材料筛选目标分子繁琐昂贵,麻省理工研究用图模型增强大语言模型破壁垒

作者:软荐小编      2025-04-13 16:03:03     88

寻找具备所需特性的分子用于研发新药物和新材料,这个过程较为繁琐且花费高昂,还需要大量计算资源。研究人员常常要花费数月时间,才能够在众多候选分子中筛选出数量有限的目标分子,这些候选分子数量极多,如同浩如烟海一般。

大语言模型如 GPT 有望简化这一流程。然而,要让大语言模型像理解句子中的单词那样去理解和推理构成分子的原子与化学键,存在着技术壁垒。

近期,麻省理工学院的研究人员开发出一种颇具前景的方法。同时,MIT - IBM 沃森人工智能实验室的研究人员也开发出了一种颇具前景的方法。这种方法利用基于图的模型。这种基于图的模型可以增强大语言模型。这些大语言模型是专为生成和预测分子结构而设计的。

该方法在解析用户自然语言需求时借助基础大语言模型,之后能够在分子设计环节、原理阐释环节以及合成路线规划环节智能地切换 AI 模块。

它把文本、图形以及合成步骤的生成相互交织在一起,将单词、图形与反应整合到一个通用词汇表中,以便大语言模型能够使用,从而实现了多模态信息的无缝衔接。

这种多模态技术生成的分子与现有的基于大语言模型的方法相比,更符合用户设定的规格。并且,它能将有效合成方案的成功率从 5%提升到 35%。

该方法的效果比规模大 10 倍以上且仅用文本表示设计分子和合成路线的大语言模型要好,这显示出多模态融合是新系统成功的关键。

这有希望成为一个“端到端”的解决方案,能够达成分子设计与合成整个过程的自动化。倘若大语言模型能够在几秒钟内给出答案,就会给制药公司节省诸多时间。麻省理工学院研究生、该技术论文的合作者 Michael Sun 如此说道。

这项研究成果将会在国际学习表征会议上进行发表。其中,论文的合作者包含了圣母大学的研究生 Gang Liu,麻省理工学院电气工程与计算机科学领域的教授 Wojciech Matusik,还有 MIT - IBM 沃森人工智能实验室的资深科学家 Jie Chen。这项研究获得了资助。其中一部分资助来自美国国家科学基金会。一部分资助来自海军研究办公室。还有一部分资助来自 MIT-IBM 沃森人工智能实验室。

优势互补

大型语言模型不是为理解化学的细微之处而设计的,这是它们难以进行逆向分子设计的原因之一。逆向分子设计指的是识别具有特定功能或特性的分子结构的过程。

大语言模型会把文本转化成一种称作标记的表示形式,这种形式是用来按顺序去预测句子里的下一个单词的。然而,分子是由原子以及化学键所构成的“图形结构”,它并没有特定的顺序,正因如此,就使得它们很难被编码成顺序性的文本。

一方面,图的模型把原子以及分子键当作图形里相互连接的节点和边来表示。这些模型在逆向分子设计中被广泛应用,然而,它们需要复杂的输入,不能理解自然语言,并且生成的结果可能难以进行解释。

麻省理工学院的研究人员把大语言模型和基于图的模型整合到了一个统一的框架里,从而实现了优势的相互补充。

Llamole(分子发现大型语言模型)将基础大语言模型当作“智能调度员”,它能够理解用户的查询,也就是用户以通俗语言表达出对具有特定属性分子的需求。

用户在寻找一种分子,这种分子的分子量为 209,具有特定的键特性,还能够穿透血脑屏障并抑制 HIV。

大语言模型响应用户查询并预测文本时,系统会借助独特的“触发令牌”机制,在三大功能模块间进行智能切换。其一为结构生成模块,它基于图扩散模型,能根据输入条件构建分子骨架;其二是语义转换模块,通过图神经网络可将分子结构重新编码为大语言模型能够理解的词元;其三是合成规划模块,能够根据中间体结构预测反应路径,逆向推导出从基础原料到目标分子的完整合成方案。

这样做的精妙之处在于模块之间存在信息闭环。大语言模型在激活特定模块之前所生成的所有内容,都会被输入到该模块当中。并且该模块会按照与之前相同的方式来进行工作。Michael Sun 表示,每个模块的输出会被进行编码,并且会反馈到大语言模型的生成过程里。如此一来,大语言模型就能知晓每个模块的作用,还能继续依据这些数据来预测标记。

更优、更简单的分子结构

最终,Llamole 会输出分步合成计划,该计划详细说明了如何合成分子,包括具体的化学反应。

在设计符合用户规格的实验时,Llamole 的表现比 10 种标准大语言模型好,比 4 种微调大语言模型也好,并且比最先进的特定领域方法也好。它能生成更高质量的分子,从而把逆合成规划成功率从 5%提升到了 35%,这表明这些分子结构更简单,构建模块成本更低。

大语言模型自身不太容易确定怎样去合成分子,因为这需要诸多且多步骤的规划。而我们的这种方法能够生成更为优良并且更便于合成的分子结构。Gang Liu 如是说道。

研究人员为了训练和评估 Llamole,从头构建了两个数据集。这是因为现有的分子结构数据集存在细节不足的问题。他们通过用 AI 生成的自然语言描述以及自定义描述模板,对数十万个专利分子进行了扩充。

他们构建的用于微调大语言模型的数据集包含与 10 种分子特性相关的模板。所以,Llamole 存在一个局限,即它在训练时被设定为仅依据这 10 种数值特性来设计分子。

研究人员希望在未来的研究里扩展 Llamole 的功能,让它能够把任何分子特性都考虑进去。同时,他们也打算改进图形模块,以提高 Llamole 的逆合成成功率。

他们希望从长远角度出发,利用这种方法来拓展应用的范围。这种拓展要超越分子领域,创建能够处理其他图基数据的多模态大语言模型,比如电网中那些互连的传感器数据,以及金融市场中的交易数据。

Llamole 展示了一种可行性,即把大型语言模型当作处理文本描述之外复杂数据的接口。我们预计它们会成为与其他 AI 算法进行交互,从而解决各类图形问题的基础。Jie Chen 这样说道。

原文链接:

相关内容 查看全部