本技术介绍了一种结合混合专家模型和大型语言模型的三维分子文本解析方法。该方法通过构建包含多个专家的新MoE层,实现跨模态的分子文本理解,提升了模型的泛化能力和准确性。
背景技术
语言模型(Language Model,LM)的快速发展引发了多学科领域的一系列创新。特别是,LM在基于文本的分子理解任务中表现优异,例如化学和医学领域的问答任务,其通过对大量生化文献的预训练展现出强大的知识学习能力。认识到 LM 在利用广泛的生化知识完成分子相关任务方面的潜力,分子-文本建模逐渐成为一个新兴的研究方向。目前的方法主要集中于将文本与1D分子序列和2D分子图相结合,例如应用对比学习的方法使LM同时学习输入的2D图数据以及分子字符串和文本,推动了诸如分子-文本检索和分子描述生成等任务的发展。
然而,这些研究大多忽略了3D分子结构,而后者在理解分子动力学、蛋白质-配体相互作用、酶功能及其他生物分子现象中至关重要。将3D分子编码器无缝集成到语言模型中以实现3D分子-文本理解存在多个问题。第一,3D分子-文本对齐的问题,即难以将3D分子表示映射到语言模型能够理解的输入空间;第二,基于3D分子的指令微调的问题,即如何针对与3D分子相关的任务,调整模型以更好地遵循人类指令;第三,多模态分子与任务的统一编码器的问题,即:分子-文本理解通常需要处理涵盖不同分子性质(例如量子化学性质和药物相关性质)的查询,同时理解多种分子模态(如1D、2D和3D)。然而,目前的分子编码器通常只针对单一性质或单一模态进行预训练,这种限制阻碍了构建分子-文本理解通用模型的能力;第四,高昂的计算成本,即:直接将多个分子编码器并行集成到3D分子语言模型会显著增加计算成本,并且随着编码器个数的增加,计算成本也会线性增加,同时在有效选择最相关的分子编码器以适应特定分子任务需求方面也存在挑战。
实现思路