
引言
过去几年,AI 在蛋白质结构预测领域取得了巨大突破,将“序列到结构”的预测精度推向了前所未有的高度。然而,对于真实的药物发现和复杂的分子系统来说,仅有单一的静态结构是远远不够的。
蛋白质与配体的结合本质上是一个动态过程:构象不断变化,能量状态相互转换,关键的相互作用在不同时间尺度上形成又消失。长期以来,理解这种动态的热力学景观一直是药物发现面临的重大挑战。
今天,新生实验室研究团队正式推出 AnewSampling——首个专为蛋白质-配体复合物进行动态平衡采样的系统级模型。
现有的共折叠模型大多仍局限于预测单一静态结构,而 AnewSampling 则将生成式 AI 引入了全原子热力学采样。它能高效生成与分子动力学(MD)分布高度一致的构象系综,将 AI 驱动的药物发现推向了全新阶段。
真实的分子世界从未静止
对于许多具有挑战性的靶点而言,单一的预测结构是不够的。在实际应用中,治疗效果很少仅由单一的结合姿态决定,而是取决于更广泛的构象系综及其内部的平衡关系。
如果静态结构预测就像是拍摄了一张复合物的高清照片,那么潜在的分子现实更像是一部不断演化的电影。AnewSampling 使 AI 跨越了孤立结构的预测,开始对蛋白质-配体复合物的动态构象景观进行建模。
AlphaFold 让 AI 看到了分子结构,而 AnewSampling 则让 AI 触及了分子运动。
从昂贵的模拟到可扩展的建模
在基于结构的药物设计中——尤其是在先导化合物优化阶段——最有价值的信息通常包括:
- 配体在口袋内的结合模式
- 关键残基与药效团之间的耦合运动
- 罕见但功能上极为重要的低频状态
- 影响稳定性、选择性和活性的动态相互作用网络
这些信号正是静态模型难以捕捉的。虽然经典的分子动力学模拟可以揭示这些信号,但其高昂的计算成本往往限制了大规模应用。
AnewSampling 将过去只能通过昂贵模拟获取的丰富动力学和热力学信号,引入到日常的药物发现工作流中。对于研究团队而言,这意味着:
- 更快的洞察:以传统 MD 所需时间的一小部分完成平衡采样。
- 更广的覆盖:跨蛋白质家族和配体化学类型泛化,无需为每个靶点重复训练。
- 更深的理解:生成构象系综而非单一预测,从而发现隐藏但具有重要功能的状态。
AnewSampling 不仅仅是加速了动力学建模。它用可大规模部署的 AI 系统取代了过去依赖昂贵且耗时的物理模拟步骤。这标志着该领域迈出了重要一步:AI 已经开始建模复合物如何运动、哪些状态在热力学上更有利,以及这些转变如何在能量景观上展开。
从静态结构到动态分布的跨越,标志着 AI 驱动药物发现的又一重要转折点。
在高级应用中展现卓越性能
AnewSampling 在一系列严格的评估中表现出色,其结果可直接转化为药物发现的实际应用。
在多种基准测试中得到验证
在内部构建的测试集、公开的 JACS 和 Merck 基准测试,以及大规模蛋白质动力学数据集 ATLAS 上,AnewSampling 均展现出卓越性能。
它为蛋白质单体和蛋白质-配体复合物生成的构象系综与参考的 MD 模拟高度吻合,表明其在未见过的靶点、多样化的配体化学类型和不同评估设置下,具有强大的泛化能力。

图2. 在 ATLAS 蛋白质单体基准测试上的评估,对比了 AnewSampling 与当前最先进的基线模型在生成单体蛋白质构象系综方面的表现。AnewSampling 在所有评估指标上均取得了最佳性能。
在关键指标上实现高保真动力学
更重要的是,AnewSampling 的优势远不止于生成“看起来相似”的结构。该模型成功还原了直接影响药物发现决策的动态信号。
在配体扭转角分布、蛋白质-配体相互作用网络以及蛋白质柔性变化等关键指标上,AnewSampling 显著优于现有的生成模型,同时与 MD 参考数据保持高度一致。这表明该模型不仅仅捕捉了表面的几何相似性,而是学习到了更接近底层热力学现实的分布。

图3. 在蛋白质-配体基准测试上使用 Jensen-Shannon (JS) 距离、Wasserstein (WS) 距离和均方根误差 (RMSE) 对多个模型进行的评估。AnewSampling 始终表现卓越,并在 JS ≤ 0.3、WS ≤ 0.3 和 Spearman 相关系数 ≥ 0.85 的标准下,达到了与 MD 相当的成功率。
使用 JACS 和 Merck 数据集 的进一步分析表明,在生成蛋白质-配体构象景观方面,AnewSampling 比现有的静态或动态预测模型实现了显著更高的成功率,同时与 MD 结果保持了强相关性。

图4. 使用 JACS 和 Merck 数据集对蛋白质-配体构象景观生成进行的分析。(a) AnewSampling 实现了比现有静态和动态预测模型显著更高的生成成功率,同时与 MD 保持强相关性。(b) CDK2 配体示例说明了苯基取代引起的氢键增加,对比了 MD(蓝色)和 AnewSampling(红色)的 WS 距离分布。
更强的功能态覆盖
最具启示性的测试往往也是最具挑战性的。在 CDK2 系统 中,AnewSampling 捕捉到了配体与侧链之间的多种结合模式和复杂的协同运动——在标准的模拟预算下,这些状态通常难以通过常规 MD 充分采样。
在这种情况下,AnewSampling 达到了接近增强采样方法(如副本交换分子动力学 (REMD))的性能。这表明,以前只能通过高成本模拟才能探索的功能态,现在可以通过 AnewSampling 高效获取。

图5. CDK2 复合物的增强采样分析。AnewSampling 捕捉到了在 REMD 轨迹(蓝色)中观察到的多种分布。在 PDB ID: 1H1S 的案例研究中,AnewSampling(粉色)成功恢复了 REMD 模拟(蓝色)中观察到的关键瞬态氢键。
迈向动力学感知 AI 药物设计的新时代
AnewSampling 的出现标志着向前迈出的重要一步——从结构预测走向动态的分子理解。
如果说早期的 AI 系统帮助我们看清了分子复合物的样貌,那么下一代模型正在学习分子如何运动、如何演化,以及这些动力学特征如何决定其生物学功能和成药性。
通过在速度、规模和物理保真度之间建立新的平衡,AnewSampling 为探索蛋白质-配体相互作用景观提供了强大的新基础,并拓宽了未来药物发现应用的可能性。
曾经需要昂贵模拟才能获取的分子动力学信息,如今正以前所未有的规模变得触手可及。