/ 中存储网

伯克利实验室与 Meta 合作发布了开放分子 25 和通用原子模型 (UMA) 供公众使用

2025-05-29 20:27:28 来源:中国存储网

中国存储网消息,近日,伯克利实验室与 Meta 合作发布了开放分子 25 (OMol25) 和通用原子模型 (UMA) 供公众使用。Open Molecules 是超过 1 亿个 3D 分子快照的集合,其特性是使用密度泛函理论 (DFT) 计算的。DFT 是一种非常强大(且计算成本高昂)的工具,用于模拟原子相互作用的精确细节,使科学家能够预测每个原子上的力和系统的能量,这反过来又决定了决定更大规模特性的分子运动和化学反应,例如电解质在电池中的反应或药物如何与受体结合以预防疾病。

伯克利实验室与 Meta 合作发布了开放分子 25 和通用原子模型 (UMA) 供公众使用

OMol25 使用高性能量子化学程序包 ORCA(版本 6.0.1)构建,包含大型原子系统的模拟,到目前为止,没有大量计算资源的化学家无法获得这些模拟。以前的分子数据集要小得多,模拟只包括 20 到 30 个原子(每次计算)和有限的元素。OMol25 需要 60 亿个核心小时的计算时间来创建 10 倍大的数据集,包括许多不同元素之间的复杂交互。Meta 的基础 AI 研究 (FAIR) 团队利用公司庞大的全球计算资源网络来运行数百万次 DFT 模拟,利用世界上一部分人睡着而不浏览 Instagram 和 Facebook 时的空闲带宽。

此外,Meta 还分享了其通用原子模型 (UMA),这是一种基于机器学习数据的工具,用于模拟原子在各种材料和分子中的相互作用。与 Microsoft 的 Aurora 天气模型一样,UMA 也基于现有数据进行训练,这些数据包含超过 300 亿个原子,这些数据是 Meta 在过去五年中发布的所有数据集中包含的,包括那些同时具有分子和材料的数据集。

UMA 为研究人员提供了一个基础化学模型,该模型提供了更准确的预测并更好地了解了分子行为。它还可以作为下游用例和微调应用程序以及开发自己的模型的多功能基础。

美德纽带

使用传统 HPC 结果训练机器学习模型的一个示例,或者以 UMA 为例,机器学习原子间电位 (MLIP) 在数值 DFT 数据上进行训练,可以提供相同口径的预测,但比传统数值方法快 10000 倍。在标准计算系统上运行时,模拟大型原子系统的能力总是遥不可及的。MLIP 充当数值 DFT 的替代项,需要与传统 DFT 计算相同的输入:原子位置、原子序数以及自旋和电荷信息(可选)。

MLIP 方法的有用性取决于它可用于训练的数据的数量、质量和广度。OMol25 拥有 1 亿个 3D 分子快照,是用于训练的化学多样性最强的分子数据集,因此增强了 MLIP 模型。如发现的良性循环中所述,现有的传统 HPC(数值)数据用于训练 AI 模型,然后产生更多的“DFT”结果(使用快速 MLIP 模型),这些结果可能会反馈到循环中,以产生更大、更多样化的结果集。

OMol25 和 UMA 相结合,有可能使用基于数据的 AI 模型而不是直接计算来解锁分子和材料研究的新功能。Meta 将此视为开放科学发布的下一步,以加速原子级材料设计。他们还与劳伦斯利弗莫尔国家实验室 (Lawrence Livermore National Laboratory) 等合作伙伴合作,将这些数据集和模型扩展到聚合物等新类别的分子。

“我认为这将彻底改变人们进行化学原子模拟的方式,能够自信地说这真是太酷了,”项目联合负责人、伯克利实验室的化学家和研究科学家塞缪尔·布劳 (Samuel Blau) 说。他在团队中的同事来自六所大学、两家公司和两个国家实验室。

“我们非常高兴能与社区合作构建这个数据集,看看它将带我们去哪里创建新的 AI 模型,”Meta 基础 AI 研究 (FAIR) 实验室的研究总监 Larry Zitnick 说。

OMol25 和 UMA 代表了 AI 在发现的良性循环中加速的另一个例子。基于数据的科学和工程基础模型的持续开发将继续加速发现过程。论文和数据可在此处获得: