公司新闻行业动态

新闻中心

您当前所在位置：首页 > 新闻中心

M6米乐官网登录14个机构63位学者合作重磅综述：用于量子、原子和

发布时间：2024-06-25 03:04:19 来源：米乐M6官网登录正版下载作者：米乐M6网页版登录入口

　　近日，来自 MIT、Stanford、UIUC、NVIDIA 等14个机构的63位作者合作撰写了一篇263页的 AI for Science 重磅综述，详细阐述了 AI 在亚原子（波函数、电子密度），原子（分子、蛋白质、材料、相互作用），以及宏观系统（流体、气候、地下）等不同时空尺度的科学领域应用的关键挑战、学科前沿和开放问题。文章围绕对称性进行了深入而直观的讨论，同时也对可解释性、分布外泛化、大语言模型和不确定性进行了探讨。此外，研究者还创建网站（）并绘制 AI for Science 的领域地图，提供了分类资源列表，希望能促进领域交流与合作。

　　研究领域：AI for Science，AI 可解释性，分布外泛化，大语言模型，对称性与等变性

　　图1. AI for science 研究领域概览。本文主要关注 AI for 量子力学、密度泛函理论（DFT）、小分子、蛋白质、材料、分子相互作用和偏微分方程（PDE）。最外层圆圈中直观地描绘了这些不同的领域，它们按物理世界建模的空间和时间尺度排列为：量子、原子和连续体系。最内部的圆圈中显示了这些研究领域中存在一系列常见的技术挑战，例如对称性、可解释性和分布外泛化等。

　　数十年的人工智能（AI）研究随着以深度学习为标志的神经网络的复兴达到顶峰。自2012年的 AlexNet 以来，十多年的深入研究使得深度学习领域取得大量突破，包括 ResNet、扩散模型和基于分数的模型、注意力、transformer，以及最近的大语言模型（LLM）和 ChatGPT 等。这些发展使得深度模型的性能不断提高。深度学习与不断增长的计算能力和大规模数据集结合，正成为计算机视觉和自然语言处理等各个领域的主导方法。

　　在这些进步的推动下，AI 改进、加速和促进我们理解广泛的空间和时间尺度上的自然现象，推动自然科学的发展，从而形成了 AI for science 这一新的研究领域。AI for science 为科学发现的新范式打开了一扇门，代表了跨学科研究和创新的一个最令人兴奋的领域。

　　这篇论文对研究者过去多年持续探索的 AI for science 的研究领域进行了综述，根据系统所在的物理世界的空间和时间尺度，来组织不同的 AI for science 领域。这项工作提供了一个全面的分类体系，以对称性、等变性和群论这些数学和物理原理为基础，深入探讨了七个具体的科学领域，并讨论了多个领域存在的共同技术挑战。这使得对整个 AI for science 领域进行全面而有结构的探索成为可能。

　　本文在连续的空间和时间尺度中探索 AI 和各个科学学科的交叉点。这个框架容纳了各种各样的领域和问题，并通过它们独特的对称性和共同技术挑战统一起来。对称性是自然科学的结构所固有的，受数学和物理定律支配，在各个科学领域的许多模式中都有体现。这种跨学科视角为我们提供了一个新透镜，透过它我们可以用 AI 方法解决和研究复杂的科学问题。

　　图2. 科学领域的时间和空间尺度。量子物理的空间尺度通常在原子和亚原子级别（10-12~10-9米）；密度泛函理论（DFT）处理分子中的多体电子相互作用，尺度范围为 10-10~10-8 米；分子动力学模拟在更大的尺度上运行（10-9~10-6 米）；偏微分方程（PDE）被用于研究连续介质系统的行为，尺度范围从流体动力学中的微米到气候动力学中的千米（10-6~103米）。本文将这些领域聚类为量子、原子和连续介质体系。

　　量子力学研究最小长度尺度上的物理现象，使用波函数描述量子系统的完整动力学。而波函数通过求解薛定谔方程得到，其中的计算具有指数复杂度。本文提供了技术综述，介绍如何设计先进的深度学习方法来有效地学习神经波函数，探讨量子多体问题的求解，包括：学习量子自旋系统基态，和学习多电子系统基态。

　　图3. 变分蒙特卡洛（VMC）的流程。神经量子态以自旋构型或电子位置作为输入，输出波函数值。在VMC中，根据波函数确定的概率分布，使用马尔可夫链蒙特卡洛（MCMC）采样自旋构型或电子位置；然后根据这些采样计算能量，并通过能量梯度更新神经量子态。

　　密度泛函理论（Density Functional Theory，DFT）和从头计算量子化学（ab initio quantum chemistry）方法是在实践中广泛应用的第一性原理方法，用于计算分子和材料的电子结构和物理性质。然而，这些方法在计算上仍然昂贵，限制了在小型系统（约1000个原子）中的使用。本文介绍了用于准确预测量子张量的深度学习方法，这反过来可用于推导许多其他物理和化学性质，包括分子和固体的电子、机械、光学、磁性和催化性质；此外综述了机器学习方法用于密度泛函学习的最新进展。

　　图4. DFT 计算和深度学习方法获取哈密顿矩阵的流程。DFT 计算使用与分子及其坐标相关的预定义原子轨道基底，通过在自洽场（SCF）循环中迭代优化哈密顿矩阵，直到达到总能量极小值/最小值的收敛。深度学习方法直接使用量子张量网络预测最终的哈密顿矩阵，以原子类型和坐标作为输入，消除了迭代优化过程，从而加速了 DFT 计算。

　　小分子，也被称为微分子，通常有几十到几百个原子，相对于蛋白质、核酸等具有复杂结构的大分子而言，在许多化学和生物过程中起着重要的调节和信号作用。例如，90% 获批准的药物都是小分子，它们可以与目标大分子（如蛋白质）相互作用，改变靶标的活性或功能。将机器学习方法用于小分子学习，可以为分子预测和生成任务开发更准确、有效的方法。本文深入介绍了分子学习的几个关键任务，包括：分子表征学习、分子构象生成、从头生成分子、分子动力学模拟，以及立体异构和构象灵活性的表征学习。

　　图5. 现有的分子表征学习方法概述。可以根据特征的张量阶（tensor order，指特征的维度）和 GNN 层的体阶（body order，指 GNN 层的输入和输出维度）对现有方法进行分类，这是用于构建强大的三维 GNN的两个关键设计选择。

　　蛋白质是由一条或多条氨基酸链组成的大分子。人们普遍认为，氨基酸序列决定蛋白质结构，而蛋白质结构又决定蛋白质功能。蛋白质承担着大部分生物功能，包括结构、催化、生殖、代谢和运输等。最近，机器学习方法在蛋白质结构预测方面取得了重要进展，而图神经网络、扩散模型、三维几何模型等机器学习方法则加速了新蛋白质的发现。这项工作综述了AI 用于蛋白质科学的三个主题：蛋白质结构预测，蛋白质表征学习，蛋白质骨架生成。

　　图6.（上左）蛋白质结构预测算法总结。（上右）蛋白质表征学习。（下）扩散模型用于蛋白质生成。

　　材料科学研究材料的加工、结构、性质和性能之间的关系。从原子尺度到微观和连续尺度，材料的内在结构通过与外界刺激/环境的相互作用，决定其量子、电子、催化、机械、光学、磁性和其他性质。最近，机器学习方法已经被开发用于预测晶体材料的性质并设计新颖的晶体结构。本文对晶体材料的性质预测和结构生成做了技术综述，包括两个基础任务：材料表征学习和材料生成问题；和三个进阶主题：有序晶体材料表征、无序晶体材料表征和声子计算。

　　图7. 材料表征学习过程。首先非晶态材料转化为晶体图表征，随后作为晶体图消息传递神经网络的输入；然后模型被训练以准确预测晶体的性质。

　　分子相互作用研究分子如何相互作用以执行许多物理和生物功能。机器学习的最新进展激发了对各种分子相互作用的建模，例如配体-受体相互作用、分子-材料相互作用。本文对这些进展进行了深入和全面的回顾，重点关注小分子、蛋白质或材料的相互作用。

　　图8. 分子相互作用研究概览。对于分子-蛋白质相互作用、分子-材料相互作用，将已有任务分为预测任务和生成任务。

　　连续介质力学（Continuum Mechanics）用偏微分方程（PDE）对宏观尺度上随时间和空间演化的物理过程进行建模，包括流体流动、热传导和电磁波等。然而，使用传统求解方法解决偏微分方程存在一些限制，包括效率低、难以进行分布外泛化和多分辨率分析。本文综述了近期用于解决这些限制的代理模型的深度学习方法，包括前向问题以及逆向问题和逆向设计。

　　图9. （上）多尺度动力学。许多系统展示出从局部到全局尺度的相互作用部分的动力学。比如湍流流动具有一系列衰减到最小尺度的层级涡旋。构建具有多尺度处理机制的机器学习模型对于高保真度模拟至关重要。这些机制在每个尺度上聚合信息，以更新每个格点的潜在表征。这里是一个按顺序在每个尺度上执行聚合和更新机制的可视化。（下）前向问题、逆向问题和逆向设计的说明和比较。

　　除了各个科学领域特有的挑战，AI for science 的多个领域还存在一些共同的技术挑战。本文提出了四个常见的技术挑战：分布外泛化，可解释性，基于自监督学习的基础模型，和不确定性量化。AI 和机器学习领域早已认识到这些挑战，但在 AI for science 背景下，由于数据和任务的独特特点，这些挑战变得更加重要。

　　科学的目标是理解物理世界的规律。AI for science 的目标是（1）设计能够准确建模物理世界的模型，以及（2）解释模型以验证或发现物理规律。因此，可解释性对于 AI for science 至关重要。

　　例如，几何深度学习（Geometric deep learning，GDL）模型在量子、分子、材料和蛋白质科学等领域展现出巨大潜力。然而大多数几何深度学习模型缺乏可解释性，通常被视为黑盒，为了评估模型结果的科学合理性，实现可解释性非常重要。本文探讨了将可解释人工智能（explainable artificial intelligence，XAI）与模型相结合以提高可解释性。XAI 旨在追踪模型的输入如何决定输出，来增加预测的可信度；还可以测试模型预测是否符合物理定律，从而有助于提高现有几何深度学习模型的质量。对模型的精确解释技术可以为领域专家提供对模型学习到的底层机制的深入洞察，帮助从模型中获得知识可以指导未来的研究方向。

　　传统的机器学习方法假设训练数据和测试数据遵循相同的分布，然而在现实中，训练数据和测试数据之间可能存在不同的分布偏移，这就需要识别能够进行分布外泛化的因果关系。这个问题与多个领域都有关联，包括迁移学习、领域适应、领域泛化、因果、不变学习等。分布外泛化对于科学模拟尤为重要，因为这样可以避免为每个不同的设置生成训练数据，此外也可以提高科学发现模型的任务表现和泛化能力。

　　图10. AI for science 领域的分布外泛化问题。科学领域的分布外泛化问题普遍存在。在分子科学中，不同的分子大小和骨架是分布偏移的主要来源。在蛋白质科学中，三维蛋白质结构的复杂性，以及蛋白质构成和折叠的潜在变化的广泛性，使得泛化到不同分布成为艰巨的挑战。对于偏微分方程，在时间演化建模中从高粘度泛化到低粘度是一项困难的任务，因为低粘度会导致更多的湍流流动，产生更多的混沌动力学，让建模充满挑战。

　　深度模型的监督学习通常需要大量标记数据，然而对于科学发现，获取标记数据可能面临特殊的挑战，例如需要专业领域知识、高昂的计算或实验成本，或者物理限制等因素。当标记的训练数据不容易获取时，进行无监督学习或少样本学习的能力变得重要。这些困难催生了一个新兴的研究领域——自监督学习（self-supervised learning，SSL）。自监督学习技术使得深度模型能够利用无标签数据，并学习现实数据的先验知识，例如物理规律和对称性，而无需依赖大量标记的数据集。

　　基础模型（Foundation Models）基于自监督学。

M6米乐官网登录