Nature综述:机器学习(ML)—研究分子和材料科学的新型利器


【引言】

薛定谔方程为分子和材料之间提供了强大的结构-性能关系。对于给定的化学元素的空间分布,可以用来描述电子的分布以及广泛的物理反应。其中,量子力学的发展为化学键提供了严谨的理论基础,从而衍生出新的学科——量子化学。计算化学领域在二十一世纪变得越来越具有预测性,其具有广泛的应用,如用于温室气体转化的催化剂开发、用于捕能和储能的材料研发以及计算机辅助药物设计等。现代化学模拟工具包可以在实验室合成化合物之前就预测出其性质(具有合理的准确度);高通量计算机筛选已经变成一种常态,使科学家有能力去计算成千上万种化合物的性质,而这只是作为单项研究的一部分;作为一种可以计算固体结构和行为的成熟技术——密度泛函理论(DFT),也已经能够开发广泛的数据库,其可以涵盖已知和假设系统的计算属性,包括有机和无机晶体、单分子和金属合金等。

当代人工智能方法的出现有可能大大改变和提高计算机在科学与工程领域的作用,大数据与人工智能地完美结合已经被称为是“科学的第四范式”和“第四次工业革命”,其在化学领域的应用正以惊人的速度增长。近几年已经得到迅速发展的人工智能子领域当属机器学习,机器学习的核心在于统计算法,其运行过程与研究人员相似,随着训练次数的增多而提高自身能力。这种技术适合解决一些涉及到大型组合空间和非线性过程等复杂问题,而这些问题使用传统技术有的不能解决,有的需要消耗很高的计算成本才能解决。

综述总览图

【成果简介】

近日,北卡罗来纳大学教堂山分校Olexandr Isayev教授伦敦帝国理工学院Aron Walsh(共同通讯作者)在国际著名期刊Nature上发表题为“Machine learning for molecular and materials science”的综述文章,文章总结了机器学习用于化学与材料领域的最新进展。文中概述了适用于解决该领域研究问题的机器学习技术,以及在该领域的未来发展方向。同时也设想了一个可以通过人工智能来加速分子和材料的设计、合成、表征和应用的前景。在这篇文章中,研究人员回顾了机器学习的基础知识,确定了现有方法有望加速研究进程的领域,并且考虑了实现更广泛的影响所需要的发展方向。

1 机器学习的知识与方法
通过被给定足够数据和规则发现算法的机器学习,计算机能够在无人为输入的条件下识别所有已知的物理定律(有可能是当前还未知的定律)。与传统计算相比,机器学习方法可以通过评估一部分数据集以及建立一个模型来进行预测,从而学习构成数据集基础的规则。

1.1 数据收集
机器学习包括从现有(训练)数据中学习的模型。数据可能需要初始化预处理,在此期间识别和处理丢失或者伪造的元素。识别和移除所出现的错误对于避免机器学习算法被误导至关重要。

1.2 数据表示
即使原始的科学数据是数字类型的,但有的数据所呈现的形式常常会影响学习。例如,在很多光谱中,其信号是在时域内获取的,但对于解释其现象时,则需要使用傅里叶变换将其转换为频域。这种将原始数据转换某些更适合于算法的过程被称为特征化或者特征工程。

1.3 学习者的选择
当数据集已经被合适地收集或展示时,是时候选择一个模型去学习它。目前,存在着广泛的模型类型(学习者)用于模型的建立和预测。监督式的学习模型可以预测离散集(如将材料分为金属和绝缘体)或连续集(如极化率)内的输出值。通常,为离散集建立一个模型需要分类,而为连续集建立模型则需要回归。

2 加速科学方法
不论是通过实验数据的列举或分析,还是化学直觉上的编纂,信息学在指导实验化学家方面的应用正在快速推进。这部分主要介绍机器学习如何有助于减少化学和材料设计、合成、表征和建模等方面的障碍,也介绍了一些人工智能领域的重要进展而对现有文献进行数据挖掘。

2.1 指导化学合成
有机化学家是最早认识到计算方法有望用于实验室中的科学家之一。在合成化学路径中,每一步反应的转化次数一般都在80到数千之间,相比之下,国际象棋中每个游戏的位置仅有几十种可能地移动。在化学合成中,需要人类专家来指定特定的条件和上下步的规则,这些规则在给定的步骤中排除了大量可能用到的试剂,限制了可供选择的算法数量。如果依赖于传统算法的机器要与专家竞争,那么上下步规则(通常是数千个)就显得至关重要。

深度学习方法对预测化学合成路径表现出特殊的应用前景,其通过将基于规则的专家系统和神经网络相结合的方案来实现这一目的,而该神经网络是对候选合成路径的排序或者是通过应用规则对预测产物的可能性进行组合而生成的。此外,也已经提出了一种基于规则合成预测的替代方案——序列-序列法,其基于有机化学家和语言学之间的联系。

除了目标分子的合成,机器学习模型可以用于评估产物结晶的可能性。通过应用特征选择技术,已经证明了一个双参数模型能够预测所给定的分子是否能够结晶,其准确度高达80%。关键的是,该模型可以获得超过2000种晶体和非晶体化合物的训练集。

2.2 辅助多维表征
分子和材料的结构通常是通过各种实验方法的组合所推断出来的,例如X射线中子衍射、磁自旋共振和振动光谱等。每种方法都有其特定的灵敏度,而且每种方法的信息都是互补的。不幸的是,很少将所得的数据完全同化为原子结构的统一化描述符。一种解决方案是将实时数据合并到模型中,再将其结果返回到实验中,形成反馈回路。而机器学习正是代表了一种可以实现合成、成像、理论和模拟等方面协同作用的统一框架。

2.3 加强理论化学
目前,对于成功的研究项目来说,模型通常被认为是与合成和表征同等重要的。使用原子模拟,原则上可以计算出任何化学组成和原子结构的分子和材料的性质。基于DFT方法已经成功的用于预测多种化合物的性质,在合理的成本下可以实现很高的准确度,虽然在其他方面存在不足,但研究人员也在不断的优化这种方法。

2.4 新型化合物的发现
机器学习可以揭示发现化合物的新方法。将系统描述符与理想性能相结合的模型已经用于揭示以前未知的结构-性能关系。迄今为止,分子和材料化学领域在设计新型化合物方面经历了不同程度的机器学习方法,其部分原因在于晶体结构和形态等方面仍然有很多挑战。即使这样,机器学习仍然已经在预测晶体材料、分子科学等领域得到广泛的发展。

2.5 回收文献
机器学习最新进展的最后一个应用领域是利用已经存在的大量知识。尽管科学文献为研究者提供了丰富的信息,但由于期刊、文章和数据库的激增也使得导航变得越来越困难。文本挖掘已经成为从非结构化文本源中识别并提取信息的一种非常受欢迎的方法。而由于书面资源的异构性,使得相关信息的自动提取绝非易事。为了解决这一问题,文本挖掘已经发展成为一个将文本处理和机器学习技术相结合的专业领域。

3 机器学习前沿进展
机器学习的进一步突破可以在分子和材料的自动化设计方面取得更大的进步。具体有以下几个方面:从更小的数据库中获得更多的知识、高效的化学表征、量子学习以及建立新原则等。

【图文导读】

图一 计算化学研究工作流程的演化图

图二 机器学习方法中出现的错误


在训练新模型(蓝线)和构建模型(红线)的过程中都会出现错误,一个简单的模型可能遭受到高偏差(低度拟合),而一个复杂的模型可能遭受到高方差(过度拟合),这就导致偏差-方差的均衡

图三 生成对抗网络(GAN)的分子发现法


两个模型(一个生成器、一个鉴别器)发挥着持续的“游戏”

【小结】

随着科学家们在其研究项目中采用统计学所驱动设计的机器学习,应用机器学习的报道数量正在以惊人的速度增加。这种由开源工具和数据分享平台所支持的新一代计算科学有望革新分子和材料的开发。

文献连接:Machine learning for molecular and materials science(Nature, 2018, DOI: 10.1038/s41586-018-0337-2)

本文由材料人编辑部计算材料组杜成江编译供稿,材料牛整理编辑。

欢迎大家到材料人宣传科技成果并对文献进行深入解读,投稿邮箱tougao@cailiaoren.com.

投稿以及内容合作可加编辑微信:cailiaokefu.

分享到