抛弃试错法,让机器学习教你设计新材料
【引语】
干货专栏
材料人现在已经推出了很多优质的专栏文章,所涉及领域也正在慢慢完善。有很多小伙伴已经加入了我们,但是还满足不了我们的需求,期待更多的优秀作者加入,有意向的可直接微信联系 cailiaorenVIP。我在材料人等你哟,期待您的加入!
1前言
材料的革新对技术进步和产业发展具有非常重要的作用,但是传统开发新材料的过程,都采用的试错法,实验步骤繁琐,研发周期长,浪费资源。实验过程中,研究人员往往达不到自己的实验预期,而产生了很多不理想的数据。虽然这些实验过程给我们提供了试错经验,但是失败的实验数据摆放在那里彷佛变得并无用处;此外,目前材料表征技术手段越来越多,对应的图形数据以及维度也越来越复杂,依靠人力的实验分析有时往往无法挖掘出材料性能之间的深层联系;再者,随着计算机的发展,许多诸如第一性原理计算、相场模拟、有限元分析等手段随之出现,用以进行材料的结构以及性能方面的计算,但是往往计算量大,费用大。这些都是限制材料发展与变革的重大因素。
为了解决上述出现的问题,结合目前人工智能的发展潮流,科学家发现,我们可以将所有的实验数据,计算模拟数据,整合起来,无论好坏,便能形成具有一定数量的数据库;在数据库中,根据材料的某些属性可以建立机器学习模型,便可快速对材料的性能进行预测,甚至是设计新材料,解决了周期长、成本高的问题。近年来,这种利用机器学习预测新材料的方法越来越受到研究者的青睐。2018年,在nature正刊上发表了一篇题为“机器学习在分子以及材料科学中的应用”的综述性文章[1]。文章详细介绍了机器学习在指导化学合成、辅助多维材料表征、获取新材料设计方法等方面的重要作用,并表示新一代的计算机科学,会对材料科学产生变革性的作用。
基于此,本文对机器学习进行简单的介绍,并对机器学习在材料领域的应用的研究进展进行详尽的论述,根据前人的观点,总结机器学习在材料设计领域的新的发展趋势,以期待更多的研究者在这个方向加以更多的关注。
2机器学习简介
所谓的机器学习就是赋予计算机人类的获得知识或技能的能力,然后利用这些知识和技能解决我们所需要解决的问题的过程。
利用机器学习解决问题的过程为定义问题-数据收集-建立模型-评估-结果分析。如图2-1所示[2]。就是针对于某一特定问题,建立合适的数据库,将计算机和统计学等学科结合在一起,建立数学模型并不断的进行评估修正,最后获得能够准确预测的模型。
图2-1 机器学习的学习过程流程图
为了通俗的理解机器学习这一概念,举个简单的例子:
当我们是小朋友的时候,对性别的概念并不是很清楚,这就属于步骤1:问题定义的过程。这个人是男人还是女人?
随着我们慢慢的长大,接触的人群越来越多,了解的男人女人的特征越来越多,如音色、穿衣、相貌特征、发型、行为举止等。这就是步骤二:数据收集
跟据这些特征,我们的大脑自动建立识别性别的模型。这样当我们遇见一个陌生人时。我们便能马上辨别他的性别。属于步骤三:模型建立
然而,刚刚有性别特征概念的人,往往会在识别性别的时候有错误,例如错误的认为养着长头发的男人是女人,养短头发的女人是男人。对错误的判断进行纠正,我们的大脑便记住这一特征,并将大脑的模型进行重建,这样就能更准确的有性别的区别。这属于步骤四:评估。
最后我们拥有了识别性别的能力,并能准确的判断对方性别。这就是最后的结果分析过程。
当然,机器学习的学习过程并非如此简单。根据机器学习训练集是否有对应的标识可以分为监督学习、无监督学习、半监督学习以及强化学习。机器学习分类及对应部分算法如图2-2所示。需要注意的是,机器学习的范围非常庞大,有些算法很难明确归类到某一类。而对于有些分类来说,同一分类的算法可以针对不同类型的问题(引自https://blog.csdn.net/sinat_27554409/article/details/72823
984),在解决实际问题时要做具体的分析。此外,随着机器学习的不断发展,深度学习的概念也时常出现在我们身边。深度学习是机器学习中神经网络算法的扩展,它是机器学习的第二个阶段--深层学习,深度学习中的多层感知机可以弥补浅层学习的不足。深度学习算法包括循环神经网络(RNN)、卷积神经网络(CNN)等[3]。本文对机器学习和深度学习的算法不做过多介绍,详细内容课参照机器学习相关书籍进行了解。
图2-2 机器学习分类及算法
3 机器学习算法在材料设计中的应用
“使用计算模型和机器学习进行材料预测与设计”这一理念最早是由加州大学伯克利分校的材料科学家Gerbrand Ceder教授提出。Ceder教授指出,可以借鉴遗传科学的方法,就像 DNA 碱基对编码蛋白质等各种生物材料一样,用“材料基因组”编码各种化合物,而实现这一“编码”的工具便是计算机的数据挖掘及机器学习算法等。这一理念受到了广泛的关注。随后,2011年夏天,奥巴马政府宣布了“材料基因组计划”(Materials Genome Initiative,简称MGI),该计划在材料科学中掀起了一场革命。目前,机器学习在材料科学中已经得到了一些进展,如进行材料结构、相变及缺陷的分析[4-6]、辅助材料测试的表征[7-9]等。
3.1 材料结构、相变及缺陷的分析
2017年6月,Isayev[4]等人将AFLOW库和结构-性能描述符联系起来建立数据库,利用机器学习算法对成千上万种无机材料进行预测。首先,构建带有属性标注的材料片段模型(PLMF):将材料的晶体结构分解为相互关联的拓扑片段,表示结构的连通性;为PLMF图中的顶点赋予各个原子独有的物理和化学性能(如原子在元素周期表中的位置、电负性、摩尔体积等),以此将不同的材料区分开。然后,采用梯度提升决策树算法,建立了8个预测模型(图3-1),其中之一为二分类模型,用于预测该材料是金属还是绝缘体;另外7个模型为回归模型,预测绝缘体材料的带隙能(EBG),体积模量(BVRH),剪切模量(GVRH),徳拜温度(θD),定压热容(CP),定容热容(Cv)以及热扩散系数(αv)。经过计算并验证发现,在数据库中的26674种材料中,金属/绝缘体分类的准确度为86%,仅仅有2414种材料被误分类(图3-2)。发现极性无机材料有更大的带隙能(图3-3),所预测的热机械性能与实验和计算的数据基本吻合(图3-4)。
图3-1机器学习流程图
图3-2 数据集分类图图3-3
图3-3 带隙能与电离势关系图
图3-4 模型预测数据与计算数据的对比曲线
2018年Zong[5]等人采用随机森林算法以及回归模型,来研究超导体的临界温度。首先,根据SuperCon数据库中信息,对超过12,000种已知超导体和候选材料的超导转变温度(Tc)进行建模。根据Tc是高于还是低于10K,将材料分为两类,构建非参数随机森林分类模型预测超导体的类别。随机森林模型以及超导材料Tc散点图如图3-5、3-6所示。随后开发了回归模型来预测铜基、铁基和低温转变化合物等各种材料的Tc 值,同样取得了较好结果,利用AFLOW在线存储库中的材料数据,他们进一步提高了这些模型的准确性。最后,将分类和回归模型组合成一个集成管道,应用其搜索了整个无机晶体结构数据库并预测出30多种新的潜在超导体。因此,复杂的ML算法的应用大大加速对候选高温超导体的搜索。
图3-5 随机森林算法流程图
图3-6超导材料的Tc散点图
3.2 辅助材料测试的表征
近年来,由于原位探针的出现,使研究人员研究铁电畴结构在外部刺激下的翻转机制成为可能。然而,实验产生的数据量、种类、准确性和速度成阶梯式增长,使传统的分析方法变得困难。因此,2018年1月,美国加州大学伯克利分校的J. C. Agar[7]等人设计了机器学习工作流程,帮助我们理解和设计铁电材料。首先,利用主成分分析法(PCA)对铁电磁滞回线进行降噪处理,降噪后的磁滞曲线由(图3-7)黑线所示,能够很好的拟合磁滞回线所有结构特征,解决了传统15参数函数拟合精度不够的问题(图3-7)红色。然后,为了定量的分析压电滞回线的凹陷特征,构建图3-8所示的凸结构曲线。利用k-均值聚类算法,根据凹陷中心与红线的距离,对磁滞回线的转变过程进行分类。当我们进行PFM图谱分析时,仅仅能表征a1/a2/a1/a2与c/a/c/a之间的转变,而不能发现a1/a2/a1/a2内的反转,因此将上述降噪处理的数据、凸壳曲线以及k-均值聚类的方法结合在一起进行分析,发现了a1/a2/a1/a2内的结构的转变机制。并利用交叉验证的方法,解释了分类模型的准确性,精确度为92±0.01%(图3-9)。此外,作者利用高斯拟合定量化磁滞转变曲线的幅度,结合机器学习确定了“峰”/“谷”c/a/c/a - a1/a2/a1/a2域边界上的铁弹性增加的特征(图3-10),而这一特征是人为无法发掘的。一旦建立了该特征,该工作流程就可以量化具有统计显着性和纳米级分辨率的效应。
图3-7 单个像素处压电响应的磁滞回线:原始数据(蓝色圆圈),传统拟合曲线(红线)和降噪处理后的曲线(黑线)。
图3-8压电响应磁滞回线的凸壳结构示例(红色)。 标记表示凸多边形上的点。 阴影区域表示用于创建凹度曲线的区域
图3-9分类模型精确度图
图3-10
(a~d)由高斯拟合铁电体计算的凹面积图;(e)分层域结构的横截面的示意图;(f, g)靠近表面显示切换过程的特写镜头;(h)a1 / a2 / a1 / a2频段压电响应磁滞回线;(i)表示材料的能量吸收特性的悬臂共振品质因数图像
在扫描透射电子显微镜(STEM)的数据分析中,由于数据的数量和维度的增大,使得手动非原位分析存在局限性。为了解决这个问题,2019年2月,Maksov等人[9]建立了机器学习模型来自动分析图像。首先,构建深度神经网络模型(图3-11),识别在STEM数据中出现的破坏晶格周期性的缺陷,利用模型的泛化能力在其余的实验中找到各种类型的原子缺陷。然后,使用高斯混合模型对检测到的缺陷结构进行无监督分类(图3-12),并显示分类结果可以与特定的物理结构相关联。作者进一步扩展了其框架,以提取硫空位的扩散参数,并分析了与由Mo掺杂剂和硫空位组成的不同配置的缺陷配合物之间切换相关的转换概率,从而深入了解点缺陷动力学和反应(图3-13)。
图3-11识别破坏晶格周期性的缺陷的深度卷积神经网络
图3-12由深度卷积神经网络确定的无监督的缺陷分类
图3-13不同缺陷态之间转移概率的分析
4 机器学习在材料领域的研究展望
与其他领域,如金融、互联网用户分析、天气预测等相比,材料科学利用机器学习算法进行预测的缺点就是材料中的数据量相对较少。那么在保证模型质量的前提下,建立一个精确的小数据分析模型是目前研究者应该关注的问题,目前已有部分研究人员建立了小数据模型[10, 11],但精度以及普适性仍需进一步优化验证;此外,Butler等人在综述[1]中提到,量子计算在检测和纠正数据时可能会产生错误,那么量子机器学习便开拓了机器学习在解决量子问题上的应用领域。
以上,便是本人对机器学习对材料领域的发展作用的理解,如果不足,请指正。
参考文献
[1] K.T. Butler, D.W. Davies, H. Cartwright, O. Isayev, A. Walsh, Nature, 559 (2018) 547.
[2] D.-H. Kim, T.J. Kim, X. Wang, M. Kim, Y.-J. Quan, J.W. Oh, S.-H. Min, H. Kim, B. Bhandari, I. Yang, International Journal of Precision Engineering and Manufacturing-Green Technology, 5 (2018) 555-568.
[3] 周子扬, 电子世界, (2017) 72-73.
[4] O. Isayev, C. Oses, C. Toher, E. Gossett, S. Curtarolo, A. Tropsha, Nature communications, 8 (2017) 15679.
[5] V. Stanev, C. Oses, A.G. Kusne, E. Rodriguez, J. Paglione, S. Curtarolo, I. Takeuchi, npj Computational Materials, 4 (2018) 29.
[6] A. Rovinelli, M.D. Sangid, H. Proudhon, W. Ludwig, npj Computational Materials, 4 (2018) 35.
[7] J.C. Agar, Y. Cao, B. Naul, S. Pandya, S. van der Walt, A.I. Luo, J.T. Maher, N. Balke, S. Jesse, S.V. Kalinin, Advanced Materials, 30 (2018) 1800701.
[8] R.K. Vasudevan, N. Laanait, E.M. Ferragut, K. Wang, D.B. Geohegan, K. Xiao, M. Ziatdinov, S. Jesse, O. Dyck, S.V. Kalinin, npj Computational Materials, 4 (2018) 30.
[9] A. Maksov, O. Dyck, K. Wang, K. Xiao, D.B. Geohegan, B.G. Sumpter, R.K. Vasudevan, S. Jesse, S.V. Kalinin, M. Ziatdinov, npj Computational Materials, 5 (2019) 12.
[10] Y. Zhang, C. Ling, Npj Computational Materials, 4 (2018) 25.
[11] H. Trivedi, V.V. Shvartsman, M.S. Medeiros, R.C. Pullar, D.C. Lupascu, npj Computational Materials, 4 (2018) 28.
往期回顾:
本文由材料人专栏科技顾问溪蓓供稿,材料人编辑部Alisa编辑。
欢迎大家到材料人宣传科技成果并对文献进行深入解读,投稿邮箱: tougao@cailiaoren.com.
投稿以及内容合作可加编辑微信:cailiaorenVIP.
思路清晰