AI指导材料开发时代来临——南京大学刘建国教授JMCA封面:标准化机器学习研究范式加速氢燃料电池膜电极优化
论文相关信息:
第一作者(或者共同第一作者): 丁睿
通讯作者(或者共同通讯作者): 李佳博士;刘建国教授
通讯单位: 南京大学
论文DOI: 10.1039/D0TA12571G
全文速览
结合人工智能(AI)开展研发现已成为如今材料研究领域的新兴趋势,因为机器学习能够基于大数据进行准确的决策和预测从而显著缩短材料开发周期。但是,这一交叉领域的研究仍处于起步阶段,缺乏标准的研究范式将不利于未来的发展。因此,提出了标准的机器学习工作流程,其模块包括数据库构建,特征筛选,决策建模,回归建模和极值优化并与研究人员在AI指导下进行的实验探索构成了完整的新型材料研发循环。以在质子交换膜燃料电池(PEMFC)中应用的膜电极组件(MEA)能的优化为例,成功地开创了可数字化的劳动密集性研究领域如何从机器学习中受益的先例。
背景介绍
为了将PEMFC作为新一代的清洁能源装置普及,提高其核心部件MEA的输出功率是至关重要的。然而MEA的性能与许多因素有关:从催化剂的原始制备方法和化学组成到MEA的器件合成工艺,最后到燃料电池的实际工作条件。整个系统在优化时需要同时考虑到多个层面的物理化学过程,例如表面催化,材料传输和热电耦合。因此,研究人员不仅要面临优化实验中中需要考虑的参数过于庞杂,通过量子力学或有限元方法对局部过程进行粗糙模拟获得的模型准确性和适用范围也十分有限。另一方面,正是由于对MEA评估的参数非常复杂,导致即使是最有经验的研究者也难以基于宝贵的实验数据来建立准确的数据驱动的高维模型以有效地关联诸多变量以提出下一步优化的参数建议。因此,停留在传统的试错(trail-and-error)范式使得MEA的性能优化成本高昂且低效,该领域迫切需要引入一种革命性的新范式提升效率。
本文亮点
AI机器学习由于其卓绝的大数据挖掘以及在部分任务上能够超出领域专家潜力已经而在近年广受关注。将AI引入材料工程的科学问题上已有少部分材料学者进行交叉的先例,然而这些研究普遍面临训练数据过少,计算资源有限,参数信息于范围以及训练数据可靠程度差,最终导致获得的机器学习模型适用性和可靠性并不令人满意。除此之外,大部分迄今为止将机器学习引入材料研发的研究工作通常仅向读者展示使用少于10种机器学习算法构建的大数据模型。这导致其应用算法的数量非常有限,从而遗漏了许多可能性。实际上,对于不同的数据集与任务类型,最适宜算法的种类和超参数设置往往是不一样的。因此,使用机器学习算法优化目标任务时,应该从多种候选算法中进行建模结果比较从而选择最合适的方法。实际上,在AI领域,这种针对算法的评估和比较是长期以来用来解决问题的通用做法,例如著名的Kaggle竞赛。实验科学可能会受益于AI,同时也是它的基石。但是目前已有的相关研究仍然缺乏合理的统一标准化方法将AI进行指导实验设计的潜力充分开发。
因此,南京大学刘建国教授团队创建了一套标准的机器学习工作流,其中包含四个处理模块与多达35种机器学习算法和三种高级优化算法。同时以质子交换膜燃料电池膜电极为应用领域,构建了迄今为止该领域最大的基于实际实验的训练数据库,包含了过去17年间发表的295篇相关研究论文中的918条实验数据,每条实验数据囊括了从制备方法,理化性质到实验条件等66个实验参数以及其对应的性能数据。特征筛选模块首先通过特征排序方法筛选出了27个核心特征作为后续决策与回归建模输入参数,决策树与apriori关联规则挖掘算法则提供了设计高性能膜电极的可视化路径。回归建模中,人工神经网络从33种算法中优胜并能够达成对测试集中极化曲线和最大功率密度的精准预测(R2=0.9482)。最后,以回归建模中获得的高精度预测模型作为目标优化函数,机制优化模块能够直接根据已有实验条件为研究者提供可能获得最优性能的参数建议,从而构成完整的AI辅助研发循环。
相关成果以“Applying machine learning to boost the development of high-performance membrane electrode assembly for proton exchange membrane fuel cells”为题,于2021年2月8日在《材料化学学报A》(Journal of Materials Chemistry A)上作为封面文章(inside cover)发表。本文第一作者为南京大学现代工程与应用科学学院博士生丁睿,通讯作者为李佳副研究员与刘建国教授,南京大学为唯一通讯单位,机器学习计算任务受南京大学人工微结构科学与技术协同创新中心高性能计算中心支持。
图1 标准化机器学习工作流程示意图
图文解析
模块一:特征筛选
图2 a) XGboost 算法对66个初始实验参数的特征排序结果示意图;b)筛选并保留前27个核心特征后的特征排序结果示意图; c)使用随机森林(RF)与XGboost 进行特征筛选后的测试集预测性能表现变化柱状示意图
为了减少过拟合风险同时减少计算量和模型部署成本,首先对记录的复杂的特征进行初步筛选清洗是必要的。为此,特征筛选模块利用XGboost算法构建分类模型并对超参数优化后的模型进行特征排序(分类输出指标为最大功率密度,以美国能源部DOE设定的2020指标为参考进行正例/负例标注)。由图2a可见,阴极铂载量,催化剂质量活性、催化剂金属百分比与施加的背压被列为最重要的五个实验参数,这与长久以来同领域专家达成的见解非常吻合。除此之外,通过对实验变量进行分类,可以发现以红色(膜电极工程参数)与黑色(氧还原催化剂理化性质)标注的特征相对于蓝色(氧还原催化剂合成参数)标注的特征普遍更加重要,这一排序结果可以为研究人员提供基于大数据的的研发重点参考。除此之外,将重要性程度较低的特征摒除后保留的前27个重要特征再次进行XGboost训练后,获得的模型特征排序如图2b所示,可以发现AI对这27个特征的重要性排名认知基本没有发生变化,同时如图2c所示,改图展示了对应于图2a的使用全部66个特征信息进行建模和对应于图2b的仅使用前27名重要的核心特征信息进行建模在测试集上的仅仅在分类预测准确率和召回率上下降了1个百分点(96%至95%)。同时当将算法更改为另一种常见的集成算法随机森林来测试这一特征工程的有效性,也得到了类似的良好结果,这证明了模块一中的特征筛选在极大减少后续建模计算量时,保留了有效信息。
模块二:决策建模
图3 a) 使用核心特征进行决策树建模针对如何获得高最大功率密度的可视化决策路径示意图;b)与c)不同频繁项集(输入特征与的高性能同时出现)的提升值与频率随着分类标准(输出判定为高性能正例)变化的示意图
在模块一筛选出核心特征后,可通过决策建模为研发人员直接提供如何获得目标高性能基于大数据的决策建议。如图3a所示,决策树是最为高效与精确的模型之一,在高测试集分类准确率(88%)的前提下,决策树模型智能地提出了将质子交换膜厚度作为根节点,同时在后续节点中针对不同质量分数与质量活性的催化剂以及不同膜电极载量要求等各种情况下如何进行个性化优化提供了决策边界和建议。例如,决策树在没有人工干涉的情况,基于大数据训练提出了239.95mA mg-1 与 436.5 mA mg-1 的质量活性决策边界,分别与常见市售的商业碳载铂氧还原催化剂和DOE指定的性能指标不谋而合。此外,从一些次要节点中,也可以看到决策树推荐高电化学活性面积(>107.5m2 g-1)与高金属载量的催化剂(>42.25 wt. %)的研发。在运用另一种可视化决策方法,apriori关联规则挖掘方法时,则可以获得一些其他建议,如图3b和图3c所示,除类似的质子交换膜膜厚获得了最高的提升值以外(代表对获得高最大功率的概率起到更大正面影响),较新的催化剂直接涂覆于质子交换膜(CCM)方法也被认为起到了重要作用。同时其他诸如热压时长压力和温度等一般依靠经验进行优化的工艺变量,也通过关联规则挖掘算法获得了最佳值参考范围。这也意味着一些难以纳入理论建模的实验参数变量可以通过数据驱动机器学习建模的方式进行优化。
模块三:决策建模
图4 a) 34种不同机器学习算法在进行超参数网格优化后预测最大功率密度建模在测试集上的性能表现(均方误差RMSE与相关系数R2); b)最优人工神经网络预测最大功率密度在测试集上的预测性能(横坐标)与实际性能(纵坐标)的模型计算结果散点示意图
作为拥有复杂参数与高成本实验的膜电极体系,使用大数据直接构建数据驱动模型来预测实验输入的性能输出能够为研发者提供参考,并极大精简研发所需试错成本。通过广泛考察从基础线性回归(图4a中绿色菱形)到传统机器学习算法(图4a中橙色倒三角),集成算法(图4a中蓝色方块)再到深度学习(图4a中红色五角星)的34种不同机器学习算法在测试集上的性能极限(这一过程通过网格化超参数优化实现,遍历并训练了超过20万个超参数组合),可以发现在这一回归任务中,集成算法与深度学习的均方误差较低,相关系数更大,因此最表现最为优异。这是由于集成算法优异的鲁棒性与深度学习强大的高维拟合能力导致的。如图4b所示,通过超参数优化后的最佳人工神经网络(ANN)在测试集上的相关系数高达R2=0.9482,均方误差仅为148.302 mW cm-2。有70%的预测点成功落在±150 mW cm-2的误差容许范围内(绿色边界内的灰色区域),证明这一大数据驱动的预测模型能够有效并快速地为实验人员直接提供实验输入的可靠性能预测参考。除此之外进一步将训练模型的输出变为整条极化曲线,并再次使用32种机器学习算法进行多维回归训练与网格超参优化,如图5所示,ANN再次取得最佳表现,其预测的极化曲线能够很好地复现测试集中的真实实验数值。
模块四:极值优化
在模块三获得的精准预测模型的基础上,可以进一步使用其来优化极值,从而模仿并部分取代真实实验探索优化最佳实验参数的过程,为用户提供及时的在线优化参数指导。三种先进的启发式优化算法:遗传算法(GA),粒子群算法(PSA),以及差分进化(DE)算法,将图4b描述的最佳ANN预测模型作为优化函数并进行搜索以获得最大值对应的实验输入参数组合。首先,在6个变量的较小范围内寻求极值,通过比较计算的迭代次数以及时间成本及其找到的局域极值大小,可以发现PSA为最佳算法(图6a)。因此,将最佳算法PSA应用更大的13个自变量的优化空间。假设研究人员已经通过表征获得了部分信息,优化算法在短短的40秒内,膜电极的最大功率与对应工艺的个性化参数建议值就可被计算出来(图6b)。同时,因为在模块三中获得的代替实验的AI预测模型可以处理多达27个输入变量,因此模块四可以根据需要灵活地调整参数和优化参数空间。该模块可以广泛在不同的研究领域基于不同已知信息为不同应用场合提供个性化实验参考。同时,实验科学家依据AI优化提出的参数建议能够在优化复杂特征空间中的目标性能时,需要耗费的尝试次数更少,效率更高。而获得的实验数据可以反哺更新数据库,增加训练数据库的体量与质量以重新训练机器学习算法,构成一个完整的AI加速研发循环。随着循环进行,AI预测的结果会更精准,实验获得的性能也会更好。
图5 a)-f)超参数优化后的人工神经网络对测试集中依据实验输入预测的不同极化曲线和功率密度曲线进行预测(红色与绿色点)与真实实验曲线(橙色与蓝色线)对照图
图6 a)应用于6个自变量任务时,三种优化算法的性能表现;b)随PSA迭代代数变化找到的局域极值变化曲线与对应的实验输入参数组合
总结与展望
在这项研究中,研究者克服了过往机器学习与材料研发结合的研究的缺点并提出了全面的标准机器学习辅助研究和开发过程。设立了四个模块:特征筛选模块作为预处理步骤,可以研发人员提供研发侧重点建议同时也对数据进行了清洗并且减少了模型部署成本。决策建模模块采用可视化机器学习算法建立分类模型的以为研究人员提供获得高性能的决策节点和相应边界作为参考。回归建模模块中,多达34个不同的被广泛认可的机器学习算法被采纳并进行了算法竞赛。并获得了能够脱离实验精准预测最大功率密度乃至整个极化曲线的数据驱动模型。在最后的极值优化模块中,PSA可以快速根据研究者的已知参数和现有条件推断要在线优化的最佳参数,从而大大减少了用于正交试验的试错时间和成本。同时,AI模型与实验可以互相携手进步,AI对实验操作的建议可以使得科学家更高效地获得高性能材料配方,同时更多的实验数据能够返回并补充训练数据库从而使AI更加精准,构成了完整的闭合研发循环。除此之外,这一标准机器学习工作流程可以广泛推广到其他化学材料领域,乃至生物学,医学,工程学和可以将传统实验数据进行数字化的劳动密集性研究领域。因此,这项研究展示了未来基于大数据和AI机器学习算法进行高效科学研究的范例,可以说具有划时代的意义。
心得与体会
本工作的完成首先感谢导师刘建国教授对本人从事的机器学习与材料研发尤其是氢能领域交叉探索的大力支持,刘老师高瞻远瞩,提供许多硬件资源与学习机会的支持。同时感谢李佳老师基于丰富的燃料电池领域经验,对机器学习建模计算结果进行科学解释分析部分做出的精彩指导。最后感谢课题组中协助构建数据库的同学,与成熟的计算机视觉或自然语言处理不同,目前机器学习与自然科学的交叉领域,可用的数据集非常有限,因此数据集的获得很大程度上需要人工收集、清洗、标注。基于机器学习方法的普适性,我们希望推广并欢迎有兴趣的尤其是来自清洁能源领域的研究者与我们合作从而探索更多的可能性。
课题组介绍
丁睿(第一作者)
南京大学现代工程与应用科学学院2014级毕业生,新能源科学与工程专业;
2018年以直博生指标加入本院刘建国教授课题组攻读博士学位;
2020年获得南京大学博士生国家奖学金;
研究领域为将大数据机器学习与清洁能源材料设计及理论计算(第一性原理、量子化学、有限元模拟)三者的交叉结合探索,同时在燃料电池低铂、非贵金属氧还原催化剂开发发,单原子催化剂设计,新型结构功能纳米材料设计上具有研究经验和浓厚兴趣。
以第一作者身份发表的论文:
[1] Rui Ding, Yiqin Ding, Hongyu Zhang, Wenjuan Yin, Ran Wang, Zihan Xu, Yide Liu, Jiankang Wang,Jia Li*, Jianguo Liu*, Applying machine learning to boost the development of high-performance membrane electrode assembly for proton exchange membrane fuel cells, Journal of Materials Chemistry A, 2021, Advanced Article. (inside cover)
[2] Rui Ding, Ran Wang, Yiqin Ding, Wenjuan Yin, Yide Liu, Jia Li*, Jianguo Liu*, Designing AI-aided analysis and prediction models for nonprecious metal electrocatalyst-based proton exchange membrane fuel cells, Angewandte Chemie International Edition, 2020, 59, 19175-19183.
[3] Rui Ding, Yide Liu, Zhiyan Rui, Jia Li*, Jianguo Liu*, Zhigang Zou, Facile Grafting strategy synthesis of single-atom electrocatalyst with enhanced ORR performance, Nano Research, 2020, 13, 1519-1526. (back cover)
邮箱:dz1834014@smail.nju.edu.cn
李佳(通讯作者)
2020年8月至今,特任副研究员,南京大学
2017年11月-2020年7月,博士后,南京大学
2012年9月-2017年9月,博士研究生,大连理工大学
2008年9月-2011年7月,硕士研究生,内蒙古大学
2004年9月-2008年7月,本科,内蒙古大学
研究方向:燃料电池低铂及非贵金属电催化剂
代表性论文:
[1] Rui Ding, Yiqin Ding, Hongyu Zhang, Wenjuan Yin, Ran Wang, Zihan Xu, Yide Liu, Jiankang Wang,Jia Li*, Jianguo Liu*, Applying machine learning to boost the development of high-performance membrane electrode assembly for proton exchange membrane fuel cells, Journal of Materials Chemistry A, 2021, Advanced Article. (inside cover)
[2] Rui Ding, Ran Wang, Yiqin Ding, Wenjuan Yin, Yide Liu, Jia Li*, Jianguo Liu*, Designing AI-aided analysis and prediction models for nonprecious metal electrocatalyst-based proton exchange membrane fuel cells, Angewandte Chemie International Edition, 2020, 59, 19175-19183.
[3] Rui Ding, Yide Liu, Zhiyan Rui, Jia Li*, Jianguo Liu*, Zhigang Zou, Facile Grafting strategy synthesis of single-atom electrocatalyst with enhanced ORR performance, Nano Research, 2020, 13, 1519-1526. (back cover)
[4] Jia Li, Xiang Zhu, Jianyu Wang, Zhiyan Rui, Shiqiao Zhang, Yuxin Li, Rui Ding, Wenxiang He, Jianguo Liu*, Zhigang Zou, Iron-containing porphyrins self-assembled on ZnO nanoparticles as electrocatalytic materials for oxygen reduction, ACS Applied Nano Materials, 2020, 3, 742-751.
[5] Jia Li, Jin-Xun Liu, Xueqiang Gao, Bryan R. Goldsmith, Yuanyuan Cong, Zihui Zhai,Shu Miao, Qike Jiang, Yong Dou, Junhu Wang, Quan Shi, Xinwen Guo, Donghai Wang, Hongmei Yu, Wei-Xue Li*, Yujiang Song*, Nitrogen-doped graphene layers for electrochemical oxygen reduction reaction boosted by lattice strain, Journal of Catalysis, 2019, 378, 113-120.
[6] Jia Li, Yujiang Song*, Gaixia Zhang, Huiyuan Liu, Yiren Wang, Shuhui Sun*, Xinwen Guo, Pyrolysis of self-assembled iron porphyrin on carbon black as core/shell structured electrocatalysts for highly efficient oxygen reduction in both alkaline and acidic medium, Advanced Functional Materials, 2017, 27, 1604356. (front cover)
[7] Jia Li, Huiyuan Liu, Yang Lv, Xinwen Guo, Yujiang Song*, Influence of counter electrode material during accelerated durability test of non-precious metal electrocatalysts in acidicmedium, Chinese Journal of Catalysis, 2016, 37, 1109-1118.
[8] Jia Li, Yan Xie, Shushuang Li, Yangzhi Bai, Xinwen Guo*, Baolian Yi, Yujiang Song*, Graphene supported foam-like platinum electrocatalyst for oxygen reduction reaction, Materials Research Express, 2014, 1, 025045.
[9] Weifeng Si‡, Jia Li‡ (‡Co-first authors), Huanqiao Li, Shushuang Li, Jie Yin, Huan Xu, Xinwen Guo, Tao Zhang, Yujiang Song*, Light-controlled synthesis of uniform platinum nanodendrites with markedly enhanced electrocatalytic activity, Nano Research, 2013, 6, 720-725.
邮箱:lijia0226@nju.edu.cn
刘建国(通讯作者,课题组负责人)
南京大学现代工程与应用科学学院教授,博士生导师。入选国家级高层次人才,科技部中青年科技创新领军人才,国家自然科学科学二等奖获得者。中国工程院战略咨询中心氢能特聘专家,中国内燃机学会燃料电池分会副主任委员,中国电器工业协会燃料电池分会副理事长。入选“江苏省333工程第二层次人才”、“江苏省青蓝工程中青年学术带头人”、江苏省“六大人才高峰高层次人才”。发表SCI论文110余篇,引用超过5000次,H因子40。担任PNSMI(SCI期刊),《电化学》杂志编委,出版2部专著。承担多项国家重点专项课题、国家自然科学基金以及江苏省杰出青年基金等项目。作为执笔人完成了包括山东,广东,江苏等多个省市氢能规划和战略研究报告。
课题组网站链接:https://fuelcell.nju.edu.cn/
邮箱:jianguoliu@nju.edu.cn
课题组介绍:
课题组主要从事氢能产业链和氢能规划研究,以及燃料电池材料和关键技术的基础研究。基础研究包括燃料电池新型电催化剂设计与制备、高性能膜电极设计与制备、燃料电池电堆和系统集成、燃料电池制造技术、燃料电池长期寿命衰减机理、高性能新型化学电源以及机器学习在电化学能源中的应用等方面。欢迎报考硕士和博士,以及合作博士后加入课题组共同发展氢能事业。
本文由南京大学现代工程与应用科学学院丁睿撰稿。
文章评论(0)