News
时间:2024-01-31来源:沐曦PDE 闫申申
近年来,人工智能 (Artificial Intelligence,AI) 在各个领域展现出强大的能力,而人工智能与材料科学的融合有望大幅加速功能材料的研发。无论是高通量材料模拟计算还是人工智能算法在材料科学数据的训练与推理过程中的应用,在通用显卡 (General-Purpose Computing on Graphics Processing Units,GPGPU) 的加持下都将如虎添翼。在上篇(材料科学迈向AI4Materials的关键因素:密度泛函理论、GPGPU与人工智能(上))中,我们介绍了第一性原理密度泛函理论的发展历程、常用的材料模拟软件以及材料基因组计划,突显了GPGPU在材料模拟中的重要性。对于AI4Materials (AI for Materials),材料数据库的数量和质量,以及如何把AI算法与材料科学有机地结合起来,都是十分重要的。作为人工智能在材料科学中使用的“养料”:晶体材料数据,其可靠性与数据量是人工智能算法应用的先决条件。尽管材料模拟计算数据库在近几年得到了长足的发展,但对于大体系材料的模拟仍然是材料模拟计算的瓶颈所在。随着AI算法与GPGPU的入场,这一局面不断被突破。接下来我们将着重介绍AI4Materials中的晶体材料数据库及人工智能算法的发展与应用,最后对本文进行总结和展望。
随着大量实验数据的积累、理论模拟计算以及计算机技术的不断发展,材料大数据也为新型功能材料的预测与发展带来了新机遇。经过几十年的发展,科学家们建立了多种材料数据库,其中早期的材料数据库主要是来源于实验数据资料,例如,剑桥结构数据库 (Cambridge Structural Database, CSD) [1–3]主要包括有机小分子材料,以及作为对CSD补充的无机晶体材料结构数据库 (Inorganic Crystal Structure Database,ICSD) [4–7]等。CSD由英国剑桥大学的Kennard等人于1965年建立,现在包含超过百万条文献中的记录,包括有机分子结构和金属有机分子晶体三维结构的数据,如原子坐标和化学键等信息。这些数据对化学反应、分子构型和晶体学等方面的研究具有非常重要的意义。ICSD自从1983年由德国波恩大学的Bergerhoff等人创建以来,截至2024年1月24日,已经积累了291000条无机晶体结构信息,包括晶体结构、化学式、对称性和参考文献等,而且这些数据都会经过多次维护和评审,以确保数据的可靠性和高质量,即使是较久的晶体结构数据也不是一成不变的,也会被修改、补充和更新。这些可靠的基于实验和文献报道的材料数据库为后续基于高通量计算模拟构建包含材料结构和性能的数据库提供了重要的材料结构“原料”。
美国提出的材料基因工程理念,形成了材料数据库新的发展方向,各种基于高通量理论模拟计算的材料数据库不断建立和发展,例如,材料项目数据库 (Materials Project,MP) [8]、自动化流程材料数据库 (Automatic-Flow for Materials Discovery Library,AFLOWlib) [9]、开放量子材料数据库 (Open Quantum Materials Database,OQMD) [10]等,如图 1所示。
国内的MatCloud高通量材料集成设计平台也具有相似的工作机制,通过调用VASP或CASTEP等第一性原理软件在超级计算机上进行大批量计算,再将相应的计算结果保存到数据库中,最终通过大数据分析来指导新材料设计。另一个国内材料数据库的典型代表之一,Atomly晶体材料数据库,是由中科院物理研究所特聘研究员刘淼领导开发,其曾是Materials Project的开发成员之一,2018年加入物理所,专注于材料数据库开发和基于数据的材料研发,并建设一套源自物理所的无机晶体材料计算数据库:Atomly.net。Atomly数据库包含了接近40万个无机晶体材料的第一性原理计算结果(包含电子结构信息:DOS + energy bands),数据的数量和质量已经和其它世界知名数据库比肩,如图 1所示。
基于高通量的研究模式已经成为筛选和设计功能材料的强有力工具和方法[11]。通过高通量计算可以快速、高效地筛选出潜在的功能材料[12]。通常,从理论上利用高通量方法研究功能材料可以分为两种,(1)从头高通量计算:从材料结构出发,结合理论计算模型,高通量地计算材料的目标功能性质;(2)高通量筛选:在材料数据库中,根据所需功能材料相关的筛选条件,实现对功能材料的快速筛选。第一种方法常用来构建可靠的材料数据库,可以计算材料数据库中不存在的结构。第二种方法常用来在第一种方法得到的数据库中,基于在特定条件的限制,比如化学组分、稳定性、结构特征等,从庞大的搜索空间中通过特定的筛选条件选择和预测具有目标功能的材料。基于高通量的方法在很多材料科学研究中都得到了广泛的应用,例如,金属有机框架[13,14],透明导电材料[15,16],锂电池材料[17]等。
通过前面的介绍可知,在集成高通量计算的材料数据库中,快速、精确模拟计算材料性质是非常迫切需要的。由于第一性原理计算的高精度和算法复杂性,长期以来,其计算的空间尺度和时间尺度(第一性原理分子动力学)受算力和算法限制。如何在保证精确度的前提下突破这一限制,提高材料体系的规模是目前研究者们不断探索的方向。
2020年,由中美合作的研究小组(包括来自 UC Berkeley 的博士后贾伟乐、副教授林霖,北京应用物理与计算数学研究所计算物理实验室的研究员王涵,北京大学助理教授陈默涵,北京大学研究生路登辉,普林斯顿大学化学系教授 Roberto Car、数学教授鄂维南以及普林斯顿大学数学系和化学系博士张林峰,如图2所示)摘得戈登贝尔奖,他们使用科学计算+AI+Physical model结合的方法,通过机器学习,将具有第一性原理精度的分子动力学模拟的极限提升至上亿个原子的体系规模,同时又确保了第一性原理计算的高精确度,且模拟时间尺度相较于传统方法至少提高了1000倍[18]。该团队开发的高度优化的代码 (GPU Deep MD-Kit) 所代表的科学计算+AI+Physical model结合的方法势必会在力学、化学、材料、生物甚至工程领域解决实际问题中发挥更大作用。
2023年,Sambit Das、Bikash Kanungo、Vishal Subramanian 等人(共八位作者,如图 2所示,他们分别来自于密歇根大学、印度科学研究所和橡树岭国家实验室)实现了量子精度的大规模材料建模: 金属合金中的准晶体和相互作用扩展缺陷的第一性原理模拟,并最终获得2023年的戈登贝尔奖[19](此前,2019年该团队模拟了1万多个镁原子也获得了戈登贝尔奖的提名)。在这项工作中,团队开发了一种混合方法,利用机器学习技术将密度函数理论和量子多体 (Quantum many-body, QMB) 问题结合起来,其核心思想是,量子多体计算出的精确结果作为训练集,使用多层神经网络模型去训练和拟合出其中的交换关联能部分,并接入到密度泛函理论中,这种方法大大增加了密度泛函理论的精确度以及计算速度。他们实现了复杂镁钇 (Mg-Y) 合金体系的基态能量,同时保持了QMB的精确度。
基于第一性原理计算的材料模拟能够精确地预测材料中的电子行为和特征,因此在材料科学领域占据非常重要的地位。然而随着材料体系的增加,其计算量也不断增大(体系越大,材料模拟越能预测现实条件下的真实体系的性质),通过第一性原理模拟计算大体系材料性质所需的计算资源是十分昂贵的。近年来,随着GPGPU的快速发展以及AI算法在材料模拟中的应用,材料模拟的体系不断突破,因此,在GPGPU和AI的加持下,大体系材料的高精度材料模拟计算已经成为戈登贝尔奖的常客。
基于ML的材料发现和设计的一般工作流程[20],如图 3所示,一般需要四个主要步骤:(I)数据收集和预处理,(II)特征工程,(III)模型选择和训练,以及(IV)模型评估和优化。第一步是从开放共享的数据库或者自行生成的数据中获得合适的目标数据。研究人员需要获取并整理与他们感兴趣的材料属性相关的数据。第二步是通过收集或构建与预测目标相关的特征,来构建目标数据的描述符或特征集。这些特征是用来描述材料的各种性质和特征,有助于机器学习模型更好地理解和预测材料性能。第三步是使用各种统计方法,例如简单线性回归、非线性回归、高斯回归和神经网络等,来构建描述符和目标属性之间的模型,这些模型能够基于已知的数据来快速预测未知数据的性能或特性。在最后一步中,通过基于计算的测试来评估模型的泛化误差,即模型在新数据上的表现。评估结果用于对模型进行优化,以提高其预测性能、准确性以及泛化性能。
把人工智能与材料科学结合起来的第一步是构建材料描述符,通常也叫做材料指纹,这个过程也叫做材料的特征工程[21]。通常一个好的分子或晶体结构描述符需要满足唯一性、平移不变性、旋转不变性、排列不变性等。材料结构的描述符通常可分为两个部分:(1)元素周期表中元素的基础化学性质和元素单质的物理性质,其中包括原子序数、原子质量、周期和族数、第一电离能、第二电离能、电子亲和力、Pauling电负性、Allen电负性、原子Vdw半径、共价半径、原子半径、s轨道的赝势半径、p轨道的赝势半径、熔点、沸点、密度、摩尔体积、熔化热、汽化热、热导率、比热等[22]。(2)材料结构特征描述,例如,基于库仑矩阵(Coulomb Matrix,CM)[23],原子径向分布(Radial distribution function)[24]、SOAP (Smooth overlap of atomic positions)[21]、MBTR (Many-body tensor representation)[25]等方法。
通过人工特征工程结合机器学习方法能够实现对材料性质的快速预测。Rupp等人[23]提出利用元素特征中的质子和分子中原子径向相对位置构成的库仑矩阵来描述分子材料,并成功预测分子性质。但是这种方法并没有包含结构信息,因此为了进一步考虑每个原子周围的径向分布,Schütt等人[24]提出了稀疏径向分布函数描述符 (Partial radial distribution function,PRDF),如图 4(a)所示,并利用核岭回归 (Kernel ridge regression,KRR) 方法预测材料的费米能级处的电子态密度。Seko等人[26]提出一种基于原子径向分布的材料描述符,广义径向分布函数描述符 (Generalized radial distribution function ,GRDF) ,不同于PRDF,如图 4(b)所示,GRDF综合考虑多种径向基组函数,高斯基组、cosine基组、Bessel基组、Neumann基组和高斯类轨道基组函数,结合LASSO回归算法[27,28],能够非常准确预测地Hcp-Mg的势能面,其均方根误差仅为0.9 meV/atom,而且基于此势能面计算的声子谱与基于第一性原理计算的结果非常接近。
晶体材料的球棍模型可以很自然地用图 (Graph) 来描述,而不需要复杂的人工特征工程构建[29]。随着图神经网络 (Graph Neural Network) 方法的发展[30,31],以及图卷积方法在材料图描述中的合理性和有效性引起学者们的广泛关注,其在材料科学领域也展现出巨大的潜力[32,33]。2018年,Xie和Grossman首次提出利用晶体图卷积神经网络[34]直接从晶体中原子的连接中学习和预测晶体材料性质。如图 5(a)所示,他们的方法首先构建晶体结构的图描述,其中晶体结构图描述中的节点和边分别用晶胞中的原子和原子之间的键来表示,然后在图中构建图卷积层、全连接层和池化层,以预测晶体材料的目标性质,包括形成能、弹性力学、电子带隙等。MP数据库中的74466种晶体材料作为图卷积神经网络的数据集,首先他们构建一个简单的图卷积函数,其中每个原子的所有邻接原子共享同一个权重矩阵,导致预测形成能的平均绝对误差 (Mean Absolute Error, MAE) 0.108 eV/atom。然而,这种图卷积方法忽略了邻接原子之间相互作用强度的差异,因此他们设计了一种新的图卷积函数,以学习权重矩阵的形式考虑了原子间相互作用强度,这大大降低了预测形成能的MAE,0.039 eV/atom,并把这种方法命名为CGCNN模型。随后,他们继续用CGCNN来预测MP材料数据库中其他DFT计算的属性,例如绝对能量、带隙、费米能量、体积模量、剪切模量和泊松比,都取得了较高的预测精度。CGCNN模型除了具有很高的预测精度外,这种框架还在一定程度上提供了模型的可解释性。
随后,MP项目组的Chen等人[35]提出了一种用于分子和晶体结构性质预测的通用图神经网络框架,如图 5(b)所示。其中,进一步在图卷积过程中加入可学习的节点特征、边特征和全局特征。这种方法进一步提高了图卷积神经网络在分子和晶体结构性质预测方面的精度。而且,根据MEGNet模型中通过在预测形成能学习到的元素嵌入特征结合迁移学习方法,能够进一步提高具有较小数据量的带隙和弹性模量的预测精度。
随着对图神经网络的研究逐渐深入,越来越多的学者注意到,晶体或者分子结构中的图连接不仅原子间的距离是重要的,角度信息也同样十分重要,许多重要的材料的性质(尤其是与带隙相关的电子性质)与键角以及局部的空间对称性密切相关[36–39]。对包含键角的研究逐渐引起研究者们的兴趣,因此延伸出更多的包含角度信息的图卷积方法。Park等人[40]在CGCNN的基础上,提出用Voronoi多面体中角度、面积和体积等特征来丰富对空间距离和角度分布的描述,增加了多体相互作用的信息,其比最初的CGCNN模型提高了对材料性质的预测精度。Choudhary等人[41]在边的特征不仅用距离描述,而且增加了键角的描述,如图 5(c)所示,增加了原子线型图描述,其中图的节点对应于原子之间的成键,而边对应于原子成键之间的键角;并提出ALIGNN模型实现了在这两种图卷积之间交替进行,把原子之间键角的信息传递到原子特征更新中,有效地更新原子和成键的特征表示,从而提高图卷积模型的预测性能。其中边的初始特征(距离和键角)通过径向基函数进行展开。随后,Hsu等人[42]在ALIGNN模型的基础上进一步考虑了二面角的信息提出了ALIGNN-d模型,其能够完整地描述具有复杂几何特征的原子周围局部环境信息,例如手性、扭曲、无序构型等,并用于材料光谱性质的预测。随着研究者们对材料科学中图神经网络的研究不断深入,具有更多特性的图卷积神经网络方法被发展和应用[43–47]。
2023年,谷歌的DeepMind团队根据主动学习(Active learning)、NequIP (Neural Equivariant Interatomic Potentials) 图神经网络[46],以及密度泛函理论 (DFT) 计算,开发了新材料晶体结构预测模型框架GNoME[48],如图 6所示。通过该框架,他们成功预测了220万个稳定的晶体材料,其中38.1万个为Materials Project数据库中未曾出现的新材料,具有成为未来科技变革材料的潜在可能性。而且,在这些新材料中,有736种与文献报道的实验上合成的稳定材料一致,这进一步验证了GNoME的有效性。
GNoME的训练过程使用Materials Project材料数据库中的晶体材料数据,并借助NequIP模型评估晶体材料的稳定性,NequIP模型如图 6(a)所示。GNoME采用两种方法(或称为两个通道)生成新材料,如图 6(b)所示,(1)通过对称性在已知晶体构型中进行元素替换,利用训练好的NequIP模型预测其稳定性;(2)通过从头随机结构搜索(ab initio Random Structure Searching, AIRSS[49])的方式生成新材料,每个化学组分生成100个随机结构,其稳定性同样通过NequIP图神经网络进行预测,且能量限制在50 meV以内。因此,GNoME根据主动学习进行材料设计的流程可分成4个步骤:
1)生成较为稳定的结构,包括对称性替换和AIRSS生成的随机结构,均通过NequIP图神经网络模型预测其稳定性。
2)对于这些较为稳定的构型,采用VASP进行严格的密度泛函理论计算以确保结果准确性,并将结构优化过程的数据保存到GNoME材料数据集中。
3)根据更新后的GNoME材料数据集进一步训练NequIP图神经网络模型。
4)回到第1步,并重复上述过程,直到达到收敛条件。
在这项工作中,DeepMind团队共进行了6次主动学习过程,取得了显著的效果。对于未经过主动学习过程的模型(初始模型),GNoME模型中的两种方法生成稳定结构的命中率分别是<6%和<3%,同时,与密度泛函理论计算结果相比,NequIP图神经网络模型预测能量的MAE为21 meV/atom,而经过6次主动学习之后,GNoME模型的上下两个通道对稳定结构的命中率分别提升到>80%和>33%,NequIP图神经网络模型预测能量的MAE降低到了11 meV/atom。
由于GNoME主动学习框架提高了对稳定材料预测的命中率,并且提高了图神经网络对能量的预测精度,因此,这项工作成功发现了大量稳定的新结构,如图 6(c)所示,在GNoME预测的220万个材料中,有42.1万个稳定材料在能量凸包 (Convex hull) 边界上,其中,4万个能够在MP数据库中找到,38.1万个是新发现的稳定材料,这意味着这些新材料是非常有可能在实验上制备出来。
更进一步,劳伦斯伯克利国家实验室 (Lawrence Berkeley National Laboratory) 与DeepMind团队携手合作,在《Nature》上与GNoME同期发表了一项关于自动化合成无机固体材料实验室平台 (A-Lab) 的工作[50],A-Lab采用了自动化实验装置(如图 7(a)所示),其合成路径是根据自然语言模型结合主动学习算法进行自动设计。在为期17天的连续实验中,A-Lab成功合成了58个目标材料中的41种新型稳定材料,成功率达到71%,如图 7(b)所示,其中带有斜线的柱状图表示的是根据GNoME预测出来的新材料,其余的是来自MP材料数据库。这表明A-Lab平台在结合人工智能算法,打通计算材料理论筛选与实验合成之间的“壁垒”方面取得了显著的成果。
基于人工智能算法的GNoME新材料设计主动学习框架与A-Lab新材料自动化合成实验,为新材料从理论发现到实验合成带来了切实可行的路线。随着数据的不断积累,以及大模型的发展,人工智能算法在材料科学领域的应用前景将进一步提高,从而提升新型功能材料设计的准确性和成功率,但是这些也会对算力提出挑战。随着GPGPU技术的发展和算力的提升,密度泛函理论的计算效率以及图神经网络的训练和推理性能将会进一步提升,设计和研发新材料的进程无疑也将进一步加快。
通过上面的介绍可知,在科学研究的第四范式中,人工智能算法在材料科学中的不断发展和GPGPU的算力支持,将会大大缩短新型功能材料从发现到应用的这一漫长的过程。这也意味着材料科学研究正朝着更高效、快速的方向迈进,人工智能算法和GPGPU为材料科学领域带来了前所未有的可能性。
材料科学与自然语言模型有机地结合起来同样也展现出强大的潜能。2019年,伯克利国家实验室的Anubhav Jain领导的团队收集了330万篇已发表的材料科学论文的摘要,通过基于自然语言处理中的词向量技术来构建和解释文献中材料之间的关系,并声称能够提前数年给出新型热电材料的预测(如果该算法能够早点应用,一些材料早在几年前就可以被发现了)[51],如图 8所示。尽管这些结论有一些争议,但是也提供了一些新的观点和方法,对材料科学的发展具有启发意义。
随着大语言模型 (Large Language Model,LLM) 的不断发展,其在材料科学中也展现出了强大的能力,UNSW AI Institute、澳大利亚国家超算中心以及Green Dynamics推出了名为DARWIN 的新型系列大语言模型[52],其是为物理、化学和材料科学应用而设计的专业化自然语言大模型,如图 9所示。DARWIN的推出提高了科学领域基准测试的性能,也显示着研究人员在利用 LLM 进行科学探索的集体努力中取得了重大进展,进一步确认了 LLM 在加速科学发现中的潜在作用,为通过人工智能驱动的自动化来增强和加快功能材料的探索和发现过程起到促进作用。
材料大模型的发展是材料科学领域中一项重要的技术进步,它涉及到对大规模、复杂材料系统的建模和分析。从数据方面来看,DFT对材料大模型的发展至关重要,是为材料大模型提供准确、可靠数据的核心工具,随着GPGPU计算性能的提升,DFT模拟的精度和规模得到了显著提高。从材料大模型的模型复杂度上来看,材料大模型的训练和推理通常需要处理庞大的计算任务,GPGPU在其中扮演着不可或缺的角色。大规模的实验数据和计算结果被整合到晶体学数据库和材料基因组中,为材料大模型提供了宝贵的信息源。材料大模型的发展在推动材料科学研究中发挥着关键作用,为新材料的设计、发现和优化提供了有效的手段。随着技术的不断进步和多学科的融合,材料大模型将继续在材料科学研究中发挥重要作用。
基于密度泛函理论的第一性原理计算工具不仅推动了科研学者对新型功能材料的探索,也为实验提供了理论指导。然而,当今科技的快速发展使得新材料的研发周期已经无法满足对新功能材料的迫切需求,于是材料基因组计划应运而生。在该计划的指导下,国内外不断建立并发展了许多可靠的材料数据库,这些材料数据库为人工智能算法的应用提供了丰富的数据“养料”。随着GPGPU的入场,科学研究者们不断突破材料模拟计算的体系,与此同时,随着人工智能的持续发展,将其运用于材料科学并为该领域注入了前所未有的活力。此外,当前蓬勃发展的大语言模型同样展现了其在材料科学领域非凡的潜力。未来,在GPGPU的算力支持下,随着人工智能算法与材料科学不断发展完善,以及实验技术的进步,材料科学将朝着“按需设计”新型功能材料的方向前行,推动整个人类社会的进步,朝着“星辰大海”出发、远航。
参考资料
[1] Allen F H. The Cambridge structural database: a quarter of a million crystal structures and rising[J]. Acta Crystallographica Section B Structural Science, 2002, 58(3): 380–388.
[2] Bruno I J, Cole J C, Edgington P R, Kessler M, Macrae C F, McCabe P, Pearson J, Taylor R. New software for searching the Cambridge structural database and visualizing crystal structures[J]. Acta Crystallographica Section B: Structural Science, 2002, 58(3): 389–397.
[3] Groom C R, Bruno I J, Lightfoot M P, Ward S C. The Cambridge structural database[J]. Acta Crystallographica Section B: Structural Science, Crystal Engineering and Materials, 2016, 72(2): 171–179.
[4] Belsky A, Hellenbrandt M, Karen V L, Luksch P. New developments in the inorganic crystal structure database (ICSD): accessibility in support of materials research and design[J]. Acta Crystallographica Section B: Structural Science, 2002, 58(3): 364–369.
[5] Hellenbrandt M. The inorganic crystal structure database (ICSD)—present and future[J]. Crystallography Reviews, 2004, 10(1): 17–22.
[6] Allmann R, Hinek R. The introduction of structure types into the inorganic crystal structure database ICSD[J]. Acta Crystallographica Section A Foundations of Crystallography, 2007, 63(5): 412–417.
[7] Zagorac D, Müller H, Ruehl S, Zagorac J, Rehme S. Recent developments in the Inorganic Crystal Structure Database: theoretical crystal structure data and related features[J]. Journal of Applied Crystallography, 2019, 52(5): 918–925.
[8] Jain A, Ong S P, Hautier G, Chen W, Richards W D, Dacek S, Cholia S, Gunter D, Skinner D, Ceder G, Persson K A. Commentary: The materials project: A materials genome approach to accelerating materials innovation[J]. APL Materials, 2013, 1(1): 011002.
[9] Curtarolo S, Setyawan W, Wang S, Xue J, Yang K, Taylor R H, Nelson L J, Hart G L W, Sanvito S, Buongiorno-Nardelli M, Mingo N, Levy O. AFLOWLIB.ORG: A distributed materials properties repository from high-throughput ab initio calculations[J]. Computational Materials Science, 2012, 58: 227–235.
[10] Saal J E, Kirklin S, Aykol M, Meredig B, Wolverton C. Materials design and discovery with high-throughput density functional theory: The open quantum materials database (OQMD)[J]. JOM, 2013, 65(11): 1501–1509.
[11] Yang J, Li H, Wu T, Zhang W, Chen L, Yang J. Evaluation of half-Heusler compounds as thermoelectric materials based on the calculated electrical transport properties[J]. Advanced Functional Materials, 2008, 18(19): 2880–2888.
[12] Xi L, Pan S, Li X, Xu Y, Ni J, Sun X, Yang J, Luo J, Xi J, Zhu W, Li X, Jiang D, Dronskowski R, Shi X, Snyder G J, Zhang W. Discovery of high-performance thermoelectric chalcogenides through reliable high-throughput material screening[J]. Journal of the American Chemical Society, 2018, 140(34): 10785–10793.
[13] Zornoza B, Tellez C, Coronas J, Gascon J, Kapteijn F. Metal organic framework based mixed matrix membranes: An increasingly important field of research with a large application potential[J]. Microporous and Mesoporous Materials, 2013, 166: 67–78.
[14] Colón Y J, Snurr R Q. High-throughput computational screening of metal–organic frameworks[J]. Chemical Society Reviews, 2014, 43(16): 5735–5749.
[15] Hautier G, Miglio A, Ceder G, Rignanese G-M, Gonze X. Identification and design principles of low hole effective mass p-type transparent conducting oxides[J]. Nature Communications, 2013, 4(1): 2292.
[16] Brunin G, Ricci F, Ha V-A, Rignanese G-M, Hautier G. Transparent conducting materials discovery using high-throughput computing[J]. npj Computational Materials, 2019, 5(1): 1–13.
[17] Wang Y, Zhang W, Chen L, Shi S, Liu J. Quantitative description on structure–property relationships of Li-ion battery materials for high-throughput computations[J]. Science and Technology of Advanced Materials, 2017, 18(1): 134–146.
[18] Jia W, Wang H, Chen M, Lu D, Lin L, Car R, E W, Zhang L. Pushing the limit of molecular dynamics with ab initio accuracy to 100 million atoms with machine learning[A]. arXiv,2020[2023-12-04].
[19] Das S, Kanungo B, Subramanian V, Panigrahi G, Motamarri P, Rogers D, Zimmerman P, Gavini V. Large-Scale Materials Modeling at Quantum Accuracy: Ab Initio Simulations of Quasicrystals and Interacting Extended Defects in Metallic Alloys[C]//Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis. Denver CO USA:ACM,2023: 1–12[2023-11-30].
[20] Fang J, Xie M, He X, Zhang J, Hu J, Chen Y, Yang Y, Jin Q. Machine learning accelerates the materials discovery[J]. Materials Today Communications, 2022, 33: 104900.
[21] Bartók A P, Kondor R, Csányi G. On representing chemical environments[J]. Physical Review B, 2013, 87(18): 184115.
[22] Seko A, Hayashi H, Tanaka I. Compositional descriptor-based recommender system for the materials discovery[J]. The Journal of Chemical Physics, 2018, 148(24): 241719.
[23] Rupp M, Tkatchenko A, Müller K-R, Von Lilienfeld O A. Fast and accurate modeling of molecular atomization energies with machine learning[J]. Physical Review Letters, 2012, 108(5): 058301.
[24] Schütt K T, Glawe H, Brockherde F, Sanna A, Müller K R, Gross E K U. How to represent crystal structures for machine learning: Towards fast prediction of electronic properties[J]. Physical Review B, 2014, 89(20): 205118.
[25] Huo H, Rupp M. Unified representation of molecules and crystals for machine learning[J]. Machine Learning: Science and Technology, 2022, 3(4): 045017.
[26] Seko A, Takahashi A, Tanaka I. Sparse representation for a potential energy surface[J]. Physical Review B, 2014, 90(2): 024101.
[27] Ranstam J, Cook J A. LASSO regression[J]. British Journal of Surgery, 2018, 105(10): 1348.
[28] Roth V. The generalized LASSO[J]. IEEE Transactions on Neural Networks, 2004, 15(1): 16–28.
[29] Gilmer J, Schoenholz S S, Riley P F, Vinyals O, Dahl G E. Neural message passing for quantum chemistry[C]//Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia:JMLR.org,2017: 1263–1272[2023-06-07].
[30] Sperduti A, Starita A. Supervised neural networks for the classification of structures[J]. IEEE Transactions on Neural Networks, 1997, 8(3): 714–735.
[31] Scarselli F, Gori M, Tsoi A C, Hagenbuchner M, Monfardini G. The graph neural network model[J]. IEEE Transactions on Neural Networks, 2009, 20(1): 61–80.
[32] Schütt K T, Sauceda H E, Kindermans P-J, Tkatchenko A, Müller K-R. SchNet – A deep learning architecture for molecules and materials[J]. The Journal of Chemical Physics, 2018, 148(24): 241722.
[33] Sun Y, Hu W. Novel machine learning framework for thermal conductivity prediction by crystal graph convolution embedded ensemble[J]. SmartMat, 2022, 3(3): 474–481.
[34] Xie T, Grossman J C. Crystal graph convolutional neural networks for an accurate and interpretable prediction of material properties[J]. Physical Review Letters, 2018, 120(14): 145301.
[35] Chen C, Ye W, Zuo Y, Zheng C, Ong S P. Graph networks as a universal machine learning framework for molecules and crystals[J]. Chemistry of Materials, 2019, 31(9): 3564–3572.
[36] Linker G-J, Van Duijnen P Th, Broer R. Understanding trends in molecular bond angles[J]. The Journal of Physical Chemistry A, 2020, 124(7): 1306–1311.
[37] Timoshenko J, Frenkel A I. “Inverting” X-ray absorption spectra of catalysts by machine learning in search for activity descriptors[J]. ACS Catalysis, 2019, 9(11): 10192–10211.
[38] Guda A A, Guda S A, Martini A, Bugaev A L, Soldatov M A, Soldatov A V, Lamberti C. Machine learning approaches to XANES spectra for quantitative 3D structural determination: The case of CO2 adsorption on CPO-27-Ni MOF[J]. Radiation Physics and Chemistry, 2020, 175: 108430.
[39] Guda A A, Guda S A, Lomachenko K A, Soldatov M A, Pankin I A, Soldatov A V, Braglia L, Bugaev A L, Martini A, Signorile M, Groppo E, Piovano A, Borfecchia E, Lamberti C. Quantitative structural determination of active sites from in situ and operando XANES spectra: From standard ab initio simulations to chemometric and machine learning approaches[J]. Catalysis Today, 2019, 336: 3–21.
[40] Park C W, Wolverton C. Developing an improved crystal graph convolutional neural network framework for accelerated materials discovery[J]. Physical Review Materials, 2020, 4(6): 063801.
[41] Choudhary K, DeCost B. Atomistic line graph neural network for improved materials property predictions[J]. npj Computational Materials, 2021, 7(1): 1–8.
[42] Hsu T, Pham T A, Keilbart N, Weitzner S, Chapman J, Xiao P, Qiu S R, Chen X, Wood B C. Efficient and interpretable graph network representation for angle-dependent properties applied to optical spectroscopy[J]. npj Computational Materials, 2022, 8(1): 1–9.
[43] Schütt K, Unke O, Gastegger M. Equivariant message passing for the prediction of tensorial properties and molecular spectra[C]//Proceedings of the 38th International Conference on Machine Learning. ELECTR NETWORK:PMLR,2021: 9377–9388[2023-02-26].
[44] Satorras V G, Hoogeboom E, Welling M. E(n) Equivariant Graph Neural Networks[C]//Proceedings of the 38th International Conference on Machine Learning. ELECTR NETWORK:PMLR,2021: 9323–9332[2023-02-26].
[45] Jørgensen P B, Bhowmik A. Equivariant graph neural networks for fast electron density estimation of molecules, liquids, and solids[J]. npj Computational Materials, 2022, 8(1): 1–10.
[46] Batzner S, Musaelian A, Sun L, Geiger M, Mailoa J P, Kornbluth M, Molinari N, Smidt T E, Kozinsky B. E(3)-equivariant graph neural networks for data-efficient and accurate interatomic potentials[J]. Nature Communications, 2022, 13(1): 2453.
[47] Reiser P, Neubert M, Eberhard A, Torresi L, Zhou C, Shao C, Metni H, Van Hoesel C, Schopmans H, Sommer T, Friederich P. Graph neural networks for materials science and chemistry[J]. Communications Materials, 2022, 3(1): 1–18.
[48] Merchant A, Batzner S, Schoenholz S S, Aykol M, Cheon G, Cubuk E D. Scaling deep learning for materials discovery[J]. Nature, 2023: 1–6.
[49] Pickard C J, Needs R J. Ab initio random structure searching[J]. Journal of Physics: Condensed Matter, 2011, 23(5): 053201.
[50] Szymanski N J, Rendy B, Fei Y, Kumar R E, He T, Milsted D, McDermott M J, Gallant M, Cubuk E D, Merchant A, Kim H, Jain A, Bartel C J, Persson K, Zeng Y, Ceder G. An autonomous laboratory for the accelerated synthesis of novel materials[J]. Nature, 2023, 624(7990): 86–91.
[51] Tshitoyan V, Dagdelen J, Weston L, Dunn A, Rong Z, Kononova O, Persson K A, Ceder G, Jain A. Unsupervised word embeddings capture latent knowledge from materials science literature[J]. Nature, 2019, 571(7763): 95–98.
[52] Xie T, Wan Y, Huang W, Yin Z, Liu Y, Wang S, Linghu Q, Kit C, Grazian C, Zhang W, Razzak I, Hoex B. DARWIN Series: Domain Specific Large Language Models for Natural Science[A]. arXiv,2023[2023-11-30].