化工基础数据是化学工业过程的“基因”,是化工定量研究不可缺失的重要根基。化工基础数据的获取经历了两代技术方法,第一代方法以实验测定为主,耗时、费力、投入大;第二代方法以热力学模型预测为主,使用少量实验数据建立理论模型,将化学工程基础数据获取、产品设计、过程与工艺设计由爱迪生式的反复试验带入定量预测时代
[1]
。然而,对比美国国家标准与技术研究院(National Institute of Standards and Technology,U. S., NIST)、Aspen Tech(Advanced System for Process Engineering)等先进机构和企业,我国的化工基础数据积累相对薄弱、缺乏规范有效的数据标准,导致化工工业软件研发和化工生产因缺少底层基础数据的支撑而难以突破国际技术封锁。
面向化工基础数据精准获取的迫切需求,在国家自然科学基金委员会化学科学部科技活动专项的支持下,由南京工业大学主办、东南大学协办召开了“化工基础数据获取新范式战略研讨会”(2023年11月20—22日)。该研讨会聚焦人工智能背景下新一代化工基础数据获取新范式,围绕“理论计算与人工智能融合的未来发展”“限域传递与限域反应中的化工基础数据”和“低碳目标下产品及工艺智能设计”三个议题展开深入研讨,凝练了化工基础理论、模型化研究与人工智能方法深度融合的研究方向,提出了“机制+数据驱动”的化工基础数据获取新范式,以实现化工基础数据的精确获取、评估和分析,突破因基础数据缺失而严重阻碍技术进步和发展的种种挑战。进一步总结了亟需解决的关键科学问题,为学科未来发展提供了新的战略方向和框架思路。
1 研究基础和科学意义
现代化学工业的发展已经从传统石油化工所涉及的有机小分子,不断向复杂流体(如蛋白、自组装聚集体、金属团簇、离子液体等)
[2-4]
、复杂材料(如分子筛、功能高分子膜材料、复合材料、生物医用材料等)
[5-7]
及复杂过程(如膜分离、多相催化反应、结晶等)
[8-10]
等拓展。复杂系统涉及微纳结构、限域、分子间非对称相互作用,已有的热力学模型和传统“三传一反”理论无法定量描述复杂纳微结构以及流体与界面之间的复杂相互作用,复杂系统的化工基础数据难以通过模型精准获取,从而导致现代化工产品和工艺设计严重依赖于实验试错,从实验室小试到工业化进程采用“逐级放大法”,费时耗力,严重阻碍了化工新材料、新技术的迭代更新速度,远不能满足国家安全战略目标下新能源、新材料、新技术等重大需求。
近年来,人工智能技术的飞速发展,有望为化工基础数据的精确获取提供有效途径
[11, 12]
。然而,由于现代化学工程具有很强的非线性、非平衡、多尺度等特征,仅仅简单应用人工智能方法无法实现化工基础数据的精准预测。因此,亟需发展化工基础数据的第三代获取方法,通过将数据驱动的人工智能技术和量化计算、分子模拟、热力学模型、介科学等理论方法相结合,建立“机制+数据”双驱动的化工基础数据预测模型,实现化工小数据到大数据的扩展及模型创新,从而加速推进现代化工研发及智能化发展。
2 科学目标与关键科学问题
2.1 化工基础数据获取新范式的科学目标
人工智能技术的飞速发展,引发了对新一轮工业革命的深刻思考。形成化工基础大数据获取新范式,将极大推动下一代化学工业的发展,为产业变革带来深远的影响。本文从以下三个方面具体阐述:
(1) 现代化工基础数据的精准获取、分类、甄别及数据库建立。基于新一代化工基础理论如介科学、分子化学工程、限域传递和反应等新机制,创新“理实交融”方案,通过实验数据助力理论模型创新发展,理论模型助力实现化工小数据到大数据的扩展、分类和甄别,为化工产品和过程的开发、设计、过程集成与控制提供基础和支撑;构建基于化工过程、实验研究、文献数据等多维度、全链条、面向未来发展的化工标准数据库;制定系统、科学的方法以推动数据获取、数据存储和数据共享,加强对数据隐私的保护,为化工智能化发展提供数据基础。
(2) 人工智能助力下的化工多尺度、多机制融合的模型构建。深入理解和创新发展人工智能模型运行的内在规律和自我更新机制,基于量化计算、分子模拟和化工模型化方法,将物理、化学、化工的原理、机制和模型融入人工智能算法,针对现代化工复杂系统在多尺度、非常规条件下机制难以明晰的难题,应用并发展人工智能算法从数据中挖掘知识,完善已有机制,提出新假设,揭示新的科学规律,为化工智能化发展提供感知和决策的模型基础。
(3) 低碳目标下产品及工艺智能设计。面向现代化工研究系统的复杂性和全球低碳经济的发展需求,针对现有人工智能技术在解决多变量、多尺度、多目标的共性复杂问题时所面临的挑战,开发适用于现代化工的人工智能算法和软件平台基础,实现产品的绿色设计与工艺流程的低碳化重构。具体而言,发展人工智能算法分析大量实验和过程数据,优化化学反应路径,减少能耗和排放,高效设计出更加环保的化工产品。同时,发展人工智能技术对生产过程进行实时监控和动态优化,确保工艺流程的最优运行,最终实现低碳、节能和可持续发展的目标。
2.2 化工基础数据获取新范式的关键科学问题
面向国家安全、双碳等重大战略需求,发展“机制+数据驱动”的化工基础数据获取新范式,需要重点解决以下三个关键科学问题:(1) 数据和机制双驱动的化工大数据获取新方法:如何发展数据与机制的双驱动研究新范式,实现化工小数据到大数据的扩展及大数据的分类和甄别,为化工智能化提供感知和决策的数据基础。(2) 基于人工智能的化工多尺度新机制:如何应用并发展人工智能算法,从数据中挖掘知识,完善已有机制,提出新假设,揭示新的科学规律,为化工智能化提供感知和决策的模型基础。(3) 多变量、多尺度、多目标约束下决策的科学机制:如何开发适用于现代化工产品设计和过程设计与优化的人工智能算法,挖掘多变量、多尺度、多目标约束下,精准提供可靠数据的科学决策机制,为化工智能化提供感知和决策的算法和软件平台基础。
3 化工基础数据智能化获取的研究进展
NIST
[13]
在2016年发布的大数据定义中指出:“大数据的特征包含四个方面:大规模、多样性、动态特征和可变性”。现代化工基础数据完全符合大数据的基本特征,是最为经典的大数据范例,蕴含着丰富的内涵和巨大的挖掘潜力。首先,化工基础数据呈现出庞大的数据量,涵盖了众多不同的化学物质及其在各种反应条件下的性质和行为。其次,化工基础数据涉及的范围广泛,不仅包括了物性数据,还拓展到了分子参数、热力学相平衡和反应平衡、动力学、设备设计参数等多个层面。最后,化工是动态过程,不同条件、原料组合和环境参数都会对基础数据产生影响,基础数据会随时间和空间而动态变化。因此,现代化工基础数据的变革不仅仅是对数据获取方式和范畴的拓展,更是对数据质量和应用效果的提升。
3.1 现代化工推动的基础数据变革进展(先进技术→化工数据)
近年来,现代化工在绿色化、高端化、智能化的背景下,不断向复杂体系延伸,基础数据的获取方式和基本内涵发生重大变革。随着实验技术和测量设备的不断进步,化工数据的实验测定方式更加多元化。现代化学分析技术、光谱技术、核磁共振等技术的广泛应用,使得基础数据的实验获取变得更为高效和全面。同时,传感器技术的发展使得在生产环境中实时监测生产数据成为可能,从而实现了对动态过程数据的精准监控与获取。在此基础上,发展基于传感器技术的数字孪生系统,实现虚实交互,不仅可实现对动态过程的精准监控,还可探索化学反应和分离过程,及时发现工艺流程的潜在问题。此外,大科学装置表征技术如同步辐射、正电子湮灭技术和中子衍射技术的开发,极大地推动了现代化工和材料科学的发展。它们提供了高分辨率、灵敏和无损的手段,能够深入揭示化工材料和过程的微观、介观结构和动态行为。不仅推动了新材料和新工艺的发展,也为提高工业生产效率、降低成本和减少环境污染提供了有力支持。随着计算能力的提升和数学算法的发展,基于模型预测获取基础数据已经成为一种重要手段。通过结合化工理论模型和少量实验数据验证,可以实现一些复杂体系基础数据的预测。此外,量子化学、分子动力学模拟、人工智能等方法的应用,为在特定条件下缺乏实验数据的体系提供了可行的数据预测方案。如在金属有机骨架化合物(Metal organic Framework,MOF)材料领域,由分子动力学模拟预测的MOF材料吸附气体能力已经被界内认可为一种可靠且稳定的数据获取方式,被大量用于构效关系的研究。此外,机器学习的发展为计算化学提供了新的工具
[14-16]
,使得化工复杂系统基础数据的高质量、高精度获取成为可能,为加速高端化学品和新材料的设计应用奠定了基础。
同时,随着现代化工不断向纳微尺度延伸,对数据的需求更加多样化和复杂化。针对复杂结构系统,如微化工体系、限域传递与反应过程等,相关物性数据库以及机器学习辅助建模的研究较少。不同物质和纳微结构对数据影响巨大,甚至可造成数据数量级的变化,此外,许多较大的数据集是企业或出版商的专有数据,未能公开或免费获得,这使得获取精准的基础数据仍面临挑战。
3.2 机制和数据驱动的化工基础数据获取范式进展(机器学习+模型→拓展化工数据)
自1956年人工智能诞生以来,其发展历经专家系统、统计机器学习、深度学习等阶段。伴随着大数据、云计算、物联网、AlphaGo、AlphaFold2、ChatGPT大语言模型的发展,人工智能迎来新一轮浪潮
[17-19]
。数据驱动为现代化工机制的发展和基础数据的获取带来新机遇,然而纯粹的数据驱动模式对于化工学科研究并不完全适用
[20]
。一方面,化工过程不会轻易产生TB级的数据,缺少构建纯粹数据驱动大模型的基础支撑;另一方面,第一性原理知识可以用来减少对大量数据的依赖。基于第一性原理模型的底层物理内涵,人工智能在理论化学计算领域建树颇丰
[21]
。如通过结合人工智能与第一性原理计算构建高精度的分子力场
[22]
;或者将人工智能和量子化学计算相结合,发现催化领域的全新描述符
[23]
,为计算化学提供了新的理论工具。同时,Aspen Plus研究团队
[24]
于2021年推出科学指导下的人工智能混合模型,通过人工智能和理论模型的相互补充,为机制与大数据混合模型下的工业过程进一步放大提供新的参考模式,但在完善机制、发现物理规律等方面仍存在局限性。此外,面向化工装备和过程创新,人工智能方法在反应器的传递、反应动力学等数据获取和开发方面发挥了重要作用。基于实时数据更新机器学习模型,能够动态优化反应器操作参数,提高生产效率和产品质量,对于反应器结构和操作参数的优化具有重要指导意义
[25]
。利用深度学习模型可加速计算流体力学(Computational Fluid Dynamics,CFD)模拟,特别是复杂流场,如湍流和多相流的计算。深度学习模型通过处理反应器内的可视化图像,识别和重建内部流场结构,从而为传热与传质研究提供详细数据
[26]
。
对于人工智能时代的化工发展而言,不仅仅需要机制驱动和数据驱动的融合,更需要通过两者的互动和迭代为复杂科学研究提供新的认知。例如,通过耦合分子热力学模型和人工智能算法,发现适用于“药物—高分子辅料”体系的氢键描述符,助力微纳结构定量构效关系的模型构建,从而快速拓展难以测定的多相系统热力学数据
[27, 28]
。同时,借助智能化机器学习对物理模型偏差的训练,可以快速寻找未考虑的关键因素,提高理论框架的精度和普适性。在理论模型和科学规律的约束下,化工机制也可以为人工智能算法的训练提供高质量数据集和可解释机理,从而增强人工智能模型的可靠性,一定程度上弥补机器学习模型的物理解释性差的弊端。因此,机制与数据双轮驱动正成为新一代的化工基础数据获取新范式(图1)。