编者注:
2023年10月20日至22日,第六届CCF绣湖大会在苏州CCF业务总部暨学术交流中心召开,围绕“人工智能促进科学(AI4S):跨界与赋能”进行深入交流和讨论。 来自学术界和工业界的20余位专家全程参与,讨论了AI4S的基础理论和模型算法、AI4S在基础科学和工程技术领域的突破、大语言模型与AI4S的结合、AI4S的计算支撑等。平台等,并形成如下报告。
背景及意义
科学研究的两个基本范式是以数据观察为中心的实验科学和以发现物理世界基本原理为中心的理论科学。 然而,对于昂贵的科学实验(如可控核聚变的核心是让“托卡马克”环中的等离子体进行受控核聚变等)或基于假设的科学研究(如数学猜想证明和未知物质) )、综合等),传统的科研范式往往难以满足个性化或复杂的要求。
人工智能与基础科学和工程技术领域研究的融合,推动了科学智能计算的兴起,帮助科学家产生假设、设计实验、计算结果、解释机制,特别是协助科学家进行大量计算。不同假设下的重复任务。 验证和试错让人工智能利用其强大的数据归纳和分析能力来学习科学规律和原理,从而获得科学模型并解决实际的科学研究问题,大大加速科学研究和探索的进程,并获得什么仅使用传统的科学方法就可能实现。 无法获得的见解。
本届秀湖大会的主题是“科学智能计算:交叉与赋能”。 一方面,探索人工智能这一通用使能技术的跨学科性质,推动基础科学研究。 另一方面分析了人工智能在工程中的作用。 技术领域的赋能方法推动了基础科学和工程技术领域的学科范式变革。
意见征集
人工智能赋能生命科学
构建高质量的生命科学智能计算数据集。 “数据是燃料,模型是引擎,计算能力是加速器。” 数据、模型、算力是本轮人工智能备受关注的三驾马车。 深度学习的快速崛起部分归因于其在 ImageNet 等大规模带注释图像数据集上令人耳目一新的表现。 然而,生命科学领域缺乏高质量的科学智能计算数据集,这在一定程度上限制了人工智能的发展。 生命科学领域的智能化发展。 虽然生物领域正在部署高通量生物自动化大型设施平台来促进高质量标准化数据的获取,但生命科学领域的数据输出成本较高,且部分数据敏感或具有较高的经济价值,使得大规模数据的构建和共享变得困难。
生物学问题和可计算问题。 当前的生命科学研究往往是基于少量的数据,其一直采用的思维方式与当前依赖海量数据的人工智能技术不同。 这就导致了当前的大量生物学问题尚未抽象为数据驱动模型中的可计算问题,难以利用人工智能进行辅助分析。 当前生命科学领域的人工智能研究集中在少数环节,与具体领域结合不深入。
人工智能和科学是双向的。 由于知识体系和思维习惯的差异,人工智能和科学领域的研究人员面临合作障碍,限制了人工智能在生命科学领域的赋能。 人工智能和科学双方都应进一步努力,推动AI4S方向的合作。 两方合作时,人工智能方可以提供简明的人工智能教程或培训,使科学方充分了解当前人工智能的优缺点。 同时,科学方应提供一定的领域知识,如理化特征、形态特征和逻辑知识等,协助人工智能方理清具体的领域知识,使模型能够学到更多本质的知识。尽可能多的特点。
简而言之,AI4S最终是为了解决科学问题,因此需要对问题有更深入的理解。 只有足够深入地认识问题,才能“解决实际问题,真正解决问题”。 为此,需要鼓励人工智能专家更加勇敢地走出自己的领域,拥抱更广阔的科学领域的问题,并在其中扎根; 同时鼓励科学领域专家多总结、提炼问题,增强新思想、新方法的意识。 保持开放的心态,大胆尝试。
人工智能赋能数学和量子计算
明确人工智能的适用边界。 对于解决实际特定场景中的图论、组合等NP难问题,机器学习将带来新的技术路线,减少对专家的依赖,更好地利用人工智能算力和处理实际的不确定性。 然而,在许多实际问题中,人工智能模型能够获取和处理的信息是有限的。 如何识别人工智能技术能够有效解决哪些问题值得更深入的探索。
加强数学、物理基础科学研究。 从数学或物理角度,都有可能揭示AI模型中的本质问题。 充分考虑和结合科学第一原理,从数学优化方法和物理定律约束的角度出发,寻找提取人工智能模型一般特征的最佳方式,使提取的显着特征能够体现一阶特征被解决的对象的特征。 一致性原则有助于提高人工智能模型的专业科学性。
加强嵌入式机制驱动的人工智能科学范式研究。 目前国际上有一种将物理机制嵌入深度神经网络的研究趋势,如布朗大学提出的Physics-Informed Neural Networks(PINNs)和麻省理工学院出版的通用微分方程(Universal Differential Equations) 。 微分方程(UDE)范式、加州理工学院发表的傅立叶神经算子(FNO)等,这些研究已成为解决一些复杂科学问题的有效思路。 然而,如何利用人工智能统一逼近理论,发挥数据拟合能力,让人工智能有效利用数据、轻松引入知识,仍需进一步探索。
加强计算平台支撑。 AI的成功离不开大规模算力的支撑。 在当前GPU算力有限的环境下,应加强计算平台的支持。 除了经典的GPU计算能力之外,量子计算还为科学智能计算提供了新的可能。 然而,量子计算仍处于发展阶段,仅由少数机构拥有,这在一定程度上限制了人工智能与量子结合的研究。 因此,一方面,需要开发更高效的量子计算经典模拟器,支持利用传统计算设备开展小规模量子算法研究; 另一方面,开发量子计算云平台,支持远程调用研究。
大模型赋能工程应用
大模型学习方法。 机器学习的自动化是自主智能的关键,而大模型的本质是学习方法论。 任何学习任务都是对现实世界规律的总结和表征,通过观察数据学习得到逼近函数。 这个学习过程由数据解决方案、机器架构、损失函数和优化方法组成。 本质要求是数据、网络、损耗、算法、任务等要素的一体化设计和控制。 因此,实现这一目标就是建立任务和方法之间的映射,即掌握学习方法论。
加强大型模型的可解释性探索。 大型模型在许多应用领域表现出了强大的性能,但它们通常被认为是难以理解和解释的黑盒模型。 在一些关键应用领域,例如医学问答、药物发现等场景中,模型的可解释性对于可信度和可靠性至关重要。
提高垂直领域大模型的泛化能力。 大语言模型具有推动人工智能科学计算的潜力,但大语言模型在科学领域的泛化能力仍需进一步提高。 需要注重利用大语言模型进行多模态、多源、多尺度的知识融合,实现复杂系统的全面表示; 构建覆盖不同领域、不同层次的专业语料库,提高大语言模型在科学领域的适应性和适应性。 泛化能力; 在下游行业引入多任务微调,提高模型在医疗行业、地球科学、会话交互生物计算、新型电力系统等场景中的实施效果。
提高大模型的结构化知识能力。 尽管文本理解、内容生成等大型语言模型的能力有了很大的提升,但在数理逻辑推理、发现和定义新问题等任务上仍然存在不足。 目前的训练语料数据主要围绕互联网网页信息、电子书、维基百科等非结构化语料知识。 训练语料需要重新定义和思考,以提高模型科学推理、发现和定义新问题的能力。 从收集各领域语料到构建结构化知识数据,大模型可以“吃得好”,科学思维能力也可以得到提升。
计算平台
加强多领域算子库的设计和加速。 科学智能计算离不开能够支持不同领域的统一算子库。 然而,目前这样的通用算子库仍然非常有限。 因此,首先应基于通用算子规范开发复杂算子,以支持国产芯片的适配。 其次,基于跨领域通用基础模型开发了模块化算子库。 最后,涵盖了科学领域的标准应用套件,支持管理工具、优化策略等服务,并提供数据、模型、调试等多种开发接口。
构建高性能计算平台。 大模型时代对计算能力提出了极高的要求,高性能计算平台成为新型基础设施。 平台应具备高吞吐量、高通信速率、高并行浮点计算、高存储容量等特点,支持人工智能算法、大数据算法框架、开源科学计算库、商业计算软件的软硬件集成。 需要。
加强国内框架建设。 国外已经建立了成熟的人工智能框架PyTorch和TensorFlow,也有JAX等新技术代表对人工智能进行了优化和适配来解决科学计算。 但现有框架无法完全满足科学智能计算的需求:动态规划的PyTorch运行效率低,难以满足工业级部署需求; TensorFlow缺乏基础算子系统,科学计算的高阶自动微分功能可扩展性不足; JAX尚未形成成熟的生态系统。 因此,应在通用范式指导下,基于国产硬件平台,构建异构、适配的科学智能计算通用框架,采用Serverless等跨学科友好部署方式,形成人工智能科学计算通用平台。计算。 有效服务于多学科科学计算问题解决,支撑各类复杂科学问题的研究。
AI4S面临的挑战
人工智能驱动的科学计算的局限性
模型设计缺乏理论指导。 目前,科学智能计算主要依赖深度神经网络等通用机器学习算法或模型。 然而,这些算法或模型可能并不适合所有科学问题。 首先,如何将特定学科中需要解决的某种科学任务或某类科学任务抽象为计算机可计算的任务是一个重要的挑战; 其次,如何设计更适合特定领域和问题的人工智能算法和模型,将这个科学领域转化为先验知识和物理定律转化为人工智能模型约束和指导的过程,这就更加困难,需要专家具备这两个领域的专业知识。
人工智能模型缺乏可解释性。 科学的目标是了解物理世界的规律。 很多时候,是为了发现和解释科学现象,把“黑匣子”变成“白匣子”。 然而,目前的研究还没有完全理解模型的内部工作原理,无法系统地解释模型的决策过程、判断标准和推理结果,这给人工智能技术在科学领域的深入应用带来了巨大的挑战。
AI模型的泛化能力是有限的。 训练数据和测试数据分布的偏差会带来模型泛化问题,尤其是在实际应用中,往往会降低AI模型的有效性。 在科学智能计算场景中,模型输出错误的后果可能是致命的。 这就要求AI模型必须对输入、噪声和数据分布变化的微小变化具有鲁棒性,才能使科学智能计算的结果可信、可靠。
数据安全和隐私问题。 这个问题广泛伴随着几乎所有现有的人工智能方法,并且在科学智能计算领域可能更加突出,特别是涉及敏感的个人信息或关键基础设施。 尽管联邦学习等致力于解决数据安全和隐私风险的人工智能方法受到越来越多的关注并取得了一定的进展,但仍然存在威胁数据的推理攻击等方法。 隐私安全。 因此,我们必须不断创新AI模型,确保科学智能计算场景下个人敏感信息不泄露、关键基础设施安全。
科学智能计算基础理论与方法体系
从科学领域的具体问题中抽象出来。 在科学智能计算发展初期,许多科学问题尚未抽象为可计算问题。 以数字孪生人体任务为例,如何整合映射多源异构数据,解决人体认知阻碍建模的问题海文网络计划软件教程,完成从微观到宏观的多尺度综合建模,实现对人体功能的全面理解是一个重要的挑战。 科学领域具体问题的抽象需要超越传统的学科界限,培养将实际问题转化为可计算问题的能力,以跨学科的方式处理复杂的数据和模型,从而利用计算机的处理能力来加速这一过程的科学研究。 这涉及跨学科合作和新方法,是一个严峻的挑战。
人工智能模型与科学领域问题的整合。 人工智能模型与科学领域问题的融合一直是科学智能计算领域急需解决的问题。 目前,该领域仍处于早期发展阶段。 存在缺乏通用范式指导、科学计算编程框架不一致、领域包复用困难等常见问题。 这使得各学科之间难以形成协同效应,进一步阻碍了规模化效应的产生。 为了解决这个问题,需要建立一套适用于各种科学问题的通用框架和原则。 从数理逻辑、计算复杂性、信息论等角度分析科学智能计算的本质和特征,揭示人工智能科学计算与科学之间的内在联系和规律至关重要。
人才培养和评价体系。 科学智能计算基础理论和方法体系的发展也面临着人才培养和评价体系的重大挑战。 首先,科学智能计算的交叉性,需要培养具有深厚科学素养和人工智能技能的综合性人才。 国内目前的教育体系,学科独立,学科交叉不够深入,很难吸引特别优秀的人才。 迫切需要改革来提供更好的资源。 其次,科学智能计算领域需要综合考虑科学贡献和人工智能技术创新。 然而,传统的学术评价标准主要侧重于科研论文和学术成果,往往无法充分评价人工智能在科学研究中的实际应用价值。
科学智能计算的数据处理计算平台
获得高质量的标注数据很困难。 AI模型的训练离不开高质量的数据。 与当前计算机视觉、自然语言处理等领域大量的高质量数据不同,许多科学领域的数据标注高度依赖实验测量,这使得高质量标注数据的收集变得非常困难。 同时,由于科学数据具有高维、稀疏和噪声的特点,基于这些数据训练的模型很难有效辅助相关学科的研究。 尽管一些科学领域已经开始部署自动化大型设施平台来获取高质量的标注数据,但如何提高数据标注的准确性和效率是科学智能计算面临的重大挑战。
跨领域的数据理解和集成是困难的。 科学研究的跨学科性质要求人工智能模型能够理解和整合来自不同领域的数据和知识。 然而,对科学文献中专业术语的理解依赖于大量的专业数据和知识,导致大量的科学知识无法形式化表达,进而影响科学智能计算的效果。 同时,许多科学领域的知识以图表、知识图谱等形式存在,如何充分利用这些多模态数据并将其与人类知识相融合,成为科学智能计算面临的新挑战。
科学智能计算的统一计算框架。 人工智能科学计算需要大量的计算资源和数据资源,需要一个高效、稳定、安全的科学计算平台,实现数据标准化、共享和保护,为用户提供易用、灵活、安全的科学计算平台。可扩展的人工智能科学计算工具和服务等。然而,现有的科学智能计算框架存在运行效率低、缺乏基础算子系统、可扩展性不足等问题。 如何设计一个高吞吐量、高通信速率、高并行浮点计算的统一计算框架是科学智能计算面临的基本挑战。
科学智能计算的算力平台。 科学智能计算的发展很大程度上依赖于高性能计算平台。 然而,许多科学领域的专家缺乏搭建大规模计算平台的能力,因此很难有机会直接使用类似于人工智能领域的大规模计算资源。 尽管量子计算等领域的发展为降低计算资源门槛提供了可能,但仍不普及。 同时,大规模算力给生态环境和可持续发展带来巨大挑战。 如何克服底层技术、成本分摊等问题,建设公共算力服务平台和算力网络,是当前科学智能计算面临的巨大挑战。
AI4S发展建议
科学智能计算的“范式化”与“平台化”
推动科学智能计算理论“范式化”。 在推动科学智能计算“范式化”方面,我们迫切需要发展科学智能计算的理论方法。 人工智能引发科学发现模式的变革,应鼓励学者深入挖掘多学科智能计算融合模型,共同探索人工智能技术在科学计算中的应用边界和方法论,包括统一逼近理论和数据拟合的应用能力。 深入探讨科学计算以及人工智能如何更好地赋能传统科学计算服务流程。 构建这一基础理论体系将有助于完善科学计算问题的解决方案,推动科学智能计算的范式进程。
推动科学智能计算软硬件“平台化”。 要实现人工智能科学计算的“平台化”,必须努力以通用范式为指导,基于国产硬件平台,建立异构、适配的科学智能计算通用框架。 通过采用无服务器计算等跨学科、友好的部署方式,可以形成科学智能计算的通用平台,有效服务于多学科科学计算问题的解决。 这样的平台将为各种复杂科学问题的研究提供强有力的支撑,使不同学科的研究人员能够更方便地使用人工智能技术,推动科学智能计算的平台化取得更显着的成果。
关注科学智能计算领域智能代理的研究。 大型模型在知识获取、指令理解、泛化、规划和推理方面表现出强大的能力。 Agent是一种人工智能模型,可以感知周围环境,自行做出决策,并采取行动来完成特定任务。 因此,我们研究大语言模型(LLM)支持的代理技术来完成科学智能计算中不同类型的任务,形成端云协同的大小模型计算模型,在端侧和端侧完成不同的代理任务。云LLM支持,打造科学实验机器人。
搭建AI4S沟通平台
与会专家共同提出了交流平台的想法。 多位专家学者提出建立科学智能计算跨学科交流合作平台,建立全面促进人工智能与科学深度合作与交流的创新生态系统,包括搭建跨学科合作平台、加强人才培养和引进、并投资于科学。 计算的基础和应用研究。 科学智能计算交流平台旨在建立全面促进人工智能与科学深度合作与交流的创新生态系统。 这需要更多的交流将科学问题与人工智能方法联系起来,也需要针对具体重大科学问题制定新的解决方案。 人工智能方法。
交流平台促进科学研究。 在研究层面,该平台的存在将鼓励该领域的学者探索前沿理论和实践问题,推动该领域的理论创新和技术突破。 针对这一点,我们可以尝试建立AI4S的学术会议和期刊,以更好地促进交流与合作,开发解决科学问题的新方法。 鼓励跨学科、跨组织、跨行业团队申报国家重大科研项目,打破安全边界内的学科壁垒,实现信息、数据、知识的交流。 跨学科团队中各方的贡献不能仅以投入的人力和艰苦实验的成本来计算。 智力投入和产出贡献也必须客观地考虑和评估。 在政策和制度层面,引导和促进学科交叉融合和互操作。 同时,与会专家建议,想要从事AI4S的科研人员应下定决心,抛开以往的研究路径,拥抱新的科研体系。 人工智能和科学领域的学者们需要更加积极主动,朝着这个方向努力,朝着彼此迈出更多的步伐。 人工智能领域的学者应该更加主动地理解科学问题和科学挑战。 科学领域的学者需要更加主动地了解人工智能方法的机制、优势和局限性。
交流平台整合社会资源。 该平台将在数据、政策、人才培养、资源等层面推动建立数据开放共享机制,鼓励跨学科团队参与国家科研项目,从政策和制度上促进跨学科融合。 平台将注重有效的资源共享机制,确保AI4S领域的计算资源和数据资源得到充分利用。 虽然国家自然科学基金委于2020年底正式成立交叉科学部,但学科保护主义具有天然惯性,交叉科学的理念和文化仍需要更多鼓励和支持。 建议相关政府部门、互联网企业、垂直行业企业加大对AI4S领域资助的广度和力度,形成更加合理的跨学科科研成果评价体系,更好地推动AI4S的发展。
数据共享和开源
建立科学智能计算数据开放共享机制。 高质量的数据是人工智能发挥作用的基础。 然而,科学智能计算涉及的数据来自不同行业和机构。 目前,我国没有统一的科学和智能计算数据管理机制,从而导致散布在各种研究机构的实验室中的数据保留。 要么不可能验证,要么被埋葬在历史中,或者在易手几次后已经严重丢失,而且不可能带出更多的数据价值。 以生物学领域的数据为例,我们可以参考美国布鲁克黑文国家实验室的模型。 国家大学和机构负责领导,并负责在生物学领域建立权威数据,并具有一定的规模和高质量,定期维护和更新实验数据,组织人员将标记和清理数据,将其公开,向国内科学研究人员开放,教育者和企业以法律合规范围的计划方式,为人工智能科学计算建立共享数据和模型库海文网络计划软件教程,并促进人工智能科学计算的发展。 开源并打开。
提高科学数据高质量注释的能力和效率。 与经典图像和自然语言相比,科学智能计算数据的注释更加困难。 一方面,科学智能计算数据注释需要深入了解科学智能计算的机制,因此它需要科学专家与人工智能专家之间的深入讨论与合作,而不仅仅是专家在手动注释不了解基于科学原则的注释的科学领域或人工智能专家。 另一方面,为了提高科学数据的注释效率,有必要在考虑数据隐私和数据安全的同时建立一个开放和共享的注释平台,以便科学领域的更多从业人员可以合作以建立高级 - 质量的科学注释数据。
加强纪律建设和人才培养
加强科学和智能计算学科系统的构建。 纪律构建是促进科学智能计算的长期和可持续发展的必要保证。 建议在建立智能科学技术的第一级纪律的背景下,应构建一个完整的AI4S课程系统,以促进AI4S才能的培养。 为了培养具有跨学科背景的未来科学家,建议加强人工智能和科学的整合,鼓励学生探索领域之间的交叉点,并培养创新的思维和实践能力。
建立一个完整的人才培养系统。 目前,我国已经在人工智能领域建立了相对完整的人才培训系统,但是在AI4S领域,仍然没有完美的人才培训机制。 建议通过建立专业的课程系统并介绍国内外专家来为该领域的可持续发展提供支持,以增加人才培训和介绍的强度,并通过建立专业的课程系统来培养具有双重背景的复合人才。 建立特殊资金和人才奖,以进行跨裁切属性的研究,以支持相关人员获得财务支持,鼓励更多的研究人员参与,并继续促进AI4S研究。
整齐的
Wu Fei,周Sheng,Wang Yongwei,Bu Jiajun
会议发起人
WU FEI BU JIAJUN
特别的客人(用名称拼音排序)
Qi Yuan,South Hubei,Song Dynasty,Xu Zongben,Yang Huanming,Zeng Zhenyu,Zhang Linfeng,Zhang Yu
客人(用名称拼音排序)
Bai Lei,Chen Yang,Dong Wei,Hong Liang,Huang Gang
Huang Heliang,Li Feiran,Li Jianxin,Li Ziqing,Liu Yi
Lin Zhouhan Liu Furui Shi Rongye Wang Taifeng Wang Yongwei
Wang Yu Wang Zhihua Xin Qi Xue Xue Guirong Yan Junchi
ye jiping ye kai zhang bo zhang guijun Zhang Xiaonan
周