软件行业资讯

AI 时代会诞生怎样的编程语言？从计算机科学发展历程看未来趋势

 作者：软荐小编  2024-11-22 21:02:06  188

作者 |沉向阳

组织| 《新程序员》编辑部

AI科技大本营出品（ID：rgznai100）

在计算机科学的70年发展历程中，真正“现象级”的编程语言不到十种——即拥有数百万甚至数千万用户的语言。每个时代的技术变革都会催生相应的主导语言：大型机时代的Fortran、操作系统时代的C/C++、互联网时代的Java、云计算和数据科学时代的Python。

如今，以ChatGPT为代表的大模型技术引发新一轮技术革命，我们不禁要问：AI时代将会诞生什么样的编程语言？ GitHub Copilot 的首席创建者 Alex Graveley 曾指出，虽然 AI 正在改变代码的编写方式，但真正适应 AI 时代特征的编程语言范式尚未出现。

11月22日，在深圳举行的2024 IDEA大会上，IDEA研究院创始主席、美国国家工程院外籍院士沉向阳发表了题为《从技术突破到产业融合》的演讲。他在演讲中提出了上述深刻的思想，同时指出了一个更值得注意的事实：“过去所有流行的编程语言中，没有一个是中国开发者创造的。”

沉向洋：大模型时代，中国人有机会创造下一个现象级编程语言__沉向洋：大模型时代，中国人有机会创造下一个现象级编程语言

大车型浪潮已经爆发，这一历史性机遇即将到来。就像C语言与Unix系统的共生关系一样，新时代的编程语言将与AI技术深度融合。既要更好地表达AI的思维方式，又要充分利用AI的能力，提高开发效率。这将是一条全新的赛道，中国开发者也将有机会在该领域做出开创性的贡献。

作为见证了多个科技时代变迁的资深科学家，顺向阳在演讲中也分享了许多关于AI时代科技创新的深刻思考：

“编程语言的变革总是伴随着技术革命，就像Unix系统与C语言、Web服务器与Java的关系一样，AI时代也将催生新的编程方式范例。”

“ChatGPT展现了一种新的可能性：当技术突破达到一定程度时，可以跳过传统的产品市场匹配（PMF）流程，直接实现技术市场匹配（TMF）。”

“从算力的角度来看，未来十年人工智能的发展可能需要算力增长100万倍，远远超过摩尔定律预测的100倍增长。”

“人工智能正在改变科学研究的方式。从‘确定方向’（ARCH）到‘选题’（Search）再到‘深入研究’（Research），每一个环节都将被重塑。”

以下是顺向阳讲话的主要内容。 CSDN整理了最引人深思的部分。欢迎您在评论区分享您的见解：

_沉向洋：大模型时代，中国人有机会创造下一个现象级编程语言_沉向洋：大模型时代，中国人有机会创造下一个现象级编程语言

人工智能发展的“三件套”

今天是IDEA研究院在深圳举办的第四届IDEA大会。回顾其发展历程，IDEA在三年前的第一次会议上首次向公众展示了研究院的工作成果。第二次会议邀请了李泽湘教授、徐扬生教授、高文教授等学术带头人进行了深入对话。值得一提的是，这些学者是我20世纪90年代初赴美留学时遇到的第一批中国学者。三十年后我们能重聚深圳，恰恰证明了深圳作为创新创业热土的独特魅力。

经过四年的发展，IDEA研究院已发展成为拥有7个研究中心、员工约450人的科研机构。过去几年，人工智能的蓬勃发展让整个行业充满憧憬和期待。在人工智能的发展过程中，“算力、算法、数据”“三件套”始终是核心要素。接下来我将从这三个方面详细分享我的观察和思考。

_沉向洋：大模型时代，中国人有机会创造下一个现象级编程语言_沉向洋：大模型时代，中国人有机会创造下一个现象级编程语言

算力：从“摩尔定律”到“黄氏定律”

让我们从计算能力开始。作为计算机领域的从业者，我们在过去的四五十年里，见证了整个计算行业计算能力的不断提升。早期有著名的摩尔定律，英特尔提出计算能力每18个月增加一倍。然而，近十几年来，随着人工智能尤其是深度学习的发展，对算力的需求呈现出前所未有的增长。

EPOCH AI的数据显示，最新大型模型对算力的需求每年都在以惊人的速度增长，年均增长率超过四倍。这个数字是什么意思？如果按照这个增长速度，十年内算力需求将增长惊人的100万倍。相比之下，在传统摩尔定律下，18个月内增长一倍只不过是十年内增长100倍。

计算能力需求的爆炸性增长使 GPU 制造商 Nvidia 成为 IT 行业和人工智能领域最成功的公司之一。 NVIDIA已经从纯粹的硬件芯片供应商转型为整个行业的核心支柱。现在业界流传着一句话：“拿到NVIDIA卡就成功了一半”。

我们来看一下具体数据：英伟达最新产品H100的出货量在2023年持续上涨，各大公司都在争相采购。包括马斯克在内，他最近部署了一个拥有10万张H100卡的大规模集群。直到2024年，微软、谷歌、亚马逊等科技巨头都在大量采购H100芯片。

为什么需要如此巨大的计算能力？这与大车型的发展密不可分。大型模型不仅参数数量巨大（从数百亿到数千亿到数万亿个参数），而且训练所需的数据量也在不断增长。更重要的是，为了提高模型性能，对计算能力的需求将随着参数数量的增加而呈正比增长。这解释了为什么英伟达的市值在过去十年里增长了300倍，也解释了“计算能力就是生产力”这句话的深刻含义。

在人才招聘方面，计算资源成为重要指标。有些企业会用“千卡人才”、“百卡人才”来形容自己的人才规模。真正顶尖的甚至被称为“万卡天才”。在深圳市政府的支持下，IDEA研究院已经拥有上千张显卡的算力储备，在深圳算得上是“小土豪”级别了。

这种算力需求的变化被业界称为从“摩尔定律”到“黄氏定律”的转变。黄定律不仅体现在硬件算力的增长上，更重要的是体现了模型训练的算力需求呈指数级增长。未来十年算力需求是否会继续保持如此惊人的增速，是值得我们持续关注和思考的问题。

_沉向洋：大模型时代，中国人有机会创造下一个现象级编程语言_沉向洋：大模型时代，中国人有机会创造下一个现象级编程语言

算法：从“预训练”到“强化学习”

在算法方面，自2017年Transformer架构出现以来，人工智能、深度学习和大模型的发展基本都是沿着这个方向，通过堆积的数据和计算能力来推进的。但在GPT-4之后，我们看到了算法范式的新突破。特别是OpenAI推出的新技术，包括多模态GPT-4V和最新的o1推理学习能力，展示了算法创新的新方向。令人欣喜的是，近几个月来，包括初创企业在内的一些国内企业在这个方向上取得了显着进展。

这里我想详细介绍一下算法突破的思路。在o1出现之前，大家都在谈论GPT系列，所有工作都集中在预训练上。核心任务是预测“下一个代币”。一个很重要的技术背景就是对所有数据进行高效压缩，让模型能够快速给出答案，做到“有问必答”。

目前的范式变革引入了强化学习（Reinforcement Learning）的概念，模型具有自我改进的能力。这种新方法的特点是更接近人类的思维方式。与之前的快速思维模式不同，现在的模型在给出答案时会经过后训练、后推理的过程。这就像学生解数学题时，会先打草稿，验证一条路径是否正确。如果不正确，他们就会返回并尝试另一条路。

虽然强化学习本身并不是一个新概念——例如几年前 AlphaGo 使用强化学习击败了围棋世界冠军——但今天的创新在于它的多功能性。过去，强化学习系统往往只能解决单一问题，而像o1这样的新系统可以同时处理数据分析、编程、物理和化学等多个领域的问题。我想未来几年，沿着自我强化学习（SRL）的道路，我们将会看到更多惊人的突破，也期待IDEA研究院和国内的研究人员在这个方向上有更多的突破。思考和创新。

沉向洋：大模型时代，中国人有机会创造下一个现象级编程语言__沉向洋：大模型时代，中国人有机会创造下一个现象级编程语言

数据：从“库存”到“合成”

在讨论数据之前，我已经提到过，大模型的蓬勃发展不仅依赖于参数规模的增长，还需要海量数据的支持。我给大家分享一些关于数据大小的具体数据。

三年前发布 GPT-3 时，使用了 2T（2 万亿）代币数据。在GPT-4时代，用于模型训练的数据量已经增加到12T，并且在持续训练过程中可能会达到20T。这一规模大致相当于目前互联网上可获得的高质量数据总量。而如果将来GPT-5出来的话，据我估计，可能需要200T的数据。但问题是，在互联网上很难找到如此大量的高质量数据。这催生了一个新的研究方向：合成数据。

为了让大家更直观的了解这些数据的规模，我举几个例子：1万亿代币的数据量大约相当于500万本书，或者20万张高清照片，或者500万篇论文。从人类历史的角度来看，迄今为止创建的所有书籍包含大约21亿个代币，微博上有38亿个代币，Facebook上大约有140T的数据。但社交媒体上的数据质量普遍不够高，真正有价值的内容相对有限。

从个人角度来看，一个人读完大学后实际学到的知识量约为0.00018T，相当于1000本书的内容。如果您觉得自己还没有读过这个级别，也许现在是时候开始阅读更多书籍了。

有趣的是，ChatGPT等AI模型的训练数据主要来自互联网。回顾互联网发展40年，人们热衷于在线分享信息，现在似乎正在为GPT培训做准备。 AI之所以如此聪明，很大程度上得益于我们贡献的数据。还有一个现象值得注意：无论AI模型用哪种语言训练，底层的高质量数据主要是英文。这意味着，在AI时代，英语的重要性可能会进一步加强，就像在互联网时代一样。

现在互联网上的数据已经接近极限，人工智能的进一步发展需要依赖合成数据，这可能会带来新的数百亿美元的创业机会。

与主要使用互联网文本数据的GPT系列不同，新一代模型（例如o1）需要更强的逻辑，而这些数据往往在网上找不到。例如，在编程领域，我们需要知道具体步骤是如何一步步完成的。在IDEA研究院，在郭院长的带领下，我们开展了高质量的训练数据项目，为大型模型不断提供新的“养分”。

我们的合成数据方法不是盲目生成的，而是基于严格的方法论。我们首先建立上下文图并在此基础上进行数据合成。这些合成数据经过大型模型预训练后显示出良好的结果。

此外，我们还在探索另一个维度的问题：私域数据安全孤岛。出于数据安全的考虑，很多私域数据无法直接共享。为此，我们开发了IDEA Data Maker将这两方面结合起来，通过上下文图生成新的语料库，以解决以往文本数据合成解决方案缺乏多样性的问题。该技术引入了合成数据的“指导手册”，使用地图作为大纲来指导合成的上下文采样。实验结果表明，IDEA团队的解决方案能够不断提升大型模型的能力，并超越目前的最佳实践（SOTA）模型；在代币消耗方面，平均成本节省85.7%。目前该技术的内测平台已开放，并通过API提供服务。

沉向洋：大模型时代，中国人有机会创造下一个现象级编程语言__沉向洋：大模型时代，中国人有机会创造下一个现象级编程语言

大模特时代的机遇：从PMF到TMF

谈完AI发展的“三件套”，我想分享一下IDEA研究院这一年来的思考和实践。尤其是大型车型的蓬勃发展给我们带来的机遇。

ChatGPT的出现给我们带来了深刻的启示——上线短短两个月就吸引了全球1亿用户，成为引人注目的科技现象。这种现象打破了我们对产品开发的传统认识。在互联网时代，我们经常谈论PMF（Product-Market Fit）。为了理解这个概念，我多次咨询过美团王慧文。在清华大学的一次课堂上，他专门讲解了PMF的内涵。

但ChatGPT的成功告诉我们，它实际上跳过了PMF流程，直接实现了TMF（Technology-Market Fit）。当技术发展到一定程度，才有可能实现这样的跨越式突破。在IDEA，我们每天都在追求一些极致的技术，同时也在思考：如果技术出来了，能不能一步到位？这当然是我们的期望，我们也一直在朝这个方向努力。

顺着TMF的线索，我想谈谈我们最近特别关注的一个方向：计算机编程语言。作为一个研究计算机的人，我自己写过十几种不同的编程语言，并在不同阶段做不同项目时使用它们。

这里我想说一个重要的观点：放眼世界，编程语言那么多，有小语言、大语言、中型语言，但广泛使用的语言基本上没有一个是发明或创建的由中国人。。有机会改变这种现象。

让我举几个例子来说明什么是现象语言。在过去七十年、八十年的计算机科学发展中，出现过的现象级语言不超过十种。这里的“现象”是指至少有几百万、几千万的用户用这种语言编程。例如，早期的Fortran与IBM大型机绑定，Fortran语言用于三角计算。 20世纪70年代出现的C语言与Unix操作系统有着密切的联系。甚至可以说，Unix系统是用C语言构建的。 20世纪90年代互联网兴起时，我师兄开发的Java语言被大量程序员采用，主要用于开发Web服务器。近十几年来，Python因其在科学计算方面的便利性，特别是在云计算平台上的广泛应用，已成为主流语言。如果你问你的孩子正在学习什么编程语言，他们很可能会选择 Python。

那么，在当今大模型时代，会出现新的现象级语言吗？我不是唯一一个思考这个问题的人。例如，GitHub Copilot 创始人 Alex Graveley 指出，AI 编程尚未形成新的编程语言范式。编程语言是技术创新最根本的方向之一。

有了语言，我们就需要探索大模型的技术创新方向。如今，随着大模型能力达到新的高度，一个关键问题是：我们如何将这种能力转化为实际应用？在哪些场景下可以发挥最大价值？

在所有应用方向中，我特别想强调AI For Science（科学智能）的重要性。可以说，现阶段，很难想象还有什么比 AI For Science 更重要的方向。我们要做人工智能研究，一方面要全力推进大模型技术的落地，另一方面也要重视其在科学研究中的应用。

这让我想起20多年前我在微软亚洲研究院做的一个报告，讲的是如何做科学研究、如何做知识。我把科研工作分为三个不同的层次：ARCH（确定方向）、Search（选题）、Research（深入研究，反复探索）。现在，我们希望IDEA的工作能够为中国科研人员和青年学子的科研工作提供更好的支持。

_沉向洋：大模型时代，中国人有机会创造下一个现象级编程语言_沉向洋：大模型时代，中国人有机会创造下一个现象级编程语言

从经济增长到福利实现

人工智能的发展正在对社会产生深远的影响。这个问题非常重要，值得我们认真思考。今天我们要讨论的是人工智能治理的问题，包括它对人、对企业、对监管、对社会发展的影响。

人工智能的影响到底是如何发生的？八年前，人们还在讨论社交媒体的影响，今天我们要讨论人工智能的影响。过去十年的发展令人震惊：人类引以为傲的能力正在被人工智能一一超越。不用说，下棋、下围棋，AI在阅读理解、图像识别和检测方面的能力已经逐渐超越人类。更令人震惊的是，这些能力的提升不再是单一的突破，而是通用人工智能整体能力的提升，这使得人工智能对社会的影响极其深远。

现在，人工智能治理问题正在全球范围内讨论。我有幸在今年的上海人工智能大会上与我的导师瑞迪教授、布鲁姆教授和姚启智教授讨论了这个话题。

从社会发展的角度来看，我们习惯用GDP来衡量发展水平。但GDP这个概念其实很新。在农业社会之前，没有GDP增长的概念，因为人们连温饱都买不起。农业社会发展后，人们有了剩余的生产能力，但GDP年均增长仍然只有0.1%至0.2%。在工业社会，这个数字已增加到1%至2%。信息社会GDP年均增长率已达到3%至4%，这里提到的数字是全球近似数字。

那么，即将到来的人工智能社会会发生什么？有经济学家预测，随着人工智能的数量超过人类的数量，机器人的数量将急剧增加，生产效率将大幅提高。在这样的人工智能世界里，年均GDP增长可能会达到十多个百分点。

这就提出了一个根本问题：人工智能带来的最大经济增长能否实现人类最大福祉？这是每个从事技术研发、推动产业落地的人必须思考的问题。对于在座的各位，尤其是IDEA研究院从事技术研发的同事来说，在推动人工智能发展的同时，这个问题值得我们深入思考。我的分享就到这里，感谢大家的阅读！

下一篇： 中国航展热度冲天，微博助力破圈成全民热议焦点
上一篇： 微软推出 Microsoft Translator Pro 应用，助力企业员工消除语言障碍

软件行业资讯

AI 时代会诞生怎样的编程语言？从计算机科学发展历程看未来趋势

相关内容查看全部 

呷哺集团财报业绩

3月31日A股市场表

呷哺集团财报业绩

甲醇市场供需及走

未来1000年气候变

PTA供应端压力预

被忽视的记账App

比亚迪3月17日发

马斯克合并xAI与X

中国移动全闪存存

AI 时代会诞生怎样的编程语言？从计算机科学发展历程看未来趋势

相关内容 查看全部 

相关内容查看全部 