作者 |沉向阳
组织| 《新程序员》编辑部
AI科技大本营出品(ID:rgznai100)
在计算机科学的70年发展历程中,真正“现象级”的编程语言不到十种——即拥有数百万甚至数千万用户的语言。每个时代的技术变革都会催生相应的主导语言:大型机时代的Fortran、操作系统时代的C/C++、互联网时代的Java、云计算和数据科学时代的Python。
如今,以ChatGPT为代表的大模型技术引发新一轮技术革命,我们不禁要问:AI时代将会诞生什么样的编程语言? GitHub Copilot 的首席创建者 Alex Graveley 曾指出,虽然 AI 正在改变代码的编写方式,但真正适应 AI 时代特征的编程语言范式尚未出现。
11月22日,在深圳举行的2024 IDEA大会上,IDEA研究院创始主席、美国国家工程院外籍院士沉向阳发表了题为《从技术突破到产业融合》的演讲。他在演讲中提出了上述深刻的思想,同时指出了一个更值得注意的事实:“过去所有流行的编程语言中,没有一个是中国开发者创造的。”
大车型浪潮已经爆发,这一历史性机遇即将到来。就像C语言与Unix系统的共生关系一样,新时代的编程语言将与AI技术深度融合。既要更好地表达AI的思维方式,又要充分利用AI的能力,提高开发效率。这将是一条全新的赛道,中国开发者也将有机会在该领域做出开创性的贡献。
作为见证了多个科技时代变迁的资深科学家,顺向阳在演讲中也分享了许多关于AI时代科技创新的深刻思考:
“编程语言的变革总是伴随着技术革命,就像Unix系统与C语言、Web服务器与Java的关系一样,AI时代也将催生新的编程方式范例。”
“ChatGPT展现了一种新的可能性:当技术突破达到一定程度时,可以跳过传统的产品市场匹配(PMF)流程,直接实现技术市场匹配(TMF)。”
“从算力的角度来看,未来十年人工智能的发展可能需要算力增长100万倍,远远超过摩尔定律预测的100倍增长。”
“人工智能正在改变科学研究的方式。从‘确定方向’(ARCH)到‘选题’(Search)再到‘深入研究’(Research),每一个环节都将被重塑。”
以下是顺向阳讲话的主要内容。 CSDN整理了最引人深思的部分。欢迎您在评论区分享您的见解:
人工智能发展的“三件套”
今天是IDEA研究院在深圳举办的第四届IDEA大会。回顾其发展历程,IDEA在三年前的第一次会议上首次向公众展示了研究院的工作成果。第二次会议邀请了李泽湘教授、徐扬生教授、高文教授等学术带头人进行了深入对话。值得一提的是,这些学者是我20世纪90年代初赴美留学时遇到的第一批中国学者。三十年后我们能重聚深圳,恰恰证明了深圳作为创新创业热土的独特魅力。
经过四年的发展,IDEA研究院已发展成为拥有7个研究中心、员工约450人的科研机构。过去几年,人工智能的蓬勃发展让整个行业充满憧憬和期待。在人工智能的发展过程中,“算力、算法、数据”“三件套”始终是核心要素。接下来我将从这三个方面详细分享我的观察和思考。
算力:从“摩尔定律”到“黄氏定律”
让我们从计算能力开始。作为计算机领域的从业者,我们在过去的四五十年里,见证了整个计算行业计算能力的不断提升。早期有著名的摩尔定律,英特尔提出计算能力每18个月增加一倍。然而,近十几年来,随着人工智能尤其是深度学习的发展,对算力的需求呈现出前所未有的增长。
EPOCH AI的数据显示,最新大型模型对算力的需求每年都在以惊人的速度增长,年均增长率超过四倍。这个数字是什么意思?如果按照这个增长速度,十年内算力需求将增长惊人的100万倍。相比之下,在传统摩尔定律下,18个月内增长一倍只不过是十年内增长100倍。
计算能力需求的爆炸性增长使 GPU 制造商 Nvidia 成为 IT 行业和人工智能领域最成功的公司之一。 NVIDIA已经从纯粹的硬件芯片供应商转型为整个行业的核心支柱。现在业界流传着一句话:“拿到NVIDIA卡就成功了一半”。
我们来看一下具体数据:英伟达最新产品H100的出货量在2023年持续上涨,各大公司都在争相采购。包括马斯克在内,他最近部署了一个拥有10万张H100卡的大规模集群。直到2024年,微软、谷歌、亚马逊等科技巨头都在大量采购H100芯片。
为什么需要如此巨大的计算能力?这与大车型的发展密不可分。大型模型不仅参数数量巨大(从数百亿到数千亿到数万亿个参数),而且训练所需的数据量也在不断增长。更重要的是,为了提高模型性能,对计算能力的需求将随着参数数量的增加而呈正比增长。这解释了为什么英伟达的市值在过去十年里增长了300倍,也解释了“计算能力就是生产力”这句话的深刻含义。
在人才招聘方面,计算资源成为重要指标。有些企业会用“千卡人才”、“百卡人才”来形容自己的人才规模。真正顶尖的甚至被称为“万卡天才”。在深圳市政府的支持下,IDEA研究院已经拥有上千张显卡的算力储备,在深圳算得上是“小土豪”级别了。
这种算力需求的变化被业界称为从“摩尔定律”到“黄氏定律”的转变。黄定律不仅体现在硬件算力的增长上,更重要的是体现了模型训练的算力需求呈指数级增长。未来十年算力需求是否会继续保持如此惊人的增速,是值得我们持续关注和思考的问题。
算法:从“预训练”到“强化学习”
在算法方面,自2017年Transformer架构出现以来,人工智能、深度学习和大模型的发展基本都是沿着这个方向,通过堆积的数据和计算能力来推进的。但在GPT-4之后,我们看到了算法范式的新突破。特别是OpenAI推出的新技术,包括多模态GPT-4V和最新的o1推理学习能力,展示了算法创新的新方向。令人欣喜的是,近几个月来,包括初创企业在内的一些国内企业在这个方向上取得了显着进展。
这里我想详细介绍一下算法突破的思路。在o1出现之前,大家都在谈论GPT系列,所有工作都集中在预训练上。核心任务是预测“下一个代币”。一个很重要的技术背景就是对所有数据进行高效压缩,让模型能够快速给出答案,做到“有问必答”。
目前的范式变革引入了强化学习(Reinforcement Learning)的概念,模型具有自我改进的能力。这种新方法的特点是更接近人类的思维方式。与之前的快速思维模式不同,现在的模型在给出答案时会经过后训练、后推理的过程。这就像学生解数学题时,会先打草稿,验证一条路径是否正确。如果不正确,他们就会返回并尝试另一条路。
虽然强化学习本身并不是一个新概念——例如几年前 AlphaGo 使用强化学习击败了围棋世界冠军——但今天的创新在于它的多功能性。过去,强化学习系统往往只能解决单一问题,而像o1这样的新系统可以同时处理数据分析、编程、物理和化学等多个领域的问题。我想未来几年,沿着自我强化学习(SRL)的道路,我们将会看到更多惊人的突破,也期待IDEA研究院和国内的研究人员在这个方向上有更多的突破。思考和创新。
数据:从“库存”到“合成”
在讨论数据之前,我已经提到过,大模型的蓬勃发展不仅依赖于参数规模的增长,还需要海量数据的支持。我给大家分享一些关于数据大小的具体数据。
三年前发布 GPT-3 时,使用了 2T(2 万亿)代币数据。在GPT-4时代,用于模型训练的数据量已经增加到12T,并且在持续训练过程中可能会达到20T。这一规模大致相当于目前互联网上可获得的高质量数据总量。而如果将来GPT-5出来的话,据我估计,可能需要200T的数据。但问题是,在互联网上很难找到如此大量的高质量数据。这催生了一个新的研究方向:合成数据。
为了让大家更直观的了解这些数据的规模,我举几个例子:1万亿代币的数据量大约相当于500万本书,或者20万张高清照片,或者500万篇论文。从人类历史的角度来看,迄今为止创建的所有书籍包含大约21亿个代币,微博上有38亿个代币,Facebook上大约有140T的数据。但社交媒体上的数据质量普遍不够高,真正有价值的内容相对有限。
从个人角度来看,一个人读完大学后实际学到的知识量约为0.00018T,相当于1000本书的内容。如果您觉得自己还没有读过这个级别,也许现在是时候开始阅读更多书籍了。
有趣的是,ChatGPT等AI模型的训练数据主要来自互联网。回顾互联网发展40年,人们热衷于在线分享信息,现在似乎正在为GPT培训做准备。 AI之所以如此聪明,很大程度上得益于我们贡献的数据。还有一个现象值得注意:无论AI模型用哪种语言训练,底层的高质量数据主要是英文。这意味着,在AI时代,英语的重要性可能会进一步加强,就像在互联网时代一样。
现在互联网上的数据已经接近极限,人工智能的进一步发展需要依赖合成数据,这可能会带来新的数百亿美元的创业机会。
与主要使用互联网文本数据的GPT系列不同,新一代模型(例如o1)需要更强的逻辑,而这些数据往往在网上找不到。例如,在编程领域,我们需要知道具体步骤是如何一步步完成的。在IDEA研究院,在郭院长的带领下,我们开展了高质量的训练数据项目,为大型模型不断提供新的“养分”。
我们的合成数据方法不是盲目生成的,而是基于严格的方法论。我们首先建立上下文图并在此基础上进行数据合成。这些合成数据经过大型模型预训练后显示出良好的结果。
此外,我们还在探索另一个维度的问题:私域数据安全孤岛。出于数据安全的考虑,很多私域数据无法直接共享。为此,我们开发了IDEA Data Maker将这两方面结合起来,通过上下文图生成新的语料库,以解决以往文本数据合成解决方案缺乏多样性的问题。该技术引入了合成数据的“指导手册”,使用地图作为大纲来指导合成的上下文采样。实验结果表明,IDEA团队的解决方案能够不断提升大型模型的能力,并超越目前的最佳实践(SOTA)模型;在代币消耗方面,平均成本节省85.7%。目前该技术的内测平台已开放,并通过API提供服务。
大模特时代的机遇:从PMF到TMF
谈完AI发展的“三件套”,我想分享一下IDEA研究院这一年来的思考和实践。尤其是大型车型的蓬勃发展给我们带来的机遇。
ChatGPT的出现给我们带来了深刻的启示——上线短短两个月就吸引了全球1亿用户,成为引人注目的科技现象。这种现象打破了我们对产品开发的传统认识。在互联网时代,我们经常谈论PMF(Product-Market Fit)。为了理解这个概念,我多次咨询过美团王慧文。在清华大学的一次课堂上,他专门讲解了PMF的内涵。
但ChatGPT的成功告诉我们,它实际上跳过了PMF流程,直接实现了TMF(Technology-Market Fit)。当技术发展到一定程度,才有可能实现这样的跨越式突破。在IDEA,我们每天都在追求一些极致的技术,同时也在思考:如果技术出来了,能不能一步到位?这当然是我们的期望,我们也一直在朝这个方向努力。
顺着TMF的线索,我想谈谈我们最近特别关注的一个方向:计算机编程语言。作为一个研究计算机的人,我自己写过十几种不同的编程语言,并在不同阶段做不同项目时使用它们。
这里我想说一个重要的观点:放眼世界,编程语言那么多,有小语言、大语言、中型语言,但广泛使用的语言基本上没有一个是发明或创建的由中国人。 。有机会改变这种现象。
让我举几个例子来说明什么是现象语言。在过去七十年、八十年的计算机科学发展中,出现过的现象级语言不超过十种。这里的“现象”是指至少有几百万、几千万的用户用这种语言编程。例如,早期的Fortran与IBM大型机绑定,Fortran语言用于三角计算。 20世纪70年代出现的C语言与Unix操作系统有着密切的联系。甚至可以说,Unix系统是用C语言构建的。 20世纪90年代互联网兴起时,我师兄开发的Java语言被大量程序员采用,主要用于开发Web服务器。近十几年来,Python因其在科学计算方面的便利性,特别是在云计算平台上的广泛应用,已成为主流语言。如果你问你的孩子正在学习什么编程语言,他们很可能会选择 Python。
那么,在当今大模型时代,会出现新的现象级语言吗?我不是唯一一个思考这个问题的人。例如,GitHub Copilot 创始人 Alex Graveley 指出,AI 编程尚未形成新的编程语言范式。编程语言是技术创新最根本的方向之一。
有了语言,我们就需要探索大模型的技术创新方向。如今,随着大模型能力达到新的高度,一个关键问题是:我们如何将这种能力转化为实际应用?在哪些场景下可以发挥最大价值?
在所有应用方向中,我特别想强调AI For Science(科学智能)的重要性。可以说,现阶段,很难想象还有什么比 AI For Science 更重要的方向。我们要做人工智能研究,一方面要全力推进大模型技术的落地,另一方面也要重视其在科学研究中的应用。
这让我想起20多年前我在微软亚洲研究院做的一个报告,讲的是如何做科学研究、如何做知识。我把科研工作分为三个不同的层次:ARCH(确定方向)、Search(选题)、Research(深入研究,反复探索)。现在,我们希望IDEA的工作能够为中国科研人员和青年学子的科研工作提供更好的支持。
从经济增长到福利实现
人工智能的发展正在对社会产生深远的影响。这个问题非常重要,值得我们认真思考。今天我们要讨论的是人工智能治理的问题,包括它对人、对企业、对监管、对社会发展的影响。
人工智能的影响到底是如何发生的?八年前,人们还在讨论社交媒体的影响,今天我们要讨论人工智能的影响。过去十年的发展令人震惊:人类引以为傲的能力正在被人工智能一一超越。不用说,下棋、下围棋,AI在阅读理解、图像识别和检测方面的能力已经逐渐超越人类。更令人震惊的是,这些能力的提升不再是单一的突破,而是通用人工智能整体能力的提升,这使得人工智能对社会的影响极其深远。
现在,人工智能治理问题正在全球范围内讨论。我有幸在今年的上海人工智能大会上与我的导师瑞迪教授、布鲁姆教授和姚启智教授讨论了这个话题。
从社会发展的角度来看,我们习惯用GDP来衡量发展水平。但GDP这个概念其实很新。在农业社会之前,没有GDP增长的概念,因为人们连温饱都买不起。农业社会发展后,人们有了剩余的生产能力,但GDP年均增长仍然只有0.1%至0.2%。在工业社会,这个数字已增加到1%至2%。信息社会GDP年均增长率已达到3%至4%,这里提到的数字是全球近似数字。
那么,即将到来的人工智能社会会发生什么?有经济学家预测,随着人工智能的数量超过人类的数量,机器人的数量将急剧增加,生产效率将大幅提高。在这样的人工智能世界里,年均GDP增长可能会达到十多个百分点。
这就提出了一个根本问题:人工智能带来的最大经济增长能否实现人类最大福祉?这是每个从事技术研发、推动产业落地的人必须思考的问题。对于在座的各位,尤其是IDEA研究院从事技术研发的同事来说,在推动人工智能发展的同时,这个问题值得我们深入思考。我的分享就到这里,感谢大家的阅读!