搜狐科技第92期《思想大爆炸——对话科学家》专栏专题对话中国科学院院士、北京大学教授梅虹。
嘉宾简介:
梅虹,中国科学院院士、北京大学教授、计算机软件专家。主要从事软件工程和系统软件领域的研究。
亮点:
1、目前大语言模型的技术路径无法通向AGI,几年后可能会达到天花板。
2.人工智能无法取代人类。它缺乏创造力,只能说是一个辅助工具。
3、从技术伦理的角度来看,智力是人类独有的特征,特别是认知能力。为什么我们要创造一些东西来取代我们的认知?
4、机器没有所谓的意识,也没有涌现。它本质上是根据概率和统计来组织和组织现有的内容。从这个意义上讲,大型语言模型可以被视为从现有“语料库”压缩而来的“知识库”。
搜狐科技出品
作者|郑松谊
编辑|杨进
近日,第二十一届中国计算机大会(CNCC2024)在浙江省东阳市横店召开。
会议期间,搜狐科技与中国科学院院士、北京大学教授梅虹进行对话,重点围绕AI大模型发展现状、是否存在“泡沫”现象等话题,以及人工智能是否会对人类生命构成威胁。
梅红直言,“目前的AI技术路径缺乏创造力,无法通向AGI(通用人工智能),更谈不上取代人类。从人文和技术伦理的角度来看,追求人工智能取代人类的想法本身就是一个错误。” ”
他提到,“除了技术问题,还有道德、知识产权、产出质量等许多未解决的问题。大型模型在应用层面仍面临相当大的挑战。”
这段时间,大型模型战场上的炮声变得安静了一些。外界疑惑,“我们还能走大车型这条路吗?”
在梅红看来,“现有的大模型主要是数据驱动的,但可以看到开放获取的数据已经被‘吃’得差不多了。不难预测,大模型能力的天花板将在未来可能几年就能达到顶峰,当然输出内容的质量也会不断提高。”
他还呼吁中国科研人员要培养批判性思维,教师也要有共同学习的心态。不要害怕争论,思想的碰撞中应该有更多的火花,不要害怕走别人没有走过的路。
在科技领域,很多人将美国视为“排头兵”,思考如何寻找“从0到1”的创新路径。
梅红说,“‘从0到1’的原始创新绝大多数都是没有计划、没有前进方向的,基本上来自于基于兴趣对未知的探索。”
他指出,当前中国最重要的任务是形成健康的科研文化。 “中国全面发展科研能力用了不到30年的时间,我认为中国在短时间内取得今天的成就是非常了不起的。”
以下为谈话实录(经过编辑):
搜狐科技:今天是“1024”。听了您的演讲,我想程序员们可以度过一个愉快的假期了。你说AI不能取代程序员。你为什么这么确定?
梅红:这是现有AI技术路径的底层逻辑决定的。今天的人工智能不具备我们人类的智能,而且无法被取代。当然,很难说未来是否会出现其他技术路径并可能导致“替代”。
但AI确实可以帮助程序员提高开发效率和质量,比如推荐代码、完成代码、避免低级错误等。但总的来说,它仍然是一个辅助工具,缺乏使用软件实现业务所需的创造力需要。
此外,人工智能应用层面还存在许多尚未解决的问题,如伦理、知识产权、产出质量等。
人类的智慧是地球上最顶尖的智慧,无法轻易被取代。事实上,在计算机和人工智能发展初期的主流媒体报道中,一直存在着“取代”人类的声音。不过,早期报道的主角是计算机,这也涉及到“盲目过度高估”和“不切实际的顾虑”两个方面。
如果主角被人工智能取代,这些报道在今天仍然适用。只是纸质媒体的传播影响有限,远远落后于当今互联网、自媒体时代的喧嚣。
搜狐科技:您不同意机器代替人的想法吗?
梅红:从人文和技术伦理的角度来看,是否有必要追求替代人类认知、替代人类智能?
大家想一想,什么是智能?这是人类区别于动物的最重要的特征。人类为何能成为地球生物链的主宰、地球的主人?这是因为他的智力,他的认知能力,归纳和演绎等逻辑能力,以及我们的语言。
为什么我们要创造一些可以取代我们智力的东西,从而放弃我们作为地球主人的地位?
我个人是反对追求人工智能取代人类认知的。我们应该把它当作帮助我们做好各项事情、提高工作效率和质量的工具。
搜狐科技:但是现在行业都在做,而且机器越来越强大。
梅红:人工智能技术确实取得了长足的进步,但也存在很多炒作和泡沫。
我还是想从技术伦理的角度来看待这个问题。智慧属于人类。如今,整个社会都在炒作“智能”,人类所做的事情似乎已经不再智能了。
例如,许多“设计”是人类的智力和创造性活动。当然,采用计算机辅助设计无疑会大大提高效率。但现在很多人只提所谓的“智能设计”,但实际上只是“AI设计”。 AI设计是“智能”,但什么是人类设计?
搜狐科技:今年听到很多质疑,说大型模型越来越“消耗”算力,训练数据也面临枯竭。您认为未来三五年大型车型将如何发展?
梅红:我们应该看到,目前成功的两个领域都是因为数据量大:一是自然语言文本。人类几千年来通过语言记录积累了大量的文字资源,可以在互联网上公开。获取文本语料库是大型语言模型成功的重要因素。大型语言模型实际上压缩了绝大多数可公开获取的人类知识。另一位是文森特视频。互联网上已经存在大量的视频数据。
但其他领域却没有那么多数据,这是目前大模型应用落地面临的最大问题。当然,还有其他障碍,例如由于模型的不可解释行为而缺乏可信度。
很多人问我如何推动AI在行业的应用?我给出的建议是,面对目前人工智能技术的发展,如果你对人工智能的应用有疑问和犹豫,那就积累数据——能收集的就收集,能保存的就保存。
我非常认可现在人工智能技术的进步,但我反对过多的泡沫。当前人工智能仍处于技术成熟度曲线的顶峰阶段。理性被淹没在喧嚣中,成功案例不顾前提被放大、泛化,泛化甚至神化人工智能的预期效果。我认为我们需要一段冷静期。
我也相信,按照目前的技术路径,人工智能能力的“天花板”已经迫在眉睫。
搜狐科技:天花板在哪里?
梅红:大概几年之内。我这里指的是大模型能力的天花板。模型输出内容的质量将不断提高。
搜狐科技:您提出理想的人工智能应该是低熵的。这个理想是否存在或者有可能实现吗?
梅红:这是一个理想。我只是觉得现在的模型熵增长太快,消耗的资源太多。以目前可见的发展路径,距离这个理想还有很长很长的路要走。
搜狐科技:您认为大模型能带来AGI吗?
梅红:我觉得不可能。对于今天的大型模型来说这是不可能的。这是由其技术实现的底层逻辑决定的。
它所涵盖的知识量之大、范围之广,确实是我们人类无法比拟的。不过,要实现所谓的通用人工智能,目前的技术路径应该是不可能的。
目前的大型模型非常依赖数据和计算能力,但实际上几乎都使用开放获取的数据。当前大模型的竞争已经变成了“数据工程”的竞争。
另外,我想再次表达我在今年9月发表在《中国计算机学会通讯》上的文章《对当前人工智能热潮的一些冷思考》中提到的一个观点:大型语言模型需要就像未来的互联网,走向开源。全球共同维护开放共享的基础模式,让全世界受益,共同维护,避免不必要的浪费。
基于这种开放共享的基础模型,世界各地的研究人员和开发人员可以探索各种应用,并针对各个行业的需求构建相应的领域模型。
搜狐科技:您相信机器能够产生意识和思想吗?
梅红:我认为现在的人工智能不具备所谓的意识,也不具备从知识中产生的能力。
从基本原理来看,大模型是以“概率统计”为基础,将图像分类或文本生成等任务建模为概率模型,将数据的分布或生成过程表达为概率分布函数。神经网络可以以任意精度近似这些概率分布函数来构建这些概率模型。
从这个意义上讲,大型语言模型可以被视为从现有“语料库”压缩而来的“知识库”。生成结果的“语义”正确性高度依赖于数据的空间广度、时间深度和分布密度,更高度依赖于数据的质量。
基于目前的技术路径,大型模型不可能“无中生有”,做出超出人类预期的事情。
然而,大型模型可以基于内容“原语”生成新的组合,而其本身并不知道该“组合”的含义。这种组合可能是某种“知识”,也可能是“幻觉”,需要人类专家的验证和审查。
我还要再次强调,这也是我刚才提到的文章中所阐述的观点。目前主流的人工智能工作机制与人脑的工作方式还相去甚远。我们不应该过度使用类似人类的术语来描述机器,例如“意识”、“思维”甚至“硅基生命”,这很容易引起公众的误解。
我个人不太喜欢“硅基生命”这个词。说得严重一点,这是对生命的不尊重。我们不要忘记,真正的生命是地球上的生物,包括动物和植物,而我们人类是其中的领导者。