设置星标关注,从此你的世界多点科学~
人工智能世界发展迅猛,AI 产品不断更新换代,让人目不暇接。OpenAI 发布了 o1 模型预览版后不久,DeepSeek 便推出了 R1-Lite 的预览版。接着,OpenAI 又推出了 o1 正式版以及 o3 模型,而 DeepSeek 方面则展示了 V3,并官宣了 R1。
AI 大佬现今宣称,他们的模型拥有真正的推理能力,这种能力就如同人类在思考问题答案时所运用的能力一样。
真是这样吗?
这个问题很重要。它的答案会决定每个人是否应该向人工智能寻求帮助,以及应该怎样寻求帮助。
当下最先进的“推理模型”,例如 o1 和 R1,它们对于用户提问的回答方式与 GPT 不同。GPT 只求尽快把内容交代清楚,而这些推理模型被设计出了“思考”的过程。它们不会急着答话,而是先把大问题分解成小问题,然后尝试逐步去解决。业界将这种方式称之为“思维链推理”。
这些推理模型确实取得了一定的成果。它们具备解决逻辑难题的能力,在数学测试中能够获得优异的成绩,并且首次尝试就能编写出完美的代码。然而,它们在解决极为简单的问题时也有可能会失败。对于这一现象,AI 专家们的解释并不一致。
怀疑论者认为,这种现象显示所谓的推理模型根本就不是在进行真正的推理。相信者则坚持,模型是能够进行推理的,尽管现在或许不如人类推理那样灵活,但它正在朝着这个方向发展。
谁说得对?
什么是推理?
OpenAI 等人工智能企业用“推理”这个词,意味着他们的模型能够把问题进行分解,一步一步地去解决,最终给出能让提问者满意的解决方案。
这种对于推理的定义比大多数人所理解的要狭隘许多。科学界仍在探索人类推理的本质,并且还在尝试去理解人脑中的推理是以何种机制运作的。
另一个基本的共识则是,推理可以分出很多种类型。
有演绎推理这种方式,它是从一般性的前提开始。通过推导或者演绎的过程,能够得出个别性的结论。比如苏格拉底三段论,以“所有哺乳动物都是动物”以及“猫是哺乳动物”这两个一般性前提为依据,就可以推导出“猫是动物”这一个别性的结论。
归纳推理是从个别到一般的推理。比如,谚语“朝起红霞晚落雨,晚起红霞晒死鱼”是通过归纳推理而得出的结论。
此外,还有类比推理、因果推理、常识推理……
假如有一道数学难题摆在你面前,你经过逐步拆分以及深入思考而得出的结果,肯定比不假思索脱口而出的答案要好。所以,这个经过深思熟虑的过程,也就是“思维链推理”的过程,是非常重要的,它或许是解决任何难题都不可或缺的。然而,这还不是推理的全部内容。
美国圣菲研究所的教授梅兰妮·米切尔曾和同事共同撰写一篇关于 AI 推理能力的论文,她指出:人类的推理能力具备一个关键特性,那就是能够从有限的数据或者经验里找出规律或者模式,并且把这些规律或模式应用到从未见过的新情况中。并且,即便只是幼童,他们也很擅长从少量的实例当中学到抽象的规律。
人工智能可以吗?
许多争论都围绕着这个疑问而展开。怀疑论者对 AI 的归纳能力持怀疑态度,他们认为一定存在其他机制在驱动 AI 做出看似是推理的行为。同时,怀疑论者对 AI 的泛化能力也持怀疑态度,觉得一定有其他机制在促使 AI 做出那样的行为。
怀疑论者的理由和观点
2024 年 9 月 OpenAI 发布 o1 模型预览版。英国爱丁堡大学的技术哲学家香农·瓦洛尔(Shannon Vallor)表示,它的推理是一种元拟态。
旧模型如 GPT 接受训练数据后,会对其中人类书写的语句进行模仿。而以 o1 为代表的新模型模仿的是人类书写这些语句的过程。也就是说,新模型只是在模仿,并非真正进行推理。o1 很容易给人以它是推理者的感觉,因为它的训练数据中充满了推理的案例,比如医生分析症状来诊断疾病,以及法官评估证据以作出判决。
另一方面,OpenAI 在构建 o1 模型时,进行了一些与 GPT 模型相比的改动,然而这些改动并未颠覆原有的架构。前辈 GPT 曾经在某些简单问题上给出荒谬的回答,就像后文将要介绍的“人、羊、船过河”问题那样。
瓦洛尔提出疑问:大家为何会认为 o1 正在创造神奇呢?特别是当想到很简单的发问都有可能打破它的防御时。在他看来,它胡言乱语的这种状况完全能够证明它根本没有在进行推理。
o3 模型是 o1 的升级版,它的性能表现让米切尔感到惊讶。同时,令人惊讶的还有它解决问题所需的计算量。然而,我们并不清楚它利用这些计算做了什么,因为 OpenAI 没有公开黑箱内的情况。
米切尔表示,企业若不提高透明度,那么大家就没办法确定模型是否真的能像他们所声称的那样,将一个大问题分解为几个小环节,从而获得更理想的答案。
她引用了论文《让我们一点一点思考》(Let’s Think Dot by Dot)。这篇文章的作者没有让 AI 模型去分解问题,只是要求它生成一些没有意义的点或者“填充标记”。事实表明,只要有额外的标记,模型就能拥有更多的计算能力,进而能够更好地解决问题。这意味着,当模型生成中间步骤时,这些步骤可能是“让我们一步一步思考这个问题”这样的短语,也可能只是单纯的“....”。并且,此类步骤不一定就代表它在进行类似人类的推理。
米切尔告诉我,他认为 AI 所做的很多事情更像是一堆启发式的东西,而不是推理模型。
启发式方法属于思维捷径,一般能够帮助你猜出问题的答案,然而它并非真正的思考。
这里有一个经典案例:研究人员对一个 AI 视觉模型进行了训练,让其用于分析皮肤癌照片。刚开始看的时候,似乎 AI 真的在对一个色素痣是否为恶性进行判断;但实际上,在训练数据中,恶性痣的照片通常带有标尺,而模型仅仅是学会了利用标尺的存在作为判断恶性与否的一种启发式方法。
怀疑派认为,最先进的 AI 模型或许正在做着类似的事。它们看上去在“推理”数学问题,然而实际上仅仅依靠记忆信息以及启发式方法。
相信AI真能推理的专家怎么看
Redwood Research 是一家专注于降低高级人工智能风险的非营利性组织。该组织的首席科学家瑞安·格林布拉特认为,AI 模型无疑在进行某种形式的推理。
它们无法以人类的水平把个别情况推广为一般情况。它们相较于人类更依赖记忆和知识。不过,它们确实在进行推理,不能断言它们完全没有归纳泛化的能力。
毕竟,这些模型已经能解决超出其训练示例的难题。
前面提到的人羊船过河的问题曾让许多人发出嘲笑。这些人是怀疑论者。详情可由下图得知。
一个男人和一只山羊在河的一边。他们拥有一条船。男人先将山羊带到河对岸,接着把船留在原地。之后男人独自坐船返回原来的这边。他把山羊留在对岸后,再次坐船回到原来的那一边。最后,男人带着卷心菜过河。
为何会有这样离谱的答案呢?格林布拉特觉得,是模型出现偏差了,它把提示语当成了一道古老的过河谜题。
过河谜题的经典版本之一是:一个农民带着一只狼、一只山羊和一棵卷心菜,要乘船过河。船一次只能载农夫和一件货物。若把狼和羊放在一起,狼会吃羊;若把羊和菜放在一起,羊会吃菜。所以,解题者得开动脑筋,制定出不会让任何货物被吃掉的过河策略。
格林布拉特推测,AI 会跑偏是因为它曾接受大量关于过河谜题的训练,并且对这类谜题已经轻车熟路了。同时,它还怀有强烈的冲动,倾向于把那些看似是谜题的提示语当作谜题来进行处理。
实际上人类也存在这种倾向。假如你花费一个月的时间去钻研色彩理论,从互补色开始学习,一直学到不同色调所产生的心理效应,并且沉浸在文艺复兴时期绘画中某些颜料所具有的历史意义当中……然而,就在这时,突然有人来考你:“请问,在这幅风景画里,创作者为何要把天空画成蓝色呢?”我们有理由揣测,你可能会被引诱而写出一个偏离正轨的复杂答案。蓝色意味着神圣的天堂,选用这种色度意味着画作是在清晨完成的,象征着重生……
非营利组织 Open Philanthropy 的高级分析师阿婕雅·科特拉致力于对人工智能风险进行研究。她不否认怀疑派提出的“AI 模型推理是一种元拟态”这一观点,同时也指出这种元拟态不一定就是推理的全部内容。
不妨用大学物理课来作类比。
课堂里的学生类型各异。其中有一个学生,他是彻头彻尾的作弊者,做题时总是开卷去寻找答案;还有一个学生,如同爱因斯坦一般,是超级天才,他对物理的理解极具直觉性且十分深刻,根本无需死记硬背,因为能够迅速推导出物理公式;其余的大多数学生都属于普通人,他们记住了 25 个应该记住的公式,需要努力思考在何种情况下应用哪个公式。
科特拉认为,AI 模型如同大多数学生一样,需要把记忆和推理相结合。它们是不太聪明却很勤奋的学生,不但记住了应该记住的 25 个公式,还额外记住了 500 个公式,其中包含一些针对奇特情景的内容。它们把大量的记忆和少许的推理结合起来,即推理自己要用哪道公式来解决问题。
总而言之,AI既非纯粹的推理者,也不是只能记和背。
它处于两者之间。人们对此感到困惑,我认为原因在于他们想把它简单地归为非黑即白的类别,想判定它要么是纯粹的记忆者,要么是真正的深度推理者。但实际上,推理存在一个深度的范围。
“锯齿状智能”
研究人员想出了一个很有意味的术语来描绘 AI 推理模式,那就是“锯齿状智能”。它所指代的是一个奇特的事实,正如计算机科学家安德烈·卡帕西所阐释的那样,最先进的 AI 模型既能够完成令人震撼的任务,比如解答数学难题,又有可能因为愚蠢的问题而陷入困境。
人类的智能宛如一朵边缘圆润的云。而人工智能这朵云的边缘呈锯齿状,有峰有谷。对于人类来说,解决问题的诸多能力是高度相关的。然而,AI 可能在 A 任务上展现出惊人的表现,却在 B 任务面前束手无策,并且 A 和 B 在我们看来似乎并无差别。
当然,这种圆润与锯齿是相对的。人类会惊讶于 AI 时而表现得像天才时而又像傻瓜。那么,有没有可能,从 AI 的视角来看,人类思想家们在进行下一个标记预测(NTP)方面的能力也非常差呢?
我们对人工智能最恰当的理解,或许不是在于它“比人类更聪明”或者“比人类更蠢”,而是在于它“与人类不同”。
科特拉预测,人工智能在未来会变得强大到能够具备所有人类的智能。他说:“当 AI 系统在各个方面都比人类专家更优秀时,会产生哪些风险呢?我一直在思考那个时刻,并为应对它而做好准备。”