过去的一周就像是明年AI应用领域激烈竞争的预演。
OpenAI的直播持续了连续12个工作日。完整版的o1、拖延已久的Sora和GPT-4o的高级语音模式、以及最新的ChatGPTProjects功能相继推出,其中包括一些关于AGI的符号植入。似乎暗示着这场马拉松式新品发布的压轴戏将与AGI息息相关。
谷歌也选择在本周发布其最新的大型模型Gemini 2.0,它不仅允许多模态的内容输入和输出,还支持使用谷歌搜索和代码执行等工具。同时发布的智能代理Project Mariner实现了谷歌此前尝试开发的代表用户在浏览器中执行任务的功能。
此外,Stepstar发布了Step-1o千亿参数端到端语音模型,支持语音和文本等混合形式的输入和输出,可以实现语音理解和生成的一体化。 Midjourney 推出 Patchwork 来帮助用户构建更清晰的故事并支持与他人的协作。人们还可以每月支付 500 美元聘请 Devin 来构建和部署从网站到应用程序的所有内容。
与去年各大机型厂商重点争夺参数和基础性能相比,今年厂商们都渴望让用户使用大机型。
iPhone 上的 ChatGPT
多模态能力、操作界面和代理执行是本轮发布的三个重点方向。 OpenAI和谷歌都在这三个方向上提升自己的技术能力。与此同时,豆宝、智浦、基米、统一等国内大车型也在这些方向发力。
转向大车型应用的背后,技术路线也在调整。前 OpenAI 联合创始人 Ilya Sutskever 本周在神经信息处理系统大会(NeurIPS)上发言时指出,虽然现有数据仍然可以进一步推动人工智能的发展,但互联网上的数据像石油一样有限,而且行业正在放弃它的使用。根据新数据对大型模型进行预训练将迫使人们改变当今训练大型模型的方式。
谷歌在Gemini 2.0大会上披露的信息显示,其在大模型技术的发展上正在尝试两条腿走路:一方面,不断扩大模型规模,提升基础性能;另一方面,不断扩大模型规模,提升基础性能。另一方面,强化了训练后的优化和推理技术。改进,尤其是注重多模态能力的提升,希望能够让AI更好地理解和处理各类信息。
当很难一次性大规模生成知识或事实数据时,实现“推理-应用”的闭环可以为大模型的能力演化提供基于应用数据的稳定训练环境,并不断尝试提高能力。当然,这需要大模型能够渗透到更多的应用场景,被更多的用户更频繁地使用。
OpenAI正在为AI应用的普及提供更多弹药。
多模态带来更加人性化的硬件
多模态是 OpenAI 和 Google 发布内容的重要组成部分。即使我们不从AGI的角度来理解,一个具有看、听、说等多种感知能力的大模型也可以被视为具有更接近人的自然交互习惯的能力,就像人形机器人被认为能够最大程度地适应人类社会的工作环境。
在O1大模型引入多模态处理能力的同时,OpenAI最终发布了GPT-4o的高级语音模式。在这种模式下,更流畅、更自然的人机交互成为现实。在高级语音模式下,四名OpenAI工作人员与AI顺畅地聊天。 AI能够通过摄像头辨别出其中哪位戴着圣诞帽,并指导其中一位工作人员一边“看”一边制作手冲咖啡。
ChatGPT 指导制作手冲咖啡
谷歌发布的Gemini 2.0还增强了其智能代理Project Astra的多模态交互能力。谷歌在今年5月举行的I/O大会上推出了Project Astra,可以利用手机摄像头观察和了解真实环境,并回答用户的相关问题。此次升级后,Project Astra可以进行多种语言之间的自然对话,并具备图形记忆和对话记忆功能。
其中,图形记忆能力可以让它记住最近10分钟内看到的图像,对话记忆能力可以存储和调用60条历史对话。在一次演示中,一名谷歌员工要求 Project Astra 看到一辆路过的巴士,并询问该巴士是否可以带他到唐人街附近的某个地点。当然,Project Astra 理解不同口音和不常见词汇的能力也得到了证明。
当我们看到这些能力的演示时,我们一定能够思考,如果智能眼镜具备这个能力,是否会带来更好的用户体验?
如果多模态大模型最终指向类人、无处不在的智能助手,那么AI硬件必将是其核心载体。大机型多模态能力的提升或许会让具有看、听、说能力的智能眼镜更加普及。
作为AI硬件的主要品类,我们在国内看到了很多智能眼镜产品的诞生,包括百度的小度AI眼镜、Rokid和BOLON的Rokid眼镜、李微科的meta Lens Chat、蜂巢科技的捷欢AI音频眼镜,以及各大厂商的智能眼镜产品。字节茶、小米、华为等被认为在生产智能眼镜的厂商。
虽然目前还不清楚 OpenAI 的想法是什么,但从 Ray-Ban meta 已经具备 AI 能力的事实以及 Google 的一些说法,我们可以看到,大模型与 AI 硬件深度融合的时机即将到来。谷歌工作人员表示,“少数人将通过原型眼镜测试Project Astra,我们相信这是体验此类AI最强大、最直观的方式之一。”
在国内,大车型与硬件的结合也成为一门突出的学问。致力于端侧AI发展的面墙智能上周完成新一轮数亿元融资。其CEO李大海在内部信中表示:“由于端侧智能化发展的深刻影响,主流消费电子产品和新兴硬件正在进化成为能够在不同场景下执行特定任务的超级智能体,成为新一轮科技创业的热门话题。”
执行能力提高催化智能
执行能力的提升是这波大机型产品能力提升的另一个方向。将大型模型扩展到应用程序不可避免地需要具有跨场景、跨终端和应用程序的执行能力。智能代理是目前公认的能够实现这种连接的理想载体。
在本周的大模型产品发布中,我们可以明显感受到OpenAI和Google正在为智能代理生态系统打造更多的构建工具。
OpenAI 在 GPT-4o 的高级语音模式下展示了屏幕共享功能。开启屏幕共享后,ChatGPT可以浏览用户的短信并给出回复建议。这很难不让人想起智普和Anthropic推出的AutoGLM和计算机使用能力。观看并理解屏幕上显示的内容是让大模型学习操作App的基础。
ChatGPT 浏览短信
同样在上周,ChatGPT 正式集成到苹果系统中。特定英语地区的苹果用户已经可以在iPhone、iPad和MAC上直接体验ChatGPT的功能。这是一个混合解决方案。当 Siri 认为用户提出的问题更适合 ChatGPT 回答时,系统会要求用户同意访问 OpenAI 服务。未来,OpenAI可能会与Apple Intelligence进行更深入的融合。
谷歌直接将Gemini 2.0定义为代理时代的AI模型。其多模态能力和调用工具的能力可以支持AI代理的构建。在谷歌展示的一些代理中,有的可以根据屏幕上的图片实时分析比赛情况并向用户提出操作建议,有的则可以进行深入研究并撰写论文。
Project Mariner也是基于Gemini 2.0的能力来实现的。这也是一个类似于之前大家一直在谈论的AutoGLM和电脑使用的产品。在谷歌的介绍中,这款产品可以理解网页上的复杂信息,并调用Chrome浏览器扩展来帮助用户完成复杂的任务。与 AutoGLM 和计算机使用一样,该产品也可以帮助用户执行打字和单击等操作。
除了OpenAI和谷歌之外,亚马逊本周还宣布成立自己的亚马逊AGI SF实验室。据介绍,该实验室由AI初创公司Adept联合创始人David Luan领导。其核心目标是创建能够在数字和物理世界中“采取行动”的人工智能代理,并且能够处理跨越计算机、网络浏览器和代码解释器的复杂工作流程的任务。
显然,对于大模型厂商来说,明年的大模型产品肯定会在标准多模态能力的基础上,具备更多能够影响物理世界的执行能力。这些执行能力的推出,一方面将持续推动AI在手机、PC、汽车等传统硬件领域的探索。另一方面,也可能让更多的各大厂商和开发商找到新的创意,改进原有的产品。体验自动化本地转型升级探索。
AI原生操作界面正在诞生
本周大型模型产品发布的第三个变化是AI原生操作界面开始显现。尤其是在OpenAI已经进行的发布中,Sora和Canvas的两天发布是探索原生AI操作界面最令人印象深刻的。肯定有人会从中得到启发,思考应该用什么样的操作界面来实现原始体验的AI。
这将是未来探索的方向。就像智能手机出现后游戏厂商如何探索更适合触屏交互的操作界面一样,大型机型越来越深入应用场景后,需要围绕自然语言构建的操作界面。目前我们在生成视频时看到的参数选择并不是面向未来的操作界面。
对话窗口可能是一个表单,但不足以支持多种信息表单。这就是为什么OpenAI会推出Canvas作为对话窗口的补充。 Canvas实际上为人们与AI交流提供了一个“桌面”。聊天时,大家可以将手头的文字、视频、数据放到桌面上一起观看、处理。
画布界面
OpenAI于11月推出的ChatGPT桌面应用程序可以与MAC上的第三方应用程序协作,将第三方应用程序的内容引入用户与ChatGPT之间的对话中。一些科技博主利用这个功能让ChatGPT“看到”终端中打开的字幕文件,并生成一条命令将其转换为纯文本文件。
这种协作,形象地说,就是把Terminal等软件中的数据和信息放在桌面上,让AI也能看到。然后,AI 可以根据所看到的 200 行信息,更准确地理解用户在对话中表达的意图。当然,Canvas的预览功能也补充了这个桌面能力,相当于把木质桌面变成了智能显示器。
OpenAI第七天发布的Projects功能是一个为桌面打造的文件柜,可以将同一项目的聊天记录、文件和自定义指令集中到一起,实现更精细化的数据管理。项目使用户可以更轻松地在 ChatGPT 上构建自己的工作台。甚至,这个项目未来可能会整合更多的人和智能体,成为一个协作空间。
故事板
同样,虽然大家对Sora的视频生成能力褒贬不一,但都对Sora展示的AI视频操作界面给予了比较高的评价。 Sora不仅提供了一些模板化的工具插件,比如可以替换视频元素的Remix工具、可以扩展最佳帧的Re-cut工具、可以生成重复视频的Loop工具;它还推出了Storyboard,这是一个带有时间线编辑工具的视频。
明年,我们应该会看到更多类似的人工智能原生操作界面尝试。这是AI生成能力向AI创造能力的必然延伸。从更大的角度来看,大模型已经到了更多场景、更多行业、更多人可以感知和使用的阶段。只有这样,才能维持大家对大模型的信心,让大模型发挥出应有的价值,抵消一些质疑声。
本文来自微信公众号“窄播”,作者:李伟,36氪授权发布。