发布信息

阿里通义千问推出QwQ-Max-Preview深度思考模型,支持联网搜索与多任务处理

作者:软荐小编      2025-02-25 15:03:20     153

阿里开源推理模型QwQ!可联网搜索,思维链裸奔,开发者玩疯了__阿里开源推理模型QwQ!可联网搜索,思维链裸奔,开发者玩疯了

作者|陈骏达

编辑|漠影

智东西在 2 月 25 日进行报道。今日,阿里通义千问团队推出了 QwQ-Max-Preview 深度思考模型,并且该模型支持联网搜索。此模型展现出了极为强大的通用能力,它不仅能够对最新的《哪吒 2》电影进行现场锐评,还可以编写代码、解答数学题,同时能够胜任创意写作、游戏开发等开放性任务。这款模型不久后将会开源,目前它已在通义千问的新官网上线了,只需点击聊天框左下角的“深度思考(QwQ)”按钮,就能够体验到。

QwQ-Max-Preview 的博客文章带有满屏很醒目的颜文字,同时附上了跳转到体验页面的链接以及 Discord 的链接,并且特别标注出这篇博客是由新模型亲自撰写的,模型撰写博客时的思考过程也在文中呈现了出来。

纳德拉最新专访:谈DeepSeek突破,批AGI测试无意义,预言计算会越来越便宜

体验链接:

Discord链接:

DeepSeek 推出 DeepSeek-R1 深度思考模型之后,阿里和腾讯都竞相推出了类似 R1 的深度推理模型。QwQ-Max-Preview 是以 Qwen2.5-Max 为基础构建的,它在数学、编程以及通用任务方面展现出了更强的能力,并且在与 Agent 相关的工作流中也有着良好的表现。这个版本是即将发布的 QwQ-Max 的预览版,目前它仍在持续进行优化。

通义千问团队打算在近期以 Apache 2.0 许可协议将 QwQ-Max 以及 Qwen2.5-Max 开源发布。同时,通义千问计划为全球用户推出 Qwen Chat App,并且开源更适宜端侧的小尺寸推理模型。

博客内,通义千问团队放出了多个实测案例。

通义千问的深度思考模型可以和联网功能相融合,它能够依据实时的互联网信息来进行推理。现在先来看看通义千问对于《哪吒 2》的评价是怎样的。在开启深度思考以及联网搜索功能之后,千问能够迅速地查询互联网信息,并且在思考的过程以及给出的答案中都能清晰地引用信源。

纳德拉最新专访:谈DeepSeek突破,批AGI测试无意义,预言计算会越来越便宜

以下是 QwQ 对《哪吒 2》的评价,经截图后由 Qwen2.5-VL-72B-Instruct 进行了翻译。

纳德拉最新专访:谈DeepSeek突破,批AGI测试无意义,预言计算会越来越便宜

模型的代码能力在下一个案例中得以展现。提示词为创建一个 p5.js 脚本,此脚本要用于在旋转的球体内创建 100 个弹跳的黄色小球,这些小球被限制在球体内,并且碰撞检测也被正确处理了,球体缓慢旋转从而产生动态效果。

纳德拉最新专访:谈DeepSeek突破,批AGI测试无意义,预言计算会越来越便宜

思考了很长时间后,QwQ-Max-Preview 输出了 71 行代码。它还附上了对代码主要功能的描述以及使用指南,这可以说是非常全面的。复制代码并运行之后,能够看到动画的效果基本上符合提示词的要求。

纳德拉最新专访:谈DeepSeek突破,批AGI测试无意义,预言计算会越来越便宜

不过,智东西把同款提示词给到体验链接中的 QwQ-Max-Preview 时,它给出的代码运行后呈现出“车祸现场”的状况,黄色小球四处飞舞,完全没有顾及“小球被限制在球体内”这一要求。或许是因为预览版本还不稳定,才出现了这一现象。

纳德拉最新专访:谈DeepSeek突破,批AGI测试无意义,预言计算会越来越便宜

接下来的测试任务是进行游戏开发。QwQ-Max-Preview接到的需求是:在同一个 HTML 文件里创建一个游戏。要发挥想象力,把俄罗斯方块和 2048 游戏融合成一个游戏。

纳德拉最新专访:谈DeepSeek突破,批AGI测试无意义,预言计算会越来越便宜

模型开发的新游戏把两款游戏的玩法结合了。原版 2048 游戏是靠滑动方块来消除相同数字。新游戏里数字会从上方掉落,需要玩家进行操作并消除。

纳德拉最新专访:谈DeepSeek突破,批AGI测试无意义,预言计算会越来越便宜

这款模型能够胜任更复杂的游戏开发任务,例如像下方提示词这种需要调整的情况。

创建一个棋盘游戏网页,它要显示一个六边形网格,这个网格的样子就如同在《卡坦岛》游戏里的那样。每个六边形网格都被标上了从 1 到 N 的数字,这里的 N 指的是六边形格子的总数。要让这个网页具有通用性,这样就能够通过使用滑块来改变“环”的数量。例如,在《卡坦岛》游戏中,存在半径为 3 个六边形的情况。并且要使用单个 HTML 页面来实现。

模型在案例中对提示词的理解较为到位,通过拖动滑块能够对环的数量进行修改。

纳德拉最新专访:谈DeepSeek突破,批AGI测试无意义,预言计算会越来越便宜

在我们用同样提示词进行实测时,完成效果不理想。从六边形的形状到格子的排列,都与原提示词要求有偏差,还出现了超出显示范围的情况。或许在未来正式版发布后,这些问题可得到解决。

纳德拉最新专访:谈DeepSeek突破,批AGI测试无意义,预言计算会越来越便宜

通义千问思考模型本次融入了 Agent 能力,并且支持工具选择。然而,目前的体验版本并不支持这些工具。在博客文章提供的案例中,可以看到这些工具包含图像生成、物流追踪、二维码生成、港股行情等。

纳德拉最新专访:谈DeepSeek突破,批AGI测试无意义,预言计算会越来越便宜

测试人员选取了二维码生成器以及图像生成这两款工具,让模型生成一个身着白色连衣裙的女孩,接着展示出一个指向 taobao.com 的二维码图片。

生成的结果呈现出二次元的画风,其画面内容满足要求,经实测,二维码能够跳转至淘宝官网。

纳德拉最新专访:谈DeepSeek突破,批AGI测试无意义,预言计算会越来越便宜

通义千问团队介绍,本次他们会开源满血版思考模型,还将推出轻量级的变体,并且会把它融入应用。这样做是为了让不同层次的用户都能体验到这款模型的能力。他们也邀请全球开发者社群对这些模型进行实验、优化和扩展,以探索从教育工具到 agent 等多样化的应用场景。

QwQ-Max-Preview 发布了,并且将要开源,这意味着阿里正式加入了这波推理模型的开源潮。阿里的 Qwen 系列模型是当今全球影响力很大的开源模型家族之一,其衍生模型的数量超过了 9 万个,还在 Hugging Face 开源榜单上霸榜全球前 10 名。正式版的 QwQ-Max 开源发布之后,也许会给全球的开发者带来更多的惊喜。

相关内容 查看全部