软件行业资讯

百度文心4.5和X1模型发布：多模态与推理能力全面升级

 作者：软荐小编  2025-03-18 16:01:17  196

百度的文心一言刚刚被应用于他们的最新模型文心 4.5 和推理模型 X1 。

早上 10 点多起床后看到了新闻，感觉有点懵。这是在大周末的时候，事情显得挺突然的。

3 月 16 日被扒拉了 23 年，后来才发现，那一天是文心一言的正式发布。

原来文心一言都发布两年了啊。

两年时间，弹指一挥间。

文心 4.5 是一个原生多模态模型，类似于 GPT4o，它能够理解音频、视频和图片。然而，它仅仅具备理解的能力，却没有输出的能力。而文心 X1 是一个正常的推理模型。

按照惯例，先看一下官方给的参数数据。

基准测试成绩的平均分比较高。在大家较为看重的编程方面，所使用的测试基准为 Humaneval+、MBPP+、LiveCodeBench。未见到诸如 Claude 他们所使用的 SWE-bench Verified 基准，不清楚真实的跑分情况会如何。

而X1，没有跑分对比，只放出了价格。

价格说实话，文心确实有不错的亮点。

GPT4.5 发布之际，我进行了一番吐槽。它的输入规模是 DeepSeek v3 的 280 倍，输出规模是 150 倍。

真的，现在想起来我还是觉得很离谱。

文心大模型在这方面给我带来了很大的惊喜。文心 4.5 的输入价格是每千 tokens0.004 元，输出价格是每千 tokens0.016 元，大约是 GPT4.5 价格的 1%。

同样是4.5，OpenAI你看看人家。。

推理模型 X1 这方面，价格只是 DeepSeek R1 的一半。其输入的价格是 0.002 元/千 tokens，输出的价格是 0.008 元/千 tokens。

它比 DeepSeek 要便宜。我不吹嘘也不抹黑，它确实有一定的优势。确实很厉害，很牛。

目前这两个模型，已经上线他们官网了。

我测了一整个早上，现在来说说我的实测结论：它是挺全面的，各种东西都具备，也很综合。

大家可以先试试看，自己有一个大概的感知，再回来继续读。

接下来，我们一个一个说。

文心4.5。

解析图片、视频啥的都支持，还能直接绘图。

图片理解能力还不错，测了梗图理解，基本都能get到意思。

但是一些藏起来的梗，还是比较难识别。

感觉AI还是不能理解人类牛马的生活。。

在写作能力方面，比较擅长写一些比较硬的模板，写一些套路化的东西还是可以的。然而，若要写故事，坦率地说，还需要进一步加以精炼。

视频解析较为基础，我们能够理解它的内容。然而，它却无法进行像电影拉片那样的操作。

图生图，准倒是挺准的。

像不像的另说，反正挺帅的。

玩了半天，脑筋急转弯测下来算是个强项。

比如之前在我群里这个流传的脑筋急转弯。

文心4.5居然答对了。

再问一下 Claude3.7+extended 相同的问题，因为 3.7 没答对，我又添加了一个推理。

7？？思考了一分多钟的废物。。

再来说说这个百度第一次推出的推理模型X1。

打开【联网搜索+调用工具】后也能调用图片理解和上传文件。

但是交互方面非常怪异。如果你没有开启联网，那么你就无法看到上传附件的入口。

先打开联网搜索，这时候调用工具亮起，成为非置灰状态。

再打开调用工具，才能看到上传文档和图片。

说实话，我干 UX 设计快 10 年了。这个交互真的让我有些摸不着头脑。

在推理能力上，效果还行。

比如一个经典的问题：

有一天，一个女孩参加数学考试，结果只得了 38 分。她心里非常害怕父亲的惩罚，就偷偷地把分数改成了 88 分。她的父亲看到试卷后，非常生气，狠狠地给了她一耳光，并且怒吼道：“你看你的 8，怎么一半是绿的，一半是红的，你以为我是傻子吗？”女孩被打后，委屈地哭了起来，一句话也没说。过了一会儿，父亲想到了一件事。他抱住孩子，然后痛哭起来。父亲想到了什么事呢？

虽然文心X1内心戏有点多，但是最后答对了。

而X1的文笔，也有一些自己独有的感觉了。

有一说一，这个故事，还真的挺好看的。

我传了一张图上去，想在图片理解方面试试。我原本想让他推断出我的年龄。

结果给我认成韩国演员了，好好好。

我还专门去搜了一下，长这样。

和我像吗？和之前 4.5 生成的有一点像呢，而且还连上了呀。

DeepSeek 之前表现得较为圆滑，情商也较高，所以不少人都说“不愧是中国的 AI”，我也对 X1 进行了测试。

比如说，我问我和大聪明哪个写文章更有深度。

第一遍回答的是大聪明。

但是我一说，我是数字生命卡兹克。

他就选我了哈哈哈哈，不愧是made in China。

昨天发生了一件让我很气愤的事。315 打假行动直接使得一堆卫生巾消失了。

我一个男生都看不下去了，赶紧给身边的女生们避避雷。

当然，文心一言总体能力并没有超出太多预期。

在处理超前沿专业问题时，其深度方面有所欠缺；回答问题时的灵活度还需要提升；在回答中仍会出现模板化且过于像 AI 的情况。

我不理解，今天发布却要等 3 个月之后才开源。我也不理解，为什么不能像 Qwen 和智谱、混元那样，发布的时候就开源。

一声叹息。

此次升级，文心一言在努力拉近与之前落下距离的差距。

回顾一下文心一言的发展历程，其实挺有戏剧性的。

2023 年 3 月，在那个荒远的时代。众人都被 GPT4 给弄懵了。文心一言正式上线了，它成为了国内首个大规模推出的通用大模型产品，并且被大家视为全村的希望。

文心一言的出现让我们有了“中国也有大模型”的信心。只要你愿意去排队，就能够率先体验这个被称作“国产 GPT”的产品。

然而，好景并未持续太久。随着越来越多的玩家进入，文心一言开始逐步展现出在能力方面的限制。

其次是产品定位的不稳定。它一会儿着重于搜索增强，一会儿又将方向转向创意创作，文心一言仿佛一直在探寻自身的独特价值，然而却使得核心竞争力变得模糊不清。

当然，这是大部分模型公司共同的痛点。

核心在于过早开始收费，这使得不少用户选择了观望，或者转投其他平台。

直到 DeepSeek 有了出圈的这一波表现，大家才意识到，原来模型就是产品。

这次文心一言 X 发布了，从早上的体验来看，在追赶的路上有了一些进展；这次文心 4.5 也发布了，从早上的体验来看，在追赶的路上也有了一些进展。

就像是文心X1对自己的评价，再合适不过了。

国内大模型的发展回到了正轨。DeepSeek 开始崛起，豆包和 Kimi 等产品在不断地进行迭代，文心一言这次也突然发起了追击，国内大模型圈正呈现出一种良性竞争的态势。

当然，前路仍漫漫。

国产大模型与全球顶尖大模型相比，在技术深度方面存在差距，在思维广度方面也存在差距。不过，这种差距正在逐渐缩小，并且缩小的速度超出了我们的想象。

希望吧。

下一篇： SK海力士独家供应英伟达Blackwell Ultra架构芯片，HBM3E技术领先三星美光
上一篇： 广东制造业用工荒与高校毕业生就业难：AI如何颠覆劳动力市场结构

软件行业资讯

百度文心4.5和X1模型发布：多模态与推理能力全面升级

相关内容查看全部 

强化学习之父Rich

百镜大战再升级：

医保控费下的创新

上汽大众2025款帕

特斯拉Cybercab自

OpenAI曾考虑收购

OpenAI强化ChatGP

智谱开源模型2025

清华大学研制出世

英特尔新任CEO陈

百度文心4.5和X1模型发布：多模态与推理能力全面升级

相关内容 查看全部 

相关内容查看全部 