外界估算GPT4的训练成本为6500万美元。这仅仅是使用GPU的费用。还不涵盖人工等方面的费用。
557万美元是DeepSeek-V3的训练成本。这只是GPU费用。在效果方面,它不仅能击败GPT4,还顺便超过了GPT4-Turbo和GPT4o这两个继任者。
50美元是AI教母李飞飞团队制作s1模型的成本。其成本很低。该模型性能很强。据说它的数学能力已能与DeepSeek-R1相媲美。
我查看了闲鱼。H100的租赁价格降至20块。按此价格。现在只需170人民币就能完成s1的微调。随着芯片更新。这个数字会越来越低。
被媒体误读,但是主流
50美元就能做出可与DeepSeek-R1相媲美的大模型。不是吧,现在大模型门槛这么低了?我少吃一顿烧烤,就能训练出一个能比肩DeepSeek的大模型?
这是再一次“AI炸裂体”的表演吗?还是说大模型的进化速度,已比特朗普加关税还要快?
当我认真看完这篇论文。这应是“AI炸裂体”的又一次胜利。实际上。50美元并非训练成本。而是基于阿里Qwen2.5 - 32B微调出s1的费用
具体是如何达成的呢?它们首先从58000个源自16个领域的问题里,精心挑选出1000个。接着将这1000个问题交给谷歌的Gemini Flash Thinking推理模型。随后把这些问题以及思考过程,当作微调数据,提供给Qwen。最终使得一个普通大模型,开启了推理技能树。针对“raspberry中有几个r”的问题 它经过多轮思考 给出了正确答案 (s1还有让模型强制思考的技术创新 这里因为篇幅 不做展开)
用通俗的话说,李飞飞的团队是把一道预制菜重新回锅调味,做出了味道堪比私房菜的菜品!说他们自己从零起步,花五毛钱,买点烂菜叶子,做出一道佳肴,确实是有点太过“震惊”与“炸裂”了。
蒸馏,主打一个省钱
蒸馏并非新鲜事物。大家所熟知的DeepSeek-R1发布时,官方团队准备了诸多自身蒸馏的模型。经过蒸馏的模型,效果有了大幅提升。
它们将Qwen系列用作基底模型。借助蒸馏的方法。使得具有320亿参数的小模型。达成远超OpenAI的o1 - mini的效果
这是什么概念呢?以你手中的4090显卡为例,它能够轻松运行DeepSeek蒸馏出的320亿量化模型。这意味着,4090不仅能助你以影视级效果通关黑神话,还能每月为你节省20美元的OpenAI会员费。
什么你手里没有4090?很好。让我们一起说出那句经典的台词。NvidiaxxxxYou。
对于行业内用户而言,蒸馏带来的益处远超这20美元。需明白,伴随模型参数渐增,其使用成本也不断攀升。
DeepSeek-R1的参数量为6710亿。运行它至少需要配备8张H100显卡的服务器。按现在市场价,成本大概在200万左右。但如果用蒸馏过的模型,如前面所说,4090就行。若追求回答精度和并发数,1张H100也足够应付,整体成本不会超过20万。
比如我有创业想法,想创办一个戒色网站。这需要一个聊天机器人,它能回答戒色网友的各种疑问,还能提出可执行方案。要是用6710亿参数的版本,一次回答可能耗费2块钱。而用蒸馏过后的模型,一次回答只需2毛钱。成本差距就是这么大。
创办戒色网站还有一个问题。我需要大模型给出的回答有自身特色。
通常情形下 这需要大量人工清洗数据 接着对模型进行微调 如此一个流程完成 会产生一笔不小的花费
调整模型是目前的主旋律
能够看到,在AI大模型迅猛发展3年后,蒸馏与微调已替代参数,成为了当前的主要需求
打造一款如DeepSeek这般的模型颇具难度。而调整模型同样绝非易事。这不仅需要具备一个专门负责数据清洗、整理的团队。还得拥有专门的模型工程师团队。如此一来。入门的门槛便已然很高。
就在刚刚结束的Create大会上,百度智能云千帆模型开发平台全新升级。在模型服务层面,千帆平台上现有超过100个模型。在模型开发层面,千帆平台能提供全面的模型开发工具链,支持深度思考模型定制,支持多模态模型定制,还支持模型蒸馏。
这是什么概念呢?首先,在千帆上,除了自身的文心系列,市面上所有可用模型基本都能看到。国内的有DeepSeek、Qwen系列,国外的有Llama。在模态方面,包含了文本、图像、视频、语音。比如在这里,能看到可灵、Vidu这样的视频SOTA模型。并且它们承诺,只要有新模型出现,会在24小时内上线。
其次 若你想对模型做些调整 在这儿点点鼠标 就能完成全链路工作 比如之前提到的蒸馏 微调 以往或许得靠一个工程师团队才能完成 但借助智能云千帆模型开发平台 所有操作都是开箱即用
当前有不少企业在智能云平台开展模型开发,像智联招聘便是其中之一。招聘向来是AI得以落地的优质场景。旗舰模型参数规模大,调用所需成本高,而且推理速度难以提升。
于是它们借助智能云模型开发平台的一键蒸馏功能。以DeepSeek-R1作为教师模型。将参数更少的ERNIE Speed当作学生模型。利用教师模型生成几千个招聘相关问题来进行蒸馏。最终得到一个性能可与DeepSeek-R1媲美的小模型。
成本降低了三分之一。模型回答的速度提高了。模型回答的并发数量增加了。利用蒸馏降低成本,是AI时代创业极为重要的一个环节。
如何打造专业模型
除了通过蒸馏降低成本外。怎样依据企业自身的数据。打造出专业的模型。实现需求方面的对齐。
以招聘行业为例 每家公司对于业务都有自身的理解 而且这部分内容通常不会公开 基于公开数据训练的大模型 肯定无法满足公司的个性化需求
这个时候 需要对模型进行人工微调 以前判断回答质量都靠人工 现在利用智能云平台上基于强化学习的微调 即RFT 人工这部分由裁判模型取代 实现了全流程自动化
这样一来,不仅效率高了,模型的泛化也有很大的提升。
实际上 除了文本模型 图像模型也是模型开发的热门 声音模型同样是热门 比如说我想做自己的游戏 怎样利用Stable Diffusion打造出具有自己画风的美术资产 这是模型开发中的环节 做人工智能客服 如何克隆出不同的声音 这也是模型开发中的环节
有了百度智能云千帆的模型开发平台。它囊括了上述所有过程。还覆盖了模型开发的全周期。想要什么模型。登录智能云。就能自己打造。
AI时代创业,需要给模型开发
AI爆发已进入第三年。模型的回答愈发可用。DeepSeek - R1无论何事都能问。可灵让史密斯吃面不再鬼畜。这都表明模型产出的内容已追平甚至超越人类。
这点在IDC的报告中也有体现。2023年,训练与推理的算力比例为6比4。到了2027年,该比例会变成3比7。随着模型成熟,更多算力用于模型开发及推理。但究竟怎样合理开发并提高效率,是当前模型行业存在的问题。针对这个问题 中国信通院与百度智能云展开合作 于今年上半年开启了大平台落地实践报告的研究工作
据中国信息通信研究院人工智能研究所平台与工程化部主任曹峰在Create大会“如何训练专精模型”分论坛上介绍,大模型平台落地实践报告已正式撰写完成。该报告围绕大模型建设、使用、管理三步落地路线进行了梳理,很快将通过公众号与大家见面,感兴趣的小伙伴可留意。
今年 行业内研究方向转变 从研发更强模型 转为如何更有效利用模型 可见 行业内最大痛点已转移至模型开发 此次Create大会上 百度智能云千帆模型开发平台 针对该行业痛点 提出出色解决方案
它的出现,有力地推动创意迅速实现,降低了难度。特别是在今年智能体蓬勃发展之时,之前走红的Manus,据说每个任务需耗费2美元算力,若按1万个用户计算,每个用户每天执行3个任务,那么Manus团队每天支出的成本为6万美元。
要是它们如同智联招聘那般。借助模型开发平台。提炼出更适配不同子任务的模型。那么节省下来的成本。会十分可观。
在AI时代 创意与创业的界限持续模糊 创业的起点 正从那种 “需要敲开红杉资本大门” 的焦虑 演变成 “蹲厕所刷手机时突然灵光一现” 的戏剧性转折
此次百度智能云模型开发平台进行升级。这意味着为AI创业增添了更多助力。毕竟当前就连模型调优都已步入预制菜时代。