软件行业资讯

深度求索发布全新AI模型DeepSeek-V3，性能显着提升并同步开源

 作者：软荐小编  2024-12-28 10:03:34  297

12月26日晚，杭州DeepSeek人工智能基础技术研究有限公司（简称“DeepSeek”）宣布，新系列模型DeepSeek-V3首个版本上线并同步开源。 API服务已同步更新，接口配置无需更改。

公开资料显示，深搜由知名量化资产管理巨头欢放量化于2023年7月17日创立。还方量化创始人梁文峰在量化投资、高性能计算领域拥有深厚的背景和丰富的经验。

Deep Search显示，DeepSeek-V3在知识任务（MMLU、MMLU-Pro、GPQA、SimpleQA）方面的水平相比上一代DeepSeek-V2.5有显着提升，并且接近目前表现最好的模型Anthropic发布十月 Claude-3.5-Sonnet-1022。

在美国数学竞赛（AIME 2024，MATH）和全国高中数学联赛（CNMO 2024）中，DeepSeek-V3 显着超越了所有其他开源和闭源模型。此外，在生成速度方面，DeepSeek-V3的生成和铰接速度从20TPS（每秒事务数）大幅提升至60TPS。与V2.5机型相比，实现了3倍的提升，能够带来更流畅的使用体验。

△ DeepSeek-V3和其他模型的比较。图片来源：Deep Seek微信公众号

△ DeepSeek-V3与其他型号对比。图片来源：Deep Seek微信公众号

据澎湃新闻报道，meta AI研究科学家田元东对DeepSeek-V3在各个方向上取得的进展表示赞赏，称“这是一项了不起的工作”。

根据官方技术论文，DeepSeek-V3模型的总训练成本为557.6万美元，而GPT-4o等模型的训练成本约为1亿美元。深搜表示，“这是一个全新的开始。”

据财联社报道，OpenAI 联合创始人之一 Andrej Karpathy 也撰文赞扬：作为参考，要达到这种水平的能力，通常需要约 16000 个 GPU 的计算集群。不仅如此，业界正在部署的集群规模甚至达到了10万个GPU。例如，Llama 3 405B 消耗了 3080 万个 GPU 小时，而看似更强大的 DeepSeek-V3 仅使用了 280 万个 GPU 小时。

性能更强、速度更快的DeepSeek-V3上线。 Magic Square Quantification给出的定价是多少？

深搜表示，“我们的模型 API 服务定价也将调整为每百万输入代币 0.5 元（缓存命中）/2 元（缓存未命中），每百万输出代币 8 元。”据财联社报道，总成本为10元。

上一代模型Deepseek-V2.5的价格为：输入：0.14美元/百万Token，输出：0.28美元/百万Token，总成本为0.14+0.28=0.42美元，约3元人民币。

这里的token是一个大模型处理数据时的最小单位。一般来说，100万个代币相当于70万-100万个英文单词，或者接近100万个汉字。列夫·托尔斯泰的代表作《战争与和平》英文版约1200-1500页，58万个英文单词。翻译成中文大约有1-130万字，DeepSeek-V3可以完整阅读。写作仅需2元左右。

尽管价格上涨，但DeepSeek-V3与同类机型相比仍然非常具有性价比。例如，OpenAI的GPT 4o定价相当高。输入：5 美元/百万代币，输出：15 美元/百万代币。总费用为20美元，约合人民币140元。

本文结合 DeepSeek 微信公众号、澎湃新闻、财联社

（免责声明：本文内容仅供参考，不构成投资建议，投资者操作风险自担。）

量化大师高收益策略__量化大师策略好不好

海量信息、精准解读，尽在新浪财经APP

软件行业资讯

深度求索发布全新AI模型DeepSeek-V3，性能显着提升并同步开源

相关内容查看全部 

OpenAI最新o3和o4

韩国科学家研发新

特斯拉Cybercab自

妙鸭相机AI写真火

2025年大模型应用

360织语升级为360

松应科技融资历程

快手2024年财报：

AI终端智能觉醒：

OpenAI O3和o4-mi

深度求索发布全新AI模型DeepSeek-V3，性能显着提升并同步开源

相关内容 查看全部 

相关内容查看全部 