*本文为《半月谈》2025年第4期内容
以小来博大,进行逆袭并吊打,这在过去曾是修仙爽文和微短剧里那种能让人着迷但又略显荒诞的剧情。如今,DeepSeek(深度求索)让这样的情况在真实世界里得以发生。
DeepSeek 掀起的风暴火爆全球已超过一个月且仍在持续,随之而来的有一波三折的戏码,包括同行的围剿以及跨界的争议等,就如同影视作品中每一位“爽文大女主”在升级打怪时所面对的关卡一样。
誉满天下,然而谤亦随之。DeepSeek 的“修炼”之路,究竟还要闯过几关呢?
“爽文大女主”出三招
悄悄推出了两款模型,这两款模型引发了硅谷的剧烈震荡,也引发了华尔街的剧烈震荡。OpenAI 接连推出竞争产品并免费开放搜索,谷歌一下子发布了“满血版全家桶”,国内的大厂的旗舰模型也开始免费开放。
万千普通用户有着“天上掉馅饼”之感,他们很想给 DeepSeek 送锦旗。同时,大家也想知道,究竟是用了什么招,能够凭借一己之力就把曾经高不可攀的全球最顶级大模型的价格打下来。
“乱”拳将老师傅打伤。在架构方面,在工程领域,从算法到部署,DeepSeek 深刻领悟了“四两拨千斤”这一中国武术古训,不去理会“参数规模决定论”,反而展现出了数据质量优化与算法架构创新所带来的乘数效应,在看似难以突破的壁垒中成功突围。
拆掉半壁卫城墙。通常情况下,大模型开发者若使用了英伟达的 GPU,就需要使用英伟达的运算平台 CUDA 来进行研发。因为 CUDA 已经对一些函数进行了封装,后来者在使用时只需直接调用接口进行加工即可,这种低门槛确实给资源有限的开发者带来了便利。然而,这也意味着在进行深度研发时,执行效率会有所折扣。
直接基于 GPU 的驱动函数开发而绕过 CUDA 行不行?DeepSeek 给出了肯定的答案。凭借独特的软件算法优化,拆掉了英伟达的“卫城墙”,即不必依赖其 CUDA 生态来行事,DeepSeek 走出了一条中国 AI 技术创新的新道路。
小力能够创造奇迹。自 OpenAI 的 GPT 发布后,微软、谷歌、meta 等科技巨头持续增加与人工智能相关的算力投入。“军备竞赛”般的投入,促使了美国 AI 芯片股价一路上升。
行业还被困在“算力军备竞赛”的思维定式中时,DeepSeek仅用 558 万美元的训练成本,就让 V3 模型达到了 GPT-4o 九成的功力。R1 模型更是通过纯强化学习突破了推理能力的边界,向世界证明,AI 大模型的革命并非一定要依靠算力堆砌出来。
是幻觉还是“真香”
DeepSeek 既不是炒作出来的“幻觉”,也不是厚积薄发而得的“真香”,它本身就是小而精、强且美的。
DeepSeek 在 AI 江湖中亮出名号之后,就不再满足于做追随者。这一点可以从它开发的一系列原创技术中得到证明,比如 MLA、GRPO、R1-Zero 等。对于门外汉来说,可能对着这些字母会感到如坠五里雾中。然而,这些技术合力所激发的“聚变”,很可能是 DeepSeek 获得 140 多个国家用户认可的根本原因。
北京白领小游说,DeepSeek 的回答不像 GPT 的回答那般枯燥乏味,它不像个只会按部就班安排任务步骤的书呆子,而更像是个鬼马精灵。只要你表明目的,它就能拆解和揣摩你的弦外之音,思考如何实现你所期望的。甚至你还可以问它一些自己都没有答案的大问题。
当然,DeepSeek仍处于蓬勃的成长阶段。拿最新的 DeepSeek-R1 来说,尽管它的突破令人振奋,但学术界在使用时仍会感到有些棘手。面对悠远文明时间里的复杂因果以及现代学术论述的复杂规范,DeepSeek 的回答仍存在不足之处。
而且,DeepSeek 目前还不擅长图像处理。在回应大规模用户需求时,也会出现“体力不支”的情况。这些困难表明,DeepSeek 的修炼,“高原期”刚刚开始。
如何学习文明的智慧
在技术革命的浪潮之中,不存在永恒的王者,只有持续不断的超越。就 AI 领域而言,大家普遍达成的共识是:充满了不确定性,一直保持着热度,然而也不乏过度反应的情况。
无休止的波动折射出的东西其实是科技进化的深层图像。人工智能就如同之前那些引发文明革命的重大科技进展一样,它的前进路线并非是笔直的线性轨迹,而是永恒的螺旋。
谁来驱动这螺旋呢?DeepSeek 参演的剧无论是爽剧还是正剧,角色与剧本背后的导演都是人类自己。
如果将 AI 比作普罗米修斯之火,那么人类文明就如同在自我颠覆的过程中奔腾不息且江声浩荡的赫拉克利特之河。我们最为珍贵的并非是能够回答和解决已存在问题的能力,而是具备发现新问题的智慧以及定义新问题的勇气,而这一切更需要创造性和想象力。
DeepSeek 式创新的下一次突破,其通关密码是在回向文明深处寻求思考变革的努力中生成的。用文明来赋能人工智能,那么人工智能的“飞升”时刻或许就会到来。
原标 题《DeepSeek的修炼之路》
半月谈记者:张漫子