图片系AI生成
人工智能的战场正在发生转变,从“云端算力垄断”的状态转向“终端智能觉醒”。这是一场普遍的竞争,在这场竞争中,更多的人能够参与进来,也存在着更多的变数。
过去几个月,大模型行业的认知迅速得到更新。在 DeepSeek 出现之前,终端设备因为受到功耗、散热以及存储空间的限制,只能运行轻量化的模型,并且这些模型的效果和体验都不太好。当 DeepSeek 利用“小参数大智能”的技术路径,把百亿级的模型压缩进终端芯片后,整个行业开始察觉到,端侧 AI 的底层逻辑已经发生了本质的变化。
资本市场上相关概念股的业绩表现和走势能让我们看出一些情况。端侧 AI 概念的龙头移远通信和美格智能,它们的业绩表现很突出。广和通的市场关注度也在同步上升。其中,移远通信预计在 2025 年一季度的归母净利润为 2 亿元,与去年同期相比增长了 265.19%。这主要是因为物联网需求恢复了,并且车载、AIoT 场景得到了拓展,边缘计算模组以及大模型技术正在加快落地。广和通虽然没有明确公布一季度的净利润情况,但是它的股价区间涨幅达到了 25.11%。这表明市场对广和通的 5G 模组以及车载业务的前景持有乐观的预期。
从云端算力方面来看,头部大模型厂商的门槛是拥有万卡集群。并且,十万卡集群也在他们的规划之中。大模型逐渐开始趋向于集中。然而,这部分头部厂商的预训练需求不但不会缩减,反而会有所增加。与此同时,有更多的 AI 公司正在进行后训练方面的布局,也在进行推理算力的布局。产业逐渐形成了一种共识,那就是未来的 AI 算力,尤其是推理算力,将会出现千倍的增长。同时,网络带宽将会出现百倍的增长,存储需求也将会出现千倍的增长。
2025 年有可能是端侧 AI 的爆发元年。在这一年,算力行业正在加快对推理算力的竞争追逐。
DeepSeek效应,大模型重心转向推理
爱簿智能 CEO 孙玉昆称,端侧 AI 正处于一个极为良好的时代。他还认为,大模型的开源为端侧和边缘 AI 的发展带来了极为重大的发展机遇。从端侧芯片的发展方面来看,算力有创新且得到提升,内存带宽也有创新且得到提升。从模型能力方面来看,适合端侧运行的模型能力进步非常快。端侧智能会越来越优秀。从 AI 普及水平方面来看,越来越多的人正在利用端侧和边缘来部署大模型的推理,个性化需求在不断增多,并且这些需求在端侧更容易被满足。
DeepSeek 的模型进行迭代,像从 V1 到 V3 这样,依然遵循着 Scaling Law。它通过增加参数的规模,比如从千亿级别增加到万亿级别,并且提升训练数据量来提高性能。在早期 AI 的发展过程中,这种路径是普遍存在的,就像 GPT 系列模型那样,其参数呈现出爆炸式的增长。但模型规模接近物理极限,比如算力方面以及数据获取存在瓶颈时,单纯依靠参数扩张,其边际收益会逐渐减少。技术的重心开始逐渐转向推理优化和多模态应用。其中典型的代表就是 DeepSeek-R1,它通过模型蒸馏来降低推理成本。
DeepSeek 推出的 NSA(NativeSparseAttention)机制,它优化了稀疏注意力机制并且提升了硬件适配能力,从而显著提高了长上下文任务的训练和推理速度。在能保持与完全注意力模型相当性能的情况下,NSA 减少了预训练成本,并且在指令推理任务中表现更为出色。这一技术进展为复杂任务在端侧的部署提供了可能。
阿里云智能集团的资深副总裁以及公共云事业部的总裁刘伟光表明,阿里云开发新模型最为重要的两个方向分别是在 Reasoning 方面以及在全模态融合方面。大模型在推理方面,未来必定会朝着推理能力越来越强的方向发展。强化学习会持续提升思维链的能力,同时模型内生的任务规划能力和工具使用能力也在不断增强,如此一来,大模型会变得越来越智慧,能够不断思考更难、更高的问题,完成更复杂的任务,这是一个重要的发展方向。
特别要强调强化学习。在 2025 年,我们发现了一个新的重要趋势。许多客户都在借助更为强大的基础大模型来进行基于强化学习的后训练。同时,强化学习的后训练能够反过来为推理提供重要的能力补充。我相信未来会有更多的客户基于强化学习进行后训练。基于更强大的基础模型,将会开发出更新的、更有价值的 AI 原生应用以及 AI Agent。
中科曙光向钛媒体 App 表示,DeepSeek 正在引发算力产业的链式反应。它大大激发了模型后训练以及推理环节的算力需求,促使 AI 算力结构加快改变。同时,它还有助于打破市场对高算力 GPU 的路径依赖,给国产 GPU 加速卡带来了重大机遇。
面向云端智算中心时,针对 GPU 加速卡进行软硬件协同设计优化,实现芯片 - 算法 - 模型深度耦合,这已成为 AI 基础设施的重要创新方向;面向端侧的大模型一体机时,同样针对 GPU 加速卡进行软硬件协同设计优化,实现芯片 - 算法 - 模型深度耦合,这也已成为 AI 基础设施的重要创新方向。
今年已成为 AI 大模型商业应用的元年。京华信息科技股份有限公司的副总裁李思伟持有这样的观点,即去年我们处于纠结的状态,在行业中存在着一个“不可能三角”。我们若要利用大模型更好的智能,就需花费较大成本来进行部署和训练。然而,央国企等客户首要考虑的是安全问题,要保证安全就必须进行私有化部署,而私有化部署的成本又难以承受,部署小参数的模型又稍显鸡肋。在前两年为客户所做的 AI 项目中,都会碰到这样的问题,许多项目也因此被拖延至今。
DeepSeek 在 B 端或 G 端落地受政府和企业欢迎,原因是解决了“不可能三角”的问题。然而,DeepSeek 的应用存在诸多门槛,像安全问题以及国产化技术路线等,这些并非通过简单部署就能一次性解决。目前,很多一体机发展态势良好,但一体机通常只能服务于一个应用或一个业务。
端侧AI,越接近上层应用问题越多
基础设施稳定且高效,这是端侧 AI 生态能够生长的基础。大模型尚处于产业发展的早期阶段,技术的演进呈现出上下相互影响且交替迭代的态势。AI 应用的爆发,对模型性能、模型之下的基础设施以及 AI 应用开发工具,都提出了极高的要求,并且这三者均处于高速演进的过程之中。
2025 年 2 月,以中科曙光为例。中科曙光推出了 DeepAI 深算智能引擎方案。该方案集成了 GPU 开发工具套件、AI 基础软件栈和大模型应用开发平台。其目的是让国产 AI 算力更适用且更好用。同时,能够赋能从十亿级模型端侧推理到千亿级模型云端训练的全场景需求。
DeepAI 深算智能引擎全面兼容 CUDA 和 Rcom 双栈生态,它支持 2000 多类算子,对标 CUDA 的算子覆盖度超过了 99%。同时,通过手动算子优化、编译优化以及汇编指令级优化等方式,国产 GPU 单卡的训推性能能够提升 1 倍以上。
刘伟光称,全世界的大语言模型大概是以每两周作为一个时间阶段而不断演进的。基础模型始终是整个 AI 应用生态当中最为核心的引擎。它能够提供深度的推理能力,还具备多模态的理解和交互能力,以此来支持多样化且高质量的服务。并且可以基于不同类型和尺寸的模型,去满足复杂、轻型以及更多探索型的需求。
很多客户在探索 AI 应用时发现,大语言模型的基础设施能力,尤其是推理服务能力,对保障 AI 应用服务的顺畅、平滑、稳定、高效运行很重要。云计算正在逐渐为 AI 所改变,能让所有 AI 训练、推理、应用在云基础设施上更稳定、平滑、高效地运行。
他表示,当模型能力足够强大,AI 应用即将出现之时,更多客户需要能基于模型进行 AI 应用开发的更完整、更完备的工具链。AI 开发工具是连接大语言模型与真实应用的重要桥梁,客户需要功能齐全、生态丰富且能灵活部署的工具,以加速应用开发。
中科曙光 DeepAI 深算智能引擎内置了 DAP 企业级全栈 AI 应用开发平台。它能提供多模型开放纳管的功能,还能提供高性能推理服务。同时,它具备知识融合增强的功能,能实现智能体可视化编排,也能提供智能数据分析等功能。企业客户在国产 AI 算力底座上,可以一站式跑通 DeepSeek、阿里 QwQ 等大模型应用。
孙玉昆觉得,面向 AI 的开发者遭遇着两大关键挑战。其一,算力存在不足且成本较高,优秀的模型或许需要万卡乃至更大规模的集群,当下海外的算力状况不佳,国内的算力生态仍在一同培育。其二,开发工具链的支持不够,开发环境的配置较为复杂,端侧与云端的环境不统一,难以契合大模型、智能体等应用快速迭代的需求。
他补充说,部署开发环境的流程较为繁琐。许多初学者在进行人工智能开发的第一关就被难住了。大模型是基于 Linux 这一开源且稳定的系统服务器训练出来的,并且很多人工智能的开发框架也是基于 Linux 开发的。在实际开发中,开发者首先需要完成跨平台开发,通常要在其他操作系统上通过虚拟化方式来运行 Linux。在这个过程中,会面临诸多问题,像安装配置复杂,存在兼容性问题,以及工具链和依赖库的版本存在差异等。这些由工具不好所导致的问题,不但增加了开发的复杂性,还让开发者耗费了很多不必要的精力。
此外,开发者即便辛苦地配置好了环境,然而其性能与原生 Linux 相比存在差异。这种差异不仅体现在 CPU 计算性能方面,GPU 的模型训练也会有一定损失。使用 Windows 电脑进行小模型训练时,性能不达标;而使用原生 Linux 系统,能够实现更高的性能水平。因此,从事人工智能开发必须掌握 Linux。
爱簿智能推出了自己的 AIBOOK 算力本。此产品的核心是 50TOPS 端侧算力。它有意将 AI 算力本与市场已有的 AI PC 区分开来。
孙玉昆认为,AI 算力与 AIPC 不同。AI 算力是以原生 Linux 开发环境为基础的端侧 AI 开发工具。它与市面主流 AIPC 的主要差异在于:拥有基于 Linux 内核的 AI 原生操作系统,预装了各种实用 AI 应用,还预置了编程开发环境和工具,可实现 AI 的“开箱即用”。并且它具备“端云一体”的 AI 算力,端侧指的是 AIBOOK 本地计算,云侧是摩尔线程夸娥云计算,端云一体的组合能够覆盖从大模型部署到应用、微调及训练的整个 AI 开发场景。
云还是端,没有绝对的好与坏
算力的位置在云还是在端,是由客户的业务需求所决定的。与过去端侧推理存在限制相比,当下大量高质量小模型纷纷涌现,这使得推理工作负载再次得到关注。云端算力和终端算力的生态将会长期不断地演进,它们之间并不相互矛盾,更多的是在大模型产业中扮演着不同的角色。并且,有不少厂商也正在对端云一体进行布局。
杰文斯悖论向我们表明,技术效率的提升会对需求扩张起到刺激作用。比如,DeepSeek运用 FP8 混合精度训练以及动态稀疏算法等技术,使得单次训练成本降低了 53%,降低到 557.6 万美元。而头部企业由于成本降低,便增加了并行实验的次数,从年均 3 次提升到了 28 次。这样一来,反而促使了全球算力芯片采购量的上升。类似现象在能源领域有过呈现,就像蒸汽机效率提升后煤炭消耗急剧增加那样。在 AI 领域,推理成本的降低会促使应用场景得以更广泛地推广,比如在金融、医疗、智能制造等领域,最终会使得算力的总需求呈现增长的态势。
黄仁勋在英伟达 GTC2025 上作出表示:GPT 属于靠预测下一个 tokens 且大概率会产生幻觉的生成式 AI。如今已经步入 Deep Research、Manus 这类 agentic AI 应用领域。上一个 token 会成为下一个 token 生成时的输入上下文,它是感知、规划、行动的逐步推理过程。因为每一层的计算都有所不同,所以所需的 tokens 会以百倍的速度增长。推理模型需要更多计算,原因是其更复杂。R1 的尺寸有 6800 亿个参数,它的下一代版本可能拥有数万亿个参数。Agentic AI 应用是无数次调用类似 DeepSeek - R1 进行推理的过程,所需的计算只会更多。
高通发布的白皮书提及,AI 推理功能在终端侧广泛普及,这赋予了打造丰富生成式 AI 应用和助手的能力。文档可进行摘要,AI 能进行图像生成与编辑,实时语言翻译也已成为常见功能。在影像方面,应用能够利用 AI 进行计算摄影、物体识别以及实时场景优化。
这之后迎来了多模态应用的发展。这类应用结合了多种数据类型,包括文本、视觉、音频和传感器输入。其目的是提供更丰富、更具情境感知能力且更加个性化的体验。高通 AI 引擎结合了定制 NPU、CPU 和 GPU 的能力,能够在终端侧优化此类任务。这样一来,AI 助手能够在不同沟通模式间切换,并且可以生成多模态输出。
智能体 AI 是下一代用户交互的核心。AI 系统具备预测用户需求的能力,还能在终端和应用内主动执行复杂工作流,进行决策和管理任务。一些能够实时处理 AI 任务的智能体,可以在终端侧安全运行,并且依靠个人知识图谱来准确定义用户的偏好和需求,无需依赖云端。
爱簿智能看好AI端侧的发展。孙玉昆提到,他认为不会颠覆云计算主导的 AI 开发范式。端云协同是未来的主流趋势,AI 计算正在经历从纯云端向“云 - 边 - 端”协同的范式转移。5G、边缘计算等技术使得分布式计算的延迟降低到了可接受的范围。端侧的 AI 芯片算力已经达到了 50TOPS 及以上,能够承担更复杂的任务。并且,模型压缩技术(如蒸馏、量化等)使得 7B 这类小参数模型在端侧能够达到接近云端 13B 模型的能力水平。
轻量化模型突破了端侧算力的瓶颈,并且结合端云一体架构实现了能力的弹性扩展,这种方式正在定义 AI 算力的新范式。在该架构之下,用户能够获得 AI 的“无缝体验”,日常场景可以由端侧快速响应,而复杂任务则能延伸至云端,端云二者协同工作从而升级智能体验。
刘伟光表示,AI 应用的构建方式呈现出多样化的特点。一方面,可以在公共云上进行开发部署;另一方面,阿里云也能够提供本地化服务。为了能更好地服务本地,特别满足部分政企客户的监管性要求,阿里云推出了百炼专署版,该版本支持一云多芯异构计算等客户需求。
他表示,算力资源以及组件调用,会直接对 AI 实际应用的效果产生影响。阿里云内部提出了全栈 AI,它既包含大模型,也包含云下技术架构层,其中涵盖底层的异构算力、模型服务平台、百炼平台等。同时,上面所有面向客户服务的部分以及技术架构层面的计算资源需求在不断增长,GPU 的需求增长速度比传统 CPU 的增长速度要快很多。遍布全球的 AI 计算集群将会成为未来新的必备需求,这些集群能够支持大规模的训练任务,并且还能同时满足实时的推理应用的需求。本文在钛媒体 APP 首发,作者是张帅,编辑是盖虹达。
关注钛媒体微信号(ID:taimeiti),就能获取更多精彩内容;或者下载钛媒体 App,也能获取更多精彩内容。