根据Kuai Technology的新闻,2月15日,Tsinghua团队揭示了大规模计算能力的问题,这使Nvidia感到非常病。
根据国内媒体的报告,Tsinghua University和Trend Technology的KVCache.AI团队发布的Ktransformers开源项目已迎来了重大更新,成功地打破了大规模模型推理和计算能力的门槛。
此KtransFormers项目更新带来了一个重大突破,支持了671B全样版本的DeepSeek-R1和V3本地运行在24G视频内存(4090D)设备上。
KtransFormers项目的核心在于异质计算策略:稀疏利用:MOE架构一次仅激活某些专家模块,而团队将非共享的稀疏矩阵卸载到CPU内存,并与高速操作员处理,并压迫视频记忆足迹至24GB。
量化和操作员优化:使用4位量化技术和Marlin GPU操作员,效率提高了3.87倍; CPU侧通过Llamafile实现了多线程并行性,预处理速度高达286个令牌/s。
CUDA图加速度:减少CPU/GPU通信开销,单个解码仅需要一个完整的CUDA图调用,并且生成速度最多为14个令牌/s。
这有什么后果?传统解决方案:8卡A100服务器的成本超过100万,按需计费为每小时数千元。
现在,单卡RTX 4090解决方案:整个机器成本约为20,000元,功耗为80W,适用于中小型团队和个人开发人员。
NVIDIA RTX 4090运行DeepSeek-R1全血不仅是技术奇迹,而且是开源精神和硬件潜力组合的模型。它证明,在AI的匆忙时代,创新通常源于“不可能”的挑战。