发布信息

DeepSeek被指使用OpenAI专有模型训练开源模型 引美国科技股崩盘

作者:软荐小编      2025-01-30 16:02:57     148

中国人工智能初创公司DeepSeek在过去一周中已成为硅谷之间的热门讨论,并引发了本周一的美国技术股票的“崩溃”。

1月29日,Openai说,它发现证据表明,中国人工智能初创公司DeepSeek使用其专有模型来训练自己的开源模型,并暗示这可能违反了Openai的服务条款。但是Openai没有进一步的入学人数。 OpenAI的服务条款规定,用户不能“复制”任何服务或“使用其输出来开发与OpenAI竞争的模型”。

蒸馏技术原理__蒸馏装置原理视频

“共同技术”引起了争议

与meta的Llama开源模型不同,OpenAI模型系统已关闭,但是单个用户仍然可以为其编程接口(API)付费以获取数据。截至发稿时,DeepSeek尚未做出回应。

此前,美国政府声称它正在组织专家,以紧急评估DeepSeek的技术和影响。白宫AI和加密货币事务负责人戴维·萨克斯(David Sacks)表示,在接下来的几个月中,美国领先的人工智能公司将采取措施试图阻止其他公司获得“蒸馏技术”。

DeepSeek模型获得的技术突破引起了美国总统特朗普的关注。特朗普周一表示,中国人工智能申请Deepsek应该成为美国公司的“激励因素”。他说:“如果中国工业能够开发更便宜的人工智能技术,美国公司将效仿。您不必花这个数字。这是10亿美元,但花费更少的钱,希望找到相同的解决方案。 “

数据蒸馏是行业中常见的技术方法。它指的是通过一系列算法和策略来获取更多精致和有用的数据的原始和复杂数据的操作。数据蒸馏的目的是将复杂模型的知识改进到一个简单的模型中。

根据DeepSeek-V3的技术文档,该模型由数据蒸馏技术生成的高质量数据提高了培训效率。现有的高质量模型合成了少量的高质量数据,新模型的训练数据用于实现接近原始数据的训练的效果。

“以前的大型模型培训等同于使用标题的策略,并使用大量数据进行训练。蒸馏相当于让作为老师作为老师的海上策略标题的出色大型模型,他是老师作为一个新的模型。

但是,一些学者以前认为蒸馏技术有一个“隐藏的天花板”。尽管它可以提高模型训练效率,但它开发的模型无法超过基本模型。当考虑到将能力扩展到新领域或从过去响应过去的能力时,从过去开始,当您看到不挑战时,这个限制已成为一个问题。而且该技术在多模式数据中没有良好的效果。

DeepSeek模型在某种程度上打破了行业的共同概念。它的大型模型的水平已经可以与原始基本模型进行比较。这是引发美国关注的基本原因之一。 1月28日清晨,DeepSeek发布了最新的视觉模型Janus-Pro,该模型在多模式理解和Wensheng的说明中得到了显着改善。本质

英国伦敦大学的名誉教授兼计算机科学家彼得·本·本利(Peter Ben Benli)在接受采访时说:“蒸馏技术将对某些小型机构的研究进度产生重大影响,例如一些巨大的研发预算,例如OpenAi或Google。

“蒸馏模型”如何超过原始?

美国科学技术巨头AI相关项目开发人员告诉第一名财务记者:“我认为像Llama这样的开源模型没有任何问题,尤其是像DeepSeek一样,它在蒸馏后采用开源模型。可以加快大型模型的迭代。

他还说,世界上许多AI初创公司还使用各种大型蒸馏融合技术来形成SO所谓的“ Multi -Expert模型”(MOE)。这样的蒸馏模型可能会在性能方面超过原始模型,因为它具有更强的概括能力,获得的信息更丰富,并且最终性能得到了改善。

“这就像您有一个有本科生,研究生,博士生,行业的初级工程师和高级工程师的团队。当您遇到问题时,您可以为不同的专家分配不同的困难。有效的方式。

根据上述人的说法,关键的核心问题不是DeepSeek蒸馏其他大型模型,而是为什么它也基于蒸馏开源模型。 DeepSeek可以脱颖而出。有了如此低的成本价格,就可以实现如此高的性能,并且可以实现如此高的性能,并且可以达到如此高的性能,如此高的性能,如此高的性能和如此高的性能以及如此高的高性能性能,如此高的性能,如此高的性能以及如此高的高性能,可以实现如此高性能,并且可以实现如此高性能,并且可以达到高性能,并且可以实现如此高的性能。在投资这些资源后,并非所有公司都可以实现。

他认为,DeepSeek完美地平衡了多型专家模型,训练时间,预训练,培训和其他任务,以便输入和输出可以达到最有效的价值。 “当你如此出色以至于威胁别人时,总会有一些诉讼要去。”他说。

但是,一些AI研究人员指出,过度依赖蒸馏技术的“快捷方式”会导致研发人员放弃对基本模型的探索,以便快速取得结果。上海jiotong大学副教授刘·彭菲(Liu Pengfei)在一份学术报告中提到:“蒸馏技术为改善数学推理的重要表现提供了诱人的快捷方式。它涵盖了一系列深刻的挑战,无法提出基本解决方案。”

相关内容 查看全部