发布信息

彩云科技:手握月亮与六便士,AGI 之路的探索者与应用层的开拓者

作者:软荐小编      2024-11-16 16:02:49     125

大模型的效率腾飞,彩云科技做对了什么?__大模型的效率腾飞,彩云科技做对了什么?

对于绝大多数AI创业者来说,AGI的技术信仰就是月亮,能够通过商业化赚钱的应用就是六便士。然而,中国企业手中既握着月亮,又握着六便士。

彩云科技CEO袁兴元一直将AGI作为自己的毕生目标。大型模型被认为是通向AGI的道路,因此彩云科技决心为这条通向AGI的道路扫清道路。通过优化Transformer架构,有助于提高大型模型的效率。为此,它开发了新的通用模型架构DCFormer。

敢于啃最硬的骨头,让彩云科技与众多只敢停留在应用层的AI公司形成鲜明对比。

大模型的效率腾飞,彩云科技做对了什么?_大模型的效率腾飞,彩云科技做对了什么?_

这并不意味着彩云科技是一群孤独、不食人间烟火的极客。他们还打造了AI时代的热门应用,比如彩云小萌、彩云小易、彩云天气等。其中,2021年推出的彩云小萌1.0是全球领先的AIRPG平台。还发布了Dreaily海外版,吸引了60%的中国大陆用户、30%的欧美用户、10%的东南亚用户在平台上进行AI写作。 。

可以看到,彩云科技的AI商业化表现也非常不错,是国内为数不多的能够实现盈利的AI公司之一。

只追求月亮,就会饿死;如果只追求商业化,你的生活就会平庸。彩云科技如何找到AI理想与现实之间的平衡?

_大模型的效率腾飞,彩云科技做对了什么?_大模型的效率腾飞,彩云科技做对了什么?

AGI,即通用人工智能,被认为是人工智能领域的圣杯。大模型是目前AGI的唯一途径。 2023年,大模型技术将风靡全球,但技术进化才刚刚开始。比如大模型的核心技术突破Transformer架构,就有一系列问题需要解决。

要想赢得AGI的圣杯,AI行业首先要攻克Transformer架构的瓶颈:

1.效率瓶颈。大型模型需要在并行计算时频繁重写检查点,这会延长训练周期。增强Transformer架构的计算效率可以显着减少计算时间,提高大型模型的开发效率。

2.能源瓶颈。大型模型的参数规模正在走向万亿级以上,这将消耗大量的电力资源。据新闻报道,一个拥有十万亿或五十万亿参数的大型模型可以用完一个小城市的所有电力。为了降低功耗和能源负担,提高大型模型的计算效率,缩短计算时间,延迟刻不容缓。

3、普及瓶颈。盲目追求规模化大模型技术,会增加对算力、存储、传输、运维等各种资源的需求,带来高昂的实施成本和部署难度。人工智能的广泛应用和普及可以促进各行各业的智能化。因此,大型模型必须从追求“变大”转向“变聪明”,底层Transformer架构的优化势在必行。

_大模型的效率腾飞,彩云科技做对了什么?_大模型的效率腾飞,彩云科技做对了什么?

正如袁星元所说,“如果(计算)效率没有提高,人工智能就像镜子中的镜子。”

为了人类有一天能真正捧起AGI的月亮,彩云科技从一开始就瞄准了底层架构,主动承担优化Transformer架构的技术挑战,成为第一家取得骄人成绩的中国公司。该领域的成果。公司。

大模型的效率腾飞,彩云科技做对了什么?__大模型的效率腾飞,彩云科技做对了什么?

2024年5月,彩云科技全新大型模型论文《Improving Transformers with Dynamically Composable Multi-Head Attention》在arXiv平台发表,并成功收录顶级AI会议ICML2024。论文分数高达7分,远高于今年的平均分。同时,今年7月受邀上台演讲,成为9473篇论文中唯一一家获得口头论文的中国企业。另一家是华为。

_大模型的效率腾飞,彩云科技做对了什么?_大模型的效率腾飞,彩云科技做对了什么?

大家一定很好奇,论文中发表的DCFormer架构有何特别之处?

我们可以将大型模型训练视为一项大型且复杂的任务,需要许多工作人员(注意力头)使用自己的参数集和数据。

Transformer 的核心组件,多头注意力模块(MHA),将搜索和选择循环以及转换循环绑定在一起,并将它们赋予同一个注意力头。试想一下,当一个兼职人员既要专注于搜索,又要专注于转型时,他的注意力就会受到损害,完成的工作很可能会被其他人重复,从而降低整个组织的效率。

那么更合理的做法是什么呢?当然,我们只需要雇用更多的人并完成专门的任务。让不同的“注意力头”专注于不同的方面,一群专业的人可以灵活协作,所做的工作可以更有效率,质量更好。

因此,DCFormer框架就是通过“减少”注意力头来提高大型模型的效率。

彩云科技提出的动态组合多头注意力(DCMHA)去掉了MHA注意力头的搜索选择循环和变换循环的固定绑定,允许它们根据输入进行动态组合。这给 DCFormer 框架带来了一些变化:

1.提高灵活性。由于 DCMHA 允许根据输入动态组合不同的搜索和转换循环,因此使用 DCFormer 的模型可以更灵活地处理复杂的任务。

2、提高表达能力。 MHA的固定绑定导致模型无法充分捕捉输入数据的诸多不同特征,表达能力也受到影响。 DCMHA从根本上提高了模型的表达能力。

大模型的效率腾飞,彩云科技做对了什么?_大模型的效率腾飞,彩云科技做对了什么?_

3、提高效率。搜索和变换是固定绑定的,这会导致不同的注意力头学习相似的信息,造成功能冗余,不仅降低了计算效率,而且浪费了计算资源。在分拆动态组合多头注意力(DCMHA)之后,DCFormer框架相对于Transformer架构实现了1.7-2倍的提升,这也可以进一步降低模型成本。

综上所述,DCFormer框架改变了注意力头自下而上的组合方式。如果说突破Transformer计算瓶颈、加速AGI进程,这就是彩云科技的逐月征程。那么DCFormer框架就是彩云科技为梦想打造的一个阶梯,让大型模型在效率、性能、成本优化等方面实现飞跃。

沿着DCFormer的阶梯看去,似乎一个以大模型为核心的AI时代离我们真的不远了。

_大模型的效率腾飞,彩云科技做对了什么?_大模型的效率腾飞,彩云科技做对了什么?

为了避免这波大模型人工智能的浪潮走向泡沫,技术必须落地,形成商业闭环。赚六便士是AI获得长久活力的前提。

从技术到业务转型,彩云科技也敢为人先。目前,彩云科技的AI应用已经从DCFormer架构中获得一系列收益,有望实现商业起飞。

例如,现有能力的大幅升级。作为国内首个分钟级天气预报和街道级定位精度天气预报服务,彩云天气基于DCFormer带来的模型效率提升。未来有望将分钟级高精度预测时间从2小时扩大到3-12小时。 ,能力进一步提高。

大模型的效率腾飞,彩云科技做对了什么?__大模型的效率腾飞,彩云科技做对了什么?

另一个例子是新功能的扩展。彩云小萌是彩云科技旗下的AI RPG平台,采用全新的DCFormer架构。 V4和V5版本预计将扩展至2000-5000字创作。通过故事工程优化,目标是在一年内轻松创作出达到专业作家水平的故事。五万字的中篇小说,而小孟的角色扮演故事体验,也能达到专业编剧的水平。凭借出色的表现,彩云小萌在小说续写、AI陪伴等方面实现了用户使用时长的悬崖领先。

大模型的效率腾飞,彩云科技做对了什么?_大模型的效率腾飞,彩云科技做对了什么?_

不难看出,DCFormer架构为彩云科技AI产品化、AI商业化腾飞奠定了基础。这也证明,人工智能产品只有基于底层技术创新,才能避免同质化竞争,打造极具说服力的差异化产品体验,从而建立压倒性的市场优势。

大模型的效率腾飞,彩云科技做对了什么?__大模型的效率腾飞,彩云科技做对了什么?

自从大机型普及以来,国外做底层创新、国内做应用改进似乎已经成为一种套路。

中国AI企业不敢在底层投入大量精力进行创新,宁愿低着头捡六分钱。这并不是因为他们不愿意抬起头来追月亮,而是因为代际技术的实际差距、计算资源有限的实际情况以及商业回报的制约。和压力是真实的。

说到那些敢于去月月的AI企业,首先想到的就是国内科技巨头。很少有人知道彩云科技是国内最早做LLM(大语言模型)的公司之一,而且敢于追求AGI的梦想。向底层技术收费。

彩云科技可以说是国内AI公司能够在技术与商业之间找到平衡点的成功典范。

大模型的效率腾飞,彩云科技做对了什么?_大模型的效率腾飞,彩云科技做对了什么?_

彩云科技区别于主流AI公司的地方在于,它是一个罕见的“三学历男孩”:

有信心。作为一家规模较小的科技公司,彩云科技利用更高效的模型架构,在与全球顶尖人工智能公司的对抗中获得优势。如果没有AGI的技术信念,小公司想不到也不敢去优化Transformer架构。

具备将技术商业化的能力。 Transformer架构首先由Google提出,后被OpenAI采用。 ChatGPT已经成为本轮LLM的里程碑。这是由于聊天机器人聊天机器人功能的产品化程度较高,且更加贴近大众。这也是彩云科技的成功之所在。它不是简单地发表论文,而是尽快将DCFormer与产品结合起来,让技术尽快转化为产品。这种技术产品化能力可以快速将底层创新推向市场,形成良性循环。

这里有一个坡长、积雪厚的环境。创新需要长期、耐心的投入;产品化需要行业和用户之间深入的体验和感受。这就是巴菲特所说的“长坡厚雪”,需要足够强的盈利能力和长期的增长轨迹。这是很多AI初创企业所缺乏的,而彩云科技恰恰具备。十年来,彩云科技打造了多款成熟、商业化的人工智能产品,为长坡、厚雪的技术创新创造了良好的环境。

“三友少年”彩云科技找到了理想与现实的平衡点,正沿着DCFormer架构的阶梯飞向AGI月球。这条逐月的彩云之路,也让我们看到了一条清晰的AI产品化和商业化的成长路径。

_大模型的效率腾飞,彩云科技做对了什么?_大模型的效率腾飞,彩云科技做对了什么?

相关内容 查看全部