这场轰轰烈烈的大模型之战,是21世纪迄今为止最重要的技术竞争。
本次技术竞赛具有浓郁的21世纪特色:
1、及时披露信息。任何玩家的行为都会随时被全球玩家了解和追踪。一个球员的技术优势只能维持几天。
二是上下游联动程度高。仅仅发展一项独特的技能是不够的。你还必须找到上游和下游帮手,将这个独特的技能连接到用户端和上游基础设施端。如果某一维度没有足够的优势,就有可能被窃取。
在主流看来,这项竞赛已经开始两年了。我们有必要回顾一下这场比赛,看看它已经进入了哪个阶段,哪些选手还在追随和领先,甚至可以大胆猜测这场比赛最终会如何收场。谁是最后的胜利者。
01
三个阶段
首先,要把这次比赛分成阶段,这样我们才能有清晰的时间戳来梳理比赛流程。如果我们把这场比赛分成阶段,按照传统的方法,我们可以找到一个标志性的产品来进行粗略的判断,而目前最好的参考目标是:OpenAI旗下的ChatGPT。
它不仅是本次比赛的发起者,也是迄今为止最好的竞争对手。这也是其他玩家追赶和对齐的目标。我们使用OpenAI作为参考和分析对象。通过观察其技术和产品动态,我们可以将迄今为止的竞争大致分为三个阶段——但考虑到未来大机型最重要的是进入终端应用,我们也可以将这场竞争分为四个阶段。阶段。
第一阶段:参数比拼,先上牌桌
一个模型是否好用,没有数以亿计的参数是无法决定的。
新闻报道了 2023 年的大型模型、参数指标以及大规模多任务语言理解基准的得分。基本款上市的“见面礼”。 GPU已经成为大厂商争夺的目标。我记得曾经有一段时间,GPU倒卖比挖矿更流行。
这个阶段表面就是比较谁的模型参数多,谁的模型得分高,谁的模型效果好。幕后是算力的竞争,算力的背后是GPU的竞争。这一级别的比赛,创造了多少胜者和败者。
这一阶段的毕业生获奖者将基本形成自己的模式“调性”和专业方向。
通过对OpenAI的GPT模型的迭代回顾,我们发现这是一个需要逐步消除历史问题、提高准确性、智能性以及逐步添加更多模型能力的过程。
2019 年 2 月,GPT-2 发布。这只是一个无监督的 Transformer 语言模型。 GPT-2的完整版本只有15亿个参数。随后2020年6月发布了GPT-3,参数爆发式增长。到】1750亿,标志着自然语言处理技术的飞跃,为后续大型模型设置了进入壁垒。
随后在2022年11月,OpenAI发布了基于GPT-3的对话产品ChatGPT。同月,它发布了 GPT-3 的改进版本 GPT-3.5,具有接近自然人的语言生成能力。 ChatGPT的发布震惊了世界。
2023年3月,OpenAI发布了第四代语言模型GPT-4,该模型拥有1.8万亿个参数。媒体甚至报道称,一次培训费用高达6300万美元。从这个版本开始,ChatGPT 能够处理图像作为输入。然而,用户对ChatGPT的冗长和编造故事的抱怨不断升级。
2024年5月,OpenAI发布了GPT-4o,可以处理和生成文本、图像和音频。从这个版本开始,语音加入了大型模型的舞台。 GPT-4o 在大规模多任务语言理解基准测试中得分为 88.7%,高于 GPT-4 的 86.5%。用户对ChatGPT无稽之谈的抱怨已经大大减少。
2024 年 7 月,OpenAI 发布了 GPT-4omini,它是 GPT-4o 的缩小版。使用该版本可以大大降低应用成本,同时牺牲一些模型效果。其 API 每百万输入代币的成本为 0.15 美元,每百万输出代币的成本为 0.60 美元,而 GPT-4o 的成本分别为 5 美元和 15 美元。 OpenAI 已经在考虑将大型模型作为企业和开发人员产品功能的基本组成部分。
2024年9月,OpenAI发布了o1-preview和o1-mini模型,进一步提高模型的准确性。
2024年12月,GPT-o1的完整版本将发布。 o1可以根据不同的提示有不同的响应速度,对于复杂的问题会提供更智能的响应。我们亲自测试过的o1的答案显然更加符合逻辑,这意味着大模型错觉的问题得到了一定程度的解决。同时,o1在处理图像作为输入时的准确性得到了进一步的提高。在测试第一章中的模糊直方图图片时,o1不仅可以识别数字,还可以生成自己的直方图分析。
OpenAI所经历的阶段几乎成为了其他厂商模型改进的重要参考,而OpenAI的改进方向也成为了其他厂商努力的目标。
传统互联网巨头meta、微软、谷歌和亚马逊在AI模型的研究上并不晚于OpenAI,但后者取得突破最快。
meta不仅推出了自己的大型模型,而且将其开源。 12月9日,meta发布了Llama的最新成员:Llama3.370B,它以更低的成本拥有Llama3.1405B的性能。该模型优化了多语言支持,并将上下文长度扩展至128k。
除了开源模型之外,meta还推出了Andromeda,一个专为广告推荐而设计的广告检索引擎。通过利用最先进的深度神经网络,结合机器学习、系统和硬件协作,Andromeda 有效提高了广告检索阶段的效率,为 meta 广告系统提供了更加个性化的广告投放,提高了广告支出回报率。
谷歌在深度学习和人工智能的学术研究方面一直处于领先地位,但在大型语言模型方面却似乎一团糟。第一代Gemini给谷歌带来了更多的质疑。 12月12日,Google发布了Gemini 2.0 Flash,这是Google第一个实现原生多模态输入输出的模型。不仅在模型精度上较1.5pro实现了重大提升,而且还可以直接生成图像。
微软和亚马逊在自研大机型进度上落后,但通过曲线救国完成了大机型布局。微软是OpenAI最大的赞助商,并获得了OpenAI大型模型的独家授权。同时,微软Azure云也是OpenAI的服务提供商。微软的Microsoft365商业软件和CopilotAI已经推出了基于GPT模型的AI产品。 2024年第三季度,微软在财务展望中预计Azure云营收为24.5美元至250亿美元,同比增长35%至36%。 AI应用将贡献约13个百分点的收入。
亚马逊通过对 Anthropic 的多次投资进入了大型模型领域。截至目前,亚马逊的投资已达80亿美元。
Anthropic 的 Claude 对于亚马逊来说就像 ChatGPT 对于微软一样。 Anthropic已经成为亚马逊在这场与OpenAI和微软的竞争中的重要棋子。亚马逊是一家专注于InfoInfra的巨头。即使是在推广大模特业务上,亚马逊也是在推广全链条。在12月3日的“re:Invent”大会上,亚马逊发布了6款大型模型,并计划在2025年再发布2款大型模型,还推出了AI训练芯片Trainum3和AI服务器Trn2UltraServer。从模型训练到应用的布局几乎是一口气完成的。
虽然发布时间明显落后,但亚马逊对于大模型的应用却非常彻底。第三季度财报显示,亚马逊推出了面向购物者的生成式人工智能专家购物助手Rufus和面向B端商家的人工智能助手ProjectAmelia。
Anthropic的Claude在2024年第二季度迭代后,在变换和对话能力上将与GPT-4相当。 PreplexityAI是一款基于大模型的搜索产品,成立于2022年8月,颠覆了搜索引擎超链接的传统展示方式,通过AI摘要将关键词搜索结果直接展示给用户,无需逐一点击链接并自行判断。过程。 PreplexityAI 甚至在第四季度开始尝试通过人工智能结果页面上的广告获利。
马斯克旗下的xAI推出了开源大模型产品Grok和图像生成模型Aurora……
2023年到2024年这两年,不仅国外大模型突飞猛进,国内模型大战也十分热闹。一时间,几乎所有互联网公司都在开发大机型。
专注于大型模型的垂直创业公司有刘小龙、智浦AI、MiniMax、月之暗面、百川智能、零一物、步星等。还有老牌BAT、阿里巴巴的同易问答、百度的文心一言、腾讯的混元模式出品的产品。
由于丰富的业务和数据积累,BAT的大模型产品从一开始就俘获了用户。尤其是百度不仅早推出了该模式,还创造性地提出了“模型即服务”MAAS概念,几乎一度定义了国内市场。大型模型研发的范例。
互联网新贵字节和快手分别推出了豆宝和科灵模型。豆宝从后面追了上来。据最新披露,今年9月字节豆宝App日活跃用户达到760万,月活跃用户突破4000万,成为众多大机型C端产品中唯一一款。
与一般大模型不同,一些互联网公司根据自身业务特点,开发了针对性很强的大模型,如B站指数大模型、网易的自阅、360的奇缘等。各大厂商中,只有美团和拼多多没有明确的大模产品和策略。
其自身车型的功能描述就像是另一套网络俚语,其措辞堪比房地产公司的口号。总结起来,就是强大,强大,强大。
王小川曾断言,未来国内大车型市场第一梯队可能只有5家企业能够生存下来,大型厂商占据主导地位,小型初创企业很少能生存。如今,这个结论似乎正在一步步得到验证。缺乏有效的商业变现机制,持续投入模型训练的热情正在下降。这六家公司几乎没有一家实际上直接依赖大型模型功能来纠正成本。
总体来看,经过两年的准备和淘汰,目前仍然稳定在牌桌上的厂商都有着过硬的技术和产品。每个公司面临的最大问题是战略层面的变现,技术层面则是拓展模式边界、发展多模态。乐观地看,现阶段我们也看到了一个积极的信号,那就是大车型不再是赢家通吃的市场,没有人有能力垄断技术和市场。
第二阶段:多模式扩张与变现并行
除了大型语言模型(LLM)之外,文森特图片、文森特视频、语音对话、甚至3D生成都大大拓展了大模型的应用边界。
在多模态争夺战中,最有前景的应用是视频生成。 OpenAI推出了视频生成模型Sora、图像生成模型DALL-E、meta发布了Vincent视频工具MovieGen、Google的Gemni2.0可以直接从文本生成视频。 。
在国内,快手正式推出视频生成模型科灵AI。字节推出了视频生成模型PixelDance和Seaweed,以及基于模型的视频生成平台Meng AI。刘小龙MiniMax发布了首个AI高清视频生成模型技术。 abab-视频-1。
百度在这场多模态竞争中的表现尤其不落俗套。据报道,李彦宏并不认可像OpenAI这样的视频生成模型Sora。另一方面,他也强调,百度需要发展多模态,但百度在这方面的动作并不缓慢。
与多模式开发并行的是需要尽快将大型模型功能货币化。国内外C端用户主流变现方式采用与视频网站类似的“每日限量使用+会员订阅”模式。 20美元/月已成为大多数大型机型的入门价格。
仍以 OpenAI 为例,其推出了 Team 团队版本、每月 20 美元的 Plus 版本、每月 200 美元的 Pro 版本。国内Kimi创造性地采用了“奖励”模式。不同的“奖励”金额可以在不同长度的高峰时段获得优先使用权。
B端变现模式增加多元化,代表了大模式真正发挥实力的方向。 meta和Google将其大模型能力应用到其在线广告业务中,通过推动广告业务增长来增加收入。在国内,除了腾讯没有披露大模型的营收效率提升情况外,阿里巴巴和百度的云业务都已经应用了AI大模型,并产生了一定的效益。
2024年10月31日,谷歌发布第三季度财报,其中谷歌云营收从去年同期的84.11亿美元增长至113.53亿美元,同比增长近35%。谷歌将其强劲的云业务表现归功于其面向企业客户的订阅服务等产品的人工智能增长推动了收入增长。
另一巨头meta在同期第三季度财报中透露,其核心广告业务受益于大规模的模型改进带来了收入增长。超过100万广告商已使用meta的生成式AI广告工具。
大模初创公司的营收更直接地展现了其营收能力。 OpenAI和Perplexity AI的营收远谈不上令人印象深刻,但庞大的用户基数仍然让投资者有变现的耐心。
OpenAI目前拥有2.5亿周活跃用户,C端付费用户贡献了其约75%的收入。该公司2024年的总收入约为34亿美元,但扣除运营、劳动力和管理成本后将亏损50亿美元。 6月,其首任CFO就任,他透露OpenAI将努力增加消费者订阅数量,目标是将5%-6%的周活跃用户转化为付费用户。
AI搜索公司Perplexity近期正在寻求新一轮融资。据The Information报道,其在融资材料中披露,预计2025年年化收入将达到1.27亿美元,是目前水平的两倍。
国内方面,百度在三季度财报中透露,文心模式日均调用量达到15亿次,较2023年第四季度的5000万次增长了30倍。去年Q4,是15亿次。年内增长30倍,百度智能云营收达49亿元,同比增长11%,AI相关营收占比持续提升至11%以上。阿里云季度营收增至265.49亿元,同比增长6%。其中,AI相关产品收入实现三位数增长。
对于技术应用来说,两年的时间还不够长。最重要的是,该模式还需要打磨、渗透到现有业务并推广到用户。这需要一定的短期技巧和长期的耐心。
第三阶段:建议应用层变更
但如果说大型号卡桌最终可能属于实力雄厚的巨头,那么经过3-5年的技术发展,每个玩家永远要面对的就是让更多的下游企业经营大型号,实现成本回收。更重要的是,关键是要真正让大型模型接受最终用户的审查。
模型的实际应用方向很多,吸引了很多企业尝试,比如AI Coding,重点关注模型的逻辑思维和编码能力,大大降低了互联网产品开发的门槛。
AI Agent突破了Chatbot框架,将大型模型的能力更广泛地运用到实际应用中。谷歌的 Project Mariner 是一款人工智能代理,可以帮助用户查找航班和酒店、购买家居用品以及查找食谱。
AI代理的概念被业界普遍看好,但具体定义尚未达成统一共识。普遍的观点是,除了回答问题之外,人工智能代理还需要能够跨多个系统执行复杂的任务。 AI机器人通过人机对话界面辅助残疾人,替代劳动密集型岗位。
其中,AI Agent最受关注,甚至微软、谷歌都已经在进行相关部署。毕竟,拥有代理可以极大地将用户从 promptEngineering 中解放出来,让模型的能力不再受到输入法的限制。
就像奥运会一样,有的场馆会吸引大多数人的注意力,有的场馆会吸引一小部分人的注意力,但无论哪个场馆都能决定真正的金牌。
除了大型模型竞技场上巨头之间的竞争外,还有一个值得特别关注的“应用竞技场”。
AI教育效仿Duolingo、Speak等明星公司。 AI语音+大模型完美替代“外教”角色,为用户提供完善的口语训练和单词记忆功能。
AI陪伴已经成为收入和用户量受益最大的赛道。虽然没有登上大舞台,但这个赛道的公司却赚了不少钱。 AI 约会(Rizz、Blush)、Talkie 和 Character AI 已经名利双收。
AI营销:仅LLM就足以极大地解放营销人员在物料投放方面的能力。 meta早已将AI创意生成应用在其营销产品中,Pinterest也推出了自己的大模型产品PinterseCanvas,帮助广告主生成创意和素材。 。
除了生成素材之外,大型模型还可以帮助广告主从严格的营销活动环境中解放出来。 Applovin和meta的投放流程自动化产品使广告主只需设置促销产品和预算、投放区域和人群等基本营销条件成为可能。 ,大模型自动生成营销活动、广告投放和最终投放数据分析。利用该模型甚至可以实现一定门槛的AB测试,极大地解放了广告主的人力配置。
最有前途的方向——SAAS。如果要选出第二场比赛的最大受益者,那么中小型创业公司一定榜上有名。在 Reddit 论坛和 HackerNews 上,个人开发者和小团队继续使用大模型技术。此类应用简单紧凑,覆盖范围窄。它们一般都是基于成熟的大模型来解决具体的效率问题,比如广告文案修改、脚本编写等。打磨、故事思维拓展等
未来可能会有第四阶段。大模型应用推进至终端,在各个应用层面掀起了自上而下的效率改革。这可能是三五年内无法实现的。
02
腾飞的桎梏:算力与成本
我们划分了大型模型的发展阶段,但从未提及随着这一趋势而再次流行的算力问题。
2023年,OpenAI奥特曼指出,全球AI计算量每18个月将翻一番。 NVIDIA黄延森在2024年宣布摩尔定律已经到期,GPU性能将每两年翻一番以上。
除了计算能力之外,还有模型训练成本的问题。
训练一个大型模型需要多少钱?据报道,2024年Anthropic的模型训练和拓展成本将超过27亿美元。虽然与大型模型相关的融资屡见不鲜,融资金额也屡创新高,但随着可预见的未来越来越明朗,各大模型厂商几乎同时遭遇算力和应用问题,很多企业不再能够无障碍地获得融资,导致资金紧张、运营困难。
Vincentian图模型StableDiffusion的出现,让StabilityAI广为人知,但也在2024年经历了财务困难,公司几乎难以为继。
03
国产大车型隐忧
隐忧之一就是投资周期长,你要还是不要?
国内大型模特大赛场可以用几个词来形容:起步晚、快、走快、落得快。
如今,可以说大机型竞争已经进入第三阶段,多模态能力的竞争正在慢慢接近尾声。可以说,现阶段国内厂商并不落后。
但同时我们也可以看到,即使是国外的基础大模型还在迭代,包括参数增强、算力优化等。即使谷歌在经历了对Gemini的各种讽刺之后,仍然推出了Gemni2.0来实现原生多模态输入和输出,这让很多用户惊叹不已。
根据我们的多次对比,Gemini2.0相比1.5有了质的飞跃,在某些应用中甚至比ChatGPT-o1更令人满意。真正让人们体验到了“推理模型”的魅力。在给出答案的同时,也会给出结果,作为下一关的参考。
回到国内,六小龙和新老BAT似乎同时遇到了瓶颈——是否需要做预训练,推理模型需要投入多长时间?这种漫长而无休止的投资周期,让这几年一直在降本增效的各大企业都犹豫不决。
国内的商业环境和上市公司股东是否会允许大模特进行几乎没有回报的投资?
早在2023年下半年和2024年上半年,来自meta、微软、谷歌等公司的分析师就多次询问大型模型的投资回报率以及投资是否充足。各公司管理层顶住了投资者的压力,在预算上没有讨价还价。
但对于中国来说,它能承受住投资者的压力吗?要知道,目前还没有国内巨头在财报中明确表述过大车型带来的好处。
第二个隐忧是成本回收。
国内市场缺乏有效的大模型训练应用场景来回收投入成本。虽然这种情况在国外并不少见,但国内的成本回收问题尤其令人担忧。近期百川智能首席营销官洪涛的辞职,或许就是这种担忧的间接体现。
以互联网行业为例,我国网络广告行业缺乏成熟的应用场景。
meta和Applovin已经证明了大模型在广告营销方面的巨大潜力,并自下而上逐步为这个成熟而庞大的市场加油。首先,国内缺乏有一定覆盖范围的广告平台。几乎所有选手既是运动员又是裁判员,营销效果透明度较差。
其次,在大机型上取得显著成绩的SAAS产业,在国内的发展也表现乏善可陈。
国外SaaS厂商如Salesforce、Snowflake以及新上市的ServiceTitan等提供互联网云计算、云存储和信息数据服务。此类toB公司可以整合并触及更多中小企业的云服务和计算需求,为大型模型应用提供广阔的平台。
国内大型模型厂商商业化有几个方向: