2025年初,中国最活跃的人工智能投资机构之一金秋基金在硅谷举办了一场SCALE With AI活动。
5天4夜,OpenAI、XAI、Anthropic、Google、meta、Perplexity、Luma、Runway等人工智能重点企业以及多家硅谷投资机构分享了硅谷AI的最新进展,以及他们的诸多预测和预测。对2025年趋势的判断。本质
作为本次活动背后的博弈,金秋基金不仅投资了北美一些活跃的AI基金,还与全球AI市场建立了联系。还推出SOIL种子计划,以激进、快速、灵活的决策方式支持AI领域。早期企业家。刚刚过去的2024年,金秋频频拍摄AI LAB、AI内容平台等多个项目,筑梦。
以下是对这个硅谷人工智能进步第25条的重要认知。分为大模型、视频模型、AI应用、智能体智能四个部分。
关于大模型:Scaling LAW是否已达到瓶颈以及硅谷创新的源泉
1.对于LLM来说,Pre-Training的时代基本结束了,但是Post-TrainIn的机会还是很多的。另外,Pre-TRAINING投入较少的原因更多在于资源有限,而POST-TRAINING的边际效益会更高。因此,后期追尾的机会还是很多的。
2.先有Pre-Trawing,这样才有Post-Training的RL。模型具备了基础能力,RL可以有的放矢。 RL并没有改变模型的智能,更多的是思维模式。相比之下,Pre-Trawing是模仿,只能模仿,而RL是创造出来的,可以做不同的事情。
3. 一些明年可能成为共识的预测。例如,模型架构可能会改变;闭源和开源之间的差距将大大缩小;对于合成数据,大模型生成数据然后训练小模型是可行的,但反过来难度更大。合成数据与真实数据之间的差异主要是质量问题。还可以用各种类型的数据来固定,效果也很好。由于数据质量不高,所以可以进行预训练阶段。另外,每件作品的拼缝都不同。可以用较大的模型生成较小的训练模型。如果用小模型训练大模型,过去一年可能会更好。本质上是数据源的问题。
4、岗位培训团队建设,理论上5人就够了(不一定是全职)。比如一个人搭建Pipeline(Infraastic),一个人管数据(数据效果),一个人负责模型本身SFT,一个人负责产品对模型排列的判断,收集用户数据等。
5、硅谷创新的重要因素之一就是他们的公司很容易形成扁平化的组织文化。和Openai一样,不存在所谓的特定决策者。每个人都非常自主和自由,团队之间的合作也非常自由。老派的Google也在悄然裁撤中间层,使得很多前经理转向一线。
关于视频模型:缩放定律的瓶颈还很早
6、视频生成仍是GPT1、2时,现在视频水平已接近SD1.4版本。未来将会有具有类似商业性能的开源版本。目前的难点是数据集。由于版权等问题,视频并没有那么大。每个家族的数据如何获取、处理、清洗都会产生很大的差异,导致模型能力不同,开源版本的难度也不同。
7. DIT解决方案的下一个更难点是如何提高对物理定律的遵守,而不仅仅是统计概率。视频生成的效率是卡点。在高端显卡上运行时间较长,是商业化的障碍,也是学术界努力的方向。虽然LLM模型迭代速度变慢,但申请并没有变慢。从产品角度来说,只有文声视频并不是一个好的方向。相关的部分片段和创意产品会层出不穷,所以短期内不会出现瓶颈。
8、DIT技术路线将有1~2年的时间达到饱和。许多 DIT 路线都可以优化。更高效的模型架构非常重要。以LLM为例。一开始,每个人都做得更大。之后发现加入MOE并优化数据分布后,不需要那么大的模型就可以做到。需要更多的研究,而且 SCALE Up DIT 的效率非常低。如果视频数据算上YouTube和Tiktok的话,数量非常大,根本无法进行模型训练。
9.视频的视频在一定范围内,但远达不到LLM的水平。最大模型参数现在为 30B。 30B内证明有效;但300B,300B的订单,还没有成功的案例。目前的做法,差别主要是在数据上,包括数据比例,其他差别不大。
10、Sora刚出来大家都以为会收敛到DIT,但实际上有很多技术路径,比如based on GAN的路径,比如Autoregressive的实时生成。 CV 结合了更好的一致性和控制力。每个人都有不同的选择。未来针对不同场景选择不同的技术栈将是一种趋势。
11、长视频生成技术方案,可以看到DIT容量限制在哪里。模型越大,数据越好,清晰度越高,时间越长,成功率越高。 DIT模型的规模能达到多大,目前还没有答案。如果到一定规模出现瓶颈,可能就会出现新的模型架构。从算法的角度来看,DIT做了新的推理算法来支持快速。更困难的是如何在训练时添加这些。
12.视频模态的训练数据实际上有很多,有效地选择高质量的数据很重要。数量取决于对版权的理解。但计算能力也是一个瓶颈。即使有这么多数据,也不一定有计算能力来做,尤其是高清数据。有时需要根据手头的计算能力来反映所需的高质量数据集。高质量的数据一直缺乏,但即使有数据,一个很大的问题是大家不知道什么是图像描述才是正确的,图像描述中应该描述哪些关键词。
13. 视频生成的真实性取决于基础模型的能力。审美的提高主要取决于后期训练阶段。例如,使用大量的影视数据。视觉模式或许不是更好引领AGI的最佳模式,因为文本是通往智能的捷径,而视频和文本的效率差距是数百倍。
14. 多模式模型还处于早期阶段。给第一个1秒的视频预测5秒后比较困难,后面添加Text可能会更困难。理论上来说,视频和文字是最好的,但整体做起来却很难。多模式状态目前还不能提升智能,未来或许有可能。
关于AI应用:硅谷的趋势与国内不太一样
15、硅谷VC倾向于认为2025年是一个大的投资机会。他们投资AI产品的标准之一:最好只做一个方向,让竞品难以复制。还有一些网络效应:要么洞察复制的难度;要么是难以复制的技术EDGE;要么是难以复制的技术EDGE;或者别人无法获得的垄断资本。否则,很难称其为创业,而更像是企业。而在美国,基本上没有适合所有人的杀手级应用程序。大家都习惯在不同的场景下使用不同的功能,不同的功能。关键是要让用户体验到尽可能多的障碍。
16、硅谷VC认为AI产品公司是一个新物种,与之前的SaaS有很大不同。我找到了 PMF。它的收入蓬勃发展非常快。炒作之前真正的价值创造是在种子阶段;大模型注重预训练。应用公司更注重推理。每个行业都有固定的看待问题的方式和方法。新的AI Agent基于LLM。添加了认知架构。
17. the VC的小众观点是,有条件的可以考虑投资中国创业者。原因就在于中国新一代创始人很有活力,有能力做好商业模式。但前提是基地在美国。中国人和中国企业家正在做很多新的尝试,但国际投资者不理解,所以也是一个价值洼地。
18. 硅谷的风险投资公司正在尝试建立自己的投资策略。索玛资本的策略是最好的人建联,让最优秀的人介绍自己的朋友,建立终身友谊。在此过程中,激发、支持和联系;构建全景图,包括市场细分和项目MAPPING,想做数据驱动投资。将投资C轮C轮,观察成功/失败; Leonis Capital 是一家研究驱动型风险投资基金,主要是 FIRST Check。 OldFriendship Capital 是先工作,后投资。它会先和方正合作,打电话进行客户访谈,确定一些访谈Guideline,一起了解产品的问题,类似于咨询工作。投资中国项目,可以判断中国方正是否有机会与美国客户合作。
19. Storm Venture 喜欢解锁增长。它更喜欢在 A 轮中拥有 PMF 的公司。他们通常会获得 1-2m 的收入,然后确定 UNLOCKING GROWTH 是否支持他们上升到 2000 万。 Inference Venture 认为障碍应该基于人际关系和领域知识。
20、研究员OPENAI创立的Leonis Capital对2025年的AI有几个预测。比如会有AI编程的应用;例如,模型提供商开始控制成本,企业家需要选择模型/代理来创建独特的供给;数据中心会造成电力影响,可能会出现新的架构。小的;多代理将变得更加主流。
21 AI CODING公司模型训练的可能思路。一开始,模型公司可以使用公司更好的API来取得更好的效果。即使成本更高,在积累了客户的数据之后,不断在小场景中训练自己的小模型。于是,一些API场景不断被替换,以更低的成本达到更好的效果。
22. AI Coding的一个重要趋势是利用推理来增强技术,类似于O3或O1方法。方法可以显着提高代码代理的整体效率。虽然目前成本较高(10到100倍),但可以将错误率降低一半甚至四分之一。随着语言模型的发展,这些成本预计将迅速下降,这可能使该方法成为通用的技术路线。
关于身体的智能:具有人类所有泛化能力的机器人,在我们这一代,可能无法实现
23:硅谷一些人认为机器人还没有迎来类似ChatGPT的时刻。核心原因之一是机器人需要完成物理世界中的任务,而不仅仅是通过虚拟语言生成文本。机器人智能的突破需要解决智能体智能的核心问题,即如何在动态、复杂的物理环境中完成任务。机器人关键时刻需要满足共性:能够适应不同的任务和环境;可靠性:在现实世界中有很高的成功率;可扩展性:可以通过数据和任务不断迭代和优化。
24:机器人数据闭环很难实现,因为缺乏像ImageNet这样的标志性数据集,很难形成统一的评价标准。此外,数据收集的成本很高,尤其是涉及现实世界的交互数据。例如,采集触摸、视觉、动态等多模式数据需要复杂的硬件和环境支持。仿真设备被认为是解决数据闭环问题的重要工具,但仿真与现实世界之间的“仿真-真实差距”仍然很大。
25:智能智能面临通用模型与具体任务模型的冲突。通用模型需要具有较强的泛化能力,能够适应多样化的任务和环境;但这通常需要大量的数据和计算资源。特定的任务模型更容易实现商业化,但其能力有限,难以扩展到其他领域。未来,机器人智能需要在通用性和专用性之间找到平衡。例如,通过模块化设计,使通用模型成为基础,然后通过具体任务的微调来快速适应。