尽管OpenAI下一代旗舰机型的上市时间还不得而知,但多个消息来源都指出了同样的可能性:性能不会有如此大的飞跃。 OpenAI 的员工和研究人员表示,高质量文本和其他数据的供应不足是 GPT 模型性能下降的原因之一。
国内关于数据的讨论从未降温。仅过去半个月,月之暗面创始人杨志林就表示,“在规模差不多的情况下,更多的算力不一定能直接解决问题。核心高,没有那么多优质数据。”蚂蚁数字刚刚推出了全新的AI数据合成和生产平台。
猎豹移动董事长兼首席执行官、猎户星董事长傅盛的说法则更为直白。他想打破窗户。 “大型模型行业的竞争,真正的竞争壁垒来自于数据。”猎豹移动及其子公司聚云科技近日推出数据服务产品“AI数据宝AirDS”。顶级模特增长放缓是好事还是坏事?如何平衡人工和机器数据标注的成本?猎豹移动高管团队开诚布公地接受了北京商报记者的采访。
卡在数据上
在开发过程中,OpenAI的最新模型Orion未能达到预期的性能,Google的Gemini模型和Anthropic的Claude3.5 Opus也遇到了瓶颈。业内人士表示,这三家公司似乎都面临着类似的问题:获取高质量数据越来越困难。
缩放定律是否无效的问题再次抛给了大型模型从业者。
用OpenAI论文中的定义,所谓Scaling law是指大模型的最终性能主要与计算量、模型参数量和训练数据量有关,并且与具体的模型的结构(层数/深度/宽度)基本上无关。换句话说,简单地增加模型大小和训练数据就可以显着提高人工智能能力,而无需实现根本性的算法突破。
“没人能下这个结论。”傅盛岔开话题。 “从客观事实来看,顶级模型的能力和增长肯定在放缓。缩放定律不一定会放缓,但它受到数据容量的限制。并不是芯片和算法不重要,而是每个人都很难来区分这两点。”
一种解决方案是合成数据,Epoch AI 研究团队预测,“到 2026 年,现有的用于 AI 模型训练的高质量语言数据将耗尽。”
“未来的人工智能应用需要大量稀缺且难以获取的长尾数据,例如自动驾驶中的极端天气和极端路况数据,以及实体智能训练所需的复杂场景数据。在此背景下,数据合成将成为关键。”蚂蚁数字AI技术技术负责人、蚂蚁天极实验室主任李哲持有上述观点。
“合成数据确实是一个非常重要的补充,但仅靠合成数据肯定是不够的。”猎户星首席科学家韩坤对北京商报记者表示。猎豹移动专注于大模型数据服务。 AI数据宝AirDS提供数据采集、清洗、标准、提示词工程和评估服务。
仅仅“拉箱子”是不够的
以数据标注为例。 “上一代的数据标注往往是常见的检测、识别以及固定、正则化的任务。这些标注都比较明确,比如根据视频找对象,根据语音找文本。但在大模型时代,企业应用是多种多样的。”猎豹移动高级副总裁孙明彦向北京商报记者举了一个例子。 “比如客户想用大模型查数据库,或者让大模型画组织结构图,这个需求就找标注员,比较难做到。”
用傅盛的话说,大模型可以让数据标注和服务融为一体。 “单纯雇人打脸的时代已经不能适应现在的需求了。没有做过大模型或者大模型应用的企业需要构建这套系统需要时间。”
人与机器之间的平衡没有具体的公式。
“数据服务肯定需要人工,但在大模型时代,人工智能模型和工具将被大量使用,以提高数据标注的效率。”韩坤进一步表示,“如果所有数据服务都由人工提供,标注或者清理肯定会跟不上,而且成本非常高,但是要产生高质量的数据,光靠模型是肯定不够的,在训练我们自己的模型的过程中,我们发现:数量和质量之间的平衡点很微妙,需要大量的练习找到一个既保证数量又保证质量的点,这个点符合企业的目标,相应地,在做预训练、微调或应用时,数量和质量的要求是不同的。”
应用程序将在 2025 年蓬勃发展
除了猎豹移动之外,蚂蚁数码也采用了人机协作模式。北京商报记者了解到,在数据标注方面,蚂蚁数字AIGD平台通过人机协作进行标注。人工智能算法可以自动识别和预处理最基本的信息,预标注模型依赖的人工标注量减少了70%以上。 。
客户需求决定市场,市场永远是动态的。从客户的角度来看,“大模型标注更多的是利用大模型在应用层的能力。”猎豹移动副总裁童宁透露。
他分享了一个阅读PDF信息的案例,“由于合同类型较多,客户最初认为大型模型中阅读PDF合同的准确率不会高于80%。后来我们做了POC(概念)验证” ),通过智能代理理解上下文,调整成一些更好的提示词,在这个过程中,标注团队的能力体现在智能系统中根据场景设计一套工作流程,并对应高精度。提示输出。 单词”。
这些都是大模型应用落地需要解决的问题,即大模型商业化的“最后一公里”。
“猎豹移动不是靠大模型赚钱,也不是靠模型接口调用量赚钱,而是靠应用赚钱。”傅盛认为。 “现在可能还没有特别顶级的应用出来,2025年大模型应用的繁荣是可见的。”
他以OpenAI为例。 ”Sam Altman(OpenAI CEO)最近接受采访,被问到 OpenAI 最缺什么,他表示我们最缺产品。OpenAI 也加强了产品能力和应用能力。在过去的六个月里,在移动端推出的功能所以我认为2025年应该是大型机型大繁荣的一年。”
北京商报记者 魏巍