发布信息

字节豆包开源FullStack Bench:全面评估AI编程能力的代码大模型基准

作者:软荐小编      2024-12-05 16:03:02     67

字节开源最全面代码大模型基准FullStack Bench_字节开源最全面代码大模型基准FullStack Bench_

大型代码模型越来越复杂,评价AI编程水平的“试卷”也被迫升级。 12月5日,字节豆宝大模型团队开源了最新的代码大模型评估基准FullStack Bench,该基准测试在业界首次包含了超过11类全栈编程技术的现实场景,覆盖了16个领域。编程语言,包含 3374 个问题。与之前的基准测试相比,可以更有效地评估现实世界中大型模型的代码开发能力。

代码评估基准是衡量大型模型编程能力的标准工具,也是模型优化的关键驱动力。然而,当前的代码评估基准覆盖的应用类型和编程语言有限,难以反映现实世界中代码开发场景的多样性和复杂性。

例如,主流代码评估集Humaneval和MBPP中近80%的数据只关注基础编程和高级编程问题; DS-1000中95%的数据专注于数据分析和机器学习任务,并且只评估Python语言;尽管 xCodeeval 涵盖了多种任务,但很大程度上仅限于高级编程和数学。

因此,字节豆宝大模型团队与MAP开源社区共同提出了FullStack Bench,一个专注于全栈编程和多语言编程的代码评估数据集。为了囊括真实全栈开发涉及的各种应用场景,研究团队从全球最大的程序员技术问答社区 Stack Overflow 中随机抽取了 50 万个问题进行分析,筛选出了排名前 88.1% 的应用。领域,并对其分布进行了适当的调整,以保证每个领域的稳健性,最终形成了FullStack Bench重点关注的11个以上的应用场景和分布比例。

FullStack Bench 包含 3374 个问题,每个问题包括问题描述、参考解决方案和单元测试用例,总共 15168 个单元测试。为了保证考核的准确性,题目内容由相关领域的编程专家设计,并通过人工智能和人工验证进行质量审核。初始数据集构建完成后,团队根据主流代码大模型测试结果,根据问题难度、模糊性、可解性等进行交叉评估,进一步提升数据质量。

_字节开源最全面代码大模型基准FullStack Bench_字节开源最全面代码大模型基准FullStack Bench

FullStack Bench 数据集组成

为了方便开发者系统地测试大模型代码能力,豆宝大模型团队还开源了一款高效的代码沙箱执行工具——SandboxFusion,用于评估不同语言的不同编程任务。除了 FullStack Bench 之外,SandboxFusion 还兼容 10 多个广泛使用的代码评估数据集,并支持 23 种编程语言。开发人员可以轻松地将SandboxFusion部署在单台服务器上或直接在GitHub上体验。

字节开源最全面代码大模型基准FullStack Bench_字节开源最全面代码大模型基准FullStack Bench_

在评估基准和沙箱发布的同时,大字节码模型也首次曝光。在研究过程中,豆包模型团队评估了全球20多个大型代码模型和语言模型的编程性能(具体参见论文),其中包括未公开的豆包代码模型Doubao-Coder。

在过去的六个月里,Byte 在大代码模型领域取得了快速进展。今年6月,字节发布了MarsCode,这是一款由自研代码库模型支持的AI编程助手豆包。目前每月向用户贡献数百万个代码。

相关内容 查看全部