大模型开源的口号可不是你随便说的。
该来的终于来了。
本周,人工智能领域迎来了“开源”的官方定义。开源倡议组织(OSI)发布了“开源人工智能定义”1.0正式版。此举旨在澄清快速发展的技术世界中“开源”一词经常出现的含糊不清的用法。
值得注意的是,在这种机制下,一直作为开源大模型标杆的Llama 3并不遵守这一规则。
OSI 长期以来一直为开源软件的构成制定行业标准,但人工智能系统包含传统许可证未涵盖的元素,例如模型训练数据。现在,要使人工智能系统被视为真正的开源系统,它必须提供:
这个定义直接针对 meta 驱动的大 Llama 模型。尽管Llama被广泛推广为生成AI领域最大的开源AI模型,Llama的使用条款支持公开下载和使用,但其商业用途受到一定限制(对于超过7亿用户的应用程序) ,它不提供对训练数据的访问,使其不符合 OSI 不受限制地自由使用、修改和共享的标准。
对此,meta 发言人 Faith Eischen 表示,虽然“在很多事情上与合作伙伴 OSI 达成一致”,但 meta 不同意这个定义。开源人工智能不应该有单一的定义;以前对开源的定义没有体现当今快速发展的人工智能模型的复杂性。
不过,无论该技术如何定义,meta 表示将继续与 OSI 和其他行业组织合作,负责任地推动 AI 朝着可访问和免费的方向发展。
在“开源”这件事上,非营利组织OSI一直扮演着重要的角色。 OSI 维护着一份业界认可的许可证列表,其对开源的定义包括十多个关键术语,如免费再分发、源代码的可用性、修改和衍生作品的许可等。 1998年,OSI对开源软件的定义已经被开发者广泛接受。
现在,随着人工智能重塑格局,科技巨头面临着一个关键的选择:是接受这些既定原则还是拒绝它们。 Linux基金会最近还试图定义“开源人工智能”,这标志着关于传统开源价值观如何适应人工智能时代的争论日益激烈。
独立研究员兼开源创建者西蒙·威利森 (Simon Willison) 表示:“既然我们有了强有力的定义,也许我们可以更积极地抵制那些‘公开清洗’并声称自己的工作是开源的公司。”
Hugging Face 首席执行官 Clément Delangue 表示:“OSI 的定义将对围绕人工智能开放性的讨论提供巨大帮助,特别是在涉及训练数据的关键作用时。”
OSI 执行董事 Stefano Maffulli 表示,该公司花了两年时间咨询全球专家,通过与机器学习和自然语言处理领域的学术专家、哲学家和知识共享内容创作者合作来完善这个定义。
OSI 对开源 AI 的定义
OSI表示,“开源”人工智能系统需要满足以下几点:
这些自由度既适用于功能齐全的系统,也适用于系统的离散元件。行使这些自由的先决条件是能够对系统进行修改。
更进一步,OSI 还定义了机器学习系统的可修改形式。必须包含以下所有元素:
对于机器学习系统来说,模型权重也是一个重要因素。 OSI 在其开源定义中指出:
机器学习系统的修改范围还包括权重。 “开源模型”和“开源权重”必须包括用于导出这些参数的数据信息和代码。
最后,OSI 表示,开源 AI 定义不需要特定的法律机制来确保模型参数免费提供给所有人。它们本质上可能是免费的,或者可能需要许可证或其他法律文件以确保其可用性。预计随着时间的推移,人工智能开放的监管定义将变得更加清晰。
参考内容: