4 月 6 日有消息称,华盛顿大学、哥本哈根大学和斯坦福大学联合发布了一项研究。这项研究为 OpenAI 涉嫌未经许可使用受版权保护内容来训练 AI 模型的指控提供了新的证据。这项研究提出了一种创新方法,能够识别通过 API 提供服务的 AI 模型“记忆”的训练数据来源。这种情况或许会加剧 OpenAI 与版权持有者之间的法律纠纷。
研究团队开发了一种技术,这种技术可以通过对 AI 模型生成内容里特定模式的分析,来逆向追踪其训练数据的来源。该技术是专门针对像 OpenAI 这样通过 API 向开发者提供服务的模型的,并且能够检测出模型是否“记忆”了特定版权作品里的独特片段。
研究人员称,此方法突破了传统版权检测技术的限制。它能够识别出模型在训练期间“吸收”的版权内容,即便这些内容在生成输出时被重新组合或改写。这一发现给版权持有者提供了新的法律武器,让他们能更精准地证明 OpenAI 模型存在侵权行为。
自 2023 年开始,OpenAI 遭遇了多起集体诉讼,这些诉讼是由作家、程序员等版权持有者提起的。原告方称,该公司在未经许可的情况下,把书籍、代码库等受版权保护的作品用于训练其 AI 模型,并且从中获取了利益。虽然 OpenAI 一直以“合理使用”原则进行辩解,但原告方觉得,美国版权法中没有针对 AI 训练数据的豁免条款。
此次研究结果被当作对 OpenAI 抗辩理由的重要挑战。如果版权持有者能够借助该技术来证明其作品被直接用于训练,那么 OpenAI 或许会面临更为严峻的法律责任。
研究团队着重指出,此技术的目的并非“钓鱼执法”,而是要为版权争议提供客观的证据。不过,它的潜在应用已经在行业内引起了震动。像 OpenAI 这样的 AI 公司一直以来都依赖大量的数据来进行模型训练,倘若该技术被广泛地运用,那么很可能会使它们训练数据的来源透明度得到极大的提升,甚至还有可能对现有的 AI 训练合规框架造成颠覆。