刚刚,传来消息:OpenAI举报人在家中去世。
苏奇尔·巴拉吉 (Suchir Balaji) 在 OpenAI 工作了四年,指控该公司侵犯版权,上个月末被发现死于他位于旧金山的公寓中。他当时只有26岁。
旧金山警方表示,11月26日下午1点左右,他们接到电话要求查看巴拉吉的福利,但到达后发现他已经死亡。
这位举报人手中的信息可能在针对 OpenAI 的诉讼中发挥关键作用。
如今,他却意外去世。
法医办公室确定死因是自杀。警方还表示,“没有发现他杀的证据”。
他在X上的最后一篇文章是介绍他对OpenAI训练ChatGPT是否违法的想法和分析。
他还强调,希望这不会被解读为对 ChatGPT 或 OpenAI 本身的批评。
如今,网友们纷纷在这条帖子下表达哀悼。
Suchir Blaji的朋友也表示,他很聪明,看起来不像是会自杀的人。
举报人警告:OpenAI 训练模型违反原则
Suchir Balaji 参与了 OpenAI ChatGPT 及底层模型的开发。
他在今年10月发表的一篇博文中指出,该公司利用新闻和其他网站的信息来训练其人工智能模型,违反了“合理使用”原则。
博客地址:
然而,他在公开指责 OpenAI 违反美国版权法后仅三个月就去世了。
为什么11月底的事件到12月中旬才曝光?网友们也纷纷表示质疑
事实上,自 2022 年底 ChatGPT 公开发布以来,OpenAI 就面临着来自作家、程序员、记者和其他团体的一波又一波的诉讼。
他们认为,OpenAI非法使用自己拥有版权的材料来训练AI模型,只享受了公司估值升至超过1500亿美元的成果。
今年10月23日,《纽约时报》发表了对巴拉吉的采访,他指出OpenAI正在损害数据被利用的公司和企业家的利益。
“如果你同意我的观点,你就必须离开公司。这对于整个互联网生态系统来说不是一个可持续的模式。”
一个理想主义者的死亡
巴拉吉在加利福尼亚州长大。十几岁的时候,他发现了一份关于 DeepMind 让 AI 自己玩 Atari 游戏的报告,并对此着迷。
高中毕业后的空档年,Balaji 开始探索 DeepMind 背后的关键思想——神经网络数学系统。
巴拉吉本科就读于加州大学伯克利分校,主修计算机科学。在大学期间,他相信人工智能可以给社会带来巨大的好处,比如治愈疾病、延缓衰老。在他看来,我们可以创造某种科学家来解决此类问题。
2020年,他和一群伯克利毕业生到OpenAI工作。
然而,在加入OpenAI并担任研究员两年后,他的想法开始发生变化。
在那里,他被分配了为 GPT-4 收集互联网数据的任务,GPT-4 是一个神经网络,花了几个月的时间分析互联网上几乎所有的英语文本。
巴拉吉认为,这种做法违反了美国关于已发表作品的“合理使用”法。今年10月底,他在个人网站上发表文章论证了这一观点。
目前没有已知因素支持“ChatGPT 使用其训练数据是合理的”。但是,应该注意的是,这些论点并非特定于 ChatGPT。类似的讨论也适用于各个领域的许多生成式人工智能产品。
据《纽约时报》律师称,巴拉吉拥有“独特的相关文件”,这对于《纽约时报》针对 OpenAI 的诉讼极为有利。
在准备收集证据之前,《纽约时报》提到至少有12人(大多是OpenAI前任或现任员工)拥有对案件有帮助的材料。
OpenAI 的估值在过去一年翻了一番,但新闻机构认为该公司和微软抄袭并盗用了自己的文章,严重损害了他们的商业模式。
诉讼称——
微软和OpenAI轻而易举地夺取了为当地报纸做出贡献的记者、记者、评论员、编辑等人的劳动成果——完全无视这些为当地社区提供新闻的创作者和出版商的努力,更不用说他们的法律权利了。
OpenAI 坚决否认这些指控。他们强调,大型模型训练的所有工作均符合“合理使用”的法律规定。
为什么 ChatGPT 说数据没有“合理使用”?
为什么 OpenAI 违反“合理使用”法律?巴拉吉在一篇长博文中列出了详细的分析。
他引用了 1976 年《版权法》第 107 条中“合理使用”的定义。
是否符合“合理使用”,应考虑的因素包括以下四个因素:
(1) 使用的目的和性质,包括使用是商业性质还是非营利教育目的; (2) 受版权保护的作品的性质; (3) 使用部分相对于整个受版权保护的作品的数量和重要性; (四)使用对受版权保护的作品的潜在市场或价值的影响。
巴拉吉按照(4)、(1)、(2)、(3)的顺序进行了详细论证。
因素(4):对版权作品的潜在市场影响
因为ChatGPT训练集对市场价值的影响会根据数据源的不同而有所不同,并且由于其训练集不公开,所以这个问题无法直接回答。
然而,一些研究可以量化这一结果。
《生成式人工智能对在线知识社区的影响》发现,ChatGPT 发布后,Stack Overflow 的访问量下降了约 12%。
此外,ChatGPT 发布后,每个主题的问题数量也有所减少。
ChatGPT 发布后,提问者的平均账户年龄也呈上升趋势,这表明新成员要么没有加入,要么正在离开社区。
而且 Stack Overflow 显然不是唯一受到 ChatGPT 影响的网站。例如,家庭作业帮助网站 Chegg 在报告 ChatGPT 影响其增长后,其股价下跌了 40%。
当然,OpenAI、谷歌等模型开发商也与Stack Overflow、Reddit、美联社、新闻集团等签署了数据许可协议。
但签订协议后,这些数据是否就被认为是“合理使用”呢?
综上所述,鉴于数据许可市场的存在,在未获得类似许可协议的情况下使用受版权保护的数据进行培训也构成对市场的损害,因为它剥夺了版权所有者的合法收入来源。
因素(1):使用目的和性质,无论是商业目的还是教育目的
书评者可能会在评论中引用一本书的摘录,尽管这可能会损害该书的市场价值,但它仍然被认为是合理使用,因为不存在替代或竞争。
替代使用和非替代使用的这种区别源于1841年的福尔瑟姆诉马什案,这是确立合理使用原则的里程碑式案件。
问题出现了 - 作为一个商业产品,ChatGPT 是否具有与用于训练它的数据类似的目的?
显然,在此过程中,ChatGPT 创建了与原始内容直接竞争的替代品。
例如,如果你想知道“浮点计算中为什么0.1 + 0. 2 = 0.30000000000000004?”这样的编程问题,你可以直接问ChatGPT(左),而不用搜索Stack Overflow(右)。