OpenAI 最近发布了 CriticGPT,这是一种新的 AI 模型,它提供对 ChatGPT 响应的批评,以帮助训练 GPT 模型的人类更好地评估人类反馈强化学习 (RLFH) 期间的输出。据 OpenAI 称,CriticGPT 并不完美,但它确实可以帮助培训师发现比自己发现更多的问题。
但在质量步骤中添加更多人工智能是一个好主意吗?在我们播客的最新一集中,我们与 Coder 首席执行官 Rob Whiteley 讨论了这个想法。
以下是该对话的编辑和删节版本:
很多人都在使用 ChatGPT,我们听说过所有关于幻觉和各种各样的问题,你知道,通过抄袭侵犯版权以及所有此类的东西。因此,OpenAI 明智地决定让一个不值得信任的人工智能由另一个我们现在相信会比他们的第一个人工智能更好的人工智能来检查。那么这座桥对你来说太远了吗?
我认为从表面上看,我会说是的,如果你需要将我固定在一个答案上,那可能是一座太远的桥梁。然而,事情变得有趣的地方实际上是你用不同参数调整人工智能的舒适程度。我的意思是,是的,从逻辑上讲,如果你有一个人工智能产生不准确的结果,然后你要求它进行自我检查,那么你就消除了循环中的关键人物。我认为与我交谈过的绝大多数客户都遵循 80/20 规则。其中大约 80% 可以由人工智能或 GenAI 工具生成,但最后 20% 仍然需要人类。
所以从表面上看,我担心如果你变得懒惰并说,好吧,我现在可以把最后 20% 留给系统进行自我检查,那么我认为我们已经陷入了危险的境地。但是,如果我对这些人工智能工具了解了一件事,那就是它们的好坏取决于你给它们的提示,所以如果你非常具体地说明人工智能工具可以检查或不检查什么——例如,寻找编码错误,寻找逻辑谬误,寻找错误,不要寻找或不要产生幻觉,不要撒谎,如果你不知道该怎么做,请提示我 - 有些事情你基本上可以明确地表达出来隐式的,这样会有更好的效果。
问题是你是否有权访问提示,或者这是后台的自我修复功能?所以对我来说,这实际上归结为,你是否仍然可以指挥机器执行你的命令,或者它现在只是半自主的,在后台工作?
那么,您认为这其中有多少是人们快速涌入人工智能领域的结果?
当谈到这项技术时,我们绝对处于一种典型的炒作泡沫之中。我想我再次明确地看到,我想让我的开发人员能够使用 Copilot 或某些 GenAI 工具。我认为宣布胜利还为时过早。好的,“我们现在已经可以使用了。”首先,如果您甚至可以跟踪其使用情况(而许多公司无法跟踪),您就会看到一个巨大的峰值。问题是,第二周呢?人们还在使用它吗?他们经常使用它吗?他们从中获得价值吗?您能否将其使用情况与错误或构建时间等结果关联起来?
所以对我来说,我们正处于一个蓄势待发的时刻,我认为很多公司都在涌入。这有点像 20 年前的云,无论如何它都是答案。然后,当公司介入时,他们意识到,哇,这实际上很昂贵,或者延迟太糟糕了。但现在我们已经下定决心了,所以我们会这么做。
我确实担心公司已经介入。现在,我不是 GenAI 的反对者。这是有价值的,而且我确实认为可以提高生产力。我只是认为,像任何技术一样,你必须提出一个商业案例,提出一个假设并对其进行测试,并拥有一个好的团队,然后根据结果将其推出,而不仅仅是打开闸门和希望。
在与您交谈的开发人员中,他们如何看待人工智能。他们是否认为哦,哇,这是一个真正能帮助我的很棒的工具?或者是,哦,这会夺走我的工作吗?大多数人都在哪里?
Coder 是一家软件公司,所以当然,我雇佣了很多开发人员,所以我们在内部进行了一项民意调查,我们发现 60% 的人正在使用它并且对此感到满意。大约 20% 的人正在使用它,但已经放弃了它,20% 的人甚至没有拿起它。所以我认为首先,对于一项相对较新的技术来说,它已经接近相当好的饱和度。
对我来说,价值是存在的,采用是存在的,但我认为是 20% 的人使用了它然后放弃了它,这让我感到害怕。为什么?难道只是因为心理原因,比如我不相信这个?是因为用户体验的原因吗?是不是它在我的开发流程中不起作用?如果我们能够达到 80% 的开发者——我们永远不会达到 100%——所以如果你让 80% 的开发者从中获得价值,我认为我们可以在这块土地上下注并这样说某种程度上改变了我们开发代码的方式。我想我们会到达那里,而且我们会以惊人的速度到达那里。我只是觉得我们还没有到那一步。
我认为这是关于让人类了解情况的重要观点,这又回到了人工智能检查人工智能的最初前提。听起来开发人员的角色可能会发生一些变化。正如你所说,有些人正在使用它,也许作为一种制作文档和类似事情的方式,但他们仍在编码。其他人也许会指望AI生成代码,然后他们就会成为AI编写代码的审阅者。
一些更高级的用户,无论是在我的客户中,还是在我自己的公司中,他们在人工智能出现之前都是个人贡献者。现在他们几乎就像一个团队领导,他们有多个编码机器人,他们要求他们执行任务,然后这样做,几乎就像结对编程,但不是一对一的。这几乎是一对多。因此,他们将有一个人编写代码,一个人编写文档,一个人评估代码库,一个人仍在编写代码,但在不同的项目上,因为他们同时签署了两个项目。
所以我绝对认为开发人员的技能需要改变。我认为需要发生一场软技能革命,让开发人员更加适应沟通、提出要求、检查质量、激励等事情,无论你相信与否,研究表明,如果你激励人工智能,它实际上会产生更好的结果结果。所以我认为有一套明确的技能可以创造一个新的——我讨厌使用“10x”这个词——但是一个新的、功能更高的开发人员,而且我不认为这会是,我会写出最好的代码吗?在世界上?更重要的是,即使我必须指导一个小型虚拟团队来实现,我能否实现最佳结果?