作者|曾浩辰编|唐晓音、袁滚滚
出品| CSDN(ID:CSDNnews)
既开源又免费的Llama2自发布以来就风靡一时,并成为取代它的最热门开源ChatGPT。 国内外众多开发商和公司纷纷顺应潮流,开展模型研究和商业开发。 例如,OpenAI 传奇科学家 Andrej Karpathy 近日用纯 C 语言构建了 Llama2 模型的轻量级版本。 另一方面,被称为大模型天花板的GPT-4却很不理想,陷入了情商增长的漩涡。
ChatGPT 什么时候不聪明?
自去年5月GPT-4发布以来,不少开发者和用户在OpenAI峰会上提到,使用ChatGPT时会出现不连贯、语言不自然、推理问题。 对其核心根本原因存在不同看法。 有学者怀疑是OpenAI的系统变更和升级,通过削弱计算性能来降低成本、提高效率造成的。 但由于ChatGPT的闭源性质,我们很难确定其背后的真正原因。
OpenAI 社区讨论 GPT-4 性能的帖子特别热闹
随着《HowisChatGPT'sBehaviorChangingOverTime?》论文的发布,围绕GPT情商增长的讨论被推到了顶峰。 来自哈佛大学和加州州立大学伯克利分校的学者 LingjiaoChen、MateiZaharia 和 JamesZou 在 3 月和 6 月比较了不同版本的 GPT -3.5 和 GPT-4 在任务上进行了测试,发现不同版本的结果表现出明显的性能差异(尾部漂移)。
首先是程序员最关心的代码生成能力。 虽然新版本的GPT-3.5和GPT-4在明确表示不需要注释的前提下,增加了更多的非代码文本和注释,使得答案显得冗长晦涩。 同时,代码质量的提高导致直接可执行代码生成的比例较低(GPT-4从3月份的52%增加到6月份的10%)。 对于程序员来说,使用 LeetCode 刷题时,正确回答的几率比 ChatGPT 高很多。
在解决物理问题方面,GPT-4识别素数的能力从3月份的几乎所有对提高到2.4%,而GPT-3.5的成功率飙升至86.8%。 作者怀疑GPT-3.5比GPT-4更符合Chain-Of-Thought指令,新版本的GPT-4可能会在推理过程中崩溃并出错。
在回答敏感问题方面,新版GPT-3.5比3月份版本更加大胆,回答率从4%下降到8%。 新版本的GPT-4更加保守,从21%增加到5%。 同时反编译软件有哪些,GPT-4的生成字符宽度从600多个增加到140左右,拒绝答案时更加简洁,提供的解释也更短。 GPT-3.5 也出现了类似的现象。 这表明新版 ChatGPT 的答案可能更安全,但也不再那么懦弱和不愿意解释。
最后的任务是视觉推理。 新版本GPT-4和GPT-3.5的整体性能较三个月前略有提升,但仍然不高:GPT-4的正确率为27.4%,GPT-3.5的正确率为12.2 %。 值得注意的是,虽然整体性能更好,但之前 GPT-4 没有犯过的错误却在新版本中出现了,可见关键应用进行轻弹检测的必要性。
论文中,作者并没有明确提及新版本ChatGPT的性能较旧版本有所下降,而只是描述了观察到的甩尾现象,并指出了持续评估LLM行为的必要性。生产应用,并建议用户和公司实施类似上述四项任务的监控分析,以保证其顺利运行。
Zou:“我们并不完全了解导致 ChatGPT 响应发生这种变化的原因,因为该模型是不透明的。调整模型以增强其在各个领域的性能可能会产生意想不到的副作用,从而使其在其他任务上表现更好。” 看上去更糟了。”
李飞飞的中学生、Nvidia的资深AI科学家Jim Fan也表达了他对这篇论文以及ChatGPT“反向”升级的看法。 他觉得OpenAI从3月到6月把大部分精力都花在了降低负载上,导致部分功能丧失。 但同时,安全对齐(Safety Alignment)使得编程变得冗余,让开发者更加苦恼,而降低成本可能会影响模型性能。
OpenAI回应:GPT没有EQ增长!
面对如此多的讨论,OpenAI 否认了 ChatGPT 性能落后的说法。 OpenAI 首席产品官 Peter Welinder 在一条推文中表示:“我们并没有让 GPT-4 看起来很荒谬。恰恰相反:我们让每个新版本都比前一个版本更加智能。” 他提出了一个猜测,“你使用得越多,你就越能注意到以前没有看到的问题”反编译软件有哪些,并鼓励你将你认为被 GPT 降级的屏幕截图发送给他进行分析。
从OpenAI公布的信息来看,新版本只是每月例行更新,以确保开发者仍然可以使用最好的模型。 但同时OpenAI也发现每月更新过于频繁。 尽管延迟了三个月,但开发人员却没有时间升级他们的应用程序。 为此,OpenAI将对最新OpenAIAPI中的gpt-3.5-turbo-0301和gpt-4-0314模型的支持延长至一年后的2024年6月13日,并表示某些情况下会遇到模型回归问题,可以通过发送更详细的提示来解决。
同时,OpenAI也在重点改进社区已报告的问题。 例如,OpenAI 技术发言人 Logan Kilpatrick 刚刚宣布,新版本的 ChatGPT 在被问到时将不再总是以“作为 OpenAI 训练的大型语言模型,得到以下推论……”开头,这是针对开发者的。 是否能够更直接的获取反馈,而对于ChatGPT来说,也在一定程度上减轻了系统的负担。
开源是答案吗?
有趣的是,Chen 等人关于 ChatGPT 测试的论文几乎与 Llama2 同时发表。 无论目的和用户如何,它都向所有人免费开放。 “OSSLLM 不会那么神秘。我们可以严格版本化和跟踪回归,作为社区诊断和修补所有此类问题,”范在一条推文中说。
自ChatGPT诞生以来,大家都在呼唤和渴望它的开源,但最终却什么也没有曝光。 即便是在 OpenAI 创始人 SamAltman 被直接问及开源的时候,他的回答依然巧妙地回避了 GPT 是否会开源,只是说“未来我们会有更多的开源模型,但没有具体的模型和时间”表面”。 这也是Llama2迅速获得全球开发者和企业青睐的关键。 对于构建像ChatGPT这样的封闭式大语言模型,安全的不确定性、更加持续透明的信息同步和维护仍然是开发者最迫切的需求。
参考链接: