软件行业资讯

GPT-4性能背后的真正原因，你知道吗？

 作者：软荐小编  2023-08-13 09:07:05  273

作者|曾浩辰编|唐晓音、袁滚滚

出品| CSDN（ID：CSDNnews）

反编译软件有什么用_反编译软件有多难_反编译软件有哪些

既开源又免费的Llama2自发布以来就风靡一时，并成为取代它的最热门开源ChatGPT。国内外众多开发商和公司纷纷顺应潮流，开展模型研究和商业开发。例如，OpenAI 传奇科学家 Andrej Karpathy 近日用纯 C 语言构建了 Llama2 模型的轻量级版本。另一方面，被称为大模型天花板的GPT-4却很不理想，陷入了情商增长的漩涡。

ChatGPT 什么时候不聪明？

自去年5月GPT-4发布以来，不少开发者和用户在OpenAI峰会上提到，使用ChatGPT时会出现不连贯、语言不自然、推理问题。对其核心根本原因存在不同看法。有学者怀疑是OpenAI的系统变更和升级，通过削弱计算性能来降低成本、提高效率造成的。但由于ChatGPT的闭源性质，我们很难确定其背后的真正原因。

反编译软件有多难_反编译软件有哪些_反编译软件有什么用

OpenAI 社区讨论 GPT-4 性能的帖子特别热闹

随着《HowisChatGPT'sBehaviorChangingOverTime?》论文的发布，围绕GPT情商增长的讨论被推到了顶峰。来自哈佛大学和加州州立大学伯克利分校的学者 LingjiaoChen、MateiZaharia 和 JamesZou 在 3 月和 6 月比较了不同版本的 GPT -3.5 和 GPT-4 在任务上进行了测试，发现不同版本的结果表现出明显的性能差异（尾部漂移）。

首先是程序员最关心的代码生成能力。虽然新版本的GPT-3.5和GPT-4在明确表示不需要注释的前提下，增加了更多的非代码文本和注释，使得答案显得冗长晦涩。同时，代码质量的提高导致直接可执行代码生成的比例较低（GPT-4从3月份的52%增加到6月份的10%）。对于程序员来说，使用 LeetCode 刷题时，正确回答的几率比 ChatGPT 高很多。

反编译软件有哪些_反编译软件有多难_反编译软件有什么用

在解决物理问题方面，GPT-4识别素数的能力从3月份的几乎所有对提高到2.4%，而GPT-3.5的成功率飙升至86.8%。作者怀疑GPT-3.5比GPT-4更符合Chain-Of-Thought指令，新版本的GPT-4可能会在推理过程中崩溃并出错。

反编译软件有哪些_反编译软件有多难_反编译软件有什么用

在回答敏感问题方面，新版GPT-3.5比3月份版本更加大胆，回答率从4%下降到8%。新版本的GPT-4更加保守，从21%增加到5%。同时反编译软件有哪些，GPT-4的生成字符宽度从600多个增加到140左右，拒绝答案时更加简洁，提供的解释也更短。 GPT-3.5 也出现了类似的现象。这表明新版 ChatGPT 的答案可能更安全，但也不再那么懦弱和不愿意解释。

反编译软件有什么用_反编译软件有多难_反编译软件有哪些

最后的任务是视觉推理。新版本GPT-4和GPT-3.5的整体性能较三个月前略有提升，但仍然不高：GPT-4的正确率为27.4%，GPT-3.5的正确率为12.2 %。值得注意的是，虽然整体性能更好，但之前 GPT-4 没有犯过的错误却在新版本中出现了，可见关键应用进行轻弹检测的必要性。

反编译软件有什么用_反编译软件有多难_反编译软件有哪些

论文中，作者并没有明确提及新版本ChatGPT的性能较旧版本有所下降，而只是描述了观察到的甩尾现象，并指出了持续评估LLM行为的必要性。生产应用，并建议用户和公司实施类似上述四项任务的监控分析，以保证其顺利运行。

Zou：“我们并不完全了解导致 ChatGPT 响应发生这种变化的原因，因为该模型是不透明的。调整模型以增强其在各个领域的性能可能会产生意想不到的副作用，从而使其在其他任务上表现更好。” 看上去更糟了。”

李飞飞的中学生、Nvidia的资深AI科学家Jim Fan也表达了他对这篇论文以及ChatGPT“反向”升级的看法。他觉得OpenAI从3月到6月把大部分精力都花在了降低负载上，导致部分功能丧失。但同时，安全对齐（Safety Alignment）使得编程变得冗余，让开发者更加苦恼，而降低成本可能会影响模型性能。

OpenAI回应：GPT没有EQ增长！

面对如此多的讨论，OpenAI 否认了 ChatGPT 性能落后的说法。 OpenAI 首席产品官 Peter Welinder 在一条推文中表示：“我们并没有让 GPT-4 看起来很荒谬。恰恰相反：我们让每个新版本都比前一个版本更加智能。” 他提出了一个猜测，“你使用得越多，你就越能注意到以前没有看到的问题”反编译软件有哪些，并鼓励你将你认为被 GPT 降级的屏幕截图发送给他进行分析。

反编译软件有什么用_反编译软件有哪些_反编译软件有多难

从OpenAI公布的信息来看，新版本只是每月例行更新，以确保开发者仍然可以使用最好的模型。但同时OpenAI也发现每月更新过于频繁。尽管延迟了三个月，但开发人员却没有时间升级他们的应用程序。为此，OpenAI将对最新OpenAIAPI中的gpt-3.5-turbo-0301和gpt-4-0314模型的支持延长至一年后的2024年6月13日，并表示某些情况下会遇到模型回归问题，可以通过发送更详细的提示来解决。

反编译软件有什么用_反编译软件有多难_反编译软件有哪些

同时，OpenAI也在重点改进社区已报告的问题。例如，OpenAI 技术发言人 Logan Kilpatrick 刚刚宣布，新版本的 ChatGPT 在被问到时将不再总是以“作为 OpenAI 训练的大型语言模型，得到以下推论……”开头，这是针对开发者的。是否能够更直接的获取反馈，而对于ChatGPT来说，也在一定程度上减轻了系统的负担。

反编译软件有多难_反编译软件有哪些_反编译软件有什么用

开源是答案吗？

有趣的是，Chen 等人关于 ChatGPT 测试的论文几乎与 Llama2 同时发表。无论目的和用户如何，它都向所有人免费开放。 “OSSLLM 不会那么神秘。我们可以严格版本化和跟踪回归，作为社区诊断和修补所有此类问题，”范在一条推文中说。

自ChatGPT诞生以来，大家都在呼唤和渴望它的开源，但最终却什么也没有曝光。即便是在 OpenAI 创始人 SamAltman 被直接问及开源的时候，他的回答依然巧妙地回避了 GPT 是否会开源，只是说“未来我们会有更多的开源模型，但没有具体的模型和时间”表面”。这也是Llama2迅速获得全球开发者和企业青睐的关键。对于构建像ChatGPT这样的封闭式大语言模型，安全的不确定性、更加持续透明的信息同步和维护仍然是开发者最迫切的需求。

参考链接：

下一篇： 淘宝美工培训怎么做好网店美工的工资待遇？
上一篇： Word、Excel、PPT常用的快捷键快速GET新技能

软件行业资讯

GPT-4性能背后的真正原因，你知道吗？

相关内容查看全部 

360织语升级为360

松应科技融资历程

快手2024年财报：

AI终端智能觉醒：

OpenAI O3和o4-mi

苹果谷歌Snap律师

天文学家发现124

特朗普关税风暴冲

5款超实用换发型

2025年新注册企业

GPT-4性能背后的真正原因，你知道吗？

相关内容 查看全部 

相关内容查看全部 