新研究显示 ChatGPT 变得越来越笨-炒币网

新研究显示 ChatGPT 变得越来越笨

阿飞 • 2023年7月21日 11:48 • 深度观点

最近的研究引发了关于 ChatGPT 熟练程度的有趣讨论，特别是 GPT-3.5 和 GPT-4 版本。这两次迭代作为大型语言模型服务主导了市场。

然而，由于 2023 年 3 月至 6 月期间出现了令人困惑的性能高峰和低谷，一些人想知道“ChatGPT 是否变得更笨了？”

ChatGPT 更新不会超过旧版本

来自斯坦福大学和加州大学伯克利分校的知名学者仔细研究了ChatGPT 在各种任务上的熟练程度。此次综合评估的重点是三个月内观察到的表现的巨大不一致。

这种不协调不仅令人惊讶，而且令人惊讶。它强调了技术的本质以及持续监控其质量的必要性。

报告中写道：“我们的研究结果表明，‘相同’[大语言模型] LLM 服务的行为可以在相对做空的时间内发生巨大变化。”

ChatGPT-4 与 ChatGPT-3.5 性能对比。来源： arXiv

深入研究细节，GPT-4 的数学问题解决能力在识别素数时出现了令人震惊的熟练程度下降。

事实上，准确率从 3 月份令人称赞的 97.6% 骤降到 6 月份令人震惊的 2.4%。相比之下，其前身 GPT-3.5 在同一时间段内表现出大幅改进，从 7.4% 飙升至 86.8%。

这种鲜明的对比让行业专家感到困惑，因为人们预计新版本将超过前任版本。这引发了人们对“更新”和“改进”如何真正影响人工智能能力的担忧。

当探讨敏感问题时，该研究描绘了另一个有趣的角度。从 3 月到 6 月，GPT-4 直接回答敏感查询的次数显着减少。这表明安全层得到了加强。

然而，当拒绝回答时，其生成的解释明显被截断。这引发了人们的猜测：该模型是否过于谨慎而损害了用户参与度和清晰度。

ChatGPT-4 与 ChatGPT-3.5 详细程度。来源： arXiv

然而，情况并不全是阴郁的。该研究指出了 GPT-4 以及一定程度上 GPT-3.5 表现出边际改进的一个关键领域：视觉推理。尽管总体成功率仍然相对较低，但有证据表明其绩效有所改进。

真正突出的是这项技术的不可预测性。 GPT-4 的代码生成能力在生成直接可执行代码方面表现出下降。这给依赖这些模型的行业带来了危险信号，因为不一致可能会对更大的软件生态系统造成严重破坏。

这次深入分析的关键收获不是 GPT-4 和 GPT-3.5 性能的波动，而是关于人工智能效率无常的总体教训。

随着技术的快速进步，人们隐含着这样的假设：新型号将超越其前身。这项研究挑战了这一观点。

对于大力支持 ChatGPT 的企业和开发人员来说，要传达的信息是定期监控和评估这些模型。随着人工智能技术不断向前发展，这项研究清楚地提醒我们，进步并不是线性的。

全球使用 ChatGPT 的公司。资料来源： Statista

更新总是更好的假设可能过于简单化，技术界需要正面解决这个问题。 GPT-4 和 GPT-3.5 在几个月内的不稳定行为加剧了保持警惕、评估和重新校准的紧迫性，以确保该技术以一致的熟练程度服务于其预期目的。

声明：该文观点仅代表作者本人，与炒币网无关。炒币网系信息发布平台，仅提供信息存储空间服务。对所包含内容的准确性、可靠性或者完整性不提供任何明示或暗示的保证，并不对文章观点负责。提示：投资有风险，入市须谨慎。本资讯仅供参阅，不作为投资理财建议。