最近的研究引发了关于 ChatGPT 熟练程度的有趣讨论,特别是 GPT-3.5 和 GPT-4 版本。这两次迭代作为大型语言模型服务主导了市场。
然而,由于 2023 年 3 月至 6 月期间出现了令人困惑的性能高峰和低谷,一些人想知道“ChatGPT 是否变得更笨了?”
ChatGPT 更新不会超过旧版本
来自斯坦福大学和加州大学伯克利分校的知名学者仔细研究了ChatGPT 在各种任务上的熟练程度。此次综合评估的重点是三个月内观察到的表现的 巨大不一致。
这种不协调不仅令人惊讶,而且令人惊讶。它强调了技术的本质以及 持续监控其质量的必要性。
报告中写道:“我们的研究结果表明,‘相同’[大语言模型] LLM 服务的行为可以在相对做空的时间内发生巨大变化。”
ChatGPT-4 与 ChatGPT-3.5 性能对比。来源: arXiv
深入研究细节,GPT-4 的数学问题解决能力在识别素数时出现了令人震惊的熟练程度下降。
事实上,准确率从 3 月份令人称赞的 97.6% 骤降到 6 月份令人震惊的 2.4%。相比之下,其前身 GPT-3.5 在同一时间段内表现出大幅改进,从 7.4% 飙升至 86.8%。
了解更多:什么是 ChatGPT 插件?查看我们的 20 佳精选
这种鲜明的对比让行业专家感到困惑,因为人们预计新版本将超过前任版本。这引发了人们对“更新”和“改进”如何真正影响人工智能能力的担忧。
缺乏详细解释和代码生成
当探讨敏感问题时,该研究描绘了另一个有趣的角度。从 3 月到 6 月,GPT-4 直接回答敏感查询的次数显着减少。这表明安全层得到了加强。
然而,当拒绝回答时,其生成的解释明显被截断。这引发了人们的猜测:该模型是否过于谨慎而损害了用户参与度和清晰度。
ChatGPT-4 与 ChatGPT-3.5 详细程度。来源: arXiv
然而,情况并不全是阴郁的。该研究指出了 GPT-4 以及一定程度上 GPT-3.5 表现出边际改进的一个关键领域:视觉推理。尽管总体成功率仍然相对较低,但有证据表明其绩效有所改进。
了解更多: 2023 年您可以使用的最佳 ChatGPT 替代品
真正突出的是这项技术的不可预测性。 GPT-4 的代码生成能力在生成直接可执行代码方面表现出下降。这给依赖这些模型的行业带来了危险信号,因为不一致可能会对更大的软件生态系统造成严重破坏。
不能自满
这次深入分析的关键收获不是 GPT-4 和 GPT-3.5 性能的波动,而是关于人工智能效率无常的总体教训。
随着技术的快速进步,人们隐含着这样的假设: 新型号将超越其前身。这项研究挑战了这一观点。
对于大力支持 ChatGPT 的企业和开发人员来说,要传达的信息是定期监控和评估这些模型。随着人工智能技术不断向前发展,这项研究清楚地提醒我们,进步并不是线性的。
了解更多: 2023 年值得探索的 21 个最佳 ChatGPT 提示
全球使用 ChatGPT 的公司。资料来源: Statista
更新总是更好的假设可能过于简单化,技术界需要正面解决这个问题。 GPT-4 和 GPT-3.5 在几个月内的不稳定行为加剧了保持警惕、评估和重新校准的紧迫性,以确保该技术以一致的熟练程度服务于其预期目的。