研究:使用微调的 Code Llama-34B 在 HumanEval 评估中击败了 GPT-4

据机器之心报道,Meta 已开源专攻代码生成的基础模型 Code Llama,可免费用于研究以及商用目的。根据研究,Code Llama 的不同版本在 HumanEval 和 MBPP 数据集上的一次生成通过率(pass@1)都超越 GPT-3.5。

此外,Code Llama 的「Unnatural」34B 版本在 HumanEval 数据集上的 pass@1 接近了 GPT-4(62.2% vs67.0%)。不过 Meta 没有发布这个版本,但通过一小部分高质量编码数据的训练实现了明显的效果改进。来自 Phind(一个组织,旨在构造一款为开发人员而生的 AI 搜索引擎)的研究者向 GPT-4 发起挑战,该研究用微调的 Code Llama-34B 在 HumanEval 评估中击败了 GPT-4。

Phind 联合创始人 Michael Royzen 表示:“这只是一个早期实验,旨在重现(并超越)Meta 论文中的「Unnatural Code Llama」结果。将来,我们将拥有不同 CodeLlama 模型的专家组合,我认为这些模型在现实世界的工作流程中将具有竞争力。”

此前报道,Meta 已开源文本生成代码 AI 编程模型 Code Llama

上一篇:

下一篇:

发表评论

登录后才能评论