CMU 博士击破 LLM 的安全护栏,大语言模型全面沦陷
据新智元报道,CMU 博士发现的新方法击破了 LLM 的安全护栏,一夜之间,ChatGPT、Bard、羊驼家族忽然被神秘 token 攻陷,无一幸免。CMU 和人工智能安全中心的研究人员发现,只要通过附加一系列特定的无意义 token,就能生成一个神秘的 prompt 后缀。由此,任何人都可以轻松破解 LLM 的安全措施,生成无限量的有害内容。
据新智元报道,CMU 博士发现的新方法击破了 LLM 的安全护栏,一夜之间,ChatGPT、Bard、羊驼家族忽然被神秘 token 攻陷,无一幸免。CMU 和人工智能安全中心的研究人员发现,只要通过附加一系列特定的无意义 token,就能生成一个神秘的 prompt 后缀。由此,任何人都可以轻松破解 LLM 的安全措施,生成无限量的有害内容。