人工智能的复杂进步催生了大型语言模型 (LLM),例如 ChatGPT 和 Google 的 Bard。这些实体可以生成如此类似人类的内容,以至于挑战了真实性的概念。
当教育工作者和内容创作者聚集在一起强调法学硕士潜在的滥用行为(从作弊到欺骗)时,人工智能检测软件声称拥有解药。但这些软件解决方案到底有多可靠?
不可靠的人工智能检测软件
对许多人来说,人工智能检测工具让我们看到了防止真相被侵蚀的希望。他们承诺识别技巧,保护人类创造力的神圣性。
然而,马里兰大学的计算机科学家在寻求准确性的过程中对这一说法进行了检验。结果?给行业敲响了警钟。
马里兰大学助理教授 Soheil Feizi 揭露了这些人工智能探测器的漏洞,称它们在实际场景中并不可靠。简单地解释 LLM 生成的内容通常会欺骗 Check For AI、Compilatio、Content at Scale、Crossplag、DetectGPT、Go Winston 和 GPT Zero 等使用的检测技术。
“即使是我们拥有的最好的探测器,其准确度也会从 100% 下降到抛coin的随机性。如果我们简单地解释一下法学硕士生成的东西,我们通常可以智取一系列检测技术,”飞子说。
人工智能相关问题。资料来源: Statista
飞子认为,这种认识强调了第一类错误(人类文本被错误地标记为人工智能生成)和第二类错误(人工智能内容设法在不被发现的情况下溜过网络)的不可靠二分法。
一个值得注意的例子成为头条新闻,人工智能检测软件错误地将美国宪法归类为人工智能生成的宪法。如此严重的错误不仅是技术故障,还可能损害声誉,导致严重的社会道德影响。
阅读更多:联合国报告强调人工智能崛起造成的政治虚假信息的危险
飞子进一步阐明了这一困境,表明由于法学硕士的发展,区分人类和人工智能生成的内容可能很快就会变得具有挑战性。
“理论上,你永远不能可靠地说这句话是由人类或某种人工智能写的,因为两种类型的内容之间的分布非常接近。当你想到法学硕士和法学硕士攻击者(例如释义者或欺骗者)变得多么复杂时,这一点尤其正确。”非子说。
发现独特的人文元素
然而,与任何科学论述一样,也存在相反的叙述。马里兰大学计算机科学助理教授黄芙蓉持有更乐观的观点。
她假设,如果有足够的数据表明人类内容的构成,那么区分两者仍然是可以实现的。当法学硕士通过大量文本存储库磨练他们的模仿能力时,黄认为,如果能够访问更广泛的学习样本,检测工具就会不断发展。
黄的团队还着眼于一种独特的人文因素,这可能是可取之处。人类行为固有的多样性,包括独特的语法怪癖和词语选择,可能是关键。
“这就像生成人工智能和探测器之间持续的军备竞赛。但我们希望这种动态关系实际上能够改善我们创建生成式法学硕士及其检测器的方式,”黄说。
围绕人工智能检测有效性的争论只是更广泛的人工智能争论的一个方面。飞子和黄一致认为,彻底禁止 ChatGPT 等工具并不是解决方案。这些法学硕士在教育等领域具有巨大的潜力。
阅读更多:新研究显示 ChatGPT 变得越来越笨
重点不应该是努力建立一个不可能的、100% 万无一失的系统,而应该重点加强现有系统以抵御已知的漏洞。
对人工智能监管的需求日益增长
未来的保障措施可能不仅仅依赖于文本分析。飞子暗示了二次验证工具的集成,例如与内容提交或行为模式分析相关的电话号码身份验证。
这些额外的层可以提高对人工智能错误检测和固有偏见的防御能力。
虽然人工智能可能存在不确定性,但飞子和黄强调需要就法学硕士的道德利用进行公开对话。人们普遍认为,如果负责任地利用这些工具,可以极大地造福社会,特别是在教育和打击错误信息方面。
阅读更多: 这三位亿万富翁看好人工智能,看跌加密货币
信任人工智能治理的大型科技公司。资料来源: Statista
然而,前方的道路并非没有挑战。黄强调了通过与政策制定者讨论建立基本规则的重要性。
黄认为,随着研究界不断追求更好的检测器和水印以遏制人工智能滥用,自上而下的方法对于确保管理法学硕士的连贯框架至关重要。