想象一下,当你遇到问题时,有一个可以与你交谈的搜索机器人,它可以让你更容易找到答案(如果它不撒谎的话),这是多么方便的一件事。微软、谷歌、百度和其他公司都在致力于此。
JIANG CHEN(陈江,音译),一位曾在谷歌工作过的机器学习专家,当他第一次尝试 ChatGPT 时就被迷住了,这个来自 OpenAI 的聊天机器人使用起来非常连贯,看起来信息量很大,如今已经成为互联网上的一个热点。
但是,当陈试图使用同样的底层人工智能技术,为他联合创办的初创公司 Moveworks 构建更好的搜索工具时,这项技术的影响力光环开始显得暗淡了。Moveworks 使用人工智能来帮助员工筛选信息,如技术支持文件和人力资源页面。陈的新人工智能搜索工具在从这些文件中提取各种有用信息方面做得很好,包括提供地址和电话号码,但其中一些不是真的。“它的编造能力实在令人惊叹。”陈说。
人们对 ChatGPT 的狂热兴奋,以及普遍认为它可以重塑搜索引擎的说法是可以理解的。该聊天机器人可以通过综合从网络和其他来源抓取的数十亿字节中的信息来训练算法,为问题提供复杂而精密的答案。ChatGPT 可以让人体验到一种更流畅的与机器互动的方式。
但这项技术的工作方式在某些方面与可靠检索在线信息的搜索引擎的理念有着根本的不一致。网络上已经有很多不准确的信息了,而 ChatGPT 也很容易产生新的虚假信息。它的底层算法并不直接从事实或链接数据库中提取信息,而是生成一串单词,目的是在统计上与训练数据中的单词相似,而不考虑真相。
尽管面临着这样的挑战,也许是受到 ChatGPT 令人眼花缭乱的演示的影响,网络搜索巨头和几家初创公司也都正在迎头赶上。微软已经向 ChatGPT 的创造者 OpenAI 投资了大约 100 亿美元,微软也正在以某种方式将这种基础技术添加到其排名第二的搜索引擎必应(Bing)中。
据报道,谷歌公司一段时间以来一直在开发类似的聊天机器人 LaMDA,该公司也在匆忙之中对 ChatGPT 做出了回应——发布了 ChatGPT 的竞争者 Bard。中国领先的搜索引擎百度也正在开发一款类似 ChatGPT 的中文机器人。
在科技巨头们准备应对 ChatGPT 的同时,几家初创公司已经推出了带有类似聊天机器人聊天界面的搜索引擎。其中包括 You.com、Perplexity AI 以及 Neeva。
他们开发的工具说明了将 ChatGPT 式的技术应用于搜索的潜力和挑战。由语言和人工智能专家理查德·索切尔(Richard Socher)创立的 You.com 可以通过聊天界面提供答案。而且这些回答还带有引文,可以帮助用户追踪某条信息的来源。
但该模型有时会将不属于同一来源的信息结合起来。例如,询问一个人的信息,可能会得到一个结合了多个同名同姓人员的履历信息的答案。比如当被问及我的个人情况时,You Chat 准确地描述了我在《连线》杂志的职位,但也认为我是特拉华大学的一名橄榄球队跑卫和一名专业的创意人员。常规搜索可能会返回几个威尔·耐特斯(Will Knights)的介绍页面,而聊天机器人会将它们合并为一个人。
像 ChatGPT 这样的系统的另一个问题是,它的回答仅基于所训练的数据。由于模型的规模和数据的规模,对整个模型进行再训练可能要花费数百万美元。当被问及最新的体育比分时,YouChat 会感到困惑,但却知道纽约此刻的天气如何。创立 You.com 的索切尔不想透露最新信息是如何被整合进来的,他认为这是一种竞争优势。
索切尔说:“我认为现在很多聊天界面在某些方面比搜索体验要好得多,但在其他方面显然还差得多。我们正在努力减少所有这些问题。”
搜索初创公司 Perplexity AI 的创始人兼首席执行官阿拉温德·斯里尼瓦斯(Aravind Srinivas)曾在 OpenAI 工作过,他表示,用最新信息更新一个类似 ChatGPT 的系统所面临的挑战,意味着它们需要与其他东西结合起来使用。他说:“单靠它们,永远不可能成为优秀的搜索引擎。”
Greylock Partners 的风险投资人山姆·莫塔梅迪(Saam Motamedi)投资了人工智能搜索公司 Neeva,他表示,目前还不清楚聊天式搜索界面的主要收入模式,其广告的兼容性如何。谷歌和必应利用搜索查询来植入广告,这些广告出现在返回链接列表的顶部。莫塔梅迪怀疑,为了让聊天式搜索界面变得可行,可能需要出现新的广告形式,但目前还不清楚这些形式会是什么。而目前 Neeva 对无限制无广告搜索收取订阅费。
以谷歌的规模运行 ChatGPT 这样的模型,其成本也可能被证明是个问题。OctoML 是一家帮助企业降低部署机器学习算法成本的公司,其联合创始人兼首席执行官路易斯·塞兹(Luis Ceze)估计,运行 ChatGPT 搜索的成本可能是谷歌搜索的 10 倍,因为每个答案都需要运行一个庞大而复杂的 AI 模型。
眼下这股“ChatGPT 狂热”的规模让一些熟悉这种底层技术的程序员和人工智能研究人员都感到十分意外。该机器人的核心算法名为 GPT,由 OpenAI 于 2018 年首次开发,更强大的版本 GPT-2 于 2019 年发布。这是一种机器学习模型,旨在接收文本,然后预测接下来的内容,OpenAI 表明,如果使用大量文本进行训练,该模型的表现会非常好。自 2020 年 6 月以来,该技术的第一个商业版本 GPT-3 已供开发人员使用,可以完成 ChatGPT 最近受到赞赏的许多事情。
ChatGPT 使用了底层算法的改进版本,但其能力的最大飞跃来自于 OpenAI 让人类向系统提供反馈,告诉系统什么是令人满意的答案。但就像之前的文本生成系统一样,ChatGPT 仍然倾向于从训练数据中重现偏见,以及“编造”看似合理但不正确的结果。
纽约大学(New York University)名誉教授加里•马库斯(Gary Marcus)直言不讳地批评人工智能炒作,他认为 ChatGPT 不适合搜索,因为它对自己所说的内容没有真正理解。他补充说,像 ChatGPT 这样的工具可能会给搜索公司带来其他问题,因为它们会让互联网充斥着人工智能生成的、搜索引擎优化的文本。“所有的搜索引擎都会遇到问题,”他说。
亚历克斯•拉特纳(Alex Ratner)是华盛顿大学(University of Washington)的助理教授,也是致力于更有效地训练人工智能模型的 Snorkel AI 公司联合创始人,他称 ChatGPT 标志着软件所能做的事的“合理拐点”。但他也表示,要想弄清楚如何防止像 GPT 这样的语言模型胡编乱造,可能还需要一段时间。他认为,要想找到一种方法让这些语言模型与新信息保持同步,以保持搜索的实时性,很可能需要采用新的方法来训练底层人工智能模型。
这些解决方案需要多长时间才能发明出来并得到验证,目前尚不清楚。即使有其他用例出现,比如将其作为学习或编程伙伴,这项技术也可能还需要一段时间才能从根本上改变人们搜索答案的方式。Moveworks 公司的陈说:“这很了不起,我告诉团队,人们会看到 ChatGPT 带来的跨时代的变化,甚至会出现 pre-ChatGPT 和 post- ChatGPT 的说法。但它是否会取代搜索,则是另一个问题。”
来源:元宇宙之心