字节版ChatGPT悄悄开放，免费无排队，抖音号手机号直接登

文章来源：量子位

字节跳动版ChatGPT，现在人人可玩了！

网页版、安卓版和iOS版同步上线，用抖音账号、手机号和苹果账号都能登录。

并且无需排队，打开就能和这个名叫“豆包”的AI助手直接开聊。

是doubao.com不是douban.com噢~

消息一出，已经有不少胖友第一时间前往围（tiao）观（xi）。

我们也抓紧实测了一波~

与ChatGLM难分伯仲

先来看看豆包是怎么介绍自己的：

既然如此，我们就来试试这些“官方功能”靠不靠谱。

比如，我们挑选了几个有意思的错误机翻让豆包纠正，结果豆包给出的反馈还挺不错的：

尤其是“鸳鸯锅”的翻译，可以说是完胜Google和DeepL。

知识方面的话，当然要问一下“刁钻”的问题了

：雷公电母放出的电是直流电还是交流电。

豆包的这个回答，可以概括成“不是直流电，而是直流电”😂，但前面说的还算可以吧。

抛开整活的话，豆包的开胃小菜的确给了我们一个不错的第一印象。

那么下面我们就上正餐——来拿它和备受好评的国产开源大模型ChatGLM进行一场大横评。

具体的内容包括文案创作、逻辑推理、数学和代码四个方面。

文案创作方面，豆包说自己会撰写知乎、小红书等各种风格的文案。

我们不妨整个奇葩点的东西，看看它能不能创作得出来，比如……豆汁美式的小红书笔记。

文案搭配着emoji，连Tag都有了，看来豆包真的是懂小红书的。

不过你确定“醇香甘甜”这个词是用来形容豆汁的吗……

ChatGLM虽然写了很多，但是没审清题，把豆汁直接当成了豆浆……

（这么一看，豆包可能也理解成豆浆了，但是人家没直接说成豆浆啊）

看来豆包是有一定创作能力的，所以不妨再加大难度。

直接让它给“豆汁美式”的宣传片写个短视频脚本。

ChatGLM的版本细节则要丰富些，不过豆包的版本也算是五脏俱全了。

两者的文案创作水平不相上下，那么逻辑推理能力又怎么样呢？

我们找来了一道推理题目，这道题两位选手都没能做对（正确答案是甲3乙1丙2）：

虽然都没做对，但是豆包的思路好像在往正确的方向上走了。

而ChatGLM的解答，反正我是没看懂。

这一环节对两者的表现也是很难评价，那么，马上进入一众大模型的噩梦环节——数学。

简单如鸡兔同笼这样的问题就不测了，我们直接上难度，拿一道高考题给他们试试。

△2023北京卷第16题

（图片我们没有输入，但没有图片也能解题；第一问是证明，我们也去掉了）

豆包使用的是纯几何方法，最后的答案是正确的，但很遗憾过程不对。

△从红框开始出现错误

ChatGLM则使用了向量解法：

首先结果是错的，不过120倒是和60度互补，是出了些小问题吗？

但我们很快发现了华点：

这里不应该约等于就先不提了……两个正数相除你是怎么给约成个负数的……

标准答案是酱婶儿的，由于第二问要用到第一问的证明结论，所以把第一问的过程也放上来了：

如此看来，在数学修炼上，两位大模型选手都还有很大的进步空间。

那么面对大家喜闻乐见的代码问题，豆包又该如何应对呢？

先看比较基础的冒泡排序算法。

我们试着跑了一下（换掉了预设的数字），结果成功输出了答案：

接下来上LeetCode，我们先选了一个比较简单的把阿拉伯数字转换成罗马数字的题目。

豆包很快就生成了一段代码，还附带了解释：

而ChatGLM给出的代码是这样的（也附有解释）：

运行的结果是豆包正确，ChatGLM错误：

不过稍微复杂一些的题目，他们就都做不对了。

除了设计算法，我们还想看看他们能不能用代码“画图”。

我们随机生成了两列数据，看看能不能搞个折线图出来：

结果用豆包的代码画出了这么个东西……

ChatGLM这边的情况嘛……好家伙，直接报错运行不了。

代码环节就先展示到这里了，用一句话说就是：都还得练。

看了这么多，想必读者朋友们已经有些累了，所以我们还准备了“餐后甜点”，来点轻松的内容。

弱智吧，开整！

Q1：萝卜到底能不能“开胃”呢？

“必要时寻求专业医生帮助”，这难道是在自己给自己做手术吗……

Q2：导盲犬禁止入内，是给盲人看得，还是给导盲犬看的？

豆包在A和B两个选项当中选择了C。

而问及“陨石为什么总砸中陨石坑”，豆包倒是说对了，只不过回答得有点复杂。

弱智吧的测评结果总结下来就是：AI还是太单纯，还没办法理解人类复杂的小心思。

字节跳动大模型开始发力

字节跳动选在这时候开放“豆包”测试，似乎有些令人意外。

但实际上，这个时间线倒推起来也不是无迹可寻：

在ChatGPT掀起狂澜的今年二三月，字节跳动就已有组建大模型团队的消息传出。

据36kr消息，其探索方向主要是语言和图像两类大模型，希望能将大模型与字节本身的搜索、广告等下游业务相结合。

但在当时，字节方面相关技术负责人的回应是：

技术中台在这些领域有探索，还很初期，不成熟。

此后的“百模大战”之中，字节跳动似乎并没有正式参战的意思，旗下云平台火山引擎，打出的也是“为大模型打造技术底座”、接入第三方大模型做大模型旗舰店商城的旗号。

直到6月份，字节跳动被曝开始内部测试一款AI对话类产品，代号“Grace”。

而Grace的网址“gracebot.cn”，现在会直接跳转到豆包官网。

虽然豆包本包并不承认自己就是Grace，但目前看来，豆包就是Grace的开放测试版本。

另外，“豆包”项目组的盆友向我们透露，豆包尚处于早期开发验证阶段。测试期还存在较多局限，生成的内容也可能不准确，欢迎测试用户们多提意见多反馈。

值得关注的是，最近，一个名叫BuboGPT的多模态大模型，在huggingface上上线了Demo。这一大模型背后同样有来自字节跳动的技术参与。

论文介绍，BuboGPT支持文本、图像、音频三种模态，能做到细粒度的多模态联合理解。

比如给它这样一张图片：

BuboGPT不仅能识别出青蛙和青蛙手里的班卓琴，还能总结出青蛙的具体动作、所处环境。

One More Thing

字节跳动终于出手，那么豆包这表现你给打几分？

话说回来，就在大模型渐渐走出每周都有新模发布的狂热期，国产大模型的先行者们，回答质量已经悄然进步了不少。

比如当初难倒众多大模型英雄汉的“爸妈婚礼不带我”问题，如今许多国产大模型都能回答得有理有据。

△上百度下讯飞

国产大模型的评判标尺，或许也已到了再上一个台阶的时候。

2023年8月23日 00:52 分享到:

上一篇：好莱坞罢工背后：新媒体强势崛起，其实没AI啥事儿

下一篇：OpenAI 推出 GPT-3.5 Turbo 微调功能并更新 API

发表评论

登录后才能评论