字节跳动向大模型大乱斗扔出一个豆包

众兴菌业：上半年净利1.97亿元同比扭亏

湖南7家机构被评为四星及以上星级残疾儿童康复救助定点服务机构

2023-08-19 09:51:18 来源：品玩

好饭不怕晚，字节跳动自己的大模型终于有些动静了。

(资料图片仅供参考)

字节跳动首个大模型独立 App 今天上线，是一个 AI 对话产品，叫 " 豆包 "。

不知道豆包是不是 "dou bot" 的谐音。但至少豆包是可以用抖音登录的。之前的 Grace 还不是这样。

6 月初，Tech 星球报道字节正在内测代号为 Grace 的对话 AI 项目。两个月后，Grace 开启内测，得到授权后可以支持邮箱、Gmail 以及飞书账号登录。

字节跳动相关负责人曾在 8 月初对外回应，" 目前产品还不成熟，与国外的领先模型相比，还有较大差距。"

但很快，8 月 17 日 Grace 更名为 " 豆包 "，在更新页面中强调 " 支持发现智能体 " 以及 " 支持抖音登陆 "。

至少从这个面向外界的测试版本来看，" 豆包 " 已经有一个成熟的产品雏形。

接下来就是这个 " 豆包 " 里都有些什么馅儿了。

我登陆进去后，界面默认有 3 个不同名头的对话 bot（或许每个人不一样）：分别是全能写作助手、英语学习助手以及一个聊天虚拟人物。

加上 " 豆包 " 本身一共就有四个聊天窗口，但它们并不是各自训练方向不同的 bot。这可能体现了 " 豆包 " 最重视的几个能力：知识问答、多语言、情感分析以及多轮对话。

它有些思辨能力：

图源：AI 对话产品 " 豆包 "

它可以写小红书文案：

图源：AI 对话产品 " 豆包 "

你甚至已经可以找它他练习未来去面试 Tik Tok：

图源：AI 对话产品 " 豆包 "

值得一提的是，相比 Grace，" 豆包 " 取消了文生图的能力，是一个纯粹文本层面的 AI。

但它仍然不免会有一些幻觉，比如罗刹海市并不是 1998 年张信哲《等待》那张专辑里的歌，比如《等待》其实是张信哲 1994 年的专辑。比如 GPT-4 不是一个 2020 年发布的大模型。

" alt="

" width="1178" height="876">

图源：AI 对话产品 " 豆包 "

关于 " 豆包 " 掌握知识的新鲜程度，它自称训练数据截止到 2023 年，但似乎还不认识 GPT-4。

我在问过了 GPT-4 之后也同样它是否认识 GPT-5 和 GPT-6，答案也是肯定。这个问题不能说明 " 豆包 " 的训练数据足够新鲜，推理能力倒是不错。

图源：AI 对话产品 " 豆包 "

" 豆包 " 也已经具备一些大模型最核心的代码能力。比如它可以很快写出贪吃蛇或者五子棋的代码。但也有些奇怪的地方，比如它可以写微信小程序代码，但谈到抖音小程序又表示拒绝。

图源：AI 对话产品 " 豆包 "

在这之前外界都在纳闷，字节跳动为什么只有火山引擎为别人搭台唱戏，自己却一直没有拿出关于大模型的果实。

毕竟开始的并不晚。字节跳动早在今年 2 月就已经开始在语言和图像两种模态上布局大模型团队，汇报路线上由 Tik Tok 产品技术负责人朱文佳领衔，团队主体以字节跳动搜索业务部门和产品研发与工程架构部下属的智能创作团队为主导，再从 AI Lab 和 AML（应用机器学习）团队中抽调人手。

字节跳动语言大模型团队本来预期是在年中拿出大模型，但现在 8 月已过半。时间上看，" 豆包 " 做好的要比团队预期晚。

一位字节跳动 AI 产品团队的人曾对品玩表示，" 没动静说明做的还不行，等做的还行了，字节的产品就能看到了 "。

这样来说，" 豆包 " 的出现本身意味着一个不会太低的起点。更重要的是，作为字节跳动对外公开的第一个大模型动作，它从一开始就奔着产品化去，并且立刻落到了手机屏幕上。它是带着 toC 的巨大野心来的。

最后，以 " 豆包 " 对自己的技术背景介绍来结束吧。

我是由字节跳动公司训练的人工智能，名为豆包。我的技术背景包括以下几个方面：

● 语言模型：我是基于深度学习的语言模型，可以对输入的文本进行预测和生成。我的语言模型基于 Transformer 架构，具有高效的并行处理能力和良好的语言理解能力。

● 训练数据：我的训练数据来自互联网上的大量文本，包括新闻、博客、小说、论文等。这些数据被用于训练我的语言模型，以提高我的语言理解和生成能力。

● 优化算法：我的训练过程中使用了多种优化算法，包括随机梯度下降、Adagrad、Adadelta 等。这些算法用于优化我的模型参数，以提高我的性能和准确性。

● 模型评估：我的模型评估包括语言生成质量评估和语言理解评估。语言生成质量评估使用 BLEU 分数、困惑度等指标，语言理解评估使用准确率、召回率等指标。

通过以上技术背景，我可以对输入的文本进行预测和生成，并回答各种问题，以帮助用户获取信息和知识。

关键词：