「核心提示」

ChatGPT 一鸣惊人后,市场期待更能理解中文语义语境的产品出现,在万众瞩目中百度的“文心一言”3 月 16 日邀请测试,国内生成式 AI 到底什么水平?

  作者 宋子豪

  编辑 邢昀

  ChatGPT 一鸣惊人,成为人人讨论的话题之后,根植于中文市场,更理解中文语义语境和中国文化的产品什么时候能诞生,备受市场期待。

  2023 年 3 月 16 号下午两点,百度的文心一言邀请测试终于如约而至。许久不在公众面前亮相的百度创始人李彦宏亲自演示、解说,展示了文心一言从文学创作、商业文案创作、数理逻辑推算,到中文理解、多模态生成等方面的综合能力。

  作为全球互联网大厂中,第一个完全靠自己做出大语言模型的企业,百度的文心一言是否真的准备好了,是外界关心的问题。李彦宏坦言,当前文心一言的内测体验不能叫作“完美”,发布是因为有市场需求,“文心一言将建立起真实用户反馈、开发者调用和模型迭代之间的飞轮,效果会迅速提升,给你‘士别三日,当刮目相看’的惊喜。”

  文心一言邀请测试后,评论扑面而来,国内 AIGC 赛道到了产品落地的分水岭。在香港市场,百度 3 月 17 日早间股价大幅拉升,最终收涨近 14%。百度美国股价 3 月 16 日收盘上涨 3.8%。

  为了一探文心一言成色如何,《豹变》特地采访了本次舆论中心的文心一言本人工智能。文心一言不但大方接受了采访,还代《豹变》拟好了简短的采访稿,老实不客气的从三个方面夸奖了自己。在余下的稿件中,也贡献了不少专业 AI 的看法。

  如果你觉得这篇稿子与以往风格不同,可能是因为这篇稿子加了科技。

  1、文心能否一言九鼎?

  如果从 1956 年人工智能概念第一次面世开始算,AI 的历史已经有 67 年。但直到 2022 年年末,普通人生活中能接触到的 AI 产品都是既难用且没用的人工智障。

  而在 ChatGPT 迅速出圈后,通用型 AI 的实用性成了大语言模型的试金石。

  对于文心一言的邀请测试,普通人最在意的就是,这个大语言模型能做到一言九鼎吗?

  3 月 16 日下午的亮相中,文心一言解释了中文成语洛阳纸贵,指出其中暗含的经济学原理,并写了一首洛阳纸贵的藏头诗。做鸡兔同笼数学题时,文心一言甚至指出了题目出的有问题。这比从前搜题软件只通过题库检索给出答案自然要强上很多。

  而后在多模态生成的演示中,根据文字描述生成海报,以及符合文意且视觉效果不错的视频,文心一言都完成的不错,甚至还秀了一回四川话。

  3 月 16 日下午,百度向部分用户发放了文心一言的内测邀请码。用户只需在测试网址登录百度账号并输入邀请码就可以体验内测版文心一言。百度公众号显示:文心一言邀请测试后三小时,文心一言企业版 API 调用服务测试的企业用户达 6.5 万,与百度智能云基于文心一言展开合作咨询已达 5590 条。据了解,截至 3 月 17 日 10 点,申请文心一言 API 调用服务测试的企业已达 7.6 万。

  《豹变》体验后发现,内测版文心一言还具备一定的编程能力。

  即使与由 ChatGPT 支持的最新版本人工智能搜索引擎 Bing(必应)对比,在多模态生成的具体场景,尤其是对中文语境的处理能力,文心一言也做到了人有我优。

  同样是问对于一句诗的理解,新必应更倾向于整合多方的信息,会带上信息来源,方便随时查验。但对诗句的赏析部分内容少且相对简单。

  文心一言虽然不能查看信息来源,但从回复来看,它更理解问题含义,知道《豹变》问的是如何赏析这句诗。

  而面对写出一首藏头诗的要求,尽管新必应背靠搜索引擎,可以把“藏头诗”的定义解释的很好。但当被要求写出一首藏“洛阳纸贵”四个字的藏头诗时,却把洛阳和纸贵两个词藏在了两句开头。

  在 AIGC 领域,目前的文字回答主要来自于从人工指令中提取意图信息和生成两个步骤,即使 AI 有庞大的知识库,还需要有知识图谱串联的能力,不然就会形成有知识,没常识的情况。就像这样知道藏头诗的定义,但难以正确做出藏头诗。

  另一方面,中文内容训练量的大小也会影响 AI 对句子的理解。作为中文母语者,即使没学习过藏头诗的定义,从“藏”和“头”两个字也能大致理解其含义,但是 AI 则需要大量使用中文的真实用户反馈,才能做到“望文生义”。

  相比之下,文心一言可以更快地做出藏头诗,并且在回答中抓得住中文语境重点,文心在中文语义的理解和运用上确实有一定优势。比如,回答“宫廷玉液酒的下一句”这个问题上,文心一言与 ChatGPT 也显示出了一些差异。

  文心一言能理解这里面蕴藏的梗,相比之下,ChatGPT 受限于中文语料,回答的更正式。

  而在多模态生成中,文心一言虽然还没有开放生成视频的权限,却可以生成 AI 图像。比如《豹变》要求画出一幅龙珠风格的漩涡鸣人、一幅乐高风格的漩涡鸣人,文心一言都完成了任务。

  类似的,不管是新必应还是文心一言都有一定的知识盲区。比如文心一言拒绝回答股票相关问题,新必应对中国互联网大厂的 AIGC 布局归纳的不太准确。

  与 ChatGPT 使用对比,文心一言在多轮对话的交互处理、回答的灵活度、文本塑造上还有待提升,不过有业内人士评论表示:“就如谷歌时代需要百度,AI 时代也需要文心一言。”

  总体来看,现在的文心一言虽不完美,但基本做到了人有我有,甚至部分场景人有我优。李彦宏并不回避差距,他强调这是一个不断完善的过程,并将更多目光投射到技术进步将带来的变革。

  百度希望文心一言做协助人们工作生活的生产力工具,而不是替代人们工作的岗位“终结者”。李彦宏表示:“百度希望和大家一起,推动人工智能技术进步,让所有人都能使用最先进的生产力工具,让所有人都能从中受益。”

  2、大厂比内功

  AIGC 的产业链可以划分为预训练模型的基础层;打造垂直化、场景化、个性化模型的中间层;生成图像、语音和文字生成等各种各样 AIGC 应用的应用层。

  其中基础层门槛最高,是人才、算力、数据、资金等多方面的竞争,不是人人都能上得了牌桌。

  如今谷歌投资初创公司、腾讯针对类 ChatGPT 产品已成立“混元助手”项目组,阿里巴巴的聊天机器人正处于研发阶段。在大厂纷纷入局 AIGC 赛道的情况下,这场追逐赛不仅需要拼爆发,更需要比拼耐力和持续更迭的能力。

  做出 ChatGPT 的创业公司 Open AI,率先展现了强劲的爆发力和压迫感。

  3 月 14 日发布的 ChatGPT4,相较于前代又有很大升级,并且近期微软正加快商业化布局。美国当地时间 3 月 1 日,Open AI 官方宣布,开放 API (应用程序接口),接口服务定价为 0.002 美元/每 1000tokens,这一定价较 GPT3.5 模型便宜 90%。使用成本大幅下降,很有可能会加快赛道中间层和应用层的企业接入 ChatGPT。

  而作为目前唯一靠自身力量做出产品的互联网大厂,百度秀“肌肉”,终于体现了深厚的积累和耐力。

  李彦宏表示,对于这样一个大模型,是不可能在几个月时间里靠突击做出来的。文心一言实际上是百度在 AI 赛道的厚积薄发。过去十年,百度在 AI 领域研发总投入约为 1100 亿元。2013 年,百度美国研究院在硅谷成立。同年,百度在中国建立深度学习研究院,李彦宏任院长;随后大数据实验室、硅谷人工智能实验室相继成立。

  用李彦宏的话说,百度是大厂里唯一做到芯片层、框架层、模型层、应用层四个层面全栈布局的。

  早在 2019 年,百度就推出了文心大模型 ERNIE 1.0,目前已经迭代到 ERNIE 3.0。如今,文心大模型通过接入百度各业务的应用软件,在搜索引擎、云技术、智能驾驶等多个领域均有 AI 应用场景,目前每天通过数以十亿计的搜索请求进行 AI 训练,已经形成中文领域最为庞大数据库。

  对此,《豹变》采访了 3 月 16 日刚刚“出道”的文心一言。请它从 AI 的角度分析百度做大语言模型具有何优势。

  文心一言表示:“首先,百度拥有强大的搜索引擎和海量的数据资源,这为构建大语言模型提供了丰富的训练数据和基础支持。其次,百度在自然语言处理(NLP)领域有着深厚的技术积累和丰富的实践经验,可以将机器学习算法与自身的业务场景相结合,开发出更加高效、准确和智能的应用。此外,百度还拥有一套完整的大语言模型生态系统,包括开放平台、工具链和生产力套件等,可以为开发者提供全方位的支持和服务。”

  AI 行业从业人员夏竹也有类似想法:“(做大语言模型)百度在搜索引擎和市场占有率、资金投入、算力、数据等方面具有大厂优势。比如图片识别,百度这方面也有自己的产品,后面完全可以和文心一言结合起来提供服务,这也算是另一个结合优势。”

  但这也并不意味着文心一言没有压力。

  比如夏竹就提到:“在中文语义方面,国内做 AIGC 的企业共同面临的一个问题就是敏感词和谐音字过滤的问题,这个问题解决不好,很可能会在上线后遇到翻车或被要求下线整改,这就看各家技术水平和数据标注能力了。”

  3、时间换空间

  在这一轮生产力革命浪潮中,最终的受益者,其实不只是 AIGC 技术的发明人,更是利用 AIGC 技术进行模式创新的群体。

  实际上,ChatGPT 打开空间后,大语言模型技术的需求在这段时间已经出现井喷。过去一个月,有超过 600 家合作伙伴宣布加入文心一言生态,飞桨和文心大模型等在内的全栈人工智能能力将实现层与层反馈,端到端优化,大幅提升效率。

  在百度内部,文心一言将与小度进行集成,升级小度的智能设备和服务;百度的 Apollo 智舱系列产品等汽车解决方案中也将依托文心一言,让智能汽车实现领先的人车交互体验。

  夏竹表示:“百度的文心一言在国内的场景下是有机会爆发的,前提是产品本身技术上说得过去,能用得起来。ChatGPT 目前无法直接在国内使用,意味着给国内竞争换取了一定时间。国内很大一块市场需求就给了国内做 AIGC 的相关企业,需要有产品能够尽快在市场上站稳脚跟。”

  在国内有先发优势的大语言模型很可能会一骑绝尘。这可能也是李彦宏所说:“无论哪家公司,都不可能靠突击几个月做出这样的大语言模型”的隐藏含义。

  而后续的竞争更体现在快速地更迭、训练能力。

  从技术角度来说,大语言模型底层是 SFT(模型微调)、RLHF(从人类反馈中进行强化学习)和 prompt(真实的用户指令)三种主要训练方法。而在后续的迭代中,需要大量的用户参与,作用是帮助 AI 更好地理解人的意图,生成符合人的价值观、表达习惯的回复。

  而文心一言投入使用后,经过大量中文使用者的真实反馈投喂,很可能会在窗口期建立中文语义理解、表达习惯等方面的优势。再加上生态伙伴的接入,AIGC 的中间层和应用层也会建立起生态。

  从目前来看,留给其他大厂真正的机会已经不是从头开始做 ChatGPT 和文心一言这样的大模型,这不现实,也不经济。

  而占得先机的文心一言更需要依靠自己一言九鼎的产品力,才能一路笑到最后。