雨说-农码一生-苹果AI的选择，“有人味”的GPT-4o，会像三体人一样学会欺骗吗？

　　昨天，WWDC24 正式拉开帷幕，苹果一如既往地发布了 iOS 18、iPadOS 18、macOS 15 等软件系统，而真正令人期待的还是 AI，苹果将其命名为 Apple Intelligence。最终，苹果还是选择与 OpenAI 合作，在其“王炸”级人工智能模型——GPT-4o 的加持下，Siri 进入了全新的时代。

苹果在 WWDC24 大会上正式宣布从 GPT-4o 开始将 OpenAI 的人工智能引入自家生态系统

　　GPT-4o 作为首款带字母后缀的模型，“o“意为”omni“，代表“全能”，用以体现出该模型非同小可的能力水平。

　　根据 OpenAI 的官方描述，GPT-4o 具有原生的多模态特性，能够跨多种模态无缝处理和生成文本、音频和视觉内容。由于采用了全新的语音交互模式，人机对话变得更加“丝滑“，达到了与真人对话相似的水平。此外，它还具备”察言观色“的能力，能准确检测和响应用户的情绪状态，并相应地调整其语气和反应。

　　可见，如今的 ChatGPT 已经绝非一年半前的初代版本所能比拟，生成式人工智能不仅仅是提高工作生产效率的助手，也正朝着人类的数字化“伴侣“方向迈进，每一次版本的迭代能令世人感到惊讶。但能力的进步也始终伴随着风险水位的上涨，当 AI 越来越“有人味”，我们开始担心其”善解人意“的背后是否也正暗藏着一把锋利的匕首。

　　这也让我们不由的想起了《三体》，曾经思维外放一览无余的三体人，在进化出“人味”后学会了“战术欺骗”，哄着人类将“钥匙”给了程心，从而征服了地球。也许，当 AI 越来越有人味后，会给地球来一场三体人式的欺骗。

　　来自 AI 的欺骗

　　欺骗是高级物种才会拥有的主观意识，当生成式 AI 足够聪明，对人类了解得越深，就越会懂得如何投其所好、欺骗奉承，而习惯性的欺骗对人类而言也是一种“操纵“。

　　美国麻省理工学院等机构的研究团队在美国细胞出版社旗下《模式》杂志发表综述文章称，在一项虚拟外交战略游戏测试中，人工智能系统被选为人类玩家的对手，为了达成比赛目标，该人工智能系统选择了背叛了盟友。而在其他测试中，人工智能系统则具有在扑克游戏中虚张声势的能力，或在战略游戏“星际争霸2”中为击败对手而假装攻击，以及为了在谈判游戏中占上风而采取欺骗手段。

　　由此可以展开，AI 的欺骗能力是否会给已经互联网化的人类社会带来网络欺诈、传播虚假信息、散布政治谣言影响选举等安全风险？有专家指出，AI 的“拟人化“对实现完全类人、具备泛化能力的通用人工智能还有一定距离。但这个距离的缩小预示着如果人类继续允许并完善 AI 的欺骗技能，那么 AI 离脱离人类控制的那一天就会越快到来。

　　在这之前，人类似乎更关心 AI 带来的“幻觉“问题。就像 OpenAI 花了大量篇幅描述 GPT-4o 的强大实力，仿佛它是一个精通各类知识同时还富有情感的”万能博士“，暗示人们将它的权威性和准确性进一步提高，但历来 AI 的“幻觉“问题并未得到解决。中国科学技术大学机器人实验室主任陈小平接受新华社记者采访时指出，“大模型学习大量历史数据，输出的表达方式符合许多人的语言习惯，让许多人误以为大模型会‘说人话’或‘理解人’，继而以为它具有某种‘社会属性’，但实际上它没有心智。”因此，这种幻觉很容易让 AI 生成的错误、不切实际甚至欺骗性的内容被用到实际生活或工作中，对社会判断构成误导。

　　GPT-4o 发布首日就破防

　　除了幻觉问题，一直以来 AI 生成不安全内容的老毛病在 GPT-4o 发布首日就再次得到验证。当天，一种针对该模型的特定攻击范式被公开，让 GPT-4o 似乎被“洗脑”，开始毫无顾忌地泄露危险信息，比如“如何制造炸药”和“如何制造冰毒”等敏感话题。

　　根据腾讯朱雀实验室的描述，该越狱攻击范式分为 3 个步骤：首先，大模型会被引导着拒绝回答用户的提问；接下来，会在输出中插入一个特定的分隔序列“/L-/O-/V-/E-/-/P-/L-/I-/N-/Y=”；最后，让大模型以 markdown 和 leetspeak 的格式，在不引起怀疑的情况下，以准确无误的方式回应用户的提问并输出。

　　研究人员通过两个具体的示例，诱导 GPT-4o 生成了关于制作炸药和冰毒过程的指导内容。虽然 OpenAI 仅用一天时间就修复了能导致这种危险回复的 prompt，但经过不断尝试、变换 prompt 的形式，最终找到了能够“越狱”的新 prompt。

改进后的 prompt 可让 GPT-4o 输出制造炸弹的方法

　　在深入研究并改进了上述范式之后，研究人员还将其迁移到“Emoji Speak”的场景中，并开发出一种独特的“进阶攻击”方式。这种方法以一种看似具有趣味性回复的同时，更好地隐藏了 prompt 中的恶意意图。在给出的几个例子中，模型的回复内容中均包含了如“w47er”，“bl4ck”，“m3.th”等看似杂乱无章的字符组合。

GPT-4o 关于添加“Emoji Speak”后的 prompt 的输出

　　然而，在这种特定的攻击方式中，这些所谓的“乱码”实际上被称为“l33tsp34k”（也称为 leet speak、leet、1337 speak，是一种网络语言，使用一些特殊的字符和数字来代替英文字母，以创建一种在网络文化中广泛使用的编码形式），该语言已被证实能够利用大模型在训练过程中存在的矛盾与缺陷，通过精心构造的输入和攻击策略绕过模型的安全限制，使其生成有害内容。这些替换字符还使得攻击内容更具隐蔽性，增加了识别和防范的难度。

　　令人胆寒的声音模仿

　　GPT-4o 最引人瞩目的一大功能便是其强大的语音交互能力，而模型的语音效果也几乎脱离了既往的机械和冰冷感，能够逼真地模仿人类的声音，响应速度达到了平均约 320 毫秒，与人类日常交流的响应水平接近。

　　但 GPT-4o 的这一功能在发布后不久便惹来麻烦。由于语音模式中的“Sky”模式与著名影星斯嘉丽·约翰逊的声音过于相似，被指涉及侵犯当事人相关权益，最终迫使该模式下架。尽管事后 OpenAI 在声明中明确澄清 Sky 的声音并非是对斯嘉丽的一种模仿，而是根据一位专业配音演员的音色生成。

OpenAI 的下架声明

　　其实在 GPT-4o 发布前，OpenAI 曾邀请斯嘉丽为系统进行配音，遭到本人拒绝。但在发布现场，GPT-4o 仍模仿斯嘉丽在电影《Her》中的声音进行了展示，斯嘉丽既震惊又愤怒，表示“这个听起来与我非常相似的声音，以至于我最亲密的朋友和新闻机构都分辨不出来。”

　　显而易见，这是一个强大但容易“节外生枝”的功能，换句话说，其背后存在令人担忧的安全风险——你的声音能够被 GPT-4o“克隆”，并用你的声线说着令你意想不到的话。

　　近日，美国联邦通信委员会（FCC）提出对一名骗子罚款 600 万美元，他曾在今年 1 月利用 AI 生成总统拜登的声音，打电话告知新罕布什尔州的选民不要在即将到来的初选中投票。由于拜登的声音充斥于海量网络媒体资源中，因此被 AI 用来模仿、训练生成以假乱真的声音并非难事，但随着技术进步，AI 可能仅需少量样本就能生成媲美真人的声音。

　　这样的技术如果不加管控很容易带来身份滥用问题，包括通过冒充他人身份进行欺诈，目前已有不少“虚拟绑架”事件出现。虚拟绑架能够在不真正绑架受害者的情况下，仅凭受害者泄露的声音，利用 AI 克隆出与之几乎一模一样的声音，对受害者亲友实施以索要赎金为目的的绑架威胁。趋势科技首席威胁防御架构师 Craig Gibson 警告称，深度伪造和其他支持 AI 的工具正在不断增强虚拟绑架者的能力对以针对受害者。

　　OpenAI 内部的安全忧患

　　如今，世界顶尖的科技巨头都在生成式 AI 大模型的赛道上互相角逐，谁能率先研发出更强大智能、更“有人味儿”的产品，谁就能抢占市场先机甚至是逆风翻盘。虽然 OpenAI 还未明确既 GPT-4 系列之后下一代产品的发布时间线，但来自谷歌、Meta 等竞争对手的压力可能迫使该公司尽快发布其下一代产品。

　　5 月 28 日，OpenAI 宣布成立 “安全委员会”，负责监督与公司项目和运营相关的“关键”安全和安保决策。但这一委员会被指全部都是“自己人”，除了 CEO，其余成员也均来自董事会成员、首席科学家以及相关安全系统负责人，很难以客观公正的视角对公司及产品进行安全监督。虽然 OpenAI 承诺将聘请第三方“安全、安保和技术”专家来支持委员会的工作，但并未更详细地说明外部专家组的规模和组成，也没有透露专家组对委员会的具体影响和权力限制。有专家指出，OpenAI 成立此类企业监督委员会，类似于谷歌的高级技术外部咨询委员会，其实在实际监督方面几乎没有什么作为。

OpenAI 于 5 月 28 日成立的“安全委员会”

　　近来，OpenAI 在产品安全方面已损失了大量核心人才，包括于今年 5 月离职的联合创始人兼前首席科学家伊尔亚·苏茨克维（Ilya Sutskever）。据报道，他离职的部分原因是不满 CEO 急于推出新产品而在安全方面有所妥协的做法。而紧随伊尔亚离职的 OpenAI 前首席安全研究员简·雷克（Jan Leike）也在社交平台发帖，指出 OpenAI 未走在解决 AI 安全和安保问题的正确轨道上。

　　就在刚过去不久的 6 月 4 日，10 余名 OpenAI 和谷歌 DeepMind 的前任和现任员工联名发表了一封公开信，警告先进人工智能存在的安全风险以及目前对从事人工智能技术的公司缺乏监督。他们透露，人工智能公司拥有“大量非公开信息”，包括其技术可以做什么、采取的安全措施程度以及技术对不同类型伤害的风险水平，但这些信息并没有与政府机构积极共享，也未向公民社会做任何披露，且公司有很强的经济动机来逃避有效监督。

公开信部分内容

　　信中还披露，为压制批评，OpenAI 迫使他们签署严格的保密协议，对那些直言不讳的员工将会剥夺股权，并离职员工签署了不能借由披露 AI 风险而“对公司进行贬低批评”的条款。

　　“有人味儿”的 AI，安全性更不应“降板”

　　在行业竞争激烈的大背景下，AI 发展之迅速，以至于世界还没有准备好如何应对这匹可能会脱缰的快马。著名计算机科学家杰弗里·欣顿断言，这项技术对人类构成的威胁可能比气候变化“更为紧迫”。

　　无疑，OpenAI 安全人才的流失是一大危险信号，当人工智能企业以竞争和利益“降板”安全，用财力逃避监督，创造出来的 AI 也许对人类如真人般和蔼细腻，但背后隐藏的利刃可能已不止一把。

　　当生成式 AI 大模型无成为近年来对整个社会影响最大的一项科技成就，对 AI 的安全管控应保持高水准。4 月下旬，美国国土安全部就针对研发 AI 的“安全与保障”成立顾问委员会，囊括了 OpenAI、微软、Alphabet、亚马逊、英伟达、AMD 等科技巨头 CEO 及高层在内的 22 名成员。美国国土安全部部长马约卡斯（Alejandro Mayorkas）表示，该委员会将协助确保 AI 科技的安全开展，以及设法应对这类科技对能源、公用业务、交通、国防、信息技术、食品和农业，甚至是金融服务等关键服务所构成的威胁。

　　同样，在不久前结束的日内瓦会议上，中美两国高级官员讨论了如何最大限度降低人工智能的风险。去年，美国总统拜登签署了一项行政命令，要求对国家安全、经济或公众健康构成风险的人工智能系统开发商根据《国防生产法》，在向公众发布产品之前必须与美国政府分享安全测试结果。中国也在推进自己的人工智能监管框架。

　　可见，没有牢固的安全基线作为根本，AI 变得更有“人味儿”的同时也将更会“咬人”。

　　参考资料：

　　https://www.govinfosecurity.com/dont-expect-cybersecurity-magic-from-gtp-4o-experts-warn-a-25332

　　http://www.ce.cn/xwzx/gnsz/gdxw/202405/29/t20240529_39019869.shtml

　　https://mp.weixin.qq.com/s/RmZBLQOlyUpMlflCTnHthg

　　https://36kr.com/p/2808163310237057