雨说-农码一生-黄学东分享：Zoom AI如何正确地「碾压GPT-4」

　　新智元报道

　　编辑：润

　　Zoom AI 通过独创的「联邦 AI」的技术路线，联合多个大模型，在特定任务上超越 GPT-4，体现出了多个大模型互帮互助的强大能力，而且成本也能控制在 GPT-4 一半的水品。

　　差异化地利用不同成本的 AI 工具，让能力强成本高的 AI 完成难度大的任务；成本低能力弱的 AI 完成简单的任务，从而在完成质量和 GPT-4 几乎一致的前提下，将 AI 完成任务的推理成本降到了 GPT-4 的6%。

　　在去年底，对标 GPT-4，Zoom AI 就做到了「质量一样，成本打 1 折」！

　　3 月 26 号，黄院士又发表了一篇新的技术博客，宣布联邦 AI 技术取得的最新进展：

　　通过整合 Claude 3 等新推出的强力 LLM，「联邦 AI」在特定的任务场景中，完成质量已经超过了 GPT-4——

　　在 Zoom 提供的会议摘要功能「Meeting recap」上，Zoom AI 的结果相比 GPT-4 将错误率减少了 20%，在自动预测下一步操作的「Next Steps」上，Zoom AI 的正确率提高了 60%。

　　具体来说，Zoom AI 将市面上的所有可用的 LLM 都整合了起来。

　　集众家之所长，从而在产品层面做到了质量「碾压 GPT-4」！

　　这样的技术路径不但大大降低了使用大模型的成本，而且随着市面上不同公司的大模型性能的变化，可以灵活选择最适合任务的模型进行搭配。

　　从避免了与某一个模型深度绑定后，反而限制了产品服务质量的情况。

　　在 Zoom 最新的内部基准测试中，通过让人类评委盲选最准确的会议摘要的方式进行了测试。Zoom LLM 和 Claude-3 配合下在会议总结和提取下一步操作两个任务上的表现都优于英文版的 GPT-4。

　　将 Zoom LLM 与 GPT-4 总结日语会议的结果相比较。Zoom LLM 也能够提供更好的结果，降低了接近 15% 的错误率。

　　根据 Zoom 委托 GigaOm 进行的一项研究显示，Zoom AI Companion 的会议转录的准确率高达 95% 以上。

　　在会议提问场景中，Zoom AI Companion 提供的结果比 ChatGPT-4 web 快四倍。

　　而在安全性上，Zoom AI 组建一个由 Claude-3、Gemini 和 GPT-4 等多个 LLM 组成的「委员会」，降低了大多数 LLM 输出的固有偏差，从而减少了幻觉，进一步提高了输出的质量。

　　最主要的原因是不同的 LLM 不太可能犯同样的幻觉错误，所以 Zoom LLM 可以生成更一致的回应，进一步减少幻觉的影响。

　　而且根据黄院士透露，在性能表现超越 GPT-4 的任务中，推理成本有所上升，但依然只有 GPT-4 一半左右。

　　虽然要取得超越 GPT-4 的性能，Zoom AI 成本要比去年底的「成本打一折」时高上不少，但是依然比仅仅使用 GPT-4 要便宜很多。

　　参考资料：