雨说-农码一生-被低估的面壁：打造出不输 OpenAI 的 Scaling Law 曲线

　　大约 1 个月前，马斯克所创办的 xAI 团队宣布开源 Grok-1——一个参数量为 3140 亿的 MoE 大模型。从参数量来看，Grok-1 超越了 70B 的 LLaMA 2，是当前开源模型中最大的一个，被调侃为「庞然大物」。

　　然而，有研究人员测试却发现，参数规模量如此巨大的 Grok-1 ，效果竟然只与 Mistral AI 的 8x7B MoE 模型相当。也因此，业内人士评价，「Grok-1 在这么大的参数量规模上只实现了这么小的效果，实际是失败的。」

　　在大模型中，参数量大、不等于模型性能好。早在 2021 年 6 月，面壁智能初始团队就发布了千亿 MoE 大模型 CPM-2 ，是最早关注到这一问题的 AI 团队之一。

　　面壁智能 CTO 曾国洋告诉 AI 科技评论，他们从 2020 年 GPT-3 出来后开始训练大模型，也是走过一些弯路后才逐渐认识到，“提升模型效果是大模型训练的根本目标，但这并不意味着一定要通过扩大参数量规模和燃烧高昂的算力成本来实现。”

　　相反，“让每一个参数发挥最大的作用”，在同等参数量上实现更好的性能，才是解决大模型“高效”训练的核心。这一块也还有很大的探索空间，值得研究人员不断挖掘。

　　2024 年 2 月，面壁发布 MiniCPM 2B，在更小参数量的基础上实现可以媲美 Mistral-7B 的性能，初步验证了其“低参数、高性能”的方法论。据了解，面壁的千亿大模型训练成本也由此大幅下降，这也是面壁自天使轮融资、拿了知乎数千万后仍能扩大团队规模并不断迭代千亿模型的根本原因。

　　在 MiniCPM 2B 基础上，2024 年 4 月 11 日，面壁又推出了新一代端侧旗舰大模型系列：显著增强 OCR 能力、甚至部分能力比肩 Gemini-Pro 的 2.8B 多模态模型 MiniCPM-V 2.0；仅 1.2B，却强过 llama2-13B、推理速度达到人类语速近 25 倍的 MiniCPM-1.2B 模型；最小的 128K 长文本模型 MiniCPM-2B-128K ；还有性能增强的 MoE 架构模型。

　　了解 MiniCPM 2B 详情信息可点击：https://github.com/OpenBMB/MiniCPM

　　更需要格外注意的是：面壁训练小模型，并不单单是为了“训练小模型”、放弃角逐 AGI；恰恰相反，他们训练 MiniCPM 等小模型，就是为了训练能实现 AGI 的通用基座大模型。基于 Scaling Law 的科学方法论，通过小模型验证大模型的训练投入产出比，是面壁在 2023 年低调研究一年所探索出的一条独特路线。

　　也是由于这一独特路线，过去一年面壁在融资市场上并不“着急”。在已公开披露的天使轮消息中，面壁智能只拿了知乎数千万元，但在 2023 年，面壁不仅将团队从十人规模拓展到百人规模，而且还在 8 月发布了稠密（区分于稀疏）的千亿参数大模型。

　　近日，面壁智能也完成了新一轮数亿元融资，由春华创投、华为哈勃领投，北京市人工智能产业投资基金等跟投，知乎作为战略股东持续跟投支持。

　　按照这样的“烧钱”速度估算，假设面壁的千亿基座模型训练成本只有其他大模型的 1/10，面壁融资 5000 万实际相当于其他在训练上较为粗放的大模型团队融资 5 个亿。也就是说，在同等量级的金钱、算力与人才资源下，面壁能比其他团队走得更远。

　　面壁智能被低估了。

　　一、面壁的第一性原理：「高效」

　　2024 年 1 月 ICLR 会议论文结果公布，面壁智能团队的论文“Predicting Emergent Abilities with Infinite Resolution Evaluation”被接收，引起了海内外多个关注“Scaling Law”的团队讨论，包括 OpenAI。

　　因为这篇论文是除了 OpenAI 第一个实现了用 Scaling Prediction 在下游任务上做预测的工作。

　　论文链接：https://arxiv.org/pdf/2310.03262.pdf

　　Scaling Prediction 多次出现在 OpenAI 2023 年 3 月发布的 GPT-4 技术报告中。当时，这个技术话题还鲜少为人关注，由于微软也同步强调其支撑 GPT-4 训练的云基础设施，大家的讨论更多被转移到 OpenAI 与微软云的捆绑、大模型离不开大算力等话题上。

　　但面壁团队关注的却是 GPT-4 的两个创新点：一是 GPT-4 的输入文本达到了 32k 的长度，而当时国内的大模型能处理的文本长度只有 512，之后“长文本”也成为国内外大模型研究的重点对象；二是 Scaling Law 与 Scaling Prediction，即 OpenAI 浅浅提到了 GPT-4 可以预测大模型的能力，但没有公布预测曲线。对于第二点，面壁团队尤其震撼。

　　在此之前，面壁研究大模型的第一性原理就是“高效训练”。

　　虽然面壁成立于 2022 年 8 月，但在此之前，面壁团队作为北京智源人工智能研究院“悟道”项目的重要组成成员，从 2020 年就开始训练语言大模型。在研究“文源”时，面壁团队就是在资源受限的条件下展开一系列从 0 到 1 的探索，因此很早使用了分布式加速、参数微调等方法来降低模型训练的成本。2022 年，面壁团队在参数高效微调的工作还发表在 Nature 子刊。

　　论文链接：https://www.nature.com/articles/s42256-023-00626-4

　　也是由于面壁在高效训练上开发了许多好用的工具，面壁一度被认为是一家做“大模型 Infra”的公司。但实际上，高效训练工具的开发也是为了大模型训练所服务；面壁也是国内极少数兼具大模型算法与 infra 能力的团队。换言之，从做大模型的第一天起，面壁就把「高效」刻在了基因里。

　　在 Scaling Prediction 出来后，面壁团队就认为这项技术“非同寻常”，因为如果 Scaling Prediction 能够在一个大模型还未训练出来时、就能预测它的性能大约在什么水平，那么研究人员就可以先通过小模型做实验、调参数，如果失败就不断尝试、如果成功就按照相同的数据配比、参数调整等方法训练一个大模型，那么训练时间与训练成本都会大幅缩减。这很符合面壁团队追求“高效”的第一性原理。

　　所以，从 2023 年开始，面壁团队开始探索高效的 Scaling Law、用小十倍参数模型预测大十倍参数模型的性能。

　　此外，围绕“高效训练”，面壁不仅仅在模型的训练层发力，在底层计算和数据层也有深入思考，全面系统地推进大模型上下游工程。在国内的诸多大模型团队中，面壁同时从算力、数据与算法切入的做法也不多见，但却符合大模型作为“系统工程”的本质要求。

　　面壁智能团队的核心创始成员认为，从人工智能和社会发展的关系来看，如果大模型作为实现 AGI 的关键路径，但成本却无比高昂，那么即使实现 AGI，但 AGI 比人还贵、那也没意义。「模型的参数不可能无休止地堆下去，依赖显卡的做法也不能无限重复，尤其在当前计算资源匮乏的情况下，思考如何可持续训练大模型成为关键。」

　　「我们追求的是，在同样的时间、同等参数量的条件下，实现更优的 Scaling Law。当模型的效率优化到一定程度的时候，如果要继续精进下去，就需要数据、算力与算法多者结合。」曾国洋告诉 AI 科技评论。

　　以数据工程为例。在悟道“文源”时，面壁成员就发现，数据的清洗是一个非常重要的环节。比如，最开始他们收集了几个 T 的数据，他们将数据清洗到只剩 200G 后，训练出来的模型效果反而比几个 T 的时候还要优秀。2023 年，尽管市场上出现了“百模大战”，面壁团队也没有忽视数据这一基础层的重要性。

　　据面壁首席研究员韩旭介绍，数据工程是一项非常复杂且需要大量体力劳动的事情。

　　「处理数据的整个过程，没有很多技术性的难度，而是“血与泪”的积累，因为数据量极大，动辄几十个P，根本无法人工处理，只能从海量数据里不断抽样，根据样本写出那种非常聪明的代码去处理，然后批量化地一遍又一遍地重复这个过程。」韩旭告诉 AI 科技评论。最后，他们想了办法，让大模型像人一样去观察数据、写数据、清洗代码，近日也发表了论文，但这也只是面壁在数据工程上投入的“冰山一角”。

　　目前，面壁所发表的 Ultra 系列对齐数据集（UltraChat、UltraFeedback 等）在国际上也广受欢迎，全球有接近 200 个大模型都在用面壁的数据集做对齐。

　　在算力端，面壁团队也很早开始将大模型与国产芯片做适配，自研搭建了可以在大部分主流国产芯片上运行大模型的框架，不再受限于英伟达的芯片限制。在国产化适配上，结合自研的推理工具，面壁可以做到“量化不掉点”，进一步降低大模型成本。

　　除了算力和数据，曾国洋还透露，面壁大模型的高效训练还体现在模型超参选择、架构选择上，这些都已经在 MiniCPM 的结果上得到了很好的验证。

　　回到大模型的算法训练，实际上 GPT-4 的技术报告并没有披露太多关于 Scaling Law 的要点，面壁在 2023 年从“高效训练”角度出发探索 Scaling Law，也是从头开始开展研究。但被 ICLR 2024 接收的论文证明了他们通过小模型预测大模型性能的猜想得到了学术界与业界的认可。

　　二、Scaling Law 的点睛之笔

　　现任面壁 CEO 的李大海曾向身边人回忆过他加入面壁前的“小调研”。2023 年 ChatGPT 火爆之后，所有人都在谈论 AGI，李大海于是跟面壁所有的核心成员都聊了一遍，为的是确认一件事：这家公司是不是在追求 AGI。聊完后，他发现这是每个人的信仰，尔后才果断加入。

　　从计算机的角度来看，AI 发展起来的目标就是为了让计算机更智能，将人从部分机械的劳动中解脱出来。因此，“解放人类”不仅要求 AI 模型的智能水平足够高，还要更高效。而面壁研究大模型的重要出发点，与李大海的思考不谋而合。

　　面壁发布 MiniCPM 后，被外界评价为“对端侧大模型的一大贡献”，而李大海则认为，MiniCPM 恰恰体现了团队对科学的 Scaling Law 的理解。虽然 MiniCPM 的模型参数只有 2.4B，却能达到参数规模为 13B 的 LLaMA-2 的水平，与谷歌的 Gemma 7B 相当，大幅超过 Gemma 2B。

　　「如果 2B 模型的性能比 7B 的要好，那么以此类推，在同一套训练方法论下，参数规模才 7B、70B 的模型也可能会比 100B 更好。再结合 MoE 方法，在特定任务上参数量比 GPT-4 少的模型或许也能逼近 GPT-4 的水平。」李大海表示。

　　2023 年，面壁一直在探索如何采用更为科学化的方法去做模型预测。

　　基于高效 Scaling Law 的技术路线，面壁有两条产品技术线：一条是基座大模型，另一条是给大模型做端侧版本。如此一来，一方面可以提升大模型的效率，让每个参数发挥更好的效果；另一方面也能在与应用场景相匹配的成本下做出最好的模型。

　　「这两条产品线，其实是一条路，就是面壁通往 AGI 的道路。」曾国洋说道。

　　以飞机的发展举例。莱特兄弟打造出了飞机的范式，但早期的飞机并不能承载太多的乘客，直到空气动力学等基础理论被广泛发展后，人们基于空气动力学才最终设计出能耗更低、容纳乘客数量更多、安全系数更高的飞机。在面壁看来，大模型也是如此。

　　OpenAI 的 GPT-3 开创了千亿大模型的范式，但从“大模型普惠”的终极目标来看，过于强调“大力出奇迹”的 GPT 系列不一定是最优解。大模型的技术普惠要找到自己的「空气动力学」，而 Scaling Prediction 提供了一种可能。这也侧面表明 OpenAI 在自我优化。

　　面壁团队胡声鼎告诉 AI 科技评论，在“Predicting Emergent Abilities with Infinite Resolution Evaluation”一文中，他们初步验证了通过小模型预测大模型性能的可行性。这是他们探索 Scaling Prediction 征程中的一个小里程碑，而非终点。

　　在这个工作中，胡声鼎在参数量规模为 0.009B 到 0.03B 的模型上做训练，然后将训练的模型外插到 2.4B 的模型上预测性能，通过观察 0.009B 到 0.03B 在特定任务上的表现，来预测 2.4B 模型在同类任务上的泛化情况。最后，他们再训练一个 2.4B 的模型，发现该模型的性能确实在预测范围附近。

　　用参数规模小十倍的模型去预测大十倍模型的性能的意义是：如果发现模型的性能不够理想，就可以在小模型上做实验、调参数，然后重新画一条线，降低训练成本——如同“数字孪生”一般，训练了一个虚拟的大模型，无需等到实际的大模型出来，就已经能知道它的性能好不好。这个训练的方法有一套体系规范的数据配比、参数调整等配置，形成了一套科学化的理论。

　　基于此，面壁团队核心成员表示，在目前这套方法论的指导下，未来他们有信心训练出一个性能对标 GPT-4 甚至更强的模型，找到更陡峭的模型能力成长线，“而这才是 AGI 的可持续发展方案”。

　　这个方法也能解决当前市场上大多数模型即使提升参数规模、算力资源也无法增长模型性能的困局。

　　而 MiniCPM 则是科学的 Scaling Law 的启示与产物。这也符合大模型还在变化演进中、AI 创业公司要一边孵化产品一边迭代技术的现实情况。

　　一方面，是对 Scaling Prediction 的印证，是在小模型上验证大模型的技术极限：2.4B 表明在 scaling 上能找到一个更陡峭的路线去靠近最优解，这是一个路径启示，能用更小的模型参数得到更好的模型能力，也就是科学化的体现。

　　另一方面，也可以同步孵化端侧产品：

　　韩旭告诉 AI 科技评论，端侧是一个非常重要且有潜力的市场，如果一个 13B 模型的能力可以用一个 2B 模型达到且 2B 模型可以在端侧流畅运行，那就没必要去用笨重的 13B 模型。从可持续发展、实际落地的角度讲，端侧大模型的潜力没有被完全释放，因此 MiniCPM 呈现的效果极有可能就是未来方向。

　　面壁未来会在端侧有较多动作，团队已经在尝试用 iPhone 15 Pro 去跑仅有 1.2B 参数的 MiniCPM-1.2B 模型，一秒能吐 25 个 token，即人的语速的 15～25 倍，未来在端侧就能完成的任务就能与云侧解耦，这可以极大降低成本。

　　韩旭预测，端侧大模型在手机上跑出 GPT 3.5 的效果是一件可预期的事情，随着模型能力与芯片性能迭代的双向奔赴，最快可能一年左右就能实现。两年左右，也可以把 GPT-4 放到端侧。

　　MiniCPM 之后，面壁已经将 Scaling prediction 预测百亿甚至千亿大模型的计划提上日程，并将技术报告的细节开源。

　　虽然这套方法目前还没有十分完善，即使是 OpenAI 的技术报告也只公布了其应用 Scaling Prediction 在一个任务上的预测结果。原因可能是出于技术保密，也可能是因为许多任务还无法预测，面壁也一样。

　　胡声鼎告诉 AI 科技评论，目前面壁的 Scaling Law 路线只能预测一部分以生成为主、推理需求没那么高的任务；由于下游任务的一些性能有时是凭空“涌现”的，波动大、不如 Loss 稳定，所以面壁的预测准确率也只有 95% 左右。现在，面壁的团队还在不断改进。

　　由于 OpenAI 没有公布自己的预测系数与参数量等技术细节，所以目前面壁团队无法将自己的实验结果与 OpenAI 的 Scaling Law 曲线进行对比。但对面壁来说，追赶 OpenAI 已经没有那么重要，他们初步的实验证明，在提升基座模型的训练效率上，Scaling Prediction 能成为其实现高效大模型的手段。

　　换言之，面壁每在小模型上前进一步，就意味着它离通用大模型更近一步、离 AGI 更近一步。

　　三、辩证思考 AGI

　　大模型出圈一年左右，国内外各家大模型团队都在竞相发布新产品、“秀肌肉”。作为最早入局大模型的中国团队之一，尽管 2023 年 8 月就已发布稠密型千亿大模型，但无论是资本端还是用户端，面壁的存在感并不高，甚至被外界认为“融资与发展有点慢”。

　　但据 AI 科技评论与面壁团队核心成员的交流，面壁内部认为，他们在过去的 2023 年不仅不慢，而且已经非常“快”。

　　在过去的一年，他们解决了很多问题，如：成功探索 Scaling Law，把整个沙盒实验机制给建立起来；从 0 到 1 训练了多模态大模型；文本能力达到了 GPT-3.5 的水平；把模型训练迭代的流程跑通，找到了正确的方向。

　　韩旭形容，面壁团队在技术上更喜欢“打先手”，一直在追求前沿的、引领性的方法。面壁的核心团队从在清华大学自然语言处理实验室（THUNLP）探索大模型开始，就探索过许多开创性的工作，如：早在 2021 年就开始将大模型与底层系统优化的技术结合，探索稀疏激活与 MoE 模型架构；早在 2022 年就开始基于 CPM 大模型探索如今火爆的 AI Agent，其代码生成助手 ChatDev 被吴恩达多次公开引用……

　　曾国洋也告诉 AI 科技评论，追平技术差距不能着急，因为模型研发是一件需要长期投入的事。接下来，达到 GPT-4 只是一个参考，内部也认为跟随 OpenAI 并不一定最正确。「面壁有自己的想法，如果要想实现 AGI，要有自己的路线。」

　　面向未来，面壁的布局是更大的。

　　一位核心团队人员透露，虽然现在 Scaling Prediction 很重要、也很 work，但并不会把技术路线局限于此，更不会把某一问题当做 everything。即使是按照 OpenAI 的规划，5 年要实现 Super Intelligence（超级智能），有太多关键问题要解决，而 Scaling Prediction 只是诸多要解决的关键问题之一。

　　还有一些关键问题，比如当大模型在某个任务上已经超越人类，是否有办法能让它继续提升，即 OpenAI 提的 Super Alignment；也包括长文本 Transformer 是否仍是下一代的架构等问题。

　　韩旭更具体地说到，今年团队的第一个目标就是把 GPT-3.5 塞到 PC 这些计算性能相对较好的端侧设备上，然后到年底掏出一个具备 GPT-4 能力的大号模型，这是非常明确的。未来两年让模型生出“眼睛”、“手臂”，形成智能体社群，这些都是目前在发力的技术方向。

　　很多人认为，面壁做 MiniCPM 的小模型是在妥协。「但其实不是，只是想通过小钢炮证明我们有绝对的实力用小几倍的参数量、成本做到和其他家大参数量模型相同的结果。」

　　同为成立一年左右的时间，其他大模型公司融资 5 亿跟面壁融资 5000 万达到的效果不相上下，因为经过科学的 Scaling Law ，面壁训练的成本只需要 1/10。如果将资源拉到同一基准线上，面壁反而是在大模型技术上跑得靠前的那个。

　　漫漫 AGI 之路，面壁并不慢。相反，它每一步都走得很稳，长跑的优势才初步显现。

　　本文作者长期关注大模型、 AIGC 落地应用、数字人领域，欢迎添加微信：s1060788086，交流认知，互通有无。