近日,有外媒称,英特尔准备针对中国市场推出“特供版”Gaudi 3,包括名为 HL-328 的 OAM 相容夹层卡和名为 HL-388 的 PCle 加速卡两种硬件形态。报道指出,英特尔在其 Gaudi 3 白皮书中披露了上述信息,其中 HL-328 将于 6 月 24 日推出,HL-388 将于 9 月 24 日推出。

  令人震惊的是,基于内核数量、工作频率、TDP 等参数估算,相比 Gaudi 3 国际版,中国“特供版”HL-328 芯片性能或降低约 92%。

  中国特供版有何不同

  具体硬件规格方面,中国特供版的 Gaudi 3 与原版相比,具有相同的 96MB SRAM 片上存储,128GB HBM2e 高带宽存储,带宽为 3.7TB/s,拥有 PCIe 5.0 x16 介面和解码标准。但是,由于美国对于 AI 芯片的出口管制规则限制,使得这类高性能 AI 的综合运算性能(TPP)需要低于 4800 才能出口到中国, 这意味中国特供版的 Gaudi 3 的 16bit 性能不能超过 150 TFLOPS。

  根据英特尔公布的资料显示,Gaudi 3 在 FP16/BF16 上可以达到 1835 TFLOPS,相比英伟达 H100 在大模型训练方面快 40%、推理能效高 50%。

  显然,中国特供版的 Gaudi 3 需要大幅降低 AI 性能,才能合规出口。因此,中国特供版 Gaudi 3 需要大幅削减内核数量(原版拥有 8 个矩阵数学引擎和 64 个张量内核)和工作频率。

  去年 7 月,英特尔就发布了面向中国市场的 Gaudi 2。相比国际版 Gaudi 2,面向中国市场推出的加速卡在性能上差别不大,而集成以太网 RDMA 端口数量从 24 个端口减到 21 个,以符合美国芯片出口管制规定。

  美国如何挟制算力

  20 世纪 90 年代,美国占全球芯片产量的三分之一以上,这一份额到 2020 年已降至 12% 左右。为了维护半导体领域的领先地位,自 2022 年 8 月美国发布《芯片和科学法案》(CHIPS and Science Act,下称“《芯片法案》”)以来,美国对中国实施了全面的半导体出口管制,从芯片本身到芯片制造设备,限制措施不断升级。

  《芯片法案》是拜登政府复兴产业政策的核心,其利用美国政府资金恢复对国家安全和经济增长至关重要的技术部件的国内生产。该法案禁止获得补贴的美国及其盟友伙伴的企业十年内在中国和其他关切的国家新建或扩大先进制程芯片厂。

  2022 年 10 月、2023 年 10 月,美国商务部工业和安全局(BIS)连续两次发布对中国的先进半导体和计算设备的出口管制,企图让中国先进制造受影响,并且英伟达、AMD、英特尔的多款 GPU 和 AI 芯片产品已不能再出口到中国,就连高端游戏显卡 RTX 4090 都受到了限制。

  2023 年 12 月,美国商务部 BIS 宣布启动对成熟制程节点的半导体供应链展开调查,更是明晃晃地针对中国芯片半导体产业。

  北京时间今年 3 月 30 日凌晨,美国商务部下属的工业与安全局(BIS)发布“实施额外出口管制”的新规措施,修订了 BIS 于 2022、2023 年 10 月制定的两次出口限制新规,全面限制英伟达、AMD 以及更多更先进 AI 芯片和半导体设备向中国销售。

  此次新规中,制裁大棒再次挥舞。BIS 删除和修订了部分关于美国、中国澳门等地对华销售半导体产品的限制措施,包括中国澳门和D:5 国家组将采取“推定拒绝政策”,并且美国对中国出口的 AI 半导体产品将采取“逐案审查”(case-by-case review)政策规则,包括技术级别、客户身份、合规计划等信息全面查验。

  英特尔勇气何来

  虽然还未上市,但英特尔的特供版 Gaudi 3 极有可能带来一些潜在的问题。例如,性能降低可能会影响中国企业用户体验和应用效果;同时,如果特供版芯片在价格上没有优势,那么其市场竞争力可能会受到一定影响。因此,英特尔需要在产品设计和定价等方面做出合理的权衡。

  两个月前,英伟达对华“特供版”AI 芯片 H20 的终端产品已可接受预订。产品形态包括计算卡和搭载 8 张 H20 计算卡的服务器。从性能上来看,英伟达 H20 性能约为 H100 的六分之一,但价格并未显著降低,因此性价比并不高。

  今年年初,据知情人士透露,自去年 11 月以来,阿里巴巴、腾讯等中国大型企业一直在测试英伟达的特供芯片样本。他们已向英伟达表明,今年向英伟达订购的芯片数量将远远少于此前原计划购买的、已经被禁的英伟达高性能芯片。

  即便面临营收下滑风险,但是英特尔依旧在“精打细算”下过得不错。在美国政府《芯片法案》推出近 2 年后,老牌芯片巨头英特尔 3 月份宣布获得高达 85 亿美元的政府补贴以及多达 110 亿美元的特殊贷款支持。据了解,英特尔所获得的补贴支持来自于 2022 年拜登政府所出台的《芯片法案》,该法案力争帮助芯片公司在美国建造更多的芯片工厂,将美国打造为芯片制造强国,英特尔目前可谓是“芯片制造业回流美国”这一背景下的最大受益者。

  从 AI 市场看,目前英伟达在芯片市场占据着绝对优势,英特尔希望用产品撬走份额并不容易。富国银行统计显示,目前英伟达在数据中心 AI 市场拥有 98% 的市场份额,而 AMD 公司的市场份额仅有 1.2%,英特尔则只有不到1%。因此对于英特尔来说,紧跟美国政府反而是明哲保身之举。

  算力紧俏,国产替代进行时

  算力是大数据时代的生产力,伴随数字经济的高速发展,特别是 AI 的爆发,整个社会对算力的需求呈现快速增长态势。据 IDC 和浪潮信息联合推出的《2023-2024 年中国人工智能计算力发展评估报告》显示,2022-2027 年期间,预计中国智能算力规模年复合增长率达 33.9%,到 2027 年智能算力规模达 1117.4 EFLOPS。

  与此同时,中国信息通信研究院南方分院的工作人员在 CITE 2024 上表示,目前我国智能算力全球占比超 30%,主要依赖美国英伟达 GPU 芯片,国产自主算力份额仅为5%,国内 TensorfiowPyTorch、Caffe 等美国 AI 框架使用率超过 90%。

  从应用上来看,目前国内如昇腾、寒武纪、天数智芯等主流芯片厂商已完成对主流大模型的适配。业内分析认为,虽然相较于英伟达、AMD 的先进芯片还有很大差距,但昇腾 910 系列等国产 GPU 芯片目前基本可以支撑国内的大模型应用,科大讯飞董事长刘庆峰在去年 1024 开发者节上曾表示,华为的 GPU 能力已能对标英伟达 A100,并基于昇腾生态推出了“飞星一号”大模型算力平台。而在此前,寒武纪思元(MLU)系列云端智能加速卡与智象未来自研的“智象多模态大模型”也已完成适配,其声称在产品性能和图像质量方面均达到了国际主流产品的水平。

  中国大规模替代进口 AI 芯片的进程正在加速。对于英特尔们来说,关键在于如何在满足美国政策要求的同时,兼顾中国市场需求,保持产品的竞争力和大客户体验。另一方面,这也为中国本土的 AI 芯片厂商提供了发展的宝贵机遇,这些厂商需要密切关注市场动态和技术发展趋势,以应对潜在的竞争压力。