“昇腾改路”的传闻尘嚣未定,“384超节点”为魔都又添一道瑰丽奇景。
7月26日,2025 WAIC启幕当天,华为在上海首次线下展出昇腾384超节点,并成功上演了“遥遥领先”的炸裂式一幕。“撕裂AI天花板”、“领先英伟达一代”、“史诗级利好”……此前ASIC路线疲软迹象俨然一扫而空,昇腾AI芯片的宏大叙事也跃进下一章节。
384超节点撕裂AI天花板?
尽管近期昇腾故事线颇有些“跳戏”的违和感,“384超节点”仍迎来意料之中的鲜花掌声。
根据华为官方描述,昇腾384超节点即Atlas 900 A3 SuperPoD,该产品基于超节点架构,通过总线技术实现384个NPU之间的大带宽低时延互联,解决集群内计算、存储等各资源之间的通信瓶颈。通过系统工程的优化,可以让超节点像一台计算机一样工作。
产品展出当天,有人将其形容为“撕裂AI天花板”的划时代产物。“单卡推理性能提升4倍,Decoding吞叶吐达到2300+Tokens,通讯时延降低至50ms以下,MFU算力使用率达50%……这些数据证明昇腾已全面赶超英伟达,黄仁勋都要服软!”
不过,也有不同声音指出,CloudMatrix 384的架构与英伟达在2022年宣布的DGX H100 NVL256“Ranger”平台有相似之处。然而,由于成本、功耗和可靠性等问题,英伟达最终放弃了将该平台投入生产的计划。
某行业媒体追溯,为了解决服务器算力协调问题,英伟达很早就提出了“超节点”的概念,希望通过自家的NVLink相关技术实现单节点内GPU的“Scale Up”高性能互联,再用Infiniband 网络完成超节点间“Scale Out”扩展。
“其实本质上来看,这套技术与万卡方案并没有根本的区别,只是在技术上更出色、效率更高,但也正因为英伟达的专利生态和硬件架构曲高和寡,造成算力成本巨大。”上述媒体认为,从现实的产业发展角度来说,这套方案对于国内用户也是“有价无市”,难以落地。
在两种声音之间,也有部分理性观点值得参考:384在功耗和成本上同样面临挑战,完全取代GB200 NVL72不太现实,但得益于性能和扩展性优势,可能有望抢占更多市场。
究竟是划时代的技术突破,还是巩固现有市场的绥靖之策?这一问题貌似又回转到昇腾ASIC架构本身,华为是否将“全面转向GPGPU”变得更加扑朔迷离。
昇腾ASIC碰壁转向GPGPU?
仅仅过去一旬有余,384超节点的“撕裂天花板”与昇腾ASIC“碰壁转向”,形成鲜明反差。但不容回避的是,算力应用局限性、用户生态风险等问题,依然是压在昇腾身上的沉重负担。
自月初以来,盘古大模型“造假”事件一度将昇腾训练短板置于聚光灯下。根据盘古内部员工自曝,基于昇腾计算平台的模型训练效果不及预期,导致团队在领导层压力下无奈选择“套壳”、“续训”、“洗水印”,甚至小模型实验室至今仍需要依赖英伟达加速卡。
与此同时,业内陆续曝出昇腾算力中心闲置率较高,场景应用范围狭窄。“NPU只能用来推理,从效率效果上根本不适合做训练”,“近三年来建设的昇腾智算中心,有哪个能用满?”
市场质疑声中,英伟达H20的解禁和国内商用客户的争相采购,给予了昇腾现实一击——除了定向采购的国产化用户之外,昇腾ASIC在开放性市场的认可程度远低于预期。
随后,圈内多个渠道突然传出“昇腾转向GPGPU”的消息。知情人士透露,黄仁勋落地北京那天,华为内部群截图显示,昇腾团队连夜开会,讨论是否把用了五年的ASIC架构砍掉。
甚至有供应链消息说,新版本昇腾910C已经改回GPGPU路线,还要做CUDA中间层。而忽然变道的原因就在于“客户跑不动了”——“盘古7B模型用昇腾训练一次要18天,H20只要5天。每月单卡电费就差出两万多”
然而,尽管一切尚未敲定,昇腾转向的阻力已经开始显现。
最大的质疑声貌似来自用户群体。有声音指出,昇腾转向GPGPU后,原平台推理引擎与API要大规模重构,无法直接迁移至GPGPU架构,推理模型、算法代码、系统适配都需重写。
“在此情况下,华为很大可能会削减甚至停止对昇腾生态工具链的支持,客户已购买的ASIC硬件、配套板卡、开发框架可能被弃用,面临二次投入和算力平台重构成本。”
很明显,昇腾ASIC的历史遗留问题,不会在“384超节点”笙歌燕舞中消解于无形。而能否转向GPGPU,又岂止关乎眼下可及的些许问题。
警惕国产芯片路线陈陈相因!
“超节点”概念在国内并不鲜见,WAIC上就有中兴、新华三、超聚变等推出相关产品。专业人士指出,昇腾超节点由384个NPU组成,重点在于系统工程优化提升,而非针对NPU架构本身进行改进。“若以此在市场上掩藏ASIC路线问题,或将陷入陈陈相因的陷阱。”
公开资料显示,华为依托于相对封闭的ASIC路线,过去已将昇腾芯片广泛部署于数十个部委级平台和信创项目,包括科研机构、高校、政务大数据中心等均已完成NPU嵌入式应用。
而当前的情况是,基于ASIC路线的昇腾芯片性能已经见顶,难以满足上述用户的实用场景需求,长此以往必将影响到国产化终端业务发展。同时,从ASIC迁移到GPGPU主流路线,又会牵扯到昇腾上层生态损失的问题,将包袱甩给支持自己的用户显然会伤及根本形象。
进退维艰之下,更别说还有英伟达在外虎视眈眈,国产GPU厂商纷纷踏上IPO快车道。“若迟迟不能下定决心转换打法,昇腾恐怕越发难以赶超GPGPU主力部队。”
上述人士认为,在此情况下,“384超节点”只能视其为稳住市场阵脚的权宜之计,扛住阵痛穿越GPGPU转型期,才是昇腾盘活国产AI芯片业务的唯一转机。
当然,两大架构间的技术壁垒仍需投入很大精力。现实来看,无异于对昇腾研发体系、生态构建和产品周期的全面重塑。此前大量投入可能付诸东流,技术和商业体系亦要从零开始。
据业内推测,ASIC与GPGPU两者在架构上几乎不兼容,也无法实现软件迁移。若从头设计SM模块、控制单元、内存架构,保守估计设计周期需18-24个月以上。
虽然这极为考验昇腾团队从头再来的勇气,但国产ASIC芯片路线已经没有因循苟且的余地。甚至旧摊子铺的越大,新局面越发难以收拾。
《史记·平准书》有言:“太仓之粟,陈陈相因,充溢露积于外,至腐败不可食”。
今天的昇腾,可能需要的不是堆起384张NPU抱薪取火,而是直面底层架构痛点刮骨疗伤。在“轻舟已过万重山”之前,还要看清楚这里的山路也许还有十八道弯。