2月5日,国家超算互联网核心节点在郑州迎来了3套scaleX万卡超集群同步上线试运行,形成全国首个3万卡规模、实际投入运营的国产AI算力池。这一事件标志着中国算力基础设施从分散试点向体系化建设迈出关键步伐。

回顾发展史,中国早期超算和智算中心多以千卡级集群为主,主要支撑科研和少量行业应用,重点在于解决算力供给不足。随着大模型规模快速增长,算力需求从“可选”变为“刚需”,单纯堆节点的方式逐渐难以满足效率、通信和运维要求,超节点与万卡超集群因此成为发展方向。
此次上线的三套万卡集群,充分体现了曙光系统能力和开放架构的技术积累。在能效方面,高密度刀片和浸没相变液冷让单柜算力密度大幅提升,PUE约为1.4,支持万卡规模落地。在网络设计上,低延迟、高带宽的互联体系保证大规模训练与推理的协同效率,并为未来十万卡、百万卡级扩展预留出空间。全链路“存、算、传”紧耦合设计确保数据在高并发场景下可以稳定传输。
开放架构的应用价值同样显现,通过分层解耦,芯片、系统、算法和应用各司其职,加快了大规模集群建设和应用适配速度。当前集群已能够支持多款大模型训练和高通量推理,应用接入了上千个场景,实现算力资源的集中调度与优化利用。
总体来看,三套万卡超集群的同步上线,不仅展示了中国在超大规模算力集群建设上的工程能力,也体现了开放架构在产业层面的协同潜力。这一节点事件预示着中国算力体系正向更大规模、更高效率、更广覆盖的方向演进,为大模型训练、科学计算及行业智能化提供了新的基础支撑。