昆仑芯超节点正式启用
即使是1万亿参数的开源模型,也只需要几分钟、1个云实例,就可以轻松跑起来。
2025百度云智大会,百度智能云正式发布百度百舸AI计算平台5.0全新版本,对AI计算基础设施进行了全面升级。
此次升级在网络、算力、推理系统及训推一体系统等四大方向实现全面能力提升。
高速互联:VPC、RDMA、X-link三张网实现全面升级,通信更快,延迟更低,模型训推效率得到提升;
超节点:昆仑芯超节点上线公有云服务,超级算力正式可用。最新测试显示,超节点性能达到上一代实例8倍,单卡吞吐提升近一倍,比国内的同类产品高出15%。
推理系统:通过算子解耦、自适应并行策略及分布式KV Cache等创新,将DeepSeek R1的推理吞吐效率提升50%,大幅降低长文本响应延迟;
强化学习框架:百舸强化学习框架,提升训练、推理效率。
昆仑芯超节点是百度智能云面向大规模算力场景推出的产品,目前业界最大的开源模型参数已经达到1万亿,借助昆仑芯超节点,只需要几分钟、1个云实例,任何人都可以轻松把它跑起来。
相比传统的8卡服务器算力交付方式,昆仑芯超节点将64张昆仑芯XPU放到同一个机柜,卡间互联带宽提升8倍,单整机柜训练性能提升了10倍,单卡推理性能提升了13 倍。从性能上讲,一个机柜就能顶过去上百台机器。
昆仑芯超节点的创新设计
昆仑芯超节点基于百度天池系列AI高密液冷整机柜,支持整柜一体化的交付模式。同时采用水、电、网3盲插设计,在无需精准对准的条件下实现组件快速可靠对接的技术。昆仑芯超节点机柜在空间利用上发挥了极致,实现了超高密度的算力水平。
昆仑芯超节点的计算节点基于 21 寸标准 1U 计算节点架构,前窗 I/O 高度集成,可灵活支持百度太行 DPU、4 张网卡、4 块 NVMe、2 个 M.2、HBA 卡或 RAID 卡等多种配置,满足复杂多样的算力场景需求。计算节点采用模块化设计,CPU 板、PCIe Switch 板与 GPU 板相互解耦,支持国产化 CPU 平台,具备极高的灵活性与可扩展性。每个节点配备双 PCIe Switch 芯片,通过双上行链路与 CPU 高速互联,构建 1:1 无阻塞互联结构,实现了高效调度与低延迟通信,彻底消除数据瓶颈。
昆仑芯超节点在设计上突破了传统单机8卡互联的架构限制,创新性地引入多 Switch 通信结构。以 32 卡为例,可以通过 4 台 Switch Tray 模块实现算力全互联,构建出一个Scale-Up域规模为32卡的统一算力池。在Scale-Out网络设计上,每个计算节点预留4张PCIe网卡扩展位,实现XPU与NIC的1:1绑定设计,单节点最高支持4张400G网卡。
在供电单元,昆仑芯超节点将电源模块PSU与计算节点解耦,所有电源集中放置于Power shelf中,为整机进行集中供电,以便实现昆仑芯超节点的高密部署。昆仑芯超节点的单个Power shelf高度2U,内置12个PSU电源单元,支持10+2电源冗余,采用双输入ATS技术,相比传统单输入电源PSU ,电源数量节省40%。
昆仑芯超节点采用液冷和风冷相结合的混合散热架构,解决高功耗、高密度散热挑战。在液冷系统中,采取了微通道冷板液冷技术及并联水路设计,通过精准调控冷却液流量与流速,最大化 XPU 和 CPU 的散热效率。在风冷系统中,做了进一步优化设计,将计算节点的RDMA网卡、VPC网卡等均部署在冷通道,减少网卡和光模块由于散热问题导致的故障频率,使得集群整体更加稳定可靠。
昆仑芯超节点采用业界领先的双层带外管理架构,由机柜级 RMC与节点级 BMC协同组成,覆盖计算节点、互连模块、电源模块与散热模块,实现全链路智能运维。
昆仑芯今年的重要进展
今年,昆仑芯接连宣布重要进展:2月,新一代产品昆仑芯P800万卡集群成功点亮。此次点亮突破了硬件扩展性瓶颈,如卡间互联的拓扑限制,避免通信带宽成为瓶颈;同时,围绕芯片及集群功耗,基于万卡规模常规方案功耗可达十兆瓦或更高,采用创新性散热方案,从而解决万卡集群的能效与散热问题;完善模型的分布式训练优化,采用高效并行化任务切分策略,训练主流开源模型的集群MFU提升至58%。
3月,搭载昆仑芯P800的昆仑芯服务器中标招商银行AI芯片资源项目。昆仑芯P800将围绕多个核心业务场景,全面支持招商银行落地大模型应用。根据项目实测,昆仑芯P800对Qwen系列性能支持远超同类型国产芯片,部分多模态模型推理性能达到全行业领先水平,可快速提升多模态数据分析、客服、代码助手等场景的应用效能。
4月,发布昆仑芯超节点产品,宣布正式点亮昆仑芯P800三万卡集群。李彦宏称,“这是国内首个全自研的3万卡集群,可同时承载多个千亿参数大模型的全量训练,支持1000个客户同时做百亿参数的大模型精调。”
7月,昆仑芯完成新一轮股权融资,华兴资本旗下华兴证券担任本轮独家财务顾问。华兴资本集团旗下华兴证券董事总经理、硬科技负责人阮孝莉表示:“本轮融资成功引入重量级产业方与国家级资本。当前AI产业已进入大规模商业落地的关键阶段,智能算力正成为科技竞争的核心驱动力。相信昆仑芯将持续以'芯片+集群+生态'的全栈优势,夯实中国智能时代的硬科技根基。”
8月,昆仑芯宣布中标中国移动集采项目十亿级订单,并在三个标包均排名第一。中国移动《2025年至2026年人工智能通用计算设备(推理型)集中采购项目》招标围绕“类CUDA生态”及“CANN生态”的AI通用计算设备展开,在“类CUDA生态”标段中,基于昆仑芯的AI服务器产品中标份额排名第一。
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。
想要获取半导体产业的前沿洞见、技术速递、趋势解析,关注我们!