数字化转型

全国一体化算力网应用优秀案例集之三 | 临港算力创新实践 提升枢纽节点集约化成效

来源:国家数据局      更新时间:2024/9/12      浏览:

2022年以来,“东数西算”工程正式启动,2023年12月,国家数据局等5部门联合印发《深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见》,加快推动全国一体化算力网建设,赋能经济社会发展。为充分展示全国一体化算力网建设领域取得的应用成效,国家数据局组织开展了“全国一体化算力网应用优秀案例”征集遴选工作,各地方积极响应、踊跃参加。经多轮专家评审,首批发布25个优秀案例。


临港算力创新实践

提升枢纽节点集约化成效


推荐单位:上海市数据局

申报单位:临港算力(上海)科技有限公司

针对当前国内算力供给存在多元组合算力交付周期长、算力资源分散难以被集中调用等问题,临港算力(上海)科技有限公司与长三角国家枢纽节点上海青浦集群加强业务协同,通过一系列工程和技术创新实践,提升枢纽节点集约化成效。

一是建设创新型的“两弹一优”基础设施。临港算力网通过弹性供电、弹性供冷、机房气流组织优化的“两弹一优”,实现多元算力组合快速交付。弹性供电方面,通过机柜设备的“小母线+弹性方舱”配电系统,一舱解决不同客户集群部署模式带来的机柜功率变化需求。弹性供冷方面,采用冷冻水系统、热管多联系统、液冷系统等多种数据中心冷却手段,统筹预留基础设施管井及接口,实现制冷技术弹性应用。机房气流组织优化方面,通过流体动力学模拟计算机架和机房的气流组织,精细化设计冷热通道,开展建设性设计和周期性优化,综合提升供冷效率。


1726128854470.png

图1 弹性制冷循环系统与能效分布图


二是通过创新性研究解决行业难点问题。通过使用中距离跨区RDMA(远程直接内存访问)进行市内算力组网,解决算力资源分散无法被集中调用的问题。通过使用跨区RDMA协议和广域拓扑感知并行策略,对跨数据中心大模型训练提出针对性模型训练策略建议,为客户提供合适的解决方案,提升训练效率。联合国内算力上下游生态合作伙伴为客户提供适配测试服务。

自2023年9月投入运营以来,建设大规模商用液冷资源池,通过“两弹一优”实践创新解决机柜功率的变化需求,支持单列机柜功率密度从8kW到48kW之间灵活适配。目前,跨区RDMA组网已完成128、512卡30KM对比验证,训练效率可达单集群的95%以上,完成5家大模型训练性能测试,支撑星辰115B等基础大模型平稳训练,集群可用率达到90%以上。

大家关注
联系方式

电话:010--67123133

邮箱:shuzifw@163.com

地址:北京市东城区东大地街1号红桥文创园5A号楼

邮编:100062