2021案例集

中南大学:

打造首个高校智算中心

中南大学与浪潮联手打造国内高校首个高性能智算平台,为学校的科学研究和工程计算提供计算力支撑,还参与中国教育科研网格(ChinaGrid)二期的建设并成为重要节点。

CPU理论计算能力达

4856万亿次

GPU理论计算能力达

788万亿次

建设高性能智算平台

中南大学是教育部直属全国重点大学、国家“211工程”首批重点建设高校、国家“985工程”部省重点共建高水平大学和国家“2011计划”首批牵头高校,2017年9月入选世界一流大学A类建设高校。

高性能计算资源特别是其计算能力的大小,已经成为衡量高校科学技术研究、产品研发实力、人才培养水平和持续创新能力的重要标志。基于对高性能计算资源的现实需求,中南大学与浪潮强强联手,共同打造国内高校计算能力一流的高性能智算平台。整个平台拥有1058个计算节点,合计50896个计算核心。

为满足多元算力作业需求,智算中心集群采用CPU、GPU的混合计算环境,CPU理论计算能力可达4856万亿次,GPU理论计算能力可达788万亿次,整个计算集群聚合计算能力达到5600万亿次。

同时,平台采用浪潮AIStation调度平台对算力进行高效调度,满足算力资源的细粒度高效共享,整体资源利用效率可提升至80%;在算力聚合层面,配置100Gb高速IB计算网络对算力集群进行高效聚合,保证应对大规模作业任务或AI训练大模型场景的集群内算力的高效聚合。

此外,为确保元数据访问服务不间断运行,平台独立配置双热备高性能I/O服务器节点,通过成熟的HA软件配置成高可用模式,任何一台服务器出现故障(网络通讯、操作系统、服务器硬件等)都会自动切换到另一台服务器,确保数据访问服务不间断运行。

量身定做满足多种需求

在对中南大学高性能计算公共服务平台建设场地详细的实地勘察基础上,为了最大化提升空间利用率,浪潮采用业内技术领先的60KW高冷量列间空调,相比传统风冷列间空调节省了7个标准IT机柜,有效提升了计算节点机柜的布置空间,计算资源相应地提升约1.2倍。60KW冷量空调优势在于,一是冷量更高,约为传统列间空调制冷量的1.5倍;二是能耗更低,使智算平台PUE值整体降低约10%。

中南大学高性能计算公共服务平台采用了两套浪潮AI微模块。由于在进行高性能计算时,存在多个计算节点同时协同工作的应用场景,要求两个微模块之间实现高速互联。传统的走线方式需要铺设大量的IB(InfiniBand)线缆,增加了数据传输的延时,同时,IB线缆造价昂贵,经费投入巨大。为满足应用的整体化需求,浪潮在两个微模块之间采用定制化过线桥架,优化了IT机柜之间的布线。定制化桥架保证了系统整体美观协调,相对传统布线方案减少IB线缆长度约20%,在有效节约投入的同时,保证了高性能计算对高速计算网络带宽的需求。

中南大学高性能计算公共服务平台有了可靠的硬件支撑,还需要一个“大脑”对其进行监控和管理。微模块监控系统采用32寸触控大屏,可运行3D可视化管理系统。3D可视化系统运用H5技术,具备监视面板、温度云图、资产查询、空间查询、功率查询、AI智能巡检等功能,有效降低了运维人员的工作强度。在操作间还部署了机房运维监控大屏,通过监控大屏和辅助显示器对主机房和配电间设施的运行状态进行实时监控和显示。AI智能监控系统就像晴雨表,不仅可以实现数据的监控,还可以通过日志数据的统计分析,预测可能发生的故障,极大地提高了平台运行的稳定性。

在对外展示上,AI微模块搭载监控系统自动投影技术,在滑动门上通过特殊屏幕呈现出清晰的投影效果,使观众仿佛置身于中南大学智算平台之中,通过屏幕上投射的动态影像,观众可以全方位感受到智算平台所带来的强烈震撼,一睹高性能计算公共服务平台的风采。

中南大学高性能计算公共服务平台的建设与学校“智慧中南”的理念不谋而合。高密度部署、定制化设计以及AI智能监控系统三大法宝为平台的稳定、持续和可靠运行提供了强有力的保障。平台在2020年9月底建成并于10月份投入试运行。智算平台的投入使用,极大地推动中南大学科学研究的成果产出并进一步促进高水平人才的培养。

数字化浪潮 与客户同行