您的位置:新闻>>详细信息

高性能计算集群维护工作完成恢复运行

发布时间:2017-04-22

现代分析与计算中心高性能计算集群2010年底招标采购,20119月投入运行,运行以来,常期保持CPU80%左右的占用率,对于大型计算系统而言,运行效率非常高。此计算集群对学校的双一流建设及全校师生的教学科研起到了举足轻重的作用。然而,随着运行时间的延长,该集群硬件性能的稳定性问题日益突出,特别是集群的登陆与管理节点负荷较重,近来各种问题层出不穷,严重影响了用户作业的正常投算。

为提高集群的稳定性,维持原有应用,我们从中心测试费和计算费自筹经费5万余元,对集群的软硬件系统进行了一次维护工作,更换所有已知故障部件,如磁盘阵列的电源模块、电池、机柜风扇、胖节点服务器备用电源、各计算节点故障内存、硬盘等,排查影响系统稳定工作的软硬件问题,并对更换、升级的部件进行可靠性烤机测试。具体如下:

1. 进行了GPU节点优化,每个GPU节点增加一块CPU及扩充内存至96G.,更换全部四块GPU卡,升级为NVIDIA Tesla C2075,并进行可靠性测试;

2. ANSYS软件计算队列每个节点进行内存扩充至96G,并进行可靠性测试;

3. middle队列每个节点进行内存扩充至48G,并进行可靠性测试;

4. 对登陆节点进行硬件故障排查、在主板故障无法解决的情况下,以一计算节点临时代替原登陆节点,软件系统重新安装,并进行可靠性测试,同时制定集群登陆和管理系统升级方案,报请学校审批,以求彻底解决集群稳定性的问题。

5. 对集群商业软件进行算例测试。由于Barracuda&EDEM软件与原登陆节点硬件绑定license,临时更换登陆节点硬件后需移机软件license绑定Barracuda&EDEM暂时无法使用。

集群停机维护给用户带来了不便,敬请谅解。

201742410时,集群恢复正常运行。

  现代分析与计算中心 科学计算部

 2017422