您的位置:新闻>>详细信息

HPC集群断电停机,向用户致歉,目前恢复运行。

发布时间:2017-11-30

       20171130深夜228矿大南湖校区矿业科学中心一层停电,HPC集群不间断电源工作维持集群工作,而精密空调停止工作,机房温度在30分钟时间里从22度猛升至36.76度,至303分不间断电源电量耗尽,集群被动断电关机。

    339分恢复供电后,我中心工作人员,待机房温度降为正常后,立即着手重新开启HPC集群硬件系统、消除被终止作业残留、进行相关的软硬件测试,至1030系统恢复正常运行。

    此次停电致使16个用户正在运行和排队的297个作业被终止,其中有199个作业已运行达28小时以上。因此给相关用户造成的意外和麻烦,我们表示歉意。请相关用户重新投算相关的作业。

    此次停电,还造成集群55节点管理网网络可用性故障,目前无法正常工作,有待进一步检修或更换硬件,与其在同一刀片上的45节点,也会随时停机不能正常投用。因为55节点为ansys队列的计算节点之一,因此使用ANSYS软件的用户暂时不能投算。

 

 

现代分析与计算中心 科学计算部

2017.11.30