您的位置:新闻>>详细信息

高性能计算集群因长时间停电被迫中断所有作业,停机重启。

发布时间:2016-05-19

      2016年5月18日10:34分全校停电。11:30分左右,其它院系陆续供电,现代分析与计算中心至13:37恢复供电,其间,高性能集群不间断电源电量耗尽,被迫停机,集群正在运行的所有近百个作业被迫中断。因此次停电时间较长,集群在没有空调的环境中工作一个多小时,停机后机房室温达36.2度,刀片机柜出口温度己达41.8度。考虑高温后对电子器件可能的损害,我们在恢复供电后,先行对机柜、机房进行降温工作,于15:00开始重新开启集群,对硬件逐一检测,至16:30所有80个节点硬件开机完成,17:10完成所有操作系统、编译环境、商业软件的服务重启和算例测试,至17:30集群软硬件恢复正常运行。

      用户可以重新投算被中断的作业。
      此次因长时间停电中断用户作业,给用户带来的损失表示谦意,并请用户理解。

                                                                                         现代分析与计算中心  科学计算部

                                                                                                                    2016.5.19