025-86738812

技术资料

专业 • 热情 • 信任 • 拥抱变化

存储开关机小实践

时间:2021-02-10 17:04:35 浏览次数: 分类:技术资料

本期还是与存储有关!“开关机”是集群中再日常不过的操作了,大规模复杂系统的实验室高性能计算集群开关机必须严格按照正确步骤逐次进行,否则轻则导致存储硬件损坏,重则造成数据丢失。


本期就让我们一起聚焦存储“开机”与“关机”的实践步骤,以及日常突发断电该如何紧急处理吧。


image.png

开机的原则遵循

“先开重要设备,再开边缘设备”。


01

环境准备工作


环境检查贯穿高性能计算集群建设到运维全阶段,特别是开机阶段。具体来说包括保证集群环境清洁、无尘,防止任何腐蚀性气体、废气的侵入,机房内不允许水、气管道通过,空气调节设备应能满足设备正常运行的温度与湿度要求,确保空调运转正常。


最后是依次给设备加电。先给交换机设备加电,再给存储扩展柜加电,等待5分钟,加电存储控制器,等待10分钟,最后给IO设备设备加电,IO设备自检完成后按开机键开机。


图片



02

IO节点所有操作:启动、挂载、检查。


◆ 启动:

开机后等待IO节点系统启动完成,通过PING命令检测网络连通性,确认正常后启动文件系统。文件系统启动为开机自启动,以下命令一般无需执行,若没有自动启动,可以通过以下方式手动启动GridScaler文件系统:

ssh r4io1

mmstartup -N r4io1,r4io2,r4io3,r4io4

启动后,检查文件系统启动状态是否为active。

ssh r4io1

mmgetstate -N r4io1,r4io2,r4io3,r4io4


◆ 挂载:

在IO节点挂载文件系统,文件系统挂载也是开机自启动,以下命令一般无需执行。若没有自动启动,可以通过以下方式手动挂载GridScaler文件系统

ssh r4io1

mmmount all -N r4io1,r4io2,r4io3,r4io4


◆ 检查:

最后,记得检查文件系统是否挂载,并查看是否挂载了文件系统的目录。



03

计算节点所有操作:启动、挂载、检查。

启动:

完成上述步骤后,开启所有计算节点,计算节点启动文件系统。同样,文件系统和挂载都为开机自启动,如果没有自动启动,可以结合xcat中批量操作命令手动启动GridScaler文件系统

ssh xcat2

psh all mmstartup

PS:若有个别节点没有启动可以使用以下命令单独启动GridScaler文件系统

ssh hostname

mmstartup

启动后,对计算节点文件系统状态进行检查,是否都为active。

ssh xcat2

psh all mmgetstate


挂载:

同样,文件系统挂载也为开机自启动,若没有自动启动,以下方式为手动挂载GridScaler文件系统

ssh xcat2

psh all mmmount all


检查:

同样检查计算节点文件系统是否挂载

ssh xcat2

psh all df -h

查看是否挂载了文件系统目录



以上IO节点和计算节点全部操作完之后,还需要检查文件系统是否运行在RDMA网络下:

ssh xcat2

psh all “mmfsadm test verbs status”

查看状态是否为start。


image.png

关机的原则遵循

“先关边缘设备,再关重要设备”。


01

关机准备工作


在管理节点上以管理员用户(root)登录,使用下面方式对终端用户发送提示信息,所有登录用户都会收到提示the system will be closed。

ssh xcat2

psh  all “wall the system will be closed” 


kill所有作业,关闭运行在存储上的服务,如作业调度软件、门户软件、license管理器等。


02

计算节点所有操作:卸载、检查、关闭。


存储初始化的第一步,需要将不同数量的磁盘一起

卸载所有计算节点文件系统

ssh xcat2

psh all mmumount all


检查所有计算节点文件系统是否卸载成功

ssh xcat2

psh all df -h

检查是否已经成功卸载/apps和/hpchome目录


关闭所有计算节点文件系统

ssh xcat2

psh all mmshutdown


03

IO节点所有操作:卸载,检查,关闭。


卸载所有IO节点文件系统

ssh rio1

mmumount all -N r4io1,r4io2,r4io3,r4io4


检查所有IO节点文件系统是否卸载成功

ssh r4io1-r4io4

df -h

检查是否已经成功卸载文件系统目录


关闭所有IO节点文件系统

ssh rio1

mmshutdown -N r4io1,r4io2,r4io3,r4io4


以上IO节点和计算节点全部操作完之后,检查所有节点文件系统是否关闭,确保所有节点文件系统状态为down,完成系统的全部关机。


再进行硬件关机,通过shutdown命令关闭存储控制器,等待1分钟会自动退出该终端。拔出控制器电源,等待5分钟,拔出扩展柜电源,至此关机完成。


image.png

目前大部分集群都会采用普通供电+UPS供电相结合的方式,配以专业的断电应急保障,足以保证集群供电安全可靠的同时,有效节省超算集群的UPS建设和维护费用。


如果集群发生突然断电情况,转为消耗UPS电量,这时候需要立即关机,具体步骤如下:


① 由于断电突发,直接强制关闭文件系统

ssh r4io1

mmshutdown -a


② 检查所有节点文件系统是否关闭,状态为down

ssh rio1

mmgetstate -a


③ 使用shutdown关闭存储,等待1分钟会自动退出该终端

ssh user@controllerA/controllerB


PS:若停电时间较长,则拔出控制器电源,等待5分钟,再拔出扩展柜电源,完成应急关机响应。


“开机/关机”是实施部署中最基础、最常规的操作,可以说是每一个奥工小分队队员的“基本功”了。秉承着“多想一种可能,多做一次检查”的理念,奥工小分队致力于夯实常规化的工作、优化细节上的操作,扎实“基本功”,优化“实践力”,提升“服务感”,致力于实现客户价值最大化。




以上就是本篇关于“开机”“关机”以及紧急断电情况下的“应急关机”的奥工实践分享,想了解更多,请关注我们,下期见!


咨询热线: 025-86738812

公司邮箱: hwclould@ongineer.cn /og@ongineer.cn

公司地址: 南京市雨花台区锦绣街5号绿地之窗C5座1218室

企业文化

专业 / 热情 / 信任 / 拥抱变化

价值观

成就客户 成长自己