400-860-6160

技术资料

专业 • 热情 • 信任 • 拥抱变化

小叙”防大于治“的巡检一二三

时间:2020-11-20 15:37:55 浏览次数: 分类:技术资料

在传统集群的运维中,经常陷入“救火式运维”的窘境,秉承着“预防为先”的原则,定期巡检可以提前发现设备在运行中存在的隐患并进行合理整合,做到防患于未然。奥工小分队根据集群实际需求制定巡检方案,通过人工&运维软件双重保障的巡检方式,每季度、每月甚至每天定时定点为集群检查隐患、排除风险,力求面面俱到,不放过任何一个细节。


图片27.png 

 

超算集群是由一些互相连接的服务器通过快速通信链路构成的一个并行或分布式系统。这些服务器一起工作并运行一系列共同的应用程序,同时为用户和应用程序提供单一的系统映射。从外部看来,这些服务器就像一台服务器在工作;而对内来说,外面来的负载通过一定的机制动态地分配到这些节点机中去,从而达到超级服务器才有的高性能、高可用。

 

每一个运维人都知道,在集群的运维过程中“防大于治”,“救火”不如在“起了火星子”或者“周围存在易燃易爆品”时就及时处理。超算中心设备数量多,如果隐患不及时处理,轻则影响单个节点的正常运行,重则影响整个集群的稳定运行。

 

图片28.png 

 

那么如何“防”?巡检就是“防”的必要手段——“日常巡检”是日常对相关设备进行巡视和检查,主要分为机房环境巡检和服务器巡检,通过巡检发现隐患并第一时间安全处理完毕,做到以“防”主动找出可能会影响系统可用性、系统性能降低等原因,发现影响软硬件严重故障、业务系统性能的瓶颈等等,最大限度减少隐患和已经存在问题带来的影响,保障集群正常稳定运行。

 

超算中心分为系统运行监控中心和中心机房两个部分,中心机房是超算中心正常运转的重要核心,更是巡检的重中之重。为保障所有用户作业安全平稳运行,中心机房专人专岗负责,另配备7*24小时的远程团队提供支持,在巡检上自然也会下大功夫。关于奥工巡检整个流程下来可以简单分为前期准备、现场检查、数据收集分析、报告生成、问题追踪,本篇着重和大家聊一聊“现场检查”这一部分,该部分可以细划分为机房环境巡检和服务器设备巡检,下面就来详细和大家说一下:

 

机房环境巡检就是对机房基础环境设备、网络设备、主机设备、数据库及中间件系统等实现全面监控,形成完整的实时监控系统,自动收集各种监控指标,及时发现系统隐患和故障,第一时间通知到负责人,保证问题可以得到及时处理。

 

奥工自研的集群监控软件OGCR(Ongineer Control Rom)就是这么一款具备监控集群各个方面,协助机房环境巡检的监控软件,它可以通过多样化图表实施展现当前集群的状态(包括温度、湿度、空调、UPS、烟感、摄像头、门禁等……)并提供相关提醒和告警,目前已经成为奥工小分队巡检的有力工具之一。

 

图片29.png 

 

除了环境的巡检,还有集群的服务器(Linux)系统也需要定期巡检,以检查服务器软硬件使用情况,确保可以及时发现问题、解决问题,降低损失,巡检内容包括硬件监控、系统监控、性能监控、安全监控、应用监控和作业运行监控,这里简单概述下就不展开了说了。

 

● 硬件监控包括通过远程管理系统查看集群节点硬件状态(比如联想IMM)、通过IPMI完成物理设备的监控(比如设备温度、设备故障)以及查看交换机、ib线是否存在降速的情况;

● 系统监控是对cpu、内核、操作系统、内存、硬盘使用率、io、负载等进行监控;

● 性能监控是对服务器性能和存储性能进行监控;

● 安全监控是对用户登录是否存在异常情况、是否存在用户密码爆破、查看所有用户的定时任务是否存在异常等进行监控;

● 应用监控是对应用软件的license进行检查,主要关注是否过期、是否正确启用、查看文件系统剩余空间,检查gpfs,lsf,ldap等应用是否正确运行等;

● 作业运行监控是针对用户作业cpu利用率和各个队列排队情况进行监控。

 

巡检工作完成后,奥工小分队会对巡检内容进行统计分析,同时记录存在问题并进行问题追踪,讨论巡检情况并撰写运维报告,最终提出问题优化方案。

 

有一个比较常见的巡检“小情况”想和大家分享一下,在奥工小分队日常巡检中发现经常有用户遇到文件无法写入、上传等问题,通过检查最终发现问题根源在于用户磁盘空间满了而用户并不自知,于是我们开始思考如何主动帮助用户避免此类情况的发生。

 

通过总结经验、集思广益,奥工小分队最终达成了应用脚本方式避免上述问题的解决方法。通过编写脚本,在每个用户登陆时自动显示磁盘情况(包括空间已用多少,还剩多少等信息),可以及时提醒用户清理文件夹,避免了用户因为磁盘容量问题导致无法正常运行作业。

 

图片30.png 

 

每一个运维人都知道“防大于治”的重要性,奥工小分队更是贯彻执行,将“防”的效用最大化,力求在问题发生前发现问题、解决问题。OGCR的精确告警配以人工巡检是奥工小分队目前巡检的重要手段,同时我们也看到自动化巡检更是大势所趋。今年,奥工自动巡检系统软件OGAC已通过中国软件测评中心的测试,不久将会正式发布,敬请期待!


咨询热线: 400-860-6160

公司邮箱: hwclould@ongineer.cn /og@ongineer.cn

公司地址: 南京市雨花台区锦绣街5号绿地之窗C5座1218室

企业文化

专业 / 热情 / 信任 / 拥抱变化

价值观

成就客户 成长自己