400-860-6160

技术资料

专业 • 热情 • 信任 • 拥抱变化

超算平台搭建实施-关于运维那些事

时间:2020-12-04 14:33:07 浏览次数: 分类:技术资料

在专栏第一系列中和大家分享了超算平台搭建实施的管理节点部署、集群系统部署、集群性能测试以及统一智能管理。大家是不是觉得,在超算平台搭建实施完成交到客户手上,由系统管理员负责管理之后,我们的工作就算圆满结束了?并不是喔!我们还有非常重要的一项任务——超算运维管理


简单来说,超算运维就是负责超算系统的运行维护工作,保障系统安全稳定运行,给用户提供有效的超算服务。超算运维的历史之久可以追溯到上个世纪60年代,当超算被应用于军事、科研等高尖端领域的时候,运维便相伴而生,经历从传统运维到智能化运维的漫长过程。随着数字化信息时代的到来,确保信息系统安全可控,已经成了各个企业稳定业务发展的前提,超算运维在各个企业中的价值体现也越来越突出。


01/奥工小分队的运维

我们奥工专业的运维团队,始终保持着积极响应的状态,致力于为企业级IT用户提供稳定的全生命周期的超算运维服务。团队内部根据负责工作的不同,主要分为驻场运维、专项运维以及运维专组三部分,下面来一一为大家介绍:



在集群“安营扎寨”的驻场运维


根据项目的实际情况,针对集群情况复杂、运维要求高的客户,我们会安排技术工程师提供专门的驻场服务,在甲方爸爸“家”里住下,提供针对性的运维服务。


比如我们的小分队中就有负责某高校驻场的运维小姐姐,在该高校的高性能中心上班,遵守教职工的工作时间,执行老师们需要的运维服务内容,包括安装配置、巡检、值守以及其他需要配合的工作服务内容。这种运维方式包括规范性日常维护、故障应急响应、设备问题解决等等,运维效率优势明显,可以在客户设备出现问题的第一时间判断处理故障,最短的时间相应客户需求,降低运营信息系统的故障解决的时间成本。



短期内“突击”的专项运维


专项运维比较特殊,一般由参与该项目实施的工程师负责,不需要驻场运维那样长期“安营扎寨”,但是短期内又需要专人负责,在集群现场“暂住”半个月、一个月或者更长时间,全身心投入集群建设和维护。(悄悄的说,专项运维大概率发生在某个大集群出现严重问题时,一般情况下较少见。)


比如我们服务的某制造业客户,当它的集群出现电源问题且设备宕机,情况复杂严重,其业务受到严重影响的时候,奥工运维小分队队长亲自上阵、奋战整整一周。在保证数据不丢失的前提下,竭尽全力恢复集群,并在后期对恢复的集群做了整套性能测试,检查集群各项性能是否受影响。


7*24小时响应的运维专组


奥工小分队中的运维专组必须重磅介绍!服务大量的客户项目、几十个集群、7*24小时响应……我们争分夺秒为客户保障集群安全生产环境。


每月整理运维报告,总结分析近期运维情况;每季度巡检测试并整理巡检报告,检查集群性能水平。我们希望可以不断完善运维方式,更好地提升运维服务水平。


从某些意义上来说,及时运维比建设更重要。除了日常运维,我们还会根据具体情况的不同适时地调整运维策略,比如疫情期间不少集群突增挖矿病毒和勒索病毒,我们运维专组紧急商量对策,最终选择通过关闭不必要的HPC应用、提高防火墙安全策略和监听远程登录端口等方式保护集群安全,效果颇为显著。


02/提升运维服务的个关键点

 1/响应时间 


传统运维局限性是我们服务这么多年一直困扰的问题,服务范围、地点、对象等都会受到约束,严重影响运维效率。正是因为这些局限的存在,从出现问题、发现问题到解决问题,中间的时差不可避免。


如果说平均解决时间是结果,那么平均响应时间就是重要的过程指标。告警越快、响应越快、问题解决越快。所以响应时间的重要性不言而喻,它是提升运维服务的关键点之一。


 2/主动or被动 


传统运维最明显的瓶颈是“被动响应”,往往是故障出现后才采取一定措施,延误了时间,还造成不同程度的损失,这种被动的“救火式”运维往往让我们捉襟见肘、着实头痛。


举个例子,我们早期运维的某高校集群曾出现存储忽然损坏,运维人员及时响应并到达现场,抢修了近24小时才恢复正常运作,这样的传统超算运维方式,尽管运维人员已经竭尽全力,但被动的响应还是对用户计算需求造成了一定的影响。所以,如何可以“化被动为主动”,如何推进主动式运维, 也是提升运维的关键点。

 3/预判能力 


相信每一个运维人都因为海量的日志数据而黯然神伤过,日复一日的“打怪升级”、发现问题解决问题……虽然其中不乏“等级高”的运维人可以根据故障现象的不同,结合自身经验分析原因并迅速找出解决问题的方法,甚至可能具有一定的预判能力,能敏锐的察觉到问题所在,因此备受青睐。但是随着社会生产数字化转型,超算规模越来越大,系统越来越复杂,大数据的连续轰炸依旧让运维人员心有余而力不足。那么如何利用大数据分析减少运维人员压力,提高集群预判性能就非常关键了。

03/我们怎么做?

 1/缩短时延 


试想下,如果线上发现问题,能够第一时间通过短信、邮件、语音等方式告诉大家,是不是就可以有效缩短响应时间呢?我们奥工小分队便通过微信或邮件方式,结合ipmitool命令收集服务器硬件情况,定时自动采集系统数据,后台进行数据与阀值比对,发送集群硬件平台故障信息,第一时间传递集群状态,大大缩短时延,提高运维效率。同时,我们更有奥工客服机器人7*24小时在线,提高响应度,不遗漏客户提出的任何一个运维需求,缩短响应时间,增强服务体验感。

image.png

 2/化被动为主动 


随着社会生产数字化转型,超算规模越来越大,系统越来越复杂,超算运维必须要通过专门工具提升运维智能化水平。超算运维智能化最突出的特点就是“化被动为主动”,通过智能化监控系统发现故障隐患,提前告知用户需要重点关注的资源,做到防患于未然。


除了OGSP2.0为解放人力运维的贡献外,我们自然也没有闲着。根据不同集群用户的实际需求,我们会具有针对性得编写该集群的自动化巡检脚本,检查内存、cpu、节点状态、机房温度等等……通过自动巡检主动发现集群可能存在的问题。

image.png


 3/提高预判 


「深耕运维记录,提升预判能力。」

凭借在超算运维多年摸爬滚打的经验,我们日常会通过记录运维活动、收集运维故障信息,进行数据分析,分析故障点,形成事件报告。运维记录有多重要想必每一个运维人都非常清楚的,深耕运维记录可以有效避免个人意志带来的主观性、片面性和局限性,也可以减少因缺少数据支撑而带来的偏差,降低决策风险。


最最最重要的是,我们奥工专属的资深运维工程师可以根据整合的信息给出分析,针对不同集群的实际情况,敏锐得预判可能存在和未来会出现的问题,在问题发生前预防并优化,从根本上提升体验度。

image.png

image.png

「智能化大数据分析,防患于未然。」

另外,我们上一篇提到的奥工自研OGSP2.0在提高预判上也有“奇效”。它的智能化监控系统全面展示集群系统,通过大数据分析提前发现可能存在的故障隐患,提前告知用户需要重点关注的资源;另外它的智能化诊断也可以最大限度减少维修时间、提高服务质量,做到防患于未然。


image.png







至此,《超算平台搭建实施系列》正式告一段落。


下一期,我们即将围绕奥工超算平台搭建中必不可少的文件系统和大家分享我们的测试经验,不见不散!



咨询热线: 400-860-6160

公司邮箱: hwclould@ongineer.cn /og@ongineer.cn

公司地址: 南京市雨花台区锦绣街5号绿地之窗C5座1218室

企业文化

专业 / 热情 / 信任 / 拥抱变化

价值观

成就客户 成长自己