400-860-6160

技术资料

专业 • 热情 • 信任 • 拥抱变化

超算平台搭建实施-统一智能管理

时间:2020-11-20 16:38:08 浏览次数: 分类:技术资料

大家好,这里是“Geeki说”第四期——概述超算平台搭建实施之《统一智能管理篇》。看过前几期的小伙伴们都知道,基于以往的项目案例和实施经验,我们精心策划并开启了“Geeki说”专栏,用来讲述我们奥工工程师的实践故事和技术体会。



超算平台搭建实施到了最后一步,也是最贴近用户的一步,即统一智能管理。


本篇作为超算平台搭建实施的终篇,将和大家韶一韶在集群搭建完成后,我们如何通过自研的智能管理软件帮助系统管理员对集群进行智能化管理,在保障集群安全的前提下,实现集群资源统一部署、管理、监控、调度和报表等,大幅提高集群效率和易用性,让超算集群运营实现真正落地。


01/集群系统现状

在大规模的集群系统中,操作系统和软件部署一直都是令系统管理员十分苦恼的问题,系统管理员每天往往会在大量单调复杂的工作中焦头烂额。


集群搭建完成后,安全问题是最需要关注的。如果集群存在安全隐患,账号安全不能保障,就会发生账号挟持、用户无法登陆等问题,严重的时候甚至会造成不可估量的数据损失。为了防止这种情况发生,集群管理员需要通过硬件层面、系统层面的安全加固来防止外部和内部的入侵,所以对系统管理员的技术要求就很高。


另外,集群管理中心人工手动成分特别高。集群的使用情况需要管理员通过脚本才能得出,用户提交作业和资源占用情需要命令才能查看;财务管理需要手动核算才能生成账单;用户管理方面也存在局限问题,用户离职或者毕业,用户信息仍然存在,长此以往变成黑户,大量黑户的存在对服务器数据和信息造成很大威胁,这就需要管理员定期手动核对现有账户信息,不断地删除更新对应账户。整体来说,集群管理过程复杂且浪费大量人力。


02/能否让集群管理更加智能化?

奥工服务小分队服务了300多家客户,部署维护过大大小小不少集群,我们看到了集群管理员在集群运营中遇到的各种问题,也真切地认识到集群搭建实施要善始善终,不能仅仅是搭建实施而忽视用户的使用感受。所以我们有了一个想法——是否可以自主研发一个智能化的管理平台软件,弱化原本超算集群管理的难度,最大化实现超算集群的价值呢?


我们总结出需要搬走集群管理的“三座大山”,分别是安全问题、管理问题、效率问题。设想这样一个智能化管理平台软件应该保障集群的安全性,所以考虑内置防火墙、用户危险操作可回溯查看、权限登录方式等;推动集群管理简易化,所以考虑数字化财务记账、自助式财务流程、自动化生成多维度财务报告等;促进集群的管理高效,所以准备通过解耦模块可组合的方式满足不同超算用户需求快速部署不需要人为干预即可轻松实现在本地搭建。2018年3月,我们公司研发出了这样一款服务软件,给它取名叫OGSP(奥工高性能门户)。


03/OGSP安装过程

OGSP作为一个轻量级容器构建的高性能统一智能管理和自服务门户,从用户生产场景出发,围绕超算生产进行安全、可靠、稳定提供了支撑。具体的我们这里就不多说了,让我们来看一下它是如何安装部署的吧!


环境准备


安装前期的环境准备工作包括软件工具准备,有xShell、WinScp、ogsp安装包等,以及整理设备清单,本次快速部署采用的是虚拟机,操作系统为Centos。


准备工作


首先需要我们准备存放目录。通过创建文件存放的目录/oglab/ogsp,使用WINSCP或xshell将ogsp文件上传到此目录下。

image.png

 

准备工作最后一步,也是我们前文中提到了很多次的“关闭防火墙”,这里关闭的包括iptables和selinux这两个防火墙安全服务。

image.png


安装OGSP


安装Docker,作为一个开源的应用容器引擎,Docker可以打包应用以及依赖包到一个可移植的镜像中,实现轻量化部署与管理。

image.png


安装Mysql,这是ogsp主要的后端数据库软件,结合Mysql本身具有的良好性能,可以保证ogsp前端增删改查等操作等功能稳定。

image.png


安装Mongodb,这是ogsp用于日志的审查系统,方便对用户操作等消息日志进行分析记录。

 

安装PHP-fpm,此部安装提供了更好的PHP进程管理方式,可以有效控制内存和进程、平滑重载PHP配置。

image.png

 

安装Tomcat,Tomcat 服务器是一个免费的开放源代码的Web 应用服务器,属于轻量级应用服务器,是开发和调试JSP 程序的首选。

image.png


安装Nginx,Nginx (engine x) 是一个高性能的HTTP和反向代理web服务器,可以有效加速ogsp页面访问速度。

image.png


安装jumpserver,开源的jumpserver堡垒机、用户内部云盘存储、ldap用户认证等,可以用于ogsp对接第三方应用接口。


安装Ldap-resfelt,用于对接用户自己的用户管理系统,同步上层用户管理系统数据信息。

 

安装py-service,这是ogop用户作业调度系统lsf的接口。除了它,ogsp同样支持其他作业调度软件,例如slurm等。

image.png


以上步骤完成后,ogsp基础功能组件部署就算完成了,此时便可以通过浏览器打开ogsp主界面。

image.png







以上就是我们OGSP初代产品的安装部署过程,过去该过程零零总总需要花费不少时间,如今2.0版本即将推出,除了各项功能大大增强之外,在安装部署方式上也由原来的“手动分布式部署”升级为“一键自动化部署”,实现了时间大幅度缩减和效率明显提高。


说到这里,大家一定很好奇OGSP2.0有什么特色功能?它在智能化运维方面有什么突出的优势?这其中也不是一两句话能说清楚的。这里我先卖个关子,OGSP2.0即将正式发布!请大家拭目以待!


咨询热线: 400-860-6160

公司邮箱: hwclould@ongineer.cn /og@ongineer.cn

公司地址: 南京市雨花台区锦绣街5号绿地之窗C5座1218室

企业文化

专业 / 热情 / 信任 / 拥抱变化

价值观

成就客户 成长自己