400-860-6160

技术资料

专业 • 热情 • 信任 • 拥抱变化

超算平台搭建实施-管理节点篇

时间:2020-11-20 16:38:36 浏览次数: 分类:技术资料

奥工科技作为一家专业的融合计算服务提供商,我们的服务工程师们被亲切地称为“奥工服务小分队”,这支队伍伴随公司成长,五年时间里服务了百余个HPC集群,覆盖高教、医疗、制造、军工等多个领域,具有丰富的HPC项目实战经验。


基于以往的项目案例和实施经验,我们精心策划并开启了“Geeki说”专栏,用来讲述我们奥工工程师的实践故事和技术体会。


image.png


话不多说,进入今日正题——

《一张图概述HPC平台搭建实施》中的

“那张图” 


image.png

HPC实施搭建是全栈服务中的重要环节,可将它分为四大模块,分别是管理节点部署、集群系统部署、集群性能测试和统一智能管理(奥工自研统一智能管理软件还未发布,会在本系列HPC实施搭建《统一智能管理篇》中详细展示)。

image.png


 Geeki说  的“第一说”

实施搭建的第一步「管理节点部署」

(敲重点:是第一次部署必须要安装的模块)



在前期的硬件设备全部上架完成后,我们就要开始部署管理节点,管理节点部署作为HPC实施的首要步骤,在配置好后,可向其余节点自动推送系统和其他安装包,比如作业调度系统、文件系统、驱动等等,以便进行下一步操作。


为了“说”得更加清晰,我们又将此步骤的部署具体分为基本配置、平台软件安装导入分发脚本三部分,下面就和大家好好唠一唠~


01/基本配置


首先,是基本配置,包括安装操作系统、编写hosts表、配置ip地址和本地yum源。


基本配置的第一步就是安装系统,安装完成后配置优化项(包括selinux和firewalld配置和ssh端口优化)。selinux可以看作是安全增强型的linux,嵌入系统内核,负责对内的安全管理;相对的,firewalld可以看作是防火墙的升级版,对端口、ip地址等进行对外的安全管理。对内对外安装完毕后,不能忘了对ssh端口优化,通过优化修改默认端口,可有效地防止黑客攻击,进一步提高集群安全性。


安全问题搞定了,就要开始编写hosts表了。通过手动编写hosts表,可以加快域名解析、方便局域网用户、屏蔽网站等等,同时ip地址与域名对应,也方便查找和记录。


基本配置的最后一步是配置本地yum源。yum是一个在fedora和redhat以及suse中的shell前端软件包管理器,提供了查找、安装、删除某一个、一组甚至全部软件包的命令,通过本地yum源的配置,配置安装系统镜像中的软件源,并可以通过这个源获取软件并安装。



02/平台软件安装


在基本配置好后,就要开始安装集群统一管理的组件,包括ntp、dns、http、dhcp、nfs这些软件。


「ntp」可以确保高精度的时间校正;「dns」用于域名与 ip 地址的相互转换,以及控制因特网的电子邮件的发送;「http」用来拉取安装包的头文件,通过头文件获取清单,其中包含操作系统信息、磁盘划分信息、基本设置、安装后需要执行的脚本等等;「dhcp」可自动获得服务器分配的ip地址和子网掩码以及nfs实现在类unix系统间实现磁盘文件共享。


除此之外,还要安装部署 ldap server和webmin。


「ldap server」可以优化查询、浏览、搜索的数据库,安装后用作用户管理。「webmin」是目前功能最强大的基于web的unix系统管理工具,管理员通过浏览器访问webmin的各种管理功能并完成相应的管理动作。


在上述安装部署完成后,创建用户即可☑


03/分发脚本导入


管理节点部署的最后一步,包括了网络配置、系统优化和ib网络驱动安装、gpu显卡驱动自动安装、作业调度系统server/client自动安装、文件系统server/client自动安装、intel编译器自动安装、iozone(测试文件系统的读写性能)、stream(测试内存带宽)、iperf(测试网络延迟)等等。


网络配置中的「ntp」上文已提到,是一种保证每台节点时间一致的基础服务,另外的图解中提到的「rsyslog」自动配置,是为了排查故障和追溯故障点。系统优化中的「ssh」调优大家也不陌生了,可以通过修改默认端口,防止黑客攻击,效果明显;「swap」调优脚本配置可以在内存不够时自动释放内存空间;而「module」安装,可以通过modulefiles动态修改用户的环境。



咨询热线: 400-860-6160

公司邮箱: hwclould@ongineer.cn /og@ongineer.cn

公司地址: 南京市雨花台区锦绣街5号绿地之窗C5座1218室

企业文化

专业 / 热情 / 信任 / 拥抱变化

价值观

成就客户 成长自己