400-860-6160

技术资料

专业 • 热情 • 信任 • 拥抱变化

超算平台搭建实施-集群系统篇

时间:2020-11-20 16:38:29 浏览次数: 分类:技术资料

上一期《管理节点篇》向大家讲述了头节点如何安装部署,本期“Geeki 说”让我们一起聚焦超算平台搭建实施的第二步,也是“看不见”的部分——集群系统部署,讲讲集群系统如何分发。



01/Client节点mac表导入

首先,我们会把client节点的mac表导入我们的管理节点,管理节点通过mac 表去分发对应节点的操作系统以及他们所需要的软件。


02/集群系统分发

image.png

集群包括登录节点、计算节点、io节点、管理节点。上图中的大内存节点、fat节点和gpu节点都属于计算节点的一种。


登录节点,该节点顾名思义,是用来给用户登录的。我们高教领域的用户不在少数,在学校的集群平台上,师生登录的时候不可能让他们任意登录整个集群。那么如何限定他的权限呢?这就需要选取或者规定其中几台节点作为他们的登录节点,只能登录并通过这些节点去操作集群。


用户登录后,需要计算节点进行下一步的计算操作,“跑”各种应用。比如“跑”生命科学应用需要调用计算节点,那么登录节点就会通过作业调度软件把这些任务派发到集群的计算节点上,再通过计算节点的资源去进行计算。


上图集群配置中除了较常见的一些计算节点外,还有特别的cpu节点(包括大内存节点、fat节点)和gpu节点。大内存节点最明显的特点是内存数量比较多,而fat节点则是cpu核数比较多,另外图中两个gpu节点的配置也是不同的,在gpu-k40节点中使用的是2块 nvidia tesla k40c  gpu卡,在gpu_v100节点中使用的是8块 nvidia tesla v100  gpu卡,它们的功能倾向稍有不同。


说完配置,让我们回到集群系统配置的图解。


image.png


首先是mgt。mgt对应管理节点,管理节点是用来管理整个集群的,包括系统推送、用户管理、系统批量操作等等。


由于集群的存储口有限,无法兼顾每一台节点,可将存储的磁盘空间映射给io节点,再通过io节点上层安装gpfs并行文件系统,将存储映射出来的磁盘组成文件系统,挂载给所有计算节点,那么所有计算节点就能看到统一的存储空间了。


另外大家耳熟能详的login节点,即用户登录节点,是用来给用户登录的。用户登录后只有普通权限,并在这些限定节点进行作业提交,把任务派发到计算节点。


接下来是gpu计算节点和cpu计算节点,这里就不多做赘述了。


以上是各个节点的介绍,下面和大家详细聊一聊各个节点需要对应的软件角色。


首先,管理节点需要ladp server(用户管理)、作业调度server、ib驱动、系统优化、时间同步、rsyslog日志和网络配置。


io节点包括了文件系统server(因为只有它和存储直接接触),除此之外的配置基本同上。


login节点需要配置文件系统的client端。因为用户的家目录在文件系统里,需要去挂载文件系统才能登录login 节点,然后配置作业调度的软件,以便用户通过作业调度软件去提交作业到计算节点。除了和前两个节点差不多的配置,还有intel编译器、环境变量脚本等。


剩下的计算节点所需的功能点较少,多为软件client端与性能调优,性能调优会在下一篇《性能测试篇》中详细介绍,这里也就不多说了。


03/文件系统配置

以上部分配置完成了后,需要配置文件系统


文件系统是在操作系统中负责管理和存储文件信息。从系统角度来看,文件系统是对文件存储设备的空间进行组织和分配,负责文件存储并对存入的文件进行保护和检索的系统。而在之前的操作中所提到的“文件系统”操作仅仅是安装,安装后还需要把文件系统对接起来,通过配置io节点将文件系统的优化项包括挂载项这些给作业节点配置好。


我们会通过创建集群模板文件,将所有的节点都添加进去,并定义节点角色,以创建的节点模板文件来创建集群,再创建nsd设备(这里需要提前准备磁盘描述文件)。在准备好nsd底层的设备之后,就可以创建gpfs对外提供的文件系统了。


04/作业调度系统配置

最后是作业调度系统的配置


作业调度,简单来说是将我们派发的作业提交给各个计算节点,它有四大明显的特点:①在单位时间内尽可能提交更多的作业;②不断提交作业,自动排队,保证集群利用率最高并一直处于忙碌状态(可达到接近100%);③由于集群利用率可达到100%,io得以充分利用,利用率相对也很高;④对所有用户的作业的优先级进行公平公正、合理有效的分配。


我们会通过修改lsf的配置文件install.config里面的内容,来修改安装位置、管理者、集群名、文件位置、安装源glibc文件包地址等等,从而实现作业调度系统的配置。


在配置好作业调度系统后,我们集群系统的部署“四步走”就全部完成啦。


咨询热线: 400-860-6160

公司邮箱: hwclould@ongineer.cn /og@ongineer.cn

公司地址: 南京市雨花台区锦绣街5号绿地之窗C5座1218室

企业文化

专业 / 热情 / 信任 / 拥抱变化

价值观

成就客户 成长自己