400-860-6160

技术资料

专业 • 热情 • 信任 • 拥抱变化

超算平台搭建实施-性能测试篇

时间:2020-11-20 16:38:23 浏览次数: 分类:技术资料

欢迎来到“Geeki说”第三期——概述超算平台搭建实施之《性能测试篇》。看过前几期的小伙伴们都知道,基于以往的项目案例和实施经验,我们精心策划并开启了“Geeki说”专栏,用来讲述我们奥工工程师的实践故事和技术体会。



前两期,我们通过部署管理节点和集群系统配置了集群。在集群配置好了之后,就需要对搭建的整个集群做一整套性能测试,也就是超算实施搭建的第三步——集群性能测试



那什么叫性能测试?性能测试又有什么作用呢?


「性能测试」是指通过自动化的测试工具模拟多种正常峰值及异常负载条件来对系统的各项性能指标进行测试,用于验证软件系统是否能够达到用户提供的性能指标,同时发现存在的性能瓶颈,最后期望起到优化作用。性能测试可以评估系统的能力、识别体系中的弱点、对系统进行调优、检测软件中的问题、验证集群的稳定性和可靠性等等。


因此,性能测试在超算平台搭建实施过程中是至关重要的环节。 

 


01/linpack性能测试

第一步是对于cpu性能的测试,即linpack测试


「linpack」是一种用于测试高性能计算机系统浮点性能的基准测试程序,通过利用高斯消元法求解一元N次稠密线性代数方程组,以评价高性能计算机的浮点性能。


作为衡量计算机性能的指标,其原理是使用 CPU 做大量的矩阵计算。简而言之,可以把linpack测试理解成一个矩阵大小的测试,通过不断调整每个矩阵得到最大值,最大值并不会超出集群的负载压力,所以一般会是内存大小开根号乘以一万,得到最佳的矩阵大小。


具体一点来说,linpack 测试包括三类:linpack100、linpack1000和HPL。linpack100求解规模为100阶的稠密线性代数方程组,linpack1000要求求解1000阶的线性代数方程组,这两者目前使用较少。现代多用HPL进行测试,HPL即High Performance Linpack,也叫高度并行计算基准测试,它对数组大小N没有限制,更适用于现代高性能计算机集群。


02/iozone性能测试

接下来iozone性能测试


「iozone」是一个文件系统的性能检测工具,可以测试不同操作系统中文件系统的读写性能。我们也可以把iozone性能测试理解成对于我们后端存储读写性能的一个测试,包括8k/64k/128k/1M/4M/8M/16M这些存储大小,分别对应我们的block size(磁盘的块大小)。


这里要说一下,磁盘是由盘片组成的,会分成一个个扇区,最大的硬盘一个扇区才4K。磁盘设备之上是文件系统,而文件系统不是一个扇区一个扇区的来读数据的,这样太慢了,所以文件系统就引入了block size这么一个概念,它是一个块一个块读取的。


文件系统的测试软件是针对文件系统层提供的功能进行测试,包括文件的打开关闭速度以及顺序读写,还有随机位置的读写以及进程并发数目等各个方面进行详细的测试。在测试文件的读写性能方面,iozone测试范围广,指标精确。


另外值得一提的是,测试时候应注意设置的测试文件大小一定要大过你的内存(最佳为内存的两倍大小),不然linux会给你的读写内容进行缓存,会使数值非常不真实。


03/stream性能测试

然后是对内存的测试,即stream测试


「stream」是综合性的内存带宽测试,测试成绩以MB每秒来衡量。随着处理器处理核心数量的增多,内存带宽对于提升整个系统性能越来越重要,处理核心和内存带宽比对系统性能有着重大的影响,如果某个系统不能够足够迅速地将内存中的数据传输到处理器当中,若干处理核心就会处于闲置状态,等待内存数据传输过来,而这其中所产生的闲置时间不仅会降低系统的效率还会抵消多核心和高主频所带来的性能提升因素。


stream在测试内存方面表现卓越,其通过fortran和C两种高级且高效的语言编写完成,由于这两种语言在数学计算方面的高效率, 使得 stream 测试例程可以充分发挥出内存的能力。stream 具有良好的空间局部性,是对 tlb 友好、cache友好的一款测试,支持copy 、scale 、 add、 triad四种操作。


需要注意的是,stream 测试得到的是可持续运行的内存带宽最大值,而并不是一般的硬件厂商提供的理论最大值。


04/iperf性能测试

最后是iperf网络延迟的性能测试


性能测试环节中对网络性能的评估必不可少,该评估主要是监测网络带宽的使用率。


「iperf」作为一款基于tcp/ip和udp/ip的网络性能测试工具,它可以用来测量网络带宽和网络质量,还可以提供网络延迟抖动、数据包丢失率、最大传输单元等统计信息。我们可以根据这些信息了解并判断网络性能问题,从而找到HPC平台实施搭建中网络故障的原因。


保证网络性能的基础是将网络带宽实现最大化,但是由于网络设计不合理、网络存在安全漏洞等原因,都会导致网络带宽利用率不高。为了找到利用率不高的原因,就需要对网络传输进行监控,监控需要使用到iperf这样的网络带宽测试工具。



咨询热线: 400-860-6160

公司邮箱: hwclould@ongineer.cn /og@ongineer.cn

公司地址: 南京市雨花台区锦绣街5号绿地之窗C5座1218室

企业文化

专业 / 热情 / 信任 / 拥抱变化

价值观

成就客户 成长自己