400-860-6160

技术资料

专业 • 热情 • 信任 • 拥抱变化

分布式存储小测试

时间:2020-11-13 15:32:14 浏览次数: 分类:技术资料

“眼见为虚,手动为实”是奥工小分队一贯的工作态度,在定制化每一份解决方案之前,我们都会对经手的产品进行大量反复的全方位测评,对每一款产品最真实的情况了然于心,保证奥工出品的融合计算解决方案可以切实帮助客户需求实现真正落地。近期,因为项目的原因,奥工小分队恰巧要测试一款分布式存储产品,就让我们通过本次测试分享一下针对存储类产品常用的的测试套路。

 

图片21.png 

 

什么是“分布式存储”?分布式存储是一种数据存储技术,利用特定技术通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在企业的各个角落。

 

从直连存储(DAS)、集中存储,到“分布式存储”,存储经历了几十年演化发展。随着“云+大数据+AI”的高速发展,存储系统急需实现空间数据容纳能力、资源获取服务分发能力以及统一管理运维能力的三大提升。如今的分布式存储就具备了高扩展、高灵活、易运维、上线快、低成本的显著优越性,因此被普遍应用于超算集群中,用来巩固超算集群的存储能力。

 

图片22.png 

 

为了全面评估此分布式存储产品的各项性能,奥工小分队设计为期三天的测试方案,测试其在私有云环境中的应用情况。本次测试共四台服务器,采用分离式的架构,一台安装私有云操作系统,三台安装CentOS操作系统并安装分布式存储管理软件。这三台服务器每台配备两块1T SSD硬盘做缓存盘,10块2T HDD硬盘做数据容量盘,软件部署成功后采用iscsi的方式映射到私有云操作系统中,并在私有云管理平台中以SharedBlock的形式挂载使用。

 

图片23.png 

(拓扑图)

 

值得一提的是,本次测试环境采用最常见的连接方式,搭建方便快速,同时可以最大程度上减少网络对测试结果的影响,下面进入测试的正题吧!

 

1、云平台使用测试:

 

众所周知,创建虚拟机的速度可以很直观的反应出分布式存储性能。本次云平台使用测试便分别测试了创建1台虚拟机、同时创建10台云主机以及同时创建20台云主机所需要的速度,每个测试用例测试三次。

 

测试前先使用ISO创建一台虚拟机,然后封装成qcow2镜像,使用此qcow2镜像创建云主机,镜像规模2C4G,根云盘40G。测试过程很简单,在云平台上创建云主机,配置为2核4G,并加载一块40G的云盘,控制创建云主机数量分别为1台、十台、二十台,于是得到了如下的测试结果:

 

图片24.png 

 

根据上述结果看出,本次条件下创建虚拟机的速度还是可以的,时间都能控制在1分钟以内。

 

2、高可用测试:

 

“高可用性”是衡量分布式存储性能的重要指标之一,所谓“高可用性”指的是一个系统经过设计从而减少停工时间,保持其服务高度可用性。在实际生产环境中经常会出现硬盘损坏等情况,如果冗余措施做的不到位,那么带来的后果很有可能是灾难性的。

 

因此,高可用测试存储采取三副本的方式部署,理论上是支持两个节点同时故障的,不论是两个节点同时关机还是两个节点上的硬盘均出现故障,数据都应该正常。下面我们开始测试看看实际效果如何:

 

首先,强制关闭存储节点:

分别强制关闭1台或2台存储节点并恢复,测试对云主机是否有影响。在关闭1台机器情况下,云主机能正常使用,存储节点关机后五分钟存储平台自动触发重构操作,无需手动干预;在关闭2台机器的情况下,存储显示不支持该操作。

 

接着,强制拔出硬盘:

分别强行拔出1台存储节点上1块硬盘或者2台节点上各1块硬盘,测试对云主机是否有影响。拔除存储节点1上的一块硬盘过五分钟后恢复,云主机能正常使用,拔除硬盘五分钟后触发重构,期间不影响其他云主机使用;强行拔除存储节点1、2上的一块硬盘,存储平台再一次显示不支持该操作。

 

最后,断电灾难测试:

在实际生产环境中有可能出现一种极端现象,也是每个工程师和管理员都不愿意出现的情况——机房断电。不愿意看到但也存在发生几率,因此奥工小分队通过三台节点均出现故障的情况来模拟机房断电的情况,强行断电多个节点并恢复,测试结果表明云主机能自动恢复,无需手动干预。

 

从上述的测试结果可以看出:

本环境中只支持1个节点故障以及1个节点上的硬盘故障。在实际生产环境中,集群长时间使用发生老化,多节点同时出现硬盘故障的情况屡见不鲜,本次测试的分布式存储就难以应付了。

 

另外值得一提的是,系统出现故障后五分钟内自动触发重构,将数据写到其他磁盘中去,无需手动干预,可见此款分布式存储产品在数据恢复的表现上还不错。

 

3、性能测试

除了上述几种人工手动测试,我们同样会结合专业的测试工具,比如通过FIO对IOPS进行专业性测试,对硬件进行压力测试和验证。磁盘IO是检查磁盘性能的重要指标,可以按照负载情况分成顺序读写,随机读写两大类。

 

此次fio测试参数均采用私有云平台推荐的参数进行测试,并进行了100%顺序读写、100%随机读写、顺序/随机混合读写,为了得出一个更加准确的结论,每种测试分别测试4次。测试结果这里就不多加赘述,给大家看一下测试命令。

 

图片25.png 

 

最后是非常重要的IOZONE测试,主要用来测试操作系统文件系统性能。使用iozone可以在多线程、多cpu,并指定cpu cache空间大小以及同步或异步I/O读写模式的情况下进行测试文件操作性能。需要注意的是,设置的测试文件的大小一定要大过你的内存(最佳为内存的两倍大小),不然linux会给你的读写的内容进行缓存,会使数值非常不真实。本次因为只有1台私有云系统,只测试了单节点单线程和单节点多线程,同样只展示一下使用命令。

图片26.png

至今,奥工小分队实施运维项目超过350+,这其中涉及到的产品我们都做过各种专业测试,累积了丰富的测试经验。秉承着“专业&负责”,奥工小分队坚持大量测试后才能放心的把高质量产品推荐给客户,对定制化融合计算服务解决方案保质保量,从而实现解决方案价值的最大化!

 


咨询热线: 400-860-6160

公司邮箱: hwclould@ongineer.cn /og@ongineer.cn

公司地址: 南京市雨花台区锦绣街5号绿地之窗C5座1218室

企业文化

专业 / 热情 / 信任 / 拥抱变化

价值观

成就客户 成长自己