025-86738812

技术资料

专业 • 热情 • 信任 • 拥抱变化

“换”存储是门技术活

时间:2021-02-26 17:06:57 浏览次数: 分类:技术资料

哈喽大家好,本篇依旧是“存储专场”,让我们来看看今天的主角——并行文件存储。


并行文件存储是在集群环境下为解决传统计算环境中串行存储性能瓶颈,所提出的专用存储。并行文件存储在计算平台运算时,可以通过集群化与并行化的方式,多个存储节点并行处理业务下发的 I/O 请求,相对传统的串行存储大幅提高了性能与效率。


“换存储”是“基本功”同样也是门“技术活”。下面就以奥工小分队近期负责的某一存储故障为例,聊聊并行文件存储故障处理的一些特殊情况和相关技巧。


image.png

每一次面对集群出现故障,奥工小分队快速响应、第一时间现场排查,根据集群的具体情况和故障现象确定故障原因。


本案例中的集群配备了一套存储与四台IO节点,并安装了GPFS并行文件系统。硬盘运行状态正常的情况下,盘柜中有一半的盘在存储运行一段时间后出现了无故掉线的情况。为了解决上述问题,临时采取了断电重启的方法,短期内使得硬盘重新上线并开始重建。


但紧急处理并不是长久之策,上述现象出现愈发频繁,最终导致集群处于不可用状态,亟需从根源上解决问题。


image.png

事实上,在出现问题的这段时间内,奥工小分队不断排查原因,对该集群的存储控制器,硬盘柜等固件升级,但现象仍然存在,问题没有得到解决,因此最终认定为机箱的SAS连接线导致。一般遇到这种情况,换一个机箱就可以解决了。


换机箱,按常规操作首先需要记录盘箱的硬盘位置,将旧主机箱下架,换成新的机箱,把硬盘按原来的位置插到新机箱里面。等控制起来后,导入原来的Raid组,重新映射vdisk给IO节点,用GPFS文件系统恢复的方式,将它恢复上线。


方案设计设想很完美,但是处理过程往往很曲折。

image.png

首先,奥工小分队记录硬盘位置并为每块硬盘打上标签。然后卸载原机箱,更换新机箱,将硬盘按照原来位置插回对应的槽位。


上述常规操作后,开启控制器发现硬盘并没有重建,我们意识到这个问题比想象中复杂,立刻换回原本的控制器测试,发现原来控制器下开始重建了。


由此发现后,我们使用一台原本控制器和一台新控制器,让控制器之间同步Raid状态信息,并更换开机升级控制器固件一致。可没想到的是,由于新旧控制器之前内存大小并不一致,所以又出现了新的报错。


针对新的报错,奥工小分队选择先强制清除报错信息,再重启控制器后顺利开机,并开始同步Raid信息。重新映射后由于盘符的变更,我们找到原来的gpfs nsd创建文件去对应新的盘符。


最后,使用gpfs内置命令mmchnsd将nsd的原盘符更换为新的nsd盘符,再启动gpfs文件系统,终于顺利开机,完成了本次“一波三折”的换存储之旅,整个存储完全恢复到正常运行状态。




数据是客户最核心的资产,涉及到存储的处理往往要慎之又慎。


与“开关机”相似,“换存储”也是非常基本的操作,可能是换盘、可能是换机箱……会有很多复杂情况。在保障生产环境不受影响的前提下,要做“好”,做到“以不变应万变”,需要扎实的基础经验和专业的服务精神。为此,工小分队不断努力,致力于将基础的工作做到最细致,将最好的体验给客户。


咨询热线: 025-86738812

公司邮箱: hwclould@ongineer.cn /og@ongineer.cn

公司地址: 南京市雨花台区锦绣街5号绿地之窗C5座1218室

企业文化

专业 / 热情 / 信任 / 拥抱变化

价值观

成就客户 成长自己