故障描述
本案例是 HP P2000 的储存 vmware exsi 虚拟化平台,由 RAID-5 由 10 块 lT 硬碟组成,其中 6 号盘是热备盘,由于故障导致 RAID-5 磁碟阵列的两块盘掉线,表现为两块硬碟亮黄灯。 经使用者方维护人员检测,故障硬碟应为物理故障,表现为:序列号无法读取,在 SAS 扩充套件卡上硬碟无法识别。
资料备份与修复
故障发生后使用者方工程师与我公司联络,经过详细咨询,了解到故障比较严重,必须把 RAID-5 磁碟阵列带到我公司进行检测,检测 RAID-5 的每块成员盘是物理故障 (磁头损坏或者碟片划伤) 还是逻辑故障。由于情况紧急,工程师在接到原盘以后,立即著手准备检测。对能识别的好盘用连线到北亚镜像站群服务器上使用 WinHex 做扇区级镜像站群,同时对不能识别的坏盘进行检测。
首先将坏盘连线到外部的 SAS 扩充套件卡上,加电后通过硬碟工作声音判断硬碟电机能够起转,但是磁头没有进行寻道操作,于是尝试把硬碟 PCB 分离下来对 HDA 元件氧化部分进行清洁操作,将 PCB 还原后故障依旧。于是和客户沟通使用 6 号热备盘的好 PCB 替换到故障盘上进行尝试性修复,再将故障盘 PCB 上的 ROM 晶片替换到 6 号盘的好 PCB 上面后硬碟工作时起转和磁头寻道声音都正常,但是在寻道结束后,有明显的敲盘声音,于是判断有可能磁头损坏。在和使用者沟通后尝试使用 6 号热备盘中的好磁头对故障盘进行替换操作以读取资料。在无尘室对故障盘进行开盘更换磁头操作后,将故障盘连线到专业硬碟维修工作上进行检测,发现故障盘已经不能识别,资料无法读取。
因为使用者有两块故障盘,之前尝试修复的都是其中一块,再次和客户沟通尝试对另一块故障盘进行修复操作。和先前的故障盘一样,这块盘的故障依旧是磁头损坏,因为使用者的 HP OEM 盘价格昂贵,于是尝试在网上购买 ST 原厂的相同型号硬碟进行磁头更换。这块硬碟的磁头更换完成后,装置能够正常识别硬碟,于是将故障盘所有扇区完整镜像站群到一块相同容量的备份盘中。
 
重组 RAID-5 步骤
【判断起始扇区】所有硬碟都镜像站群好后就可以重组了,用 WinHex 开启 9 块盘 (热备盘不需要加进去重组),先把镜像站群档案解析成磁碟。可以看到这 9 块盘的 0 扇区都有 “55 AA” 标志,如图 1 所示。

图 1
查询结果如图 2 所示,0x01C2H 处表示该分割槽的型别,这里显示 “05”,代表这是一个扩充套件分割槽。因此从 0 扇区看这是一个不正常的 MBR 分割槽结构。

图 2
按图 1 方式继续往下找,分别在 9 号盘和 8 号盘找到了 “55 AA” 的标志。 9 号盘查询结果如图 3 所示。这是一个正常的 MBR 分割槽,其 0x01C6 处数值代表指向的下一个扇区为 GPT 的头部。

图 3
8 号盘查询结果如图 4 所示。其 0x01C6 处数值代表指向下一个扇区。但是下一个扇区很明显不是 GPT 的头部。

图 4
由此可以确定 9 号盘是第一块盘,8 号盘可能是最后一块盘。 GPT 分割槽所在扇区起始于 172032 扇区,因此初步确定 LUN 的起始扇区是 172032 扇区。
【判断条带 (stripe) 大小】条带也称块,它是 RAID 处理资料的基本单元。不同的 RAID 其条带大小有所不同。 RAID-5 的 1 个条带组中有 1 个校验区,1 个校验区的大小等于 1 个条带的大小,根据这一点,针对这个 RAID-5 案例做分析。如果对 VMFS 的档案系统不熟悉,可以通过比较法确定条带大小。如某一条带组中的校验区跟这一条带组中的非校验区可能相差的很明显,通过 WinHex 检视并做对比,就可以找到条带大小。本案例判断出一个条带是 1024 个扇区。
【判断 RAID-5 成员盘盘序】按照 1024 扇区分割,使一个记录为一个条带的大小,如图 5 所示。并且 9 块盘跳到同一记录 283123 。

图 5
当 9 块盘都定位到同一位置时,通过对比可以判断校验区的走向,继而判断整个 RAID-5 的走向。之前已经判断出 9 号盘是第一块盘了,把 9 号盘放在第一个位置,接著就可以判断走向了,结果如图 6 所示 (drive9 是第 4 块盘) 。确定 RAID-5 为左走向,盘序为 9,2,3,4,10,1,7,8,5 。

图 6
前面内容初步确定了 LUN 的起始扇区是 172032 扇区。用 WinHex 跳到 172032 扇区,观察各硬碟实际情况。如果 172032 扇区是 LUN 的起始扇区,那么这个扇区所属条带中的 5 号盘应该是校验区,但是此条带中却显示 8 号盘是检验区,根据本案例 RAID-5 的左走向,5 号盘的校验区应该在 172032-1024=171008 扇区,即上一个条带。跳转到 171008 扇区,发现校验区为 5 号盘。因此可以确定 LUN 的起始扇区为 171008 扇区。
【重组 RAID-5】使用专业恢复工具按照确定的盘序组好,新增进去,如图 7 所示。选择 RAID-5,Stripe size 512KB,左非同步。

图 7
 
点选 Build 进行重组。组好后,由于资料从 1024*8=8192 个扇区开始,若专业恢复工具没有跳转到此扇区的功能,那么刚组好的 RAID 必须和一个档案再进行一次 Build 重组操作。 RAID 的起始扇区 (Start sectors) 选择 8192,这个档案可以任意选择起始扇区和大小大小 (Count sectors),如图 8 和图 9 所示,图 10 是组好的 RAID-5 。

图 8

图 9

图 10
移交资料
整个 RAID-5 就重建好后,由我公司商务联络使用者方验收资料,使用者方确定资料没问题,签订完验收合同后,完整的 RAID-5 资料即可移交。移交时根据使用者方要求把资料移交到使用者方带来的新盘上。恢复完的资料保留在我公司站群服务器上 3 天,之后资料自动被系统销毁。