您好,欢迎进入DELL杭州代理商官方网站!
24小时咨询热线:13906519845
全国咨询热线:0571-56775076
新闻中心OUR NEWS

致力于产品的良好用户体验、有效的网络营销效果而努力

DELL RAID阵列中的双重故障和穿孔

发布时间:2022-06-24人气:513

DELL杭州代理商介绍:DELL RAID阵列中的双重故障和穿孔。


数据错误

RAID阵列并非不受数据错误的影响。RAID控制器和硬盘固件包含检测并纠正多种类型的数据错误的功能,避免这些错误被写入阵列/驱动器。

使用过时的固件可能导致将不正确的数据写入阵列/驱动器,因为它缺少最新固件版本中提供的错误处理/错误纠正功能。


数据错误也可能由物理坏块导致。例如,当读/写磁头影响旋转盘片(称为“磁头崩溃”)时,可能会发生这种情况。由于盘片在特定位置以磁性方式存储位的功能退化,块也可能随着时间的推移变坏。由盘片退化导致的坏块通常可成功读取。这种坏块只可能被间歇性地检测到,或使用驱动器上的扩展诊断程序检测到。  

坏块也称为坏逻辑块地址(LBA),它也可能由逻辑数据错误导致。当数据被错误写入驱动器时,即使报告为成功写入,也会发生这种情况。此外,存储在驱动器上的正常数据可能在无意中被更改。例如“位翻转”,当读/写磁头通过或写入附近位置,导致以0和1形式显示的数据更改为其它值时,可能会发生位翻转。这种情况可导致数据的“一致性”受损。特定块上的数据的值与原始数据不同,可能不再与数据的校验和匹配。物理LBA正常,可成功写入,但当前包含错误数据,可能被解释为坏块。

坏LBA通常报告为检测代码3/11/0
检测关键字3介质错误
附加检测代码和附加检测限定符11/00定义为无法恢复的读取错误
未尝试纠正块,也未确定坏块是由驱动器盘片上的物理缺陷导致的,还是由其它原因导致的数据错误导致的。  
存在检测代码3/11/00并不意味着物理驱动器出现故障或应该替换。

双重故障

如果未纠正RAID阵列中的任何一个错误,都可能导致阵列中出现更多严重错误,特别是在发生第二个错误时。


1.jpg

图1:RAID 5阵列中的多个单故障 - 最佳阵列


如图1所示,阵列有多个错误。但是,由于任何磁条中都只有一个错误,控制器仍可访问所有数据,这归因于RAID 5的冗余。如果奇偶校验分段上发生错误,所有数据都完好无损,且此错误对读取操作没有影响。如果数据分段中发生错误,则必须在正常数据和正常奇偶校验数据之间进行XOR比较,以重新计算缺失/坏的数据分段。

当RAID阵列中的一个或多个驱动器包含数据错误,而由于驱动器故障、外来配置、驱动器拆卸或任何其它原因,阵列中的另一个驱动器不再是活动成员,这种情况称为“双重故障”。双重故障情况可能导致立即丢失受影响的磁条中的任何信息数据。


2.jpg

图2:发生故障驱动器的双重故障(磁条1和2中的数据丢失)- 降级阵列    

保持最佳状态的阵列可能发生双重故障的情况。多个硬盘上的相同LBA有错误将发生这种情况。考虑到如今较大硬盘上有很多LBA,这种情况会非常少见。多个硬盘上的同一LBA不太可能同时“坏”。

3

什么是穿孔?如何导致穿孔?

穿孔是戴尔PERC控制器的一项功能,旨在允许控制器还原阵列的冗余,穿孔的另一个名称是“带错重建”。RAID控制器将检测双重故障,由于没有足够的冗余来恢复受影响磁条中的数据,控制器在该磁条中进行穿孔,允许继续重建。


  • 导致无法访问多个驱动器上同一磁条中的数据的任何情况都属于双重故障

  • 双重故障导致受影响磁条内的所有数据丢失

  • 所有穿孔都属于双重故障,但不是所有双重故障都是穿孔


3.jpg

图3:穿孔的磁条(磁条1和2中数据都因双重故障情况丢失)- 最佳阵列



出现以下两种情况中的一种即可进行穿孔: 


  • 双重故障已存在(数据已丢失)

    • 在线驱动器上的数据错误已蔓延(复制)到重建驱动器

 

  • 双重故障已存在(发生第二个错误时数据丢失)

    • 在降级状态时,如果在线驱动器上发生坏块,则对该LBA进行穿孔


对阵列进行穿孔的这种优势将保持系统可用于生产,并还原阵列冗余。 不管是否发生穿孔,受影响磁条中的数据都丢失。LSI方法的主要缺点是在阵列中有穿孔时,只要访问受影响的数据(如果有),仍会遇到不可纠正的错误。


如果访问穿孔磁条内的数据,仍将报告受影响的坏LBA错误,并且没有可能的纠正方法可用。最终(可能是几分钟、几天、数周、数月等)坏块管理(BBM)表将填满,导致一个或多个驱动器标记为预测性故障。


发生穿孔的阵列最终将必须删除并重新创建,以消除穿孔。此过程导致所有数据都将被擦除。在消除穿孔之后,将需要重新创建数据或还原备份数据。可在更利于业务需求的时间安排解决穿孔问题。对阵列进行穿孔可还原冗余,并使阵列返回最佳状态。这能够在发生其它错误或驱动器故障时,保护阵列不会丢失更多数据。


为了最好地保护和管理存储子系统,强烈建议执行例行和常规维护。尽管不可能防止所有错误发生,但借助前瞻性维护可显著缓解大多数严重错误。对于存储和RAID子系统,这些步骤包括: 


  • 更新控制器、硬盘、底板和其它设备上的驱动程序和固件

  • 执行例行检查一致性操作

  • 查看日志了解问题指征


最重要的事情之一是确保固件保持更新。固件提供设备的功能和特性,以及各种错误处理和错误纠正功能。保持固件最新可提高性能,减少错误。也可通过固件更新添加新功能和增强功能。
底板和外部盘柜也包含固件,可能影响其中所包含的驱动器和阵列的操作。

另一个前瞻性维护建议是执行“检查一致性”。检查一致性是手动操作,因为它确实占用RAID控制器整体可用带宽的一部分。但是,可在对性能影响最小的时间安排检查一致性。检查一致性将检查驱动器上的坏块,同时,它将比较阵列中的数据以确保所有数据都正确匹配。发现问题时,它将确定数据应该是什么样子,并通过检查阵列中其它驱动器上的数据来纠正。在数据错误相对较小时加以纠正是缓解由现有数据错误和第二个错误或故障一起导致的穿孔风险的最佳方式。


如果存在已知或可疑的双重故障或穿孔情况,则遵循以下步骤最大限度地减少出现更严重问题的风险: 


  • 执行检查一致性(必须为最佳阵列)

  • 确定是否存在硬件问题

  • 检查控制器日志

  • 执行硬件诊断程序

  • 需要时联系戴尔技术支持


驱动器上的单个穿孔LBA可报告多次。根据穿孔数量,可将阵列中的多个驱动器报告为预测性故障。更换预测性故障驱动器将导致现有穿孔重新传播至更换驱动器,这将最终导致更换驱动器也标记为预测性故障。在这种情况下,唯一的纠正措施是解决穿孔情况。
 

注意:下面是用于解决大多数穿孔情况的过程。可能不需要执行所有这些步骤即可解决。如果按照这些步骤操作未能解决问题,请联系戴尔技术支持,以获取进一步帮助。

警告:按照这些步骤操作将会导致阵列上的所有数据丢失。请小心谨慎,使得按照这些步骤操作不会影响任何其它阵列。



1

丢弃保留的高速缓存(如果存在

2

清除外部配置(如果有)

3

删除阵列

4

将驱动器的位置移动一个(使用图1,将磁盘0移至插槽1,磁盘1到插槽2,磁盘2到插槽0)

5

根据需要重新创建阵列

6

对阵列执行完全初始化(不是快速初始化)

7

在阵列上执行检查一致性

如果检查一致性完成且没有错误,则可以安全地假设阵列现在运行正常,已去除穿孔,可以将数据还原到运行良好的阵列。


标签:

杭州IT解决方案提供商扫一扫咨询微信客服
在线客服
服务热线

服务热线

0571-56775076

微信咨询
杭州IT解决方案提供商
返回顶部