来自DELL的一封信件
Dell PowerEdge控制器通知
尊贵的 Dell客户:
Dell承诺,将主动通知客户有关从 Dell或 Dell授权经销商处购买的产品的重要更新事宜,本电子邮件便是此承诺的具体实现。我们最近已确定,随您的 PowerEdge RAID控制器配备的固件中存在一个潜在问题。作为一项主动维护措施, Dell建议您使用新固件来解决此问题。
Dell最近发现,随您的 PowerEdge RAID控制器配备的固件中存在一个潜在问题。在某些情况下,使用快速重建功能时,此问题可能影响重建期间的数据完整性。
Dell建议您更新至最新固件。应用此更新将禁用快速重建选项,控制器将不再受到潜在数据完整性问题的影响。
http://dell.com/support
如果您的系统没有使用快速重建功能,并且将来也不打算使用此选项,则无需更新。
我们致力于为您提供更丰富的信息以增强对于 Dell系统的用户体验。这也使我们能够很快向您报告这一问题,并向您提供最新更新来解决此问题。您的满意是我们的最终目标。
谨致,
Dell科技集团
来信关键点分析
看完了dell给的来信通知(是真的纸质信件,难道是怕我们回忽略邮件才选择这么传统的方式?),其实重点就说了一个问题,DELL的PowerEdge下的某款控制器存在bug,建议您升级阵列卡固件
实际情况是这样滴
看完我就想骂人,这尼玛什么鬼,又不直接说明到底是什么情况,没办法我只能拨打了售后电话,经过电话确认,了解到了关键
- 本次Bug针对的是PERC 9阵列卡(DELL H730*,为啥这里用个*,是因为只要是这个系列的都中招了 )
- 到底bug是啥?原文里头说的“是在某些情况下,使用快速重建功能时,此问题可能影响重建期间的数据完整性。”这里说的快速重建指的并不是正常的硬盘rebuild状态,而是copyback状态。
延伸阅读—Copyback状态说明
简单来说, copyback可以重建原来的DG设定. 当然, 他需要依赖HSP的使用, 不管是Dedicated(DHSP专用热备)或著Global(GHSP全局热备). Copyback预设是自动启用的, LSI的SSD Guard也是基于copyback去实现的.
在一个大型的storage pool创建VD应用parity RAID mode, 通常可能会搭配HSP, DHSP, PHSP(Pool HSP)或者GHSP. HSP实现在VD处于degraded的时候进行auto-rebuild, RAID controller利用parity计算, 复原当初的数据, 然后填入到HSP里, 当这个操作完成过后, HSP便会转成VD的一部分, 并且是online. 但是这个DG不会是与之前一样的配置了, 而copyback启用会允许你在bad slot上插入新盘后, 将之前被rebuild的PD上的数据copy到bad slot上的新盘, 最终这个操作完成之后, 被rebuild的PD便会重新再标记为HSP, 可以说这个标记的HSP是revertible, RHSP. 这个时候, DG的配置便会与当初的完全一模一样, 除了HSP的重复再利用, 也方便做管理.
总结与解决方案
这里先给Dell点个赞,主动告知客户自身存在的问题,并告知解决方案,避免用户数据丢失还不知道啥原因
1、此次的bug仅仅针对PERC 9阵列卡,非此型号的可以无视
2、 此次的bug仅仅是在copyback过程中小概率出现,而copyback基于热备,所以如果你没使用热备盘,则大可不必担心(如果之后将机器阵列重做后有了热备,那得记得更具第三点来解决
3、可以通过升级阵列卡固件来解决
H730阵列卡固件:https://downloads.dell.com/FOLDER04175005M/1/SAS-RAID_Firmware_NH55C_WN32_25.5.2.0001_A09.EXE
升级方法请下载word文档:链接:http://pan.baidu.com/s/1cnMsiU 密码:wlsr
原文来自微信公众号:运维之美