/ 中存储网

资深管理员提高备份稳定性的经验之谈

2010-07-28 00:02:42 来源:中国存储网

“不稳定”对于一些部门来说是比较普通的词语,但是对存储管理员来说这个词语却足以使他们发狂。当备份系统中一个服务器的备份状态变得不稳定或者不可靠,这不仅仅是故障……而是要保存故障。这使追踪故障的引发原因变得很困难。对于备份服务器来说,这个问题相当尖锐,因为这台服务器的问题可以引起任何有关的其他服务器的问题——从备份节点的网络到文件系统。这样诊断起来相当的复杂。

尽管引起服务器备份稳定性问题的详细资料通常被很(一些可以说是“令人抓狂”)详细地发布,仍然有一些你可以用来做依据的常规原则。

可能最普遍的导致服务器备份稳定性问题的原因是修改系统参数来提高性能或者其它原因。要提高一个服务器的性能,你可以有很多手段去实施。然而,在一些方面,你如果修改的话,可能会使一些系统在某些方面不可用。因为这些不稳定并不是一直在已经混和的应用程序或者服务器内显示出来。最重要的是保持一个修改的详细记录,这份记录要让所有管理员容易访问。

另外一个普遍的导致服务器备份稳定性问题的原因是在系统内进行的修改,比如更新或者安装插件。微软的Windows XP 的Service Pack 2导致很多远程备份服务器的故障,因为它默认情况下激活Windows XP的防火墙,并且备份软件不能通过防火墙来传输数据。这种情况一般比较容易鉴别并且一般能够通过把系统恢复到之前的、稳定的版本来解决,直到发现一个更稳定、更持久的修复出现。在这种更新或者添加新软硬件导致的案例中,你最好的资源是厂商或者制造商那里。

第三个主要导致服务器备份稳定性问题的原因是一些本身的改变。一个正常的进程、累计的硬件故障或者在系统内的使用方式的改变都能引起这些不稳定的状况。例如,在微软的SBS内,两个普遍的导致备份故障的原因是:

一个SBS日志文件增加超过64兆

对设备进行过多的读写操作而引起的中止备份

在进行任何服务器备份稳定性故障的处理中,你的日志文件都是你最好的朋友,你应该做到每天读取这些备份的日志,并且至少粗略地浏览一下你的有关的备份事件的日志、当你的备份服务器开始出现问题,你需要大致地浏览一下它们,并且可能读取增加的事件日志来帮你找到什么问题导致了服务器备份稳定性受到破坏。

一定要对备份产生的错误信息格外注意,即使这个备份已经完全成功了。现代的备份系统令人难以置信地容错能力可以使工作继续进行——即使一些备份进程中报告一些错误。

在检查你的日志时,对不清楚的超时要格外注意。一个不清楚的超时可能经常意味着一些无效地运行——至少——能意味着你可能在系统其它的地方有更大的问题。这种情况在备份进程在后台运行、并且与正规的工作相比有很低的优先级的时候尤其明显。因为备份得到系统资源的一小部分,当一些事情出现故障的时候,备份经常成为第一个超时的进程。

(当然,仅仅是把事情复杂化,的确也有一些错误不需要注意,在你的厂商那里查询一下来看看他们告诉你那些错误消息的问题)

有一个很好的提问就是问问自己,当你的服务器备份稳定性出现异常情况时,是不是当服务器启动以后,是否有其它使用同样这些资源的东西?很明显这是一个很广泛的问题,因为一个备份服务器与很多其它的IT架构有联系,与硬件、软件、存储设备和其它别的设备之间相互影响。

当一个真正的问题出现之后,最优先做的就是尽快保证服务器备份稳定性。经常地,可以通过减少备份系统的负载(减少一些I/O或者投入更多资源)来保证服务器备份稳定性。