数据中心服务器修复：从小时变成分钟-中国存储网

2015-05-30 14:08:25 来源：ZDNet

数据中心Data Center服务器从来不会停止工作太久，除非发生故障。供应商正在设计可以更快的修复、升级和预防性维护的服务器，不过你的IT员工可以做一部分不一样的事情。

解决系统硬件问题并不容易，使用多种策略改进系统修复的响应性和效率。

集合资源考虑到不一样工作负载的需求，与服务供应商制定不间断维护协议。举个例子，一个关键任务服务器需要一个60分钟或者是更快响应窗口的服务合同，一年不间断运行（24/7/365）。次要的系统只需要两小时或者是四小时的窗口服务。服务合同是昂贵的，所以应有根据的选择覆盖范围。

当内部IT员工需要执行服务时、实施明确的指令链和逐步升级模式，能够使监测和报表工具立即为合适的团队成员发送警报。服务器修复的最慢解决方案是向管理程序发送信息，然后等待人工授权。保持警报系统及时了解员工的变化。

这个解决方案的目标是将每一个问题一经发现就解决。服务票务系统，适合大型数据中心Data Center，集成了例行服务请求的紧急报告。这个票务过程优先考虑并简化IT员工工作流。有效地帮助解决任务。

仓库训练

库存清单上的零件都很昂贵且容易产生问题，所以使用零件追踪系统或者其他库存控制系统来跟踪备用零件或者组件升级。使用变更管理系统集成库存资产，所以服务器升级时可以有记录、有基准。这保存了应用和内部服务级别协议（SLA）的用途。许多的服务台系统和故障报告表系统都包含存货清单特性。

系统文件是第一个丢失的东西，丢失文件严重地阻碍了适时修复。管理员需要维护所有系统文件和原始软件安装媒介，或者至少保存主机电子文件的一列网址、驱动或者是软件升级等等。当问题发生的几分钟后，这些举措可以节省时间。

对于老式服务器来说备用零件极其难找——而且极其昂贵，即使一台服务器能够在折旧之后持续充分地支持工作负载，修复也是问题重重。

服务器改变推进硬件修复服务器设计成可合并特性，如同组织精密的铁轨，万一服务器从机架中突出出来，技术人员可立即将服务器转移到下面。可以轻松打开服务器外围，允许方便地访问服务器组件，包括塑料空气导风装置、风扇和扩展卡支架，最小化工具需求。

最好的修复是你可以避免修复。在要面对错误时，服务器的回弹特性总是保持可能崩溃的老版本系统运行。然而回弹特性不能够预防问题。它们通常能够预防甚至是修改一个错误的灾难性结果。

最早版本的回弹特性是双备份电源供应。许多企业级服务器提供这个选择。两个模块化电源运行，当一个失效时，另一个电源供应服务器直到已经失效的模块被更换。更换可以通过‘热备份’完成，不需要关闭系统，而是通过虚拟化来实时迁移工作负载。不过出于对电源利用率的考虑，双备份电源在今天已经失去了吸引力。

服务器内存恢复依赖于错误校验码和内存热备份。当工作存储器模块提示错误，可以通过空闲模块重建内容，直到失效的工作内存空间内容被更换（通常叫做‘热交换’）。另一个选择是保留主要工作内存空间的副本。

CPU可靠性同样加极大地得到改进。像Intel安腾处理器，可以从数据总线错误中恢复，当其他的致命错误发生时，可以重置服务器。最新的CPU支持步伐一致模式，多处理器比较程序信息，以确保计算操作的集成性。

服务器同样使用很少依赖冷却的低电源组件。除了服务器本身，虚拟化特性如实时迁移方法，保证了即使硬件失效也不会停止计算工作负载。群集和备份虚拟机意味着数据中心Data Center可以托管关键工作负载的多个副本，以避开硬件停机时间。虚拟工作负载使硬件定期维护进度变得容易，因为工作负载可以使用其他机器上的现有资源。

当你在外部供应商方处托管工作负载时，维护就变成了供应商的责任。这些外包供应商在问题发生时通常随意考虑或者“尽最大努力”修复窗口。这可能造成了组织机构在没有SLA重要资源的情况下延长停机时间。这就是为什么许多IT厂商选择在内部保留关键工作负载主要的原因，他们需要控制环境方面的练习。

继续阅读机房管理