计算机设备需要呵护,但是不需要温暖的呵护,数据中心(Data Center)既不应该是桑拿浴室,也不是撒哈拉。环境传感器能够帮助监控最佳温度和湿度水平,以保证数据中心(Data Center)内设备稳定运行。
安全控制设备,如灭火设备和水检测传感器也需要放置于正确位置,并定期进行测试以保护公司资产。专家比尔将以问答形式分享他在正确管理数据中心(Data Center)环境监控技巧上的经验。
数据中心(Data Center)环境监控所需包含哪些参数?
比尔:数据中心(Data Center)环境监控结构可能以多种不同形式存在。这完全依赖于组织的实际类型。许多公司要求物理环境上的高级别安全与可见。管理员需要能够监控环境中的基本设施:
。温度:服务器或机柜都应该运行在最大路口温度以上。许多管理员会寻找与收集机架气流排放指标,系统内部温度以及甚至CPU温度。温度控制机制所提供的信息越多,工程师能够更迅速的在事件变成严重问题前发现并解决。
。湿度与水控制:从制冷机线或其他来源的水泄漏,可能会损坏电子系统。同样的,过度潮湿的空气可能凝结液态水,当达到一定水平时,会对服务器与系统造成危害。水传感器和湿度传感器需要部署在机架内部与外部的战略位置。
。通道状况: 散热是冷却管理重要的一个环节,管理员们需要在散热或冷却通道部署环境传感器。这样能够更详细的知晓某冷却区域内到底发生了什么情况。
。灭火监控: 许多大型数据中心(Data Center)都拥有复杂的灭火系统,但这些提供可能闲置数年而没有被使用过。如果真的着火了,这些系统真能够生效吗?由于缺乏有效的测试机制,管理员们应该主动监控系统,以确保设备正常运作。
。静电传感器:由于空气过于干燥,以及设备或插座没有正确接地,可能积累有害的静电。安装在数据中心(Data Center)内的静电监控设备能够报告这些潜在问题。
。机房与机架入口:这是关于物理安全问题:门的打开与关闭。机房与机架入口传感器会在数据中心(Data Center)或机架没有正常进入时发出报警。先进的环境中,主动式摄像头能够自动指向被打开的笼子的机架。
是否有任何既定的准则来评估服务器机房环境?当然ASHRAE有针对温度和微粒的建议,但对数据中心(Data Center)整体环境条件有任何的行业标准?
比尔:很阐述环境监测的最佳实践,因为不同机房都有不同的规模的服务器和设备,对环境的要求各不相同。不过,也有应遵守的核心环境基准。因素将取决于基础设施的规模和复杂性。
。温度:衡量温度将始终是一个关键组成部分。建议针对设备稳定运行的最佳温度范围是70至74华氏度(21至23摄氏度)之间。 2008年,ASHRAE将范围增加至59至89.6华氏度。在2011年,ASHRAE将限制再次提升——对于最新设备——41至113华氏度。
。湿度:湿度在任何规模的环境下是相同标准。相对湿度(RH)相对湿度的定义是单位体积空气内实际所含的水气密度和同温度下饱和水气密度的百分比。建议的相对湿度为45%和60%之间。更高湿度能够凝结成液态水,而较少的湿度可引起静电放电(ESD)——两种情况下都可能会损坏设备。
。水:数据中心(Data Center)内不应该有液态水,在机架和过道内的最低点的传感器能够报告泄漏和凝结问题。
。气流:保持良好气流温度和湿度控制至关重要。良好的气流建议直属根据环境的大小而有所不同,表示量为每分钟立方英尺(CFM)。实际所需空气量与空气中水分含量以及送风和回风之间的温差相关。避免湍流气流并将其作为一个草案。环境的规模变得非常重要:在高密度的服务器机房,每小时的空气变化的次数可能是较小环境的数倍。
。机房空调/处理器:CRAC单元必须持续监视。这包括供回水温度,湿度统计和空气损失百分比。该单元的任何故障都需要立即处理。
。PDU和电力系统状态:环境内的电气线路应持续关注以避免意外的波动或中断。任何干扰将是一个严重的紧急情况(更不用提有潜在危险的设施)。另外,从配电设备收集的数据经常被用来计算能源利用率(PUE)。
环境传感器怎么样?现今的环境传感器是否持久和可靠?传感器是否需要维护,测试或更换,若是,频率如何?
比尔:环境传感器报告整体设施的“健康”状态,但无传感器保证永远工作。这就是为什么需要有一个冗余的传感器环境。智能数据中心(Data Center)监测工具将管理所有的传感器,能够同时查看多个传感器,即使在其中有一个失效的情况下。当一个传感器出现故障时,传感器的冗余能够消除误报。环境监测还需要准确的告警:若传感器出现故障,管理员和技术员必须及时被通知。否则设备可能开始发送不正确信息,或触发误报。
环境传感器应如何放置?是否有工具能够帮助优化确定传感器放置的位置,或者这是一个需要通过手动不断测试与调整的过程?
比尔:由于每个环境都是独特的,没有工具能够确定最佳的传感器放置位置。实证试验和错误修正是安置环境传感器工作的一部分。可是,从事数据中心(Data Center)行业的HVAC 专家能够帮助组织规划出最佳部署。这里也有些一般性安置准则:
。气温在机架的顶部和后方会更高,所以在这两处测量排气温度和气流。
。气温在机架的前面和底部会更低,所以在这两处测量进气温度和气流。
。湿度温暖空气中最高并能够容纳更多水分,使地方湿度传感器,在开阔地带的高出放置湿度传感器,远离任何独立的加热或冷却源。
。在低位置,如沿机架的底部或附近的排水开口放置水传感器。
让我们的谈谈整合。环境监测工具如何与管理员关注的系统(服务器)的管理工具及设施建设管理工具合作?如何将所有这些整合在一起,给企业展示完展示数据中心(Data Center)正在发生什么的完整画面?
比尔:大型数据中心(Data Center)必须有清晰可见的整体环境。这并非只是环境信息——还意味着服务器。有工具来观察与监测系统的功耗、CPU、内存和其他的重要部件。例如,AVTECH软件公司提供各种设备的监测工具以及全面监测传感器。其他如up.time软件将帮助管理员监控分布式数据中心(Data Center)及评估资源利用率。
从根本上讲,大型基础设施的运行,是依赖于数据中心(Data Center)团队之间的沟通配合,而不是工具。警报,必须从服务器,数据中心(Data Center)和虚拟化集群发出,到达正确的工程师和经理,协调与通力协作,创造一个最佳的运作环境。数据中心(Data Center)整合已经成为许多组织正在实施的举措。这意味着高性能服务器将支持更多工作负载。具备监测能力的团队必须彼此合作,建立诊断事件规划,以应对任何系统的意外发生。主要系统的集成应该以环境与组织的能力管理及用户需求为前提。