某数据中心运维管理方案分为上、下两篇。
第一章 某数据中心基础运维概述
某数据中心的基础运维工作主要包含包括四个部分:基础环境、网络、服务器存储和基础软件。
其中第一部分机房基础环境部分,包含机柜位置、空调、消防、安防、弱电、UPS等最基础的机房环境设施。需要对这些基础环境部分进行运维维护,确保整个机房环境正常稳定。
第二部分为网络环境,包括当前数据中心所有的交换机、路由器等设备,以及由这些设备组成的所有网络,需要监控网络运行情况并提出网络风险评估,定期对网络进行优化配置,提高网络运行效率,保证整个网络环境的安全。
第三部分服务器和存储部分,包含整个数据中心的小型机、服务器、存储设备、SAN交换机等设备。这些设备支撑着整个业务系统,是非常重要的基础硬件环境。需要监控这些设备的运行情况,及时处理出现的问题和变更,并基于整个环境提供优化。
第四部分为基础软件部分,包括各种操作系统、数据库、中间件、备份软件等等。要求这些软件可以正常工作,并优化配置,为平台和工作站正常服务,当这些软件出现问题时,能发现并提出解决方案;可以协助应用人员解决故障或进行对应的变更、升级等操作。
本方案将基于这几个方面进行设计,确保数据中心正常、高效运行。
第二章 数据中心运维分类
某数据中心运维团队将根据当前数据中心的实际情况和对应的管理制度,通过主动性、预防性维护,执行日常维护作业计划,对告警、性能、运行状态进行检查分析,及时进行数据备份,并定期对备份数据进行恢复性测试验证,对系统运行质量进行分析,并进行维护记录。对监控或维护中发现的问题及时处理,消除隐患,保障平台的稳定运行。我们将基于以下几个方面对运维工作进行描述
2.1 基础环境运维管理
针对基本的机房环境设施,我们的工作内容包含以下这些内容:
- 机房机柜摆放规划和机柜管理;
- 服务器和网络设备摆放规划和日常管理;
- 设备出入机房审批登记管理;
- 内部人员出入机房审批登记管理;
- 外部来宾机房参观审批登记管理;
- 机房电力系统监控、问题及时上报;
- 消防监控系统监控、接收报警短信和联系第三方;
- 空调报警系统监控、接收报警短信和联系第三方;确认空调运行状态良好。清洁机房的空调防尘网。
- 温湿度报警监控、接受报警短信和联系专业第三方;
- 漏水报警系统监控、接受报警短信和联系专业第三方;
- IC卡门禁系统日常运维;
- 视频监控系统日常运维;
- UPS报警系统监控和联系第三方;
- 机房资产管理系统(CMDB)。
- 机房环境。清理机房的杂物,将机房物品定置。清洁机房门窗、地面。定期清洁电池室的地面;检查机房所有与外界的空洞是否已严密封堵,严密防鼠;检查机房玻璃、地板、天花板、通气口,墙体表面是否正常,外观是否完好,有否出现老化现象。检查机房是否有漏水现象。检查机房墙壁是否有渗水现象。填写巡检记录,有问题及时报告。
- 巡视电池间;检查电池工作状态。
- 确认机房照明良好,出现问题及时报告。
- 视频网络播放系统。定期检查可用性,有问题及时与专业第三方公司联系解决。
- 填写巡检记录。
2.2 网络运维管理
针对数据中心的网络部分,运维内容主要包含以下内容:
- 测试网络接入速度,监控网络访问可用性和访问质量,出现问题第一时间直接联系接入商解决。
- 网络接入商变化时,配合网络接入商对网络变更方案的可行性审查、问题审查。配合网络接入商更替施工。
- 局域网。本地局域网日常管理和维护; VLAN 划分;网络性能优化;故障排除;网络节点周期性检查,发现潜在问题,并解决。
- 无线局域网。负责无线局域网的日常管理和维护;客户端不能正常接入网络的故障排除;网络性能优化;故障排除;网络节点周期性检查,发现潜在问题并解决。
- 远程接入。制定VPN使用策略,实施VPN用户日常远程接入服务器的管理,以及性能优化和故障排除等。
- 网络病毒查杀和网络安全保护。
- 根据实际项目或安排而产生的其他工作。
2.3 服务器和存储运维管理
2.3.1 服务器运行情况及性能监测
数据中心运维团队将通过综合监控系统实施7*24小时平台设备监控,发现告警,并进行处理,解决问题。对系统运行进行实时检查。对监控或维护中发现的问题及时处理,消除隐患,保障平台的稳定运行。并且还提供针对各服务器物理资源的使用情况和操作系统的运行情况、进行实时监控,提供服务器安全监测报告。
主机性能监控的检查列表包括:
* CPU利用率
* 内存使用情况
* 交换区使用情况
* 磁盘I/O情况
* 关键文件系统的状态
* 重要进程的运行情况(例程数量、消耗CPU、占用内存)
* 操作系统的各类日志文件
* 网络、端口信息
* ……
运维团队需根据检查列表进行日常检查,并不断地改进日常检查列表,以满足对系统监控的需要。
2.3.2 服务器软硬件兼容性检查
数据中心运维团队在维护系统稳定运行的同时,需主动收集系统关键补丁、软件补丁、硬件微码等信息,在通过数据中心专家评审的前提下,对相关设备进行升级服务,并在升级完成后配合应用方对系统进行测试。升级前后需要和应用方及时做好沟通确认工作,确保不会产生兼容性导致的故障。
2.3.3 磁盘阵列设备管理
运维团队需要对磁盘阵列设备及其相关的部件(如硬盘、控制器等)进行编号,并记录在案,对软件设置中的参数也要进行详细的记录,并在每次变更后及时更新相关的信息。
除此之外,运维团队定期(暂定每半年)对于每个服务器的系统容量监测的审核,并制定相应的容量规划,主要监测文件系统的空间、数据库的空间资源利用情况,分析资源利用趋势,并提供资源情况报表。
文件系统空间管理
* 定期检查文件系统的空间使用情况,根据业务发展需求和新业务的增加,制定合理的空间分配方案,新增、修改或删除空间。
* 对文件系统空间的使用进行监控,发现空间使用不合理或需要清理的协调解决。
数据库空间管理
* 应实时监测数据存储空间的使用情况,根据业务数据的数据量、数据结构以及增长速度,制定合适的数据存储和结构优化策略,动态增加新的空间以存放业务数据;
定期检查数据存储空间的使用情况,根据实际情况规划增加新的空间,填写数据库空间新增/修改/删除申请表,经审核后实施,并更新数据库配置状况记录表。
2.3.4 机柜、电源、网线布局管理
运维团队对于新上架安装的设备,需要进行拍照留档,确认各线路位置,并对服务器的电源部分进行编号整理,最终登记在册。
2.3.5 协助第三方维护
对于由专业第三方提供运维的设备,设备出现问题后运维团队需及时通知第三方并告知采购人,视情况严重性,决定是否启动应急预案;配合第三方服务商一起排查和解决问题,实施为了解决故障而进行的系统软硬件的补丁、升级及维护工作。独立处理初级系统故障,与第三方厂商或服务商配合解决高级别系统故障。记录问题、故障的解决办法及解决过程。做出临时的配置变更以排除故障,在必要的时候,提出永久性配置变更建议。
2.4 基础软件运维管理
2.4.1 操作系统
运维团队充分保障服务器操作系统的稳定运行,将提供以下服务内容:
- 系统升级 运维团队在维护系统稳定运行的同时,需主动收集系统关键补丁、软件补丁等信息,在通过数据中心专家评审的前提下,对相关系统进行升级服务,并在升级完成后配合应用方对系统进行测试。升级前后需要和应用方及时做好沟通确认工作,确保不会产生兼容性导致的故障。
- 操作系统稳定性监控定时查看操作系统日志及IIS日志,查看CPU、内存占用率,排除故障。
- 权限与文件管理 服务器应明确责任人及管理帐号持有人,不应出现多人单帐户,单人多帐户的情况,不利于在服务器出现问题后,对服务器进行操作维护、查找问题。
- 定期检查磁盘空间 进行磁盘文件排列的优化和错误扫描,并处理错误;安全地删除系统各路径下存放的临时文件、无用文件、备份文件等等,完全释放磁盘空间。
- 维护系统注册表。
- 系统配置。优化系统配置,关闭无用服务和端口,以最适合系统运行方式,最小划安装等。维护系统配置文档。
- 负责系统用户管理,如增加、删除用户、重置用户密码、管理用户权限等。进行系统用户管理时,记录所有相关的系统变更。
- 对于新安装的服务器,运维团队应负责安装必要的应用软件:如远程监控工具、备份工具、防病毒软件等。
2.4.2 数据库
运维团队将对数据进行日常维护,在数据库性能监控的检查列表包括:
* 资源使用情况
* 运行情况
* 数据库进程状态
* 数据库连接状态
* 数据库进程使用资源
* 数据库的表空间(数据表空间、索引空间、临时表空间等等)使用情况;
* 数据库日志空间
* 回滚段使用情况
* 数据库锁的数量
* 死锁的发生、死锁资源
* 数据库碎片的数量
* 磁盘I/O
* 数据库运行日志
* 数据库用户登录情况
* 监控结果应做登记管理,如实记录系统日常运行状况及异常情况,填写日常运行情况记录表;
* ……
除此之外,数据库的运维工作还包含一些其他工作,如:
- 数据库备份和恢复
- 做好备份计划,工程师定时完成,因备份占用内存较大,在访问量大的情况下进行。 当出现数据问题时,向采购人管理部门通报,说明数据情况,后恢复。
- 访问性能优化及数据库同步
- 服务器管理人员需记录详细的设置;数据库如需要同步,应明确同步时间或实时同步等方式。
- 数据库日志和表空间,定期进行整理,问题解决。
2.4.3 中间件
运维团队针对中间件的运维工作,内容如下:
- Oracle Weblogic,辅助开发公司进行配置,保留配置文档。模块配置与更新,配合第三方配置.java及wls的版本及更新工作。操作系统模块配置与更新,配合第三方配置操作系统到可用的版本及更新。配合反馈第三方解决服务错误日志中的问题。
- 新软件安装,收集安装光盘、安装合同(可复印学习)、使用说明书、授权书(Liscense)。纸质版文件扫描后入库,电子版文件进入配置库。
2.4.4 备份系统
为保证在系统崩溃或停止运行时能尽快恢复系统,将制定相关的数据备份制度。应针对不同系统制定备份方案,应包括备份方法、频率等。数据备份包括定期和不定期备份。重要数据应每月进行全备份和增量备份;不定期备份应该在数据变更后立即进行,更新前的备份按需要保存一定时间。
2.4.5 应用系统
当前的应用系统及相关的开发工作由第三方公司负责,运维团队主要起配合作用,相关的工作内容如下:
- 当应用出现问题,及时联系第三方解决,并做问题记录。
- 配合第三方进行操作系统、数据库和中间件的系统配置,并做配置记录,在有授权运维的系统中,熟悉应用系统维护方法。
- 配合第三方新应用系统上线,需收集安装文件,源代码,部署文档、运维文档。扫描后,入配置库。与合同库相关联,记录维护期间联系人,原公司质保期。
- 每日上班后、下班前检查可用性,确认无灾难性问题、黑客篡改问题。
- 其他待完成工作,根据实际情况来处理。