/ 中存储网

双活容灾系统建设 有利有弊客观看

2016-03-12 10:40:23 来源:中存储

随着信息技术的发展,包括新技术云计算、大数据的快速发展,越来越多的企业把应用、数据、系统进行集中处理,数据大集中的同时也面临风险,灾难性的突发事件发生时如何保障企业核心业务的在线性,即核心业务724小时的业不间断运行,成为企业关注的首要问题。

突发事件造成的非计划宕机的事件不可避免,尤其是企业集中化管理的数据中心,数据中心采用的保护手段及企业所处行业的性质等不同的因素,使得在突发事件发生后恢复业力所花的时间及受损的隐性成本也各不相同,如下图是Business Continuity QuickPoll的大数据分析结果,对各种行业及突发事件发生后所花的时间进行详细分析得出的结论。

drpic1.png

虽然各个企业现都已采用的数据保护的手段及方法,目的都是积极在保障业务的在线性及数据不丢失,但是,传统数据中心采用较为广泛的容灾建设模式中,或多或少还存在一些不足之处,如面临资源利用率低、切换时间长业务、突发事件中存在必然的数据损失、数据中心运维整体健康状态不可见、缺少演练等的挑战。

“当一个站点发生故障时,另外一个站点可实时接管所有业务”的双活解决方案成为当前讨论和建设的热门话题,双活容灾解决方案能够盘活现有IT资源,充分发挥资源利用优势,实现应用级双活无感知切换,达到企业对外业务服务的7x24小时服务质量保证,降低灾难性事件发生后业务宕机的风险。

现有双活容灾解决方案

  • 应用层双活方案---典型是针对Oracle核心数据库而建设的方案,有如Dell的Quest和DSG等的解决方案,通过对数据库基于redo复原或SQL语句再执行来完成。
  • 主机层双活方案---主要是针对X86架构的解决方案,能够很多的支持widnows操作系统,因linux的kernel的不确定性,对其支持非常有限,当然也有针对UNIX AIX的解决方案,如IBM的HyperSwap方案,Symentac的VVR方案推出多年,应用也相对较多,但在实际应用中问题多多,渐渐已被用户放弃。
  • 存储虚拟化层双活方案---存储虚拟化层的双活方案如雨后春笋,因技术、维护、建设等的优势,发展相当快速,如EMC的Vplex, NetApp MetroCluster,IBM SVC, 华为VIS6000、宏杉、怡敏信等,目前是业界应用最为广泛的双活解决方案。通过存储虚拟化层实现数据同步,支持的应用也较为广泛,包括Oracle RAC, 虚拟化平台vmware及传统集群系统等。
  • 存储层双活方案---存储层双活方案其实是存储虚拟化层双活方案的简化版,不可以虚拟化第三方存储的经济型解决方案。

双活容灾解决方案建设要点

a.网络接入的全局负载均衡

无论双活方案怎么建设,首先要确保客户端能够访问到业务系统,因此在双活容灾解决方案中,企业用户在网络层做到网络接入的全局负载均衡,确保数据中心的切换过程中的网络接入的无缝切换。这样才能保证整体业务服务的不间断运行,达到终极的双活容灾方案的实施效果。

b.业务会话的同步机制

目前业务会话的同步机制必须依赖于Oracle RAC、虚拟化主机平台vmware的vmotion、传统的集群系统或第三方业务会话管理系统等的支持,才能有效的保证业务会话的同步机制,尤其是传统的集群系统必须支持远距离的心跳监测。防止资源争用、业务I/O冲突、均衡请求接入。达到业务层的监测、切换接管。

c.跨中心的数据同步机制

双活容灾解决方案跨跃两个数据中心,无论采用应用层、主机层还是存储虚拟化层,都必须达到数据双写的功能。使得两个中心的业务数据实时一致。才能有效的保证数据不丢失及快速“零”切换。

d.运营一体化管理

双活数据中心是对等的两个业务生产中心,企业对数据中心维护人员的建设及双活解决方案提供者的技术支援在双活容灾解决文案建设中不容忽视,企业必须将两个数据中心纳入一体化的运营管理,包括人员、流程、操作规范等,在技术传递上,也需提升双活数据中心的维护技能。同时也对双活容灾解决方案提供商的售后服务和响应有一定的要求。

e.现有业务的改造及支持

不是现有所有业务系统都支持双活容灾方案的,企业用户的业务系统因建设时间,要求等的不同,存在多种多样,要想建设好双活数据中心。需要将不支持双活数据中心的业务系统进行改造,如迁移到虚拟化主机平台或者构建冗余的集群系统等,在改造建设中可能会存在一定的风险,需企业用户容忍新的风险,做好规避风险的措施及补救方案。

双活容灾解决方案的共同优势

1.双活冗余模式

双数据中心同时对外提供业务生产的双活模式,两个数据中心是对等的、不分主从、并可同时部署业务,可极大的提高资源的利用率和系统的工作效率、性能,让客户从容灾系统的中获得最大的价值。

a.两个生产中心部署相同的业务系统,结合网络层、主机层或应用的负载均衡技术,实现业务系统在两个数据中心并行工作和负载分担。

b.两个生产中心部署不同的业务系统,互相实时灾备接管。

2.自动化恢复,降低管理成本

双数据中心的双活方案支持两个数据中心的存储故障、业务系统、虚拟化平台异常、云平台计算节点故障等事件发生时的自动化切换,连续对外提供生产。整个灾难切换及恢复业务的过程均无需人工干预,自动化完成,有效的降低企业客户的管理成本。

3.数据中心规模在线扩展

双活方案同时对外提供生产,降低或规避了企业客户的系统维护的风险,在业务不宕机的情况下在线维护存储阵列、集群节点以及云平台的计算节点和虚拟平台等,包括在线扩容,添加业务节点等,达到企业级用户在线扩展的需求。因此,在系统建设初期,客户可以自主选择系统的建设规模,优先满足当前实际业务需求,随着业务系统的发展和对容灾系统需求的增长,灵活的扩展生产系统和容灾系统的规模,以充分保护客户现有IT资源。

4.“零”切换“零”丢失,RPO及RTO都可为0

双活容灾解决方案核心思想是将本地的双机双柜的解决方案跨两个数据中心建设实施,不仅达到系统级的冗余,包括硬件、数据冗余等,同时也达到了两数据中心之间的业务级冗余。双活数据中心的业务数据是实时同步,且业务数据的镜像相对上层的业务平台透明,所有业务数据的I/O生产都将同时写入到两个数据中心。达到业务数据两份实时副本及在线切换的功能,以实现双活数据中心的“零”切换“零”丢失。

双活数据中心容灾解决方案的新问题

虽然双活容灾解决方案对于集中式管理的数据中心更大限度的保证了业务生产的在线性及有效的防御了灾难性事件恢复业务生产的能力。但是双活数据中心的容灾方案还是存在一定的不足之处,理想与现实总存在一定的距离。

1.脑裂现象

双活数据中心方案实现了站点级的冗余的容灾解决方案,但是受限于当前的技术等因素,在建设过程中解决了企业当前面临的业务连续性问题,同时也产生了新的问题,就是双活解决方案普遍存在的脑裂现象,在意外事件发生时,若监测技术不到位、系统平台不健康、两数据中网络波动性中断等因素的发生,使得两个数据中心一体化的业务系统会分裂成两个独立的数据中心。使用户很难取舍那一个是唯一的生产数据,那一个是将要废掉的非生产数据。这就是早年veritas VVR解决方案退出灾备舞台的原因之一。

2.非“零丢失”,不具备软错误的保障

双活容灾解决方案的优势强调在健康的运行平台下,大型灾难事件发生是的“零”数据丢失,但是若双活平台本身不健康或者遭遇逻辑故障时,并不能保障数据零丢失。这种故障发生的数据恢复或渐变式灾难发生的情况下,还需借助备份系统的数据恢复手段或方法。因此,双活容灾方案大多数情况下不具备解决软错误的保障,而恰恰这种事件发生的概率远远超过站点级的灾难及硬件故障事件。在2012年时,某省政府部门的业务系统已建设容灾系统,但是在业务系统进行升级时出错,导致业务宕机一周多时间,而这期间的大部分时间是查找依据恢复数据。

3.需容忍高可靠性及性能的下降

双活容灾解决方案虽然提升了站点级的冗余保护,但是,在实际中确除低了整体业务平台的可靠性及性能。在可靠性方案,双活容灾解决方案就是把本地的双机双柜的硬件冗余方案跨站点建设,无论是传统的集群系统、虚拟化主机平台Vmware,还是Oracle RAC等,跨站点建设都会无形中在业务平台中增添几分不稳定的因素,我想从现在流行的一体机解决方案更能说明这方面的问题,即系统越简单越稳定。在性能方案,站点间的监测、业务会话的同步确认等的网络延迟数,加上数据同步双写的光纤延迟,都或多或少的影响了整体业务处理的性能。距离越远影响越明显,如果距离较近,也会失去建设双活容灾数据中心的意义。

4.运营维护并不简单

双活容灾解决方案灾难切换方面变的较为简单,但在实际的维护方面并不简单,除了要求企业用户提升自己的维护能力,还需双活容灾解决方案提供商的售后服务能力。

a.企业自身人员的维护能力必须加强,才具备能力维护跨站点的双活系统,也就是需企业用户自身人维护人员必须从维护设备的能力转变为具备维护双活系统架构的能力,才能维稳系统的正常运行,让双活系统实现该有的效果。

b.提供商的服务能力也直接影响双活容灾系统部署后的效果,在已有的案例中,我们经常看到提供商的800电话,除了收集日志还是收集日志,除了正在后台诊断还是后台诊断,经常让一个小小问题需有好多层、次的沟通才能解决,这样的方式如何保障双活容灾系统的稳定?如保达到用户对双活系统在线性要求的期望?

5.性价比并不会太高

我们经常会听到双活容灾方案可以让生产中心和容灾中心都“活”起来,有效的利用资源,面临灾难性事件时,最大化业务系统的在线性,解除原有灾备系统有灾无备等等的不足之处。但是,当我们认真考虑建设双活容灾系统时发现,如果自身IT人员的维护能力不足,很难达到我们期望的效果。在现实案例中,很多用户一次性的费用建设的系统,后续的维保经费很难申请,这种情况很难有效的保障我们的信息系统的健康运行。宁夏银行就是在没有后续维保经费支撑的情况下,硬件出故障,自身IT人员修复过程中出现人为错误而引起的重大事故。因此,建设双活容灾系统的同时,必须要保障后续的维护经费。使得双活容灾系统向高大上偏移。

双活容灾方案建设寄语

双活容灾系统具有站点冗余、自动接管的优势而被很多厂商利用推销自有产品,并不会全方位从用户现实所处条件、环境、具备的能力等方面综合去设计适合的容灾方案。作为中小型用户或所处二、三线城市及内地的城市,本人不建议用户在现阶段选择双活容灾方案,只有这方面技术进一步普及化后才能使得在建设后发挥其该有的效果,否则就会变成隐身炸弹。只有面向全国性服务的用户或在一线城市原方案提供商可以直接服务的地域,有了后备技术保障,双活容灾方案才能更具它的优势,发挥它的效果,再加上具备有快速恢复能力,能够有效解决软错误的方案,才能更使得用户的业务系统键康稳定的运行。