/ 中存储网

台湾地区的灾备管理经验(宏基张善政)

2008-07-07 10:35:52 来源:中存储

2008年7月6日,由中国灾害防御协会、清华大学中国与世界经济研究中心、中国信息安全测评中心、万国数据服务有限公司联合举办的“中国灾备管理战略国际研讨会”在清华大学举行。本次会议的主题是《灾备管理未来》。以下为台湾宏基公司电子化服务事业群副总经理张善政发表的主题演讲。   

张善政:各位来宾,下午好!宏基大家在中国应该比较知道,宏基在台湾我这个负责的部门是做IT服务的,在台湾做了一些灾备,IT系统灾备的一些案例,所以我今天很高兴来到这里和大家做一个交流。    

台湾其实算是一个地理位置多灾多难的地方,每年台风大概会经过台湾,台湾气象局要发警报的,一年大概5次,多的时候会到10次,小孩子很高兴,每次台风一来就放假,我的小孩今年上大学,他第一志愿是台湾的台大科技系,从小就觉得气象局的人非常权威,每次只要一人上电视说明天台风要来了,他们第二天就放假,他如愿以偿了,前几个月上了台大的电气科技系。    

右边这张照片是2001年锡纸,就是东方科学园区,四栋,三栋连在一起烧了,很幸运,宏基分开了,为什么分开?中间有高压线过去,台湾电力公司不肯移,只好那个房子盖的时候,只好三栋连在一起,第四栋分开,那三栋在2001年的时候很不幸就失火了,这个楼有20几层楼,其实也不是那么难救,但是碰巧那个时候台湾还没有那个技术去救这么高的火,所以25层楼的房子失火以后,烧了43个小时,没办法救,这三栋楼里面的这些公司,损失大概100亿台币,大概20几亿人民币,1:4.5左右。所以现在看三栋大楼烧了40几个钟头,烧掉20几亿人民币蛮可怕,宏基在第四栋楼里,没有被烧到,但是失火期间上下班是不准去的,所以这个就想到了灾备,三栋楼里面有一个公司乐彩,什么样的公司呢?就是宏基跟美国一个公司合资要去飙,那个时候台湾正要去做彩票,中国有彩票,在这三栋楼里面当初被烧掉了,不过他们有一个非常好的习惯,美国跟宏基合资这个公司叫GTAKE要求的,他们准备标书,因为财政部写这个IP,让大家提建议方案,这个公司每天都写这个意见方案,他们养成好习惯,每天下班以前一定要把当天写的东西当天传到美国,结果烧完以后,当然什么文件都烧光了,第二天上班的时候,我就看到这个公司因为是我们关系企业,每个人拎着一个大的塑料袋,里面不知道什么东西,到我们办公室说,叫我们把座位挪一挪进来上班,他们在失火的第二天以后,马上继续做,对他们几乎没有影响。很不好的影响就是宏基自己,水灾、火灾大家都可以想像得到,地震也很惨,地震的来源因为板块运动,右下角是太平洋板块,上面是欧亚板块,台湾刚好在中间,太平洋板块插到欧亚板块下面,挤下去了,

这个虚线的地方就是两个板块交接的地方,这有三个南圈台北、台湾和高雄,这个断层的数量也蛮多,最严重的1999年,我们921地震,当时在台湾是6.7级,台湾这个地方很小,这个地震后来死了3千多人,跟四川不能比,不过在台湾算是百年来大地震,921地震事实上它是哪一个断层惹出来的?左边我画的红框,车龙铺断层,在记忆里面不是活动的断层,四川这次我听说,以前也听说不是活动断层,我不是很确定,以我们人的历史来看,来看活动断层根本历史就不够,在1999年9月21号就这么出了6.7级的大地震,当时大地震,断层裂开的地方一边跳到另外一边,是地表地震,各位如果有机会刚好昨天开放直航,很多大陆的游客到台湾去了,现在车龙铺那里做了一个地震博物馆,地表原来是平的,地震以后,一边比另外一边高3米,他们就把那一块地方保留起来,盖了一个很大的房子变成地震博物馆,可以看得到。他们甚至把断层的地方开挖到地表下面大概10米,看到断层过去几百年的活动记录非常明显。各位看右下角的照片,大楼东倒西歪,上个月,6月份为例,台湾大概有39个地震,其中比较大的就是说气象局算是3、4级以上的有11个,其实地震多也不是坏事,地震多表示说它平常把能量释放掉,就不会有特别大的地震,车龙铺那边就比较辛苦一点,有一个有意思的就是台北有一个叫做101大楼,500多公尺是目前世界上最高的大楼,上海有一个楼盖好以后应该超过台北了,101大楼的正下方就有一个断层,就是“新宜”断层,但是他们调查这个不是活动断层,所以房子照样可以盖。

给各位感觉一下,台湾的东边这块地方叫做台中海岸山脉,每年涨高1公分,看右下角这边有一个导,兰屿,兰屿每年往本岛靠近8公分,100年以后那个岛就要移到台湾本岛了,这些数据其实这边的断层活动蛮频繁,因为这个关系地震也是蛮多的。讲到说921地震的背景。   

宏基各位都知道是做笔记本的,或者说一般的计算机,服务器,为什么会突然在台湾做了这么一个数据机房,做灾备,主要是1999年921地震,这次地震让我们上面的主管觉得说,现在其实所有的企业政府机关,IT系统几乎是命根子,如果没有IT系统,企业营运不了,以宏基去年为例,07年全球营收换成美金大概是150亿美金,很大一部分来自于欧洲和美国,订单系统放在台湾,白天是大陆跟台湾下订单,到了晚上是欧洲,到了半夜是美国下定单,现在看来,一年如果150亿美金,你除一除365天,每一小时订单进来多少钱,这个金额是蛮高的,如果是一天没有订单,150亿美金的1/300就没了,蛮严重的。这个机房当初设计的时候又觉得宏基自己用还不够,也希望给台湾其他的企业用,这个规模蛮大,电量有45000千瓦。从2000年到今年为止,这个数据中心已经花了大概1.4亿了,所以这个数据中心是蛮大的。    

一个地震可以让宏基上面这些经营的高级技术主管有这么大的教训,很多人想不通,我跟各位报告一下,99年921大地震的时候,那时候北台湾常常停电,有一个礼拜电来一下没一下,根本不能用。北台湾从台北开始大部分的企业或者是像新竹有一个叫科学园区,那时候是半导体生产重镇都没办法持续运转,刚才前面的烧火的那栋楼,在99年地震的那个时候怎么过的?没有电嘛,我想在座的都知道,你如果家里面有IT设备的话,你一定要有发电机,没有电有什么关系,发电机烧柴油照样可以发电,后来才发现没有这么简单,BCP很重要,不要以为有一个IT机房有发电机什么事都没有,停电了以后才发现,当初设计怎么没考虑,停电的时候发电机启动,服务器都有电可以用,没想到你的机房里面没有冷气,一般大楼里面冷气是不会给你发电的,从来没有想到冷气不是要给人用,是要给服务器用的,但是这个设计当初没考虑到,所以这个服务器运转了一天,越来越热,就不行了,那个时候就要有一个决定,你这么多服务器要关掉一些,让真的重要的继续去运转,马上问题就来了,哪些系统重要,哪些系统不重要,你怎么知道,你如果做BCP你就知道哪些重要哪些不重要,临时停电突然问你20个系统,哪一个不重要你关掉,谁敢做这个决定,CIO都不敢做这个决定。最后还是不得已非关不可,一个一个关,关到最后说根本有发电机是假的,没有电的时候,里面有空调,平常摆在里面好看,真的出事情用个一两天也不行了,所以说好的数据中心跟BCP非常重要。    

这是背景。接下来我就给各位介绍一下这几年,从2001年、2002年开始到2008年,我们做了IT系统的灾备差不多有50个客户,这些客户,昨天晚上跟GDS吃饭的时候也问到,到底有没有真的出现事情?我们客户真的出实现大概出了十几次了,每一次都安全地救了回来,当然演练不下上百次了。    

我介绍一下C这个银行,大概是台湾最赚钱的银行之一,这个银行在东南亚和美国都有子公板讲,假使我万一银行IT系统中断,你跟国外有很多交易,信用卡也有交易,跟其他银行也有跨行交易,这些交易不会因为你这个银行里面的IT系统中断就不交易,还是照样进来,你现在等这些交易进来以后,你要用人去补,你知道补多久呢?说这些交易进来,用人去补,要补一个月,这一个月里面我告诉你,你这个月里面银行不能开门,为什么不能开门?假使有人把钱都领走了,你不知道,这个IT系统没有记,你说我先开张,再慢慢补,他再把你的钱领走,领了两次你都不知道,所以一定要把交易都补完整才能开门营业,这个时间要一个月,他说请问这个月里面你不能做生意,你觉得一个月以后你的客户都还在吗?当然都不在了,客户马上都走了。所以他给这个老板的结论就是说,如果你不把这个备源做好,万一出事情这个银行就关门了,老板听了大概也很信任他,赶快把2、3亿的人民币掏出来做灾备计划。    

这个计划怎么做呢?银行里面IT系统有什么系统?在灾备的机房里面就复制一套,也就是说所有的系统都不想说什么重要和不重要,都在另外一个地方复制一套,在我们宏基的设施里面用我们的机房,平常在我们的灾备机房大概有5个人随时执勤,台湾有一个金融管理委员会规定说台湾的银行每年至少演练两次,所有台湾的银行里面,演练最认真的,有的银行就是随便晃一下,有的银行是扎扎实实在演练,他是扎扎实实在演练,他说我相关的人算一算大概有200个人,礼拜六凌晨两点钟就到我们宏基这个灾备机房做演练,200个人进来,120个人有固定席次,台湾从南到北有很多银行的分行,晚上不歇息,就跟我们在搭配做灾备的演练,这200个人从礼拜六的凌晨2、3点做到礼拜六的下午4、5点,顺利才回去,非常非常扎实。这个银行在技术上面也是台湾第一个用光纤把机房和机房两边的数据完全同步,我不知道在大陆这边,中国电信和中国网通是怎么一个做法,在台湾你要跟电信公司去买光纤,电信公司不卖,为什么不卖呢?他说这个光纤是主产,不能卖,因为在IT里面有一个技术叫DWD,你如果可以买到一束光纤,随着设备的进步,对光的解析度越来越细,这一束光纤上面可以传输的带宽等于是无穷尽的,你只要设备进步,你买解析度更高的设备你就可以传输更大量的资料,所以在台湾中华电信,你如果跟他说,我要跟你买光纤,他说因为是主产,我也不会卖你,不过几年前有开放民营,民间的可以卖,拉了60公里的光纤,把我们的灾备机房跟主机房拉起来,中间随时做同步,基本上两小时,如果主机房那边出事情,两小时灾备机房就准备好,再经过两小时,所有系统都上线。    

前面我给各位看到的照片,几年前台湾有一个娜利台风,这个银行很惨,测试系统没地方摆,摆在地下室,结果台风来了淹水了,地下室淹掉了以后,IT的服务器全部泡汤,水抽干了以后,IT的设备一套几百万几千万全部埋在泥巴里面,这个经验教训很严重,刚才讲的都是他花钱的,也有不花钱的地方是什么?管理。200个人如果说台北的机房真的出事情,到我们灾备机房,我也请教ICO,说这200个人怎么会到呢?他说我平时会不定时的测试,说今天晚上10点钟,这200个人打电话,看他们在不在,打电话第一个问题问你说你现在在哪儿?还在台北,没问题,如果说半个钟头以后集合准备下灾备机房,你能不能到?你说我要度假怎么办?度假当然有代理人,他就打给你的代理人,这200个名单每年有事没事就打电话,你手机随时得开着,连洗澡都得耳朵张大点,每个人打电话都要找得到,问你说在哪里?不能说到南部了,只能在台北。有没有例外?有一个员工有一次碰到例外,有一个员工盲肠炎在医院做手术,实在不能出来。所以他们做事非常严谨,不花钱的就是管理制度面建立很多这种方式。    

我再给各位报告第二个案例,台湾的行政院,台湾的税收有所谓中央税和地方税,地方政府常常叫穷,说钱都给中央收走了,所以地方要做什么事情常常都没钱,所以跑回来跟中央的行政院要钱,台湾行政院说提防再不修,今年台风来再要淹水了,所以行政院每年就会拨很多的预算给地方去做一些他们觉得该做的事情,但是这个钱拨到地方去了以后就石沉大海,不知道那个钱在干吗呢?打电话说你的钱花了没有?说还没花,招标不顺利,厂商还没有标到,中央把钱拨给地方以后,钱怎么用都管不了,效果也不知道好不好,所以台湾行政院这边就很伤脑筋,说我怎么样这个钱拨到那个地方以后还能管住这个钱,但是又不能说我派一个人到你那边看你用钱,这也不行,后来想了一个办法,说你们这些钱要用,我现在,行政院开发一个IT系统给你们,帮你们买服务器,帮你们把这个系统装好,以后你们用这个钱的时候,你们全都要到这个系统上登陆,这样子可以吧!服务器也不要你花钱,IT系统开发也不要你花钱,够意思吧!所以就做这个事情,做这个事情怎么能够管到地方呢?他们就做了一个地方补助款的财会系统,做好以后,他说财会系统我给你们地方做以后,我同时要做灾备,备到我中央来,备过来以后,你们花钱的资料都要上系统了嘛,我在中央,因为两边系统要同步,我就都看到了。所以台湾大概有23个县市,挑了比较大的12个县市做这个事情,备到我们这个地方来。怎么做呢?有12个网络,透过信息网络传到上面,上面是宏基的灾备中心,灾备中心里面的服务器随时跟下面县市政府的服务器资料保持同步,所以地方政府在用这些钱的时候,开了一笔,比如这笔钱1千万准备要做某个专案,这个资料就会记载在下面这个系统里面,下面和上面的系统随时保持同步,行政院主机处就很聪明,他又开发了一个系统,叫做主管决策资源系统,这个系统让中央的官员随时要查资料,随时上这个系统马上就可以查到地方用那些钱怎么个用法,非常清楚,所以做起来以后,行政院管不了地方政府用钱的这个问题就解决了,地方也高兴,中央也高兴,当然是要花钱的。    

真的出现灾备的时候,右下角这个县市政府出了事情的时候,当然我们在灾备中心,右上角这边灾备系统会启动,这个时候所有使用的这些人就透过网际网络直接连到我们灾备中心直接可以用到这些资料,所以这个道理非常简单,各位看到中间就是一些主网络和灾备网络。所以这个系统做完以后,有什么好处呢?行政院随时都知道地方政府用钱的状况,地方政府原来对IT系统管理没什么观念,现在也知道要做灾备了,所有用钱不敢乱花,以前常常是,台湾有的时候民意代表来找你县长的时候,不好意思说不好,说我那个地方水沟都乱了,破了,有的时候也碍于人际关系,不得以拨钱,这种情况因为中央都可以看得到,现在如果再有地方政府找你要钱修水沟,你就可以说对不起了,我背后上面有人看着了,这个钱不是给你做水沟的,我想给你也不行。    

再下面我就零星举些案例,左边这个图是2000年美国有一个公司做的调查,说IT系统会中断的原因是什么呢?洋洋洒洒举了一大堆因素,我分类,有两类,蓝色框起来的包括信息网络、软体、硬体,加起来大概24.8%,什么意思?这三个项目是IT的项目。另外我又框了红色的框,电力、火灾、淹水、地震跟飓风加起来,54.4%,与数据中心相关的因素,这个数据举出来要跟各位报告什么事情呢?一个错觉,我们在台湾碰到很多,不管是政府机关也好,还是民间企业也好,因为系统很重要,所以我要准备第二套服务器,我花钱建起来以后,我就不怕第一套原来的服务器故障了,从我们宏基做生意的角度来讲,我当然希望说,有钱可以花到第二套服务器上面,我们希望把灾备也做了,你愿意为了25%的原因,25%的风险去花第二套服务器的上面,可是他说我摆在灾备中心还要多做什么事情呢?我们说多做VCP,把差距补起来。    

跟各位报告一下,台湾现在我们的客户里面有两种,有些人就说好,我要做灾备,第一个问题问自己是说,我做灾备到底是左边的情况,左边的情况就是我自己的主中心,这个数据中心如果全部都毁了,如果说失火了、淹水了,我才做灾备到右边你宏基的灾备中心,这是一种做法。第二种做法是右上角的做法,我才不管你了,主机房里面有20个IT系统,只要有一个系统出事情,我就要切到灾备区,两种都有。如果是左边这种做法,我们就告诉他说,你这个时候,如果主中心毁了,你灾备,家里面有20个系统,我请问你,这20个全做还是挑着做,这又牵扯到VCP里面要做风险的分析,不过跟在座报告,早上好几位嘉宾也提到,当你这个人一旦变成官员,有很多事情都是政策决定,不是技术决定。我们的客户很多都是政府客户,我们碰到大部分政府客户都说,我告诉你,家里面每个系统都很重要,都要做灾备,那就很难做了,因为预算又不够,有60个人,SARS台湾是这样管的,假使你,譬如说今天一个人一个房间,我们这个房间的人全部都不准出门,他们就很担心,这60个人同一个办公室,如果有一个人感染非典了,那60个人全部都在家里要隔阂,那都不能上班怎么办?所以当流行病出现的时候,就两边上班,一半的人在银行里面上班,另一半的人就到我们的灾备中心来上班,所以非典几年前,流行病出现的时候,第一个动作就跑来跟我们说,我要多加一个灾备的作业空间,要30个人,我什么时候来用呢?我是流行病出现的时候用,灾备中心不是讲什么地震和台风那些事情,是为了传染病用的,所以我告诉你,有这么多消毒药品要买起来,所以他非常清楚30个房间药品该有的都有。    

另外还有一个同样的银行,两年前,2006年12月底,台湾国际的这些网络,大概有几个出口,左下角是连到香港、澳门、东南亚、新加坡那边,右上角那个地方叫投诚,透过太平洋连到美国、日本那边了,2006年12月在台湾左下角那个外海有6.7级地震,把左下角那边的海缆都震断了,那一阵子中国的国内大概网民只要是到东南亚去的60%都上不了网,那台湾当然受创很严重,这个事情以后,像台湾也有这个股市交易,很多外商银行总部在新加坡、香港,他们其实不是在台湾,买台湾的股票,为什么?他们都是在香港、新加坡透过网络买台湾的股票,网络一断,台湾的股市也都交易不了。我刚才讲的欧洲银行,碰到地震以后第二天,他马上说香港跟新加坡连不上线,我们多定一条国际海缆,连到韩国,这个动作非常快。另外地震以后,宏基做灾备做了好几年,还没做完,这个系统之间的牵扯太复杂,宏基的灾备是我们帮我们宏基自己的IT部门做的,这个地震让他做出很大的决定,让我们数据中心少了一笔生意,但是我们还是有VCP的生意,他说这个地震可以把台湾60%对外的通讯全部都砍断了,也太脆弱了,台湾现在宏基的订单系统一年有150亿的订单进来,我刚才给各位报告了,那台湾如果对外通讯断了,订单怎么办?所以我们CEO在地震以后做出一个清楚的决定,是说我们的订单系统灾备要做到美国去,所以在美国就挑了一个机房,我们原来做了一半的计划统统重来,我给各位报告的是不管是欧洲银行还是宏基自己,碰到大型的灾变的时候,随时要反应到,这个灾变回去看我当初的VCP计划是不是有问题?   

最后,灾备怎么做得好,三个因素:左下角就是设施要好,另外一个欧洲的银行在我们的设施里面做备源,欧洲银行可能各位猜得到这是哪个国家的银行,你每次看电影,有钱人存钱不想让人家知道都存到那儿去,他就在我们这边做灾备,电话客户人员都有席位,每个房间都隔开,他说我这个房间跟隔壁的房间中间,怕人家偷听讲电话,他说我这个房间要有隔电池波的设计,各位你这个手机打不通的,他说我在台湾以外的地方,我们的贵宾理财的席位都是这样设计的。右下角就是指挥体系,尤其是台湾的政府单位,IT系统的开发都不是自己开发,都是外包的,像C银行做演练的时候,外包的IT系统开发商全部都要到灾备系统旁边等着,万一这个系统上线有问题,你开发的人在现场马上帮我解决,这个银行的态度非常正确,我们碰到非常多的情况,原来在主系统里面跑得好好的,在灾备系统里面就不行了,这个时候工作人员就马上要来解决。但是我们换了一种客户,到政府机关去,他合约当中写完已经交付了,你说明天要做灾备演练,但是他们都以一大堆理由拒绝。最后一个是管理制度,你这个运营期间,随时要看到新的问题,随时要反映到你的计划里面,刚才讲的台湾海缆的中断也好,我们也看到非常多的企业机关会做VCP的修正,这点非常好。时间的关系,就说这么多。