/ 中存储网

一宕再宕,亚马逊云服务多次故障是肿么了?

2012-07-06 12:30:57 来源:未知

  国外媒体报道,上周五,亚马逊云计算基础设施发生故障,导致作为亚马逊客户的Instagram、Netflix、Pinterest等知名网站瘫痪。据调查,备用发电机失效,导致了这次故障。

  亚马逊调查发现,位于北弗吉尼亚州的一个数据中心,出现了20多分钟的断电。

  据称,上周五西部时间早上7点24分,亚马逊两座数据中心所用的电脑出现电压波动,并停电。在其中一个数据中心,亚马逊启动备用柴油发电机,虽然启动正常,但是后续无法正常发电,随着备份电池电源耗尽,导致该数据中心完全断电。

    亚马逊云服务出现问题已非新鲜事,在过去的15个月里,这是北弗吉尼亚云计算中心的第四次服务中断。就在今年6月初,该中心就发生了一场宕机服务,受牵连的公司包括Heroku、Quora、HootSuite等知名企业。2011年4月和今年3月,也均出现了不同规模的故障。

    这一次次问题让人们不禁质疑,当我们在拥抱互联网云服务的时候,我们是否也在将自己一次次推进到各种不可预知的风险和更大规模的崩塌中。

    但正如Netflix在如何应对云服务风险的经验总结中所说,“避免失败的最好方式就是不断失败。”

    也许,更多企业会开始重新思考如何更安全地拥抱云。亚马逊也将产生更多动力改进服务。

    与此同时,更大规模的一场“暴风雨”正在席卷而来。谷歌(微博)在上周四推出同样致力于向开发者提供云服务的Google Compute Engine,并声称其可伸缩性、稳定性和性价比都超过主流云服务提供者。剑指亚马逊!

    为什么是亚马逊云服务:低成本的诱惑

    亚马逊云服务作为互联网公司减少运营成本的重要渠道,其知名度被誉为是“托管服务界的可口可乐”。自2006年开始提供云服务,它的低成本优势吸引了成百上千家互联网公司在其云服务平台管理应用和网站、备份和存储数据,甚至在上面运作公司IT线。和自建服务器和数据中心相比,采用亚马逊云服务意味着更灵活地使用方式、更低的成本和更专注地发展。

    工程师团队曾写过一篇文章来介绍Instagram的架构分析,其中亚马逊提供的云服务作为重要技术解决方案让这个曾经只有7个人团队服务1400万用户成为可能。丁香园CTO冯大辉看过此文后,发表感慨称“Amazon真是一家伟大的公司,甚至比Google 还伟大”。

    饱受赞誉的同时,一场暴风雨让大家回到了一个根本问题,当云服务成为提供互联网产品运作的主动脉,任何一个小小的闪失所影响的用户规模都不容小觑。那么,亚马逊如何应对高速发展的云服务所面临的各类故障和不可预知的问题?如果连亚马逊这样的大公司都不能保证云服务的稳定性,那么大家对这个行业的信心将来自哪里?#p#副标题#e#

    企业如何风险控制:需要备用方案

    据国外媒体报道,亚马逊其实为云服务中断问题提供了解决方案,建议用户在服务中断时转战至其它的数据中心,比如采用亚马逊ELB服务。但可惜的是,当不可知的问题真正出现时,这一切却没产生应有的作用。

    对此次的服务故障问题,亚马逊官方还未给出更进一步的解释。通过采访国内业界人士,大家对此事发表了不同观点。

    冯大辉认为,此次事件并不意味着亚马逊云服务的“不稳定”,因为风暴导致的问题毕竟属于不可抗力因素。如果将云服务和电力相比,在面对风暴时,电力的可用性更差。冯大辉建议,像Netflix和Instagram应该自己做一些针对云计算服务的灾备方案,比如从架构上做一些改进。

    有人提出,使用云服务的互联网公司可以通过数据备份,做一些前端切换,防止出现长时间网络无法使用的问题。对于该种方式,冯大辉表示,前端切换对用户体验的确好一点,因为用户可以尽早知道出了什么问题,从而减少反复尝试带来的抱怨。但要做到服务快速可用,成本相当高。

    和冯大辉的观点不同,一位就职国内云平台部门的员工XA则认为,亚马逊的云服务的确存在不稳定问题:“因为发展时间很短,发展不到十年的开放云服务实践经验还不多。但如果让互联网企业自己做改进,那这个速度还不如AWS的改进速度。所以,使用AWS很划算。”

    国外的互联网企业对亚马逊也表现出更宽容的态度,“AWS的主要卖点就是便宜,便宜得令人发指。这就给了小公司挑战大公司的机会。每月花300美元就能满足基本的服务器需求,这对很多公司而言吸引力很大。”

    亚马逊的潜在危机:谷歌云服务Compute Engine

    但对于风险的控制,让很多企业也开始认真考虑是否需要一个备用方案。云服务企业Box的解决方案是将一部分的基础架构建在自己的数据中心。云通信平台Twilio在使用亚马逊云服务平台的同时,也通过改进一些自身架构做风险防御。

    那么这次被迫中断6小时服务的Instagram呢?之前已有媒体猜测,被Facebook10亿美元收购后可能会转投Facebook数据中心而非亚马逊云服务。这对亚马逊会产生什么影响吗?Quora上一位网友回答:

    和亚马逊EC2所拥有的约50万台服务器相比,Instagram可能仅占0.05%,如果Instagram停用亚马逊服务,无论从收入还是服务架构上,基本都产生不了影响。因为亚马逊云服务收入的年增长率接近70%,达到10亿美元。无数的新公司等着借云服务扶摇直上。

    但这些新公司或许也将有新的选择,就在上周四,谷歌提出,他们将以亚马逊云服务的一半价格为开发者提供服务。

    在谷歌的I/O大会上,谷歌高级副总裁Urs Holzle表示:“谷歌数据中心的效率很高,它们已经运行了很多年的时间,你们肯定会从中受益。”

    就在他发表演讲的同时,他背后的一个计数器仍在不断攀升。当他完成介绍的时候,计数器最后停下时的数字为771886。那就是谷歌Compute Engine为用户在需要时可以调用的处理器核心的数量。

    有科技博客表示,“假设Compute Engine集群由8核CPU组成,那么77万核心相当于96250台计算机,与Google的100万服务器相比并不多,也少于Amazon EC2的45万。但Google在第一天就能提供10万机器还是给人留下深刻印象。”

    看来,席卷亚马逊的暴风雨才刚刚来临。