2011年第一季度,有一个术语被不少存储厂商提及,那就是Big Data(中文翻译为大数据,或者海量数据)。究竟什么是大数据?维基百科对它的定义是:“大数据,是指变得越来越大、使用现有的数据库管理工具已经无法应对的数据集。”而作为大数据最早倡导者之一的EMC,对此诠释为:“数据集或者信息,它的规模、分布、彼此孤立的位置或者时间线要求它们客户部署新架构来捕捉、存储、整合(到一个数据集)、管理和分析,以实现其商业价值。”大数据在现实世界中有着非常广泛的分布,包括医疗信息、视频监控、移动设备、智能设备、非传统IT设备、传统IT信息的非传统应用以及特定行业需求等。
大数据与我们以前所说快速增长的数据不同,首先,它源自于更加密集和更大规模的海量PB级存储,其次,它涉及到数据类型从模拟到数字的转换,以及利用新方法获取商业价值的需求。大数据是一个巨大市场,蕴涵了巨大的商机。从一个IT企业的角度来看,这就是为什么大数据得以重视的原因所在。
信息结构类型经历了从结构化、半结构化再到非结构化的发展,而不少传统IT基础架构仍然是围绕最初的结构化信息而构建的,适用于半结构化信息,但却无法满足大数据所需的多层结构、规模和分析的要求。
在这样一个背景下,主流IT厂商都意识到了这个趋势,EMC、IBM、Oracle和HP都在利用大数据这个理念,提醒人们要换个角度思考PB级存储,为大数据来袭做好存储方面的准备。
所以EMC接连收购Isilon和Greenplum的举动也就不足为奇了,Isilon提供横向扩展NAS结构,可以在单一文件系统中扩展至10PB以上,而Greenplum则专注于应对大数据所带来的分析挑战,这样EMC就可以把它们作为自己的左膀右臂,以迎接大数据所带来的机遇。
今年第一季度,EMC在发布中国业务战略的同时,也具体谈到了Isilon和GreenPlum的定位和新产品发布:Isilon专为海量存储服务,并且已经应用到中国一些石油公司和大学,推出针对高性能的Isilon S系列,针对高容量的N系列以及综合二者的X系列;GreenPlum则将着眼点放在数据挖掘上,面向金融和电信等领域。
EMC似乎用一系列行动来说明自己的立场:大数据不是新瓶装旧酒,它有新的内涵和定义,是未来不可避免的趋势,EMC在这之上所押的赌注越来越大。
与EMC利用收购完善大数据策略不同的是,IBM则是将“危险边缘”作为一个舞台向人们展示了大数据、分析和负载优化系统的强大性能,通过由此名声大噪的超级电脑“沃森”来证明自己在海量数据处理中的实力。其实早在去年,IBM收购数据仓库厂商Netezza的时候就已经可以看出IBM涉足大数据的意图。
在大数据方面,Oracle也是一个活跃的角色,它在大数据市场推出了三款核心产品:Exadata、Exalogic和Sun SPARC Supercluster。今年第一季度Oracle在北京举办的存储峰会上,更是将将Exadata高性能数据库机作为一个重要主题,介绍了Exadata如何克服传统存储系统的局限性,解决海量数据处理中的难题。
在竞争对手纷纷有所动作的时候,HP也按捺不住了。2月中旬,HP宣布收购数据仓库及分析厂商Vertica,最终让HP也跨进了数据仓库市场和大数据阵营。曾与HP有长期合作关系的Oracle在收购Sun之后就不再那么依赖于HP的硬件了,Vertica的大规模并行数据库技术不仅让HP挽回了一些面子,而且确实在大数据领域发出了一些声音。
现在看来,主流厂商中大约只有戴尔“落单”了,也许戴尔会收购OEM合作伙伴Aster Data,后者的nCluster大规模并行数据库软件也许让戴尔能够有得一拼。
不管怎样,对于厂商来说,你来或者不来,大数据都在那里。大数据只会越来越大,事务只会越积累越多,渐渐成为可以被永久开采的数字矿藏。也许单单是通过收购有了一个进场券还不够,厂商们需要开动自己的“大智慧”,结合自己本身的产品和优势技术,这样才能在这场大数据的淘金热中抢夺的制胜点。