预计未来十年,数字宇宙将以每年约40%的速度增长,这是个惊人的数字,更重要的是,数字宇宙中囊括了绝大多数企业业务的数据需求。
在这种环境下,通过使用数据分析提高竞争力,企业需要有能力满足“信息一代”的需求,这对企业来说至关重要。从帮助预测购买行为到驱动创新项目以增强客户服务或提高生产力,数据湖能整理、存储并分析海量数据,拥有变革业务的巨大能量。分析能力正从企业的“愿望清单”中移除,转而成为必需。
然而,许多组织在早期便遭遇阻力。近半数(49%)的企业知道他们能够从信息和数据中获得更有价值的洞察,但不知道怎么做。
其中一个主要原因是,在最佳实践和大数据项目的业务目标方面,IT和业务线并不总是一致的。虽然一些公司可能在利用基本的数据分析进行试验(而有些公司甚至还没开始),很多还没准备好面对下一个阶段,进入这个阶段,分析将变得复杂和深入得多。实际上,现在只有19%的企业拥有随时在线的生产力,并能够跨组织范围实时运营。近三分之一的企业甚至还没有开始这样做。
那么,企业什么时候应该扩大规模,投资数据湖?下面四个信号可供参考:
1. 运营复杂:在一个“前数据湖”环境中,如果企业正试图扩大基础设施规模,但没有任何额外的全职人工管理支持选项,其数据需求就很有可能超过管理能力。传统的Tier 1数据资源并不总是池化的,这样就为单一管理者可应对的存储空间造成了限制,同样,在构建更灵活的通用存储资源(例如数据湖)方面,管理者也面临难题。
2. 运营成本:当公司发现,虽然正试图减少运营成本,但业务对IT的需求却在持续增长时,就是时候该寻求新的办法了。全职人工也会带来管理IT资源的运营成本上升。为了有效应对这些需求,企业或者需要更多人力资源,或者需要投资额外的第三方,支持监控、管理、部署和改善系统。与简单地增加员工人数相比,第二种方法扩展了一个数量级甚至更多。
3. 生产压力:另外一个暗示数据湖需求的关键指标是,现有的分析应用正为业务生产系统带来压力。实时分析可能是耗费大量资源的,无论是想通过视频分析,从大量高清视频流中获得洞察,还是研究社交内容瀑布流。这些流程是需要专用资源的,这样,尝试使用生产系统的用户才不会损失性能。数据湖是确保实时分析能够以最佳性能运行的关键。
4. 多协议分析:企业需要数据湖,一个最终的关键信号是,数据科学家正在大量不同的Hadoop发行版上运行应用,并且,需要将他们的数据与Hadoop挂钩。未来,随着各种各样的分析实验不断深入,业务线需要IT有能力支持多种协议。企业也需要以数据湖策略为重要依据,进行整体的合理规划。
现在,并不是每家公司都已经做好准备部署数据分析,但大多数会,至少是需要开始计划,否则,就会面临落后于竞争对手的风险。最终,所有公司都需要拥抱数据分析,那些拒绝改变的公司将逐渐褪色,变得默默无闻。
数据湖近在眼前,有人持怀疑的态度,有人热情拥抱。怀疑者认为,数据湖无非另一种将全部数据整合至单一位置的存储形式,支持者认为,数据湖不仅预示着前所未见的存储效率,还让分析成为可能,让每个组织都可用。
暂且搁置争议,让我们看看数据湖带来的变化,以及这些变化对今天的世界意味着什么,从IT直至消费者。
打破数据孤岛
长期以来,数据孤岛一直是存储应用的标准,但是这些系统是运营效率低下的,并且会限制从相关数据中获得更佳洞察的能力。
节约成本也是一大驱动力。除了管理复杂性,孤岛系统还需要多种授权,服务器和其他费用,而数据湖可以经济高效的方式,由单一基础设施提供支持。
随着分析变得更快速、更复杂,组织也需要以同样的方式进化,以探索所有可能性。数据不再单单是数据本身,借助所有组织化数据构建的完整图景,分析解释能够以前所未有的方式,打开新的大门。
利用实时分析
数据收集和分析正变得越来越快。像信用卡欺诈预警分析、股票分析这样的应用场景,需要在动作发生后数秒内就实现。不过,实时分析并不都是需要100%立刻马上就实现的。一些数据(如月销售数据、季度财务数据或年度员工表现数据)只需以特定的时间间隔存储并分析。组织需要有能力构建数据湖,为分析提供最大的灵活度。
现在,企业产生的数据比以往任何时候都更多。这种情况为企业带来了独特的问题:需要装备自己分析这些数据,而不仅仅是存储。数据湖与Hadoop平台一道,提供了增加数据价值所需的自动化和透明度。
例如,物联网就是一个产生数据的怪兽,同时,也是一个持续不断追加销售的机会,假设组织能够实时提供有吸引力的产品。确实,广告主正站在利用数据湖获得消费者洞察的趋势前沿,在此基础上,设法将洞察转化成销售。
这种情形下,“实时”意味着:数据湖能够大幅减少分析的价值转化时间,从数月或数星期到几分钟内完成。
新业务模式兴起
数据湖不只是一个内部工具,事实上,数据湖正帮助催生新的业务模式,例如分析即服务(Analytics-as-a-Service),通过提供对数据湖的访问权限,让用户进行自服务分析。
既然分析即服务不是面向所有用户的,那么,它能带来什么好处?外包的基础设施和自动化使分析成本骤降。这意味着公司可以尝试新东西,并可根据客户获取和经验实时调整,无需很多预算。
对那些正寻求外包服务的公司来说,有能力存储、管理并保护数据,作为分析即服务部分内容的服务供应商是一个有用的途径。
知识型员工则带来不同的价值,随着手动操作的部分被移除或显著减少,基于分析结果,他们可将精力更多地用于与业务单元的战略性结合上。对于早期采用来说,分析即服务是一个有效的路径,在零售、公用事业、体育俱乐部等行业处于领先地位。
显然,想要开始获得价值,企业不一定非得自建数据湖。
目前,从整体上看,数据湖应用尚处于早期阶段,但全球化部署正在不断增长。对于那些还在运行数据孤岛的公司来说,或许是时候该开始尝试实时分析了。