目前最大的误区之一仍然是,只有大公司才能负担得起大数据驱动的解决方案,它只适用于海量数据,而且价格昂贵。这已不再是事实,有几次技术变革改变了这种心态。
大数据技术的成熟度
第一次技术变革与成熟度和质量有关。毫无疑问,十年前,大数据技术需要做出一定的努力才能使其工作或使所有部分协同工作。
过去有无数来自开发人员的故事,他们浪费了80%的时间试图用Spark,Hadoop,Kafka或其他方法克服愚蠢的故障。如今,这些技术已变得足够可靠,它们消除了早期的各种故障并学会了如何相互配合。
与捕捉内部错误相比,出现基础设施故障的机会要大得多。在大多数情况下,即使是基础设施问题也可以容忍,因为大多数大数据处理框架的设计都是容错的。此外,这些技术为计算提供了稳定、强大和简单的抽象,并允许开发人员专注于开发的业务方面。
各种大数据技术
第二次技术变革正在发生——近年来,无数的开源和专有技术被发明出来——Apache Pino、Delta Lake、Hudi、Presto、Clickhouse、Snowflake、Upsolver、Serverless等等。数千名开发者的创造力和创意已经转化为大胆而卓越的解决方案,并具有巨大的激励作用。
让我们讨论一个典型的分析数据平台(ADP)。它包括四个主要层次:
· 仪表板和可视化– ADP的外观,向最终用户提供分析摘要。
· 数据处理–数据流水线,用于验证,丰富和转换数据从一种形式到另一种形式。
数据仓库–存放组织良好的数据的地方–汇总,数据集市等
· Data Lake,用于存放纯原始数据的地方,是Data Warehouse的基础。
· 每个等级都有足够的替代品,可满足任何口味和要求。这些技术中有一半是在过去5年内出现的。
关于它们的重要一点是,技术的开发旨在相互兼容。例如,典型的低成本小型ADP可能包含Apache Spark作为处理组件的基础,AWS S3或类似的Data Lake,Clickhouse作为仓库,OLAP用于低延迟查询,而Grafana用于漂亮的仪表板。
具有更强保证的更复杂的ADP可以以不同的方式组成。例如,将Apache Hudi和S3引入作为数据仓库可以确保更大的规模,而Clickhouse仍然可以低延迟地访问聚合数据。
成本效益
第三次技术变革是由云端造成的。云服务成为真正的游戏规则改变者。他们将大数据作为即用型平台(大数据即服务)进行处理,使开发人员可以专注于功能开发,从而使云计算能够关注基础架构。
开发人员可以选择特定技术和一定程度的无服务器。无服务器越多,它的可组合性就越好,但是更多的供应商锁定将使它成为不利的一面。锁定在特定的云提供商和无服务器堆栈上的解决方案可以缩短上市时间。在无服务器技术之间明智地选择可使解决方案具有成本效益。
尽管此选项对初创公司而言不是很有用,因为它们倾向于利用典型的10万美元云信用额度,并且在AWS,GCP和Azure之间进行跳转是一种很普通的生活方式。必须事先弄清这个事实,而必须提出更多与云无关的技术。
通常,工程师会区分以下成本:开发费用、维修费用、变更成本。
开发费用
云技术无疑简化了工程工作。有好几个区域对它有积极的影响。
第一个是架构和设计决策。无服务器堆栈提供了丰富的模式和可重用组件集,为解决方案的体系结构提供了坚实而一致的基础。
只有一个问题可能会减慢设计阶段:大数据技术是自然分布的,因此在设计相关解决方案时必须考虑可能的故障和中断,以确保数据的可用性和一致性。另外,解决方案所需的精力更少,可以扩展。
第二个是集成和端到端测试。无服务器堆栈允许创建隔离的沙箱,播放,测试,修复问题,从而减少开发回送和时间。
另一个优势是,云强加了解决方案部署过程的自动化。不用说,此功能是任何成功团队的必备属性。
维修费用
云提供商声称要解决的主要目标之一是减少监视和保持生产环境活动的精力。他们试图建立几乎没有零投入的理想抽象。
但是,实际情况有所不同。关于这个想法,通常维护仍然需要一些努力。下表突出显示了最突出的种类。
但除此之外,该方案在很大程度上取决于基础架构和许可成本。设计阶段非常重要,因为它可以挑战特定技术并提前估算其运行时间成本。
变更成本
大数据技术关注客户的另一个重要方面-变更成本。我们的经验表明,大数据与任何其他技术之间没有区别。如果解决方案不是过度设计的,那么变更的成本就可以与非大数据堆栈完全媲美。大数据带来了一个好处。大数据解决方案被设计为分离是很自然的。设计正确的解决方案看起来不像是整体解决方案,可以在需要的地方短期内应用局部更改,而影响生产的风险较小。
总而言之,我们确实认为大数据可以负担得起。它为开发人员提出了新的设计模式和方法,开发人员可以利用它来组装符合最严格的业务要求并同时具有成本效益的任何分析数据平台。
大数据驱动的解决方案可能是快速成长的初创公司的良好基础,这些初创公司希望变得灵活,应用快速更改且TTM跑道短。一旦企业需要更大的数据量,大数据驱动的解决方案就可以与企业一起扩展。
大数据技术允许以小规模或大规模实施近实时分析,而经典解决方案却难以与性能相提并论。
云提供商已将大数据提升到了新的水平,从而提供了可靠,可扩展和即用的功能。快速交付来开发具有成本效益的ADP从未如此简单。利用大数据提升您的业务。