IBM近日推出了一款基于Apache Spark的新型z/OS平台,旨在帮助企业使用IBM大型主机更简单、快捷访问和分析数据,此举对数据科学家和开发人员系统丰富地分析数据集也大有裨益。这款z/OS平台将支持其在z/OS主机操作系统上实现本地运行,帮助数据科学家打通分析库和底层文件系统之间的联系,无需提取、转换和加载(ETL)即可对数据实现就地分析。
现如今,IBM大型主机被全球各大银行、保险公司、零售商和运输公司广泛用于关键数据处理和交易。它拥有业界最快的商用微处理器,以及内置的交易分析功能,2毫秒内即可为某项交易的预测模型评分。目前,企业可以利用这些功能,在无需从主机中下载数据(without moving data off the mainframe)的条件下通过Spark来进行高级内存中分析,既节省时间和成本,又降低风险。
IBM专注于新兴互联网技术的院士Rod Smith表示,“各种规模的企业在向实时数字化转型时,都需要对自己所有的数据了解清楚,这个过程不应花费过多的时间,也不应有提取、转换和加载(ETL)的风险。现在我们实现了在包括大型主机在内的IBM平台上本地(natively)运行Apache Spark,客户可以并行执行处理关键数据的交易处理系统和分析系统,同时从其他数据源获取关联洞察,帮助他们与客户进行实时互动,继而产生效益。”
基于Apache Spark推出的IBM z/OS平台具备Apache Spark core、Spark SQL、Spark Streaming、Machine Learning Library (MLlib)和Graphx等开源功能,可提供业内唯一的主机常驻Spark数据提取解决方案。新平台主要特点:
1.简化开发——开发人员和数据科学家可利用他们已有的Scala、Python、R和SQL等编程经验来更快实现可用洞察的价值。
2.简化数据访问——经过优化的数据抽象化服务消除了复杂性,通过Apache Spark API使用熟悉的工具对IMS、VSAM、DB2 z/OS、PDSE或SMF等传统格式实现企业数据的无缝访问。
3.就地数据分析(In-place data analytics)——Apache Spark使用内存计算来处理数据,可以快速产生结果。
4.开源功能——新平台提供了一个应用于Apache Spark、专门针对大数据设计的开源内存计算引擎。
IBM也在和DataFactZ、Rocket Software和Zementis这三家公司进行合作,通过IBM z/OS平台为Apache Spark开发定制解决方案:
1.DataFactZ是IBM新的合作伙伴,双方正在合作开发基于Spark SQL和MLlib的Spark分析产品,以用于在大型机上处理的数据和交易。
2.Rocket Software已经成为IBM的长期合作伙伴,两家公司在z/OS Apache Spark领域也已展开合作。
3.Zementis正在开发支持Apache Spark的基于多个标准的执行引擎。作为一款新的z/OS交易中预测分析(in-transaction predictive analytics)解决方案,它允许用户在处理交易时部署和执行高级预测模型,帮助用户在影响最大的时候实时地预测终端用户需求、计算机风险或侦测欺诈。
基于Apache Spark推出的全新z/OS平台以及合作伙伴相关解决方案,可以让那些从不同来源采集数据的数据科学家和数据管理员用自己喜欢的格式和工具来收集和分析数据。
IBM去年发布了一项针对Spark的承诺——将投入3500名IBM研究和开发人员参与与Spark相关的项目。为了推进支持大型主机分析的开源技术,大型主机还组成了一个新的GitHub组织以便开发人员协作建立针对Spark的z/OS工具。比如,Project Jupyter和任一NoSQL数据库的组合都能提供灵活、可扩展的数据处理和分析解决方案。
这一方法可帮助件开发人员选择他们的工具和语言,提供能够在不同数据环境中监控分析结果的新型视觉辅助工具,开发出新的数据处理技术和技巧,从而让新的开源工具更易使用。