/ 中存储网

国内首个大数据平台性能标准制定完成

2014-12-26 15:38:42 来源:中存储

今天越来越多的企业认识到,大数据的掌控和分析能力将成为竞争力的核心,企业对大数据的投资也在不断扩大。Gartner调查显示,73%的企业计划在未来两年内投资大数据。以开源Hadoop、Spark等为基础的大数据基础平台解决方案和云服务如雨后春笋不断涌现,形成了近200亿美元的市场规模。然而对于很多企业用户来说,如何评价一个大数据平台的综合能力,常常是选型、平台建设和系统优化时面临的一大挑战。目前来看,国内外还缺乏一套能体现大数据特点,又简便易行,且被工业界广泛认可的大数据平台性能测试标准与工具。

中存储网记者日前从数据中心联盟(www.dca.org.cn)获悉,国内第一个大数据产品和服务基准测试规范《大数据平台基准测试技术要求》已经制定完成,将于2015年1月底公开发布。与该规范配套的评测工具源代码也将同期发布,并移交开源社区持续开发。

该基准测试规范的主要评价对象主要包括大数据软件平台(如基于开源Hadoop、Spark平台的商业软件)、大数据软硬一体机和云端大数据服务三大类。规范根据大数据特点,精选了NoSQL、离线分析和实时交互分析等最具代表性的21个基本负载,能够考核平台在计算密集、I/O密集和混合任务等不同场景的表现。标准规定了数据生成、负载选择、测试指标、用例执行和测试配置。标准还从用户角度出发定义了多个维度的指标,不仅有基本的吞吐量质保,还有能耗、压力、扩展性、容错能力等多方面的指标,这些指标都是用户在选型和采购最关注的。

数据中心联盟常务副理事长何宝宏把基准测试形象的比喻为“公平秤”,他说:“我们设计测试基准的过程是开放的,大家平等参与,可信云和绿色数据中心相关标准制定都采用了这种方式,这些标准已经得到广泛认可。接下来需要按标准开发工具,我们会以开放源代码的方式把‘大数据公平秤’制造出来,并且免费交给厂商和用户使用,组织大家一起完善,这样买卖双方心里都有数,提高彼此的信任度。”“下一步,我们也将为可信云和绿色数据中心等标准,开发一系列开源的公平秤,欢迎业界一起参与贡献自己的力量。”

据了解,该规范是由该规范由中国信息通信研究院(原工业和信息化部电信研究院)牵头,联合中科院计算所、华为、中国移动、Intel、微软、IBM、新浪、百度、阿里、腾讯、浪潮、世纪互联、UCould等国内外知名公司和科研机构共同制定,囊括了国内外主流大数据产品与服务提供商。

数据中心联盟大数据工作组组长魏凯透露说:“联盟作为第三方行业组织,计划于2015年第一季度启动第一轮评测活动,并公开发布测试结果。此次测试活动是不仅国内大数据厂商水平的首次展示,通过这样的测试也可以减少厂商一些重复的、不必要的POC测试。”

据悉,下一步数据中心联盟将逐步吸纳行业典型应用场景,丰富测试用例和测试数据模型,形成覆盖Hadoop/Spark、MPP、NoSQL等多种产品与服务、面向电信、金融、政务等多个行业的“端到端”测试基准。长远目标是以基准测试工作为纽带,在大数据行业用户与平台供应商之间构建交流合作桥梁,加速大数据技术与行业深度融合。

【延伸阅读:数据中心联盟是由工信部通信发展司指导,中国信息通信研究院(原工信部电信研究院)联合国内外互联网企业、电信运营商、软硬件制造商等单位共同发起组建的,成立于2014年1月16日,目前共有会员单位93家。联盟设有可信云、政府采购、IT基础设施、绿色节能、大数据等8个工作组和研究组,以及负责天蝎服务器和数据中心微模块等工作的开放数据中心委员会(www.opendatacenter.cn)。本次发布的成果是在大数据工作组内开展的。该联盟还提供可信云认证服务