接下来,中国科学院信息工程研究所副研究员王树鹏为我们分享了“新型NoSQL大数据管理系统(BDMS)开发和使用交流”。王树鹏介绍说他接触的项目多数是非互联网的应用,比如安全、交通行业。这些行业目前也面临着大数据的考验,但是当前很多流行的NoSQL数据库对于他们来说并不适用,所以他们自主研发了一个NoSQL数据库管理系统。
设计目标
系统具有高可扩展性:可通过增加节点线性
支持复杂数据类型统一存储管理:结构化数据、半结构化数据及非结构化数据;文本数据、多媒体数据;针对多种类型业务数据进行统一组织管理和处理
支持多样化的访问类型,访问接口标准化:检索、统计分析、关联处理及深入挖掘;需要对多种业务数据进行关联综合分析;提供标准的DDL、DML操作语法,支持JDBC、ODBC等操作接口;对数据检索、统计、分析处理的实时性要求很高;检索要求秒级响应;跨域检索访问
上图是整个系统的框架,其中数据库管理平台的结构如下:
其中,可以通过管理引擎实现跨越数据管理。对外可以提供相应的DDL接口、DML的接口以及开发接口。
系统主要特色
Share-Nothing的分布式存储和计算架构
异构多源数据的组织管理:实现了结构化数据、非结构化文本及非结构化多媒体的统一存储管理
支持异构数据的统一SQL查询:支持对于结构化数据、非结构化文本的检索和分析,该检索和分析操作都可以通过SQL进行实现
丰富的数据访问和处理模式
高效的检索机制
异构多副本存储和恢复机制
跨域数据管理和检索:支持跨域部署,可以在多个物理地点建立多个数据中心,在此之上可以支持数据在数据中心之间进行移动,并且可以支持对于位于不同地域的数据进行全局检索和访问
应用场景
海量结构化记录管理
处理海量小文档管理和处理
面向异构数据的智能搜索和挖掘系统
成功案例
王树鹏介绍说这个系统已经有了成功的应用案例,是国家某部委大数据管理项目。这个系统的主要需求是:
大量信息记录,每天产生约40亿条(约4TB);
数据保留备份副本,记录数据保留半年;
可对数据进行精确、模糊查询及统计,结果秒级响应;
可批量导入结构化、非结构化数据;
最终达到的实施效果是:
采用分布式存储架构(3个元数据节点+115个存储节点);
数据规模超过5000亿 ,查询响应时间为秒级;
数据保留2个副本,保证数据安全;
系统可用容量约2PB。