/ 中存储网

大数据时代数据库的创新与发展

2014-12-24 18:59:04 来源:中存储

摘要:大数据时代的到来,使得传统数据库在处理百TB以上、特别是PB级数据的查询、统计、分析等应用时,遇到性能上的瓶颈。面对电信、金融、安全、政企等大数据量应用,包括电信话单、金融细帐、智能电网、经营分析、公安网监、舆情监控、审计稽查、应急指挥等,用户体验往往不可接受。海量数据的3V(数量Volume、速度Velocity、多样Variety)挑战着传统数据库曾经非常成功的“一种架构支持多类应用”的模式。互联网和大数据应用的冲击下,世界数据库格局在发生革命性的变化,通用数据库(OldSQL)一统天下变成了OldSQL、NewSQL、NoSQL共同支撑多类应用的局面。

大数据是信息化的一个崭新发展阶段,通过分析各种大数据,人类对知识的认知可以见微知著、集腋成裘、由此及彼,对世界的认知也将更全面、更深入、和更具前瞻性。自2011年5月,EMC和IDC在合作研究“数字宇宙”五年之后提出“大数据”概念以来,“大数据经济”的影响力愈发显著,谷歌、Facebook竞相超过微软,曾经的“软件为王”让位于“数据为王”。

可以预见,大数据时代将引发大量应用创新,比如,城市大数据应用将支撑智慧城市建设,还有智慧教育、智慧医疗、智慧交通、智慧金融等;

关键词:大数据时代,数据库;系统 ;创新 ;

引言:“大数据” ( big data) 或者称为“海量数据”,这个直白的名词,已经在全球引起了广泛关注,已经引领了又一轮数据技术的革命。

美国EMC 公司于2011 年5 月在美国拉斯维加斯举办第11 届 EMC World 大会,大会的核心是帮助企业利用IT变革的重要趋势。此次大会以“云计算相遇大数据( Cloud Meets Big Data)”为主题,着重展现当今两个最重要的技术趋势,正式抛出了“大数据”概念。

根据IDC《数字世界》研究项目在2012年的统计,2010年全球数字资源的规模首次突破了ZB(1ZB=1万亿GB)级别,达到了1.227ZB;而2005年只有130Eb,五年增长了10倍。如果保持这种爆炸式的增长速度,到了2020年,我们的数字资源规模将超过40ZB,相当于世界上每个人拥有超过5200GB的数据。无疑,我们已进入了大数据时代。

在 2011 年 12 月,我国工信部发布了物联网 “十二五”规划,提出了4项关键技术创新工程。信息处理技术的内容包括海量数据存储、数据挖掘、图像视频智能分析等,都是大数据技术的重要组成部分;另外 3 项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,这些也都与 “大数据”密切相关。我国也对大数据技术给与了足够的重视。

基于以上概述,大数据时代已经到来,已经对我们的社会产生了重大影响,本文将尝试对大数据时代我国的索引和数据库事业的发展与创新进行研究和展望。

大数据时代:

多权威机构和企业对大数据给予了不同的定义。麦肯锡认为,“大数据所涉及的数据集规模已经超过了传统数据库软件获取、存储、管理和分析的能力。”IBM公司认为,可以用3个特征相结合来定义大数据:数量(Volume)、种类(Variety)和速度(Velocity),即庞大容量、极快速度和种类丰富的数据。IDC认为,“大数据不是一个事物,而是一个跨多个信息技术领域的活动。大数据技术描述了新一代的技术和架构,其被设计用于通过使用高速(Velocity)的采集、发现或分析,从超大容量(Volume)的多样(Variety)数据中经济地提取价值(Value)。”

综合对种不同的见解,本文认为,具备以下特征的就是大数据。

(1)数量大( Volume) 。大数据所包含的数据量很大,而且在急剧增长之中。但是,可供使用的数据量在不断增长的同时,可处理、理解和分析的数据比例却不断下降。

(2)种类多( Variety) 。随着技术的发展,数据源不断增多,数据的类型也不断增加。不仅包含传统的关系型数据,还包含来自网页、互联网、搜索索引、论坛、电子邮件、传感器数据等原始的、半结构化和非结构化数据。

(3)速度快( Velocity) 。除了收集数据的数量和种类发生变化,生成和需要处理数据的速度也在变化。数据流动的速度在加快,要有效的处理大数据,需要在数据变化的过程中实时地对其进行分析,而不是滞后的进行处理。

(4)价值量( Value)。在信息时代,信息具有很重要的商业价值。但是,信息具有生命周期,数据的价值会随时间快速减少。另外,大数据数量庞大,种类繁多,变化也快,数据的价值密度很低,如何从中尽快的分析得出有价值的数据非常重要。对海量的数据进行挖掘分析,这也是大数据分析的难点。

(5)真实性(Veracity)。这是一个衍生特征。真实有效的数据才具有意义。随着新数据源的增加,信息量的爆炸式增长,我们很难对数据的真实性和安全性进行控制,因此需要对大数据进行有效的信息治理。

大数据在结构类型上也有其特点:大多数的大数据都是半结构化或非结构化的。半结构化的数据是指具有一定的结构性并可被解析或者通过使用工具可以使之格式化的数据,如包含不一致的数据之和格式的员工薪酬数据。非结构化的数据是指没有固定结构,通常无法直接知道其内容,保存为不同类型文件的数据,如各种图像、视频文件。根据目前大数据的发展状况,未来数据增长的绝大部分将是半结构化或非结构化的数据。

大数据时代的到来:

(1)大数据时代的到来

理论的提出:2008年,《Nature》杂志出版一期专刊专门讨论未来的大数据(Big Data)处理相关的一系列技术问题和挑战。

现实的节点:2007 人类创造的信息量有史以来第一次在理论上超过可用存储空间总量的一年。

(2)大数据时代到来的原因:

首先,信息技术和计算机网络技术的发展,为大数据时代的到来奠定了坚实的技术基础。各种技术的发展,使得数据的产生、来源、类型变得越来越多,由此产生出了的数目庞大且不断急剧增长的非结构化数据、半结构化数据,整个社会发展进入到了大数据时代。

其次,大量智能终端的广泛应用与网络应用的不断增长,为大数据时代的到来奠定了坚实的物质基础。通过互联网和社交网络,数码相机等工具,每个人的日常生活正在被数字化,人们可以随时方便的根据自己的需要,产生大量的非结构化数据、半结构化数据。特别是智能手机和笔记本电脑的普及,是当前数据量爆炸增长的一个重要原因。

最后,信息社会的快速建立,信息成为越来越重要的经济资源,也是大数据时代到来的重要原因。在信息时代,数据已经成为社会资源的重要部分,基于数据的处理、分析、挖掘等服务都被信息服务机构广泛应用和开展,信息的经济价值越来越大,对数据的重视程度越来越高,由此也产生了大量的数据。

(3)大数据时代的到来,必定会对索引和数据库事业也产生了重大影响,本文将论述大数据为索引和数据库带来的机遇和挑战,探讨大数据时代索引和数据库事业的发展与创新,以引起业界学者对相关问题的关注与探讨。

大数据对于索引和数据库事业而言,既是巨大的机遇,又是巨大的挑战。面对海量的种类繁多的半结构化和非结构化数据,从中迅速的进行分析,找出有效的价值,这一方面具有重大的经济价值,另一方面也要求我们必须改进现有的技术,使用新方法来从数据中提取价值。

在大数据时代,对索引和数据库事业的创新提出了如下的重大挑战:

(1)理念更新。大数据带来的是一种全新的模式,索引和数据库的观念也要跟随变化,以适应时代的需要。同时要更加注重商业思维,充分利用大数据,获取经济价值。

(2)及时有效。大叔据时代的数据产生迅速,数据的价值生命周期却很短暂,如何能够及时有效的从数据中发现商机并付诸行动才能获取价值。

(3)集成分析。如果将分析集成到与数据所面临的环境中,将加快信息分析的速度,使分析结果能够更快的实现可操作化。

(4)可扩展。面对大数据必须采取新方法来处理数据,要实现从规模较小的数据集到大规模数据集的分析,因为我们不能控制所面临的数据源产生数据的规模。

大数据时代数据库的创新与发展:

目前,大数据时代的索引和数据库事业已经创造出了很多重要的基础性的新技术,如下:

(1)云计算(cloud computing)。

云计算是在分布式处理、并行处理和网格计算等技术的基础上发展起来的,是一种新兴的共享基础架构的方法。它可以自我维护和管理庞大的虚拟计算资源(包括计算服务器、存储服务器、宽带资源等等),为我们提供了跨地域、高可靠、按需付费、快速部署的能力。甚至可以说,云数据库是数据库技术的未来发展方向。

云数据库具有以下特性:动态可扩展,理论上,云数据库具有无限可扩展性;高可用性,不存在单点失效问题;较低使用代价,可以实现按需付费;可以大规模并行处理。

云计算和大数据之间关联非常紧密,大数据为云计算提供了应用空间,云计算为大数据提供了处理工具。

(2)虚拟化(virtualization)。

虚拟化技术是云计算所有要素中最重要的部分,主要包括计算虚拟化、存储虚拟化和网络虚拟化。

利用虚拟化技术可以在一台主机上运行多台虚拟计算机,允许很多用户共享一台高性能设备的使用,可以极大的节约成本,也为云计算的实现奠定了技术基础。

(3)数据存储。

大数据的特征,需要新的数据存储技术和数据存储工具来满足。

目前已经出现了一些新型的大数据存储系统,具有以下特点:大容量、高可靠性、高可用性、高性能、高安全、高度自治、高成本、访问接口的多样化。因此,具有优秀可扩展能力的分布式存储成为大数据存储的主流架构方式。

大数据存储还需解决一些问题:如何对数据进行去重;如何更好地实现分层存储;如何解决数据的安全性问题等。

(4)数据分析。

大叔据时代的数据分析需要满足及时有效的要求,既要能处理高速的数据,又要能够实现实时的分析。目前产生了一些新型的在线事务处理系统,如NoSQL方案和NewSQL方案。NoSQL方案通过消除SQL的语言查询来实现性能的提高和扩展性的增加。有以下特征:不需要预定的模式;没有共享架构;具有弹性可扩展性;可对数据进行分区处理;能够异步复制等。常用的产品有HBase、MongoDB等。NewSQL方案是既能保留SQL查询的方便性,又能提供高性能和高扩展性的新型数据分析工具,是一种新型的关系数据库管理系统。常见的系统有Google Spanner、Clustrix、VoltDB等。

对大数据进行处理,目前有两大主流的方向:一个是MPP数据库(大规模并行数据库)为首的并列关系数据库方向,一个是以MapReduce为首的分布式NoSQL方向。除此之外,流数据管理也是大数据处理分析的一种解决方案。

为了成功的实现对大数据的分析,还要建立具有敏捷的计算平台,线性扩展能力,全方位、协作性用户体验的大数据分析平台,还需要聚类分析等高级的分析理论和方法以及方便易用的数据可视化技术。

(5)信息索引技术。

当前硬、软件环境越来越好,从而为索引技术向智能化、多语种化、索引手段的自动化提供了物质条件,使搜索引擎向高层次发展成为可能。目前在搜索引擎智能化、用户接口的多语种化、索引手段的自动化等方面已取得了一定的成果。

结语:大数据时代的到来,数据库事业带来了巨大的冲击,提出了新的要求,必然会给用户提供更高水平的服务。数据库事业的发展也会推向一个新阶段。