21世纪是一个数字化、网络化、信息化的时代,全球各种信息数据在飞速的增长,这让数据中心Data Center不堪负重,所以这几年各地都是着力建设大型数据中心Data Center,并对原有的数据中心Data Center不断进行扩容,提升数据中心Data Center的带宽以及数据处理能力。然而,数据量的增长比我们预计的还要快,从2005年到2011年,全球数据量增长了8倍,达到了千万亿兆的数据量,未来数据量仍将持续高速增长,每两年就会翻一翻,预计到2020年,全球的数据量将达到35ZB,这是什么概念呢?假设用4TB的硬盘来存放这些数据,则需要80亿块。这还仅仅是存储数据量,还没有包括一部分计算处理过程中的数据,访问的数据以及临时生成的数据等等。为了满足这些数据计算、传输、访问等需求,数据中心Data Center就要不断地进行扩容,甚至建设新的更大的数据中心Data Center,好不容易建设好的数据中心Data Center却也仅能满足二三年的数据处理需求,还得不断地扩容,这也是全球一片数据中心Data Center建设热潮产生的根本原因,因为有越来越多的数据需要处理。
海量数据运算、存储及交换是数据中心Data Center所需的三大核心功能,数据中心Data Center需要不断地增加服务器和存储设备的数量,扩大网络带宽,从而满足海量数据运算的需求。现在32核服务器技术成熟、40G/100G网络设备也已经普及,这些为提升数据中心Data Center的处理能力提供了技术基础。在目前的技术发展水平来看,假设数据中心Data Center需要更多的计算能力或者网络带宽,则只能通过增加设备的数量,并行运行来提升整体的数据处理能力,因为再高的64核技术仍不成熟,400G的网络标准还没出炉,这样扩大数据中心Data Center占地面积,增加设备数量是目前唯一提升数据中心Data Center处理能力的方法。正是基于此,数据中心Data Center被建设得越来越庞大,拥有上万台服务器的数据中心Data Center已经变得屡见不鲜,这些庞然大物消耗了大量地球上各种宝贵的资源,产生了一系列新的问题。为了应对这个信息大爆炸的时代,数据中心Data Center真的仅有扩容这一招了吗?答案是否定的,依然有很多其他的技术方法可以改善大量数据处理的问题。下面就介绍几种:
减少重复、垃圾、临时数据传输
其实不难想象,尽管全球的数据量在高速增长,但实际上其中重复数据占据了很大份额。比如:我们要在网络上看一个在线电影,后台实际上是在我们和数据中心Data Center之间建立了一个网络连接,然后将电影拷贝到了本地电脑的内部缓存中,进行实时下载与播放,假设同时有一万人在观看,那么要消耗大量的网络宽带资源,而实际上为了加快访问的速度,数据中心Data Center在很多地方都有分中心,电影会复制到距离访问用户最近的数据中心Data Center,这样就可以节省网络带宽资源,不过消耗了数据中心Data Center的存储资源,这些保存在各个分中心的数据就是重复数据。我们经常将各种数据拷贝到本地保留,或者放在自己的油箱或者私有云中,这样占据了大量的存储空间,这些重复数据占据着大量的存储资源。从技术上来将,可以将这些数据采用索引的方式进行保存,比如当我们从某个论坛复制了一个文件保存到自己的网络云盘中时,后台只将这个文件的关键索引进行复制,保存到云盘中,这样可以大大节省存储空间。当要访问时,通过实时网络传输的方式打开,这可以大大节能存储空间,不过对网络带宽的要求要高些。在这些数据中还有很多垃圾数据,我们经常说手机又收到了垃圾短信,电脑里有大量无用的信息,这些都是垃圾数据,不过却占用了大量的存储空间,个人使用的存储设备要经常进行删除,更新,对于数据中心Data Center就是要经常检查那些不被访问的数据,要及时清除,访问量低的数据要限制其访问带宽,将资源预留给其它数据。服务器的回收站、网络设备的Flash都要周期性地进行清理。数据中心Data Center要完成网页访问、视频播放、计算、存储等各种各样的业务功能,在这个过程中也会产生很多临时数据,这些临时数据若不能及时清楚,也会占用数据中心Data Center的网络带宽和存储资源。对数据中心Data Center的数据进行有效区分与管理,区别对待,就能有效提升数据中心Data Center的处理能力,减缓数据中心Data Center资源的枯竭。
用高效报文协议替代TCP
TCP/IP协议是数据中心Data Center网络的技术标准,为了将一个文件从一个服务器传输到另外的服务器上,需要通过TCP/IP协议来进行传输,其将一个文件分割成了若干个报文,而报文的格式就是TCP/IP协议所定义的。因为我们将一个文件分割成报文后,需要增加报文头,否则网络设备不知道这个报文要传输到哪里。报文头里定义了这个报文的转发路径,以便收到这个报文的所有网络设备都知道要将这个报文送到哪里。这样问题就来了,一个报文的头就要40字节左右,而假设是传输的一个报文内容仅有20字节,报文头的内容都比内容多,报文的长度规定是64字节~1536字节。这样对于小字节的报文,网络开销就非常大,可能一多半传输的都是报文的头部内容,因此缩减报文头部长度,减少网络开销也是一个方法。比如对于具体业务,可以改四层TCP传输为二层MAC传输,直接将报文头部内容减少两层,现在提倡数据中心Data Center建设大二层的网络,也是考虑了报文长度开销问题的。采用MPLS VPN转发替代传输的TCP四层转发,这样的好处是MPLS VPN采用标签转发,不再关心IP头和TCP头的内容,转发效率高。不过这种方式也增加了报文的长度,会多4字节的标签长度,和提升转发效率相比,增加这4个字节标签长度是值得的。TCP协议的特点是可靠传输,有确认机制来保证报文的完整,这样在数据传输时,就需要先建立TCP连接,传输过程中有丢包,还要重传,这样的实现机制使得数据转发的吞吐量会受到限制,在存在网络丢包时,传输的机制就加重网络拥塞(因为要反复重传报文),每个报文来回都要有确认机制,这都大大增加了网络开销,因此在数据中心Data Center急需出现针对TCP传输的替代解决方案。因此,这几年也出现了VXLAN大二层技术、MPLS技术等替代解决方案,也有有些考虑更改TCP协议参数或者拥塞控制算法、优化应用层数据传输模式、增加交换机缓冲区和使交换机支持显式拥塞标记等办法来解决TCP协议的问题,从而提升数据中心Data Center网络带宽处理能力。
需要高效的压缩技术
视频数据是消耗网络带宽的最大元凶,视频数据量非常大,若是同时传输很快就会将网络带宽占满,因此急需一部分高效的压缩算法,减少传输过程中的数据量,尤其对于现有的高清数据,压缩算法尤为重要,一个1G的电影,若能通过压缩,传输只需要500M,那么就能节能一半的网络带宽,而视频数据也是最容易通过压缩算法实现数据量大幅减少的。
以上介绍了很多关于从数据特征上来减轻数据中心Data Center网络负载的方法,很多方法实用而且简单,值得在数据中心Data Center中推广,减缓数据中心Data Center建设的速度。数据中心Data Center建设晚一点,产生的效益就会多一点,相信任何人都能够算清楚这笔帐,通过提升数据中心Data Center网络带宽的软实力,将可为数据中心Data Center带来获益。