数据越来越大、数据越来越多,这给数据的管理带来了极大的难度,仅通过“堆硬件”的方式,无法彻底解决爆发式数据增长的问题。深圳潮数软件科技有限公司(以下简称“潮数科技”)推出的“数据安全一体化”系列产品从软硬入手,提供了高速硬件、KFS文件系统、PB级分布式存储、小文件优化、重删、压缩数据处理等解决方案,能够保证用户利用最少的资源和花费实现数据安全。
数据越来越多 越来越大 仅靠“堆硬件”难解决问题 从2015年到2025年,中国数据以14倍的速度扩张。2017年全年数据总量超过15.2ZB,同比增长35.7%。2018年全球数量总量达19.4ZB,未来几年全球数据的增长速度在每年25%以上。2018年至2025年中国数据以30%的年平均增长速度领先全球,比全球高5%,2025年将增至48.6ZB,占全球27.8%。
正是因为数据越来越多、越来越大、越来越快,因此很多组织采用了增加存储空间和升级硬件来解决这一问题。但是这只能解决一时的问题,并不能彻底地解决问题。 IT界拥有三大鼎鼎大名的定律,其中之一就是“安迪-比尔定律”。 IT界总结出了安迪-比尔定律,即比尔要拿走安迪所给的(What Andy gives,Bill takes away.)。安迪指的是英特尔公司前CEO安迪·格罗夫(Andy Grove);比尔指的是微软公司创始人比尔·盖茨。所以其内涵是:软件方面做出更新迭代带来利润,硬件也同样得到刺激进行更新迭代。
即计算机工业是由软件更新带动硬件更新的。软件的开发和发展,令使用软件的设备需要更高的性能和速度,从而推动了硬件技术的不断更新和升级。就是说,软件系统的更新迭代从很大程度上影响着硬件的更新迭代。 正是数据推动了硬件的发展,比如更大的存储空间、更快的存储速度、不同的存储架构、更快的传输速度等。 但是仅靠“堆硬件”的方式,难以应对数据越来越多、越来越大的问题,应该从多个方面入手,才能彻底地解决这一行业难题。 数据安全一体 软硬结合解决大数据难题 潮数的“数据安全一体化”产品,软硬结合,针对数据越来越大、越来越多、越来越快的问题,提供了全新、全面的解决方案。 1.提供了万兆网卡 万兆网卡,即支持10Gbps的网卡,在一般家庭里可能不一定用得上,现在很多家庭的以太网卡用的还是100Mbps,最多只是1000Mbps,即1Gbps的,但并没有用上万兆网卡。因为很多主板并没有默认提供,往往要通过PCI-E插槽来实现转接,同时价格也较贵。 但是对于企业或组织来说,万兆网卡是必须的,潮数科技产品提供了万兆网卡的支持。有了万兆网卡,可以使得数据在内部网的传输速度达到1250MB/s,即1.25GB/s,能够大大地解决数据交换、备份、管理等问题。 2.采用固态硬盘做引导或缓存 潮数科技的产品支持采用固态硬盘来做引导盘,并且支持更多的操盘系统。由于固态硬盘(Solid State Drives),由控制单元和存储单元(FLASH芯片、DRAM芯片)组成,不仅低功耗高性能,而且它的读取及写入速度非常快。 固态硬盘由于没有机械硬盘的磁头,数据读取延迟非常小,把操作系统安装到固态硬盘上,不仅能够提升开机的速度,也使得整体系统变得很快,包括在其上的所有应用操作也变得很快(数据的备份等)。 同时,潮数科技的产品还支持用固态硬盘来做缓存,这也将大大加快系统的速度。而且,固态硬盘的价格相较于内存要便宜了很多,这也能够节省很多的系统预算。 3.KFS文件系统+PB级分布式存储 潮数云存储管理系统支持KFS文件系统,并支持PB级分布式存储。KFS,全称Kosmos distributed file system,是一个分布式文件系统,被设计用于分布式的结构化存储。同时,也是一个专门为数据密集型应用(搜索引擎、数据挖掘等)而设计的存储系统,类似于Google的GFS(Google File System)和Hadoop的HDFS(Hadoop File System)分布式文件系统。 KFS文件系统由三部分组成,分别是metaserver(相当于GFS master)、chunkserver(相当于GFS chunkserver)和client library(相当于GFS client)。 其中metaserver,即元数据服务器,主要用于B+树存储分布式文件系统的全局文件系统命名空间,一个KFS中仅有一个metaserver;其中chunkserver,是一个大文件被切分成许多固定大小的文件块block,文件块block被以chunk的方式存储在独立的chunkserver上,每个 chunkserver上可能存不同文件的block,一个block会被存在不同的chunkserver上(默认为3份);在一个KFS中,有一系列 的chunkserver,chunkserver将chunk存储在底层的文件系统(如Linux的XFS、EXT2);而client library,用于提供文件系统访问的API,使应用可以通过接口操纵KFS;在将实际的应用和KFS集成起来时,需要在应用中包含KFS的客户端库文件。 KFS文件系统初期是用于大型的互联网公司的搜索引擎、数据挖掘,而被应用于潮数云文档管理系统用于文档的管理,可见其功能之强硬。
同时,潮数云存储管理系统支持PB级的分布式存储,1PB=1024TB=1048576GB,支持海量存储,支持局域网及广域网的分布式存储与访问,不依赖高昂的硬件设施,具有文件容灾备份和CDN加速技术,支持高并发、高IO吞吐量等多种高级功能,扩展属性优秀,适用于大中型企业海量文件服务。 小知识 数据的量 数据越来越大,但是要清晰地认识数据的“大”与“小”、“多”与“少”,必须依赖于数据的量。数据的计量单位如下:1B (Byte 字节)=8b (bit 位);1KB (Kilobyte 千字节)=1024B;1MB (Megabyte 兆字节 简称“兆”)=1024KB;1GB (Gigabyte 吉字节 又称“千兆”)=1024MB;1TB (Trillionbyte 万亿字节 太字节)=1024GB;1PB(Petabyte 千万亿字节 拍字节)=1024TB;1EB(Exabyte 百亿亿字节 艾字节)=1024PB;1ZB (Zettabyte 十万亿亿字节 泽字节)= 1024 EB;1YB (Yottabyte 一亿亿亿字节 尧字节)= 1024 ZB。 4.小文件优化 针对海量文件备份的难点在于海量小文件备份重复数据块检索,导致磁盘iO资源被大量占用,且数据传输无法达到带宽极限的问题,潮数的云文档管理系统可以避免重复检索数据块,能在不做磁盘检索的情况下把该卷要备份的数据通通备份出来,大大加快了海量小文件的备份速度。 5.数据重删 现如今,存储空间变得越来越大,数据和文件也越来越多。但很多时候,存储空间里往往充满了重复文件,手工删除十分费劲。当我们在企业或组织里对这些数据进行备份时,会占用很多存储空间,也会消耗很大的带宽和更多的硬件资源。重复数据的删除将是企业的信息主管们的必修课,可以真正减轻自己的工作量,提升工作效率,也能够减少企业的开销。 潮数的备份系统在备份数据的同时,能够做到自动删除重复的数据,并支持重删类型,大大节省存储空间,在传输的时候也能够节省带宽。
6.数据压缩 数据如果没有做过任何的压缩处理,也不支持多种压缩算法,在数据存储或备份时则会需要更多的存储设备和存储空间,需要更多花费,同时数据大、数据多,使得数据传输,尤其是远程传输需要更大的带宽和更多的时间。 潮数的备份系统在备份数据的同时,能够做到自动压缩数据,并且支持不同的压缩级别,能很好地节省存储空间和传输消耗。