大数据处理两套解决方案-中国存储网

2015-11-23 10:52:46 来源：中存储网

传统的数据库在处理大数据时会显得性能十分低，所以需要分而治之。这个就是hadoop的精髓，小的数据量存在分布式的环境里，处理的的性能反而会降低。hadoop是面向至少TB,PB级的数据量，才能最大的发挥它的优势。

1TB = 1024G

1PB = 1024T

1EB = 1024P

因此，对于大数据处理两套解决方案

1、移动数据，把数据分发到多个计算节点进行计算；第一种是MPI，常用于科学计算

2、移动计算，将计算能力移到数据存储位置；Hadoop是第二种，

为什么移动计算能解决大数据处理问题？

因为hadoop的分块大小默认是64M，大数据可以充分的利用网络IO，否则hadoop的性能不能达到峰值。所以大家的思想就是hadoop在处理较大规模的数据时性能才是最理想的。

Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene的子项目 Nutch的一部分正式引入。

Hadoop 的最常见用法之一是 Web 搜索。虽然它不是惟一的软件框架应用程序，但作为一个并行数据处理引擎，它的表现非常突出。Hadoop 最有趣的方面之一是 Map and Reduce 流程，它受到 Google开发的启发。这个流程称为创建索引，它将 Web 爬行器检索到的文本 Web 页面作为输入，并且将这些页面上的单词的频率报告作为结果。然后可以在整个 Web 搜索过程中使用这个结果从已定义的搜索参数中识别内容。

继续阅读