/ 中存储网

Hadoop与大数据不脱轨的十大秘诀

2014-04-29 00:00:00 来源:中存储

世界各地企业如今都在使用云服务,实施大数据分析驱动生态系统,对于IT经理和C级高管而言,保持进步是非常重要的。跟不上发展的速度,意味着失去客户的风险。它是企业生态链最基本的法则:适应还是被吃掉。IT系统帮助企业分析存储系统收集的数据,这非常有利的。但这是说起来容易做起来难,因为建立一个新系统或改造旧系统有很多事情需要考虑。管理层要求系统运行在最佳性能以获得投资正回报。以下是大数据/Hadoop项目10大不脱轨秘诀。

  弄清楚你试图解决的问题

如果你不知道你想用它做什么,就不要使用你的数据。有了这样的认识,你就可以确保公司在正确方向上。尽早规划和坚持你的计划。

Hadoop与大数据

  定义你的业务问题

问题包括目标受众,如何做到最好,如何扩大市场范围,如何有效控制成本,以及如何以最积极的方式让客户参与和交流。这涉及不同类别的数据。发现什么问题确实存在至关重要,可以让企业理解和解决问题以进行改善。

Hadoop与大数据

  专注最重要问题第一

这并不容易,因为所有问题从各自角度都是最重要的。划分优先级并保持专注。问题会发展会有新问题出现。

Hadoop与大数据

 得到那些?知道他们在做什么的人的帮助

你需要一个技术专家,他知道该项目的来龙去脉,以及如何解决问题的办法。如果你的技术专家不精通业务层面,找一个知道商业模式、财务状况、产品或服务,以及如何将这一切关联在一起的人。

Hadoop与大数据

 知道你的数据分布在哪里

如果你使用数据分析指导销售,你需要着力于用户行为、产品查看、点击率和推介网站等。.如果你想简化供应链,你可以肯定需要关注原材料、供应商关键绩效指标、提单、仓储、甚至司机效率等数据。知道这些将帮助弄醒出你究竟有多少数据。

Hadoop与大数据

  投资于了解数据

数据在哪里,哪些数据是从哪儿来的?处理这种情况最好的方法就是关注数据分析过程。此外,预期中的架构更改和计划,让系统能够处理它们。如果能在开始时就确定问题的范畴,处理起来将不太困难,花费时间较少,而不是等到??系统建立起来。

Hadoop与大数据

  存储数据

一旦你知道数据来源以及未来会有多少潜在数据,你就会知道如何存储这些数据。数据增长也许不如预期中那么多,所以你并不需要可扩展性。也许你每天收集大量的数据,基于云计算最大的可扩展性也许是要走的路。

Hadoop与大数据

  处理数据

什么需要被分析?结构化数据,如日志文件;半结构化数据,如电子邮件或tweet数据;或非结构化数据,如卫星数据;还是上述所有类型的数据?如果你打算处理是结构化数据,那么SQL Server就是好的选择;但如果你要处理非结构化数据,或者其他类型的数据,Hadoop可能是最有效解决方案。

Hadoop与大数据

  数据损坏和数据错误

无论是由于人为错误或Bug引起的错误,你将有坏数据。对此要有前期计划,这将避免未来为之而头痛。仔细查看重复数据删除、数据精梳和其他质量保证软件。

Hadoop与大数据

  设计与实施

这通常是一个主要的绊脚石。需要做好人事或财务决策。例如使用Hadoop,如果训练有素人力资源备用,你就会减少相关费用支出。如果没有人具备所需要的技能,他们需要学习它。但如果甩开了他们当前的任务,进行程序员培训,或者外包不是一种选择,那么软件即服务(SaaS)可能是最好的选择。

Hadoop与大数据

猜您喜欢:

1.Hadoop:Windows 7 32 Bit 编译与运行

2.Hadoop 2.3.0解决了哪些问题

3.基于Hadoop的大数据企业前十大集合