为创建企业第一个数据仓库?,该从何处下手呢?
由于管理部门给你的预算施加了不小的压力,你可能会首先考虑如何选择实施数据仓库的硬件和软件,但这不是实施数据仓库项目的正确步骤。好的开始是成功的一半,作为实施数据仓库的第一步,你应该先问问自己为什么要实施数据仓库。
为什么要实施数据仓库
数据仓库首要的任务就是建立可获取和可操作的数据,并建立便捷高效的数据查询,以使管理部门得到所需业务问题的答案。因此,建立数据仓库的第一步工作就是确定什么样的信息是企业最需要的。管理部门最想知道的是什么?最重要的业务问题是什么?
为了确定这些问题的答案,你应该做一些实际的调查工作。但是应该向谁做调查呢,调查时又该问些什么问题呢?就我看来,调查的对象可以归结为两类人群:一类是存有问题的人,另一类是掌握数据的人。这看起来可能不是很容易理解,那么我们就先从第一类人,也就是存有问题的人着手开始我们的讨论。
存有问题的人
存有问题的人,也可以说是需要数据的人,他们一般都处于企业的管理阶层,当然这也并不绝对。对你来说,如果想要顺利的进行调查,就应该从你能接触到的各个部门的最高层开始,然后逐渐向下展开。第一个要调查的对象就是那个任命你实施数据仓库项目的领导,问清楚为什么要让你创建数据仓库,这是他自己的主意还是企业更高层的安排?
以上的问题并不需要浪费你很长时间,而且询问之后你就可以对从何处下手胸有成竹了。下面所要做的,就是列出你需要被访者回答的问题。也许你觉得一开始应该问"你想从数据仓库中得到什么?",可这并不是个好问题,因为被访问者大部分都对数据仓库知之甚少,你冒然问他想从数据仓库中得到什么好处,自然不会得到有价值的答案。
正确的问题应该是"你对现在的业务还存有什么无法解决的问题吗,或者你认为现在的业务中最难解决的问题是什么?",另外你也可以这样问"对你来说最重要的信息是什么,并告诉我为什么认为这些信息最重要。"这些问题的答案会让你体会到什么数据才是目前对企业来说最有意义的数据。
掌握数据的人
一旦你明确了何种信息是重要的,你就可以开始面对那些最了解数据的人了。一般情况下,这类人是企业的DBA,但也并不绝对。有些部门有针对某个领域的数据专家,他们对自己所接触的数据非常了解。他们会告诉你对于之前你通过访问得来的各种问题,数据库中是否有足够的信息用以解决,以及这些数据的格式是什么样子的。从中你会了解到数据源的数量和质量。
很明显,在你不能获取保密数据的情况下,你的第一个数据仓库应该首先关注那些可以方便获取并具有较高质量的数据源,这样可以提高项目的成功机会。现在,你拥有了所需的信息,并且知道它是准确并可以获取的,下一步就要决定如何将这些数据放进数据仓库以及要采用何种数据格式。
设计数据仓库
现在我们进入了数据仓库项目的设计/架构阶段。如果你已经总结好了数据仓库的实施目的,并且详细了解了数据源的结构,那么这个阶段对你来说就轻松了很多。相反,如果你在这个阶段还没有明确的需求目标,而且对数据源也不是很清楚,那么这个阶段对你来说就变的相当复杂,并且会使整个项目陷入危机。
设计阶段可以分成两个部分,你可以同时进行也可以依次进行,这完全取决于时间压力:
设计数据仓库的数据库、提取层和简报层
确定技术结构、产品控制、测试和认证,以及最终用户的培训等。
你所设计的数据仓库类型以及计划使用的实现工具,都会影响到这两部分。
数据仓库类型包括:
关系型联机分析处理 (ROLAP)
多维型联机分析处理 (MOLAP)
混合型联机分析处理 (HOLAP)
数据仓库的实际设计工作远比这篇文章所说的要复杂。不过也有很多可用资源可以帮助你走好实施数据仓库的第一步。我建议你将预算的一部分用在聘用数据仓库实施专家上。
寻求外援
较谨慎的方法是在企业内部寻求帮助,但由于这是企业的第一个数据仓库项目,在你周围经验丰富的人员不会很多,因此最好还是从外面聘请几个数据仓库专家来帮助你,并且在这个领域具有专业知识的顾问数量也不少。
事实上,每个数据仓库都是不同的。对数据仓库的管理需求和数据源质量,都存有太多的变化。因此你要确定你所聘请的技术顾问针对你的项目必须完全能给予技术支援。另外,除非你的数据仓库非常小,否则你现有的数据库团队肯定无法承受明显增加的工作量。因此你要调整团队的成员数量以应付额外的工作。
最后,你要做好重新设计并创建数据仓库的准备。为什么呢?因为数据仓库项目是一个循环的过程,你的公司不可能停滞不前,为了适应公司的发展,数据仓库必须作出相应调整。而公司业务的发展所带来的可能是不同的业务需求,或者是不同的数据源,因此你又要回到本文开始的地方从头来过。