Loading
0

数据仓库和BI项目中常见的四大错误,如何避免?

数据仓库(DW)商业智能(BI)项目是许多组织的重中之重,他们希望在整个企业中赋予更多、更好的数据驱动决策和行动。这些集团希望扩大其数据发现、BI和分析的用户群,以便其业务用户做出明智的决策。同时,用户要求高质量的、往往是复杂的BI报告。

数据仓库项目是高度复杂的,从根本上讲是有风险的。在众多任务中,领导数据仓库团队的项目经理必须识别所有数据质量风险。这个过程的主要目标是记录与项目风险有关的基本信息。本文主要介绍如何避免其他数据仓库和BI项目所经历的以下四个常见错误,以便成功规划和实施新功能和能力。

未能在项目早期引入质量保证

在数据仓库/BI项目的初始阶段,重点往往是BI需求和数据相关的需求,以构建业务数据存储、企业数据仓库和应用报告基础设施。不知为何,端到端DW项目测试和数据质量的重要性往往被忽视。对于数据质量,人们总是赞赏有加。不过,随着数据仓库需求和设计的进展,对数据建模、数据采集和ETL设计的过度关注可能会导致团队失去对数据质量的关注。最终,会出现这样的问:

"目标数据与来源不一致。"
"重复的数据很多。"
"汇总和报告钻取不正确。"

最终,数据仓库的成功高度依赖于规划、设计和执行一系列测试的能力,这些测试能够暴露早期和持续的问题:数据不一致、数据质量、数据安全、ETL流程、性能、业务流准确性和最终用户体验等问题。


许多数据仓库团队在开发新软件时,都在争论何时开始测试。对于大多数DW项目来说,软件测试应该在设计和需求确定后立即开始。早期开始QA可以提供几个优势,提高软件测试的整体效率。QA在项目开始时的参与使测试人员能够了解他们将要测试的产品和业务规则,从而提高整个项目的效率。他们很可能会设计出更好的测试计划和测试用例。

在设计和需求阶段,测试人员可以与开发人员合作,确定设计的哪些方面是可以测试的,哪些方面的风险较大。这些知识将有助于防止测试错误,并使测试人员更好地设计测试用例和识别缺陷。

实施一个成功的数据仓库项目是具有挑战性的。它需要平衡许多因素,如强大的业务参与、全面的数据分析、可扩展的系统、数据架构、全面的计划、数据治理、高质量的数据、使用既定的标准和流程、出色的沟通和项目管理。

在加载到数据仓库之前,未能充分描述和验证源数据

分析师的研究一直表明,超过75%的数据仓库和数据集成项目团队要么超期,要么超预算,要么以其他方式遭遇项目失败。为什么失败率这么高?

源数据质量不足是各种数据仓库项目失败的根本原因。在前期对所有源数据进行剖析和验证可以产生显著的效益。

数据仓库项目的传统方法遵循这些基本步骤。

  • 分析业务,用户和项目的技术要求。
  • 分析可用的内部和外部数据源。
  • 从遗留系统、业务系统和外部来源中识别和分析一组数据源,以确定它们与目标数据库要求的相关性。

在开始设计目标数据仓库之前,假设知道你的源数据可能是愚蠢的。传统的数据集成方法的主要弱点是,它假设应用程序所需的数据完全可以从数据源中获得。大型企业在数据集成项目上花费了数百万美元,后来才知道源数据不支持目标模型。

应该对每个数据源进行数据剖析:实施表分析、行和列分析、主键和外键评估以及跨表分析。还应考虑对源数据进行剖析,以发现最小值、最大值、平均值、模式、百分比和重复值--甚至剖析元数据,如数据类型、数据长度、空值和字符串模式。

对测试自动化重视不够

随着数据仓库DevOps的出现,企业发布新应用的速度比以往任何时候都要快--有时是按需发布,有时是一天发布多次。然而,众多企业仍然在使用手动ETL测试流程来测试高度可见或面向客户的应用程序。这就转化为对客户忠诚度、品牌、机密数据的风险,甚至更糟。即使有新的自动化工具进入市场,今天的ETL和数据剖析测试仍然主要通过手动测试来完成。

自动化ETL测试可以在没有太多用户干预的情况下进行频繁的烟雾和回归测试。在每个新的数据库构建后,对可信代码进行自动测试,可以节省可衡量的时间和成本。

实施数据仓库测试自动化工具的决定取决于支持额外支出以满足高级测试要求的预算。如果认为实施供应商提供的测试自动化成本过高,则必须考虑在内部构建和维护的测试工具,因为它们很可能比完全没有测试自动化具有更显著的优势。

在开发测试自动化的方案时,评估你的整套测试方案,根据风险和价值(ROI)确定自动化的最佳候选方案。哪种类型的缺陷会导致你停止集成或部署?哪些类型的测试会行使关键的核心功能?哪些测试覆盖了应用程序中历史上已知会失败的区域?哪些测试提供了管道中其他测试尚未覆盖的信息?

最终,测试自动化节省了时间和金钱,更重要的是,业务用户将欣赏BI交付品的质量,并接受来自数据平台解决方案的数据为 "事实的单一版本"。

实施有缺陷的项目变更管理控制

在任何数据仓库项目中,变化是不变的。无论哪个行业,最终都会出现新的需求和其他变化。持续改进的动力和新的数据仓库要求通常会引发项目范围或交付物的变化。

变更管理是数据仓库计划成功的一个重要组成部分,但全面的变更管理有多少次被最小化了?根据Forrester的2014年第一季度全球BI成熟度调查,完全有一半的受访者认为,他们基于新数据仓库数据和功能的变更管理流程没有很好地建立起来,而且运作不顺畅。

测试人员需要参考所有变更中涉及的关键文档--如业务需求、设计和技术规范、数据映射文档、ETL作业流程等文档。识别这些文档并将其与整个变更管理流程联系起来,以及准备测试计划的能力对于有效的质量保证是至关重要的。

qlik界面视图

BI 计划的变更通常来自多个来源,包括业务所有者或其他利益相关者的请求和源系统变更的影响。QA 团队应该参与变更的记录、管理、优先级排序和更新,然后应该确保所有的变更得到验证。如果你的组织已经有了一个变更跟踪工具,那么利用它是一个好主意。

数据仓库和商业智能/分析项目倾向于为技术和实施做预算,但变更管理和上线后的采用活动往往资金不足,甚至完全被忽视。良好的变更管理有助于从一开始就进行沟通,激励用户从抵触到接受,甚至是兴奋--增加购买力,并极大地促进新功能的成功采用。

Gartner集团CIO研究组的研究总监Patrick Meehan指出,大多数失败的数据仓库/BI(和DM/A)项目都是由于管理层和IT团队之间对新的和不断变化的需求沟通不畅而导致延迟或超出预算。你的组织正在推出一个数据仓库项目时,如果变革管理是该计划的一个组成部分,那么成功的机会就会大大增加。

最后

这里描述的错误集中在帮助组织回避许多其他数据仓库项目所遇到的QA问题。提供的技巧将有助于确保数据仓库团队计划和实施新功能时的满意度。这些久经考验的建议可以节省大量金钱,时间,人力资源,并改善正在开发的数据仓库应用程序的结果。


关于慧都数仓建模大师

慧都数仓建模大师能够快速、高效地帮助客户搭建数据仓库供企业决策分析之用。满足数据需求效率、数据质量、扩展性、面向主题等特点。基于企业的业务目标,进行数据理解、数据准备、数据建模,最后进行评价和部署,真正实现数据驱动业务决策。更多详情,请联系我们

慧都 BI 提供Qlik的产品和技术服务,更有企业级BI业务分析解决方案,我们拥有包括TableauPower BI和 IBM Cognos全球领先的BI产品,并提供相关解决方案,让数据创造无限价值。