◆◆0

IBM数据质量分析方法和最佳实践

chenjj 2017-07-06 大数据, 行业新闻 5,458 views

1.信息质量与你的业务息息相关

随着数据量日益剧增，企业决策比以往更需要具备强大的信息管理和掌控能力来协助解决关键问题。若要提升企业竞争优势，必须随时掌握企业内的信息，并透过这些“可信赖”信息获得新的企业价值。在现实世界中，很多用户使用数据时都难以取到可信赖信息，给业务运营和决策带来高风险。常常让客户头痛的数据质量的问题呈现多样化、复杂化和时效化等多种因素交织、组合在一起，使得信息集成工作推进和项目实施变得相当艰难，数据质量问题主要涉及到以下方面：

根据业界权威机构（TDWI，Gartner）的调查核实，用户存在的数据质量问题的状况按种类分布如下：

由于信息质量问题而造成的损失，使用户因此付出相当之大的代价：

怎样才能解决信息质量问题呢？ IBM根据在全球各行各业客户的相关项目实施经验，提出了要摆脱传统的分析方法，主张组织或机构必须停止仅通过IT手段来解决数据质量问题。当今，业界中很多富有经验的 CIO就如何有效地解决信息质量问题，找到了高效的方法，其底线如下：

业务部门也应该为数据质量负责,不能由IT部门独自承担责任；
数据质量是个业务问题，业务领导层需要负上识别数据质量问题的相关责任，建立数据质量最低可接受的标准和启动促进改善数据质量的举措；
提升数据质量需与重大业务问题关联一起，如法规遵循与安全投资，以及关注更多客户数据外的要点以获取改善。

2.IBM解决方案

评估信息资产，首要任务是分析现有企业数据来源，以理解可用信息的结构、内容和质量。用户查看描述数据的现有文档可能已经过时，且需要验证以确保数据的准确性、一致性和完整性。为此，IBM提供基于 InfoSphere Information Analyzer（以下简称 IA）分析软件工具的信息质量解决方案，帮助用户了解在给定时间点的数据内容、结构和总体质量，该解决方案提供了用于分析数据源和规则的分析方法的深入见解。

IA 对多个企业储存库中的源数据进行概要和分析，它包括一个业务驱动数据规则定义方法，可以进行集成数据规则分析，来评估和监控信息资产。IA 可以在一个包含 IBM 和非 IBM 信息源的异构 IT 环境中工作。它还可以在异构信息源中及跨异构信息源创建珍贵元数据，作为数据概要流程的一部分，识别新数据目标，以及支持深度分析。评估可以跨整个企业信息生态系统：各种数据库、文件和企业应用。没有 IA，这个流程将需要手动完成，耗时，且容易出错。

通过IBM解决方案，实现了信息按分析功能进行组织，向您提供深入的知识和最佳实践，用于：

数据分析，包括：

应用数据分析系统功能
在功能内应用数据分析技术
解释数据分析结果
基于分析结果作出决策或执行操作

数据质量分析和监视，包括：

支持业务驱动的规则定义和组织
跨数据源应用规则并以一致方式进行复用
利用多级别规则分析来了解更广泛的数据质量问题
根据已定义的基准/阀值来评估规则
评估并注释数据质量结果
监视数据质量随时间变化的趋势
跨环境部署规则
运行特定、预定或命令执行选项

IA数据发现和分析工具，是基于Web的架构方式，对数据仓库的源系统数据分析和数据仓库的表属性级分析，表级分析和关联分析，并可使用规则来定义和分析数据的分布和相关性。IA工具的架构如下：

IA通过ODBC连接源系统，相关信息存在MDR信息库中。
Information Server Engine按照预先设置的规则和逻辑，执行数据分析，并产生处理结果。
IA分析的结果保存在IADB中，用户需要设定好对IADB数据源的连接使用。
Information Server Clients 访问和查看数据质量分析结果，例如：联机查询、各类报告等等。

IA 提供的主要功能说明如下：

列分析

- 分析和记录下列属性；

- 各个值或基数的数量；

- 空值、“null”值、和非“null”或非空值的数量；

- 最小、最大、和平均数值；

- 基本数据类型，包括不同的日期—时间格式；

- 最小、最大、和平均长度；

- 数值的精度和范围。

主键分析与推荐

主键分析针对一个或多个表识别所有候选键，帮助您测试一个列或列组合，以确定是否存在成为主键的候选。

外键分析

外键分析检查表之间的内容和关系，有助于识别外键、检查其完整性、并检查主键和外键之间的参照完整性。

交叉值域分析

交叉值域分析检查表之间的内容和关系，以确定列之间值的交叠，以及表内或表间数据的任何冗余(参照上图)

数据监控和趋势分析

通过基线分析，将来自先前列分析的数据（基线）和新的、当前的列分析进行比较，寻找变化。

数据规则和指标

创建逻辑规则进行数据验证，验证规则分析可以延伸数据源或跨数据源的评估，以定义数据之间的关系。允许以多种方式表达验证规则。它还可以检查了解数据是否符合某些限制：

包含：一个字段是否包含一个字符串，或符合某个包含某些字符串的表达式。

相等：一个字段是否与某些值相等。

存在：一个源是否拥有任何数据。

模式：源数据中的值是否与一个模式字符串匹配。

出现：一个源表中某些值出现的次数。

范围：源数据的范围。范围可以包含最小值、最大值，或二者皆有。

参照列：源数据对参照列的参照完整性。

参照清单：数据是否符合一个允许值的参照清单。

类型：源数据是否能够从字符转换为数字或日期。

唯一性：源数据是否含有重复值。某些字段（如账号）必须为唯一。

这些规则可以与逻辑操作符结合，从一个或多个表中（其中，多个列拥有多种特征）找到行。您还可以将这些规则与逻辑操作符结合，进行复杂条件评估，并指出虽然自身并没有出现问题，但是不符合更广泛的限制或业务条件的数据，随时间发展以提供有关数据质量趋势的追踪分析。

报表

提供全面分析报告，通过使用图形显示和打印报表理解源数据质量状况。

3.业务用例

组织需要详细了解和理解其数据的优缺点和内在质量。获得这种了解并将其应用于各种数据相关活动的能力可以直接影响那些活动的成本和效益。
在很多众所周知的用例中，战略性数据相关项目在实现的回报低于预期的同时还超出计划的成本和进度安排，或由于数据质量缺陷（低估此缺陷或直到项目的实施阶段才知道）完全失败。
对于这些情况， IA可以用来在项目开始时进行关键数据质量评估以识别和测量现有数据缺陷。通过尽早执行此评估，组织可以对数据执行任何必要的更正操作，或防止可能需要避免的任何数据问题。
此外， IA可以用来在整个项目生命周期内评估并测量数据质量，方法是允许开发者在交付正确且预期的结果测试其代码或作业的准确性，对关于功能准确性和系统准确性的质量保证提供帮助，以及允许业务用户以成功的系统装入流程作为标准。

4.给用户带来变化

帮助机构快速地完成提升数据质量和数据移植的项目，减少由于数据质量不好而带来的业务风险，提高数据质量的规范化和数据管控水平，以实现帮助机构在可信赖信息的基础上，作出更佳的分析和决策；
分析数据的自动化流程管理，无需要手工进行处理。相对手工分析而言，减少 50+%分析数据的工作量，提高生产效率，加快数据整合速度；
具有执行大量数据分析的能力，解决海量数据分析带来的挑战；
执行数据分析过程中而发现的元数据，可传递给 Information Server的其他软件模块使用，包括 IBM InfoSphere QualityStage,DataStage and Business Glossary等，而无需从零开始；
提供可独立于系统界面的各类分析报告，更快地明白和分析数据处理结果，减低用户开发工作量；
提供不同安全级别来授权用户是否可访问敏感的数据，完善的管理机制，有助于用户提高分析数据的管理模式；
不间断的监控数据源的变化，及早地发现问题和解决问题，避免影响不间断运作的业务（如审计、法规与规范等），确保数据项目“总是”含有可信赖的数据，由此给业务发展带来较高的经济效益。
获得认可和满意的投资回报率(ROI)。

5.成功实施参考案例

项目背景：

20xx年，某零售巨头多年来第一次发生亏损。该企业通过一系列的研究与自我反思，认为其主要是由以下几方面原因引起的。

缺乏对库存商品销售数据的有效洞察和糟糕的商品推销以及预测应用系统问题，致使其无法及时地调整出货品种及推销策略来改善情况；
过长的生产交易期以及已有的大量生产合同制约，公司历史遗留的供应链等问题，致使其便已经深刻了解到这些问题，也不能迅速地改变他们的产品线结构；
其他诸如PeopleSoft财务系统问题和当前不合理的数据仓库设计等问题，致使其无法快速高效地整合统一所有资源。

项目挑战：

信息太杂太乱，不知道哪些是重要的无法及时找到需求点来改善供应链无法通过客户行为分析来指导卖场活动无法分析有价值的非结构化数据；
事实资料版本太多，真相难以提取难以理顺客户、产品以及合作伙伴的关系缺乏透明统一的数据记录规则；
缺乏可信任的信息不完备的，过时的，不正确的数据泛滥难以理解并管理信息的使用方式；
缺乏数据敏捷性难以利用创新的机遇因死板的系统和变化的需求而导致的不断增加的成本开销。

解决方案：

Information Analyzer是IBM推出的一款数据质量分析工具。它能帮助客户方便快捷地全面理解企业数据。它提供了数据质量评估，数据质量监控以及可定制的数据规则设计和分析功能。这些强大的能力能让客户轻易的掌控整个企业的杂乱数据，并极大地加速企业的信息整合工程。因此本产品可以很好地满足该企业的需求并加速实现其转型目标。

在IBM为该企业制定的全套解决方案中，Information Analyzer主要应用于以下3个关键阶段：