数据质量控制
数据术语
采用一定的工艺措施,使数据在采集、存贮、传输中满足相关的质量要求的工艺过程。
方法步骤
一个战略性和系统性的方法能帮助企业正确研究企业的数据质量项目,业务部门与 IT 部门的相关人员将各自具有明确角色和责任,配备正确的技术和工具,以应对数据质量控制的挑战。
Informatica 的六步法为帮助指导数据质量控制而设计,从初始的数据探查到持续监测以及持续进行的数据优化。业务部门与 IT 部门的数据使用者 — 业务分析师、数据管理员、IT 开发人员和管理员,能够在六个步骤的每一步中协同使用 Informatica 数据质量解决方案;并在整个扩展型企业的所有数据领域和应用程序中嵌入数据质量控制。
步骤一:探查数据内容、结构和异常
第一步是探查数据以发现和评估数据的内容、结构和异常。通过探查,可以识别数据的优势和弱势,帮助企业确定项目计划。一个关键目标就是明确指出数据错误和问题,例如将会给业务流程带来威胁的不一致和冗余。
步骤二:建立数据质量度量并明确目标
Informatica的数据质量解决方案为业务人员和IT人员提供了一个共同的平台建立和完善度量标准,用户可以在数据质量记分卡中跟踪度量标准的达标情况,并通过电子邮件发送URL来与相关人员随时进行共享。
步骤三:设计和实施数据质量业务规则
明确企业的数据质量规则,即,可重复使用的业务逻辑,管理如何清洗数据和解析用于支持目标应用字段和数据。业务部门和IT部门通过使用基于角色的功能,一同设计、测试、完善和实施数据质量业务规则,以达成最好的结果。
步骤四:将数据质量规则构建到数据集成过程中
Informatica Data Quality支持普遍深入的数据质量控制,使用户可以从扩展型企业中的任何位置跨任何数量的应用程序、在一个基于服务的架构中作为一项服务来执行业务规则。数据质量服务由可集中管理、独立于应用程序并可重复使用的业务规则构成,可用来执行探查、清洗、标准化、名称与地址匹配以及监测。
步骤五:检查异常并完善规则
在执行数据质量流程后,大多数记录将会被清洗和标准化,并达到企业所设定的数据质量目标。然而,无可避免,仍会存在一些没有被清洗的劣质数据,此时则需要完善控制数据质量的业务规则。Informatica Data Quality可捕获和突显数据质量异常和异常值,以便更进一步的探查和分析。
步骤六:对照目标,监测数据质量
数据质量控制不应为一次性的“边设边忘”活动。相对目标和在整个业务应用中持续监测和管理数据质量对于保持和改进高水平的数据质量性能而言是至关重要的。Informatica Data Quality包括一个记分卡工具,而仪表板和报告选项则具备更为广泛的功能,可进行动态报告以及以更具可视化的方式呈现。
Informatica数据质量控制解决方案组件
上面介绍的Informatica六步法,该方法运用Informatica数据质量解决方案,提供公司所需要的各种数据质量管理能力,并确保其所有数据均是完整的、一致的、准确的、通用的。该解决方案包括几个针对特定用途优化的组件:
Informatica Data Explorer运用基于角色的工具可促进业务部门与IT部门之间的协作,该数据探查软件发现和分析任何来源中任何类型数据的内容、结构和缺陷。
Informatica Data Quality软件执行清洗、解析、标准化和匹配流程并使得可视记分卡和仪表盘上的持续监测得以进行。与Informatica data Explorer类似,它特有基于角色的工具,业务部门和IT部门可以借此得以协同工作
Informatica Identity Resolution软件能使各机构从60多个国家/地区以及各企业和第三方应用程序中搜寻和匹配一致数据。
用于加强协作的基于角色的工具
Informatica数据质量解决方案为业务部门与IT部门间的协作提供基础。其基于角色的工具特色设计使得业务分析师、数据管理员、IT开发人员和管理员能够充分利用他们独特的技能体系,并在流程中与所有相关人员沟通。
Informatica Analyst:适用于业务分析师和数据管理员。通过用语义术语表述数据,该款基于浏览器的工具使分析师和数据管理员能够探查数据、创建和分析质量记分卡、管理异常记录、开发和使用规则,以及与IT部门展开协作。
Informatica Developer: 适用于IT开发人员。这个基于Eclipse的开发环境允许开发人员发现、访问、分析、探查和清晰处于任何位置的数据。开发人员可以为逻辑数据对象建模,将数据质量规则与复杂转换逻辑合并,并在逻辑制定后,进行中游探查以验证和调试逻辑。
Informatica Administrator: 适用于IT管理员。该工具为IT管理员带来集中配置和管理的能力。管理员可以监测和管理安全性、用户访问、数据服务、网格和高可用性配置。
方案特征
最好的数据质量方案的特征
1. 协作性。 业务部门和IT部门为数据质量共同担责,业务分析师、数据管理员、IT开发人员和管理员各自将具有明确分工和适于其独特技能和视角的技术。
2. 前瞻性。业务部门和IT部门认识到所有机构都会不同程度地受到劣质数据的影响,有必要再劣质数据严重影响到企业业绩之前,积极探查数据以发现和纠正问题。
3. 可重复使用。有关数据探查与清晰的业务规则可被重复运用于任意数量的应用程序,而不论数据时内部预置、在合作伙伴处还是在云环境中。
4. 普遍深入性。数据质量将扩展至所有相关人员、数据领域、项目和应用程序,而不论数据是内部预置、在合作伙伴处还是在云环境中。
企业实施的挑战
所有组织都具有数据质量问题困扰。随着消除部门障碍以及在应用程序间移动数据,某些数据质量问题将首次得以发现。
由数据质量问题造成的开销很高。不完整、不一致和不准确的数据令业务用户感到沮丧,他们对数据和包含数据的系统的信心与信赖感会逐渐消弱。劣质数据会导致各类开销巨大的问题,例如项目和报告延迟、目标缺失、流程错误、合规性问题以及不满的客户。随着数据需求扩展到客户数据以外并变得更为实时化,随着与防火墙外的用户共享数据,数据质量问题的发生概率将提升。
业务部门无法自行解决数据质量问题。业务经理、业务分析师和数据管理员缺乏合适的工具和流程。IT 部门通常无法在业务部门要求的时间内给予响应。为响应自身的业务要求,部门个体和业务单元会频繁实施其自身的数据质量项目。虽然这些项目可以解决迫在眉睫的问题或满足当前需要,但是这种一次性方法其实具有较大的相关性。这些项目个体不是改善整个企业数据质量的总体策略的一部分。为单个项目创建的任何数据质量规则或人为措施均不能重复运用于其它项目或应用程序。
在整个企业中缺乏一致、广泛的数据质量管理方式,坏数据持续蔓延。对数据质量的信心持续下滑。成本持续上升。您的业务仍然处在风险之中。
做法
仅有一个或两个策略型数据质量方案还远远不够。随着数据量增加、数据要求提
高、数据流采用的新渠道,必须在企业层处理数据质量。数据质量控制必须做到
普遍而深入。
为了普遍深入地开展数据质量控制:
· 更多人员需要参与到数据质量控制流程中。数据质量控制必须得到整个企业的共
同努力。每个人(包括业务经理数据管理员、分析师和 IT 开发人员)都需要
配备他们所需的工具来共同承担有关数据的责任。
· 对于低劣数据对业务的影响,必须有清楚的认识。在您组织中的每个人都必须将
数据视为最为宝贵的企业资产。在清楚数据的宝贵价值后,业务部门和 IT 部门
需要更为主动地参与、负责并确保数据的质量。
· 数据质量控制需要拓展到各个领域。数据质量控制的开展不仅限于名称和地址,
还应纳入所有数据域,例如产品、财务以及资产数据。
· 必须在所有应用程序中部署通用的数据质量规则。必须主动防范劣质数据进入组
织;必须主动使用数据服务清洗劣质数据。
· 必须公布和共享数据质量记分卡。整个组织需要跨所有项目、流程和应用程序,
监控并检测数据质量。
实施普遍深入的数据质量控制意味着建立对于实现以下目标必不可少的组织、
流程和基础设施:
· 提高所有相关人士的能力
· 支持所有数据域
· 针对任何数据源中的任何数据(不论在企业内部还是在 Internet 云中),访问
和部署通用的数据质量规则
原因
无法普遍深入地进行数据质量控制的原因
如果您的组织与大多数组织一样,您将清楚您四处面临着数据质量问题。由于
难以指出问题所在,您将不得不通过一种特殊的方式来处理问题。虽然您不清
楚从何处开始,但是您知道问题难以修正。
您无法为所有需要参与的人员提供合适的参与工具。您将无法清洗位于各个国
家区域、以各种语言表示的多个数据域或数据。您无法访问需要清洗的所有数
据源或对坏数据进入应用程序进行日常防范。
请更为详细地审视这些障碍。
缺乏工具
在使用代码或工具构建规则的数据质量项目中,按惯例一般只会涉及到 IT 开发
人员。然而,数据质量不仅是一个 IT 问题,而且它还是一个业务问题,需要拥
有业务所有权才可以解决。但是,业务部门未配备开展此类任何工作所需的工
具。关键的相关人士没有让他们参与数据质量控制流程所需的工具。
数据管理员和业务分析师(应用程序或流程内部数据的负责人)通常只能通过
未得到较好配备的普通或定制工具,管理多个数据类型或支持类别广泛的项目
(在这些项目中数据质量是解决方案的关键部分)。他们主要依靠 IT 部门来访
问数据、更改规则、更新参考数据以及提取报告。所有这些动作不仅费时,而
且会带来延迟。例如,数据管理员通常在电子数据表或数据库中运行一些宏或
代码来测试有关数据质量的数据是否存在错误。如果管理员发现问题,他会进
行注释并将注释通过电子邮件发送给 IT 部门,以指出需要更改的内容。下个
月,他还会执行相同的操作。在此流程中,没人会感到特别乐意或十分确信。
这个流程太长、太过低效并且不能扩展。
受到低劣数据直接影响的业务经理同时还缺乏用于参与改善数据质量所需的工
具。他们无法察觉低劣数据对其流程和应用程序的业务影响,并且无法加快解
决。虽然他们可能愿意承担数据质量的责任,但是如果没有他们需要的工具,
业务部门除了沮丧也只能作为局外人靠边站。
有限的领域
从传统意义上说,数据质量部署仅限于与客户数据有关的市场营销、销售和帐单开
立流程。数据质量产品仅限于处理名称和地址数据。
但是,在其它领域(例如产品、财务和资产数据),低劣数据具有非常大的业务影
响。为处理客户、产品、财务、资产、位置和合作伙伴数据而改进传统的数据质量
工具并非易事。
考虑到当今业务环境的全球性,数据质量工具需要在数据匹配和清洗方面提供适用
于所有国家/地区和领域的全球覆盖。如果数据质量工具只能处理特定地理区域的
客户数据,它们则将无法彻底实现投资回报。它们有限的能力范围将妨碍全球客户
服务和发起运营效率方案,例如客户和主数据管理的单一视图,这对业务会产生持
续的负面影响。
污染防治
应用程序由多个数据源驱动,例如平面文件、非结构数据和半结构数据、数据库、
ERP 系统以及大型主机等等。劣质数据以多种方式进入组织,并从一个应用程序流
至另一个应用程序。
主要的损坏来源是在数据录入或数据获取时。用户可能会输入不完整、不一致、
不标准或重复的数据。虽然有些应用程序设有足够的控制措施,但是大部分应用
程序无法防范坏数据进入系统。
并且没有为在所有应用程序中实施通用的数据质量标准而设立流程。虽然可以为部
门应用程序实施数据质量规则,但是无法重复运用这些规则。由于无法在多个应用
程序和多个项目中重复使用数据质量规则,导致无法让所有应用程序免受低劣数据
的污染。
五个主要途径
考虑到劣质数据造成的财务影响,这将促使您的组织在所有相关人士、所有数据
域、所有应用程序和所有地理位置开展数据质量控制工作。
以下是有助于您在整个组织开展数据质量控制的五个主要途径:
1. 了解低劣数据质量的影响,对其进行持续监控
2. 使所有相关人士都可以参与到数据质量控制流程中
3. 不论数据域和数据用途,确保总能获得令人放心的数据
4. 部署跨所有业务应用程序,并且可以重复运用的数据质量控制规则
5. 运用一个数据集成平台
1. 了解低劣数据的影响并继续评测和监控数据质量
为避免您的公司由于劣质数据而流失客户和丧失竞争优势,您需要找出、解决和防
范数据质量问题 — 不论这些问题位于何处。
首先是探查您的数据以发现和了解数据异常和暗含的关系,而不必考虑数据自身
的复杂性或数据源之间的关系。此步骤的输出结果是元数据(有关数据说明的数据),
可用于清洗下游数据或用于未来的数据转换。凭借一个有关数据内容、质
量以及结构的完整和完全准确的视图,您可以了解劣质数据的业务影响并快速采
取修正措施。
但是,找到并修正数据质量问题并非一个一次性的项目。您需要持续评测和监控数
据质量问题。业务经理、业务分析师和数据管理员需要合适的工具,以便能够自行
定义数据规则、跟踪和监控数据质量趋势,以及发布和共享数据质量度量标准。通
过让所有合适的人员参与了解、评测、监控和最终改善数据质量,您的企业可以构
建长期并可持续开展的数据质量控制流程,从而您可以信任所有数据。
2. 使所有相关人士都可以参与到数据质量控制流程中
业务经理、数据管理员、数据分析师以及 IT 开发人员需要一个统一、基于角色,
在前端为每个角色定制并受到通用共享基础设施支持的工具集。凭借这些基于角色
的工具,所有相关人士将配有他们所需的接口和功能。由于各个角色人员均能通过
统一的基础设施与其它角色人员进行交互,因此改善数据质量的工作将变得更具有
协作性和更为优化。
· 业务经理需要易于共享、基于浏览器的记分卡,这样他们只需通过电子邮件
URL 发给同事,即可查看并共享数据质量度量标准和报告。在他们可以了解劣质
数据对业务目标影响的时候,数据质量将直接与他们相关联。
· 数据管理员和数据分析师需要友好的用户界面、基于浏览器的探查和规则验证,
从而他们可以自行探查和分析数据、定义和监控数据质量目标、配置和运行数据
质量规则,并且不必依靠 IT 部门。
· IT 开发人员需要高生产效益的开发工具。数据探查、数据清洗和数据集成功能必
须统一,这样他们可以快速开发、优化、部署和管理可以在所有应用程序和数据
集成项目中重复使用的集中式数据质量服务。
8
3. 不论数据域和数据用途,确保总能获得令人放心的数据
适用于地址清洗和客户匹配的预建规则可生成即时可现、实实在在的价值。由于客
户数据格式和参考数据通过使用邮政地址格式和通用的词源/简写在全世界实现了
标准化,因此这些规则能够得以实现。对于可以从客户数据改善中获益的额外项
目,有能力拓展这些规则和流程尤为关键。该重复使用可产生更高的一致性并更快
为新项目产生价值。但是,仅有客户数据还不够。
对于不存在全局标准的数据域(例如,产品数据、财务数据和资产数据),您需要
有一个有效途径,以便使用定制规则和特定于公司的参考数据来实施数据质量控
制。您需要的平台应能提供构建和维护定制规则所必需的可配置能力和灵活性。
4. 部署跨所有业务应用程序,并且可以重复运用的数据质量
控制规则
业务应用程序曾一度包含用于支持数据质量的逻辑
(例如,“客户名称”字段要求提供一个名称;“出生日期”字段要求提供一个日期;“汽车注册号”字段要求提供一个字母数字的字符组)。
由于这些规则嵌在应用程序中,它们通常未被记载并
且无法重新配置。结果,这些规则无法跟上不断变化的业务需求。这些因素使得几
乎不可能在整个组织中管理数据质量或实施数据治理
其解决方案是从应用程序中提取规则,集中管理数据质量规则,并在所有应用程序
中重复使用同样的规则。为使此途径更为高效,必须以独立于任何应用程序的形式
构建规则。通过这种方式,可以对市场营销系统、帐单开立系统、计划系统和 MDM
应用程序中的客户数据运用相同的规则。每个业务应用程序均可以请求将特定于域
的规则应用到需要这些规则的场合(例如,在将数据输入表格或批处理流程中)。
这些可重用的规则称为数据质量服务。这些服务可以通过运用数据集成技术所特有
的能力来实现:能够访问所有数据源;能够构建和共享独立于任何物理数据源的规
则和参考数据;能够支持多个请求并保证在设定的响应时间内给出结果。最典型的
数据质量服务包括探查、清洗、标准化、地址验证、匹配以及监控服务。
5. 运用一个数据集成平台
对于向所有的相关人士、项目和应用程序提供普遍深入的数据质量控制,最佳和最
为经济实惠的方式是使用数据集成平台。数据集成平台具有一个可重用的规则集和
适合管理数据质量的工具,为数据探查和数据清洗提供了单一的开发环境:
· 在所有应用程序中
· 适用于所有数据域
· 跨所有国家/地区和语言
· 适用于所有数据集成项目
凭借数据集成平台,IT 组织可以构建、集中管理和快速部署可重用的数据质量规
则。可以在所有数据集成项目中重新使用这些规则,从而极大降低成本。
数据集成平台提供可在整个企业中共享的一组协作功能和一组通用的规则和元数
据。结果,业务部门和 IT 部门的员工可以更为高效地协作,以便在几天(而不是几月)
内设计和实施满足业务需求所必需的数据规则。
数据集成平台是提供普遍深入的数据质量控制的理想基础设施,该平台可以为所有
数据服务(不论在内部预置、在合作伙伴处或在云中)提供通用连接性以及统一数
据的探查和清洗功能。
平台介绍
Informatica 确保组织中所有的关键人士都可以展开有效协作,从而更快找出坏数据
并予以修正。
Informatica® 9 是一个可以提供普遍深入的数据质量控制的企业数据集成平台。凭借
Informatica 平台,您的组织可以:
· 为所有应用程序主动清洗数据,保持数据清洁
· 共同肩负数据质量控制和数据治理责任
· 建立对企业数据的信心和信赖感
Informatica 平台可帮助业务部门更为自立,同时使 IT 部门更为高效。业务经理、业务
分析师和数据管理员可以更为主动地参与数据质量控制流程。他们可以分析数据并
自行定义数据规则(降低对有限 IT 资源的依赖程度),使用简单、基于浏览器并专
为此目的设计的工具。IT 部门将获得单个、统一并具有较高生产力的环境,用于开展
数据探查、数据清洗以及管理可在所有数据集成项目中重复使用的数据质量规则。
高度准确的全球匹配和地址清洗(具有可感知区域、预建规则和参考数据)将数据
质量控制拓展到任何地理位置,使您能够将数据质量控制应用到任何数据域 — 客
户、产品、财务和资产。数据质量规则可以在各类项目中重复使用,例如数据迁
移、数据整合主数据管理以及数据质量项目。
Informatica 平台使您能够使用成熟的数据集成技术连接至任何类型的数据源。集中
数据质量规则使您能够改善所有应用程序中的数据 — 不论这些应用程序包含何种
数据或者这些应用程序是否获取、移动或消费数据。基于 SOA 的数据质量控制服
务使您能够在数据录入或计划批处理过程中防范劣质数据。
参考资料
最新修订时间:2024-09-07 16:57
目录
概述
方法步骤
参考资料