版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Informatica 数据质量控制方法一个战略性和系统性的方法能帮助企业正确研究企业的数据质量项目,业务部门与 IT 部门的相关人员将各自具有明确角色和责任, 配备正确的技术和工具, 以应对数据质量控制 的挑战。 Informatica 的六步法为帮助指导数据质量控制而设计,从初始的数据探查到 持续监测以及持续进行的数据优化。 业务部门与 IT 部门的数据使用者 业务分析师、 数 据管理员、 IT 开发人员和管理员,能够在六个步骤的每一步中协同使用 Informatica 数据 质量解决方案;并在整个扩展型企业的所有数据领域和应用程序中嵌入数据质量控制。步骤一: 探查数据内容、 结构和异常第
2、一步是探查数据以发现和评估数据的内容、结构和异常。通过探查, 可以识别数据的优势和弱势,帮助企业确定项目计划。一个关键目 标就是明确指出数据错误和问题,例如将会给业务流程带来威胁的不一致和冗余。步骤二:建立数据质量度量并明确目标 Informatica 的数据质量解决方案为业务人 员和 IT 人员提供了一个共同的平台建立和完善度量标准,用户可以在数据质量记分卡中跟 踪度量标准的达标情况, 并通过电子邮件发送 URL 来与相关人员随时进行共享。 步骤 三:设计和实施数据质量业务规则 明确企业的数据质量规则,即,可重复使用的业务 逻辑,管理如何清洗数据和解析用于支持目标应用字段和数据。业务部门和
3、IT 部门通过使 用基于角色的功能,一同设计、测试、完善和实施数据质量业务规则,以达成最好的结果。 步骤四: 将数据质量规则构建到数据集成过程中 Informatica Data Quality 支持普遍深入 的数据质量控制, 使用户可以从扩展型企业中的任何位置跨任何数量的应用程序、 在一个基 于服务的架构中作为一项服务来执行业务规则。 数据质量服务由可集中管理、 独立于应用程 序并可重复使用的业务规则构成,可用来执行探查、清洗、标准化、 名称与地址匹配以及监 测。骤五:检查异常并完善规则 在执行数据质量流程后,大多数记录将会被清洗和标 准化, 并达到企业所设定的数据质量目标。然而, 无可避免
4、, 仍会存在一些没有被清洗的劣 质数据,此时则需要完善控制数据质量的业务规则。 Informatica Data Quality 可捕获和突显 数据质量异常和异常值,以便更进一步的探查和分析。步骤六:对照目标,监测数据质量 数据质量控制不应为一次性的“边设边忘”活 动。相对目标和在整个业务应用中持续监测和管理数据质量对于保持和改进高水平的数据质 量性能而言是至关重要的。 Informatica Data Quality 包括一个记分卡工具,而仪表板和报告 选项则具备更为广泛的功能,可进行动态报告以及以更具可视化的方式呈现。Informatica 数据质量控制解决方案组件上面介绍的 Inform
5、atica 六步法,该方法运用 Informatica 数据质量解决方案,提供公司 所需要的各种数据质量管理能力, 并确保其所有数据均是完整的、 一致的、准确的、 通用的。 该解决方案包括几个针对特定用途优化的组件: Informatica Data Explorer 运用基于角 色的工具可促进业务部门与 IT 部门之间的协作,该数据探查软件发现和分析任何来源中任 何类型数据的内容、结构和缺陷。Informatica Data Quality 软件执行清洗、解析、标准化和匹配流程并使得可视记分卡和仪表盘上的持续监测得以进行。与 Informatica data Explorer 类似,它特有基
6、于角色的工具,业务部门和 IT 部门可以借此得以协同工作。 Informatica Identity Resolution 软件能使各机构从 60 多个国家 / 地区以及各企业和第三方应用 程序中搜寻和匹配一致数据。 用于加强协作的基于角色的工具Informatica 数据质量解决方案为业务部门与 IT 部门间的协作提供基础。其基于角色的 工具特色设计使得业务分析师、数据管理员、 IT 开发人员和管理员能够充分利用他们独特 的技能体系,并在流程中与所有相关人员沟通。Informatica Analyst: 适用于业务分析师和数据管理员。 通过用语义术语表述数据, 该款基于浏览器的工具使分析师和
7、数据管理员能 够探查数据、创建和分析质量记分卡、管理异常记录、开发和使用规则,以及与 IT 部门展 开协作。 Informatica Developer: 适用于 IT 开发人员。这个基于 Eclipse 的开发环境允 许开发人员发现、访问、 分析、 探查和清晰处于任何位置的数据。 开发人员可以为逻辑数据 对象建模, 将数据质量规则与复杂转换逻辑合并, 并在逻辑制定后, 进行中游探查以验证和 调试逻辑。 Informatica Administrator: 适用于 IT 管理员。该工具为 IT 管理员带来集中 配置和管理的能力。 管理员可以监测和管理安全性、用户访问、数据服务、网格和高可用性
8、配置。编辑本段最好的数据质量方案的特征1. 协作性。 业务部门和 IT 部门为数据质量共同担责,业务分析师、数据管理员、 IT 开发人员和管理员各自将具有明确分工和适于其独特技能和视角的技术。 2. 前瞻性。 业务部门和 IT 部门认识到所有机构都会不同程度地受到劣质数据的影响,有必要再劣质数 据严重影响到企业业绩之前,积极探查数据以发现和纠正问题。 3. 可重复使用。有关 数据探查与清晰的业务规则可被重复运用于任意数量的应用程序,而不论数据时内部预置、 在合作伙伴处还是在云环境中。 4. 普遍深入性。数据质量婚啊经将扩展至所有相关人 员、数据领域、项目和应用程序,而不论数据是内部预置、在合作
9、伙伴处还是在云环境中。 编辑本段数据质量与商业智能 数据质量在商业智能中扮演的角色对于增强数据资产准确度和价值而言,将数据质量规则与活动 (探查、 清洗和监测)和 MDM 流程相集成显得十分关键。 在启动任何 MDM 项目之前, 您都需要了解源数据的内容、 质量和结构。在数据源进行的数据探查使数据管理员和数据仓库管理员能够在数据进入 MDM 系统之前, 快速发现和分析跨所有数据源的所有数据异常。此流程可极大加快从 MDM实施中获取价值。 由于数据清洗增强了数据的准确度,带来了数据完整性,并从源头 增进了数据的可信度,因此数据清洗改善了 MDM 系统中的数据一致性。一旦源数据进入 MDM 系统,
10、它将接受数据质量处理,其中包括验证、更正和标准化。 MDM 系统存储了在 数据清洗前后的整个历史记录,从而开发人员不必再跟踪数据仓库中的数据沿袭。 最 后,数据质量度量标准使数据仓库管理员能够更好地监控参考数据的质量, 并确保可以长期 持续使用高质量的数据。 因此,从技术角度看, 实施 MDM 和 Informatica Data Quality , 作为数据仓库中主数据的确定来源, 可以从提取、 转换和加载 (ETL )流程中简化数据集成。 此方法可极大减低与数据仓库有关的整个开发和维护工作。 通过建立数据质量度量标准和定 义数据质量目标, 数据仓库管理员和数据管理员能够更好地监控参考数据的
11、质量, 并确保随 着时间的推移能够跨企业持续使用高质量的数据。 MDM 简化了对数据仓库维度更新的处 理,因为用于确定更改内容的所有逻辑均封装在 MDM 系统中。 此外, MDM 系统可 以卸除大多数数据仓库的历史记录跟踪负担, 使数据仓库仅管理它需要为进行聚合而应跟踪 的变更。此系统可带来更小的数据仓库维度以及对负荷和查询性能的重大改进。运用 MDM 和 Informatica Data Quality 将最终降低数据集成的工作量,提高从商业智能和报表推导的洞 察分析的质量,确保能够从为商业智能增效的数据仓库方案中获得预期的价值和投资回报。 数据质量水平与商业智能的关系当无法通过商业智能系统
12、和报告系统提供准确的数据时, 业务总体上都会受到影响。 以 下是为创建报表的商业智能系统提供不可靠数据所造成的一些后果: 业务负责人:不 准确的管理报告导致决策不够明智。 合规主管:合规性法案要求公司能为其财务和合 规报表提供一定的透明度和可审计性。 业务分析师:如果业务分析师花费过多时间在 多个商业智能系统间手动搜索和整理信息以更新和修正报表, 则业务分析师的生产率会受到 影响。此低效的工作会直接影响成本和营利能力。 这些业务问题的根源在于没有关于 客户、 产品、渠道合作伙伴和供应商的唯一真实版本。 由于在处理每个业务流程的不同系统间收集、存储和管理这些数据(亦称之为参考数据或主数据) ,因
13、此,需要正确地解析重叠 和冲突的参考数据, 以获得唯一真实版本, 从而带来宝贵而可操作的洞察力。 许多组织拥有 数十或数百数据库, 并且在这些数据库中有维护相同核心参考对象的数十个 (有时为数百个) 不同的应用程序,而这些核心参考对象还具有重叠的属性。商业智能系统的用途是以中立的视角报告取自多个系统的现有数据。商业智能系统可以为维度分析进行一些累积工 作,但是设计或配备商业智能系统并非为了创建唯一的真实版本。在取自应用程序孤岛的客户或产品数据中存在的不一致会对数据仓库中运行的分析可靠性产生消极的影响。 总 而言之,企业的商业智能只会与企业的数据质量水平相当。数据质量和五种形式的商业智能 商业智
14、能已经发展成为多种形式, 旨在满足企业不断增长的要求和任务关键型活动日益 增长的水平。 这些形式都有其自己的一套数据质量要求。 记分卡和仪表板 记分卡 和仪表板正被广泛采用, 越来越多的用户利用它们获取财务, 业务和绩效监控的鸟瞰图。 通 过可视化的图形、 图标和计量表, 这些传输机制帮助跟踪性能指标并向员工通知相关趋势和 可能需要的决策。 提供集成视图所需的数据元素通常跨越多个部门和学科, 需要绝对最新才 能有效。 数据质量会影响记分卡和仪表板用户,因此这些用户必须能够 : 1. 使用 仪表板中计量表和刻度盘上的完整数据, 并迅速采取措施 2. 获取集成视图并使用标准 化数据进行协作 3.
15、利用具有一致数据的正式记分卡方法 4. 向下钻取以查看组或 个人级别绩效的准确数据 5. 找到能够生成明显趋势且重复数据最少的业务流程 6. 推导关联性并通过验证的数据执行交叉影响分析 企业报告 企业报告为所有级 别的个人提供来自企业资源规划(ERP)、客户关系管理(CRM )、合作伙伴关系管理(PRM )、发票和帐单系统, 以及整个企业内其他源系统的各种运营报告和其他业务报告。 这些报告分 布广泛,而薪酬和其他激励计划通常与报告的结果有关。数据质量会影响组织报告,因为组织必须:1. 浏览多个报告,将它们显示到从不同来源聚合数据的多个表单中2. 选择各种参数并通过标准化数据为用户定制报告3.
16、利用各种性能指标的协调数据呈现多个表格和图表4. 使业务用户能够利用高精准数据创建自己的报告,无需IT 部门参与 5. 通过清洗和匹配的数据减少合规性管理的人工检查和审计6. 利用完整财务数据直接从商业智能报告开具发票和帐单OLAP 分析 OLAP 使用户能够即时以交互方式对相关数据子集进行“切片和切块” 。同时, OLAP 功能,比如向上钻取、向下 钻取、或任意挖掘(跨业务维度) 、透视、排序、筛选、以及翻阅,可用于提供关于绩效的 基本详细信息。 最为重要的是它能够回答存在的任何业务问题。 这意味着调查深入到单个或 多个数据仓库中可用的最原子级别的详细信息。数据质量会影响 OLAP 分析,因
17、为用户和组织需要: 1. 通过对目标数据的完全访问在所有维度中任意钻取以进行深入调查 2. 通过设置好格式的一致数据将 OLAP 轻松应用于任何维度子集 3. 利用一致的基本 数据对象最大限地减少冲突报告, 确保交互性 4. 利用多个维度的正确数据执行用户驱 动的适时分析5. 提供更新的同步数据来处理事务级数据分析高级 /预测分析高级和预测分析使富有经验的用户能够充分调查和发现特定业务绩效背后的详细信息并使 用该信息预测远期效果。 此方法可能涉及高级统计分析和数据挖掘功能。 为了推动积极决策 和改进对潜在商业威胁的姿态, 预测分析可能包括假设测试, 客户流失预测, 供应和需求预 测,以及客户评
18、分。预测建模可用于预测各种业务活动及相关效果。数据质量会影响高级和预测分析,因为用户会寻求:1. 为可定制报告创建跨越任何数据元素的报告过滤标准 2. 为标准化数据格式搜索模式和预测洞察力以促进积极决策 3. 通过一致 数据获得信心, 找出相互依存的趋势和预期成果4. 对准确数据采用多变量复原和其他技术,以实现更好的预测5. 在无数据重复的前提下定制数据分组,最大限度减少冲突6. 使用经认证的数据检验假设并使用统计、财务和数字函数通知和警报 使用电子邮件、浏览器、网络服务器和打印机、PDA或门户网站时,通过通知和警报在广泛的用户触点间主动共享信息。 通过及时交付目标信息,关键相关人士和决策者可
19、以识别潜在的机会领域并发现要采取措施的问题领域。这种“一线”BI传输机制使组织能够保持协调一致,与业务风险和机会并进,同时事件仍将保持新鲜和有意义以保证响应。在此领域,数据质量会影响组织,因为组织会努力:1.从任何和所有数据源向最广泛的用户接触点发布警报2.确保标准化及非冲突数据集上各种订阅类型的高吞吐量3.使用户能够打开附件或点击链接,同时呈现一致、集成的数据4.通过预先评定并核准的数据质量来降低发布错误警报和通知的风险5.允许在多个事件数据符合特定阙值时实时触发警报 6.利用经验证的数据进行内容个性化和组关联数据质量管理五大要素 2008 年 06 月 06 日 13:00 IT新一代客户
20、数据整合(CDI)软件和主数据管理(MDM软件给数据质量的管理带来了很大 方便。但是,数据质量的保证仅靠软件显然是不行的。实际上,在整个数据质量的控制过程 中,人仍然是关键因素。 例如,仅仅数据的录入就涉及很多人:销售人员会录入客户信息和交易数据,客户服务部门的工作人员除了录入交易数据外,还会录入所服务公司的新的联系人,订单录入人员会输入客户身份信息。同样,出于销售、市场推广、计费等原因,在公司 内还会有很多人对这些数据进行修改、更新。借助客户数据整合(CDI)软件和主数据管理(MDM)软件的帮助,人们可以把上述各种在不同时期因为不同目的而生成的数据进行一定程度的整合和清理,但是要想真正长期保
21、证数据的高质量,还必须从以下5个方面着手。1. 建立数据的标准,明确数据的定义。通常,独立的应用系统会有一个比较模糊的、有时也会有比较清晰的数据标准和数据定义。为了保证系统的正常运行,这些系统的用户必须在数据的标准和数据的定义上达成一致。不过,这些标准和定义大多数时候与企业中其他系统中的数据标准和定义并不一致。因此,需要从整个企业的角度出发,建立统一的数据标准和数据定义,同时,整个企业必须就这个数据标准和数据定义达成共识。这一句话说起来容易做起来难。因为人通常本能地会拒绝改变,改变数据标准和定义并不是轻而易举的。为此,强烈建立在企业中除了设立一个高管级别的数据质量管理委员会外,还需要选定一个执
22、行能力强的项目负责人,需要他推动相关人员接受新的数据标准和定义。在具体建立新的数据标准和数据定义时,需要仔细权衡,哪些定义和标准是出于企业内部的原因(比如出于方便、习惯等)制订的,哪些定义和标准是因为要有效反映外部的真实世 界而制订的。相对而言,前者更容易执行一些。2. 建立一个可重复的数据收集、数据修改和数据维护流程。数据管理面临的两个主要挑战是企业本身的复杂性和身份信息不断变化。这两个客观原因的存在意味着企业的数据质量保证行动永远没有结束之日,因此,企业在制订数据质量的保证措施和数据质量指标时,必须保证这些措施和指标能够不断重复。3. 在数据转化流程中设立多个性能监控点。数据的质量高低可以
23、根据最终用户的需求来评价,也可以通过与同类数据源的比较来评价,还可以通过与前一阶段的数据质量进行比较来评价。但在制订数据质量的战略时,比较理想的办法还是根据最终用户的需求来进行。不过这里存在一个问题是,等到最终用户拿到数据时再针对数据的问题进行修正已经太迟了。一个有效的数据质量保证办法是在每当数据发生转换后就与前一时期进行比较,从而对数据质量进行评估。如果此前所采用的数据质量改进方法有助于提高最终用户的满意度,那么,这些中间指标的达标也预示着项目的最终成功。4. 对流程不断进行改善和优化。我们常常听到有人说,他们制订了很多办法来迅速而且大幅度提升数据的质量,但很少听说最后他们能真正得到满意的结
24、果。其原因就在于数据的质量改进绝非一朝一夕的事情,而是一个持续的过程。正确的办法是通过一个不断改进的流程,持续不断地排除错误、对数据进行整合和标准化,最后达到流程的自动化, 从而降低数据质量保证计划的总体开销。实际上,排除错误、数据整合和数据标准化从来就不是一件容易的事情。数据质量管理计划的负责人将配合公司高管组成的数据质量管理委员会来保证 这个流程的顺利执行。要注意的是,作为该项目的负责人,不能墨守成规,仅仅因为自己以前一向采用某种方法,就要求别人也必须采用这一方法,特别是当发现这些方法成本高昂的时候,就应该考虑换一种方式了。5. 把责任落实到人。通常,我们认为那些与数据的产生、维护相关的人
25、员是负责任的,但是,很有可能,他们有很多其他的工作要做,因此作为数据质量的负责人光有善良的想法是难以提高数据的质量,很有可能一辈子也达不到目标。对于那些负责数据的产生、数据的合理化以及对数据进行清理和维护的人,应该给他们的活动制订明确的指标,这样他们才能真正理解人们到底希望他们达到什么目标。更重要的,他们还需要针对这些指标细化对他们自己的要求, 当然,他们会因为达到或者超过这些指标而得到奖励。其中,一个执行力强的负责人的价值体现出来,他会针对具体情况适时调整数据质量的目标。最后,再次强调考虑与数据管理和数据质量的改进项目有关的人的因素,他们的行为是非常重要的。从某种程度上说,要比具体选择什么软
26、件要重要得多。上述5点有助于帮助组织规范数据质量管理中与人有关的流程。链接提高数据质量的三个步骤由于大多数系统和应用程序会持续不断接收到新数据,数据量也在不断增加,因此确保数据质量并不是一次就能完成的。所有企业都应该使用一种反复进行的阶段性过程来管理数 据质量,此过程包括数据质量评估、规划以及策略的选择和实施。第一步对数据质量进行评估。 评估当前的数据质量状态是第一步。对数据质量进行评估能帮助企业准确地了解数据的内容、质量和结构。主管人员参与数据质量评估以及分析在数据检查过程中发现的问题对于数据质量评估来说都很重要。在最有效的数据质量评估中, 所有问题都将按照对业务影响从大到小的顺序列出,这将帮助IT机构节省项目成本。第二步,制订数据质量计划。 彻底了解企业数据的内容和质量后,接下来的步骤是制订一个计划,来修改当前的错误并避免未来错误的发生。有效的计划不但可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年医院感染管理的年度工作计划(3篇)
- 2026年部编版语文五年级下册全套单元复习课教案
- 2026年大数据施工跨境物流服务合同
- 2026年工程评估分销代理协议
- 物理一模提分卷01-2026年中考第一次模拟考试(含答案)(江西专用)
- 村委大病探访工作制度
- 村庄亮化工作制度汇编
- 预约门诊挂号工作制度
- 领导代班值班工作制度
- 风控区管控区工作制度
- 2025河北林业和草原局事业单位笔试试题及答案
- 黑龙江哈尔滨德强学校2025-2026学年度六年级(五四制)下学期阶段学情调研语文试题(含答案)
- 2026年商丘学院单招综合素质考试题库及答案详解(历年真题)
- 2025年大连职业技术学院单招职业技能考试试题及答案解析
- 既有线路基帮宽施工方案范本
- 腾讯招聘测评题库答案大全
- 用友渠道合作方案
- 农民工欠薪起诉书模板
- 课题研究存在的问题及今后设想
- DINEN1706铝和铝合金铸件化学成分和机械性能(中文版)
- 2023年康复医学考试重点复习资料
评论
0/150
提交评论