




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据的不一致性目录 一、不一致性的背景 二、不一致性的来源 三、不一致性的解决办法背景 数据是对现实世界的描述,应该符合一定的语义规则和逻辑常识,但实际应用中,由于各种原因,有些数据违反了这样的语义规则,表现为数据值异常、不完整或相互矛盾,对于关系数据而言,还有实体异常(多条记录对应同一实体)、包含异常(多表之间记录不满足包含关系)等,所有这类“脏”数据我们称之为不一致数据。背景脏数据的来源: 滥用缩写词 数据输入错误 不用的惯用语 重复记录 丢失值 拼写变化 不同的计量单位 过时的编码背景 现实世界的数据: 不完整:有些感兴趣的属性缺少属性值,或者仅包含聚集数据。 含噪声:包含错误或者“鼓励
2、点” 不一致:在编码或者命名上存在差异 没有高质量的数据,就没有高质量的挖掘结果背景 不一致数据普遍存在于多类现实应用中。这些应用不单单包括各种各样数量巨大的关系数据库应用系统,目前越来越频繁的数据整合、传感网络等应用,还有XML网络信息交换和集成等。背景 一、现实世界里,数据应该遵从的语义约束类型更多且更复杂,比如人口普查数据表中,户主不能和同一个家庭中的两个人具有婚姻关系,DBMS缺乏直接机制对这一类约束进行定义和维护,以至于违反它们的数据进入数据库。背景 二、数据库设计和日常维护不够严谨,比如:定义表之间的关系时,没有规定级联删除或级联更新,简单地使用sequeneeID作为主码等,这些
3、做法虽然不符合关系数据理论,但在实际应用中普遍存在,也导致不一致数据的存在,比如在sequenceID做主码的数据库里就可能存在同一个身份证号对应两个不同的人的情况。背景 三、即便单个数据源一致,多个自治的数据源合并时,数据冲突也时有发生,呈现不一致性。 四、异构数据源之间进行转换时,在源数据库中完整的数据,可能不符合目标数据库的语义要求。这些都使得不一致关系数据普遍存在。背景 从语义层面重新思考不一致数据上的查询结果的确定性、可信性及其价值,寻找适合不一致数据描述的数据模型,并重新定义其上的查询操作、处理规则及其语义。并为不一致数据模型及其上的查询回答寻找一个可以兼容一致数据模型及其查询处理
4、的实现方案,以便能在不影响传统数据管理和查询的基础上,实现不一致数据的管理和查询处理,使得用户仍然能从不一致数据中获得比较有价值的查询结果。待解决的应用(一)web信息抽取 web信息抽取技术将网页中的非结构化数据或半结构化数据按照一定的需求抽取成结构化数据。这些结构化数据往往存储在后台数据库中,供用户查询以及进一步分析利用。但众所周知,internet具有开放性,不一致性,交互性,超时空性等特点。但正是因为互联网的这些特性,网页中的数据良莠不齐,存在着严重的不一致问题。具体表现在: 数据值缺失或不一致。作为一个完全开放的网络,任何人任何机构都可以在互联网上发布信息,哪怕信息不正确,不完整。
5、数据各版本相互冲突。由于各种原因,不同的人不同的机构对同一信息的描述细节可能不一样,甚至相互矛盾,由此导致数据的可信度大大降低。 数据不实时。互联网上的信息可能更新不及时,不能反映事物的最新状态。从这样不确定的数据源中抽取到的信息是不一致的,必须预处理它们,或者加以查询处理。目前,研究界通常对不同的数据源人为地定一个可信度,以便预处理或计算查询回答时,利用算法来确定冲突数据的取舍。待解决的应用(二)数据挖掘 数据挖掘的目的是从大量纷繁复杂的原始数据中获取知识。原始数据的质量在很大程度上决定了数据挖掘的成功与否。当原始数据信息丰富、准确客观时,所获取的知识价值高;如果原始数据的质量不理想,例如字
6、段值有误差或不一致,所获取的知识可能并无任何借鉴意义。数据挖掘中的数据往往来自多个系统,这些数据源本身可能存在一些缺失或错误等质量问题,集成到一起更可能相互矛盾。 因此,在实际应用中,一般开展数据挖掘前要进行数据清洗 (data cleaning)以梗填补遗漏数据、消除异常数据、平滑噪声数据,纠正不一致数据来提高数据质量。不一致数据的查询处理可以为数据挖掘的脏数据处理开拓新的解决思路。数据集成l 数据挖掘需要的数据往往分布在不同的数据源中,数据集成就是将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程。l 在数据集成时,来自多个数据源的现实世界实体的表达形式是不一样的,不一定是匹配
7、的,要考虑实体识别问题和属性冗余问题,从而把源数据在最低层上加以转换、提炼和集成。数据集成实体识别l 实体识别的任务是检测和解决同名异义、异名同义、单位不统一的冲突。如:同名异义:数据源A中的属性ID和数据源B中的属性ID分别描述的是菜品编号和订单编号,即描述的是不同的实体。异名同义:数据源A中的sales_dt和数据源B中的sales_date都是是描述销售日期的,即A. sales_dt= B. sales_date。单位不统一:描述同一个实体分别用的是国际单位和中国传统的计量单位。数据集成冗余属性识别l 数据集成往往导致数据冗余,如:同一属性多次出现同一属性命名不一致导致重复l 不同源数
8、据的仔细整合能减少甚至避免数据冗余与不一致,以提高数据挖掘的速度和质量。对于冗余属性要先分析检测到后再将其删除。l 有些冗余属性可以用相关分析检测到。给定两个数值型的属性A和B,根据其属性值,可以用相关系数度量一个属性在多大程度上蕴含另一个属性。数据集成和数据交换 数据集成系统中的不一致性数据主要来自两个层次,即数据本身的不一致性和模式匹配的不确定性。 在数据交换应用中,由于不同的应用对同一数据可能有着不同的要求,源数据的语义模型和目标数据的语义模型可能不一样,这就导致确定一致的源数据,可能因为违反了目标数据上的语义约束而不一致。数据本身不一致 数据集成系统处理的数据多种多样,有些数据本身就不
9、一致,例如通过信息抽取系统自动从文本或者半结构化的数据源中抽取的数据,由于抽取技术所限,这些数据通常不准确;还有一些数据是从在线数据源中抽取的,数据集成系统很难保证所抽取数据的可靠性和实时性。另外,即使单个数据源是确定的,当多个自治的数据源整合到一个数据中,由于相互冲突,或违反全局语义模型,而表现为不一致。返回模式匹配不确定 数据集成系统一般基于中介模式,即先建立中介模式与数据源之间的语义映射关系,并通过这种语义映射将用户提交到中介模式上的查询转换为具体数据源上的查询。由于人们对该领域的认识有限,根本就无法确定正确的语义映射。另外,模式匹配也可能是依赖于具体数据的,即数据源与中介模式匹配方式本身就是不确定的,需要根据具体数据的特点来确定。这使得映射后的数据也可能不一致。返回扩展RFID及其它传感网络数据造成数据不一致的原因主要有: 漏读 多读 脏读 事件发生时间不一致或乱序 不当数据预处理导致的数据不一致解决办法基于标记的查询回答 不一致性被看作是数据的一个属性,并能使用标记符号加以说明,所有数据库及其查询回答
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 流程主管述职报告
- 4.6.3神经系统支配下的运动 课件 人教版八年级生物上册
- 2025年法律实务模拟考试试题及答案
- 2025年初中语文拼音能力测验试题及答案
- 2025年电子商务专业考试试题及答案
- 2025年电气工程师执业考试题及答案
- 2025年传统手工艺文化传承考试试题及答案
- 2025年动漫设计与制作专业知识测试题及答案
- 2025《重庆市初中学业水平考试》数学
- 江苏省江阴市青阳片2025年八年级英语第二学期期中联考试题含答案
- 银行公文写作培训
- GB/T 20972.2-2025石油天然气工业油气开采中用于含硫化氢环境的材料第2部分:抗开裂碳钢、低合金钢和铸铁
- 2024-2025学年浙江绍兴诸暨市三下数学期末统考试题含解析
- 缓刑变更居住地申请书
- 小学四年级下册数学全单元测试题(及答案)
- 2025年福建石狮国有投资发展集团招聘笔试参考题库含答案解析
- 四川省绵阳市2025届高三上学期第二次诊断性考试语文试题(含答案)
- 各类设备安全操作规程大全
- 大体积混凝土施工专项施工方案
- 黔西南民族职业技术学院《项目特性与标准化管理方法》2023-2024学年第一学期期末试卷
- 中医呼吸慢病管理方法
评论
0/150
提交评论