




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、油气开采大数据中的数据质量管理答辩学生:答辩学生: 周一丁周一丁学学 号:号: 1207223012072230指导老师:指导老师: 宫文娟宫文娟本科毕业论文答辩目录目录01 绪论绪论 02 数据质量及其研究数据质量及其研究03 数据质量评估数据质量评估04 数据质量管理系统的设计与实现数据质量管理系统的设计与实现05 总结总结1 1纵观观历史的长河,从未有一个时代出现过如此大规模的数据爆炸随着数据总量的持续增长和急速膨胀,大数据时代的特征已经充分显现预计到2020年,全球数据使用量将会达到35.2ZB 在如此海量的数据面前,对数据的有效利用就是企业的生命线VolumeVarietyValue
2、VelocityBig Data1 1大数据和智能机器的革命性发展已经对石油领域产生深远影响,并在不断推陈出新。今年的SPE(国际石油工程师协会,(国际石油工程师协会,Society Of Petroleum Engineers)年会显示有越来越多的人关注到这个领域,同时,大数据在石油行业的使用也逐渐系统化,在不少细分领域迈向标准化。大型的超速计算机在民用领域主要有三个去处:天气预报、地震数据处理和油藏模拟,后两者都属于石油领域。中国最快的计算机银河-III很大一部分都送到了河北涿州,涿州正是中石油东方地球东方地球物理公司物理公司的所在地。POSC公司总裁曾指出“石油工业是信息工业”,这是因为
3、很少有其他工业领域像石油工业这样更依赖于数据 对油气资源的认识和掌握主要通过大量的数据来实现,通过对数据的挖掘和应用,可以提高决策的准确性和全面性,实现新的油气增产 因此, “大数据大数据”往往意味着往往意味着“大油气大油气”1 1BP其全球数据中心,提供包括监控 备份 恢复 站点管理及维护数据的全程服务,其利用云计算来实现公司的标准化管理和外包服务,快速降低成本,增强服务的可持续性,确保创新技术的有效推广应快速降低成本,增强服务的可持续性,确保创新技术的有效推广应用用。Shell Group of Companies采用石油数据银行系统和研究成果管理的数据库系统作为公司主数采用石油数据银行系
4、统和研究成果管理的数据库系统作为公司主数据库据库,管理本公司的数据资产中最有价值的数据资产 研究项目时采用Openworks作为项目数据库的支持专业应用软件,项目数据库的数据来源于主数据库,研究产生的成果回存到主数据库。Chevron Corporation面对每天生成的大量数据,强调规模就是机会,关键是如何有效利用这些海量信息 公司将5万台桌面系统与1800个公司站点连接,消除炼油 销售与运输“下游系统”中的重复流程和系统,每年可节省5000万美元万美元,过去4年已获得了净现值约为2亿美元亿美元的回报SchlumbergerHalliburtonBaker Hughes通过建立勘探开发信息数
5、据一体化研究与作业团队,集中大量数据信息,支持油田生产规划与决策,加大了对非常规 深水 极地等油气资源的开发力度1 1在油气工业中,随着勘探开发领域从常规转向非常规、从陆上转向海上,人们对油气资源的认识和掌握越来越依赖信息技术手段。石油公司拥有的数据越多,对数据挖掘利用得越好,找到油气资源的可能性和掌控市场的能力就越大。掌握并利用好大数据,是石油公司提高核心竞争力的重要手段。为此,我国油气企业应科学谋划大数据战略,采取重点技术跟踪、深化系统集成应用的方式,开展大数据处理技术的研究,突破技术瓶颈和障碍,更好地进行数据的管理与挖掘,真正能够把“大数据大数据”转变成转变成“大油气大油气”。 面对大数
6、据时代的到来,需要对企业多年集聚的内外部数据进行系统的盘点和清理,整合并优化不同类型的数据。同时,要注重大数据时代的人才培养。有关资料显示,国际上百分之九十以上的的管理人员均面临着数据量越来越大、数据复杂性越来越高的压力。目前,我国石油石化行业大数据应用的难点主要在于业务模型构建、数据视图构建、应用系统构建业务模型构建、数据视图构建、应用系统构建等几个方面。相信随着信息化的深入和两化的深度融合,大数据在我国石油石化行业应用的前景将越来越广阔。随着石油储备的逐步减少,石油石化行业产业链中的勘探、开发难度日益增大,信息化的成熟度已经成为影响行业增长幅度的首要因素。而应用信息化以后,开采、勘探的成功
7、率都会增加,这对提高勘探效率,降低开发成本、生产成本是大有帮助的。掌握并利用好大数据,是石油公司保持可持续发展动力,有效和顺利技术转型革新的核心竞争力。大数据应用是信息化深入 IT与业务深度融合的必然,是深化应用 提升应用层次 强化集团企业管控的有力技术手段1 1数据管理技术标准主数据库地震数据技术标准主数据库测井数据技术标准主数据库解释成果数据技术标准主数据库文档数据技术标准主数据库勘探开发综合数据( EPDM) 技术标准勘探项目环境数据技术标准油藏评价项目环境数据技术标准油田开发项目环境数据技术标准勘探开发一体化项目研究环境技术标准专业数据录入环境建设数据技术规范数据管理操作规范主数据库地
8、震数据操作规范主数据库地震数据质量控制规范主数据库测井数据操作规范主数据库解释成果数据操作规范主数据库文档数据操作规范主数据库勘探开发综合数据( EPDM) 操作规范勘探项目环境数据操作规范油藏评价项目环境数据操作规范油田开发项目环境数据操作规范勘探开发一体化项目研究环境数据操作规范专业数据录入环境建设数据操作规范地质录井数据传输接口使用与管理规范测试专业数据库传输接口使用与管理规范1 1在油气工业的大数据时代,当无形的数据渐渐取代有形的产品成为企业和公司最重要的资产时,数据质量顺理成章地上升到战略地位。获取并维护高质量数据,对高效的和业务运营至关重要。然而,数据常常表现出异常现象,并且导致严
9、重后果。从各个数据源汇聚而成的庞大的数据集之中往往存在着无用数据、错误数据。如何使这些海量数据在生产管理、科学研究、企业决策中发挥应有的作用,使用户能用、敢用、愿用,使数据真正为企业服务,这是几乎所有信息化企业亟需迫切解决的问题。本人的工作旨在分析影响油气大数据数据质量的因素,提出对油气开采大数据进行质量管理的方法、设计步骤。用科学合理的手段对油气大数据进行质量管理,进而通过可靠的数据辅助决策,提升油气开采的经济效益。 2 22 2人们广泛接受的关于数据质量(Data Quality)的定义是“使用的适合性”即“Fit for use”。我们可以看出,数据质量是一个抽象的概念,通常我们都是通过
10、多个量化的指标来描述数据的质量。既然数据质量是对用户需求的满足程度的范畴,那么对数据需求的不同,对数据指标的要求也就不同。2 2准确性语法准确性语义准确性值完全性完全性关系完全性元组完全性属性完全性时间特性时效性波动性现势性主键依赖完整性函数依赖包含依赖一致性表内约束表外约束2 2多数据源数据生产中的主观判断有限的数据资源安全性和可获取性之间的平衡跨学科的数据编码复杂的数据表示方法数据量输入规则过于严格不断变化的数据需求分布式的异构系统2 22 2当数据质量出现了问题,最方便的一种方法是购买数据质量管理相关产品。目前市面上的数据质量工具由各大公司及一些开源社区提供。数据清洗工具是最常见的质量工
11、具,一般应用于管理领域,目标是修复、移除坏数据。一些互联网公司提供了ETL工具,这些工具也有一些数据质量管理功能,例如Oracle公司的Data Integrator和Warehouse Build、微软的Dynamics Integration及IBM的Data Integrator。ETL处理过程中,数据清洗扮演着举足轻重的作用。按需求对数据质量工具进行分类如下:3 33 3数据质量评估由其规定的算法,量化地表示总结出的七类数据质量评估指标。全面、系统的对数据体系的质量评估可以使得管理者或者研究人员清楚地掌握数据的质量,极大地对质量管理以及优化和完善等环节的效率,对症下药,有的放矢。数据质
12、量约束规则与数据质量评估指标之间的关系如下完整性评估算法公式为:准确性评估算法公式为:一致性评估算法公式为:及时性评估算法公式为: 3 33 3规则库中包含的约束表大量规则的集合构成规则库。针对不同的业务、不同的数据数据质量评价应选择不一样的规则,这些规则都存储在质量规则库中。这些规则表从不同的质量问题角度对字段进行多方面的约束,以保证数据源中数据的质量。数据集随着业务的不同以及不同时期需求的变化,可能有不同的质量审核需求,若使用传统方法,势必要随之建立若干业务规则表。换句话说,规则库的可扩展性不强,不具备通用性。为此,我们提出了基于数据字典的数据质量规则库,使得规则的划分不再局限于某项业务领
13、域,通过对数据字典中的“字段”信息表中各元组所包含的约束规则的定义,实现对该数据项进行规则约束。在设计规则库之前,有必要构建起一套架构稳定,符合实际需要的数据字典。没有数据字典的支持,针对数据字典中各“字段”进行设计的质量规则库也只能是“无源之水,无本之木”。只有首先弄清楚了字段的来源和其相关信息,然后进行对字段执行的质量约束才有价值。3 3数据字典是一种元数据,是数据库系统中较为重要的部分,存储着有关数据库结构信息的数据库对象,是系统中各类数据描述信息的集合。数据字典描述了实际数据是如何组织的。数据字典的内容一般包括:数据项、数据结构、数据流、数据存储和处理过程五部分,其作用是对系统中的数据
14、做出详尽的描述,对数据库中的数据集中管理。油田业务数据一般都按专业分类存储,同一个数据源中的表可能属于多个专业。另外,当用户所处的组织机构和岗位不同时,可能对各数据表的操作有不同的权限。这种解决方案符合油田目前的数据存储方式,具有广泛的适用性。数据字典模型如下:4 4系统目标 :通过构建数据质量管理系统,应能达到以下目的: (1) 能够使用户发现目前企业应用各系统中存在的数据质量问题,系统掌握数据管理现状与数据质量现状,为改善和提高系统的数据质量、加强操作的规范化管理提供依据。 (2) 通过数据质量管理,保障数据质量从而更好地服务油田生产,助推数字油田的发展。 (3) 实现数据服务方式自动化,服务过程标准化、程序化,服务环境网络化,服务管理科学化。以软件工具为支撑,以质量控制规范为准则,全面提高数据质量。 4 44 45 5在如今的大数据时代,任何决策都不能再简单地依靠经验和直觉,而是要基于对海量数据有效的研究与分析。论文通过全方位的了解、分析和论证,阐明了油气大数据的质量管理的必要性和重要性。 通过对文献的查阅和对石油上游工业的了解,进行了管理系统的设计和构架,初步验证了论文的思路,证明了研究内容的发展前景和其可行性。数据质量的管理和保障是数据资源发挥效用和创造财富的前提和保证。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 金融稳定专业试题及答案
- 农村信用社昭通市绥江县2025秋招英文面试题库及高分回答
- 企业安全生产标准化检查表生成器
- 医疗器材销售合同3篇
- 客户服务满意度调查表收集客户反馈与改进建议
- 护士资格《儿科护理》练习试题及答案
- 农村信用社兰州市永登县2025秋招笔试性格测试题专练及答案
- 2025年光伏发电技术习题及答案(期末考试)
- 2025年心理健康教育测评试题及答案
- 2025年广东省肇庆市事业单位工勤技能考试题库(附答案)
- 小学生中医健康宣教
- DB34-T2453-2015-泵站运行操作规程-安徽省
- 学校预算制度管理制度
- 产后抑郁症妇女的护理
- 公司全电发票管理制度
- 《人工智能通识导论(慕课版)》全套教学课件
- 视频制作拍摄服务方案投标文件(技术方案)
- 下半年中小学教师资格笔试考试题库带答案2025
- 2024年全国职业院校技能大赛高职组(环境检测与监测赛项)考试题库(含答案)
- 贵州省高品质住宅设计导则(试行)2025
- 2025-2030中国钽电解电容器市场营运格局分析与全景深度解析报告
评论
0/150
提交评论