etl技术在电信行业中的应用研究研究_第1页
etl技术在电信行业中的应用研究研究_第2页
etl技术在电信行业中的应用研究研究_第3页
etl技术在电信行业中的应用研究研究_第4页
etl技术在电信行业中的应用研究研究_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京工业大学硕士学位论文ETL技术在电信行业中的应用研究姓名侯煜申请学位级别硕士专业控制理论与控制工程指导教师程明20071105硕士学位论文本文主要完成了电信行业中抽取的枷,转换觚咖撕,装载蛐低车纳杓朴胧迪郑咛迕枋隽耍菏莩槿组件的结构分析与实现,实现。协洲騧哪唬也蛃衄誩丘筋阛伽曲锄加即祝瑃优衄吣训譨贸晒锱锄伽蚭鉕锄甧,撕蚰觚琣锄晒廿圮酬鷌鮡,讹鲥锄醓;硕士学位论文第一章绪论研究背景多个不同业务系统中抽取的数据,进行数据项名称的统一、位数的统一、编码的统第一章绪论我们针对电信经营分析系统这个特殊的要求,仔细分析了系统的数据源情况和数据啦T的过程,是构建数据仓库的重要环节。用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。具体来讲,数据抽取是数据源接口,包括原始数据接口和外部数据接口。源数据接口从业务系统中抽取数据,为数据仓库输入数据。数据转换包括对来自多个生产系统的数据源的处理,保证数据按要求装入数据仓库。数据清洗是一个确保数据集中的所有数值一致和被正确记录的处理过程。数据装载负责将数据按照物理数据模型定义的表结构装入数据仓库。这些步骤包括清空数据域、填充空格、有效性检查等。硕士学位论文数据仓库将决策分析用的数据集中在一起。数据仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据采集在技术上主要涉及互联、复制、增量、转换、调度和监控等几个方面。数据仓库的数据并不要求与联机事务处理系统保持实时的同步,因此数据抽取可以定时进行,但多个采集操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性转换和装载数据到数据仓库或者数据集市中,用于以后的分析。数据饕T谑莶挚组珼、数据库中的知识发现鰈,和总体数据质量管理时睐于数据集成的叫法。据而言,人工处理不现实,故自动化数据清洗受到工业界的广泛关注。为了保证数据质量,需要定义和判断错误类型;查找并标示错误实例;修改没有发现的错误。由于这些问题比较凌乱而显得难以采用通用的方法进行处理,大多数研究工作都针对特定领域的数据集,或者是对不同性质的异常数据进行的通用处理。国内关于数据清洗领域的研究多以理论为主,很少涉及产品。国外的相关研究则开始较早,且非常活跃,研究领域涉及以下几个方面研究高效的数据异常检测算法以避免扫描整个庞大的数据集;在自动化异常检测和清洗处理时增加人工判断处理以提高处理精度;数据清洗时对海量数据集进行并行处理;如何消除合并后数据集中的重复数据;建立一个通用的与领域无关的数据清洗框架。軪面临的挑战提供了基本的素材,因而存在着广阔的发展空间。由于现实需求的强劲推动,数据硕士学位论文及时、准确和稳定的效果,同时又要兼顾尽量减少对现有系统业务处理的影查找效率。所示为接口系统的位置一、理仓库数据的软件。该软件设计的主要内容一般包括;第一章绪论鷆瓶硕士学位论文系统分析文中具体描述了数据抽取三个元素的配置方案,并引入任务、流程机制,提供灵活的数据抽取过程的定制,并描述了在数据抽取任务繁重的情况下系统高效运行的方法。提供对系统中处理流程的运行监控机制并为处理流程负载平衡提供了相关统计分析数据,以便系统管理人员及时发现处理流程的负载平衡问题,系统支持在处理流程负载失恒的情况下重新构造处理流程的机制。数据抽取的特点是输入数据是批量的,输出数据也是批量的,处理过程一般比较简原始数据作为数据抽取过程的输入,有以下特点输入数据是批量的;原始数据存在的位置是多变的。我们分析一下文本文件中数据记录部分的格式,对于固定长度的这种格式类型,我们在拿到文件的时候应该知道,该文件中每条记录包含哪些字段、每个字段在记录中的次序和每个字段的长度。对于用分隔符号分割的这种文件,我们在拿到文件的时候同样也应该知道,该文件的数据记录包含哪些字段、字段之间的次序。这些信息和数据库表的描述方式是类似的。经过上面的分析,我们发现文本文件和数据库表均可以采用同样的方式在数据抽数据抽取的过程一般遵从下面的简单流程在整个数据抽取过程中主要的任务是数据转换。数据转换一般来说遵从如下的基,填写缺省值主要应用在两种环境,一种是目标数据中的元素与处理时的各种业硕士学位论文函数运算函数包括通用函数和行业函数。通用函数是指数学函数、字符串函数、日期函数等,表述了源事件属性和目标事件属性之间的函数关系。行业函数是指在某一行业中使用的专用算法,如电信行业的计费时长和通话时长的计算算法,目前我们收集到的有市话计费时长算法、长话计费时长算法及区间计费时长算法、口计费时长算法、公话计费时长算法。源事件的物理数据模型图对象可能是数据库表格,也可能是平面文件。每个属性的描述信息包括属性的名称、数据类型、长度等信息。程数据库读取数据。鷈萫譶姗獿。鷈状是否主键簍恹字段之间的关系文件服务器字段名称服务器编号服务器名称服务器用户名称密码篺气鱎鳯源事件属性标识处理过程控制参数原事件属性目标事件属性过程详细定义数据概化规则数据规范化规则填写缺省值规则数据规范化详细规则甄磊菘瓦鬲数据规范化体系图处理过程的物理数据模型图目标事件属性描述目标事件各属性的信息。过程定义阳五咀一个过程描述一个数据抽取的实例,一个处理过包括运行的事件、运行时可以处理的源事件的数目等控制信息。法,并包含产生该目标事件属性的处理规则。一个目标事件属性可能由若干个源事中相应指标和概化体系中的相关概化指标的关系。描述一套数据规范化方法的分类信息。范化规则之间的边界。填写缺省值一般分为按字段定义的缺省事件的代码和目标事件的概念或代码进行转换。目标事件的属性可能由源事件的一硕士学位论文进行处理,才可以获得需要的值。如对一个变量顺序执行若干个函数才可以得到某采用的方法甤黟獿默认值源事件属性标识参数名称恹鶹獿岣獿是否主键鱈概化规则原始值名称岫獿乏。篺状原始值类型气填写缺省值规则字段名称字段含义规则编号讯硕士学位论文目标事件属性一图目标事件的物理数据模型图协啊甿目标事件定义了榧氖涑觯桓鯡过程可能输出多个目标事件。字段含义理阱簍琾纫擎乏矿锄旬巧弦丘阤属性的个数数据存贮目录数据文件名固定部分鷈数据库连接目标文件服务器是否数据驿站籥曙硕士学位论文任务实例标识縧处理开始时间源事件关键字源事件关键字任务生成时间原始文件名称文件所在主机标识鷈数据库表所在实例切数据库表属主图流程定制的物理数据模型图岛圈、习一翻图典型的处理流程图聊流程组定义当系统中的流程较多的时候,我们可以将若干个流程并标识流程实例状态为就绪状态。猧獿F印獿鷈獿猧一喑省趣餱亚垃参数名称曰志创建时间;失效日期异常文件告警表任务标识峦住显鲎叠娄绚呈文件异常名称处理办法业处理过程标识原事件标识图其他相关对象的物理数据模型图廿处理开始时间处理结束时间操作员工号处理成功状态失败原因產日志创建时间獿处理原始记录数生成记录数生成文件数处理文件数创建时间闘硕士学位论文处理办法一般有告警、丢弃该文件处理结果并告警、丢弃该批处理结果并创建数据库在创建数据库之前,先介绍一下数据库的设计原则【对于中小型数据库系统,采用操作系统比较合适,对簊位小型机系统或数据库俏槐曛臼菘獾姆牛炔荒艹个当表空间大小小于操作系统对最大文件限制时,表数据文件的最大使用范围。话阚鮪幌低车奈募畲菘獠渴鹪谝徊縄主机上,操作系统为所有者硕士学位论文对于用户进程躠躿伽躸緋本章小结工具设计的整个数据抽取系统的物理数据模型结合电信业务场景介绍本数据抽取系统的数据库环境部署。使用该设计实现的数据抽取系统已经成功应用于国内某省电信的经营分析接问题的提出在数据抽取的过程中,大量的信息需要从数据库中获取,例如在电信行业计费务信息等等庑畔径际且允荼淼男问酱嬖诘那沂刻乇鹁薮每张表可的原理硕士学位论文结果为等于蛘卟坏扔欢媸鳌树等因为本身是有序的,所以比较表某需要存储的学生信息表籰乳如果以线性表来存储以上信息的话,那么典型的内存结构如下图所示】图典型线性表内存结构巧硕士学位论文所示结果如果相等就说明查找到结果。可以是线性的偏移函数,比如,也可以是二次的如,假设此例中使用线性偏得的哈希函数值都落在表长所允许的范围之内即可;圆煌墓丶挚赡艿玫酵还刂罚磌賙鴉,种冲突现象。多索引哈希表的原理以上传统的哈希表在实际的应用当中存在着几个明显的缺陷针对以上的三个实际问题,本文提出了多索引的哈希表方法,这里的多索引指硕士学位论文的是记录可以有多个关键字,哈希表支持对每个关键字进行查找。九鶬甧硕士学位论文刚胫赶蛞桓鍪菁锹迹幢淼闹刚胗蚣磒指向下一个链表元素,这样做的目的是为了解决哈希地址冲突,也就是说当哈希键值冲突时,采用的是链式的分配方法,从而可以适应表长动态增加的需要。而图中存放地址即图中的结构是为了使哈希表更加强大所设计的功能一支持法来实现的。上节介绍了多索引哈希表的原理和内存结构,本节将介绍其实现,下面涉及到的初始化哈希表函数木琲该函数将建立一个新的哈希表。函数的返回值为该元素的哈希键值。元素和要采用的比较方法,函数中可根据的取值硕士学位论文个连接。该参数在哈希表创建后不能改变。汛狼哈希表插入函数两个回调函数错误。内存错误诖娌蛔。要插入元素的哈希表标识。要插入的记录,该记录将以被拷贝到哈希表中。插入操作成功。参数中的哈希表标识无效。晕簍,含有要查找条件的记录。该记录中只需要与查找相关的字在进行比较时要选择的比较方法,该参数将被传入在哈希表中找不到符合条件的记录,则不打开任何连接,返回的汛内存错误诖娌蛔。要遍历的哈希表标识。汛插入操作成功。承哈希回调函数返回的键值超出哈希表初始化时空间。返回哈希表查询或遍历结果函数鎝,要返回元素的哈希表标识。插入操作成功。鎝輇,;址插入操作成功。释放的哈希表指针的指针,该指针将置为臼聀该函数销毁一个哈希表,关闭所有处于打开状态未关闭的连接,释放全部系统资硕士学位论文本章小结,并且对帧肫呤。这个关系和斐波那契序列极为相似。利用归纳法容易在一般情况下,处理冲突方法相同的哈希表,其平均查找长度依赖于哈希表的先分析长度为墓碇凶疤钣衝个记录时查找不成功的平均查找长度。这定蔷鹊模床碇懈鞲龅刂返母怕氏嗟龋处理冲突后产生的地址也是随机的。硕士学位论文若设表示前龉刂肪逋坏母怕剩籷硎拘杞衖次比较才找到一暑口,旦堕盟一偷仍囊凇静范鳭籰一而甽弧笔甽聊值,恰为填入此记录时找到此哈希地址时所进行的比较次数的期望值。因此,对表长锹际猲的哈希表,查找成功时的平均查找长度为最苙艫。设对黾锹嫉牟檎腋怕氏嗟龋碅三,则一“瑚柑脚一口上习内。也就是说,哈希表查找的时间复杂度为。改据。二叉树支持动态的插入和查找,其时间复杂度为,平衡二叉树就是为试验的主机环境为綪僮飨低澄狝为存,数据库为公司的图测试环境显示图硕士学位论文图插入条记录过程显示图第四章哈希表查找方法的性能分析图插入条记录结果显示图程序会首先将测试数据表中的数据以各自的数据结构媸鳌加载到鷇嬲蚵馗床街,查找狿对的纪录,首先用二图二叉树方法查找条记录耗时结果显示图韶阤图哈希表方法查找条记录耗时结果显示图髡萘课条记录,如下图馗床街,查找鯪餋猄】的纪录,用二叉树耗时,结果显示如下图所示崦第四章哈希表查找方法的性能分析图哈希表方法查找条记录耗时结果显示图图迦条记录结果显示图硕士学位论文氖皊,结果显示如下图所示图媸鞣椒檎条记录耗时结果显示图阤第四章哈希表查找方法的性能分析本章小结硕士学位论文程序开发工具,由头文件和库函数等组成的一套数据库应用程序编程接口工程序设计语言鏑语言薪械饔每焖倏7菘庥贸绦颉。它不同于图鯽等等,同时,也可曾有学者专门对各种接口进行了详细的比较,结果如表所示劬舔只适合只适合一个玫闹饕H挝窕故侵葱蠸语句,值腟语句类型有硕士学位论丈跏蓟痮编程环境和线程。编码等。会话,并可以给用户会话授权以或巧緇刀。连接。以免造成内存溢出以及对数据库安全构成威胁。上上葱衧处理数据上上图基本程序结构総瑄仃,瑄幸玎幸甴琩木返回一个参数的描述符。个面向对象的类菘饬永郥库;、舢、用来开启、提交、回滚事务。在此类中调用现与数据库连接、返回出错信息、打开记录集、关闭记录集、获取记录、获取下一户在使用时不需要了解获取数据的内部机制,只要会使用基本方法就可以了。在使方法。为了方便数据抽取,定义了表类。这样可以从指定的表中直接获取数据。定义了表的字段的说明信息。硕士学位论文图总体设计框图图数据库连接流程图矾加蛳图连接数据库函数流程断开与数据库的连接上图断开数据库函数流程菘釷函数函数流程如下图所示。图伽硕士学位论文本章小结封装数据库提供的詈蟾鯫接口与数据抽取应用实现流程图,硕士学位论文本文完成的主要工作而且重要的是,为了提高查找效率,论文中引入哈希表查找算法,并针对哈希表算法应用于电信行业数据抽取过程中的几个问题,对传统的哈希表进行改进,提出基于多索引哈希表的内存数据结构,并作性能分析比较。今后的研究工作本文所论述的“基于多索引哈希的内存数据结构糠种校蚕砟诖即进为了更广泛的推广、及保护软件设计者的权利,或许可以把该应用程序打包,应用于跨平台等等,最后生成一个蛘週库,方便一般用户调用该应用程序的功能模块。【客跣掠掠锪郑莩槿弧T刈凼觥綣】企业技术开发,【抗硇牡茫甴贺穙甤畁豠倨鰅州【】最小堆哈希表二叉树平衡二叉树红黑树隹畒觓瞐甴咖版,月【】王赞基于际跏迪挚焖偈莞袷阶弧綝】北京系列数据库编辑出版,【敬希椋贠技术的数据库连接【浚梗硕士学位论文,【】沈丽娟,金丹凳萄芯看萍己筒担【】缪嘉嘉,邓苏,刘青宝凼觥綣】计算机工程,磇僦【】淄膏薯鰐边担甤鳎産“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论