




已阅读5页,还剩50页未读, 继续免费阅读
(计算机软件与理论专业论文)教务数据仓库中数据清理方法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华中科技大学硕士学位论文 摘要 随着信息技术的发展,如今越来越多的单位和组织积累了大量数据。为了充分利 用这些数据以支持决策,必须建立数据仓库。但是,现实世界中的数据往往存在各种 质量问题,根据“垃圾进,垃圾出”的原理,数据清理的需求变得日益突出。 在阐述数据清理原理的基础上,着重从属性清理和记录清理两方面对数据清理进 行了研究。 在属性清理方面,为检测出异常的属性值,针对不同的数据类型采用了不同的方 法,主要思想是利用元数据表对不同类型的属性僮施加约束,将元数据表和应用程序 结合起来捡测异常的属性值;对于数据集中的缺失数据,研究了如何用贝叶斯分类方 法来修补缺失值。 在记录清理中,改进了基于相似系数和的孤立点检测算法,改进后的算法不仅能 检测出倍数异常孤立点,还能检测出分量异常孤立点,进一步提高了检测精度。此外, 原有的相似重复记录检测算法在数据量大、错误多、单词间有相互影响,特别是单词 中的插入、删除错误较多时检测能力不足。通过对原有方法的组合和改进,提出了一 种高效的捡测相似重复记录的方法,它能检测出常见的拼写错误如:插入、删除、替 换、交换、单词交换,与以前的方法相比,此法时间复杂度小且精度有较大提高。 关键词:数据仓库,数据清理,孤立点,相似重复记录 华中科技大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y ,m a n yo r g a n i z a t i o n st o d a yh a v e a c c u m u l a t e dag r e a td e a lo fd a t a i no r d e rt ou t i l i z et h e mf u l l yt os u p p o r tm a k i n gd e c i s i o n s , t h e yn e e dt oc o n s t r u c td a t aw a r e h o u s e h o w e v e r ,t h er e a l w o r l dd a t aa r eo f t e nd i r t yd u et o v a r i o u sd a t aq u a l i t yp r o b l e m s ,t h en e e df o rd a t ac l e a n i n gi n c r e a s e ss i g n i f i c a n t l yd u et ot h e ”g a r b a g ei n ,g a r b a g eo u t ”p r i n c i p l e t h es t u d yi sf o c u s e do nt h ef i e l dc l e a n i n ga n dt h er e c o r dc l e a n i n ga f t e re l a b o r a t i n gt h e p r i n c i p l eo ft h ed a t ac l e a n i n g i nt h ef i e l dc l e a n i n g ,i no r d e rt od e t e c td a t ao u t l i e r s ,w ea d o p ts p e c i a lm e t h o df o re v e r y k i n do fd a t a ,t h em a i ni d e ai st or e s t r a i nd a t at h a th a v ed i f f e r e n tt y p e sb ym e t a d a t at a b l e s a n dd e t e c td a t ao u t l i e r sb yc o m b i n i n gm e t a d a t at a b l ea n da p p l i c a t i o np r o g r a m ;i nt h er e p a i r o fm i s s i n gv a l u e s ,w es t u d yh o wt or e p a i rm i s s i n gv a l u e sb yb a y e s i a nc l a s s i f i e dm e t h o d i nt h er e c o r dc l e a n i n g ,w ei m p r o v et h ea l g o r i t h mt od e t e c to u t l i e r sb a s e do ns i m i l a r c o e f f i c i e n ts u m ,t h ei m p r o v e da l g o r i t h mc a nn o to n l yd e t e c tt h eo u t l i e r sd u et oa b n o r m a l m u l t i p l e ,b u ta l s ot h eo u t l i e r sd u et oa b n o r m a lf i e l dv a l u e ,t h ed e t e c t i o np r e c i s i o ni s e n h a n c e df u r t h e r m o r e b e s i d e s ,i ft h e r ea r eal o to fd a t aa n ds p e l l i n gm i s t a k e s ,a n dt h e w o r d sa f f e c te a c ho t h e r ,t h ef o r m e rm e t h o d sf o rd e t e c t i n ga p p r o x i m a t e l yd u p l i c a t er e c o r d s a r en o tw e l lq u a l i f i e d ,e s p e c i a l l yw h e nt h e r ea r em a n yi n s e r t i o n ,d e l e t i o nm i s t a k e s b y c o m b i n i n ga n di m p r o v i n gt h ef o r m e rm e t h o d s ,w ep r o p o s ea ne f f i c i e n ta p p r o a c h f o r d e t e c t i n ga p p r o x i m a t e l yd u p l i c a t er e c o r d s ,i tc a nd e t e c tt h ec o m m o ns p e l l i n gm i s t a k e ss u c h a si n s e r t i o n ,d e l e t i o n ,s u b s t i t u t i o n ,t r a n s p o s i t i o na n dw o r ds w i t c h i n g ,c o m p a r e dw i t ht h e f o r m e rm e t h o d s ,t h ea d v a n t a g eo ft h ea p p r o a c hi si t ss m a l lc o m p u t i n g c o m p l e x i t ya n dh i g h p r e c i s i o n k e yw o r d s :d a t aw a r e h o u s e ,d a t ac l e a n i n g ,o u t l i e r ,a p p r o x i m a t e l yd u p l i c a t er e c o r d s 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本 论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本 文的研究做出贡献的个人和集体,均己在文中以明确方式标明。本人 完全意识到本声明的法律结果由本人承担。 学位论文作者签名:啤p 极 幻叮年乒月z 4 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即: 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本论文属于 不保密口。 ( 请在以上方框内打“”) 学位论文作者签名: 7 咿年( t - 月。日 嗜瓠 指导教师签名: 捌f 红月毋日 华中科技大学硕士学位论文 1 1问题的提出 1 绪论 近年来,随着计算机的不断普及及网络技术的快速发展,很多企事业单位拥有大 量的电子数据,这些数据可能存在于不同的数据源,格式十分繁杂,但在其中隐含丁 大量的知识。数据量的单纯增加并不能使人们获得有用的信息、,正如j o h nn a i s b e t t 所晓“人类正玻数据淹没,而人类却臼l 渴于知识”,这里所指的“知识”就是数据中 隐含的信息【”。 数据仓库( d a t aw a r e h o u s e ,d w ) 技术就是为获取各异构数据源中的有用信息而 产生的,其概念最早见于1 9 8 8 年d e v l j n 和m u r p h y 的一篇论文,而它被系统地阐述 则在1 9 9 3 年w h i n m o n 所著的b u i l d i n g t h ed a t aw a r e h o u s e ) ) 中,w h i n m o n 将数据仓库定义为“一个面向主题的、集成的、时变的、非易失的数据集合,支持管 理部i 的决策过程” :。数据仓库是决策支持系统d s s ( d e c i s i o ns u p p o r ts y s t e m ) 的重要组成部分,构建数据仓库是挖掘有用信息以进行决策支持的前提引。数据仓库 应能准确、安全、可靠地从数据源中提取数据,经加工转换成有规律的信息后,供管 理人员进行分析。但在构建数据仓库的过程中,进入数据仓库的数据质量不容乐观, 除了各数据源中本身可能存在的数据缺失、数据异常问题以外,数据在集成时也可能 带来新的问题,如: ( t ) 数据的标准化:在不同的数据源中,同类信息可能表现为不同的格式。 ( 2 ) 数据粒度问题:有的数据粒度太粗,需要通过分析,使其具有较好的粒度, 结构性更强。 ( 3 ) 数据值冲突:来自不同数据源的数据可能存在取值不一致。 ( 4 ) 数据集中存在重复的记录:数据集成后可能有多条记录对应同一个现实实 体,但这些记录的数据不完全相同,识别并处理这些相似重复记录是十分重要的问题。 按“垃墩进垃圾出”( g a r b a g ei n ,g a r b a g eo u t ) 的原理,进入数据仓库中的数据 l 华中科技大学硕士学位论文 质量将极大程度地影响决策支持的效果,要从低质量的数据中得出新的、可靠的发现 以支持管理人员作出精明的决策几乎是不可能的,所以必须使用一系列数据清理手段 柬提高数掘质量。 1 2 数据清理研究概况 1 2 1 数据清理的含义 数据清理在英文中一般称为d a t ac l e a n i n g ,d a t ac l e a n s i n g 或d a t as c r u b b i n g t 中 文则有数据清理、数据清洗、数据净化、数据刷洗几种说法。 对数据清理的具体定义,目前还没有统一的结论。在不同的应用领域,数据清理 的含义不完全一致。在数据仓库中,数据清理是e t l ( e x t r a c t i o n ,t r a n s f o r m a t i o n , l o a d i n g ) 的一个重要组成部分,要考虑数据仓库的集成性和面向主题的特点:在k d d ( k n o w l e d g ed i s c o v e r vi nd a t a b a s e ) ,数据清理主要是提高数据的可利用性f 5 ( 处理噪 声、无关数据、缺失数据域及不一致数据) 。 按文i 铁1 6 ,数据清理是减少错误和不一致性,解决对象识别的过程。这是一个比 较恰当的解释。 在本文中,主要考虑数据仓库中的数据清理问题,认为所有提高数据质量和数据 可利用性的过程都是数据清理。 1 - 2 2 数据清理的研究现状 国外对数据清理的研究起步较早,美国因其商业的发达而成为研究数据清理最早 的国家。随着d w 、d s s 、k d d 等的快速发展,要求有高质量的数据作支持,从而刺 激了数据清理的发展。 目前,国外的数据清理软件主要为商业的数据清理软件和大学研究机构的数据清 理软件。 商业上的数据清理软件主要有: ( 1 ) s a si n s t i t u t e 公司的s a sw a r e h o u s ea d m i n i s t r a t o r 。 ( 2 ) e l e c t r o n i cd i g i t a ld o c u m e n t 1 n c 公司的d a t a c l e a n s e r 。 华中科技大学硕士学位论文 ( 3 ) d a t aj u n c t i o nc o r p o r a t i o n 公司的d a t aj u n c t i o n 。 ( 4 ) p l a t i u mt e c h n o l o g y 公司的i n f o r e f i n e r 。 ( 5 ) v a l i t yt e c h n o l o g y 公司的i n t e g r i t yd a t ar e e n g i n e e r i n ge n v i r o n m e n t 。 ( 6 ) w i n p u r el t d 公司的w i n p u r e 。 各大学研究机构的数据清理软件主要有: ( 1 ) 加州大学b e r k e l e y 分校的p o t t e r s w h e e l a b c ,一个交互式的清理工具, 用c 语言、p e r l 语言或者工具提供的宏语言来写转换规则。 ( 2 ) 新加坡国立大学的i n t e l l i c l e a n ,个基于知识的智能数据清理工具,使用 了一个j a v a 语言的专家系统外壳。 ( 3 ) 法国i n r i a 研究机构的a j a x ,一个可扩展的数据清理工具。 国外数据清理的研究主要有以下特点: ( 【) 在属性清理方面,研究的重点大部是人名和地址的清理,采用的技术集中 在利用属性间的约束关系及外部数据等,在数值型属性的清理方面,主要采用数理统 计方洼和人工智能方法。 ( 2 ) 尽管相似重复记录的清理受n t 相当多的关注,采用了许多改进方法和流 程,但识别效率和识别精度仍有待提高。 ( 3 ) 大多数清理方案都是针对特定问题,只适用于较小的范围,通用的方案较 少。相对束说,大学研究机构则有一些较通用的方案。 c 4 ) 大多数清理方案都提供了用户编程接口,一般都是描述性的,且部是现有 的人们熟悉的语言的扩充。 ( 5 ) 交互式的数据清理榧架由于其高效性、友好性在研究和应用上得到了越柬 越多的重视。 而国内对数据清理的研究尚处于起步阶段,n n - - 些n 论成果,但转化为产品、 投入市场的很少见。 1 3 数据清理存在的问题和发展方向 目 狮,对数据清理的研究主要存在如f 一些问题 华中科技大学硕士学位论文 ( 1 ) 研究主要集中在对相似重复记录的检测和处理上,对属性清理的研究不够 深入。对属性清理的研究主要集中莅对单个字段的属性清理上,对多个字段间的属性 清理研究很少。数掘挖掘算法在数据清理中的应用还不成熟 刀。对字符型属陛的自动 = 别和清理有待进一步的研究。 ( 2 ) 在检测相似重复记录的算法中,检测效率和精度仍需进一步提高。 ( 3 ) 在用户友好性方面,很多系统部提供了描述性语言,但基本上都迅对某种 已有的语言根据自己的需要经过扩展实现,不能很好地满足数据清理中模糊匹配的需 要。在用户友好性方面需要进一步的研究。 ( 4 ) 在数据仓库e t l 框架中,数据清理不是一个单独的部分,需要和数掂抽取、 数据转换集成,与数据载入统一使用,而且需要进行循环处理队这部分的研究也需 加强。 ( 5 ) 通用的数据清理方案仍不多,是迸一步研究的热点。 1 - 4 课题的主要研究内容 研究的目的在于力求通过一系列的数据清理算法和统一的清理框架柬姓,:敦务 数据仓库中的数据质量。将主要研究如下几方面的问题: ( 1 ) 对集成后的数据集中的异常数据如何检测并处理。 ( 2 ) 对记录中的缺失属性值如何修补。 ( 3 ) 对孤立记录如何识别和处理。 ( 4 ) 对相似重复记录如何检测并处理。 华中科技大学硕士学位论文 2 高校教务数据仓库 2 1 构建教务数据仓库的必要性 随着数据库应用的普及,人们逐渐认识到数据处理的多层次性。当前的数据处理 可大致分为:事务处理和分析型处理。数据库系统主要用于事务处理,尽管数据库在 事务处理方面获得巨大成功,但它对分析型处理的支持一直不能令人满意,尤其是当 以业务处理为主的联机事务处理( o n - l i n e t r a n s a c t i o n p r o c e s s i n g ,o l t p ) 应用与以分 析处理为主的d s s 应用共存于同一个系统中时,这两种类型的处理发生了明显的冲 突。这是因为,事务处理和分析处理有本质的不同,直接使用事务处理环境来支持 d s s 是行不通的,原因主要有以下五条 9 1 : i 用户的行为模式 在事务处理环境中,用户的行为特点是数据的存取操作频率高,但每次操作的时间 短。因此系统可允许多个用户按分时方式使用系统资源,且保持较短的响应时间。 但在分析处理环境中,用户的行为模式与此完全不同,某个d s s 应用程序可能需 要连续运行几个小时,从而消耗大量的系统资源。 既然此两种方式的用户行为如此不同,将它们放在同一个环境显然是不合适的。 2 数据的集成问题 d s s 需要集成数据,全面而正确的数据是有效分析和决策的首要前提。d s s 不仅 需要整个单位内部各部门的数据,还需要外部数据。 事务处理的目的在于使业务处理自动化,一般只需要与本部门业务有关的当前数 据,而对各部门的数据集成考虑得很少。对于d s s ,必须在应用程序中对这些数据进 行集成,而数据集成是一项十分繁杂的工作,都交给应用程序完成将会大大增加程序 员的负担。并且每做一次分析,都要做一次集成,将会导致极低的处理效率。数据集 成问题具体来说有如下几方面: ( 1 ) 事务处理应用的分散 华中科技大学硕士学位论文 = = = = = = = = # = = = = = = = = = = = = = = = = = = = = = = = = = = ;= = = = = = = = = = = = = = = = = = = = 一 当前一个单位内部各事务处理之间几乎是独立的,原因是多方面的。有设计上的 原因,如系统设计人员为减少系统开发费用和加快开发进度,采用简单而“有效”的 设计方法,“有效”指系统仅对解决当前的问题有效,而不能保证对以后新出现的问 题仍有效。也有经济上的原因,当经费有限时,开发人员会先对关键的业务活动建立 应用系统。还有历史、地理方面的原因,如某单位由分敞在各地的多个部门组成,单 位的兼并等。 由于这种事务处理分散状况的存在,d s s 应用需要对分散在多个事务处理应用中 的相关数据进行集成,为分析人员提供统一的数据视图。 ( 2 ) “蜘蛛网”问题 在d s s 应用中为了避免与其他用户冲突,以及简化用户的数据视图,一种称为“抽 取程序”的方法被广泛地应用。用户利用抽取程序从文件或数据库中查找有用的数据, 然后这些数据被提取出来放入其他文件或数据库中供用户使用,可能又要被某些用户 抽取,这种不加控制的连续抽取最终导致系统内的数据间形成错综复杂的网状结构, 人们形象地称为“蜘蛛网”。 虽然网上两个节点的数据可能是从原始库中抽耿出来的同一节点数据,但其数据 没有统一的时侧基准,抽取算法不同,抽取级别也不同,并且可能参照不同的外部数 据。因而对同一问题的分析,不同节点可能产生完全不同的结果,使决策皆无从下手。 ( 3 ) 数据不一致问题 前述的应用分散和“蜘蛛网”等问题导致了数据的不一致,数掘不一致的形式足 多样的,如:同一字段在不同应用中具有不同的数据类型,同一字段在不同应用中具 有不同的名字,同名字段在不同应用中含义不同。 为了将这些不一致的数据集成起来,必须对它们进行清理转换后爿进行分析,这 是一项很繁重的工作。 ( 4 ) 外部数据和非结构化数据 在决策中经常用到外部数据,这部分数据不是由事务处理系统产生的,而是来自 其他外部数据源。如报刊文摘、相关报告、市场竞争分析、国家的指导性政策文件、 市场调查的结果等。这些数据部是半结构化或非结构化数据。在事务处理系统中,没 华中科技大学硕士学位论文 有对外部数据管理的机制,d s s 应用必须集成。 3 数据动态集成问题 若每次分析都进行数据集成开销太大,所以一些应用仅在开始时对数据集成,以 后就一直以这部分数据作为分析的基础,不再与数据源发生联系,这种集成方式称为 静态集成。此方式的问题在于,若数据集成后数据源中的数据发生了改变,这些变化 将不能反映给决策者,导致决策者使用的是过时的数据。因此,集成系统必须以一定 的周期进行刷新,我们称其为动态集成,显然事务处理系统不具备动态集成的能力。 4 历史数据问题 事务处理一般只需要当前数据,在数据库中般也只存储短期数据,且不同数据 的保存期限也不一样,即使有一些历史数据保存下来,也未得到充分利用。但对d s s 而言,历史数据是相当重要的,许多分析方法必须以大量的历史数据为依托,显然事 务处理系统难以满足这种要求。 5 数据的综合问题 在事务处理系统中积累了大量的细节数据,d s s 一般不会对这些细节数据进行分 析,主要原因有两个:一是细节数据数量太大,会严重影响分析效率;二是大多数细 节数据不利于分析人员将注意力集中在有价值的信息上。因此,在分析前往往需要对 细节数据进行不同程度的综合,达到合适的粒度。而事务处理系统不具备这种能力。 以上这些问题表明,要提高分析和决策的效率,分析型处理及其数据必须与操作 型处理及其数据相分离。必须把分析型数据从事务处理环境中提取出来,按d s s 处理 的需要进行重新组织,建立单独的分析处理环境。数据仓库正是为了构建这种新的分 析处理环境而出现的一种数据存储和组织技术。 学院建校至今已有3 0 多年历史,从1 9 8 7 年几个系部就建立了教务m i s 系统,如 今,各院系的教务管理系统不完全相同,有的院系甚至拥有不同时期的多个系统。随 着学校对决策信息需求的日益增长,深深感到这些存在于多个事务系统中的数据是进 行分析和挖掘的宝贵资源也感到直接在事务型系统中进行分析决策的力不从心。所 以必须构建数据仓库以建立单独的分析处理环境,更好地支持信息分析和决策,使学 校的教学管理水平和教学效果有更大的提高。 华中科技大学硕士学位论文 = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = 一 2 2 教务数据仓库的体系结构 数据仓库系统是一种解决方案,而不是可以买到直接就用的产品,构建数据仓库 一定要切合本单位的实际和应用需求。要成功地实施数据仓库,首先要拟订适合本单 位特点的数据仓库系统框架,一个真正实用、有效、灵活的数据仓库系统体系结构的 逢立是十分必要的。近年来,国际学术界正积极对数据仓库系统的体系结构展开研究, 例如, m a r y l a n d 大学的a d m s 系统 ”1 ,c o l o r a d 0 大学的h 二o 系统【1 1 1 和s t a n f o r d 大学 的w h i p s 计划l 。:i 等。 在对学饺实际情况和应用需求深入了解的基础上,采用如图2 - l 所示的三层数据 仓库体系结陶,用微软公司的s q l s e r v e r2 0 0 0 丌发了敦务数据仓库。 亢询 艮告、分析、d m z7 l 提取、清 i 转换、袈 l 操作弘系统、外部数据 图2 一l 教务数据仓库体系结构 卜面对圈中每一部分加以解释: 顾层: j f 端1 n 中间层:o l a p 服务器 底层:数据仓库服务器 数据 8 华中科技大学硕士学位论文 2 2 1 数据的提取、清理、转换和装入 要将有用的数据源移入数据仓库必须经过数据预处理的过程,它由三个主要步骤 组成:数据抽取( e x t r a c t i o n ) 、清理和转换( t r a n s f o 叽a t i o n ) 、装载( l o a d i n 曲,简称e t l , 这是构建数据仓库的重要环节【1 3 1 。 ( 1 ) 数据抽取:从数据仓库的角度来看,并不是各数据源中的所有数据都是决 策支持所必须的。通常,数据仓库按照分析的主题来组织数据,只需提取出系统分析 所必须的那一部分数据。需提取的源数据在不同的硬件平台上,使用不同的操作系统 和d b m s ,可能具有多种数据格式,在载入数据仓库之前,应将它们转换为同一数掘 格式,使它们具有通用的、一致的格式,以便装入数据仓库。此外,数掘提取器还应 能监视数据源中数据的变化,及时将这些变化上报到数据仓库,以刷新数据仓库。 ( 2 ) 数据清理和转换:数据提取过程中可以完成一些数据清理和转换,但在将数 据装入数据仓库之前,往往还有其他的清理任务需要完成。这是因为,某些在数据提 取过程中呵通过技术手段完成的数据清理和转换可能会影响联机源系统的性能或操 作,应将这些任务推迟到数据提取之后进行。数据清理和转换阶段的任务是采用备种 手段睑测并处i 里数据中的质量问题,把来自不同系统的数据统一到数据仓库的数掘模 式上来,保持数据仓库中数据的一致性、准确性、完整性。 ( 3 ) 数据装钱:数据清理并将其转换成与数据仓库要求一致的结构后。数据即;佳 备装入数据仓库。在这一阶段,主要进行对数据的排序、汇总、合并、计算视图、检 查完整性、建立索引和划分的操作。 2 2 2 数据仓库和数据集市 针对学校各个部门地理位置分散、职能不同的特点,可进一步在数据仓库基础上 根据需求装载若干数据集市( d a t am a r t ) 。数据集市是一种更小、更集中的部门级数 据仓库,是按照某一特定的决策支持需求而组织起来的、针对特定主题的数据仓库。 包含在数据集市中的数据通常是汇总的。建立数据集市的目的是减少数据处理量,使 信息利用更快捷、灵活。 9 华中科技大学硕士学位论文 2 2 3元数据 元数据( m e t a d a t a ) 是有关数据的数掘,通常在信息技术中为了便于分析、设计、 建造、实现和使用计算机系统而需要的信息部称为元数据。使用元数据的目的足为了 给一个计算机系统的结构、丌发处理和使用提供一个连续的文档。 2 2 4 o l a p f l 务器 o l a p 服务器为用户提供来自数据仓库或数据集市的多维数据,使用户可在其提 供的数据集上进行高效率的查询、分析、数据挖掘。s o l s e r v e r 2 0 0 0 的o l a p 服务器 是一种混合型的o 乙廿服务器,允许将大量详细数据存放在关系数据库中,而聚集保 持在分离的多维o l a p 存储中,使用户可以对大量数据进行快速的查询及分忻。 2 3 教务数据仓库的。l 生质 教务数据仓库系统的主要功能就是要将决策支持所需的数据从日常操作型数据 中分离出来,使操作型环境和分析型环境相分离,从而更好地为教学管理提供决策支 持。 教务数据仓库系统实质上仍是计算机存储数据的系统,只不过它存储的数据在显 上和质上都与普通的数据库系统有所不同。教务数据仓库中存放的数掘是整个学校涉 及敦学的分析型数据,它不存放与分析无关的纯操作型数据,而且数据仓库中存储的 数据随分昕主题的增加而增加。因此,数据仓库不是一成不变的,而是处于不断变化 中的。当然,教务数据仓库中的数据并非只增加不减少,对分析主题不再有用的数据 或一些经过综合后遗弃的细节数据应当从数据仓库中清除。此外,由于教务数据仓库 是为决策分析提供支持的,数据仓库中的数据具有一致性的特点,因此,它对信息分 析人员而言是只读数据,信息分析人员不能对数据仓库中的数据进行任何修改,只能 定期刷新。 教务数据仓库系统并不是对现有教务数据库系统的替代,丽是对传统数据库系统 的更高层次的发展。数据仓库侧重于分析决策,传统数据库系统侧重于事务处理。传 统数据库系统是数据仓库系统的基础,但不能说它是完全以为数据仓库系统提供源数 据为目的的。 1 华中科技大学硕士学位论文 2 4 本章小结 本章主要阐明了构建高校教务数据仓库的必要性,介绍了该数据仓库的体系结 构,最后阐明了教务数据仓库系统的实质。 华中科技大学硕士学位论文 3 数据清理原理 3 1 数据清理的流程 数据清理是一个复杂的过程,一般而占,数据清理可分为三个阶段,如图3 一l 所 示。 第一阶段,分析数据。数据分析是数据清理的前提和基础。对数据集进行分析, 发现其中存在的问题,对分析得到的结果定义清理转换规则与流程,然后对数据样本 进行清理验证,当不满足清理要求时调整清理规则、流程或系统参数。分析臼勺时候, 可以使用很多方法,包括数据应用领域的领域知 = 、概率统计方法、数据挖掘方法及 人工方法等, 第二阶段,发现脏数据。在数据集上执行前一阶段得到的清理规则与流程去发现 脏数据,这一步的工作可以完全自动化实现。主要要注意的问题是这一阶段要对脏数 掘进行严格定位,为下一阶段的工作打下基础。 第三阶段,清理脏数掂。在数据集中发现脏数据后,就可以根据脏数据的不同性 质,采用相应的方法进行 l 除。 分昕数据 骂降监銎零嚣麓 发现脏数据 ; 理脏数占苎 图3 1 数据清理流程 华中科技大学硕士学位论文 3 2 脏数据及其分类 脏数据即数据质量存在问题的数据。根据处理的是单数据源还是多数据源,以及 问题出在模式层还是实例层,文献 1 4 】将脏数据分为4 类:单数据源模式层问题,单 数据源实例层问题,多数据源模式层问题,多数据源实例层问题。图3 2 列出这种分 类,并列出了每一类脏数据中的典型的数据质量问题。 “脏数据“问题 单源问题 缺少完整性约束 糟糕的模式设计 唯一性约束 引用约束 数据记录的错误 一拼写错误 相似重复记录 冲突值 多源问题 异构的数据模 型与模式设计 命名冲突 结构冲突 图3 - 2 “脏数据“分类 冗余、矛盾或不 一致的数据 - 不一致的汇总 一不一致的时间 选择 单数据源情况下的问题在多数据源的情况下会变得更加严重,图3 2 没有在多数 据源中列出单数据源中已出现的问题。模式层次上的问题也会体现在实例层次上,可 以通过改进模式设计、模式转化和模式集成来解决模式层次上的问题。由于对模式层 次的研究比较成熟本文的研究主要集中在实例层次,主要解决对属性的清理和对记 录的清理。 3 3 数据清理方案 种 目前已有的数据清理工具根据其实现策略( 主要是规则的发现与利用) 可分为三 ( 1 ) 基于编制的清理程序的方案。 ( 2 ) 交互式数据清理方案。 ( 3 ) 基于知识推理的方案。 华中科技大学硕士学位论文 3 3 1基于编制的清理程序的方案 以a j a x ,a r k t o s 系统为代表,此方案应用最广。 其主要特点是用户针对数据中存在的问题编制清理程序。用户了解数据中存在的 问题,并知道怎样消除这些问题。此类系统只是提供了清理接口与某些辅助工具供用 户编写清理程序,然后一次性运行。当然,在没有满足清理需求时应重新调整或修改 清理程序。 因为编写清理程序是一项复杂的工作,可能需要知道较底层的结构及s q l 语言 等,所以很多方案都提供了一种描述性语言( 如a j a x 包含m a p p i n g 、m a t c h i n g 、 c l u s t e r i n g 和m e r g i n g 转换原语) ,用于用户编制清理程序,这给用户提供了较大的方 便。 此方案存在一个问题:如果一些错误必须在进行某种清理步骤后才暴露出来,这 是很难发现的,因为所有的中间结果是不可见的。这种方案对用户的要求也很高。 3 3 2 交互式数据清理方案 以x y z 系统为代表。其主要特点是发现与清理错误交互进行,用户不用编制复 杂的清理程序。其清理过程一般由一系列原子操作完成。以x y z 系统为例,它提供 了下述原子操作完成清理过程:d r o p 、c o p y 、a d d 、f o r m a t 、m e r g e 、s p l i t 、d i v i d e 、f o l d 、 s e l e c t 。此系统的一个突出的优点是方便了用户纠正错误( 不用编制清理程序) ,较好 地解决了基于编制清理程序的方案存在的问题。 但为了满足交互性的要求,不能让用户无限等待,而数据清理一般都是很费时的, 故此方案必须解决好速度问题。 3 - 3 3 基于知识推理的数据清理方案 以i n t e l l i c l e a n 系统为代表。其主要特征是由一系列规则组成,并能根据已有舰则 推出新的规则。规则描述如下: i f t h e n 在i n t e l t i c l e a n 系统中有用于重复记录识别的规则、合并规则、更新规则、警告规 则等。 华中科技大学硕士学位论文 3 4 数据清理评价标准 数据仓库中进行数据清理主要是为了提高数据质量、满足数据仓库的集成性需 要,这是评价数据清理方案效果的主要标准。下面分别说明。 3 4 1 数据质量 数据质量在不同领域需满足的规则不完全相同,但如下一些规则是高质量的数掘 必须满足的【1 5 ,1 6 l : f1 ) 数据应当准确。数掘值与客观实体的属性相一致。 ( 2 ) 数据与定义的数据类型( 数值型、字符型、逻辑型等) 相一致。 ( 3 ) 数据有完整生定义,不要因为不同用户之间的冲突而丢失更新资料,昔资 料不是数据库管理系统的一部分,应执行健壮的备份和恢复程序。 ( 4 ) 数据要有一致性。在对不同来源的大型数据集进行集成后,数据的形式和 内容应当一致。 ( 5 ) 数据不应有冗余。在实践中,除非性能上的蒿要,冗余数据应溅剑最少。 ( 6 ) 数据应当及时。应当从数据中明确地或者从数据的构成方式中含蓄地订i ! i ;j 出数据的时间成分。 ( 7 ) 数据应当能够被很好地理解。命名规格是数据能波很好理解的必要条件。 但不是惟一条件t 应注意数据对应的是一个己建立的域,即数据必须遵循特定领域的 规范。 ( 8 ) 数据集应当是完整的。现实中会发生数据丢失,应把数据丢失降到最小。 因为丢失数据会降低全局模型的质量。 3 4 2 数据集成 数据仓库与一般应用系统的不同就在于它是一个支持管理决策过程的、面向主题 的、集成的、时变的、非易失的数据集合,数据仓库环境下进行数据清理的另一个重 要方面就是要使其满足集成性的需要,主要体现在下述几方面: ( 1 ) 清理了不同系统或要求的外部数据源中的数据。 1s 华中科技大学硕士学位论文 ( 2 ) 数据被转换成一致的格式( 逻辑结构、语法、语义相同) 。 ( 3 ) 相似重复记录( 同一实体的不同表现形式) 被识别且合并。 ( 4 ) 证实数据有效并合并成单一的、综合的、精确的业务领域视图。 3 5 对教务数据仓库进行数据清理的必要性 学校各系部的教务管理系统不完全相同,有的系部甚至拥有不同时期的多个系 统。这些存在于多个系统中的数据是进行分析和挖掘的宝贵资源,必须对之进行集成。 但数据仓库中的各数据源在集成时可能存在质量问题,为保证数据质量,应尽可能全 面地定义限制数据的规则,如各种数据库管理系统一般有对类型、取值范围、关键字 等的约束,以及触发器等更进一步的约束。可即使对数据应遵循的规则进行定义,但 有的系统定义的规则不完备,使错误数据仍可能进入系统。且数据仓库中的源数据来 自多个平台甚至外部数据,各系统设计的不一致导致数据模式之间存在冲突,数据质 量就更难保证。 这些质量问题中,有的来自单数据源,如属性值不准确、属性值缺失。也有的是 多源集成时带来的问题,如来自不同数据源的数据,对同一个概念有不同的表示方法, 在集成多个数据源时,需要消解模式冲突:集成后有的记录代表的对象远远偏离其他 对象,成为孤立点( o u t l i e r ) ,应当用相应算法检测出可能的孤立点再进行进一步的处 理;集成后还可能出现这样的情况:现实中的一个实体由多个不完全相同的记录来表 示,这样的记录称为相似重复记录( d u p l i c a t er e c o r d ) ,应尽量检测并处理相似重复 记录。 这些问题若不解决,会严重影响o l a p 及d m 的效果,从而不可能支持教学管理 人员作出正确的决策。尽管目前有一些数据清理方案,但大都针对特定的领域要求, 所以结合我们的系统设计数据清理方案是必需的。 以上列出的这些问题可以认为出现在属性和记录两个层次上,所以数据清理也可 以分为对属性的清理和对记录的清理。 华中科技大学硕士学住论文 3 6 本章小结 本章阐述了数据清理的原理和流程,介绍了脏数据的概念,介绍和分析了目前的 数据清理方案,提出了数据清理的评价标准,并论证了在教务数据仓库中进行数据清 理的必要性。 华中科技大学硕士学位论丈 4 对属性的清理 对属性的清理主要考虑以下两方面的问题: ( 1 ) 数据异常检测及处理。 ( 2 ) 缺失属性值的修补。 4 1 数据异常的检测及处理 由于数值型、字符型数据与日期型数据有较大的不同,故分别考虑对数值型、字 符型属性值的清理和对日期型属性值的清理。 4 1 1 对数值、字符型属性值的清理 在关系数据库系统中,可以对字段属性进行严格的输入限制,但由于数据库 垃计 时的考虑不周,一些字段缺少约束,使得脏数据进入数据源成为可能。 在属性清理阶段补做数据库设计阶段该做的工作,加强对字段属性的约束。为此, 建立元数据表,对表中字段进行定义,由于字段类型除日期型基本上可分为数值型和 字符型,所以元数据表也为两个。 ( 1 ) 字符型属性的元数据表结构的主体如表4 1 所示( 假设表名字为a ,则定义 它的字符型属性的元数据表名字为a - s t r i n g t a b l e ) 。 表4 - 1 字符型属性的元数据表结构 数据项名称列名类型 字段名称f i e l d n a m e c h a r 值类型i v 口e c h a r 最大长度 l a r g e l e n g t h i n t 躁小长度 s m a l l l e n g t h i n t 必须是字母m i l s t a b cc h a r 必须是数字m u s t n u m c h a r 可以有空洛符 m a r s d a c e c h a r 集合中的值 g a t h e r v a l r e c h a r 可空值 m a y n u l l c h a r 存在值替换 v a l u e r e o l a c e c h a r 1 8 华中科技大学硕士学位论文 说明: 对于g a t h e r v a l u e 字段,则说明本条记录描述的原数据表f i e l d n a m e 对应的字 段的值是一个集合中的数据,这个集合常常表示为外部数据字典,可以将该外部数据 字典导入数据库,存为一个表。假定该字段名为f i e l d l ,则表名称定为a f i e l d l t a b l e , 此表有两个字段,一个为序号,一个为集合值。 对v a l u e r e p l a c e 字段,如果值为真,则说明本条记录描述的原数据表f i e l d n a m e 对应的字段的值,有简化字符需要用标准外部数据字典中的值束替换。可以将该外部 数据字典导入数据库,存为一个表。假定该字段名为f i e l d l ,则表名称定为 a f i e l d l t a b l e ,此表有三个字段,分别为序号、原值、替换值。 ( 2 ) 数值型属性的元数据表结构的主体如表4 2 所示( 假设表名字为a ,则定义 它的数值型属性的元数据表名字为a n u m b e r t a b l e ) 。 表4 2 数值型属性的元数据表结构 数据项名称列名类型 字段名称f i e l d n a m e c h a r 值类碰t y p e c h a r 最人值 l a r r e v a l r e n u m e n c 最小值 s m a u v a l u en i i i l l e n c 可空值 m a y n u l l c h a r 注意,数值型属性的元数据表中最大值和最小值,若难以确定,可以根据领域经 验设置:另外元数据表必须与应用程序结合起来,才对字段的有效性进行考察。 检测出的违反约束规则的属性值可能是异常值或缺失值,对于异常笸,需人工观 察,看是否真的为异常值,若是,则先将其删除,再用处理缺失值的方法进行修补。 对分类属性,采用下节介绍的方法进行修补:对于数值型属性,用平均值修补它:对 字符型属性,人工根据经验填写。 4 1 2 对日期型属性值的清理 对日期型属性值的清理即检测出日期型数据中的异常值。完成日期型属性值的检 测及处理的算法简要描述如下: 1 9 华中科技大学硕士学位论文 ( 1 ) 判断选定臼期型属性的类型,共分系统判定、年月日、年日月、月日 年、日月,年五种假若选定系统判定类型,则执行( 2 ) ,否则执行( 3 ) 。 ( 2 )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 绿化区小区改道施工方案
- 大中修安全专项施工方案
- 2025年戊二酮苯项目提案报告
- 售楼部活动策划创意方案
- 心理咨询设备搬迁方案
- 农业咨询策划方案范文大全
- 鸿星尔克节日活动策划方案
- 僧多粥少营销方案
- 充值终端施工方案设计
- 园林植树节活动策划方案
- 设备预防维护培训课件
- (2025秋新版)人教版九年级物理上册全册教案
- 2024csco前列腺癌诊疗指南
- 楼宇入驻管理办法
- 结肠息肉患者健康教育
- 核电运营数字化转型探索-中核集团 核电运行研究(上海)有限公司 2025
- Unit2RainorShine词汇与语法特训鲁教版七年级英语上册
- 学堂在线 如何写好科研论文 章节测试答案
- 旅馆顾客财物管理制度
- 交通设施韧性提升-洞察及研究
- CJ/T 340-2016绿化种植土壤
评论
0/150
提交评论