(计算机应用技术专业论文)数据清洗及xml技术在数字报刊中的研究与应用.pdf_第1页
(计算机应用技术专业论文)数据清洗及xml技术在数字报刊中的研究与应用.pdf_第2页
(计算机应用技术专业论文)数据清洗及xml技术在数字报刊中的研究与应用.pdf_第3页
(计算机应用技术专业论文)数据清洗及xml技术在数字报刊中的研究与应用.pdf_第4页
(计算机应用技术专业论文)数据清洗及xml技术在数字报刊中的研究与应用.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学硕士毕业论文 数据清洗及n m l 技术在数字报刊中的研究与应用 摘要 随着信息化技术的飞速发展,各企业和单位都积累了大量的半结 构化数据。数字报刊的电子数据即是其中一种。长期以来,各报社和 杂志社都积累了海量的数据信息,包括排版文件、文本文件、图片文 件和各种w e b 文件等。这些数据一般都是对社会事实的客观写照和 有价值的评论,具有很高的历史价值。如何以恰当的方式描述数字报 刊数据,并在此基础上对其进行有效的存储也成为一个需要解决的问 题。 x m l 作为数据表示和交换的新标准,具有统一的非结构化信息 描述机制。x m l 的结构性和可扩展性可以方便的描述各种新闻信息 和杂志包含的文字内容,描述它们的结构信息。所以,x m l 成为描 述和承载数字报刊信息内容的最佳载体。而在将数字报刊数据转换为 x m l 格式数据时,由于各种原因,可能会造成生成的数量庞大的 x m l 文件的内容存在着大量的脏数据和不完备的数据。这些脏数据 的存在势必会严重破坏数字报刊信息的准确性、完备性和客观性。所 以如何对这些x m l 数据进行有效的数据清洗操作,提高其数据质量 也成为一个重要问题。 根据数字报刊的结构特征,针对相关的问题,本文主要做了下面 几点工作: ( 1 ) 研究了数字报刊数据的各种可行的存储技术,包括文件系统 存储方式、关系数据库存储方式、原生x m l 数据库存储方式;并且 针对数字报刊的特点,探讨设计了一种数字报刊数据的存储模型及其 索引结构的建立等; ( 2 ) 基于x m l 相关技术,设计了数字报刊层次化的x m l 文档结 构,并设计了其内存模型结构。层次化结构的设计将有助于数字报刊 数据的存储和数据清洗操作的实施;讨论了数字报刊数据的压缩备份 策略; ( 3 ) 详细论述了数字报刊数据的数据清洗流程及需要解决的具体 问题,包括整体评估、标准化、匹配消除重复、补全缺失数据等过程, 研究设计了数据清洗实施中关键过程的各个详细步骤。 i i 北京邮电大学硕士毕业论文 关键词:数字报刊,x m l ,数据清洗,数据质量, 原生x m l 数据库 i i i 北京邮电大学硕士毕业论文 r e s e a r c ha n da p p l i c a t i o n o fd a i a c l e a n i n ga n dx 口lt e c h n o l o g s b a s e do nd i g l l :a ln e w s p a p e r a b s t r a c t w i t ht h e r a p i dd e v e l o p m e n t o fi n f o r m a t i o nt e c h n o l o g y , m a n y e n t e r p r i s e sh a v ea c c u m u l a t e dal a r g en u m b e r o fs e m i s t r u c t u r e dd a t a o n e o ft h e mi st h ed i g i t a ln e w s p a p e r t h en e w s p a p e ro f f i c e sa n dm a g a z i n e o f f i c e sh a v ea c c u m u l a t e dv a s ta m o u n t so fd a t a , i n c l u d i n gp u b l i s h i n g d o c u m e n t s ,t e x tf i l e s ,p i c t u r ef i l e sa n da l lk i n d so fw e bd o c u m e n t si na l o n gt i m e t h e s ed a t aa r eg e n e r a l l yo fa no b j e c t i v ep o r t r a y a lo ft h ef a c to f t h es o c i e t y , h a v i n gah i g hh i s t o r i c a lv a l u e a n di tb e c o m eap r o b l e mt ob e s o l v e dt h a tt of i n da l la p p r o p r i a t ew a yt od e s c r i b ea n ds t o r et h ed i g i t a l n e w s p a p e rd a t a a st h eb r a n d n e wc r i t e r i o no nd a t ae x p r e s sa n dd a t ae x c h a n g e ,x m l h a sau n i q u ed e s c r i p t i o nm e c h a n i s mf o ru n s t r u c t u r e di n f o r m a t i o n x m l c a nd e s c r i b et h es t r u c t u r ei n f o r m a t i o na n dc o n t e n to fn e w s p a p e r sa n d m a g a z i n e se a s i l yb e c a u s eo fi t ss t r u c t u r e dc h a r a c t e r i s t i ca n de x p a n d a b i l i t y , s ox m lh a sb e c o m et h eb e s tc a r r i e ra n dd e s c r i p t i o nw a yo ft h ed i g i t a l n e w s p a p e rd a t a b u tw h e nt u r n i n gt h en e w s p a p e rd a t ai n t ox i v i l ,i tm a y g e n e r a t eal o to fe r r o r sa n di n c o m p l e t ed a t ab e c a u s eo fm a n yr e a s o n s t h e s e w r o n g d a t aw o u l dc a u s es e r i o u s d a m a g e t ot h e a c c u r a c y , c o m p l e t e n e s sa n do b j e c t i v i t yo ft h ei n f o r m a t i o n s oi t i s i m p o r t a n tt o i m p r o v e t h ed a t aq u a l i t yo ft h ei n f o r m a t i o nb yd a t ac l e a n i n g a c c o r d i n gt ot h es t r u c t u r eo fd i g i t a ln e w s p a p e r sa n d t h er e l a t e di s s u e s , t h i sp a p e rm a i n l yd ot h ef o l l o w i n gw o r k : ( 1 ) t h i sp a p e rd i s c u s s e s t h e d i g i t a ln e w s p a p e r s d a t as t o r a g e t e c h n o l o g y , i n c l u d i n gf i l es y s t e ms t o r a g e ,r e l a t i o n a ld a t a b a s es t o r a g e , n a t i v ex m ld a t a b a s es t o r a g e a c c o r d i n gt ot h ec h a r a c t e r i s t i e so fd i g i t a l n e w s p a p e r , t h ep a p e rr e s e a r c h e sh o wt od e s i g nt h es t o r a g em o d e lo f d i g i t a ln e w s p a p e ra n dh o w t ob u i l dt h ei n d e x i n gs t r u c t u r e 北京邮电大学硕士毕业论文 ( 2 ) a f t e ri n t r o d u c i n gt h ex m lt e c h n o l o g yi nd e t a i l ,t h i sp a p e r i n t r o d u c e st h eh i e r a r c h i c a ls t m c t u i eo fx m lw h i c hd e s c r i b e st h e n e w s p a p e rd a t a t h es t r u c t u r ec o u l dh e l pt h es t o r a g eo fd i g i t a ln e w s p a p e r a n dt h ei m p l e m e n t a t i o no fd a t ac l e a n i n go p e r a t i o n ,a n da l s od i s c u s s e st h e d i g i t a ln e w s p a p e r sb a c k u pc o m p r e s s i o nm e t h o d ( 3 ) n ep a p e rd i s c u s s e st h ed a t ac l e a n i n gf l o wo fd i g i t a ln e w s p a p e r d a t ai nd e t a i l ,i n c l u d i n go v e r a l la s s e s s m e n t ,s t a n d a r d i z a t i o n ,m a t c h i n ga n d e l i m i n a t i o no fd u p l i c a t i o n ,c o m p l e t i n gm i s s i n gd a t a , e t c a n dt h ep a p e r e x p l o r e st h es t 印so f e a c hp r o c e s si nd e t a i l k e y w o r d s :d i g i t a ln e w s p a p e r ,x m l ,d a t ac l e a n i n g , d a t aq u a l i t y ,n a t i v ex m ld a t a b a s e 北京邮电大学硕士毕业论文 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知f ,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:兰盏盈:日期:硝互j 毕 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论 彬稼、j 北京邮电大学硕士毕业论文 1 1 选题背景和意义 第一章引言 数字报刊,即依托互联网、手机、楼宇电视、口t v 、数字电视等新兴媒体, 将以往纸质报纸和杂志的丰富,真实的信息以更多样,更新颖的方式向广大读者 进行展示。很好的解决了报纸高时效、低成本、广发行的难题,并延续了报纸版 式阅读的体验和快感,使报纸在互联网时代找到了一个很好的网络载体和表现形 式,并可以借此重新获得网络、手机等新媒体的兴起而导致的正在流失的读者群。 随着互联网和数字媒体技术的快速发展,x m l 1 】以其自身的特点成为描述和 承载数字报刊信息内容的最佳载体。一方面因为x m l 的结构性和可扩展性可以方 便的描述各种新闻信息和杂志包含的文字内容,描述它们的结构信息等。另一方 面,x m l 交互性的特点又可以很好的成为其他数字媒体的内容材料,例如就可以 很方便的将其在互联网上进行发布等。所以x m l 可以成为建立和发布数字报刊的 有效工具。而如何对大批量的数字报刊x m l 文件数据进行有效的组织和存储,以 方便数据存取、查询等操作,也成为了需要解决的重要的问题。 在将报社里大量原始的报刊文件,例如排版文件,文本文件和图片文件转换为 l 格式进行存储时,由于各种原因,可能会造成生成的数量庞大的x m l 文件 的内容存在着大量的脏数据和不完备的数据。这些脏数据【2 】的存在势必会严重破坏 数字报刊消息的准确性、完备性和客观性。脏数据的存在也会影响x m l 文件的后 续的网络发布和展示等重要环节。所以当将大量原始报刊文件转换为x m l 格式文 件后,有条理的保存海量数字报刊x m l 文档数据,有效地对这些x m l 文档数据 进行数据清洗操作,保证这些x m l 数据的正确性、一致性、完整性和可靠性将具 有十分重要的意义。 数字报刊系统将原始文档数据转换为最终的高质量x m l 文档数据的简图如 下: ,、 = 二= 乡 厂、 吲絮系泌 数据清洗 f7 一o 。 = = 多jo 鲻 数据转换 数字报刊原始数据 龇1高质量x m l 文档数 、堤。 图1 - 1 数字报刊系统整体框架图 整体流程主要分为三个系统过程进行。 ( 1 ) 数据转换系统。主要将原始的格式多样和内容繁杂的报刊数据转换为一定 格式的x m l 文档数据。包括原始数据的内容分析、数据提取、数据组织等过程。 北京邮电大学硕士毕业论文 ( 2 ) x m l 存储系统。对转换后的海量x m l 文档数据进行有效的组织和存储。 提供一定的快速查询机制供其它系统调用x m l 文档数据时使用。 ( 3 ) 数据清洗系统。在x m l 存储系统的基础上对x m l 文档数据按照一定流程 进行数据清洗操作,提高数字报刊x m l 文档的数据质量。 由以上讨论可以看出,用x m l 文档良好的模塑数字报刊数据的结构和内容信 息,提供有效的x m l 文档数据存储方案,灵活选择清洗策略对x m l 数据进行数 据清洗,提高数据质量,是设计数字报刊系统中的几个重要环节。本文后续章节 将对涉及的问题进行详细的讨论。 1 2 国内外研究现状 1 2 1 x m l 技术发展概况 由于网络技术的快速发展,h t c r n c t 已逐渐演变为一个拥有巨大信息资源的开 放的、分布的信息空间,其上拥有的信息量正以几何级数的速度迅速增长。同时 i n t e r a c t 所固有的海量数据的分布性、异构性、动态性等特点对互联网环境下的数 据交换和信息共享提出了新的挑战。x l v i l ( e x t e n s i b l em a r k u pl a n g u a g e ) i e 是适应这 一历史环境而出现的技术。x m l 是标准通用标记语言s g m l ( s t a n d a r dg c n c r a l i z e x t m a r k u pl a n g u a g e ) 的精简版本,在s g m l 的基础上,去除了复杂的语法定义部分, 对文件类型描述部分进行了简化,并增加了互联网相关的特征,使得x m l 能够以 一种开放的、自我描述方式定义数据。由于x m l 这些特性,使得它非常适合于网 络,适合描述半结构化性质的数据,更适用于异构应用间的数据交互。 x m l 的主要特征主要有以下几方面: ( 1 ) x m l 的跨平台性:x m l 使用文本表示数据,这使得它对于跨平台的数 据交换十分方便。x m l 可以跨越不同的数据库平台。 ( 2 ) 自描述性:x m l 文档的自描述性主要体现在x m l 文档可以包含对应的 文档类型声明。 ( 3 ) 灵活性:x m l 可以随意定义元素及其之间的关系,可以利用x m l 定义 复杂的数据结构,为描述事物之间的复杂联系提供一个解决方案。 ( 4 ) 方便性:x m l 将内容和显示格式分离,内容用x m l 文件来表示,显示 格式则用c s s 和x s l 来描述,当外观变动时,x m l 文件可以不受其影响。 x m l 可以用一种开放的和自我描述的方式定义数据结构,非常容易编写和阅 读,使得它成为了异构数据的集成和交换的中介,正是由于x m l 具有这些的良好 的特性,使得它可以作为各种文本或媒体信息和数字信息转换的中介。x m l 可以 2 北京邮电大学硕士毕业论文 将不同格式显示的各种信息通过合适的方式进行抽取,将有价值的数据或者信息 抽取出来,重新加以描述定义,并生成x m l 文档来存储这些资源。 1 2 2 x m l 存储技术概况 目前,x m l 的存储方式主要有两种类型【5 】= ( 1 ) 文件系统存储方式 即x m l 文档以文本方式进行存储,在该存储方式下,文档内在的逻辑树型结 构被线性化成为文件中的字节流。目前有大量的x m l 文档是以此种方式进行存储 的。此种存储方式的最大优点在于易于实现,不需要其他的数据库技术进行支撑。 在与其他程序进行交互时,可以直接进行,不需要特定的转换等操作,当x m l 文 档的体积较小时,这种方式的存储和查询效率都是较高的。且可以将相关的x m l 文档置于同一目录下,利用文件系统有效的进行管理。但这种存储方式也有很大 的缺点,例如索引结构难以建立,不能实施更复杂的系统控制功能等。 ( 2 ) x m l 数据库的方式, x m l 数据库是可以对x m l 文档进行存取管理和数据查询的数据库,是一个 能够在应用中管理x m l 和文档的数据库系统。一个x m l 数据库是x m l 文档及 其部件的集合,并通过一个能管理和控制这个文档集合本身及其所表示信息的系 统来维护。 现有的x m l 数据库主要有两种:原生x m l 数据库( n a t i v ex m ld a t a b a s e , n x d ) 、支持x m l 的数据库( x m l e n a b l e dd a t a b a s e ,x e d ) 。 原生x m l 数据库是一种公认的非常有发展潜力的x m l 数据库系统【6 】,但因 为其发展和研究时间还很短,目前此种系统还不能令人非常满意。还需要大量的 研究和工作。支持x m l 的数据库系统主要是在已有的关系数据库系统上增加相应 的功能来支持x m l 文档数据,这种存储方式的缺点是显而易见的,因为当将x m l 文档数据映射为关系数据库的表结构时,需要大量复杂的转换操作,不可避免的 会导致原有x m l 数据的损失,同时当对大量的x m l 数据进行转换操作时,其时 间效率也难以保证。 本文后续章节将在对x m l 各种存储方式研究的基础上对数字报刊的存储模 式进行设计和研究。 1 2 3 数据清洗技术研究现状 数据清洗( d a t ac l e a n i n g ) ,是提高数据质量的有效途径。通用的理解认为: 3 北京邮电大学硕士毕业论文 数据清洗是通过商业规则和关系来校正数据,提高数据的整体可用性,以保证数 据的完整性;并且通过数据在现实世界的反馈来检查并且校正源数据的准确性, 检测和消除数据的错误和非一致性,以提高数据质量【3 1 。 为了使数据清洗具有一定的通用性,近年来,关于数据清洗的框架也有了一些 研究。然而数据清洗是一个领域相关性非常强的工作,国内外的研究人员始终没 有提出一个通用的自动化的数据清洗框架,关于该领域的研究大多数都是针对特 定领域数据的。 目前,从国内外关于数据清洗的研究现状来看,数据清洗技术【4 】面临的问题主 要集中在以下几个方面: ( 1 ) 数据清洗属于一个较新的研究课题,数据清洗的研究目前主要集中在西 文数据库上,中文数据清洗与西文数据清洗有较大的不同,如很多排序方法并不 完全适用于中文数据库,中文数据清洗没有引起重视; ( 2 ) 数据清洗的研究主要集中在字符型数据上,识别数值型字段之间的关系 异常还不成熟、实用,数据挖掘算法在数据清洗中的应用需要加强; ( 3 ) 尽管检测重复记录受到很大的关注,采取了许多措施,但当数据量比较 大时,耗时太多,检测效率与检测精度并不令人满意; ( 4 ) 大多数数据清洗工具都是针对特定的领域,其应用受到一定的限制。将 来,特定领域的数据清洗仍是应用的重点,但较通用的清洗解决方案会受到越来 越多的关注; ( 5 ) 国产的数据清洗工具还很少,其主要是研究重复记录的清洗问题,目前 还很少研究关于不完整数据、错误数据的清洗问题; ( 6 ) 目前,数据清洗的研究主要集中在结构化数据上。半结构化的数据,如 x m l 数据已受到越来越多的重视,特别是由于x m l 自身所具有的特点,如通用 性、自描述性,其在数据清洗中应受到重视。 1 3 本文主要研究工作 综上所述,x m l 技术的快速发展可以使其良好的描述半结构化性质的数据, 所以可以用它来有效的描述数字报刊复杂的业务逻辑和内容版式信息等。而目前 也还没有一种非常理想的x m l 存储技术来对海量的x m l 数据进行存储。同时, 数据清洗技术发展至今也还没有一个可以通用的数据清洗理论和清洗框架,更多 的研究则集中在针对特定领域和针对特定格式的数据的研究上,对于半结构化特 征的x m l 数据,更是缺失相应的研究和解决方案。在数字报刊的相关项目中,为 了能有效的保存珍贵的数字报刊的历史数据,合理的采用相应的数据清洗策略, 以提高数字报刊数据的数据质量,本文主要针对如下工作进行了研究: 4 北京邮电大学硕士毕业论文 ( 1 ) 研究了如何用x m l 来简洁有效的描述数字报刊数据的复杂的逻辑和内 容信息;并在此基础上,基于数据清洗操作的考虑,仿照d o m 模型的概念,设计 了数字报刊数据的层次化内存模型结构,方便对其进行数据清洗操作的实施。 ( 2 ) 对各种x m l 文档存储策略进行了细致的研究,包括文件系统存储方式、 关系数据库存储方式和原生x m l 数据库的存储方式。设计实现了数字报刊x m l 数据的存储模型,及其索引结构等。并针对海量的x m l 数据的压缩存储备份策略 进行了研究实现。 ( 3 ) 详细讨论了数字报刊x m l 文档数据的数据清洗策略,及需要解决的具 体问题,包括整体评估、标准化、匹配消除重复、补全缺失数据等过程,设计实 现了数据清洗实施中关键过程的各个详细步骤。 1 4 本文组织结构 根据数字报刊的结构特征和数据特点,结合x m l 和数据清洗技术,本文将针 对数字报刊讨论如何以x m l 描述相应的数据内容,如何对大量x m l 数据进行存 储,在此基础上如何对x m l 的数据内容进行数据清洗等内容。相关章节安排如下: 第一章绪论,介绍数字报刊,讨论数字报刊中的关键问题,介绍x m l 和数 据清洗技术的发展概况; 、 第二章数据清洗与x m l 基本理论研究。首先,介绍了x m l 的基础知识及一 些相关技术规范。然后讨论了数据质量的概念,并对数据清洗的基本理论做了详 细的阐释。为后续章节打下理论基础。 第三章数字报刊x m l 数据存储模型设计及实现。研究了各种可行的x m l 数 据存储策略,分析了各种策略的优势和缺点。根据数字报刊的特点,设计实现了 数字报刊x m l 文档数据的存储模型。 第四章针对数字报刊的特点,设计实现了数字报刊x m l 文档数据的数据清 洗方案和过程;对清洗过程中的关键技术进行了细致的分析和讨论。 第五章总结了本文所做的工作以及对以后的研究做一些展望。 5 北京邮电大学硕士毕业论文 第二章数据清洗及x m l 理论研究 本章主要介绍了x m l 和数据清洗的基本技术,探讨了x m l 技术的特点,及 其描述半结构化数据的优势。分析了数据清洗技术的基本理论,探讨了数据质量 的相关概念,及数据清洗技术的发展现状和面临的主要问题。 2 1 x m l 技术研究 2 1 1 x m l 定义 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展标志语言) 是由w 3 c 于19 9 8 年2 月发布的一种标准,是s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ,标准通用标 志语言) 的一个简化子集。x m l 是一种中介标示语言,一种被设计用来描述数据的 语言,类似于h t m l 。x m l 提供了一种独立的方法来共享数据,它是用来自动描 述信息的一种新的标准语言,将网络的功能由信息传递延伸到人类其他多种多样 的活动中去。x m l 由若干规则组成,这些规则可用于创建标记语言。它将s g m l 的丰富功能与h t m l 的易用性结合到了网络应用中,以一种开放的自我描述方式 定义了数据结构,在描述数据内容的同时能突出对结构的描述,从而体现出数据 之间的关系。这样所组织的数据对于应用程序和用户都是友好的、可操作的。自 x m l 推出以来,迅速得到软件开发商的支持和程序开发人员的喜爱,显示出强大 的生命力,围绕x m l 的各种标准规范亦是层出不穷,可以说,x m l 正在改变创 建和使用软件的方式。 2 1 2 x m l 的特点及结构 x m l 语言可以让信息提供者根据需要,自行定义标记及属性名,也可以包含 描述性信息,从而使x m l 文件的结构可以复杂到任意程度。x m l 具有以下的特 点: ( 1 ) 简单性。x m l 经过精心设计,整个规范简单明了。它由若干规则组成, 这些规则可用于创建标记语言,并能用一种称作分析程序的简明程序处理所有新 创建的标记语言。 ( 2 ) 可扩展性。x m l 在两个意义上是可扩展的。首先,它允许开发者创建 自己的d t d 或x m ls c h e m a ,有效地创建可被用于多种应用的可扩展标记集。其 6 北京邮电大学硕士毕业论文 次,使用几个附加的标准,开发者可以对x m l 进行扩展。这些附加标准可以向核 心的x m l 功能集增加样式、链接和参照能力。企业可以用x m l 为电子商务和供 应链集成等应用定义自己的标记语言,作为该领域信息共享与数据交换的基础。 ( 3 ) 互操作性。x m l 可以在多种平台上使用,而且可以用多种工具进行解 释。因为文档的结构是相容的,所以解释它们的语法分析器就可以以较低的费用 建立。x m l 支持用于字符编码的许多主要标准,允许它在全世界许多不同的计算 环境中使用。 ( 4 ) 灵活性。x m l 提供了一种结构化的数据表示方式,使得用户界面与结 构化数据分离。在x m l 中可以使用样式表。 ( 5 ) 自描述性。x m l 文档通常包含一个文档类型定义( d t d 或x m l s c h e m a ) ,因而x m l 文档是自描述的。x m l 文档中的数据可以被任何能够对x m l 数据进行解析的应用所提取、分析和处理,并以所需格式显示。x m l 表示数据的 方式真正做到了独立于应用系统,并且这些数据可以被重用。 ( 6 ) 国际标准化。x m l 的国际化源于其统一代码的新编码标准,这种编码 标准支持世界上所有主要语言。在h t m l 中,就大多数字处理而言,一个文档一 般是用一种特殊语言写成的。不管是英语、日语还是阿拉伯语,如果用户的软件 不能阅读特殊语言的字符,那么他就不能使用该文档。但是能阅读x m l 语言的软 件就能顺利处理这些不同语言字符的任意组合。因此,x m l 不仅能在不同的计算 机系统之间交换信息,而且能跨国界和超越不同文化疆界交换信息。 x m l 文档由文本组成,这些文本划分为标记和字符数据。标记用来描述文档 的逻辑结构,而字符数据提供文档的基本信息。这些标记按照不同的作用被划分 为以下的组成部分:x m l 声明、处理指令、d o c t y p e 声明、元素、属性、实体 引用、注释、c d a t a 字段。x m l 的语法要求严格,一个格式正确的x m l 文档必 须符合以下几点: ( 1 ) 有而且只有一个根元素,所有元素( e l e m e n t ) 构成一个层次树; ( 2 ) 结束标记( t a 曲匹配相应的起始标记,元素正确嵌套,标记不重叠; ( 3 ) 元素定义不重复,对于各个元素来说,没有多个相同名称的属性的实例, 且元素大小写敏感; ( 4 ) 属性( a t t r i b u t e ) 有唯一的名称,并且被正确地包括在某一元素中; ( 5 ) 标记字符被正确地转义,没有对外部实体的引用; 根据x m l 文档的内容、结构和用途的不同,可以将其分为两种类型 7 1 : ( 1 ) 以数据为中心的文档( d a t ac e n t r i cd o c u m e n t s ) 。以数据为中心的文档是 将x m l 当作数据的传输载体,典型的例子是销售订单、科学计算结果等。这种文 档在结构上是规则的,在内容上是同构的,数据粒度小,具有较少的混合内容和 7 北京邮电大学硕士毕业论文 嵌套层次。人们只关心文档中的数据而并不关心数据元素的存放顺序。以数据为 中心的文档数据可以来自数据库或在数据库之外。 ( 2 ) 以文档为中心的文档( d o c u m e n tc e n t r i cd o c u m e n t s ) 。以文档为中心的文 档将x m l 用作文本的传播载体,通常是给人阅读的。例如:书籍、e m a i l 、用户 手册等。其特点是半结构化或非结构化的数据、数据粒度大,混合内容多。以文 档为中心的文档通常是以x m l 手工写成,或从其他格式( 如:r t f ,p d f ,s g m l ) 转换到x m l ,与以数据为中心的文档不同,它们的来源通常不是数据库。本文所 讨论的数字报刊x m l 文档数据也是以此种类型为主。 2 1 3 d t d 与x m ls c h e m a 文档类型定义( d t d ) 可定义合法的x m l 文档构建模块。它使用一系列合法 的元素来定义文档的结构。d t d 可被成行地声明于x m l 文档中,也可作为一个 外部引用。通过d t d ,每一个x m l 文件均可携带一个有关其自身格式的描述。 而且独立的团体可一致地使用某个标准的d t d 来交换数据。通过d t d ,应用程 序也可使用某个标准的d t d 来验证从外部接收到的数据。 x m ls c h e m a 是基于x m l 的d t d 替代者,用于描述x m l 文档的结构。x m l s c h e m a 语言也称作x m ls c h e m a 定义( ls c h e m ad e f i n i t i o n ,x s d ) 。x m l s c h e m a 的作用是定义x m l 文档的合法构建模块,类似d t d 。定义包括的主要成 分有:文档中的元素、文档中的属性、元素的次序、元素的数目、元素和属性的 数据类型等。 2 1 4 d o m 模型 文档对象模型( d o c u m e n to b j e c tm o d e l ,d o m ) 是一个抽象数据结构,将x m l 文档表示为由节点构成的树。d o m 把节点分成1 2 类:文档节点( d o c u m e n t n o d e ) , 元素节点( e l e m e n tn o d e ) ,文本节点( t e x tn o d e ) ,属性节点( a t t r i b u t en o d e ) ,处理 指令节点( p r o c e s s i n gi n s t r u c t i o nn o d e ) ,注释节点( c o m m e n tn o d e ) ,文档类型节点 ( d o c u m e n tt y p en o d e ) ,文档段节点( d o c u m e n tf r a g m e n tn o d e ) ,符号节点 ( n o t a t i o nn o d e ) ,c d a t a 段节点( c d a t as e c t i o nn o d e ) ,实体节点( e n t i t yn o d e ) , 实体引用节点( e n t i t yr e f e r e n c en o d e ) 。下面对重要的节点进行简单介绍: 文档节点:每棵d o m 树都有一个文档节点,该节点有子节点。由于所有文档 都只有一个根元素,所以文档节点具有一个类型为元素节点的子节点。如果文档 具有文档类型声明,则还有一个类型为文档类型节点的子节点。如果文档根元素 8 北京邮电大学硕士毕业论文 的前面或后面还有任何注释或处理指令,则它们也是文档节点的子节点。所有子 节点保持顺序。 元素节点:每个元素节点都有名称、本地名、名字空间u r i 和前缀。元素节 点可以包含元素节点、文本节点、注释节点和处理指令节点等。 文本节点:文本节点包含文档中的字符数据。 属性节点:属性节点有名称、本地名、名字空间和前缀。属性节点还有子节 点,一般是文本和实体引用节点。属性不是所在元素的子节点,而是独立的节点 集。 处理指令节点:处理指令节点一般包括名称、字符串值和父节点。 文档类型节点:文档类型节点包括名称、公用d 、系统d 、内部d t d 子集、 父节点和d t d 中声明的一列标记与一般实体。 本文后面将根据d o m 模型的结构特点设计数字报刊x m l 文档的内存结构模 型。 2 2 数据清洗技术研究 信息数据对企业具有重要价值,是重要的策略资产。信息已成为科学管理的 基础,正确决策的前提,有效调控的手段。但通常一个企业拥有的海量数据的质 量往往不尽如人意,存在大量的冗余和缺失的现象。造成数据质量低下的主要原 因有:滥用缩写词、惯用语、数据输入错误、数据中的内嵌控制信息、重复记录、 丢失值、拼写变化、不同的计量单位和过时的编码等。糟糕的数据质量会影响决 策的质量和提高制定决策的成本和时间,使得可能具有高潜在价值的信息变得无 意义。所以,对一个企业或组织而言,有效地对海量数据进行清洗,消除冗余和 补全数据缺失,提高数据质量就变得极为重要,也是充分利用储存数据进行分析 决策的前提。数据清洗【8 】可以保证数据的正确性( c o r r e c m e s s ) 、一致性 ( c o n s i s t e n c y ) 、完整性( c o m p l e t e n e s s ) 和可靠性( r e l i a b i l i t y ) 。清晰有效完整 的数据是提取有价值信息和实现商务智能分析的前提。 2 2 1 数据质量 随着信息化技术的快速发展,面对网络上和各个系统中的海量数据,数据质 量问题引起广泛关注。高质量的信息和正确的决策必然依赖于高质量的数据。为 了得到正确的结论和避免歧义的出现,数据的准确性非常重要。为了避免进去的 是垃圾,出来的也是垃圾( g a r b a g ei n ,g a r b a g eo u t ) 现象的出现,采取切实可行的 措施提高数据的质量是非常重要的。在现实情况中,由于各种原因,导致现有的 9 北京邮电大学硕士毕业论文 数据中存在很多的数据质量问题,主要表现为:不正确的属性值、重复记录、拼 写问题、不合法值、空值、不一致值、缩写词不同、不遵循完整性规则等。此外, 当从多数据源中汇聚数据时,由于各数据源的数据结构的设计可能不相同,同样 会产生一些错误或冗余等信息。上述这些问题构成了所谓的数据质量问题。 目前对数据质量的定义还没有一个统一的认识,显然,数据质量问题并不单 单表示数据错误,有的学者把其定义为数据的一致性( c o n s i s t e n c y ) 、正确性 ( c o r r e c t n e s s ) 、完整性( c o m p l e t e n e s s ) 和最小性( m i n i m a l i t y ) 这四个指标在信息系统中 得到满足的程度,把“适合使用作为衡量数据质量的初步标准。从适用性的角 度看,数据质量是一个相对的概念,因为就同一个数据而言,对不同的决策者有 不同的价值。对于无关的数据,即使质量再高,对决策也根本不起作用。 一般说来,评价数据质量最主要的几个指标是: ( 1 ) 准确性( a c c u r a c y ) :数据的准确性就是要求数据中的噪声尽可能要少。 对于数据中偏离常规、分散的小样本数据,一般可视为噪声或异常,因此判断噪 声的存在可用聚类的方法,即用一定的阀值为标准,聚类后覆盖实例数目较少的 知识,可能就来源于噪声数据。 ( 2 ) 完整性( c o m p l e t e n e s s ) :数据系统的大数据量不等于数据是完备的。完备 性体现在属性的取值没有空值及信息提取所需的数据是否全面两个方面。数据的 完整性为选择数据挖掘所需的必要数据奠定了基础,同时,挖掘数据的完整性, 也是扩大归纳知识适用范围的必要条件。 ( 3 ) 简洁性( c o n c i s i o n ) :简洁性就是要尽量选择重要的本质属性,并消除冗 余。大数据量并不一定能保证数据的质量。在进行决策时,决策者往往抓住反映 问题的主要因素,而不是把问题的细节都搞得很清楚。在进行信息提取时,特征 的个数越多,产生噪声的机会越大。因此,选择较小的典型特征集,不仅符合决 策者的心理,而且容易挖掘到简洁有效的知识。 ( 4 ) 有效性( v a l i d i t y ) :有效性是评价数据质量的重要标准。现实世界中,难 以得到完美的数据。获得完全满意的数据,不仅不可能,而且也不必要。问题的 关键在于数据的质量能否满足决策的需要。尽管在前面已经强调了数据的准确性、 完整性和简洁性,但归根结底是为了数据的实际效用。从这个意义上讲,有效性 标准应该是评价数据质量的核心准则。 ( 5 ) 一致性( c o n s i s t e n c y ) :是指数据源中数据对一组约束的满足程度; ( 6 ) 唯一性( u n i q u e n e s s ) :是指数据源中记录以及编码是否唯一; ( 7 ) 适时性( t i m e l i n e s s ) :是指在所要求的或指定的时间提供一个或多个数据 项的程度; 1 0 北京邮电大学硕士毕业论文 2 2 2 数据清洗技术 数据清洗( d a t ac l e a n i n g ) ,也被称作d a t ac l e a n s i n g 或者d a t as c r u b b i n g 。相 关概念包括哪些具体内容,没有一个公认的定义。一般认为:数据清洗是通过 商业规则和关系来校正数据,提高数据的整体可用性,以保证数据的完整性; 通过数据在现实世界的反馈来检查并且校正源数据的准确性。 数据清洗的原理,就是通过分析“脏数据 的产生原因和存在形式,利用现 有的技术手段和方法去清洗“脏数据 ,将“脏数据 转化为满足数据质量或应用 要求的数据,从而提高数据集的数据质量。数据清洗主要利用回溯的思想,从“脏 数据一产生的源头开始分析数据,对数据集流经的每一个过程进行考察,从中提 取数据清洗的规则和策略。最后在数据集上应用这些规则和策略发现“脏数据 和清洗“脏数据 数据清洗按照实现方式与范围,可分为4 种: ( 1 ) 手工实现。通过人工检查,只要投入足够的人力物力财力,也能发现所 有错误,但效率低下。在大数据量的情况下,几乎是不可能的。 ( 2 ) 编写专门的应用程序。这种方法能解决某个特定的问题,但不够灵活, 特别是在清洗过程需要反复进行时,导致程序复杂,清洗过程变化时,工作量大。 ( 3 ) 解决某类特定应用域的问题。如根据概率统计学原理查找数值异常的记 录,对姓名、地址、邮政编码等进行清洗,这是目前研究得较多的领域,也是应 用最成功的一类。 ( 4 ) 与特定应用领域无关的数据清洗。这一部分的研究主要集中在清洗重复 的记录上。 这4 种实现方法由于后两种具有某种通用性及其较大的实用性,引起了越 来越多的注意。但是不管哪种方法,都由三个阶段组成:数据分析、定义;搜索、 识别错误记录;修正错误。 第一阶段,尽管已有一些数据分析工具,但仍以人工分析为主。在相关文献 中,将错误类型分为两大类:单数据源与多数据源,并将它们又各分为结构级与 记录级错误。这种分类非常适合于解决各数据系统中数据的数据清洗问题。 第二阶段,有两种基本的思路用于识别错误:一种是发掘数据中存在的模式, 然后利用这些模式清洗数据;另一种是基于数据的,根据预定义的清洗规则,查 找不匹配的记录。目前后者用得较多。 第三阶段,某些特定领域能够根据发现的错误模式,编制程序或借助于外部 标准源文件、数据字典一定程度上修正错误,对数值字段。有时能根据数理统计 知识自动修正,但经常须编制复杂的程序或借助于人工干预完成。 北京邮电大学硕士毕业论文 目前针对多样化的异常数据,清洗过程主要统分为六个步骤进行处理: ( 1 ) 元素化( e l c m e n t i z i n g ) :将非标准的数据,统一格式化成结构数据。 ( 2 ) 标准化( s t a n d a r d i z i n g ) :

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论