




已阅读5页,还剩34页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东南大学硕士学位论文 摘要 随着计算机技术、通讯技术的飞速发展和个人计算机的普及,i n t e m e t 作为新一代的信息 载体和交流平台,在人们的生活、工作中扮演越来越重要的角色,尤其是它所蕴涵的信息价 值,越米越受到人们的重视。但是,w e b 上的数据是非结构化或者是半结构化的数据,它只 能被各种浏览器识别、解释、显示,却不能被计算机或应用程序所理解,不像传统的数据库 数据那样,有确定的模式结构、有明确的语义信息、提供准确高效的查询。如何从这些海量 的数据中找出对自己有用的信息,为我所用,这便是w e b 信息抽取的要求。 目前的一些w e b 戍_ ;| j 程序,它们是针对具体的应用的,往往采用人工的方法完成“包装 器”的生成,也就是将w e b 数据抽取的信息硬编码到程序中,来实现数据的抽取工作。这 样一旦上述w e b 数据抽取信息发生了改变,都会导致源程序的修改与重新编译,维护起来 非常困难。本文总结了过去一些w e b 信息抽取技术,针对现有一些w e b 应用程序的不足与 局限性,开发了我们自己的信息抽取工具。本信息抽取工具在整体上采用抽取过程逻辑定义 与抽取过程执行模块相分离的结构,这样,可以提高系统的灵活性,充分利用现有资源。 w e b 信息抽取出来之后,如果不加以利用,那将是毫无价值的。同时,抽取出来的结果 电不一定能直接集成到目的库中去,必须要先进行清理、转换。所以,我们设计实现了一套 e t l 工具,来实现对w e b 数据的集成。此e t l 工具不仅对w e b 数据适用,还可咀应用于异 构数据源,实现异构数据源数据的集成。 关键字:非结构化,半结构化,w e b 信息抽取,图形化,e t l 工具,数据集成 东南大学硕i 二学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to ft h ec o m p u t e r t e c h n o l o g ya n dc o m m u n i c a t i o nt e c h n o l o g y , i n t e r a c ti s g e t t i n gm o r ea n dm o r ei m p o r t a n ti no l l r l i f ea n dw o r k t h en u m b e ro fd a t ao nt 1 1 ew e bi s t r e m e n d o u sb u t ,t h ed a t ao nw e ba r en o n s 仃u c n i r e do rs e m i s t r u c t u r e d i tc a r lb eu n d e r s t o o db y b r o w s e rt od i s p l a y ,b u ti tc a n tb ea u t op r o c e s s e d b yc o m p u t e r s o ,i ti sd i f f i c u l tt om a k eu s eo f t h e s ei n f o r m a t i o nh o wt of i n da n dg e tu s e f u l i n f o r o t a t i o nf r o mt h e s et r e m e n d o u sd a t ao nw 曲i s t h et a r 业e to f w e b1 n f o n n a t i o ne x t r a c t i o n n o w ,m o r ea n dm o r ep e o p l eh a v ef o c u s e do nt h ea r e ao fw e bi n f o t i n a t i o ne x t r a c t i o nr e s e a r c h a n dh a v eh a dm a n ya c h i e v e m e n t s b u t ,a l lt h e s et e c h n o l o g i e sh a v et h e i ro w na d v a n t a g e sa n d d i s a d v a n t a g e s i nt h i sa r t i c l e ,w ep r o p o s ean e wn r e t h o dt op e r f o r mw e bi n f o r m a t i o ne x t r a c t i o n w ep r o v i d eau s e r - f r i e n d l yi n t e r f a c et h a ta l l o w sa s e r sd od e f i n et h ep r o c e s so fw e bj n f o r m a t i o n e x t r a c t i o n t h e n ,a n o t h e rp r o g r a mp e r f o r m st h i sp r o c e s sa c c o r d i n gt ot h eu s e r sd e f i n i t i o n a f t e rt h ee x t r a c t i o no fw e bi n f o r m a t i o n ,w es h o u l dm a k eu s eo ft h ee x t r a c t e dd a t ai ts h o u l d b ei n t e g r a t e di n t ot h et a r g e td a t a b a s eb e f o r et h ep r o c e s so fd a t ai n t e g r a t i o n ,t h ee x t r a c t e dd a t a m u s tb ec l e a n e d 、t r a n s f o r m e d t h e nl o a d e d s o w ep r o v i d ea ne t lt 0 0 1t oh e l pu s e rt od e f i n et h e p r o c e s s w ea l s op r o v i d eau s e r - f r i e n d l yi n t e r f a c et oh e l pp e o p l et oa c c e s sh e t e r o - g e n e o u sd a t a s o u r c e s ,g e tt h e i rm o d e l s ,d e f i n et h et r a n s f o r m a t i o nr u l e sb e t w e e nt h es o u r c ed a t a s e ta n d t h et a r g e t d a t a s e t t h e nt h ep r o g r a ms t o r e st h ei n f o n n a t i o na b o u tt h ee t lp r o c e s si n t o s c r i p tf i l e t h e i m p l e m e n tp r o g r a mr e a d st h es c r i p tf i l e ,p a r s e si t ,g e t s t h ei n f o r m a t i o na n dp e r f o r m st h ee t l p r o c e s s i nt h i sw a y , w e r e a l i z et h ei n t e g r a t i o no f w e bd a t a k 州w o r d s :n o n s t r u c t u r e d ,s e m i - s t r u c t u r e d ,i n f o n n a t i o ne x t r a c t i o n ,e t l ,d a t ai n t e g r a t i o n i i 东南大学硕上学位论文 独创性声明及使用授权的说明 一、学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导r 进行的研究上作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。 二、关于学位论文使用授权的说明 签 名:垫是:盎 日 期:厄芝生4 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印 件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质 论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括 刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。 签名 导师签名 莛惠主! ,锨 日 期:卫艘型:垡 第1 章序言 1 1 研究背景 第一章序言 随着计算机技术、通讯技术的飞速发展和个人计算机的普及,i n t e m e t 作为一个全球网 络,越来越融入到人们的生活、工作、学习、商务活动中去。企业及个人通过建立网站或网 页及时发布自己的信息、资源、需求,同时又通过网络来寻求帮助,获取信息。w o r l d w i d e w e b ( 略作w w w ,w e b ) 作为一个全球化信息空间,正越来越受到人们的重视,成为继书 籍、报纸杂志、电视后的又一大信息载体。w e b 给我们的工作学习带来了很多的便利:首先 它是快速便捷的。一台电脑,一根网线( 当然要有一定的软硬件设备与环境) ,用户就能够 白由遨游网络,浏览新闻、阅读书籍、发布信息,真正做到“足不出户而知天下事”;其次 它是信息共享的。i n t e m e t 在提出时,就讲究资源共享,这样大大加快了信息交流,知识的 传播速度:同时它也是内容丰富的。w e b 上的内容五花八门,包罗万象,上至天文,下至地 理,即使是个人的随心所想,人生感悟也是应有尽有,这是其他信息载体所无法比拟的;最 后它还是互动互惠的。所有其他的信息载体,如书籍、报纸杂志、电视,它们都是单向的, 用户只能接受或不接受,而广域网却给我们带来了互动性,用户可以通过它发布问题、回答 问题、甚至是在线交流,如人富翁( 一个比较好的编程技术交流网站) 。 w e b 在给我们带来便捷、快速、廉价、丰富的信息的同时,也给我们带来了一个问题。 由于越来越多的企业和个人通过w e b 发布信息,使得w e b 上的信息量以指数级的增长速度 在增长,w e b 上浩火的信息量和用户的需求之间产生了严重的不平衡和矛盾,用户为了获取 自己需要的一点点信息,可能需要花费几十分钟、几个小时、甚至更长时间来搜索、浏览网 页,查找信息,一不小心就会淹没在信息的海洋中。虽然现在出现了形形色色的搜索引擎, 但是这种基于关键字的搜索,得到的却还是一个庞大的结果集,这个结果集只是给出了相关 网页内容的概要,具体的信息还是要用户进入到具体网页中查找,同时这个结果集也并不一 定都是用户想要的,这和具体的搜索引擎的性能有关,这样就浪费了大量的人力、物力和时 间。即使获得了相关内容的网页,如何将这些网页中有用的信息抽取出来加以保存,作为自 己信息库中的信息,也不是一件简单的事情。 上述问题的关键在于w e b 信息的发布与浏览都是通过基于h t m l 或x m l 语法的页面 实现的,而h t m l 或x m l 是非结构化、半结构化的语言,它们无法被计算机所理解,也无 法像传统的数据库那样,提供结构化的、功能强大的、高效的查询语句。如何让计算机从 w e b 数据源中获取用户所需的信息,这正是信息抽取的任务。 1 2 现状 信息抽取( i n f o r m a t i o ne x t r a c t i o n ,简称i e ) 是从页面集台中抽取出相关数据的过程。 w e b 信息抽驭的形式化描述可以表述如下:对于给定的一组w e b 页s ,定义一个映射w , w 将s 中的对象映射到一个具有更为结构化、语义更为清晰的数据结构d ( 如关系数据库) , 并且映射w 对与s 在语义和结构都相似的w e b 页集合s 具有相同的功能。 国外大约在8 0 年代初就展开信息抽取的研究,并取得了一些成果,那时比较立于的信息 系统有f r u m p 系统、a t i l a n s 系统和m e s s a g e u n d e rs t a n d i n g c o n f e r e n c e 等。到了9 0 年代, 由于w 曲的流行,研究人员开始把目光转向w e b 页面的抽取工作,这个时期提出t i 目多崭 新的技术,也开发出了很多工具。 根据自动化程度可以将w 曲信息抽取分为人工方式的信息抽取、半自动化方式的信息抽 取和全自动化方式的信息抽取3 大类。这种分类方式主要根据w e b 信息抽取的核心w r a p p e r ( 包装器) 生成方式的不同来分类的。采用人工方式信息抽取的系统主要有:w 4 f 、i n f o r m i a 、 东南大学硕上学位论文 a n d e s 等,采用自动半自动化方式信息抽取的系统主要有:x w r a p 、w i e n 、s o f t i e a l v 、 s t a l k e r 等。 根据各种l :具所采用的原理不同可以将w e b 信息抽取分为基于自然语言处理方式的信 息抽取、包装器归纳方式的信息抽取、基于o n t o l o g y 方式的信息抽取、基于h t m l 结构的 信息抽取和基于w e b 查询的信息抽取( 1 】【2 1 。 a 基于自然语言处理方式的信息抽取 这类信息抽取主要适用于源文档中包含大量文本的情况( 特别针对于合乎文法的文 本) ,在一定程度上借鉴了自然语言处理技术,利用字句结构、短语和字句间的关系建 立基于语法和语义的抽取规则实现信息抽取。目前采用这种原理的典型系统有r a p i e r 、 s r v 平1 1w h i s k 。 这种基于自然语言理解方式的信息抽取技术,是将w e b 文档视为文本进行处理的( 主 要适用丁含有大量文本的w e b 页面) ,抽取的实现没有利用w e b 文档独特于普通文本的 层次特性。获得有效的抽取规则需要大量的样本学习。 b 包装器归纳方式的信息抽取 包装器归纳方式的信息抽取根据事先由用户标记的样本实例应用机器学习方式的归 纳算法,生成基于定界符的抽取规则。其中定界符实际上是对感兴趣语义项上下文的描 述,即根据语义项的左右边界来定位语义项。目前采用这种原理的典型系统有 s t a l k e r 、s o f t m e a l y 和w i e n 。 这种包装器归纳方式的信息抽取和基于自然语言理解方式的信息抽取技术的不同点 在于仅仅使用语义项的上下文来定位信息,并没有使用语言的语法约束。 c 基于o n t o l o g y 方式的信息抽取 基于o n t o l o g y 方式的信息抽取主要是利削对数据本身的描述信息实现数据抽取,对 网页结构的依赖较少。目前采用这种原理的典型系统有b y u ( b r i 曲my o n gu n i v e r s i t y 信息抽取小组开发的信息抽取工具) 、q u i x o t e 。 d 基于h t m l 结构的信息抽取 基于h t m l 结构的信息抽取技术的特点是根据w e b 页面的结构定位信息,在信息抽 取之前通过解析器将w e b 文档解析成语法树,通过自动或半自动的方式产生抽取规则, 将信息抽取转化为对语法树的操作实现信息抽取。目前采用这种原理的典型系统有 l i x t o 、x w r a p 、r o a d r u n n e r 和w 4 f 。 e 基于w e b 查询的信息抽取 由于上述的信息抽取技术,采用了不同的原理,抽取规则的形式和感兴趣信息的定 位方式也各不相同,因此均不具有通用性。基于w e b 查询的信息抽取和它们最大的不同 之处在于它将w e b 信息抽取转化为使用标准的w e b 查询语言对w e b 文档的查询,具有 通用性。目前采用这种原理的典型系统有w e b - - o q l 和p q a g e n t 。 不同的抽取工具有其不同的实现方式,对不同的w e b 网页也有不同的抽取效果和效率, 有其优点也各有不足。 1 3 研究目标和本文工作 本论文的研究目标就是要提供一个方便的、友好的工具来指导用户完成w e b 信息抽取过 程的定义,最终实现w e b 信息的抽取和集成。所以,我们讨论了w e b 信息抽取的技术与实 现,并在w e b 信息抽取的基础上,提供了一套e t l ( 数据抽取、转换、加载) 工具,米对 异构数据源的数据进行清理、转换,将其集成到目的库中去,实现w e b 信息的再利用。在 具体实现中,我和董树明同学共同完成了系统的设计和实现,我主要完成界面的设计和逻辑 过程的定义与描述,而他则主要负责过程的实际执行。 第一章序言 1 4 论文组织 本论文的结构组织如下:第一章介绍w e b 信息抽取的研究背景、w e b 信息抽取的研究现 状、现有w e b 信息抽取: 具的分类、论文的组织结构;第二章简单介绍在w e b 信息抽取中 会用到的基础知识:s g m l 语言、h t m l 语言、x m l 语言和h t t p 协议;第三章着重论述 了w e b 信息抽取的分析、设计、框架结构和实现方式;第四章针对w e b 信息的抽取结果, 我们设计实现了一个e t l 工具,米对w e b 信息的抽取结果( 还包括异构数据源数据) 进行清 理、转换、集成,实现对w e b 数据的利用:第五章对自己近阶段所做的工作进行了总结t 并对今后进一步的研究和工作进行了展望。 东南大学碗士学位论文 第二章基础知识简介 2 1s g m l 介绍 s g m l 是s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e 的简称。 s g m l 最初是由i b m 开发的一种用于排版的符号化语言,称为g m l 。经过若干年的发 展,1 9 8 4 年国际标准化协会( i s o ) 开始对此提案进行讨论,丁1 9 8 6 年正式承认s g m l 为 国际标准规范( i s 0 8 8 7 9 ) 。 s g m l 实际上是一种通用的文档结构描述符号化语言,主要用来定义文献模型的逻辑和 物理结构。一个s g m l 语言文件由三部分组成,即语法定义、文什类型定义d t d ( d o c u m e n t t y p ed e f i n i t i o n ) 和文件实例。语法定义部分定义了文件类型定义和文件实例的语法结构; 文件类型定义部分定义了文件实例的结构和组成结构的元素类型;文件实例是s g m l 语言 程序的主体部分。 在s g m l 的实际使用中,每一个特定的d t d 都定义了一类文件。因此,人们习惯上把 具有某一特定d t d 的s g m l 语言,称为某某符号化语言。这样s g m l 就成为那些派生语 言的元语言。 2 2h t m l 介绍 2 2 1h t m l 简介 1 9 8 9 年,欧洲物理量子实验室( c e r n ) 的信息专家蒂姆伯纳斯李发明了超文本链 接语言,使用此语言能轻松地将一个文件中的文字或图形连到其它的文件中去,这就是 h t m l 的前身。1 9 9 1 年,蒂姆伯纳斯李在c e r n 定义了h t m l 语言的第一个规范,之 后成为w 3 c 组织为专门在互联网上发布信息而设计的符号化语言规范。可以说,h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ) 是s g m l 的一个实例,它的d t d 作为标准被固定下米。冈 此,h t m l 不能作为定义其它符号化语言的元语言。 2 2 2h t m l 标签 h t m l 是一种标记语言,既然是一种语言,就必然有它自己的语法。其实,h t m l 的语 法很简单,就是用一些预定义的h t m l 标记( 用来标识页面元素、结构、格式等) 来修饰 用户实际要显示的文本,描述文档结构,以在w e b 上发布。大多数h t m l 标记都具有如下 的格式: 影响的文本刮t h e t a g n a m e 。标记名( 此处是t h e t a g n a m e ,一般都是 预定义的关键字) 以尖括号括起。h t m l 标记一般都有一个起始标记和一个结束标记,所 影响的文本置于起始标记和结束标记之间。起始标记“打开”了一个功能,而结束标记又“关 闭”了这项功能。结束标记的名称前面有一个斜线( ,) 。起始标记和结束标记共同构成了一个 h t m l 元素。可见,h t m l 的核心就是这些标记,而h t m l 的标记比较繁多,而且各个版 第二章捧础生u 识简介 2 2 3h t m l 特点 图2 1h t m l 文档的简单结构 从h t m l 的发展来看,h t m l 继承了s g m l 的特性,它是一种用于描述文档结构的语 言,而不是用来描述文档实际外观的。在一般的字处理程序或页面布局程序当中,样式并不 称作页面的“元素”样式还包括样式信息,如字体和字号、缩进、下划线等。当你希望把 某些文字显示为标题时,可以应用“标题”样式,程序会自动将这些文字格式化为正确的格 式。而h t m l 并不是这样。h t m l 通常并未规定某个页面如何显示,h t m l 标记只能说明 某个元素是标题或列表,但不能说明这些标题或列表采用何种样式米显示,所以h t m l 不 能描述页面布局。 从h t m l 的文档结构来看,整个文件处丁- 标i a , 与 之间, i i = | 以声明这是h t m l 文件,让浏览器识别并正确处理此h t m l 文件。文件分两部分,由 至 称为开头,由 至 称为正文。基本上两者各有适阁的 标记,女n 只可出现于开头部分,它所标示的是文件的标题,会出现于浏览器顶部, 为别人b o o k m a r k 时的名称,所以每页有不同而明确的标题是需要的。开头部分用以存载 重要资讯,而只有正文部分会被显示,所以大部分标记会运用于正文部分,女1 、c o l 等大多数标记。 从h t m l 的存储方式来看,编写的h t m l 页面是纯文本文件( a s c i i ) ,其中没有包含 任何与平台或程序专用的信息。支持文本的任何编辑器( 事实上任何编辑器都支持文本) 都 可以读这些文件。一个典型的h t m l 文件包括页面本身的文本和h t m l 标记两部分。 从h t m l 页被处理的方式来看,h t m l 页本身有一定的层次结构,h t m l 页在被 n a v i g a t o r 处理时,采用“自顶向下”的做法。一般说米,一个w e b 页是被n a v i g a t o r 顺序处 理的,n a v i g a t o r 从h t m l 文件的顶部开始,一边计算怎样把输出显示在屏幕上,一边依次 向后处理。这样,n a v i g a t o r 从h t m l 文档的h e a d 部分开始,然后再从b o d y 的顶部开始 依次处理。 但是,目前的h t m l 还不稳定,不同的浏览器会产生不同的显示效果。此外,由于h t m l 对超级链接支持不足,并缺乏空间立体描述,处理圈形、图像、音频、视频等多媒体能力较 弱,图文混排功能简单,不能表示多种媒体的同步关系等缺点,也影响h t m l 的大规模应 用以及用于复杂的多媒体数据处理。 2 3x m i _ 介绍 2 3 1x m l 的产生 随着互联网的迅猛发展和普及,人们可以通过计算机与互联网联接,从世界各地实时的 接收和发送大量、最新的信息,但在信息交换的过程中存在着一个突出的问题,就是多种多 样的数据格式,给信息的有效使用带来了障碍。所以在信息时代,如何以最便捷、最可靠、 东南大学顶士学位论文 最有效的方式获取所需的信息是一个很大的困扰。人们期待着能够找到一种可以描述任何逻 辑关系的数据格式来统一电子数据的存储,从而不再因为数据格式的不统一而苦恼和困惑。 目前,能够担当此任的就是x m l ( e x t e n s i b l em a r k u p l a n g u a g e ,可扩展标记语言) 。 x m l 是由w 3 c 于1 9 9 8 年2 月发布的一种标准。它同样是s g m l 的一个简化子集,它 将s g m l 的丰富功能与h t m l 的易用性结合到w e b 的应i f ; j 中,以一种开放的、自描述的方 式定义了数据结构。在描述数据内容的同时能突出对结构的描述,从而体现出数据之间的关 系。这样所组纵的数据对于应用科序和用户都是友好的、可操作的。 x m l 是s g m l 的一个子集,严格地讲,x m l 也还是s g m l 。与h t m l 不同的是x m l 有d t d 或x m ls c h e m e 定义,因而也可以像s g m l 那样作为元语言来定义其它文件系统, 或称其符号化语言。如果把符号化语言分为元符号化语言和实例符号化语言的话,s g m l 和x m l 都是元符号化语言,而h t m l 和由x m l 派生的x h t m l 都是实例符号化语言。 2 3 2x m l 的特点 x m l 可以作为电子数据交换的统一格式 虽然x m l 原本是为出版界设计的一种文档描述语言,即s g m l 派生而来的一种符号化 语言,但是它也是为互联网的数据交换而设计的。从而,x m l 不仅仅是s g m l 定义的用于 描述的文档,而且在电子商务等各个领域使数据交换成为可能。 用x m l 可以对数据关系进行定义形成特有的标准,因此各行各业都在建立自己的行业 化标准,以应用丁网络上处理电子商务,把后台系统通过w e b 站点表现出来。x m l 还可咀 作为数据仓储,一个x m l 文件就是一个小的数据库,通过对数据关系的定义形成各种关系、 属性的数据,实现数据交换、上f 文检索、多媒体传输。 x m l 具有其他方法所不具备的数据描述特点 x m l 是以文本形式米描述的一种文件格式虽然使用文本描述的内容,可以越过不 同平台的障碍进行正常的数据交换。但是,文本形式也会因为文字代码的不同造成不能阅读 的问题,在这一点上x m l 有着非常完美的解决方案。 x m l 使用有意义的标记( t a g ) 在x m l 中文件是由一个个称之为元素( e l e m e m ) 的部件构成。使用标记( t a g ) 来描述元素。由于使用了标记的描述方法,可以保持原数据 的意思和构造在互联网上进行数据交换,进而可以保持不同系统之间数据交换的灵活性。 同时,x m l 的标记名和关系可毗自由定义就像许多文章中介绍的那样“x m l 是用 标记描述的语言”,而且x m l 的标记名标记的层次结构等都可以由用户定义。也就是说, 根据x m l 语法可以定义用户特殊用途的标记集合形成一个全新的符号化语言。这就是x m l “可扩充( e x t e n s i b l e ) ”名字的来源。 归根到底,x m l 是“定义语言的语言”,也即是一种元语言。由于x m l 具有元语言的 功能,所以可以成为描述电子商务数据、多媒体演示数据、数学公式等各种各样数据应用语 言的基础语言。 2 3 3x m l 的主要相关技术 x m l 是描述内容的数据格式,在使用x m l 数据时,还需要x m l 数据的显示、打印、 数据结构的变更等许多相关技术。 x m l 数据结构检查技术 处理x m l 数据时,一定要使用x m lp r o c e s s o r ( 也就是x m lp a r s e r ) ,把x m l 数据结 构的检查等交给x m lp a r s e r 去做。 定义x m l 数据结构的技术 在x m l 中用户可以自由地定义标记名以及与标记相关的元素及元素层次,这是x m l 第二章基础知识简介 的主要特征。但是,如果定义的都是只有自己才能理解的标记,就无法与其他人进行交换数 据。为了在企业团体之间进行x m l 格式的数据的交换,x m l 数据的结构、元素的名称、 元素的数据类型以及元素的亲子关系都需要仔细考虑,一定耍设计成人和系统能够理解的语 言。这样设计的x m l 数据结构在x m l 领域称为s c h e m a ,描述s c h e m a 的语言称为s c h e m a 语言。 最背通x m l 的s c h e m a 语言是d t d ( d o c u m e n t t y p ed e f i n i t i o n :文档类型定义) 。但是, 随着x m l 应用的发展,从s g m l 继承下来的d t d 显然有许多不足的地方。为了解决这些 问题,w 3 c 制词了s c h e m a 语言x m ls c h e m a 。虽然它与d t d 相比增大很多。但是其表现 力要远比d t d 强得多 显示和打印x m l 数据的技术 x m l 数据定义打印、显示排版信息主要有3 种方法:用c s s 定义打印雨i 显示排版信息; 用x s l t 转换到h t m l 进行显示和打印:用x s l t 转换成x s l 的f o ( f o r m a t t e ro n e c t ) 进 行显示和打印。 x m l 数据结构转换技术 在x m l 的应j | 中,有的x m l 数据需要转换到其他结构的x m l 数据,为此w 3 c 制订 了描述标准化的x m l 数据结构转换规则的语言x s l t 。 x s l t 是为显示和打印x m l ,而从x s l 规范独立山来的规范,原本是描述排版信息的 语言,因此,用x s l t 制作的程序称为样式表。但是,x s l t 也可以用于排版以外的各种用 途。 2 4h t t p 协议介绍 目前的w e b 应用系统,无论是显示静态h t m l 页面,还是通过a s p 、p h p 或者c g i 等 技术显示动态页面,都是通过h t t p 协议和用户进行交互的。h t t p 协议是应用层协议,用 于发布、编写超文本信息。在h 丌p 协议中,用户通过标定u r l ( u n i f o r m r e s o u r c e l o c a t o r s ) 来确定访问的页面。如果用户需要访问动态页面,也通过u r l 来传递参数。u r l 格式如下: h t t p _ u r e = ”h t t p :”h o s t :”p o r t 】 a b s a ) a t h ? ”q u e r y u r l 中的字符除了大小写字母、阿拉伯数字( 0 9 ) 、美元符号( $ ) 、短划线( - ) 、下划 线( ) 、句点( ) 、加号( + ) 等符号之外,还可以是一些特殊符号,这些特殊符号通常需 要转义符号来制定。u r l 的转义代码由一个百分号( ) 和i s o - l a t i n - i 字符集( 标准a s c i i 的父集) 的两个十六进制数字组成。 在一个u r l 中,“h t t p :”表明网络协议名称,“h o s t ”表示要访问的主机名称,“p o r t ” 表示访问的端口,“a b sp a t h ”表示要访问的页面的路径,“? ”和后面的q u e r y 表示要传递的 参数。用户只是访问静态的h t m l 页面时,u r l 中没有“? ”和后面的q u e r y 字符串,如果 用户访问的是动态页面,那么u r l 中的“? ”和后面的q u e r y 字符串会传递给下一个动态页 面。一般q u e r y 字符串中包含着用户的查询条件。 q u e r y 字符串中的参数传递给服务器有两种方法,分别是“p o s t ”方法和“g e t ”方法。 “g e t ”方法通过环境变量读取用户传递的q u e r y 字符串参数“p o s t ”方法读标准输入 f s t d i n ) 获得表单中输入的各项内容,通过写标准输出( s t d o u t ) 回传客户端的信息。在 h t m l 表单中,一般使用p o s t 方法传递参数数据。 东南火学硕士学位论文 第三章w e b 信息抽取的设计实现 3 _ 1w e b 网页的分析 为了更好地实现w e b 信息的抽取,我们必须对w e b 网页的结构和特点有所了解,才能 对症f 曲。 3 1 1w 曲信息特点 a 数据的非结构化与半结构化 数据的非结构化与半结构化是针对传统数据库中的数据结构性很强而言的。对于一个一 般的文本文件、一张图片或者是一个多媒体视频( 声音、图像) ,它们的数据是完全没有结 构的,仅是一些随机的字符流而已,而h t m l 页面是这些数据的集合,所以h t m l 页而所 蕴含的数据是非结构化的;同时,它又不是完全非结构化的,文本、图片、声音、图像等数 据会按烈一定的方式组织起来,具有一定的描述层次和结构,所以从整体上看,h t m l 页 面还是有一定结构的,但没有如同结构化数据那样严谨的结构模式,我们称之为半结构化数 据。 b 面向显示与面向数据 从现在w e b 网页的构成来看,w e b 上的网页大都以h t m l 页面的形式存在,所以w e b 信息具有h t m l 本身所具有的特点:面向显示与面向数据。h t m l 标记所蕴含的显示方式 由浏览器理解完成,而页面信息的具体含义与语义的理解由用户自己完成。 c 不同形式数据源的数据 w e b 上的信息除了可以直接保存在h t m l 页面中外,还可以和企业的后台数据库相连, 通过查询,将后台数据库中的数据用h t m l 页面的形式显示,以实现数据共享; 1 1 交换。 d 静态与动态性 w e b 信息的静态与动态特点体现在f 面几个方面: 时代在不断的发展,信息也在不停的更新当中,所以w w w 站点上的信息是随时 间动态变化的,体现在w e b 网页中就是内容发生改变: 企业的需求、个人的爱好以及技术的发展,会导致站点的页面组织结构发生变化, 也会导致w e b 网页的改变; 还有个方面就是体现在动态网页和静态网页。当i n t e m e t 刚盛行,h t m l 刚出现 的时候网页基本都是静态网页,这类网页只是静态的、显示囿定的内容,灵活性 低、维护开销大,越来越不满足人们的需求,从而出现了动态网页技术。这类网页 可以和用户交互,根据用户的需求,配以后台数据库技术,同一个网页显示不同的 数据。 e 组织的规律性 根据对w w w 的统计,在设计者设计网站组织结构时,他们往往会把主题相同的页面放 在w e b 服务器的同一个目录下或根据主题层次组织成树形目录,这些目录和页面的层次 结构将映射到具体页面以及目录的u r l 上。即使在同一个页面中,信息的组织也有其规律 性簇聚性,就是内容含义相同或相似的信息组织在一起,在页面上体现为占据某一块页 面。 3 1 2 页面描述方法 为= 7 清楚地描述页面的内容,目前已经提出了许多不同的描述方法,其不同的描述方法 8 - 第三章w e b 信息抽取的设计实现 具有各自的特点以及优缺点。下面简单介绍几种常用的页面内容描述方法 3 】: ( 1 )基本项描述 所谓基本项就是页面中由标记项阱及控制符所分割的一段内容。而基本项描述就是:督 一页面看作一连串的基本项序列,这种描述方法缺点在于无法描述出页面中可能存在的内部 结构及基本项之间相互直接联系,因此有时无法清楚描述某些页面内容。基本项描述是一种 基于一维的页面内容描述方法。 ( 2 )标记项描述 标记项描述将一个页面看作一连串相互交叉的标记项序列,这些标记项通常都是页面 中基本项的某种属性的描述,标记项描述是一种基于多维的页面内容描述方法。 ( 3 ) 外观式样描述 外观式样描述将一个页面看作一个二维空间的布局和基本项长短的描述方法。这种描 述方法可以看作标记项描述的一种特例。这种方法本身无法提供足够信息用于分割基本项属 性信息。 ( 4 )印刷格式描述 印刷格式描述就是一组定义在页面内容组成上的简单函数,这些函数反映了构成一个 内容组成的字符属于某些字符集合的关系。印刷格式描述不是用于解释这些字符的内在含 义,而是帮助使文本内容的描述更易于理解。 ( 5 )语言属性描述 语言属性描述是将一个页面看作语法和语义结构的对象,页面的基本项通过图形结构 将一组语法关系联系到一起,每一个单词具有一个或多个语义时态,而每个时态仅在一个给 定的上f 文中起作用,由于从页面中获得的语言属性结构描述是不完全的,另外加上内在多 维语言结构,因此以一种图形结构来表达其语言属性描述非常困难。 3 1 3w e b 页面的组织结构特点 在w e b 信息的特点中提到,w e b 信息具有组织的规律性,这主要体现在网站的组织和 页面的组织结构有一定的规律可寻。 网站的组织结构 一个w e b 网站可以看作是一些相关网页的集合,这些网页中有且只有一个网站首页,它 们之间通过超链接相互联系,其组织结构可以用一棵树来表示。这棵树只有一个根节点,树 的节点代表页面,边代表链接,边具有方向( l i n k 的指向) 。如果两个节点即两个网页间有 多条边,即多个链接j l ! | j 简化为一条边”j 。 根据网页的链接是否存在回溯,可以将网站的组织方式分为两类: 线性结构的组织方式 这类网页的访问只能顺序访问,即除父节点指向子节点的边外,不存在任何有节点 指向其他节点的边,可用下图米表示: 网站苜页 图3 1 网站的线性组织 一9 一 东南大学硕士学位论文 :| | 二线性结构的绸织方式 这类网页之问的访问存在环形结构。这也有两种情况: a 除父节点指向子节点的边之外,存在由子节点指向:二根节点的节点的边。可用r 图 来表示: 网站首页 图3 2 网站的非线性组织( a ) b 除父节点指向子节点的边之外,只存在着由子节点指向根节点的边。可用r 图米表 示: 图3 3 网站的非线性组织( b ) 网站首页 其实,一个w e b 站点的结构,并不会只满足上面某一个结构模式,它往往是上述三种模 式的组合。w e b 结构更倾向于自由浮动,使得访问者能够任意地浏览。其结构类似一张蜘蛛 网。 网页的组纵结构及层次结构 在非结构化或半结构化的页面里,一个页面由多个固定的域组成,每个域包含具体的内 容,各个域的内容不仅仅限于文本,可以为数字、日期、图片、u r l 等等页面允许的类型。 这种页面结构实际上就是一种关系模型。由于页面中域的组成顺序以及关系的不同,可能对 应不同的关系模型。根据页面中是否有嵌套域,也即对应的关系模式是否存在表的嵌套结构, 可以分为两种情况3 】: 页面中没有嵌套域,也即一个页面的结构只是对应一张表的结构。在这种情况下根 据页面中域的情况页面还可以分为两种情况: a 页面中域是不重复的,则对应的关系表中的每一条记录相当于一个页面,而每 一一列相当于页面的一个域,其结构可用下图表示: 1 0 - 第三章w e b 信息抽取的设计实现 页面p 域1 域2 域3 域4 域n 图3 4 页面组织结构( 单记录页面) b 如果页面中域是有规则重复的,这时可以称此类页面为多记录页面,则对应的 关系表中的多条记录相当于一个页面,而每一列相当于页面的一个域,其结构可 用下图表示: 页面p 域l 域2 域1 域2 域l 域2 图3 s 页面组织结构( 多记录页面) 页面中域间存在嵌套,也即一个页面的结构对应多张表的结构。在这神情况r 根据 页面中域的情况页面也可以分为两种情况: a 如果页面中域是不重复的,则对应的关系表中的每一条记录相当于一个页面, 而每一列相当于页面的一个域( 嵌套的上层域) ,此外存在一张或多张关系表分 别对应 捩套域,其结构可用下图表示: 页面p 域 图3 6 页厩组织结构( 单域记录页面) b 如果页面中域是有规则重复的,这时可以称此类页面为多记录页面,则对应的 关系表中的每一条记录相当于一个页面,而每一列相当于页面的一个域( 嵌套 的上层) ,此外存在一张或多张关系表分别对应嵌套域其结构可用下图来表 示: 页面p 厂丁1 h 域1 域2 域l 域2 域1 域2 域3 域4 图3 7 页面组织结构( 嵌套的多记录页面) 东南人学硕士学位论文 而页面的层次结构般可以分为网状结构和层次结构两种。 3 2 相关技术的介绍与分析 由丁w e b 信息源的重要性和独特性,现在有关w e b 信息抽取,已经有了很多的研究, 也提出了很多的实现技术。这些实现技术的不同点就在r 包装器实现的不同,而包装器的构 造方式根据抽取模式生成方式的不同可以分为以r 儿类:手工方式的模式抽取、通过样本学 习的、r 自动化模式抽取、利用页面自身特点的自动化模式抽取、其他方式的模式抽取。 3 2 1 手工方式的模式抽取 这种方式需要用户对h t m l 语言有相当的了解,并且对所要抽取的网页的结构也相当熟 悉。在此基础上,通过人1 。定义所要抽取的信息的结构,来发现抽取模式。采用这种方式的 有【4 ,【5 】等 文献 4 中,采用用户输入页面描述文件对层次结构抽取,该描述文件需要用户描述抽取 过程的具体变量和编写抽取方法,并且这种方法只能适用某些特殊的页面。 文献 s w ,用特定格式的文本描述语言来对抽取的网页数据进行描述,即对源网页中所 需抽取的信息进行重定义抽取模式。这个描述文件包含这些内容:承载所要获取数据的 网页的途径( u r l ) 、网页获取方式( g e t 或p o s t ) 、目的模式、所抽取数据与目的模式之间 的映射关系。接着,一个能够解释并执行该描述文件的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 设备岗位安全操作培训课件
- 2026届湖北省武汉市武昌区武汉大附属外语学校九年级英语第一学期期末质量检测模拟试题含解析
- 安全驾驶培训第13期课件
- 2025年爱耳日培训试题及答案
- 电工实地考试题及答案
- 近代诗词竞赛试题及答案
- 2026届江苏省宝应县英语九上期末综合测试模拟试题含解析
- 2026届吉林省长春朝阳区六校联考化学九年级第一学期期中质量跟踪监视试题含解析
- 安全月竞赛试题及答案
- 健康护理试题及答案
- 部编版六年级语文上册重点难点解析
- 重庆市南开中学高2026届高三第一次质量检测+化学答案
- 肖婷民法总则教学课件
- 教育培训课程开发与实施指南模板
- 2024年中国人寿集团公司招聘笔试参考题库含答案解析
- 压 实 度 试 验 记 录 表
- GA/T 1069-2013法庭科学电子物证手机检验技术规范
- 新版药品管理法培训培训课件
- 单位线法推求流域出口洪水过程工程水文学课件
- 幼儿园组织与管理讲座课件
- 2021年新疆第二医学院辅导员招聘试题及答案解析
评论
0/150
提交评论