已阅读5页,还剩48页未读, 继续免费阅读
(计算机软件与理论专业论文)web教学资源抽取技术及其应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 自上个世纪9 0 年代末到至尽,i n t e m e t 的得到了飞速发展,网络已经成为人们获取 信息的主要来源。如何使人们从成千上万的网站中快速方便的获取自己想要的资源和信 息已经成为当前急需解决的问题。但是w e b 上大量存在的有价值的信息都是以h t m l 格式存在的,这种信息数据的特点是内容分散,以半结构化的形式存在于页面中。为了 把这种信息数据以结构化形式表示并通过一致的方式进行访问,w e b 信息抽取技术随之 产生了。 随着计算机与网络的应用与普及,国内基础教育的信息化建设空前的繁荣起来,越 来越多的教师使用多媒体素材和课件进行授课,并把这种教学资源在网络上共享。于是 出现了大量的教学资源专业网站。教师如何从网站获取这些教学资源呢? 本文就是利用 w e b 信息抽取技术构建一个专业的w e b 教学资源抽取系统,以方便广大教师和学生对 w e b 上教学资源的利用。 本文先对w e b 信息抽取技术进行分析,仔细的研究先有系统使用的技术和方法。 对现有w e b 信息抽取的不足之处提出了改进,如原有方法都是真对一个网页的数据进 行抽取,没有考虑到抽取对象可能会存在于多个网页中,每个页面都会有对象的属性描 述。还有对网页结构的变更,系统如何根据已有的抽取规则适应这种情况的变化等。在 此基础之上,构建了一个面向基础教育教学资源的信息抽取系统,对用户指定网站的教 学资源数据进行抽取与集成。 最后,本文对上述系统进行了实验性能测试,通过对实验数据招回率与抽取率的比 较来证明本系统具有实际的可用性。 关键词:信息抽取x g l 教学资源元数据抽取规则 a b s t r a c t s i n c et h el a t eo f1 9 9 0 s ,i n t e m e th a sd e v e l o p e dv e r yf a s t n o w , i th a sb e c o m eam a i n s o u r c eo f i n f 0 皿a t i 吡b mh o wt og a i nt h et a r g e ti n f o r m a t i o ni naf a s ta n dc o n v e n i e mw a yh a s b e c o m eap r o b l e md e s e r v i n gt ob es o l v e du r g e n t l y m u c hi n f o r m a t i o no nt h ew e be x i s t si nt h e f o r n lo fh t m l t h ec h a r a c t e r i s t i eo ft h i sk i n do fi n f o r m a t i o nd a t u mi st h a ti n f o r m a t i o ni s s e p a r a t ea n de x i s t si nas e m i s t r u c t u r a lf o r m w e bi n f o r m a t i o ne x t r a c tt e c h n o l o g yc o m e si n t o b e i n gu n d e rs u c hc o n d i t i o nt h a ti n f o r m a t i o nd a t u ma r cs h o w ni nas t r u c t u r a lf o r ma n dc a n b e g a i n e di nau n i v e r s a lw a y w i t ht h ep o p u l a r i z a t i o na n dw i d eu s eo ft h ec o m p u t e ra n dw e b t h ei n f o r m a t i o n c o n s t r u c t i o n so fi n t e r n a lb a s i ce d u c a t i o nf l o u r i s ha n dm o r ea n dm o t t e a c h e r sa p p l y m u l t i m e d i am a t e r i a l sa n dc m u r s e w a r ei nt h e i rt e a c h i n ga n ds h a r et h e s et e a c h i n gr e s o u r c e so n t h ei n t e m e t w i t ht h ee m e r g e n c eo fs om a n yt e a c h i n g - r e s o u r c ew e b s ,h o wc a l lat e a c h e r o b t a i nt h e s et e a c h i n gr e s o u r c e s ? t h ep u r p o s eo f t h i sp a p e ri st oc o n s t r u c tp r o f e s s i o n a le x t r a c t s y s t e mo fw e bt e a c h i n gr e s o t l t c e sb yu s i n gw e bi n f o r m a t i o ne x t r a c tt e c h n o l o g ys oa st o e n a b l et e a c h e r sa n ds t u d e n t st om a k eb e t t e ru o f t e a c h i n gr e s o u r c e s0 1 3t h ew e b h e r e1w i l la n a l y z ew e bi n f o r m a t i o ne x t r a c tt e c h n o l o g y , t e c h n o l o g i e sa n dm e t h o d so f o t h e rp r e v i o u ss y s t e m s a n d1w i l li m p r o v et h es h o r t a g e so f e x i s t i n gw e bi n f o r m a t i o ne x t r a c t , s u c ha st h e ya l lo n l ye x t r a c tt h ed a t u mf r o mo n ew e bp a g eb u ti nf a c tt h et a r g e ti n f o r m a t i o n m a ye x i s ti nm a n yw e bp a g e s m o r e o v e rt h i sp a p e rr e f e r st ot h es t r u c t u r a lc h a n g eo fw e b p a g e sa n dh o w as y s t e mc a na d j u s tt ot h i sc h a n g ea c c o r d i n gt oe x i s t i n ge x t r a c tr u l e s t h e ni c o n s l l - a c 喧a ni n f o r m a t i o nc x n a c ts y s t e mo nt e a c h i n gr e s o u r c e so fb a s i ce d u c a t i o nt oe x u a c t a n di n t e g r a t ei n f o r m a t i o nf r o mt h e s en a m e dw e b s i t e s l a s t , ic h e c kt h i ss y s t e ma n dp r o v et h ee f f e c t i v ea p p l i c a t i o no ft h i ss y s t e mt h r o u g ht h e c o m p a r i s o no f f e e d b a c kr a t ea n de x t r a c tr a t eo f e x p e r i m e n t a ld a t u m k e y w o r d s :i n f o r m a t i o ne x t r a c t ;x m l ;m e t a d a t ao f t e a c h i n gr e s o u r c e s ;e x t r a c tr u l e s 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取 得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中 不包含其他人已经发表或撰写过的研究成果,也不包含为获得东北师范大学 或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研 究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 、, 学位论文作者签名:亟j 逐日期:避i :;! l l 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规 定,即:东北师范大学有权保留并向国家有关部门或机构送交学位论文的复 印件和磁盘,允许论文被查阅和借阅。本人授权东北师范大学可以将学位论 文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其它 复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 日期: 学位论文作者毕业后去向: 工作单位: 通讯地址: 指导教师签名 1 日 期 电话: 邮编: 第1 章绪论 1 1 研究背景 随着计算机技术的发展和i n t e r n e t 应用的普及,基础教育教学资源的信息化建设 也得到蓬勃的发展。越来越多的人应用计算机制作教学素材,并把教学素材通过w e b 进 行共享与交流。随着各种类型的教学资源的专业网站不断涌现,毫无疑问,w e b 已经成 为人们获取教学资源的主要途径。但是随着网站的增多教学资源数据的呈几何级数的增 长。要想从w e b 上获取一条想要的教学资源的难度却越来越大。一种理想的情况是:人 们可以像查询数据库一样查询各种教学资源网站上的资源素材。 但是网站教学资源都是以半结构( s e m i - - s t r u c t u r e d ) 数据【1 】【2 】的形式存在。目前这 些数据多是通过h t m l l 3 语言来展现,而h t m l 语言的一个显著特点是结构隐含、不规则 或不完整。结果使得这种在网站上的教学资源处于杂乱无序的状态,数据集成性非常差, 应用程序无法直接解析、获取并利用w e b 上海量的信息,给w e b 教学资源应用的建立造 成了极大的困难。 然而,人们从w e b 上获取和利用有用信息的要求却与日俱增。如何从浩繁的w e b 数 据中抽取出有用的信息成为众多研究工作希望解决的问题。为了解决这个问题,出现了 w e b 信息抽取技术。它通过“包装”现有h t m l 信息源。将网页中的信息以更为结构化、 语义清晰的方式发布出来,增强w e b 信息的可用性。那么把这项技术应用在基础教育教 学资源的抽取上成为了当前的必要。 i n t e r n e t 具有的海量、异构、动态变化等特性使w e b 信息抽取不同于传统信息抽取, 同时带来了新的挑战。首先,面对呈几何级速度增长的巨大的w e b 信息空间,如何自动 高效地处理海量w e b 信息是w e b 信息抽取的一个难点。其次,w e b 页面的异构性使如何 在各式各样的w e b 页面里准确识别所需信息点成为一个较大的难点。再次,对一个信息 点属性之间的关联关系的确定也是待解决的问题。最后,w e b 网站的动态更新使得保持 信息抽取的适应性也成为一个有待解决的问题。 抽取技术随着需求的增加而不断丰富,近年来国内外涌现了多种信息抽取方法,根 据抽取原理和抽取方式的不同,分为以下4 类:基于自然语言处理方式、基于包装器归 纳方式,基于o n t o l o g y 方式,基于h t m l 结构方式。这些方法各有侧重地解决了上述w e b 信息抽取中面临的问题,总体上取得了良好的效果,但在某些方面存在不同程度的局限 或缺陷。 为了更好地解决w e b 信息抽取面临的诸多问题和不足,有必要对w e b 信息抽取问题 作进一步研究。并把w e b 信息抽取技术以系统的形式应用在面向w e b 页面的基础教育教 学资源信息抽取。 1 2 研究现状 信息抽取【4 技术的核心是能够从w e b 页所包含的无结构或半结构的信息中识别用户 感兴趣的数据,并将其转化为更加结构化、语义更为清晰的格式。 w e b 信息抽取的一个直接应用就是帮助人们在纷繁复杂的w e b 信息海洋中快速准确 地查找所需信息,加快人们获取信息的速度。举例来讲,将分散在不同w e b 页面的动态 变化的股市信息抽取出来可用于股市行情公告;将不同商家网站( w e b 页面) 提供的商 品价格信息抽取出来提供给用户,用于比价购物;通过抽取用户兴趣相关的信息可为用 户提供个性化信息服务等。 将信息从网页中抽取出来通常是由包装器【5 】( w r a p p e r ) 完成的,所谓包装器就是一 个能够将数据从h t m l 网页中抽取出来并且将它们还原为结构化的数据( 例如x m l 数据) 的软件程序。 定义1 1 :给定一个包含一系列对象的页面s ,找到一个映射关系w ,它可以将s 中 的对象映射到一个数据集r ,并且这个映射w 还必须可以从任何与s 类似的页面s 中 识别并抽取数据。( 其中的“类似”页面指与s 来自同一网站或w e b 服务的页面,具有 相对一致的页面结构) 。 定义1 1 中的映射w 就是所说的包装器( w r a p p e r ) 。包装器是过分析一定数量的样 本文档( 这个数量一般较少) 而生成的,一旦生成后,就可以利用这个包装器对与样本 文档具有类似结构的所有文档进行自动的信息抽取。w e b 数据抽取的核心是构造用于抽 取的w r a p p e r 。 1 2 1 国内基础教育教学资源建设现状 目前,中小学教师对于计算机的学习多是普及办公软件和多媒体课件的制作,对于 所需的图片、声、像等素材的制作,还缺乏必备的能力,如何利用已有网络资源是教师 的当务之急。对于网络上丰富的教育资源,教师应当对此有详细的了解。 网络资源按不同的分类标准,有不同的结果。有综合型网站,将其学校或个人各学 科的教案、素材、教育软件、论文等合放在一起,如h t t p :z y z x 2 m y l 6 3 e o m ;还有 单学科类型网站,主要是个人将其所任学科的经验、成果及收集到的材料汇总在一起, 如语文、数学、外语、物理、化学等型的网站,这类网站优点的内容针对性强,资料相 对丰富,但这类网站由于多是个人行为,提供的材料水平及制作水平有高有低,良莠不 齐,选择起来要慎重。 总的来说大部分资源现在都可免费获取使用。教育资源网站按提供材料的内容可分 为以下部分: l 、教案库:精选名家名师教案按教材顺序编排,以便教师学生学习、查询使用,并 备有各章节教学注意事项。如k 1 2 中国中小学教育教学网上提供了各门学科的大量教案 实例。 2 、课件及教学软件库:提供数学、物理、外语等软件或课件,供教师教学、学生 学习使用。 2 3 、文献资料库:提供百科知识、中外名人名言名句、世界名著等的文学常识及有 关教育方面的政策、法规、条例和规章制度等,以供教学或学习的检索使用,如文学类 的三字经、毛泽东诗词全集,各种小说;化学类字典化学实验室、化学教育词典 等。 4 、多媒体素材库:可分为四大类既图形( 图像) 类、音频类、视频类和动画类素 材。多媒体素材是目前中小学教师制造课件最为缺乏的资源,是制约课件制作发展的瓶 颈,也是资源网站的核心部分。素材的种类是否齐全、选取的素材是否有代表性、科学 性和权威性,素材分类是否合理、检索是否方便都直接关系到我们对素材资源网站的选 取。其中较好有:中华图库h t t p :霄孵s t a r 9 9 c o m p h o t o 提供动画、声音分类详细的 有殷都图霸h t t p :向w e y e s l 6 8 t o m s u c a i i n d e x h t m 等。 题库和试题卷。这类网站内容多为成人考试提供,如计算机等级考试、职称考试、船a 或m p a 等类,是成人学习考试的重要参考地点。为中小学校提供的分为高考试题,同步 单元试题、同步章节检测题、竞赛试题、章节复习题。多为学校或个人提供自己试卷, 以本校或其他校学生交流使用。 5 、教科研成果库。 ( 1 ) 国内信息。利用i n t e r n e t 的经济、快捷,追踪科研热点,推广科研成果,迅 速传播起导向作用的论文,发布研讨会议、招生和考试信息等。如中国教育科研网 h t t p :嗍e d u c n ( 2 ) 国际信息。友情连接国外化学教育网站,介绍国外最新教育动态,对比国内 外教育现状,拓广教师视野,加强国际同行了解和交流,提高教学效率。 6 、论文库:分门别类收集化学教育论文,提供按图索骥查询功能,是利用网络服 务科研的必然举措。, 7 、交流之窗:部分网站所提供的“网上会议”、。虚拟论坛”、“经验交流”、“学生 之声”“b b s ”等服务可供师生直接交流,对于疑难问题的解答提供有效的途径,拓宽同 行交流的广度,进行时间和空间交流。 从上面的内容我们可以看到,对w e b 教学资源进行结构化的抽取是非常重要的,在 一定的程度上促进信息化教育的发展。 1 2 2w e b 信息抽取技术的分类 目前随着信息抽取技术越来越被人们所重视,出现了多种信息抽取工具。采用的技 术也各不相同涉及多个研究领域,如:数据库、人工智能、数据挖掘和信息检索等。根 据抽取原理和抽取方式的不同,信息抽取技术主要分为下面几大类:基于自然语言理解 方式的信息抽取、包装器归纳方式的信息抽取、基于o n t o l o g y 方式的信息抽取、基于 h t m l 结构的信息抽取。 本节从方法的原理出发,介绍几种w e b 信息的抽取技术,并结合目前较为典型的 系统在语义的附加方式、模式的定义方式、抽取规则的表现形式、对象的定位方式、自 动化程度、效率和健壮性等几个方面进行分析和比较。其中结构化的数据称为对象( 如 数据库中的一条记录) ;模式的定义方式主要有两种,信息抽取之前定义模式叫先模式【6 】 3 反之称为后模式【。 1 2 2 1 基于自然语言理解方式的信息抽取 自然语言处理技术通常用于大量文本的信息抽取,需要经过的处理步骤包括:句法 分析、语义标注、专有对象的识别( 如人物,公司) 和抽取规则。具体得说就是把文本 分割成多个句子,对一个句子的句子成分( p a r to f s p e e c h ,p o s ) 进行标记,然后将分析 好的句子语法结构和事先定制的语言模式( 规则) 匹配,获得句子的内容。其实就是利 用子句结构、短语和子句间的关系建立基于语法和语义的抽取规则实现信息抽取。规则 可以由人工编制,也可从人工标注的语料库中自动学习获得。这类信息抽取主要适用于 源文档中含有大量文本的情况( 特别针对于合乎文法的文本) 。 目前采用这种原理的典型系统有r a p i e r t 2 6 1 、s r v 2 9 】【3 0 】 3 1 】、w h i s h 3 4 1 。下面以理 方式的信息抽取w h i s h 为例说明基于自然语言处理方式的信息抽取。 w h i s k 适用于结构化、半结构化的文本,同时也适用于自由文本( f r e et e x t ) 。结 构化和半结构化的文本,由于完整的句子常被h t m l 标记所分割,一般不符合语法, 所以系统根据语义项的上下文实现感兴趣信息的定位。此时基本上没有利用到自然语占 处理技术,对这种情况这里不做详细分析。对于自由文本,文档中包含了多个不被h t m l 标记分割的完整句子,此时系统首先根据分割符将源文档分割成多个实例( 每个实例是 一个主题相关的文本块,如一个网上书店的页面中,一个图书信息的介绍称作一个实 例) 。用户在可视化的环境下根据系统提供的实例标记出感兴趣的信息并定义模式。系 统使用语法分析器和语义类( 如人名、机构名) 分析器,分析出用户标记信息的语法成 分和对应的语义类,生成基于语法标记和语义类标记的抽取规则,实现信息抽取。 w h i s k 中所用的抽取规则主要是建立在词或词类间句法关系的基础上。对于结构 化和半结构化的文本,规则采用正则表达式的形式描述了感兴趣语义项( 文本中的短语) 的上下文及语义项间的分割符,利用这些信息达到识别感兴趣语义项的目的。对于自由 文本,在一定程度上利用了自然语占处理技术的思想。信息抽取的实质是根据语义项对 应的语义类、语义项的上下文和所处的句子成分实现信息的定位( 如,某个语义项只能 出现在句子的关系从句中) ,即根据语义和语法的双重约束实现信息抽取。 基于自然语言的信息抽取技术是将w 曲文档视为文本进行处理的( 主要适用于含 有大量文本且句子完整、适合语法分析的w e b 页面) ,其缺点也较为明显: 抽取的实现没有利用w e b 文档独特于普通文本的层次特性,抽取规则表达能力有限,缺 乏健壮性;获得有效的抽取规则需要大量的样本学习,达到全自动的程序较难,而且速 度较慢,对于操作网上海量数据来说这是一个大问题。只支持记录型的语义模式结构, 不支持复杂对象的抽取。由于w e b 页面中的文本通常不是结构完整的句子,所以适用范 围较窄。 1 2 2 2 基于包装器归纳方式的信息抽取 包装器的信息抽取采用先模式方式根据用户标记的样本应用机器学习方式的归纳 算法,生成基于定界符的抽取规则。 包装器由一系列的抽取规则以及应用这些规则的程序模块所组成。一个包装器只能 4 处理一种特定的信息源( 每一类w e b 页面对应一个包装器) 。从几个不同信息源中抽取 信息,需要一系列的包装器程序库。其对应关系如图卜1 所示。 图1 - 1 与自然语言处理方式比较,包装器较少依赖于全面的句子语法分析和分词等复杂的 自然语言处理技术,更注重于语义项的上下文来定位信息。采用这种原理的典型系统有: w i e n r 丌、s o f t m e a l y 1 9 l 和s t a l k e r t 2 1 1 圜。其中w l e n 和s o f t m e a l y 必须依靠紧挨着数据 前的分隔符来定位数据,而且不能抽取复杂格式的数据。s t a l k e r 引入了b c t 树( 嵌入 式分类树) 来表示复杂格式的数据。下面分析一下s t a l k e r 系统的信息抽取技术。 s t a l k e r 系统:先使用e c t 树来定义要抽取对象的语义模式,然后标记样本,接着 采用逐步覆盖算法生成抽取规则,实现信息抽取。使用e c t 树的描述形式,可以表示复 杂的语义模式结构。 使用包装器的困难在于:包装器的针对性强,可扩展性较差。由图卜1 可以看出, 由于一个包装器只能处理一种特定的信息源,所以若从几个不同的信息源中抽取信息, 就需要一系列的包装器集。这样使得信息抽取的工作量巨大。可重用性差。包装器对页 面结构的依赖性强,当出现一类新的w e b 页面或旧的页面结构发生了变化后,原来的包 装器就会失效,无法从数据源中获得数据或得到错误的数据。这使得一个新的问题出现, 即包装器的维护问题。缺乏对页面的主动理解。目前的包装器主要依赖于原网页或其后 台数据库的模式,基本上是一种数据模式的还原,缺乏对数据语义的主动理解。 1 2 2 3 基于o n t o l o g y 方式的信息抽取 按照s t a n f o r da i 专家t o mg r u b e r 的定义,o n t o l o g y 是为了帮助程序和人共享知 识的概念化规范,在知识表达和共享领域,o n t o l o g y 描述了在代理之间的概念和关系 ( c o n c e p t sa n dr e l a t i o n s ) 1 1 0 1 ; 基于o n t o l o g y 的信息抽取主要利用了对数据本身的描述信息实现抽取,对网页结 构的依赖较少。由b r i g h a my o n gu n i v e r s i t y 开发的信息抽取工具就采用了这种方法。 采用该方法,事先要由领域知识专家采用人工的方式书写某一应用领域的o n t o l o g y ( 包 括对象的模式信息、常值、关键字的描述信息,其中常值和关键字提供了语义项的描述 信息) 。并且根据o n t o l o g y 中常值和关键字的描述信息产生抽取规则,对每个无结构的 文本块进行抽取获得各语义项的值。另外系统根据边界分隔符和启发信息将源文档分割 为多个描述某一事物不同实例的无结构的文本块。还将抽取出的结果放入根据o n t o l o g y s 的描述信息生成的数据库中。 基于o n t o l o g y 方式的最大的优点是对网页结构的依赖较少,只要事先创建的应用 领域的o n t o l o g y 足够强大,系统可以对某一应用领域中各种网页实现信息抽取。 主要缺点是:需要由领域专家创建某一应用领域的详细清晰的o n t o l o g y ,工作量大。 由于是根据数据本身实现信息抽取,因此在减少了对网页结构依赖的时,增加了对网页 中所含的数据结构的要求,如要求内容中包含时间、日期、i d 号码等有一定格式的内容 ”。从大量异构的文档中提取公共模式工作量繁重,并且不支持对超链接的处理。 1 2 2 4 基于h t 札结构的信息抽取 该类信息抽取技术的特点是根据w e b 页面的结构定位信息。在信息抽取之i j 通过解 析器将w e b 文档解析成语法树,通过自动或半自动的方式产生抽取规则,将信息抽取转 化为对语法树的操作实现信息抽取。采用这种技术的系统有很多,比如商业化的 l i x t o 4 0 1 ,非商业化的x w r a p c 4 “,另外r o a d r u n n e r 4 2 】和w 4 f m 【4 5 】、s g w r a m 4 7 】也采用了 该技术。 l i x t o :在该系统中,用户以可视交互的方式对样本页面中的信息进行标记,系统 通过记录用户标记的信息,采用“系统默认”或“用户定制”的方式生成抽取规则,实 现对类似页面的信息抽取( 这里的“类似页面”的解释如定义1 ) 。该系统中语义信息是 在样本学习阶段由用户加入的,用户事先我在可视化的用户界面上定义模式,且可以表 达复杂的语义模式结构,抽取出的数据最终x m l 文档的形式存放。l i x t o 在一定程度上 简化了信息抽取的步骤,增强了信息抽取技术的实用性。但该系统在实现和优化方面比 较难于实现( 其抽取规则使用了基于d a t a l o g 的e l o g 语言来描述) ,另外抽取规则中对 抽取信息的描述不够丰富。其生成抽取规则的两种方式各有着不同的局限:自动化程度 较高的“系统默认”方式,生成的规则缺乏健壮性;而“用户定制”方式自动化程度较 低,但对用户有一定要求,用户的操作不当可能直接影响生成规则的健壮性。 x w r a p :系统提供了一个可视化的用户界面,是一个能用x m l 的w e b 信息源包装建 构的系统。这里“能用) ( m l ”,也称为( ) ( 1 j l e n a b l e d ) 是指隐含在源w e b 页中关于信息 内容的元数据将被抽取出来,并转换为包装文档中的) ( i l 标记。 这里由用户在网页中指定语义项来附加语义信息,针对不同的网页标记,或称不同的区 域类型( 如t a b l e ,t r 等) 采用不同抽取规则来提高系统的灵活性和效率,最后产生的 是x m l 文档。其主要贡献在于:将建立特定数据源包装器的任务和适合于任何数据源的 重复任务明确分开;提供了友好的用户接口程序,由一组交互机制和启发式集就可以生 成信息抽取规则;该系统通过两个阶段来生成可执行的包装器程序,第一阶段对于包装 器开发人员所识别的特定源的无数,利用交互接口工具生成信息抽取规则,第二阶段对 于给定的w e b 数据源,利用第一阶段生成的信息抽取规则和x w i 认p 构件库建立可执行的 包装器程序。但是由于其只适合于含有明显区域结构的网页进行信息抽取,不支持对普 通网页的抽取,而且用户在学习阶段的参与也较多。 r o a d r u n n e r :的关键思想是通过处理页面比较得到的m i s m a t c h 来不断地修改当前 的模板,最终推导出能够覆盖例子页面的模板,然后根据模板来实现对类似页面的信息 6 抽取。系统从h t m lt a g 出发,所有的推导、操作都是基于直接对于h t 儿t a g 的计算操 作。由于h t m l 页面的复杂性,在t a g 层次上的操作会遇到很多困难,因此使得算法的 稳定性下降,并且时间复杂度随着文档大小呈指数级增长。 w 4 f :由m b a u e r 等人研制的信息抽取器制造工具w 4 f 可以迅速生成针对不同内容、 不同结构信息的信息抽取,可扩充性强。该系统将用户自定义的查询语言作为信息抽取 时的启发式规则,并利用电子商务网站商品信息结构类似和网页半结构化的特点对网页 结构进行分析。 w 4 f 允许应用程序员使用描述性的声明语言来建立包装器,编译为j a v a 组件并可以 作为更大型的应用程序的一部分。其主要贡献在于:包装器分为检索、抽取和映射三层; 所有部件都是完全声明性的;整体结构都可以从h t 札页面中抽取出来而不是各组成部 分的结构;带有可视化向导的工具包可以帮助用户定义抽取规则并在使用前测试包装程 序;生成的包装器可集成于任何j a v a 应用程序中。 1 2 3w e b 信息抽取存在的问题 通过对现有的w e b 信息抽取技术的分析,可以发现w e b 信息抽取面临着挑战,这些 挑战同时也是有待进一步研究和解决的问题。 1 ) 抽取规则一直是信息抽取过程的一个重要环节。目前各类信息抽取技术中生成 规则的依据主要有五类:结构特征、位置特征、显示特征、语义特征和引用特征。这些 方式各有缺陷,如何将基于结构和基于文本方式有效地结合起来是信息抽取需要解决的 一个问题。 2 ) 机器学习往往通过大量的样本学习来提高获取规则的自动化程度,这意味着系 统需要经过较长时间的学习才能获得较好的查准率。抽取规则的适应性较差,缺乏健壮 性是现有信息抽取技术所面临的难点。现有的技术均采用定制的语言表达抽取规则,缺 乏通用性,系统不易升级,且不易与其他基于w e b 的应用集成。如何处理效率与健壮性 之间的矛盾是一个重要问题。 3 ) 性能较好的信息抽取技术需要用户的大量参与,自动化程度不高;而自动化程 度高的信息技术其准确率和适应性较低,实用性较差。这两者之间的矛盾也需要解决。 4 1 对语义模式的定义还存在问题,有些系统采用语义模型无法表达复杂结构的数 据,有些即使解决这个问题,采用表达的数据结构也存在问题,没办法向其他的数据模 型转换,降低了抽取的利用率。 包装器的生成与维护问题随着信息抽取的不断应用而突显出来。由于w r a p p e r 与 i f f m l 文档格式的紧密联系,使得w r a p p e r 应该有着较强的适应能力和可扩展性。如何最 大程度地利用已有的资源( 程序、数据等) ,通过最小程度地改造适应新的信息源,增 强系统的可扩展性也是一个重要问题。 1 3 研究目标 通过现有信息抽取技术研究现状的分析,针对基础教育教学资源的结构化信息抽取 7 提出以下几个目标: 1 、用户如何从w e b 页面中抽取出所需要的教学资源,并提出一个以抽取规则为核 心的w e b 教学资源信息抽取平台。该平台通过对样本页面的转化、语义附加、抽取规则 提取、规则优化、装配等步骤最后生成以x m l 文档为表现形式的结构化数据文件,并与 系统数据库或其他系统进行数据访问。 2 、根据教育部颁布的基础教育元数据规范建立语义模型,并根据此语义模型进行 语义标记与x m l 抽取结果的生成。 3 、在对现有教学资源网站的结构分析基础之上,针对页面中教学资源信息跨页面 的特点。提出了如何建立跨网页的语义模型和相关算法的实现。 4 、由于现有网站数据的更新和结构的更改,如何能从已有规则库中适应这种变化。 尽量减少用户的人工参与,能够自动适应这种变化,在文章中提出了归纳学习的方法来 解决这个问题也是本文的研究目标。 通过本系统用户可以对网站更新的数据进行及时获取,不用每次都要去每个网站搜 索数据,当网站页面结构发生改变时系统也可以适应新的改变。 1 4 本章小结 本章首先提出了本文是在什么样的背景下提出对w e b 教学资源结构化信息抽取技术 进行应用研究的。基于我们要研究的内容,分析了基础教育教学资源的建设现状,提出 了我们当前教学资源进行结构化信息抽取的必要性。接着又对当前w e b 信息抽取技术的 研究现状进行了分析。最后从应用和技术的角度提出了本文的研究目标。 第2 章研究所涉及相关技术与标准 这一章将对后面教学资源抽取系统中所使用到的相关技术与标准做一个初步的介 绍。以便在系统描述时可以有个清晰的了解。 在教学资源抽取系统中所使用到的技术主要有x m l 相关技术,在系统中的每个环 节都是与x m l 分不开的。从语义模式的定义、样本语义的标记、抽取规则的获取、结构 化教学资源信息的抽取到与其他异构数据源的数据交互。因为本文应用的重点在于基础 教育教学资源的结构化信息抽取,所以在抽取过程中对基础教育教学资源的语义模型的 构建是非常重要,语义模型的构建的依据是教育部颁发的基础教育教学资源元数据标 准。所以对这个标准也要了解。 2 1x m l 的相关技术介绍 2 1 1 ) 叫。( 可扩展标记语言) x m l 1 4 1 ,或称为可扩展标记语言( e x t e n s i b l em a r k u pl a n g u a g e ) ,是一种可以用来 创建自己的标记的标记语言。它由w 3 c 创建,用来克服h t 札( h y p e r t e x tm a r k u p l a n g u a g e ) 的局限。和h t m l 一样,x m l 基于s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u p l a n g u a g e ) 。k m l 是为w e b 设计的。和h t m l 的面向显示相比,x m l 是面向内容的。x m l 因具有更多的语义、良好的可扩展性、简单易用、自描述等特点而特别适用于w e b 上的 半结构数据,并可用于数据交换。x m l 正在成为数据组织和交换的事实标准;同时,大 量的x m l 也迅速地出现在了w e b 上。目前,对x m l 数据的存储和查询2 7 】【2 8 】方面的研究 方兴未艾。 x 札主要具有以下几个特点: 简洁有效 x m l 是一个精简的s g 札,它将s g m l 的丰富功能与h t m l 的易用性结合到w e b 应用种, 它保留了s g m l 的可扩展功能,这使得x m l 从根本上有区别于h t m l 。并且) a 也种还包括 可扩展格式语言x s l ( e x t e n s i b l es t y l el a n g u a g e ) 和可扩展链接语言x l l ( e x t e n s i b l e l i n k i n gl a n g u a g e ) 使得x m l 的显示和解析更加方便快捷。 易学易用 x m l 对s g m l 进行了精简,它抛弃了s g m l 中不常用的部分,方便用户编写w e b 页面 同时也给设计人员实现x m l 浏览器降低了困难。 开放的国际化标准 x m l 是w 3 c 正式批准的,它完全可用于w e b 和工具的开发。x m l 具有标准的名域说 明方法,支持文档对象模型标准、可扩展类型语言标准、可扩展链接语言标准和x m l 指 针语言标准。使用x m l 可以在不同的计算机系统问交换信息,而且还可以跨越国界和超 9 越不同文化疆晃交换信息。 高效可扩充 姗l 支持复用文档片断,使用者可以发明和使用自己的标签,也可以与他人共享, 可延伸性大。在x m l 中,可定义一组无限量的标准,可以有效地进行x m l 文件的扩充。 一个具有正规格式的x m l 文档的定义形式是一个简单的层次树,每个都有且仅有一 个根节点,称为文档实体( d o c u m e n te n t i t y ) 或文档根( d o c u m e n tr o o t ) 。这个节点 可能包含p 1 和或注释,而且总是包含子元素树,子元素树的根被称为文档元素 ( d o c u m e n te l e m e n t ) 。这个元素是这个树中其它所有元素的父元素,而且它可能不包 含在其它任何元素当中。值得注意的是,文档根和文档元素并不是一回事,在图2 - 1 中 的文档元素是e m p l o y e e 元素,它和k m l 声明都是文档根的子节点。 + x m lv e r = lo n - ”10 “e n c o d l n g = - ”1 l t f 一8 ” 电帅e 坷i n g z h ix u “n 柏e l f e m a l e “s e x l l ,h n 幽ur o a d d a h n “a d d r e z s l z h z h n e w m a i l 丑_ ue hc n ( t e l 0 4 1 i - 8 4 7 2 4 5 2 3 “e m p l o y e ei n f o r m “l o 廿 “m p l o y e e l n f o r m a t io a 电a i t j e i i ez g ; l s e x e m 1 e l ,l * n 曲a lr o a d , d a l in l 】1 e z t g n e w m a i ld 1 1 l ue d u 血 ; 图2 一l 一个简单的) ( m l 文档 元素树和其中的父一子关系是x m l 的一个非常重要的特性。任何元素类型只能是以 下四种之一:如果元素类型只允许包含其它元素或标记,而不能包含字符数据,这种节 点称作元素内容节点;如果元素类型可以包含字符数据或其它元素,这样的节点被称为 混合型节点;混合型节点的一种子集就是只包含字符数据的元素,称之为字符内容节点: 如果元素不包含任何内容,我们称它为空元素,但是空元素标记可以包含属性1 ” 2 1 2d 伽( 文档对象模型) 文档对象模型( 通常称为d o m ) 1 2 副为瑚l 文档的已解析版本定义了一组接口。解 析器读入整个文档,然后构建一个驻留内存的树结构,然后你的代码就可以使用d o m 接 口来操作这个树结构。你可以遍历树以了解原始文档包含了什么,你可以删除树的几个 部分,还可以重新排列树和添加新的分支,等等。d o m 由w 3 c 创建,并且是该协会的 正式建议书。d o ma p i 是解析x m l 文档非常有用的方法。用于) ( m l 的简单a p i :为 了解决d o m 问题,x m l d e v 参与者们( 由d a v i dm e g g i n s o n 领导) 创建了s a x 接口。 s a x 的几个特征解决了d o m 的问题: s a x 解析器向你的代码发送事件。当解析器发现元素开始、元素结束、文本、文档 的开始或结束等时,它会告诉你。你可以决定什么事件对你重要,而且可以决定要创建 1 0 什么类型的数据结构以保存来自这些事件的数据。如果你没有显式地保存来自某个事件 的数据,它就被丢弃。s a x 解析器根本不创建任何对象,它只是将事件传递给你的应 用程序。如果希望基于那些事件创建对象,这将由你来完成。s a x 解析器在解析开始 的时候就开始发送事件。当解析器发现文档开始、元素开始和文本等时,代码会收到一 个事件。你的应用程序可以立即开始生成结果;你不必一直等到整个文档被解析完毕。 更妙的是,如果你只查找文档中某些内容,代码一旦找到所要找的东西就可以抛出一个 异常。该异常会停止s a x 解析器,然后代码用它找到的数据做它需要做的任何事。 2 1 3x p a t h x p a t h 2 4 1 是在1 9 9 9 年1 1 月1 6 日和x s l t 一起成为正式标准的。x p a t h 是用作x s l t 和x p o i n t e r 的对x m l 文档各部分进行定位的语言。它给x s l t 和x p o i n t e r ( x i l 文件内 部链接语言) 提供一个共同、整合的定位语法,用来定位) a 也文件中各个部位。x p a t h 除了提供一套定位语法之外,还包括一些函数,它们提供基本的数字运算、布尔运算和 字符串处理功能。 x p a t h 使用一个紧凑的、非x m l 的语法来方便实现x p a t h 在x m l 属性值中的使用, 它基于x m l 文档的逻辑结构,在该结构中进行导航。除了用于定位,x p a t h 自身还有一 个子集能用于进行匹配,它能验证一个节点是否匹配某个模式。x p a t h 把一个儿文档 看成一个树或节点的模型。节点的类型可以有多种,包括元素节点、属性节点和文本节 点。 l o c a t i o ns t e p 是x p a t h 的基本结构,提供了从) m 。文档中选择节点的方法,包括 三个部分:轴( a x i s ) 、节点测试( n o d e t e s t ) 和谓词( p r e d i c a t e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年平凉市农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)附答案详解
- 广州市农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)含答案详解(研优卷)
- 日喀则地区农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)附答案详解(黄金题型)
- 2026年肇庆市农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)附答案详解(培优b卷)
- 2026年齐齐哈尔市农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)及参考答案详解1套
- 2025年高校教师与管理岗位面试常见真题及答案
- 2025年高校辅导员笔试试题(含答案)
- 黄山市农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)及答案详解(网校专用)
- 喀什地区农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)及答案详解(名师系列)
- 鸡西市农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)含答案详解(模拟题)
- 人教版六年级上册数学(新插图)全册教材练习题教学课件
- 全人教版六年级语文上册各单元作文范文大全
- GB/T 7025.2-2008电梯主参数及轿厢、井道、机房的型式与尺寸第2部分:Ⅳ类电梯
- 风险分级管控责任清单(市政道路工程)
- 艺术疗育余涵
- 自考《现代设计史》(05424)考试复习题库(汇总版)
- 240T循环流化床锅炉使用说明书
- “农药水悬浮剂加工及贮藏中的常见问题及其对策”课件
- 铁路下穿高速公路安全评价报告
- 农民工工资舆情应对培训交底资料
- 楼宇自控系统报价清单
评论
0/150
提交评论