(计算机应用技术专业论文)基于模板的网页主题信息抽取.pdf_第1页
(计算机应用技术专业论文)基于模板的网页主题信息抽取.pdf_第2页
(计算机应用技术专业论文)基于模板的网页主题信息抽取.pdf_第3页
(计算机应用技术专业论文)基于模板的网页主题信息抽取.pdf_第4页
(计算机应用技术专业论文)基于模板的网页主题信息抽取.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

(计算机应用技术专业论文)基于模板的网页主题信息抽取.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着互联网的迅猛发展,w e b 已成为全球最大的信息源和知识库。而w e b 信 息的主要载体网页,除了表达主题的内容外,还有为了维持页面的链接关 系而进行的导航设计或出于商业目的等进行的广告及修饰内容,这些对于以网 页为数据进行处理的算法而言就是“噪音”。它们分布于网页四周,甚至附着在 正文旁边,使文档主题很不明确,给w e b 上基于网页内容的研究工作带来很多困 难。这就需要研究对网页主题信息进行抽取的有效方法。 目前互联网上绝大多数的页面都是由数据库和相关的网页模板生成,网页 模板以固定的显示格式处理来自同一个来源的数据,由模板生成的网页结构布 局是基本一致的。 本文充分利用该类网页的上述特征,通过结构相似判断算法将结构布局相 似的网页自动归为一类,以此作为训练样本通过机器学习得到通用的网页主题 信息抽取步骤,然后按照这个步骤从其他w e b 页面中抽取主题信息,并在抽取阶 段完成抽取规则的自动更新。 主要内容包括:样本集的自动获取:通过训练生成抽取规则;根据抽取规 则进行网页主题信息抽取。与现有方法相比,本文提出的方法充分考虑了网页 的结构特征,具有较高的抽取效率和准确率。实验结果也证明了方法的正确性 和有效性。 关键词:w e b 挖掘;网页主题信息抽取;d o m 树;模板 a b s t r a c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e m e t ,w e bh a sb e c o m eo n eo ft h em o s t i m p o r t a n tg l o b a li n f o r m a t i o ns o u r c e sa n dk n o w l e d g er e p o s i t o r i e s b u tw e b p a g e s , t h em a i nc a r r i e ro fw e bi n f o r m a t i o n , u s u a l l yc o n t a i na d v e r t i s i n ga n dd e c o r a t i v e e l e m e n t sf o rc o m m e r c i a lp u r p o s e sa n dn a v i g a t i o nd e s i g n sw h i c ha r ei no r d e rt o m a i n t a i nt h el i n kb e t w e e np a g e sb e s i d e st o p i ci n f o r m a t i o n a l lo ft h e s ea r e n o i s e s f o rt h ea l g o r i t h mh a n d l i n gw e b p a g e s n o i s e s l o c a t ea r o u n dt h et e x to re v e ne m b e d i nt h et e x t , w h i c hb r i n gm a n yd i f f i c u l t i e sf o rw e b - b a s e dr e s e a r c hw o r k i ns u c h c i r c u m s t a n c e s ,w en e e de f f e c t i v em e t h o d st oe x t r a c tt o p i ci n f o r m a t i o no fw e b p a g e s c u r r e n t l yt h ev a s tm a j o r i t yo fp a g e so nt h ei n t e m e ta r eg e n e r a t e df r o mt h e d a t a b a s ea n dr e l a t e dt e m p l a t e t e m p l a t e sf o r m a tt h ep a g e sf r o mt h es a m es o u r c ed a t a i naf i x e ds t y l e ,8 0t h el a y o u to fw e b p a g e si ss i m i l a r i nt h i sp a p e r , b yt a k i n gf u l la d v a n t a g eo ft h ea b o v ef e a t u r e s ,w e b p a g e sw h i c h a r e i ns i m i l a rs t r u c t u r ea n dl a y o u tw i l lb ec l a s s i f i e di n t oo n es a m p l es e t a u t o m a t i c a l l yb ys t r u c t u r e - b a s e dp a g es i m i l a r i t ya l g o r i t h m ,w i t hw h i c h , w ec a ng e t g e n e r a ls t e p sf o re x t r a c t i n gt o p i ci n f o r m a t i o nt h r o u g hm a c h i n el e a r n i n g , a n df o l l o w t h es t e p st od e a lw i t ho t h e rp a g e sg o tf r o mo t h e rw e b s i t e s f u r t h e r m o r e ,w eu p d a t e e x t r a c t i o nr u l e sd u r i n gt h et l l i r ds t a g ei no r d e rt oi m p r o v et h ee x t r a c t i v ea c c u r a c y r a t e t h em a i nc o n t e n t si n c l u d e :a u t o m a t i cr e t r i e v es a m p l es e t ;g e n e r a t ee x t r a c t i o n r u l e st h r o u g ht r a i n i n g ;e x t r a c tt o p i ci n f o r m a t i o nb a s e do nr u l e sa c c o r d i n g l y t h e m e t h o dt o o km u c ha d v a n t a g eo ft h ec h a r a c t e r i s t i co fw e b p a g e ss t r u c t u r ea n d i m p r o v e de x t r a c t i o np e r f o r m a n c eo b v i o u s l y t h er e s u l t sa l s op r o v e dt h a tt h em e t h o d i sa c c u r a t ea n de 仟e c t i v e k e yw o r d s :w e bm i n i n g ;w e bp a g ei n f o r m a t i o ne x t r a c t i o n ;d o mt r e e ;t e m p l a t e n 学位论文版权使用授权书 本人完全了解北京机械工业学院关于收集、保存、使用学位论文 的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和 电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、 缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以 及提供本学位论文全文或者部分的阅览服务:学校有权按有关规定向 国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目 的的前提下,学校可以适当复制论文的部分或全部内容用于学术活 动。 学位论文作者签名:y 为町砀呵 泐妒年月叫自 ( 注:非保密论文无需签字) 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 年月日年月 日 硕士学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 潞踢呷 砂曾年f 月彤e t 第1 章绪论 第1 章绪论 1 1 选题背景 w w w 的飞速发展使其成为全球信息传播与共享的重要资源,随着i n t e r n e t 的发展,w e b 上的数据呈几何级数增长,要想从w e b 上获取一条有用信息的难度 却越来越大。w e b 数据的不断增长和异构数据源集成的应用,导致了大量半结构 ( s e m i - - s t r u c t u r e d ) 数据的产生。目前这些数据多是通过h t m l 语言来展现, 而h t m l 语言的一个显著特点是结构不规则或不完整。结果使得w e b 上的数据 处于一种无序状态,数据集成性比较差,应用程序无法直接解析、获取并利用 w e b 上海量的信息,给w e b 应用的建立造成了较大困难。其次,随着各类网页制 作软件的普及和人们对网页审美标准的提高,以及商业广告数量的增加,使得 w e b 页面中包含了大量与自身主题信息关系不大的图片、脚本、代码、链接等内 容。这些内容不仅增加了w e b 文档所占空间的大小,更重要的是给w e b 上基于网 页内容的研究工作带来很多困难。例如,在信息检索领域,如果不对原始网页 进行主题信息抽取,检索系统必然对噪音内容也建立索引,从而导致仅仅因为 查询词在某个网页的噪音内容中出现,而把该网页作为结果返回,不仅使索引 结构的规模变大,而且还导致了检索准确率的下降;在网页摘要领域,主题信 息不明确会导致摘要信息中包含噪音内容,降低摘要的准确率;在主题搜索领 域,大量的广告、导航条等内容会导致主题漂移( t o p i cd r i t l ) 。这就需要我们研 究一种对网页内容进行抽取的有效方法。因此如何从w e b 网页中抽取有用信息已 经成为当前信息领域的研究热点之一,具有很高的实际应用价值。 1 2 研究背景 1 2 1 什么是信息抽取 信息抽取( i n f o r m a t i o ne x t r a c t i o n ,简称i e ) 技术,是通过抽取、过滤无关 信息,使文本信息以用户关心的形式得以再组织,实现高效重组。信息抽取原 来的目标是从自然语言文档中找到特定的信息,是自然语言处理领域特别有用 的一个子领域。信息抽取利用语言学的知识,主要是词语知识和篇章结构的知 识,从文中抽取出特定的内容,从而避免对全文进行深入的理解。 第1 章绪论 i e 系统中的关键组成部分是一系列的抽取规则或模式,其作用是确定需要 抽取的信息。所要抽取的文本可分为:自由式文本、结构化文本和半结构化文 本。 自由式文本:信息抽取最初的目的是开发实用系统,从自由文本中析取有 限的主要信息。处理自由文本的i e 系统通常使用自然语言处理技巧,其抽取规 则主要建立在词或词类间句法关系的基础上。需要经过的处理步骤包括:句法 分析、语义标注、专有对象的识别( 如人物、公司) 和抽取规则。规则可由人 工编制,也可从人工标注的语料库中自动学习获得。 结构化文本:此种文本是一种数据库里的文本信息,或者是根据事先规定 的严格格式生成的文本。从这样的文本中抽取信息是非常容易的,准确度也高, 通过描述其格式即可达到目的。所用的技巧因而相对简单。 半结构化文本:这是一种界于自由文本和结构化文本之间的数据,通常缺 少语法,像电报报文,也没有严格的格式。用自然语言处理技巧对这样的文本 并不一定有效,因为这种文本通常连完整的句子都没有。因此,对于半结构化 文本不能使用传统的i e 技巧,同时,用来处理结构化文本的简单的规则处理方 法也不能奏效。 与信息抽取密切相关的一项研究是信息检索( i n f o r m a t i o nr e t r i e v a l ,简称 瓜) ,但信息抽取与信息检索存在差异,主要表现在三个方面: 1 ) 功能不同:信息检索系统主要是从大量的文档集合中找到与用户需求相 关的文档列表;而信息抽取系统则旨在从文本中直接获得用户感兴趣的事实信 息。 2 ) 处理技术不同:信息检索系统通常利用统计及关键词匹配等技术,把文 本看成词的集合,不需要对文本进行深入分析理解:而信息抽取往往要通过对 文本进行深入地分析处理后才能完成。 3 ) 发展历史不同:多数i e 的研究是从以规则为基础的计算语言学和自然 语言处理技术发源的。而i r 则更多地受到信息理论、概率理论和统计学的影响。 另一方面,信息检索与信息抽取又是互补的。为了处理海量文本,信息抽 取系统通常以信息检索系统( 如文本过滤) 的输出作为输入;而信息抽取技术 又可以用来提高信息检索系统的性能。二者的结合能够更好地服务于用户的信 息处理需求。 2 第1 章绪论 1 2 2 信息抽取的历史 信息抽取技术研究最早于2 0 世纪8 0 年代由美国提出,最初的目的是从大量 有关海军的信息中自动找到所需的内容,这得益于因特网的出现和美国国防高 级研究计划委员会( t h ed e f e n s ea d v a n c e dr e s e a r c hp r o j e c t sa g e n c y ,d a r p a ) 资助的m u c ( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) 会议的推动。 从历次的m u c 会议中,可以清晰地看到信息抽取技术的发展历程。从1 9 8 7 年到1 9 9 8 年,m u c 会议共举行了七届,有许多大学和研究机构参加。1 9 8 7 年 5 月举行的首届m u c 会议基本上是探索性的,没有明确的任务定义,也没有制 订评测标准。m u c 2 开始有了明确的任务定义,规定了模板以及槽的填充规则。 抽取任务被明确为一个模板的填充过程。m u c 3 开始引入正式的评测标准,其 中借用了信息检索领域的一些概念,如召回率和准确率等。从m u c - 4 开始, m u c 被纳入t i p s t e r 计划。t i p s t e r 计划是由美国国防部、d a r p a 和c i a ( c e n t r a li n t e l l i g e n c ea g e n c y ) 共同资助,目的是推动和促进提高文本处理的技 术水平,重点是文档检索( d o c u m e n td e t e c t i o n ) 、信息抽取、自动文摘等技术。 m u c 5 于1 9 9 3 年8 月举行,在本次会议上,组织者尝试采用平均填充错误率 e r r ( e r r o r p e r r e s p o n s e f i l l ) 作为主要评价指标。与以前相比,m u c 5 抽取任 务的复杂性更大。还有一个重要的创新是引入了一个嵌套的模板结构。m u c 6 的评测更为细致,强调系统的可移植性和对文本的深层次理解能力。除了原有 的场景模板填充任务外,又引入了三个评测任务:命名实体识别、共指关系确 定、模板元素填充等。最后一届m u c 会议,m u c 7 除m u c 6 已有的四项评测 任务外,又增加了一项新任务,模板关系任务,它意在确定实体之间与特定领 域无关的关系。 随着i n t e m e t 的发展,几乎所有的网上信息都是以结构化、半结构化文本的 形式呈现给用户,由于处理的文本的格式和特点不同,所以,信息抽取领域又 分为两个研究方向: 1 ) 基于n l p 的信息处理系统,其处理对象是自由文本,这样的系统利用自 然语言处理技术,例如语法分析和语义分析来构造抽取规则。 2 ) 基于i n t e m e t 的信息处理系统,这样的系统处理的对象是来自i n t e r n e t 的 结构化和半结构化文本,一般都不借助自然语言处理技术,而是利用网页描述 中使用的标识符以及文本自身的文字特点来定义抽取规则。 近几年,信息抽取技术的研究与应用更为活跃。在研究方面,重要侧重于 第1 章绪论 以下凡个方面:剩耀机器学习技术增强系统的可移植能力、探索深层次理解技 术、篇章分析技术、多语言文本处理能力、w c b 信息抽取以及对时间信息的处 理等等。在应用方面,信息抽取应用的领域更加广泛,除了自成系统以外,还 与其它文档处理技术结合建立功能更强大的信息服务系统。 中文信息抽取方面的研究起步较晚,主要的研究工作集中在对中文命名实体 的识别方面,在设计实现完整的中文信息抽取系统方露还处在探索阶段。其中, 囡立台湾大学( n a t i o n a lt a i w a nu n i v e r s i t y ) 和新加坡肯特岗数字实验室( k e n t r i d g ed i g i t a ll a b s ) 参加- j m u c 7 中文命名实体识别任务的评测瑟l 2 1 。i n t e l 中国 研究中心的z h a n gy i m i n 和z h o uj o ef 等人在a c l - 2 0 0 0 上演示了他们开发的 一个抽取中文命名实体以及这些实体间相互关系的信息抽取系统,该系统利用 基于记忆的学习( m b l ,m e m o r y - b a s e dl e a r n i n g ) 算法获取规则用以抽取命名 实体及它们之间的关系p l 。 1 2 3 信息抽取的现状 随着w e b 的出现和繁荣,l e _ 研究人员逐渐将兴趣转移到w e b 信息抽取的研究 上,涌现了许多算法和系统。其中最知名的研究项目是卡耐基梅隆大学“自 动学习和发现中一t 二, ( c e n t e rf o ra u t o m a t e dl e a r n i n ga n dd i s c o v e r y ) 的“w e b 挖掘 ( m i n i n gt h ew o r l dw i d ew e b ) 项目。该项目的目标是通过自动的从w e b 中提取 事实,来创建大型的、结构化的有用事实的数据库。他们的技术途径是研究机 器学习算法,透过训练,能够自动抽取信息。用户首先定义要被抽取的类比如 公司、产品、雇员) 和关系( 比如“被雇佣”) ,并通过w e b 提供训练样本,系统使 潮这些诩练数据学习通焉的信息抽嘏步骤,然焉按照这个步骤从其德w e b 页面中 抽取信息。 1 3 本文的主要工作 从信息抽取的现状分析中可以发现,“w e b 挖掘项虽给我们提供了一个很 好的w e b 信息抽取模式,其先训练褥抽取的自动化抽取途径非常适合对目前大 规模由模板生成的网页进行信息抽取。本文就是针对这方面的研究,主要工作 包括以下凡方面: 通过对信息抽取相关技术的研究,探索对由模板生成的网页进行主题信 息抽取的有效模式和方法。 4 第1 章绪论 设计实现一个基于模板的网页主题信息抽取系统。 实验及结果分析。 对基于模板的信息抽取技术进一步的展望。 1 4 论文结构 本文共分为五章,主要章节安排如下: 第一章绪论,详细阐述了本文的选题背景及研究背景,合理界定了本文研 究的基本内容。 第二章w e b 信息抽取技术综述,介绍w e b 信息抽取的基本概念、研究内容、 相关技术及存在的问题等,最后给出了本文的w e b 信息抽取解决方法。 第三章基于模板的网页主题信息抽取方法,针对利用模板技术生成的w e b 页面的特点,借鉴一些相关的w e b 数据抽取算法,提出了基于模板的网页主题 信息抽取算法和模型,并详细论述了该算法的实现原理和细节。这一部分是本 文论述的重点。 第四章实验,描述了数据抽取实验的环境及实验数据的来源,对本文提出 的数据抽取算法进行了验证。 第五章结论和展望,回顾全文的内容,总结研究工作取得的成果,并对下 一步的研究工作提出展望。 第2 章信息抽取技术综述 第2 章w e b 信息抽取技术综述 2 1w e b 信息抽取简介 网页信息抽取与传统的信息抽取有很大的不同。随着因特网的普及,w e b 提供了一个巨大的信息源。这种信息源往往是半结构化的,虽然中间还夹杂着 结构化和自由文本。此外,网上的信息还是动态的,包含超链接,以不同的形 式出现,而且跨网站和平台,全网共享。因此,因特网对信息抽取来说是一个 特殊的挑战。 传统的n l p ( 自然语言处理) 技巧对抽取半结构化文本的信息并不是很有 用,因其缺少规范的语法结构。而且,n l p 方法的处理速度通常比较慢,这对 于网上海量信息来说是一个大问题。 在目前互联网的海量信息源中,半结构化文档占有举足轻重的地位。从w e b 网页到各种通过办公软件或其他方式手工编辑的公文、报告、报表等,都具有 半结构化信息源的特征。这些文档具有一定的结构特征,尤其是在领域相关的 半结构化文档集里,结构特征相对比较稳定,对信息抽取具有很好的指导意义。 而传统的信息抽取技术并没有对这些重要的结构信息加以利用,换言之,将半 结构化信息当作非结构化信息来处理,使得信息抽取的效果有很大的局限性。 为了更加准确和有针对性地利用这类信息源,科研工作者近年来提出了一些基 于半结构化信息的抽取及应用方法。 2 2w e b 信息抽取技术的分类 目前w e b 信息抽取技术广泛采用的是称为网页包装( w r a p p i n g ) 的方法, 相关的研究工作集中在抽取方法的研究和w r a p p e r 的自动或半自动化生成工具 的研究上。 根据w r a p p e r 的生成方式,大致上可以将w e b 信息抽取方法分为三类: 1 ) 人工的w r a p p e r 抽取 即针对需要进行信息抽取的网页,以编程的方式生成抽取w r a p p e r ,进而进 行信息抽取。在t s i m m i s 4 】中抽取过程是基于过程化的程序,但是抽取结果依 赖于文档的结构。 2 ) 机器学习的方法 6 第2 章信息抽取技术综述 这种方法需要大量的网页作为训练集【5 】,从网页集的正例和反例中学习,归 纳得到抽取网页的结构特点,进而生成抽取w r a p p e r 。国内外已经有许多关于这 种抽取方法的研究: s t a l k 一6 】基于标记的h t m l 页面得到s k i pt o 序列模式的 抽取规则。s o t t m e a l y l 7 】采用有限状态自动机来表示抽取规则。k u s h m e r i c k 8 】等基 于预定义的抽取器建立了鲁棒的w r a p p e r ,它的可视化支持工具w i e n 能够接受 用户提供的一组例子以及用户标记的信息。 3 ) 交互式的网页w r a p p e r 抽取 这是一种在用户交互性和抽取灵活性方面都有很大改进的抽取方法,与基 于机器学习方法相比,该方法需要极少或不需要对网页进行预处理操作。交互 式抽取方法的设计和实现主要是基于下列考虑:现实中进行抽取的h t m l 页面 是各种各样的,而h t m l 标签所能表达的语义信息( s e m a n t i c ) 却很少,对特 定数据源来说,用户的交互是快速有效生成w r a p p e r 的最好方式。w 4 f t 9 】使用类 s q l 的查询语言- h e l 来建立w r a p p e r ,部分查询可以使用可视化的抽取向导 来生成,而整个查询需要用户手工编写,这需要对h e l 和h t m l 都很熟悉。 x w r a p 1 0 】使用程序化的规则体系并提供了有限的模式定义表达能力,并提出了两 阶段的代码生成框架:根据特定的h t m l 文档产生抽取规则和生成普遍可用的 可执行的抽取程序。l i x t o 】提供了可视化的方式进行w r a p p e r 生成,用户可以 通过浏览的方式来标记w e :b 文档,这在用户交互性方面具有很大的进步,但 w c b 信息抽取的根本目的就是提高信息获取效率,因此要尽可能减少与用户的 交互,目前的多数方法在这方面还有可以改进的余地。另外,文献 1 2 提出了模 式导航的w r a p p e r 生成方法( s g w r a p ) ,用户使用d t d 或x m ls c h e m a 定义 一个h t m l 文档中所要抽取信息的模式,然后通过鼠标将页面中的例子信息与 模式中的元素关联起来,最终映射生成w r a p p e r 。 根据w r a p p e r 信息抽取器的实际运行机制,w e b 信息抽取方法也可以归为 三类: 1 ) 直接解析h t m l 文档的方法 该方法只是简单的将h t m l 页面看作是一个由h t m l 标记和普通字符串构 成的序列集合,利用p e r l 、j a v a 、y a c c 、p h y o n 等程序语言或其他自行设计的 程序语言,编写可执行程序直接对h t m l 网页进行分析和处理。这种方法主要 利用规则表达式对内容进行模式匹配,不涉及h t m l 文档的层次结构。 直接解析h t m l 文档的方法中,常用的抽取规则是基于分界符的抽取规则。 7 第2 章信息抽取技术综述 最简单的基于分界符的规则就是给出数据项起始和结束的分界符。例如,某一 个数据项的起始符规则是“s k i p t o ,结束符规则是“s k i p t o 。意味着 从文档的起始忽略所有的字符直至找到h t m l 标签 ,中间部分即所需的字符串。当然作为分界符的除了h t m l 标签,还可 以是特征字符串,标点符号等。还有的抽取规则为了处理h t m l 数据的差异性, 采用了有限状态自动机的表达方式。文献 1 3 】在此基础上作了扩展,除了采用正 向抽取规则,还采用反向抽取规则,反向规则是指从文档的结尾开始从后向前 扫描分界符。 。这种分析h t m l 字符串的方法有很多众所周知的缺点,主要的是程序的健 壮性和可维护性较差。因为抽取规则固化在程序中,一旦网页内容和结构发生 变化,就必须对w r a p p e r 进行重新设计,当然这种方法具有抽取效率高的优点。 后来出现的一些w e b 信息抽取方法中引入了规则文件的概念。抽取逻辑从程序 中被分离出来放入规则文件中,一旦结构发生变动,或者需要抽取同类网页信 息,只需改写规则文件。这在很大程度上弥补了上面谈到的缺陷。规则文件以 各种形式存在着,例如描述文件( s p e c i f i c a t i o nf i l e s ) ,x s l t 文件【1 4 】,d e l 脚本文件等。 2 ) 分析h t m l 层次结构的方法 这种方法实际上主要是利用x m l 技术,因此也可称作基于x m l 的方法。 随着x m l 技术的出现,x m l 己成为w e b 上重要的数据表示和交换标准。因此, w e b 信息抽取就不能不考虑到w e b 上将会出现大量的x m l 文档和利用强大且 日益成熟的x m l 技术。基于x m l 的w e b 信息抽取也已经成为一种趋势。 该方法【5 9 1 4 】首先将h t m l 文档转换为一棵具有层次结构的d o m 树。然后 分析和处理树的层次结构,并从中抽取所需信息。其基本做法是将原始的h t m l 文档通过一个过滤器( f i l t e r ) ,该过滤器检查并修改h t m l 文档的语法结构, 从而形成一篇良构( w e l l f o r m e d ) 的h t m l 文档,即x h t m l 。然后处理目标 x h t m l ,定义抽取内容、步骤和校验规则,最后输出一个x m l 文件。 3 ) 基于概念建模的方法( c o n c e p t u a l m o d e l b a s e da p p r o a c h ) 该方法主要基于o n t o l o g y 概念。按照s t a n f o r da i 专家t o mg r u b e r 的定义, o n t o l o g y 是为帮助程序和人共享知识的概念化规范,在知识表达和共享的领域, o n t o l o g y 描述了在代理之间的概念和关系( c o n c e p t sa n dr e l a t i o n s ) 。在w e b 上, o n t o l o g y 表现为分类法和一组推理规则。基于概念建模的抽取方法有r y ud a t a 第2 章信息抽取技术综述 e x t r a c t i o ng r o u p 的研究【1 引6 】以及x - t r a c t 17 1 。该方法先用o n t o l o g y 建立数据模型, 再把可能抽取的信息项映射到o n t o l o g y 中的元素上,用户选择o n t o l o g y 中的元 素以决定抽取的对象。o n t o l o g y 的引入既保证了结构的一致性,又保证了数据 的一致性使不同来源的数据都能以统一的视图呈现,方便了信息的继承和交换。 但是,就目前的i n t e r n e t 发展状况来说,这种方法需要相关专家手动对抽取 信息源也即w e b 网站进行o n t o l o g y 的详细建模,因此,基于概念建模的信息抽 取方法尚需要相关专家进行更多的研究,以提高其对批量信息抽取的适应性以 及效率。 2 3 现有w 曲信息抽取方法存在的问题 目前比较流行的w e b 信息抽取方法一般采用机器自动学习或交互式的 w r a p p e r 生成方式,w r a p p e r 的实际运行机制一般采用直接解析h t m l 文档和分 析h t m l 层次结构相结合的方法。为了方便分析现有w e b 信息抽取方法存在的 问题,本文按处理能力的不同将这些方法分成两大类,对每一类方法进行详细 介绍,指出其不足。 第一类方法是基于单一页面的处理,根据所处理页面的内容特征,可视信 息等应用一些启发性规则采用机器自动学习方式把页面内的噪音去除,抽取出 主题内容。文献 1 8 ,1 9 ,2 0 ,2 l ,2 2 ,2 3 基本采用了该类方法。文献【1 8 】和文 献【2 l 】从分析页面上的h t m l 对象在浏览器窗口中的坐标入手,利用空间信息将 页面分为h e a d e r 、l e f ta n dr i g h tm e n u 、f o o t e r 和c e n t e r ,以此为启发式规则确定主 题信息区域。文献 1 9 1 q a 提出t v i p s ( v i s i o n b a s e dp a g es e g m e n t a t i o n ) 算法,v i p s 基于页面的可视化信息来进行页面划分,并定义其内聚度。算法通过可视块抽 取,分隔条检测及构造内容结构三步迭代进行,以各块的内聚度值与预定义的 终止条件比较作为迭代的终止条件。文献 2 0 】根据正文文字数与链接文字数的比 值来判断网页是否为有主题网页,然后利用内容相似性的比较技术和网页标签 层次结构特点来抽取主题信息。文献 2 2 】基于d o m 规范,扩展了s t u ( s e m a n t i c t e x t u a lu n i t ) 模型,提出s t u d o m 树模型,在删除无关结点的同时有效保留了与 主题相关的文字和链接,并且不改变源网页的结构和内容。文献 2 3 1 采用双层决策 来定位主题信息,通过全局范围决策找出主题信息的范围,通过局部内容决策 找出主题信息。但该类方法的一个明显缺陷是对每一个待抽取的网页都重复进 9 第2 章信息抽取技术综述 行同样的处理,对于通过模板产生的网页集来说,抽取效率比较低,尤其不利 于搜索引擎在大量抓取网页时的网页预处理。 第二类方法着眼于探测同一站点中网页的一般模式,这种方法是基于一个 或多个网站中的页面集进行页面的模板检测,然后利用对单一页面的处理方法 得到模板的抽取规则,从而大大提高由模板生成网页的抽取速度。文献 2 4 、2 5 、 2 6 、2 7 贝j j 属于该类。但文献【2 4 】对于由表格形式组织和显示内容的页面进行了 深入探讨,根据 将页面分割成不同的块,并假设已知块在页面集中分布 的先验知识,这种假设对于其它类型页面很难成立。文献 2 5 】以出现频繁程度作 为向量,来标识一个h t m l 标签串在所有样本网页中的出现频率,并且提出了 等价类的概念,即具有相同出现向量的标签串聚集到同一个有序的标签串集合 中,称为一个等价类。认为等价类中的所有标签串在相同模板的作用下会产生 同样的出现频率,从而将所有合法的等价类找出来,由这些等价类转换成模板, 进而得到模板的抽取规则。文献 2 6 】首先在规范的符合x h t m l 标准的同一类网 页上对所有b o i ( i n f o r m a t i o nb l o c k so fi n t e r e s t 用户感兴趣区域) 块进行人工标 注,该类网页页面上的对应数据区域要具有基本相同的结构,然后找到待抽取 信息在b o i 块中的相对位置,作为该类网页的抽取规则。文献 2 7 】也是基于 d o m ,将同一模板生成的网页通过d s e 算法去除相同的子树,用节点在d o m 树中的索引值序列表示主题信息路径,并作为模板的抽取规则,处理通过模板 产生的网页集。但目前该类方法的一个缺陷就是对用来训练的样本网页有严格 的要求,除了具备主题信息外,还必须由同一个模板生成,甚至需要人工的预 标注,自动化程度不高,不够通用。 综上所述,当前针对网页主题信息进行抽取的各种方法,都存在一些缺陷, 主要表现在通用性、高效性及准确率的不尽如人意上。 2 4 本文的、b 信息抽取方法 针对上述方法的缺陷,本文提出了一种新思路,综合两类方法的长处,并 进行了创新。通过利用模板技术,克服第一类方法抽取效率底的缺点;通过样 本集的自动生成,克服第二类方法对样本网页的种种限制;通过对抽取规则的 扩展及抽取阶段抽取规则的自动更新达到准确的目的。 基于此,我们需要解决3 个主要问题: 1 0 第2 章信息抽取技术综述 1 ) 如何利用模板技术实现大规模网页自动聚类,得到样本集合: 2 ) 如何在聚类的基础上抽象出扩展的抽取规则; 3 ) 如何在抽取阶段实现抽取规则的自动更新。 对于问题1 ) ,我们注意到w e b 程序在生成网页时常常使用相同的模板来 格式化同一类信息内容,使得不仅相同功能类型页面的展现形式完全相似,而 且在页面中存在大量高度结构化的信息。根据这些特点,本文提出了s p s 算法 ( s t r u c t u r e b a s e dp a g e s i m i l a r i t y 网页结构相似判断算法) 。该方法以d o m ( d o c u m e n to b j e c tm o d e l 文档对象模型) 为基础,从分析h t m l 网页结构入手, 通过计算网页对应d o m 树层次结构的相似度,来判断两个网页是否结构相似, 相似的网页归为一类,作为一个样本集。 对于问题2 ) ,我们注意到经过s p s 算法后,同一样本集中的网页结构高度 相似,表现为主题信息节点在d o m 树中的位置相同或相近。因此,本文通过总 结大量丰富的启发式规则,提出了样本页特征提取规范p f e n ( p a g ef e a t u r e e x t r a c t i o nn o r m s ) ,根据p f e n ,可以准确定位结构相似的同类网页的主题信息 节点。以主题信息节点在d o m 树中的路径作为抽取规则,同一个集合的抽取规 则可以包含多条主题信息路径。 。 对于问题3 ) ,我们在抽取阶段进行判断,若根据已有抽取规则无法得到正 确的待抽取网页的主题信息,则自动更新网页抽取规则,保证后续抽取任务的 顺利进行。 总之,本文提出的抽取方法充分考虑了网页的结构和内容特征,既克服了 针对单一网页进行处理,效率低下的缺陷;又通过s p s 算法取消了对生成样本 集网页的限制;同时能够自动完成抽取规则的更新,实现了较以往方法通用、 高效、准确的目标。 2 5 本章小结 因特网是包含大量半结构化文本的信息源,其内容的大量增加导致对网页 的信息抽取研究得到高度重视。 网页与传统的文本相比,有许多特点:量大,常更新,变化多,页面的一 大半包含结构化的文字块,还可能有超链接。因此,网页为信息抽取研究带来 新的挑战。 第3 章基于模板的网页主题信息抽取方法 第3 章基于模板的网页主题信息抽取方法 i n t e m e t 上绝大多数的数据是以数据库的形式存储在网站服务器上,数据库 依据用户的特殊的要求或条件动态的生成页面,这些基于数据库以及后台文档 动态生成的页面占据了i n t e m e t 上信息量的绝大部分。该类页面的一个重要的特 点就是它较高的结构性和局部数据块的代码结构重复性【2 引,这是因为这些页面 一般由数据库和相关的网页模板生成,网页模板以固定的显示格式处理来自同 一个数据来源的数据。我们将这些页面称为基于模板技术的网页。本文就是面 向该类网页的应用,研究如何从中抽取出主题信息。 这里我们给出主题信息的定义:本文中的网页主题信息包含一个网页的标 题信息以及对标题进行详细阐述的正文信息和相关信息。若一个网页不包含标 题信息,则主题信息只包含对该网页主要所要传达信息进行详细阐述的正文信 息和相关信息。若一个网页不包含标题信息和相关信息,则主题信息只包含正 文信息。从以上定义中可以看出,相对于词语或短语级等细粒度的信息抽取, 本文属于粗粒度抽取,关注的对象为网页上的主要信息,处理的单元为d o m 树 中的节点。 通过观察可以发现,基于模板技术的网页中总是存在一个特定的显示区域, 这个区域用于显示用户关心的数据,本文称这个数据显示区域为主数据区,与 主数据区相对应的是非主数据区,非主数据区所显示的内容根据网页的不同而 各不相同,例如网站可以在这一区域显示推荐链接,也可以显示网站广告等。 图3 1 ( a ) 、( b ) 是查询1 6 3 数码频道返回的两个页面。从图中可以看出,此类 通过模板技术生成的页面在结构布局上非常相似。示例页面中,左半部分方框 区域内为主数据区,而右半部分为非主数据区。主数据区的正文部分就是我们 所关心的主题信息。 针对该类页面的h t m l 代码具有较高的结构化和层次化的特点,利用d o m 对象可以很容易地实现树形结构存储,即d o m 树。通过对d o m 树的结构进行分 析处理,可以得到主题信息在树中的位置,该位置信息对其他通过同一模板生 成的网页同样适用,我们可以将该位置信息记录下来,作为抽取规则,在抽取 阶段,根据规则直接定位网页的主题信息,实现高效、准确的信息抽取。接下 来,文本将首先对系统中采用的一些主要技术进行详细介绍,然后介绍基于模 板技术的网页主题信息抽取系统的整体结构和各部分的功能实现。 1 2 第3 章基丁_ 模极的网页主题信息抽取方法 ! - 7 1 : l i ! t l l ;f l tllitt-7- l 。,垃r ;! 。_ q 扑f i 置l 、;i 。l l 。:“+ ”:”7 l 舞 , j :i m 口? t ;。i e 一4 t 一目t , ! i _ j i i i # # o ! m 4n o ,。# ,1 = 。# j ii 螂,:4 髓茹t - 1 :z ;j 。 - 瘁:! 归i ,* 日二i i _ r 2 t t i l h n :”t 1 h 。:。l i - 一v 一f 帮! i 薯# 。 l ; 豫! ;l l “# ”,7 _ 。! 触踮钾。a _ 舫女* i l t | ,静_ # 4 社吐t 1 i i 贮= 靠掣q 。* = 乩一谴jj 。绋j 5 。i j 卜能茚雠;t i i ? # j ! f 鼋咎 料制槽 4 j 女d := ;* t :i 一目o “= m ;, 一d j l t $ , # “ l t - * s - 。* * s i + ”,t t l 、 t 。g 一 i ? 二? 1 f 。j _ ¥t r i z ,。j 张;研一 i l 荔;三:黧篡 燧“ 缔鞠t 榔o,雠 :纛i :l 轰蠹童葫雳越、缫硝铲j 。 叫* ,; 灌t 珂棚,、o 黑 ”t t * + t n ,- ;密髻菘? 鬣! 露i 鬻 ( a ) i 鼍虢: i 暑j :。:笔警:l h = ,一- j 图3 1 利用模板技术生成的网页实例 3 1 采用的主要技术 3 1 1x m l 与x h t m l x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 是一套定义语义标记的规则,这些标 记将文档分成许多部件并对这些部件加以标识。它也是元标记语言,即定义了 用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言【2 9 1 。 x m l 是互联网联合组织w 3 c ( w b r l dw i d ew 曲c o n s o r t i u m ) 创建的一组规 范,以便于软件开发人员和内容创作者在网页上组织信息,其目的不仅在于满 足不断增长的网络应用需求,同时还希望借此能够确保在通过网络进行交互合 作时,具有良好

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论