




已阅读5页,还剩58页未读, 继续免费阅读
(计算机系统结构专业论文)web论坛结构化数据抽取技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
l , 原创性声明和关于论文使用授权的说明 原创性声明 illlll rllrl iirflflrll l l ll l l f f fi llljfl y 1 7 913 3 0 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 、,口 论文作者签名:叁型 日 期:兰立丝:兰岁 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 懈:盟翩躲弭 日期:墅鲤! :兰! f 山东大学硕士学位论文 目录 摘要i a b s t r a c t i i i 第一章绪论1 1 1 研究背景与意义1 1 2w i e 的国内外研究现状1 1 3 本文工作2 i 4 本文组织3 第二章基础知识及相关研究4 2 1 信息抽取技术概述4 2 2w e b 信息抽取系统简介5 第三章论坛站点和论坛网页的结构分析1 3 3 1 论坛与论坛站点1 3 3 1 1 论坛1 3 3 1 2 论坛站点1 4 3 2 论坛站点中的网页1 5 3 3 论坛站点中的元数据1 8 第四章基于实例学习的抽取算法2 0 4 1 经典的基于实例学习方法及其在论坛数据抽取中的应用2 0 4 1 1 经典的基于实例学习方法2 0 4 1 2 基于实例学习方法在论坛数据抽取中的应用2 1 4 2 基于实例学习的论坛结构化数据抽取算法2 l 4 2 i 算法概述2 2 4 2 2 标记匹配技术2 4 4 2 3 抽取算法2 5 第五章基于自动模式发现和产生式规则的抽取算法2 8 5 1 论坛数据记录抽取2 8 5 2 基于f d r e 的论坛结构化数据抽取3 l 5 3 小结3 3 第六章实验3 4 山东大学硕士学位论文 6 1 数据集与评价方法3 4 6 2 实验结果3 6 6 2 1 基于实例学习的抽取算法3 6 6 2 2f d r e 与m d r 的比较3 8 6 2 3 基于自动模式发现和产生式规则的抽取算法3 9 6 2 4 两种抽取算法的比较4 0 6 2 5 小结4 0 第七章结论与进一步的工作4 2 7 1 结论4 2 7 2 进一步的工作4 3 参考文献4 4 致谢4 9 攻读硕士学位期间发表的学术论文5 0 , 山东大学硕士学位论文 t a b l eo fc o n t e n t s a b s t r a c ti nc h i n e s e i 6 a b s t r a c ti ne n g l i s h h i c h a p t e r1i n t r o d u c t i o n 1 1 1b a c k g r o u n da n ds i g n i f i c a n c e 1 1 2c u r r e n tr e s e a r c ho f 、m 匣1 1 :;o l 】w o r k 2 1 4o u ro r g a n i z a t i o n 3 c h a p t e r2b a s i ck n o w l e d g ea n dr e l a t e dw o r k s 4 2 1o v e r v i e w o f l n f o r m a t i o n e x t r a c t i o n t e c h n o l o g i e s 4 2 2i n t r o d u c t i o no f w e bi n f o r m a t i o ne x t r a c t i o ns y s t e m s 5 c h a p t e r3a n a l y s i so f t h es t r u c t u r eo f w e bf o r u ms i t e sa n dp a g e s 1 3 3 1f o r u ma n df o r u ms i t e s 1 3 :i 】【1f o r u m ,1 3 3 1 2f o r u ms i t e s 1 4 3 2p a g e si nw e bf o r u m s 。1 5 3 3m e t a d a t ai n 、扼bf o r u m s 1 8 c h a p t e r4i n s t a n c e - b a s e dl e a r n i n ge x t r a c t i o na l g o r i t h m 2 0 4 1i n s t a n c e - b a s e d l e a r n i n gm e t h o da n di t sa p p l i c a t i o ni nd a t a e x t r a c t i o n 2 0 4 1 1c l a s s i c a li n s t a n c e b a s e dl e a r n i n gm e t h o d 2 0 4 1 2e x t r a c t i n gd a t af r o m 、砸bf o r u m su s i n gi n s t a n c e b a s e dl e a r n i n g 2 1 4 2i n s t a n c e b a s e dl e a r n i n ga l g o r i t h mf o rs t r u c t u r e dd a t ae x t r a c t i o nf r o mw e b f o r u m s 2 1 4 2 1o v e r a l la l g o r i t h m 2 2 4 2 2t o k e nm a t c ht e c h n i q u e 2 4 4 2 3e x t r a c t i o na i g o r i t h m :! ! ; c h a p t e r5e x t r a c t i o na l g o r i t h mb a s e do na u t o m a t i cp a t t e md i s c o v e r ya n d p r o d u c t i o nr u l e s :1 8 5 1d a t a r e c o r d e x t r a c t i o nf r o m 、忱bf o r u m s 2 8 i i i 山东大学硕士学位论文 5 2s t r u c t u r e d d a t a e x t r a c t i o nf r o m 、砸b f o r u m s b a s e d o n 闩d r e 3 l s 3s u m m a r y 3 3 c h a p t e r6e x p e r i m e n t s 3 4 6 1d a t as e t sa n de v a l u a t i o nm e t h o d s 3 4 6 2e x p e r i m e n t a lr e s u l t s 3 6 6 2 1i n s t a n c e - b a s e dl e a m i n ge x t r a c t i o na l g o r i t h m 3 6 6 2 2c o m p a r i s o no f f d r ea n dm d r 3 8 6 2 3e x t r a c t i o na l g o r i t h mb a s e do na u t o m a t i cp a n e md i s c o v e r ya n d p r o d u c t i o nr u l e s :;9 6 2 4c o m p a r i s o no f t h et w oe x t r a c t i o na l g o r i t h m s 4 0 6 2 5s u m m a r y 4 0 c h a p t e r7c o n c l u s i o n sa n d f u t u r ew o r k 4 2 7 1c o n c l u s i o n s 4 2 7 2f u t u r ew | o r k 4 3 r e f e r e n c e s 4 4 a c k n o w l e d g m e n t s 4 9 a c a d e m i cp a p e r sp u b l i s h e dd u r i n gt h em a s t e r sd e g r e e 5 0 , 山东大学硕士学位论文 摘要 随着国际互联网的日益普及和迅猛发展,论坛已成为网络上一个重要的数据 源。它为人们提供了大量的关于各种题材的非常有价值的知识和信息。因此,近 些年来越来越多的研究工作利用从论坛中抽取出来的信息建立各种网络应用。为 了有效利用论坛数据,大部分应用首先从论坛网页中抽取结构化的数据,再进一 步利用这些数据实现各种功能。 论坛的结构化数据抽取是对论坛中帖子的标题、作者、发表时间和内容文本 块等论坛元数据的抽取,它是处理论坛数据的基础。然而由于网页布局设计的复 杂性和用户发表帖子的灵活性,从论坛网页中抽取结构化的数据是一项未能很好 解决并非常具有挑战性的任务。这一问题已经成为有效利用论坛数据的一个主要 障碍。本文研究论坛结构化数据抽取技术中的一些关键问题,主要贡献有以下几 点: 1 提出了一种基于实例学习的包装器生成算法从论坛中抽取结构化的数 据。该方法可以从单个标注实例开始,通过将待抽取的网页与已标注的网页进行 比较来完成抽取工作。只有当一个新的待抽取实例中的数据不能够被正确抽取 时,系统再对其进行标注,因此算法无需初始的训练集合。对不同论坛站点中结 构化数据的抽取实验结果表明,该方法是非常有效的。 2 提出了一种基于自动模式发现的论坛数据记录抽取算法。该方法首先使 用网页的h t m l 代码建立网页的标签树,然后通过比较标签树中结点的标签字符 串挖掘网页中的数据区,并从数据区中识别数据记录。在论坛站点列表页和帖子 页上的实验结果表明,该方法在抽取论坛数据记录方面明显优于经典方法。 3 提出了一种基于产生式规则的论坛元数据抽取算法。该方法通过对论坛 站点和论坛网页结构的分析,利用一组产生式规则从识别的数据记录中抽取论坛 帖子的元数据。算法不依赖特定的模板,因此可以适应论坛模板的周期性变化, 自动抽取结构化数据。实验结果表明该方法对论坛帖子的标题、作者、发表时间 和内容文本块等元数据的抽取达到了较高的准确率。 山东大学硕士学位论文 关键词:w e b 信息抽取;论坛;结构化数据;基于实例学习;w e b 挖掘 n a b s t r a c t n o w a d a y sw i t ht h er a p i dd e v e l o p m e n ta n dp o p u l a r i z a t i o no ft h ei n t e m e t , w e b f o r u m sh a v eb e c o m ea ni m p o r t a n td a t ar e s o u r c eo nt h ew e b i tp r o v i d e sp e o p l ew i t ha l 叭o fh i g h l yv a l u a b l ek n o w l e d g ea n di n f o r m a t i o n a sar e s u l t ,i nr e c e n ty e a r sm o r e a n dm o r er e s e a r c he f f o r t st r y i n gt ou s ei n f o r m a t i o ne x t r a c t e df r o mf o r u md a t at ob u i l d v a r i o u sw e ba p p l i c a t i o n s i no r d e rt ou s et h ef o r u md a t ae f f e c t i v e l y , t h ef u n d a m e n t a l s t e pi nm o s ta p p l i c a t i o n si st oe x t r a c ts t r u c t u r e dd a t af r o mf o r u mp a g e s ,t h e nf u r t h e r e x p l o i tf o r u md a t at oa c h i e v ev a r i o u sf u n c t i o n s f o r u ms t r u c t u r e dd a t ae x t r a c t i o ni st h em e t a d a t ae x t r a c t i o nf r o mw e bf o r u m s s u c ha sp o s tt i t l e ,p o s ta u t h o r , p o s tt i m ea n dp o s tc o n t e n t i ti st h ef o u n d a t i o no f p r o c e s s i n gf o r u md a t a b e c a u s eo fb o t hc o m p l e xp a g el a y o u td e s i g n sa n du n r e s t r i c t e d u rc r e a t e dp o s t s ,e x t r a c t i n gs t r u c t u r e dd a t af r o mw e bf o r u mp a g e si sav e r y c h a l l e n g i n gt a s ka n dn o ts o l v e dw e l l i th a sb e c o m eam a j o ro b s t a c l et ou s ef o r u m d a t ae f f e c t i v e l y i nt h i sp a p e r , w ef o c u so ns o m ek e yi s s u e so fs t r u c t u r e dd a t a e x t r a c t i o nf r o mw e bf o r u m s o u rm a i nc o n t r i b u t i o n sa r ea sf o l l o w s : 1 p r o p o s ea ni n s t a n c e - b a s e dl e a r n i n gw r a p p e rg e n e r a t i o na l g o r i t h mt oe x t r a c t s t r u c t u r e dd a t af r o mw e bf o r u m s t h ea l g o r i t h mi sa b l et os t a r te x t r a c t i o nf r o ma s i n g l el a b e l e di n s t a n c ea n dt h e np e r f o r m se x t r a c t i o nb yc o m p a r i n ge a c hn e wi n s t a n c e t ob ee x t r a c t e dw i t hl a b e l e di n s t a n c e s o n l yw h e nan e wi n s t a n c ec a n n o tb ee x t r a c t e d d o e si tn e e dl a b e l i n g s oi td o e sn o tr e q u i r ea ni n i t i a ls e to fl a b e l e dp a g e st ol e a r n e x t r a c t i o nr u l e s e x p e r i m e n t a lr e s u l t so nd i v e r s ew e bf o r u ms i t e sd e m o n s t r a t et h e e f f e c t i v e n e s so ft h em e t h o d 2 p r o p o s eaf o r u md a t ar e c o r d se x t r a c t i o na l g o r i t h mb a s e do na u t o m a t i cp a t t e m d i s c o v e r y t h ea l g o r i t h mb u i l d st h eh t m lt a gt r e eo fw e bp a g e ,m i n e st h ed a t a r e g i o no fw e bp a g eb ys t r i n gc o m p a r i s o no fn o d e si nt h et a gt r e e ,a n dt h e ne x t r a c t s d a t ar e c o r d sf r o mt h ed a t ar e g i o n e x p e r i m e n t a lr e s u l t so nt h el i s tp a g ea n d p o s tp a g e i i i 山东大学硕士学位论文 _ _ _ _ l _ _ _ l - - - - _ _ _ _ _ _ _ - _ - l _ _ _ _ _ _ _ - - _ _ - _ 一 i nw e bf o r u ms i t e ss h o wt h a tt h ep r o p o s e da p p r o a c hs i g n i f i c a n t l yo u t p e r f o r m st h e c l a s s i c a lm e t h o di ne x t r a c t i n gf o r u md a t ar e c o r d s 3 p r o p o s eaf o r u mm e t a - d a t ae x t r a c t i o na l g o r i t h mb a s e do np r o d u c t i o n r u l e s t h r o u g ht h ea n a l y s i so ft h es t r u c t u r eo f f o r u ms i t e sa n dp a g e s ,t h ea l g o r i t h me x t r a c t s m e t a d a t af r o md a t ar e c o r d su s i n gas e to fp r o d u c t i o nr u l e s i td o e sn o td e p e n do n s p e c i f i ct e m p l a t e ,t h u si sa b l et oa d a p tt op e r i o d i c a lc h a n g e so ff o r u mt e m p l a t ea n d e x t r a c ts t r u c t u r e dd a t aa u t o m a t i c a l l y e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ep r o p o s e d a p p r o a c ha c h i e v e sh i g ha c c u r a c yi ne x t r a c t i n gs o m em e t a d a t ao fw e b f o r u m ss u c ha s p o s tt i t l e ,p o s ta u t h o r , p o s tt i m ea n dp o s tc o n t e n t k e y w o r d s :w e bi n f o r m a t i o ne x t r a c t i o n ;f o r u m ;s t r u c t u r e dd a t a ;i n s t a n c e - b a s e d l e a r n i n g ;w e bm i n i n g i v 厂 , 产 山东大学硕士学位论文 1 1 研究背景与意义 第一章绪论 论坛,又称网络论坛b b s ,是i n t e m e t 上的一种交互性强,内容丰富而及时 的电子信息服务系统。它是一种提供在线讨论的程序,是供人们讨论的地方。论 坛提供一块公共电子白板,每个用户都可以在上面书写,可发布信息或提出看法。 用户在b b s 站点上可以获得各种信息服务,发布信息,进行讨论,聊天等等。 讨论的题材有很多,例如:娱乐、新闻、教育、旅游、休闲等等。有些论坛 设有多项讨论题材,包罗万象,有的则只专注讨论某题材。在论坛中,很多使用 者还会跟他人分享资源,例如:音乐、短片、图片等。有些公司、机构又或是学 校,都会设有论坛,供其成员作讨论之用。 随着互联网的迅速发展,论坛正成为网络上_ _ 个重要的数据源,它为人们提 供了大量的关于各种题材的非常有价值的知识和信息 1 。因此,越来越多的研 究工作利用从论坛数据中抽取的信息建立各种应用,如提供问答服务 2 、获得 商业智能 3 3 和发现专家网络 4 等。为了有效利用论坛数据,大部分应用都是首 先从论坛网页中抽取结构化的数据,再进一步利用这些数据实现各种功能。 论坛的结构化数据抽取是对论坛中帖子的标题、作者、发表时间和内容文本 块等论坛元数据的抽取。它是处理论坛数据的基础。然而由于网页布局设计的复 杂性和用户发表帖子的灵活性,从论坛网页中抽取结构化的数据是一项未能很好 解决并非常具有挑战性的任务。这一问题已经成为有效利用论坛数据的一个主要 障碍。 1 2w i e 的国内外研究现状 近十几年来,w i e ( w e bi n f o r m a t i o ne x t r a c t i o n ) 得到了广泛的研究。一 般而言,w e b 信息抽取的方法可以分为两类:依赖模板的方法和不依赖模板的方 法。 山东大学硕士学位论文 依赖模板的方法利用包装器作为一组由相同布局模板生成的网页的抽取器。 包装器通常表现为一种正则表达式或树结构的形式,其构造方法包括手工构造、 半自动生成和全自动生成。 一 不依赖模板的方法为w e b 信息抽取提供了一种不依赖于具体模板的更加通用 的解决方案,可用于处理具有不同布局特征的网页。这些抽取方法多采用概率模 型,并结合复杂的语义特征与启发式知识,因此几乎不依赖特定的模板。 我们将在第二章中详细介绍现有的w e b 信息抽取系统。 1 3 本文工作 本文的重点是研究w e b 论坛的结构化数据抽取问题,全文的主要贡献有: 1 ) 提出了一种基于实例学习的包装器生成算法从论坛中抽取结构化的数 据。该方法可以从单个标注实例开始,通过将待抽取的网页与已标注的 网页进行比较来完成抽取工作。只有当一个新的待抽取实例中的数据不 能够被正确抽取时,系统再对其进行标注,因此算法无需初始的训练集 一 合。 2 ) 提出了一种基于自动模式发现的论坛数据记录抽取算法。该方法首先使 用网页的h t m l 代码建立网页的标签树,然后通过比较标签树中结点的标 签字符串挖掘网页中的数据区,并从数据区中识别数据记录。 3 ) 提出了一种基于产生式规则的论坛元数据抽取算法。该方法通过对论坛 站点和论坛网页结构的分析,利用一组产生式规则从识别的数据记录中 抽取论坛帖子的元数据。算法不依赖特定的模板,因此可以适应论坛模 板的周期性变化,自动抽取结构化数据。 4 ) 评估提出的方法并与经典的方法进行比较,发现其中的不足,继续改进 方法。 2 , 山东大学硕士学位论文 1 4 本文组织 本文内容按如下方式组织: 第一章介绍了研究背景与意义,回顾了国内外的研究现状,并概括了本文的 主要工作。 第二章介绍了w e b 信息抽取的基础知识以及目前w e b 信息抽取领域的相关工 作。 第三章简要介绍了w e b 论坛的起源、发展和分类,分析了目前w e b 论坛站点 和网页的结构。 第四章介绍了基于实例学习的基本概念,提出了一种基于实例学习的论坛结 构化数据抽取方法。 第五章提出了一种基于自动模式发现和产生式规则的论坛结构化数据抽取 方法,并与基于实例学习的抽取算法进行了比较。 第六章对本文提出的两种方法进行了对比实验,并通过与经典方法的比较验 证了本文提出方法的有效性。 第七章总结全文,并对下一步的研究工作进行展望。 3 山东大学硕士学位论文 第二章基础知识及相关研究 帚一早圣田i i j 刘状汉t 日大研咒 信息抽取技术概述 信息抽取( i n f o r m a t i o ne x t r a c t i o n :i e ) 的目标是把文本里包含的信息进 行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输 出的是固定格式的信息。信息从各种各样的文档中被抽取出来,然后以统一的形 式集成在一起。这就是信息抽取的主要任务。信息以统一的形式集成在一起的好 处一方面是方便检查和比较,另一方面是能对数据作自动化处理。信息抽取技术 并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于 哪些信息是相关的,那将由系统设计时定下的领域范围而定。 信息抽取与信息检索( i n f o r m a t i o nr e t r i e v a l :i r ) 的区别在于:i r 的目 的是根据用户的查询请求从文档库中找出相关的文档。用户必须从找到的文档中 翻阅自己所要的信息。而i e 是在文档内部提取出预先定义的某些类型的信息。 因此这两种技术是互补的,若结合起来可以为文本处理提供强大的工具。 户 信息抽取技术所处理的文本类型包括:自由式文本( 纯文本) 、半结构化文 ,i 本和结构化文本。 信息抽取最初的目的是开发实用系统,从自由文本中析取有限的主要信息。 例如,从报道恐怖袭击活动的新闻中析取袭击者、所属组织、地点、受害者等信 息:又如,从医药研究报告的摘要中提取新产品、制造商、专利等主要信息点。 处理自由文本的i e 系统通常使用自然语言处理技巧,其抽取规则主要建立在词 或词类间句法关系的基础上。需要经过的处理步骤包括:句法分析、语义标注、 专有对象的识别( 如人物、公司) 和抽取规则。规则可由人工编制,也可从人工 标注的语料库中自动学习获得。 结构化文本是一种数据库里的文本信息,或者是根据事先规定的严格格式生 成的文本。从这样的文本中抽取信息是非常容易的,准确度也高,通过描述其格 , 式即可达到目的。所用的技巧因而相对简单。 半结构化文本是一种界于自由文本和结构化文本之间的数据,通常缺少语 4 , i 山东大学硕士学位论文 法,也没有严格的格式。用自然语言处理技巧对这样的文本并不一定有效,因为 这种文本通常连完整的句子都没有。因此i 对于半结构化文本不能使用传统的 i e 技巧,同时,用来处理结构化文本的简单的规则处理方法也不能奏效。在半 结构化文本中确实存在一些结构化的信息,但是,抽取模式通常依赖字符和像 h t m l 标记那样的分隔标志,句法和语义信息的作用非常有限。 信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的。 互联网上就存在着这么一个文档库。在网上,同一主题的信息通常分散存放在不 同网站上,表现的形式也各不相同。若能将这些信息收集在一起,用结构化形式 储存,那将是有益的。由于网上的信息载体主要是文本,所以,信息抽取技术对 于那些把因特网当成是知识来源的人来说是至关重要的。信息抽取系统可以看作 是把不同文档中的信息转换成数据库记录的系统。因此,成功的信息抽取系统将 把互联网变成巨大的数据库。但是,互联网上的信息内容互相独立,还是动态的, 包含超链接,以不同的形式出现,而且跨网站和平台,全网共享。因此,互联网 是一个特殊的挑战,一直推动着从半结构化文本中抽取信息的研究向前迈进,而 w e b 信息抽取技术就是冲着解决此困难而来的。 2 2w e b 信息抽取系统简介 互联网上存在一个被称为“暗网”( h i d d e nw e b ) 的网络。暗网指目前搜索 引擎所无法抓取的网页、不能检索到的信息,即“看不见 的网站,它分为两种: 一种是技术的原因,很多网站本身不规范、或者说互联网本身缺少统一规则,导 致了搜索引擎的爬虫无法识别这些网站内容并抓取;另一个原因则是很多网站考 虑到版权保护内容、个人隐私内容等等不愿意被搜索引擎抓取。对暗网的发掘能 扩大搜索数据库,使人们能够在搜索引擎上搜索到更多的网页、信息,这就意味 着需要一种独立的工具从这些网站中收集数据。 从网站中抽取信息的工作通常由一种叫做“包装器”( w r a p p e r ) 的程序完成 5 ,6 ,7 。它用于从特定的信息源中抽取相关内容,并以特定形式加以表示。 在数据库环境下,包装器是软件的组成部分,负责把数据和查询请求从一种模式 转换成另外一种模式。在因特网环境下,包装器的目的是把网页中储存的信息用 山东大学硕士学位论文 结构化的形式储存起来,以方便进一步的处理。因特网包装器可接受针对特定信 息源的查询请求,并从该信息源中找出相关的网页,然后把需要的信息提取出来 返回给用户。它由一系列的抽取规则以及应用这些规则的计算机程序代码组成。 通常,一个包装器只能处理一种特定的信息源。从几个不同信息源中抽取信息, 需要一系列的包装器程序库。包装器的运行速度应该很快,因为它们要在线处理 用户的提问。它还要能应付网络经常变化、运行欠稳定的特点。比如,网络连接 失败、文档格式混乱、格式变化等。建造针对网页的包装器主要有两个好处:一 是提高了从某一特定信息源获取相关信息的能力,二是能把不同信息源的信息整 合到数据库中,用通用查询语言即可查找信息。 包装器的构造方法包括手工构造、半自动生成和全自动生成。 早期从网站上抽取信息的方法基本上是基于手工操作的。手工生成包装器通 常需要编写专用的代码,要花很多时间理解文档的结构并将其转换成程序代码。 虽然处理半结构化的网页要容易一些,但仍然还是比较烦琐而且容易出错。包装 器的构造通常使用如p e r l 、p y t h o n 这样的通用编程语言或一些自定义的语言。 它主要靠手工编制规则使系统能处理特定知识领域的信息抽取问题。这种方法要 求作者对该知识领域有深入的了解且具有扎实的计算机和编程背景。由于开发过 程可能非常耗时耗力,构造和维护的代价较高。对于网上信息源来说,这些缺点 尤为明显,因为网页数量庞大,内容和结构繁杂,而且新的信息源不断增加,旧 的信息还会改变。因此,帮助生成自动抽取网页信息的包装器的技术变得非常重 要。手工构造的系统包括:t s i m m i s 8 ,m i n e r v a 9 ,w e b - o q l 1 0 ,w 4 f 1 1 和x w r a p 1 2 。 t s i m m i s 是最早的手工构造包装器的方法之一,其主要组件是一个以特定说 明文件为输入的包装器,该文件说明了网页中感兴趣的数据所在的位置以及如何 将这些数据组装成对象。它的目标是以一体化的方式获取不同信息源的信息并且 保证所获取信息的一致性。其重点是开发支持这种包装过程的语言和工具。 m i n e r v a 把面向过程语言的灵活性结合到陈述式的基于语法的方法当中,它 通过向正规文法中加入异常处理机制,处理网页的异质性和一些异常情况。异常 处理过程由一种叫做“e d i t o r ”的自定义语言编写。m i n e r v a 所使用的语法以 6 一 查 套 w 4 f 是一个用于生成包装器的j a v a 工具。包装器的开发过程由三个独立的层 组成:“r e t r i e v a l ,“e x t r a c t i o n ”,“m a p p i n g ”。该语言还提供了正则表达式和 约束条件的支持。 x w r a p 利用网页中的格式化信息分析网页的语义结构。它使用一种基于规则 的自定义陈述式语言。包装器的生成过程包括两个阶段:“s t r u c t u r ea n a l y s i s 和“s o u r c e s p e c i f i cx m lg e n e r a t i o n 。 半自动化生成包装器是使用向导让用户告诉系统那些信息是需要抽取的。通 过图形界面,用户即可以通过演示编写程序,标示出需要抽取的区域。这意味着 在包装器编码过程中不需要专业知识,因此减少了构造包装器的代价。这种方法 要比手工构造的方法快而且少产生错误。但是,用这种方法也需要对新的站点进 行重新的学习,因为这种系统不能自己学习新的网站结构,也不能处理旧网站的 结构变化。半自动生成的系统包括:s r v 1 3 ,r a p i e r 1 4 ,w h i s k 1 5 ,w l e n 1 6 , s t a l k e r 1 7 ,s o f t m e a l y 1 8 ,n o d o s e 1 9 ,d e b y e 2 0 ,2 1 ,i e p a d 2 2 , o l e r a 2 3 ,t h r e s h e r 2 4 。 s r v ( s e q u e n c er u l e sw i t hv a l i d a t i o n ) 是一种自上而下、关系型的信息 抽取算法。其输入是一系列的网页,上面标记了待抽取区域的实例以及一系列基 于字符串的特征,输出是一系列的抽取规则。它把信息抽取看作是一种分类问题。 文本中所有可能的短语都是实例。文档中的候选实例被提交到分类器,系统会给 每个短语赋一个测量值,用于反映该短语作为目标格填充子的可信度。最初版本 的s r v 采用的分类器是一个关系型规则的学习器,使用自上而下的归纳方法。s r v 利用的特征分为两种:简单特征和关系特征。字词的长度、类型、拼写、词性等 属于简单特征,而关系特征反映字词的相邻度。正是这一特征使s r v 具有关系型 的特点。s r v 的学习素材包括训练集文档中与最短实例区一样长的字串,但不能 长过最长实例。抽取过程即是检验长度适合的字串是否与规则匹配的过程。s r v 7 山东大学硕士学位论文 从学习所有正反例子开始。所谓反例是没有被标记为实例区的字串。归纳过程也 是用正排除法,即当一条规则覆盖的例子全部是正例,或该规则已无法继续具体 化时,所有与之匹配的正例将被从训练集中删除。然后重复以上过程。s r v 的规 则具有较强的表达能力,且无需先进行句法分析。s r v 与s t a l k e r 和r a p i e r 有 类似之处,能把与其他相关信息点独立的特定信息点抽取出来。关系型学习器也 与r a p i e r 的一样,用于抽取单格信息点。这与w i e n 等抽取多格信息的系统不一 样。 r a p i e r ( r o b u s ta u t o m a t e dp r o d u c t i o no fi n f o r m a t i o ne x t r a c t i o nr u l e s ) 与s r v 类似,但使用自底向上的关系学习算法,它以半结构化文本为处理对象, 学习抽取规则,为整个i e 过程服务。系统需要输入指明待抽取信息的“文档一 充实模板”( f i l l e dt e m p l a t e ) 组对作为训练内容,从中获得模式匹配规则,抽 取“填充子”( f i l l e r ) 填充模板中的空槽。学习算法结合了多个归纳逻辑编程 系统所采用的技巧,能学习无界限模式。这些模式包含了对词的限制条件和填充 子周围的词性。学习算法由一个从具体到一般( 即自下而上) 的搜索,从训练中 与目标槽匹配的最具体的规则开始,随机从规则库中抽取一对对规则,然后横向 搜索( b e a ms e a r c h ) ,以图找到这两条规则的最佳概括,采用最少概括的概括方 法( al e a s tg e n e r a lg e n e r a l i z a t i o n ) ,增加限制条件,不断重复后直到不再 有进展为止。r a p i e r 的抽取规则是建立在分隔符和内容描述的基础上的,即使 用了能利用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025湖南中医药大学第二附属医院招聘21人(第一批)模拟试卷及答案详解(各地真题)
- 2025年甘肃交通职业技术学院考核招聘急需紧缺专业人才模拟试卷参考答案详解
- 2025年西安经开第七小学招聘数学教师考前自测高频考点模拟试题及答案详解(易错题)
- 2025广西崇左市江州区住房和城乡建设局招聘编外工作人员2人模拟试卷及答案详解(有一套)
- 2025年芜湖宜居投资(集团)有限公司专业技术招聘2人模拟试卷及参考答案详解一套
- 2025贵州毕节市七星关区招聘城市社区工作者186人模拟试卷附答案详解(黄金题型)
- 卖房无责协议书5篇
- 2025中国华电集团有限公司宁夏公司本部面向系统内公开招聘4人笔试题库历年考点版附带答案详解
- 2025二人合伙协议合同范本
- 《草原就是我的家》(教学设计)-二年级下册人音版(2012)音乐
- 美发师考试题
- 浙江安保考试题库及答案
- 苏州安全生产教育培训课件
- 2025年专题讲座-纪念抗战胜利80周年93阅兵
- 兵团面试题目及答案
- 2025贵州贵阳市投资控股集团房地产置业有限公司招聘12人考试参考题库及答案解析
- 免疫细胞治疗安全性评价-第1篇-洞察及研究
- 车间师带徒管理办法
- 桥梁工程监理工作实施方案
- 2025年秋期新教材部编人教版一年级上册道德与法治教学计划+进度表
- 服装辅料基础知识培训
评论
0/150
提交评论