(计算机应用技术专业论文)基于ghmm的web文本信息抽取技术研究与系统设计.pdf_第1页
(计算机应用技术专业论文)基于ghmm的web文本信息抽取技术研究与系统设计.pdf_第2页
(计算机应用技术专业论文)基于ghmm的web文本信息抽取技术研究与系统设计.pdf_第3页
(计算机应用技术专业论文)基于ghmm的web文本信息抽取技术研究与系统设计.pdf_第4页
(计算机应用技术专业论文)基于ghmm的web文本信息抽取技术研究与系统设计.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(计算机应用技术专业论文)基于ghmm的web文本信息抽取技术研究与系统设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着互联网的高速发展,w e b 已经成为这个世界上最大的信息来源。如何获 取有用的w e b 信息则是大家面临的共同问题,w e b 信息抽取就是针对这一问题而 提出的。目前大部分信息抽取仅停留在对纯文本的信息抽取上,还并未考虑网页 文本的特殊性。另外,信息抽取也很少涉及语义的理解。 目前,信息抽取常用的模型是隐马尔可夫模型,它因易于建立、适应性强、 抽取精度高等优点而日益受到研究者的关注,但该模型仅适用于普通文本,对含 有更多其他信息的网页来说也并不合适。通过对网页的分析,w e b 文本信息通常 包含更多输出属性比如:词条,版面以及格式属性。考虑到传统隐马尔可夫模型 的状态转移过程中仅将单一词条属性作为观测输出特征,我们将多重属性( 包括 词条,版面以及格式属性) 作为隐马尔可夫模型观测输出特征,从而引入广义隐 马尔可夫模型。 对于纯文本,传统的h m m 是以单一语句为信息抽取的基本单位,其假设的 状态转移序y u ( 从左到右,然后从上n - d 对含有多媒体的二维空间的网页来说也并 不合适。通过对网页的分析,我们发现网页的视觉版面结构由不同的块组成,而 且这些块之间还有一定的逻辑关系。本文利用基于可视化的网页分割算法( v i p s ) 对网页进行分块,得到一种更适用于网页的基于版面结构的状态转移序列。由于 任一时刻出现的观测输出矢量概率不仅依赖于系统当前状态,而且依赖于系统在 前一时刻所处的状态,所以本文提出了基于二阶m a r k o v 链的改进的广义隐马尔可 夫模型。 另外,针对网页的语意分析,本文采用了一种基于角色标注的命名实体识别 方法,其基本思想是:针对网页文本,结合角色表的规则,采用改进广义隐马尔 可夫模型进行角色标注,在角色序列的基础上,进行字符串识别,最终实现命名 实体的识别,进而实现了从w e b 网页的结构及语义两方面对信息的抽取。 本文通过对当前招聘网站上海量的招聘信息进行定题w e b 信息挖掘和信息抽 取,开发了基于g h m m 的w e b 文本的抽取系统w e b l e 。本文首先介绍了w e b 文 本信息抽取技术的基本概念,然后通过对w e b 页面的分析,根据w e b 页面的特点 并结合角色标注的实体识别技术,从w e b 页面结构和语义两方面,应用改进的 g h m m 模型对w e b 信息进行抽取。最后,通过实验说明改进的广义隐马尔可夫对 于网页信息抽取有很好的效果,同时也提出了系统的不足和未来的发展研究方向。 关键词:数据挖掘信息抽取广义隐马尔可夫模型命名实体识别 a b s t r a c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e t ,w e bh a sb e c o m et h ew o r l d sl a r g e s ts o u r c e o fi n f o r m a t i o n t h e r e f o r e ,t h ec o m m o np r o b l e mt h a te v e r y o n ef a c e di sh o wt og e tt h e s e w e bi n f o r m a t i o n s t h ew e bi n f o r m a t i o ne x t r a c t i o n ( w e b i e ) i sp u tf o r w a r df o rt h i s p r o b l e m n o w a d a y s ,t h em a j o r i t yo fi n f o r m a t i o ne x t r a c t i o nm e t h o d sa r et od e a lw i t h p l a i nt e x t ,n oc o n s i d e r i n gt h ew e bp a g e o nt h eo t h e rh a n d ,i n f o r m a t i o ne x t r a c t i o n r a r e l yi n v o l v e di nt h eu n d e r s t a n d i n go fs e m a n t i c s a tp r e s e n t ,h i d d e nm a r k o vm o d e l ( h m m ) i sc o m m o n l yu s e da si n f o r m a t i o n e x t r a c t i o nm o d e l ,w h i c hi s e a s yt o e s t a b l i s ha n dh a ss t r o n ga d a p t a b i l i t ya n dh i 【g h p r e c i s i o n ,t a k e nt h eg r o w i n gc o n c e r nb yt h er e s e a r c h e r s h o w e v e r , t h em o d e l i so n l y s u i t a b l ef o rp l a i nt e x t ,n o tt h ew e bp a g ew h i c hc o n t a i n sm o r ei n f o r m a t i o n t h r o u g ht h e a n a l y s i so fw e bp a g e ,w e bi n f o r m a t i o nc o n t a i n sm o r ee m i s s i o nf e a t u r e s ,s u c ha sf o r m a t , l a y o u ta n ds oo n c o n s i d e r i n gt h el i m i t a t i o no ft r a d i t i o n a lh m m t h a tt h ea p p r o a c h e s o n l yc o n s i d e rt h es e m a n t i ct e r ma so b s e r v e de m i s s i o nf e a t u r e ,w eu s em u l t i p l ee m i s s i o n f e a t u r e s ( t e r m ,l a y o u t ,a n df o r m a t t i n g ) i n s t e a do fs i n g l ee m i s s i o nf e a t u r e ( t e r m ) a s s t a t e t r a n s i t i o ne s t i m a t i o nf o rh m m t h e r e b y , g e n e r a l i z e dh i d d e nm a r k o vm o d e l ( g h m m ) i si n t r o d u c e d f o rp l a i nt e x t ,t h et r a d i t i o n a lh m mi n f o r m a t i o ne x t r a c t i o nm o d e lt a k e ss i n g l et e r m a sb a s i cu n i tf o ri e t h es u p p o s e ds e q u e n t i a ls t a t et r a n s i t i o no r d e r , l e f tt of i g h ta n dt h e n t o pt ob o t t o m ,i sn o ts u i t a b l ef o rt h et w o - d i m e n s i o n a ls p a c ew e bp a g e b a s e do nt h e a n a l y s i so fw e bp a g e s ,w ef i n dt h a tt h ev i s u a ll a y o u ts t r u c t u r eo fw e bp a g ei sc o m p o s e d o fd i f f e r e n tb l o c k s ,a n dt h e r ee x i s t sc e r t a i nl o g i c a lr e l a t i o n sb e t w e e nt h e m a v i s i o n - b a s e dp a g es e g m e n t a t i o na l g o r i t h mi sp u tf o r w a r dt op a r t i t i o nw e bp a g e si n t o b l o c k s ,w h i c hc a ng e tab e t t e rs t a t et r a n s i t i o ns e q u e n c eo ft h eg h m m ,a n di sm o r e a p p l i c a b l et op a g el a y o u ts t r u c t u r eo fw e bp a g e d u et o t h ef a c t t h a tt h ee m i s s i o n p r o b a b i l i t ya ta n yt i m ei sn o to n l yr e l a t e dt ot h ec u r r e n ts t a t eb u ta l s ot h es t a t eb e f o r e , t h i ss t u d yp r e s e n t san o v e lg h m mb a s e do ns e c o n d o r d e rm a r k o vc h a i n m o r e o v e r , t h i sp a p e ra d o p t san a m i n ge n t i t yr e c o g n i t i o nm e t h o db a s e do nr o l e t a g g i n g t h eb a s i ci d e ai su s i n gi m p r o v e dg h m m t oi m p l e m e n tr o l et a g g i n gf o rw e b t e x t ,b a s e do nt h er u l eo fr o l et a b l e o nt h eb a s i so fr o l es e q u e n c e s ,s t r i n g sa r e r e c o g n i z e d ,a n dt h e nn a m i n ge n t i t yr e c o g n i t i o n i s r e a l i z e d f i n a l l y , w e bp a g e s i n f o r m a t i o ne x t r a c t i o nf r o mb o t hs t r u c t u r ea n ds e m a n t i c sa s p e c t si si m p l e m e n t e d t h r o u g ht h ea n a l y s i so fw e bp a g ee x t r a c t i o no fm a s sr e c r u i t m e n ti n f o r m a t i o no n c u r r e n tr e c r u i t m e n tw e b s i t e s ,w ei n d e p e n d e n t l yd e v e l o p e dp r o t o t y p es y s t e mn a m e d 基- j - g i - i m m 的w e b 文本信息抽取技术研究与系统设计 g h m m b a s e dw e bt e x ti n f o r m a t i o ne x t r a c t i o ns y s t e m ( w e b i e ) i nt h i sp a p e r , f i r s t l y , t h eb a s i cc o n c e p t so fw e bi n f o r m a t i o ne x t r a c t i o na r e i n t r o d u c e d s e c o n d l y , t h e i m p r o v e dg h m m i sa d o p t e dt oe x t r a c tw e bi n f o r m a t i o nf r o mb o t hw e b p a g es t r u c t u r e a n ds e m a n t i c sa s p e c t s ,b a s e do nt h ea n a l y s i so fw e bp a g e sa n dt h eu s a g eo fr o l e t a g g i n g - b a s e dn a m i n gr e c o g n i t i o nt e c h n o l o g y f i n a l l y , t h e r e s u l t so fr e t r i e v a l e x p e r i m e n t ss h o wi t i sa ne f f i c i e n t s y s t e m ,a n ds h o r t c o m i n g sa n df u t u r er e s e a r c h d i r e c t i o n sa r ep u tf o r w a r d k e y w o r d :d a t am i n i n g i n f o r m a t i o ne x t r a c t i o ng e n e r a l i z e dh i b b e nm a r k o v m o d e i ( g h m m ) n a m e de n t i t yi d e n t i f i c a t i o n 创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或 其他教育机构的学位或证书而使用过的材料。与我一同工作过的同志对本研究所 做的任何贡献已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 】厶 本人签名: 盈至袭 日期 趔2 :互:! 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文 在解密后遵守此规定) 本学位论文属于保密在年解密后适用本授权书。 、 本人签名: 一盈物 日期丝星! 王! 茎 导师签导师签名:五越之趁j日期越。么二 第一章绪论 第一章绪论弟一早珀下匕 1 1 课题背景 本课题研究的是w e b 数据挖掘中的一个分支w 曲信息抽取,是国家自然 科学基金项目“分布式数据挖掘优化技术”( 批准号6 0 5 7 3 1 3 9 ) 的一个组成部分。 课题的主要研究任务是构建基于w e b 挖掘与信息抽取系统,并将重点定位在w e b 环境下特定信息针对招聘信息的文本挖掘与抽取。 随着因特网的普及,w e b 资源已经成为人们获取信息和知识的重要渠道。w e b 资源覆盖了人们生产、生活的方方面面,如电子商务、网上银行以及人们的休闲 娱乐活动如上网冲浪、网络游戏等,都时刻和因特网关联。可以说,人们的交互 信息不可避免地出现了电子化、网络化、海量化的特点。在这些w e b 资源中,隐 藏了大量有价值的知识。如何快速高效地获取这些知识,已经成为数据挖掘研究 的一项重要内容,并因此产生了新的研究领域,即w e b 数据挖掘。 由于w e b 上的信息爆炸式的增长,这给如何获取有用信息带来了极大的不 便。另外,人们不再满足于自己去寻找信息,而是转向应用信息代理( i n f o r m a t i o n a g e n t ) 。信息代理从大量的资源网站收集资源,然后根据用户的需求或兴趣过滤 和转换信息,再将处理后的信息发送给用户。但是,由于各个网站资源的异构性, 很难准确地从大量的网页资源中发现用户需要的信息。 为了应对信息爆炸带来的严重挑战,迫切需要一些自动化的工具帮助人们在 海量信息中迅速、高效地找到真正需要的信息,w e b 信息抽取( i n f o r m a t i o n e x t r a c t i o n ) 技术正是在这一背景下产生的。 1 2w e b 信息抽取技术的发展与现状 从自然语言文本中获取结构化信息的研究最早开始于2 0 世纪6 0 年代中期, 这被看作是信息抽取技术的初始研究,它以两个长期的、研究性的自然语言处理 项目为代表。 美国纽约大学开展的l i n g u i s t i cs t r i n g 项目口1 开始于6 0 年代中期并一直延续到 8 0 年代。该项目的主要研究内容是建立一个大规模的英语计算语法,与之相关的 应用是从医疗领域的x 光报告和医院出院记录中抽取信息格式( i n f o r m a t i o n f o r m a t s ) 引。 另一个相关的长期项目是由耶鲁大学r o g e rs c h a n k 及其同事在2 0 世纪7 0 年 代开展的有关故事理解的研究。由他的学生g e r a l dd ej o n g 设计实现的f r u m p 2 基于g h m m 的w e b 文本信息抽取技术研究与系统设计 系统h 1 是根据故事脚本理论建立的一个信息抽取系统。该系统从新闻报道中抽取 信息,内容涉及地震、工人罢工等很多领域或场景。该系统采用了期望驱动 ( t o p d o w n ,脚本) 与数据驱动( b o t t o m u p ,输入文本) 相结合的处理方法。这 种方法被后来的许多信息抽取系统采用。 从2 0 世纪8 0 年代末开始,信息抽取研究蓬勃开展起来,这主要得益于消息 理解系列会议( m u c ,m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) 饰1 的召开。正是m u c 系列会议使信息抽取发展成为自然语言处理领域一个重要分支,并一直推动这一 领域的研究向前发展。 m u c 系列会议对信息抽取这一研究方向的确立和发展起到了巨大的推动作 用。m u c 定义的信息抽取任务的各种规范以及确立的评价体系已经成为信息抽 取研究事实上的标准。 近几年,信息抽取技术的研究与应用更为活跃。在研究方面,主要侧重于以 下几方面:利用机器学习技术增强系统的可移植能力、探索深层理解技术、篇章 分析技术、多语言文本处理能力、w e b 信息抽取( w r a p p e r ) 以及对时间信息的 处理等等。在应用方面,信息抽取应用的领域更加广泛,除自成系统以外,还往 往与其他文档处理技术结合建立功能强大的信息服务系统。至今,已经有不少以 信息抽取技术产品为主的公司出现,比较著名的有:c y m f o n y 公司哺1 、b h a s h a 公 司、l i n g u a m a t i c s 公司。引、r e v s o l u t i o n s 公司随1 等。 中文信息抽取方面的研究起步较晚,主要的研究工作集中在对中文命名实体 的识别方面,在设计实现完整的中文信息抽取系统方面还处在探索阶段。其中, 国立台湾大学( n a t i o n a lt a i w a nu n i v e r s i t y ) 和新加坡肯特岗数字实验室( k e n t r i d g ed i g i t a ll a b s ) 参加了m u c 7 中文命名实体识别任务的评测。i n t e l 中国研究 中心的z h a n gy i m i n 和z h o uj o ef 等人在a c l 厂2 0 0 0 上演示了他们开发的一 个抽取中文命名实体以及这些实体间相互关系的信息抽取系统呻1 ,该系统利用基 于记忆的学习( m b l ,m e m o 巧b a s e dl e a r n i n g ) 算法获取规则用以抽取命名实体 及它们之间的关系。 1 3 论文的研究内容 本文主要研究在w e b 环境下对特定信息招聘网站信息的抽取,从而取得 相对有价值的信息,一方面可以为广大学生提供就业需求信息:另一方面,可以 对招聘信息进行分析和挖掘,为学校办学培养相应人才提供科学依据。 。 从一般站点上获取人才需求信息,比较可行的方案是先通过一定途径( 如相 关网站,或搜索引擎) 取得用人单位网址,再用s p i d e r 程序进行站内搜索,寻找 招聘相关的信息。站内搜索可以采用广度优先方式或深度优先方式,一旦找到相 第一章绪论 3 应信息搜索立即停止。关键是“如何在网页中获取招聘信息”,这需要利用机器学 习方法,从大量文本中学习提取模式。 鉴于隐马尔可夫模型在信息抽取中的成功应用,本文提出了基于改进的广义 隐马尔可夫的抽取模型,并实现了“基于g h m m 的w e b 文本信息抽取系统( 以 下简称系统或本系统) 。本系统主要由以下方面组成:w e b 网页的分析;g h m m 抽取模型的算法研究以及在实体识别中的应用;数据库的建立;提供给用户信息 抽取的友好界面。具体研究内容如下: ( 1 ) 从互联网上大批量获取人才需求信息,对数据进行清理、汇总和分析, 得到自己的关于多家招聘网站和众多企业、事业、行政单位网站的人才需求信息 综合数据。 ( 2 ) 本论文在网页的分析过程中,根据网页内容块和显示形式进行分割处理, 最大限度地忽略与主题信息无关的内容,得到主体文本区,同时也减小数据库中 的数据冗余,并为后面的研究重心g h m m 信息抽取和分析做准备。 ( 3 ) 进行大量的理论研究工作。主要集中在对w 曲网页的特点分析,对 g h m m 模型的改进以及该模型在信息抽取方面的应用。这些理论都已得到数据挖 掘方向专家的认可。 ( 4 ) 使用s q ls e v e r2 0 0 0 索引机制构建快速高效的数据库,为后续的数据库 查询操作做准备。 ( 5 ) 提供给用户友好的人机界面。使用户能够方便准确地获取有用的数据。 最后,本系统以智联招聘网人才需求信息为实验平台,进行了大量的实验和 评估。实验结果表明,改进后的g h m m 信息抽取模型可以在各类复杂环境下快 速、准确地将招聘信息中的职位名、机构名等信息进行有效抽取。 1 4 论文的组织结构 本文的组织结构如下: 第二章介绍了w e b 信息抽取技术的基本概念和理论技术。介绍了w e b 信息 抽取的一些常用算法,并指出了这些算法存在的问题,从而引入本文使用的 g h m m 方法来解决这些问题。 第三章分析了网页的特点,为后面的g h m m 改进提供理论依据。同时对网 页的预处理部分:主要包括网页分割,特征抽取,相似度计算进行了理论的研究, 重点讨论了两种特征提取与表示的改进算法。为后面信息抽取做好理论分析。 第四章阐述了基于w e b 的信息抽取领域的主要算法g h m m 算法,首先介绍 了隐马尔可夫模型的基本概念以及模型解决的三个基本问题。然后推广到广义隐 马尔可夫模型,并对其算法进行改进。为w e b l e 系统的设计和实现提供了主要的 4 基于g h m m 的w e b 文本信息抽取技术研究与系统设计 算法理论支持。 第五章描述了w e b l e 系统中核心技术基于改进的广义隐马尔可夫模型的 信息抽取技术。先引入命名实体识别的概念,并提出了职位名识别角色表,通过 角色标记来时别实体名。最后给出了改进的g h m m 信息抽取的步骤。为系统中 对w e b 人才招聘信息中识别实体名称做好算法依据。 第六章通过大量的图例说明了系统的架构方法和模块划分,详尽地描述了 w e b i e 系统的设计和实现细节,其中也涉及到了数据库的实现方法。最后,通过 实验说明改进的广义隐马尔可夫对于网页信息抽取有很好的效果。 第七章对全文进行了总结,提出了本文的特色并对该系统存在的问题以及改 进的地方进行了讨论。并对w e b 信息抽取技术进行了合理的预测和展望。 第二章w e b 信息抽取技术 5 第二章w e b 信息抽取技术 w e b 信息抽取技术是数据挖掘领域的一个重要的研究方向。它是一门新的交 叉学科,涉及到机器学习、人工智能、模式识别、概率统计等学科。随着因特网 的迅速发展,针对海量的w e b 资源的信息抽取技术应运而生。 2 1 信息抽取技术综述 信息抽取原来的目标是从自然语言文档中找到特定的信息,是自然语言处理 领域特别有用的一个子领域。所开发的信息抽取系统既能处理含有表格信息的结 构化文本,又能处理自由式文本( 如新闻报道) 。系统中的关键组成部分是一系列 的抽取规则或模式,其作用是确定需要抽取的信息。 2 1 1 信息抽取技术概念 按比较正式的说法,( 文本) 信息提取( i n f o r m a t i o ne x t r a c t i o n ) n 伽指从一段文 本中抽取指定的一类信息( 例如事件、事实) 并将其( 形成结构化的数据) 填入 一个数据库中供用户查询使用的过程。信息提取涉及到两个方面的因素,( 1 ) 用户 指定感兴趣的信息和待分析的文本集;( 2 ) 系统过滤文本集并以一定的格式输出匹 配的信息。 由此界定我们立即可以明确信息提取的技术目标及其与相关信息处理技术 ( 例如信息检索、自动文摘、文本理解等) 的实质差异u 。 首先,仅仅依靠信息检索( i n f o r m a t i o nr e t r i e v a l ) 并不能有效地实现信息提取的 目标,因为信息检索只是找出满足一定检索条件的整篇文档或段落,而人们仍然 必须阅读所找到的每一个文档或段落才能获得所需要的信息。自然地,也可以认 为信息提取是信息检索的更进一步。信息提取不仅查找信息,而且替用户理解信 息,并按用户指定的方式输出信息。信息提取是“更高级的信息检索”。 其次,信息提取与自动文摘和文本理解也有实质的差别,即信息提取是对一 个预先定义好的信息模板进行填充,是一种高度受限的信息处理过程;而自动文 摘和文本理解则没有预先规定目标的特性,需要对多种多样的内容进行分析和处 理。相对而言,信息提取技术更注重工程性和可操作性,希望通过使用一定程度 的语言处理技术进行相当多的信息发现和提取工作,以满足某些基本的应用需求。 篁tg i 删的w e b 立本信息抽取妓术研究与系统设计 2 12 信息抽取的分类 我们认为可以把信息提取任务按照所涉及的语言处理的复杂程度分为_ 二类 。而从信包论的角度看,它们大致对应了符号( 句法) 信息、语义( 关系) 信 息和语用信息二个屠次( 见f 面的讨论) 。我们町以用些由简到繁的简单提取任 务作为例f 米| 兑明这亍个层次的信息类型: 1 提取单个史体( n a m e d e n t i t y t a s k ,n e ) :把人名、地名都提h 来;把机 构【才】体名都提山柬; 2 提取实体( 二元) 关系( e r t a s k ) :把某某人、公小院校的电话号码、 电九9 口件阏址提出球;把位于某某地区的公司名部提 h 束;把某某公司发布 推销的产品都提出来; 3 提取事件模板( t e m p l a t ee e m e n t ,t e ) :把有关丌会、出访、产品发布、 公司合并等“单纯信息”提m 柬( 把预先定义好的表格填上) ;把有关股价变动、 职务变化、市场行情等( 带有时念信息) 的事件提出来;它的抽取包括相关元素 模板以及元索之间的相互关系。 一个层次的关系正如:物质是由分子组成、而分于是由原子组成的样,信 息的组成方式也具有相似的层次关系,如图21 所示: 船名囊体n e实体天乐e r 消息模廿i 曩例 v 一 图2 1 信息抽取的_ 三层戈系 显然,就当前的技术水平而占,后层次中的许多信息类型还是非常难于处 理的。对于一个信息提取系统,我们应该把丁作的重点放在有可能实现的技术上 主要是实体和实体* 系识别、简单类型的事件信息匹配等。山于更复杂的信息中 有很多是由这些简单、基本的信息类型组合起来的,加强对基本类型的信息提取 研究也具有长远的意义。 2 2 信息抽取的常用方法 w e b 信息抽取技术有多种分娄方式”,例如根据自动化程度就可以分为人工 力式的信息抽取、# 自动方式的信息抽取和伞自动方式的信息抽取3 大类。根据 第二章w e b 信息抽取技术 7 各种工具所采用的原理将现有的工具分为以下5 类:基于自然语言处理方式的信 息抽取n 制、包装器归纳方式的信息抽取n 引、基于o n t o l o g y 方式的信息抽取n 6 。、基 于h t m l 结构的信息抽取“7 3 和基于w e b 查询的信息抽取n 引。下面将结合典型的 系统进行了分析和比较。其中结构化的数据称为对象;模式的定义方式主要有2 种,信息抽取之前给出对象模式的称为先模式,反之称为后模式。最后对其优缺 点依次进行了分析。 2 2 1 基于自然语言处理方式的信息抽取 这类信息抽取主要适用于源文档中包含大量文本的情况( 特别针对于合乎文 法的文本) ,在一定程度上借鉴了自然语言处理技术,利用子句结构、短语和子句 间的关系建立基于语法和语义的抽取规则实现信息抽取。目前采用这种原理的典 型的系统有n 钔。下面结合比较典型的系统w h i s k 来详细说明这种方式的信息抽 取。 w h i s k :该系统对于于结构化、半结构化的文本基本上没有利用到自然语言 处理技术,对这种情况这里不作详细的分析。对自由文本,系统首先根据分割符 将源文档分割成多个实例( 每个实例是一个语义相关的文本块) 分析出用户标记 信息的语法成分和对应的语义类,生成基于语法标记和语义类标记的抽取规则, 实现信息抽取。 系统采用了先模式的方式对于结构化和半结构化的文本,规则采用正则表达 式的形式描述了感兴趣语义项( 文本中的短语) 的下文及语义项间的分割符,利 用这些信息达到识别感兴趣语义项的目的。对于自由文本,在一定程度上利用了 自然语言处理技术的思想。 存在的问题是这种基于自然语言理解方式的信息抽取技术,是将w e b 文档视 为文本进行处理的( 主要适用于含有大量文本的w e b 页面) ,抽取的实现没有利 用w e b 文档独特于普通文本的层次特性。同时获得有效的抽取规则需要大量的样 本学习。 2 2 2 包装器归纳方式的信息抽取 包装器归纳方式的信息抽取根据事先由用户标记的样本实例应用机器学习方 式的归纳算法,生成基于定界符的抽取规则。其中定界符实质上是对感兴趣语义 项上下文的描述,即根据语义项的左右边界来定位语义项。该类信息抽取方式和 基于自然语言理解方式的信息抽取技术最大的不同在于仅仅使用语义项的上下文 来定位信息并没有使用语言的语法约束。文献啪1 采用这种典型的系统。下面根据 8 基于g i t m m 的w e b 文本信息抽取技术研究与系统设计 具体的系统详细分析这类信息抽取技术。 s t a l k e r :该系统根据用户事先标记的样本页面和用户以嵌入式分类树形式 提供的页面的结构信息,应用逐步覆盖算法,逐步归纳生成基于定界符的精确的 抽取规则,实现层次的信息抽取。 该系统中语义的附加和模式的定义是在用户定义嵌入式分类树阶段完成的, 属于先模式的方式。信息定位的实质是使用左右边界实现感兴趣信息的识别。其 他使用左右边界定位信息的系统一般是在整个文档中应用各语义项的左右边界识 别出各语义项,然后再将各语义项组装成一个对象。而该系统在一定程度上是按 结构抽取和按文本抽取的结合。根据嵌入式分类树先获得高层节点对应的大的文 本块然后再应用低层节点对应的抽取规则,逐步获得想要的信息。 存在的问题是这类模式仅仅使用语义项的上下文来定位信息并没有使用语言 的语法约束,对于语义的理解没涉及到。 2 2 3 基于o n t o l o g y 方式的信息抽取 该类信息抽取主要是利用对数据本身的描述信息实现抽取,对网页结构的依 赖较少。o n t o l o g y ( 包括对象的模式信息、常值,关键字的描述信息,其中常值 和关键字提供了语义项的描述信息) 系统晗根据边界分割符和启发信息将源文档 分割为多个描述某一事物( 如汽车广告) 不同实例的无结构的文本块,然后根据 o n t o l o g y 中的常值和关键字的描述信息产生抽取规则,对每个无结构的文本块进 行抽取获得各语义项的值,最后将抽取出的结果放入根据o n t o l o g y 的描述信息生 成的数据库中。 该系统中语义的附加和模式的定义是在书写某一应用领域的o n t o l o g y 的时候 完成的,即人工方式附加语义信息,并且采用了先模式的方式事先确定了对象的 模式。系统最大的优点是对网页结构的依赖较少,只要事先创建的应用领域的 o n t o l o g y 足够强大,系统可以对某一应用领域中各种网页实现信息抽取。 存在的问题是,该系统通过事先训练分类器,给系统提供语义信息,通过文 本分割,分类确定网页内容的语义,采用了后模式的方式,在一定程度上克服了 现有信息抽取技术对网页结构依赖太强的缺点,但是使用常见的分割符对文本分 割不够精确,对贝叶斯分类器要进行大量的样本训练,从大量异构的文档中提取 公共模式工作量繁重,并且不支持对超链接的处理。 2 2 4 基于h t m l 结构的信息抽取 该类信息抽取技术的特点是,根据w e b 页面的结构定位信息。在信息抽取之 第二章w e b 信息抽取技术 9 前通过解析器将w e b 文档解析成语法树,通过自动或半自动的方式产生抽取规 则,将信息抽取转化为对语法树的操作实现信息抽取。采用该类技术的典型系统 有x w r a p 1 ,r o a d r u n n e r 3 和w 4 f 扫劬等。下面对具有代表性的x w r a p 系统 进行分析。 x w r a p :通过交互式的方式,由用户在样本中指定抽取区域的起始位置, 系统确定整个抽取区域,并确定区域的类型,然后通过可视化的方式,由用户在 样本页中指定语义项( 如表头) 及与之对应的实例,系统自动产生抽取规则实现信 息抽取,最后系统利用启发信息获得数据间的层次结构关系,生成x m l 文档。 该系统采用用户在网页中指定语义项的方式附加语义信息,即将网页的部分 内容作为语义项,对于不同的区域类型( 如,t a b l e ,l i s t 等) 采用不同抽取规则来提 高系统的灵活性和效率。 存在的问题是该系统只适合对含有明显区域结构( 如t a b l e ,l i s t 等) 的网页进 行信息抽取,不支持对普通网页的抽取,模式的表达能力也非常有限,在学习阶 段用户参与太多。 2 2 5 基于w e b 查询的信息抽取 使用w e b 的相关技术解决w e b 的问题称为w e b 技术风范。上述的信息抽取 工具,采用了不同的原理,抽取规则的形式和感兴趣信息的定位方式也各不相同, 因此均不具有通用性具有w e b 技术风范的信息抽取,将w e b 信息抽取转化为使 用标准的w e b 查询语言对w e b 文档的查询,具有通用性。采用该类技术的典型 的系统有:自主开发的原型系统p q a g e n t 乜副。 p q a g e n t :系统采用了交互式的方式,用户首先选定样本页面,然后在可视 化的界面中,对样本页面进行标记,系统通过学习生成基于x q u e r y 啪1 的抽取规则, 利用生成的抽取规则实现对相似结构页面的信息抽取,事先已通过预处理将源文 档转化成符合x m l 一语法规范的文档,可直接利用x q u e r y 引擎执行x q u e r y 查 询语句实现信息抽取。 该系统采用了先模式的方式,事先由用户附加语义并确定模式。抽取规则以 x q u e r y 的形式表示应用抽取规则可直接定位到对象。该系统将信息抽取转化成为 利用x q u e r y 对w e b 页面的查询,因此相对于前面的系统,该系统的抽取规则相 当健壮,有很强的表达力,并统一了h t m l 和x m l 查询,不仅便于最终用户使 用,也便于作为包装器r ( w r a p p e r ) ,由应用程序调用,这是其他方法无法比拟的优 点。 存在的问题是系统对网页结构的依赖性仍比较强,尽管抽取的范围相对广泛, 但仍需进一步扩大。 1 0 基- j - g h m m 的w e b 文本信息抽取技术研究与系统设计 2 3w e b 信息抽取存在的问题 针对以上提出的信息抽取模型,我们可以看出有几方面的问题需要解决。首 先就是抽取的模型大都是针对文本而不是w e b 页面,所以没有考虑w e b 文档独 特于普通文本的层次特性。即使网页的信息抽取模型考虑了网页的结构特性,但 对网页结构的依赖性仍比较强,一旦网页结构发生变化,抽取的模型就会出错。 其次仅仅使用语义项的上下文来定位信息并没有使用语言的语法约束,即语义的 理解。最后一点是模型需要学习大量样本,样本的选择就会影响抽取的结果。 通过对以上信息抽取模型的分析,我们提出了一种针对w e b 文本的信息抽取 模型改进了的g h m m 模型,它既考虑了网页的特殊性,又考虑了对语义的 理解,从而解决了对网页结构的依赖性仍比较强的问题。我们通过对传统g h m m 的改进,使该模型对实体识别的准确性更好,尤其是对一些新型实体名称的识别。 其主要算法和特点将在后续几章详细介绍。 2 4w e b 信息抽取体系结构 这里我们采用h o b b s 提出一个信息抽取系统的通用体系结构n3 ,他将信息抽 取系统抽象为“级联的转换器或模块集合”利用手工编制或自动获得的规则在每 一步过滤掉不相关的信息,增加新的结构信息”。 h o b b s 认为典型的信息抽取系统体系结构如图2 2 所示: 图2 2 信息抽取体系结构图 第二章w e b 信息抽取技术 ( 1 ) 词汇分析:基于词典将输入的文本划分成不同词性。 ( 2 ) 词汇预处理:将得到的文本块转换为句子序列,每个句子由词汇项( 词 或特定类型短语) 及相关的属性( 如词类) 组成。过滤掉不相关的句子。 ( 3 ) 语法语义的分析:在词汇项序列中识别确定的小型结构,如名词短语、 动词短语、并列结构等。通过分析小型结构和词汇项的序列建立描述句子结构的 完整分析树或分析树片段集合。 ( 4 ) 规则的发现:将分析树片段集合或逻辑形式片段组合成整句的一棵分析 树或其他逻辑表示形式。从而发现其规则,并结合相关语法规则,来共同识别。 ( 5 ) 模板生成:通过确定同一实体在文本不同部分中的不同描述将当前句的 语义结构表示合并到先前的处理结果中。由文本的语义结构表示生成最终的模板。 2 5 小结 本章对w e b 信息抽取的概念、构成、原理等基础知识进行了说明,并分析了 现有信息抽取常用模型的原理及其存在问题,从而提出我们的g h m m 模型来解 决这些问题。最后对信息抽取体系进行了介绍,为后面着重介绍信息抽取核心算 法作铺垫。 第三章w e b 页面分析 1 3 第三章w e b 页面分析 由于我们是对w e b 上的的信息进行的抽取,所以本章将会介绍w e b 页面的 特点。对网页的机器学习类似于文本学习,因为网页能被看作文本。但是网页比 起文本还有很多新的特点:第一,网页是一种半结构化的数据,并且通常是h t m l 的形式来表示的。第二,网页通过超链接与其他网页进行连接。第三,网页中包 含大量“噪音,比如:网页的导航信息,以及广告。网页中文本内容很少,还不 足以用来分析网页。第四,网页资源也是巨大的、异构的、分布式的、以及不断 变化的。所以对网页特点分析的好坏,就直接影响网页信息提取得好坏。 3 1h t m l 格式分析 w e b 网页作为信息的载体,多数采用超文本标记语言编写,其内部表现为由 离散文本条与标记组成的字符串序列,其中标记控制浏览器如何显示定义的信息, 决定了外部实体( 文本,图片等) 的表现形式( 视觉、布局等) ;外部表现为多个 信息区域共同分布,起控制作用的是那些扩展名为h t m 或h t m l 的h t m l 文档。 h t m l 是( h y p e rt e x tm a r k u pl a n g u a g e ,中文含义是超文本标记语言) 啪1 的缩写,它是一种建立网页文件的标记语言。h t m l 文件中包含了大量的标记 ( t a g ) ,这些标记描述了w 曲浏览器在页面上如何显示文字、图形等内容。所以 知道要读懂h t m l 文件,必须先熟悉标记的基本格式和功能。 通常,一个完整的h t m l 文件应该包括如下基本元素:h e a d 表示标头区, t i t l e ,网页的标题;b o d y ,网页的主体内容;h 1 h 6 ,段落的标题;e m ,是 强调的内容。u r l ,超链接包含了网页链接的描述。m e t a ,中的数据也提供了 一些有用信息,但由于其格式不规范。而

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论