已阅读5页,还剩56页未读, 继续免费阅读
(计算机科学与技术专业论文)基于xml的web信息抽取系统研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
, 原创性声明 本人声明:所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究成 果。除本文已经注明引用的内容外,论文中不包含其他人已经发表或撰写过的研究成果,也 不包含为获得内蒙直太堂及其他教育机构的学位或证书而使用过的材料。与我一同工作的同 志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。一 学位论文作者签名:雎 日 期:趁! f :么:! ! _ 指导教师签名:垄礁垄公 日 期:趁! z :笸! 厂 在学期间研究成果使用承诺书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古大学有权将 学位论文的全部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘,允 许编入有关数据库进行检索,也可以采用影印、缩印或其他复制手段保存、汇编学位论文。 为保护学院和导师的知识产权,作者在学期间取得的研究成果( 含计算机软件、程序) 属于 内蒙古大学计算机学院。作者今后使用涉及在学期间主要研究内容或研究成果,须征得内 蒙古大学计算机学院就读期间导师的同意;若用于发表论文,版权单位必须署名为内蒙古大 学计算机学院方可投稿或公开发表。 学位论文作者签名:啦 指导教师签名: 蛆丛 白期:塑丛么! r日期:塑f z 。么么= - 内蒙古大学硕士学位论文 基于x m l 的w e b 信息抽取系统研究与实现 摘要 随着计算机科学技术与互联网的不断发展,在我们的工作和生活中w e b 已变 得必不可少。w e b 上信息资源呈几何级数量增长,w e b 已经成为一个巨大的信息 一 资源库,要想准确有效地获取一条想要的信息变得越来越难,如何从w e b 信息 资源库中抽取出有用的信息已经成为众多科研工作者研究的课题,w e b 信息抽取 技术应运而生。 本文在研究现有的w e b 信息抽取技术基础上,结合标准的x m l 技术,提出 了基于x m l 的w e b 信息抽取技术。本文主要工作有以下几点: 1 在研究前人技术成果基础之上,对现有信息抽取技术加以整合和扩展, 设计了基于x m l 的w e b 信息抽取系统框架模型。 2 研究了信息抽取关键技术,阐述了信息抽取工作流程,设计了抽取规则 和抽取配置文件的生成方法。最终,实现了w e b 信息抽取系统的主要功能。 3 本文对抽取结果进行分类,采用了朴素贝叶斯理论,设计了一个中文w e b 文本分类系统模型,该模型隶属于整个信息抽取系统框架模型。 4 系统抽取结果是x m l 数据文档类型,在分析当前数据库存储技术基础上, , 。 探讨了将抽取结果经分类后存储到数据库的不同方法。 本文设计的基于x m l 的w e b 信息抽取系统能够较好的解决w e b 信息抽取问 题,实验结果表明,该系统具有较高的召回率和准确率。 关键词:x m l ,w e b 信息抽取,抽取规则,文本分类,x m l 数据存储 基于x m l 的w e b 信息抽取系统研究与实现 x m l - - b a s e dw e bi n f o r m a t i o ne x t r a c t i o ns y s t e mr e s e a r c ha n d i m p l e m e n t a t i o n a b s t r a c t a sc o m p u t e rs c i e n c ea n dt e c h n o l o g ya n dt h ei n t e r n e tc o n t i n u et od e v e l o p ,w e bh a sb e c o m e e s s e n t i a li no u rw o r ka n dl i f e w e bi n f o r m a t i o nr e s o u r c e sa r eg r o w i n go nt h en u m b e ro f e x p o n e n t i a l l y , w e bh a sb e c o m eah u g er e p o s i t o r yo fi n f o r m a t i o n ,i no r d e rt o o b t a i nd e s i r e d i n f o r m a t i o na c c u r a t e l ya n de f f e c t i v e l yb e c o m e sm o r ea n dm o r ed i f f i c u l t ,a n dh o wt oe x t r a c tu s e f u l _ i n f o r m a t i o nf r o maw e bi n f o r m a t i o nr e p o s i t o r yh a sb e c o m et h es u b j e c to fm a n yr e s e a r c hs c i e n t i s t s , w e bi n f o r m a t i o ne x t r a c t i o nt e c h n o l o g yi sp r e s e n t e d b a s e do nt h er e s r a r c hi ne x i s t i n gw e bi n f o r m a t i o ne x t r a c t i o nt e c h n o l o g ya n dc o m b i n e dw i t h t h es t a n d a r dx m l t e c h n o l o g y ,x m l - b a s e dw e bi n f o r m a t i o ne x t r a c t i o nt e c h n o l o g yi sp r o p o s e d t h e m a i nc o n t r i b u t i o n si nt h i sp a p e ra l el i s t e da sf o l l o w s : 1 b a s e do nt h er e s e a r c hi np r e v i o u st e c h n i c a la c h i e v e m e n t s ,t oi n t e g r a t ea n de x t e n dt h e e x i s t i n gi n f o r m a t i o ne x t r a c t i o nt e c h n o l o g y , x m l b a s e df r a m e w o r ko fw e bi n f o r m a t i o ne x t r a c t i o n s y s t e mm o d e li sd e s i g n e d 2 d or e s e a r c hi nt h ek e yt e c h n o l o g i e so fi n f o r m a t i o ne x t r a c t i o n ,a n dd e s c r i b ei n f o r m a t i o n e x t r a c t i o np r o c e s s e s ,a n dp r o p o s et h ee x t r a c t i o nr u l e sa n dt h e g e n e r a t i o nm e t h o do fe x t r a c t c o n f i g u r a t i o nf i l e u l t i m a t e l y ,t h em a i nf u n c t i o no ft h ew e bi n f o r m a t i o ne x t r a c t i o ns y s t e mi s r e a l i z e d 3 t h ee x t r a c t i o nr e s u l ti s c l a s s i f i e d ,u s i n gan a i v eb a y e s i a nt h e o r y ac h i n e s ew c bt e x t c l a s s i f i c a t i o ns y s t e mm o d e li sd e s i g n e d ,w h i c hi su n d e rt h ef r a m e w o r ko fi n f o r m a t i o ne x t r a c t i o n s y s t e mm o d e l 4 t h ee x t r a c t i o nr e s u l ti sx m ld a t ad o c u m e n tt y p e b a s e do nt h ea n a l y s i so ft h ec u r r e n t d a t a b a s es t o r a g et e c h n o l o g y , d i s c u s s e dt h ed i f f e r e n tm e t h o d so ft h ee x t r a c t i o nr e s u l t st o s t o r ei nt h e t h i sd e s i g no fx m l - b a s e dw e bi n f o r m a t i o ne x t r a c t i o ns y s t e mc a nb e t t e rs o l v et h ep r o b l e mo f w e bi n f o r m a t i o ne x t r a c t i o n , e x p e r i m e n t a lr e s u l t ss h o wt h a t t h es y s t e mh a sh i g h e rr e e a ua n d p r e c i s i o nr a t e s k e y w o r d s :x m l ,w e bi n f o r m a t i o ne x t r a c t i o n ,e x t r a c t i o nr u l e s ,t e x tc l a s s i f i c a t i o n ,x m ld a t a 内蒙古大学硕士学位论文 目录 摘要:i a b s t r a c t i i 目勇之i i i 图表目录v 第一章绪论1 1 1 论文选题背景与研究意义1 1 1 1 论文选题背景1 1 1 2 论文研究意义2 1 2 国内外w e b 信息抽取研究现状综述3 1 2 1 国外w e b 信息抽取研究现状3 1 2 2 国内w e b 信息抽取研究现状4 1 3 论文的内容和组织结构5 第二章w e b 信息抽取基本知识与相关技术标准6 2 1w e b 信息抽取基本知识6 2 1 1 w e b 信息抽取概念j 6 2 1 2w e b 信息抽取的方法和存在问题7 2 2w e b 信息抽取相关技术标准9 2 2 1x m l 的技术标准9 2 2 2h t m l 、x h t m l 与x m l 11 2 2 3x p a t h 查询语言1 1 2 2 4x s l t 基础13 2 2 5d o m 和s a x 比较17 第三章基于x m l 的w e b 信息抽取系统框架体系的设计与研究2 0 3 1 提出问题2 0 3 1 1w e b 信息抽取的困难2 0 3 1 2w e b 信息抽取的目标2 0 3 2 分析问题:2 1 3 2 1 基于x m l 的w e b 信息抽取系统框架模型2 l i i i 基于x m l 的w e b 信息抽取系统研究与实现 3 2 2 系统框架模型结构2 2 3 3 解决问题2 4 3 3 1w e b 信息抽取系统工作流程2 4 3 3 2 抽取规则的研究2 5 3 3 3w 曲信息抽取过程2 7 3 3 4w e b 中文文本分类3 0 3 3 5x m l 数据文档的存储。3 6 第四章基于x m l 的w e b 信息抽取系统的测试与分析:3 9 4 1w e b 信息抽取和文本分类评价指标3 9 4 1 1w e b 信息抽取评价指标3 9 4 1 2w e b 文本分类评价指标3 9 4 2 实验测试环境与方法4 0 4 3w e b 信息抽取结果及分析4 0 4 4 抽取结果分类存储及分析4 1 第五章总结和展望4 3 5 1 论文总结4 3 5 2 论文展望4 3 参考文献4 5 致谢5 0 攻读硕士学位期间发表的论文和参加的项目5 1 i v 内蒙古大学硕士学位论文 图表目录 表2 1x p a t h 支持的节点类型1 2 表2 2 常用x p a t h 路径表达式1 2 表2 3x p a t h 通配符1 3 表2 4d o m 和s a x 解析之间的差异1 8 图3 1w e b h a r v e s t 管道式处理器的执行情况2 2 图3 3w e b 信息抽取系统工作流程图2 4 图3 4 抽取规则的自动学习模型流程图2 6 图3 5 抽取结果实例3 0 图3 6 中文w e b 文本分类系统模型流程图3 l 图3 7 文本特征项集合向量空间3 3 表4 1 实验环境4 0 表4 2 网站测试列表4 0 图4 1 抽取结果分类柱状图4 2 v 基于x m l 的w e b 信息抽取系统研究与实现 v i 内蒙古大学硕士学位论文 1 1 论文选题背景与研究意义 1 1 1 论文选题背景 第一章绪论 随着计算机科学技术和应用技术的迅猛发展,互联网也得到了快速发展,只要有一个终 端,人们可以随时随地通过互联网接收和发送信息,互联网作为当下最流行的信息发布媒介 已经被越来越多的人们接受,从而使人们获取信息变得更加方便。然而,随着互联网上信息 呈几何级的增长,人们想要准确获取一条自己想要的信息已变得非常困难,目前,虽然搜索 引擎一定程度上方便了我们获取相关信息,但依然不够高效。因特网是一个巨大的信息源, 但是,这种信息源往往是半结构化的,尽管中间还夹杂着结构化和自由文本,因特网上的信 息还是动态的,包含着超链接,网上信息以不同的表现形式出现,而且跨网站和平台,可以 实现全网共享。 信息抽取( i n f o r m a t i o ne x t r a c t i o n :i e ) 的目标是把文本里包含的信息进行结构化处理, 变成类似表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息 点,信息点可以从各种各样的文档中被抽取出来,然后以统一的形式集成在一起,这就是信 息抽取的主要任务。 信息抽取技术对于从大量的文档中抽取想要的特定信息来说是非常有必要的。在因特网 上,同一主题的信息通常分散在不同网站上,而且表现的形式也各不相同。如果能将这些信 息收集起来,用结构化形式来储存,是一件十分有意义的工作,这对于那些把因特网当成是 信息来源的人来说是非常重要的。w e b 信息抽取系统可以看作是把用户想要的信息从互联网 上不同文档中抽取出来转换成数据库记录的系统。因此,优秀的信息抽取系统将把浩瀚的互 联网信息资源看成是一个巨大的数据库。 近十几年来,i e 得到了快速发展,一是由于“消息理解研讨会 ( m o c ) 的推动,二是由 于网上内容大量增加带来的需求。 i e 对自由文本和结构化文本都能处理。n l p ( 自然语言理解技术) 技巧通常用于自由文 本的处理,对结构化和半结构化文本不是太适合,一个w e b 文档就是一个网页,网页显示的 文本被大量的标记分隔开来,因而,基于分隔符和字符的方法更加奏效。 随着互联网的出现和发展,w e b 文档的有效信息抽取被提上日程。互联网上的资源是包 基于x m l 的w e b 信息抽取系统研究与实现 含着大量半结构化文本的信息源。网页与传统的文本相比,有许多特点:信息量大,更新快, 变化多,页面中包含结构化的文字块,可能还有超链接。因此,互联网是一个特殊的挑战, 一直推动着从结构化和半结构化文本中进行抽取信息的研究向前迈进【i 】。如何有效的从w e b 上抽取信息已经成为一个研究的重点的问题。 w e b 信息抽取过程中的一个突出的问题就是数据的异构性,它极大地阻碍对信息的有效 的使用。x m l 的出现正是针对这一问题而提出的解决方案。x m l 主要有以下优点: 1 自描述性。x m l 文档通常包含一个文档类型( ) 声明,从而便于机器理解数 据的意义。x m l 文档中的数据可被任何能够对x m l 数据进行解析的应用程序所抽取、分析 和处理,并以所需格式显示。 2 扩展性。x m l 是一种用于设计标记语言的原语言,而不是像h t m l 那样,是一种只 有一个固定标记集的特定标记语言。x m l 允许用户根据其需要创建自己的标记,这些标记可 通过x m ld t d ( d o c u m e n tt y p ed e f i n i t i o n ) 加以定义。 3 灵活性。x m l 提供了一种结构化的数据表现方式,从而使用户界面与结构化数据相 分离。 4 可读性。人类和机器的可读性。x m l 要求以标签标记的数据有严格的层次结构。严 格的数据层次结构是人类视图和机器视图的折衷。人类视图是一个具有标记的文档,机器视 图是一个具有树状结构的数据。 随着计算机和网络技术的不断发展,x m l 技术的应用也在不断扩展。x m l 技术不仅可 以应用于电子商务、搜索引擎软件、自动智能翻译、文档发声软件等领域,还可以应用于银 行之间进行数据交换、证券公司对其上市公司相关的数据进行统计、图书馆对其馆藏书目进 行查询检索、企事业单位对其文件档案进行管理。x m l 技术在当前的互联网和i t 环境中扮 演着越来越重要的角色,它事实上已经成为数据交换的标准、s o a 架构的基石。g a r t n e r 预测, x m l 文件的使用率在2 0 0 7 年达到4 0 ,在2 0 0 8 年将占据支配地位。i d c ( 国际数据公司) 最近发布的一份报告显示,在5 0 0 家受访企业的i t 部门中,有2 9 的企业宣称正在大量使 用x m l 存储库和数据库。x m l 的广泛使用使高效的x m l 数据处理成为一种迫切的需要。【8 】 1 1 2 论文研究意义 随着信息化进程的推进以及网络技术的发展,越来越多的人开始认识到互联网作为信息 来源的重要性,而互联网也已经融入到了人们生活的方方面面。c n n i c 删( 中国互联网络信 息中心) 在2 0 1 1 年1 月1 9 日公布的“第2 7 次中国互联网络发展状况统计报告 显示,截 2 内蒙古大学硕士学位论文 至2 0 1 0 年1 2 月,我国网民规模已达4 5 7 亿,互联网普及率进一步提升,达到3 4 3 。 互联网规模在不断扩大,互联网上的数据量非常巨大,并且依然在不断增长。这些数据 的主题广泛而内容多样,用户可以在互联网上找到几乎任何信息。互联网上具有各种类型的 数据,例如:结构化的表格、半结构化的网页、无结构的文本,以及多媒体文件( 图片、音 频和视频) 等;互联网上的信息是异构的;由于网站网页作者不同,多数表示相同或相似内 容的网页可能会使用完全不同的文字和格式,这使将多个网页信息整合变为一项挑战;互联 网上绝大部分信息是互联的,网站内部和网站之间的网页通过超链接建立联系;互联网上的 信息包含噪音,其中,一张网页通常包含多块内容,例如:网页的主要内容、导航链接、广 告、版权声明、隐私策略等等,然而,对于特定应用而言,只有其中一部分信息是有用的, 其余全是噪音;互联网提供各种服务,如购买商品、支付账单和填写表格等等;互联网具有 动态性,网上的信息不断变化,对于很多应用而言,紧跟并监督这些变化是十分重要的;互 联网还是个虚拟的社会,它不仅仅是一些数据、信息和服务,而且包括人、组织和自动化系 统之间的交互。用户可以和位于任何地方的任何人方便地进行即时交流,也可以在论坛、微 博、s n s 和评论站点上发表自己的观点。【z j 对于从互联网上抽取信息和知识这一任务而言,这些特点既是挑战,又是机遇。针对互 联网信息的特征,w e b 信息抽取已经发展出了许多的方法,总体上取得了良好的效果,但在 很多方面还有待进一步完善。 1 2 国内外w e b 信息抽取研究现状综述 1 2 1 国外w e b 信息抽取研究现状 信息抽取( i n f o r m a t i o ne x t r a c t i o n :i e ) 的前身是文本理解,最早开始于2 0 世纪6 0 年代 中期,主要是从自然语言文本中获取结构化信息的研究,这被看作是信息抽取技术的初始研 究。 从2 0 世纪8 0 年代末开始,信息抽取研究逐渐火热起来,这主要有两个因素对其发展有 重要的影响:一是在线和离线文本数量的几何级数增加,另一个是“消息理解研讨会”( m u c 。 m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) 从1 9 8 7 年开始到1 9 9 8 年共举行了七届会议对该领域的 关注和推动。m u c 由美国国防高级研究计划委员会( d a r p a ,t h ed e f e n s ea d v a n c e dr e s e a r c h p r o j e c t sa g e n c y ) 资助,其显著特点并不是会议本身,而在于对信息抽取系统的评测。近几 年,信息抽取技术的研究与应用更为活跃。在研究方面,主要侧重于以下几方面:利用机器 3 基于x m l 的w e b 信息抽取系统研究与实现 学习技术增强系统的可移植能力、探索深层理解技术、篇章分析技术、多语言文本处理能力、 w e b 信息抽取( w r a p p e r ) 以及对时间信息的处理等;在应用方面,信息抽取应用的领域更加 广泛,除自成系统以外,还往往与其他文档处理技术结合建立功能强大的信息服务系统。至 今,已经有不少以信息抽取技术产品为主的公司出现,国外比较著名的有:c y m f o n y 公司、 b h a s h a 公司、l i n g u a m a t i c s 公司、r e v s o l u t i o n s 公司等。 目前,除了强烈的应用需求外,正在推动信息抽取研究进一步发展的动力主要来自美国 国家标准技术研究所( n i s t ) 组织的自动内容抽取( a c e ,a u t o m a t i cc o n t e n te x t r a c t i o n ) 评 争 测会议。这项评测从1 9 9 9 年7 月开始酝酿,2 0 0 0 年1 2 月正式开始启动,从2 0 0 0 年到2 0 0 7 年已经举办过多次评测。这项评测的目的是:开发自动内容抽取技术以支持对三种不同来源 一 ( 普通文本、由自动语音识别a s r 得到的文本、由光学字符识别o c r 得到的文本) 的语言 文本自动处理。研究的主要内容是:自动抽取新闻语料中出现的实体、关系、事件等内容, 即对新闻语料中实体、关系、事件的识别与描述。与m u c 相比,目前的a c e 评测不针对某 个具体的领域或场景,采用基于漏报( 标准答案中有而系统输出中没有) 和误报( 标准答案 中没有而系统输出中有) 为基础的一套评价体系,还对系统跨文档处理( c r o s s d o c u m e n t p r o c e s s i n g ) 能力进行评测。这一新的评测会议将把信息抽取技术研究引向新的高度。【l 】 1 2 2 国内w e b 信息抽取研究现状 国内对中文信息提取系统的研究起步较晚,还集中在命名实体识别方面。遵照m u c 规 范完整的中文信息提取系统目前还处于探索阶段。i n t e l 中国研究中心在a c l 2 0 0 0 上演示了 他们开发的一个抽取中文命名实体以及实体间关系的系统。在m u c 6 和m u c 7 上,增加 了中文系统的评测项目。国立台湾大学( n a t i o n a lt a i w a nu n i v e r s i t y ) 和新加坡肯特岗数字实验 室参加了m u c 7 中文命名实体识别任务的评测,测试了中文命名实体( 人名、地名、时间、 事件等名词性短语) 的识别,取得了与英文命名实体识别系统相近的性能。当然,这只是对中 文信息抽取作了比较初步的工作,但并不能真正进行中文信息抽取。另外,北京大学计算语 言所对中文信息抽取也作了比较早的系统探讨,承担了两个有关中文信息抽取项目的工作, 即自然科学基金项目“中文信息提取技术研究”和i b m 一北大创新研究院项目“中文信息 提取系统的设计与开发”,其目标是研究中文信息提取中的一些基础性和关键性的问题,为开 发实用的信息提取技术提供了理论指导,并具体探讨了信息提取系统设计的各个环节【i 】。在 基于w e b 的信息抽取方面,现在国内研究有基于预定义模式的包装器【3 】、基于多层模式的多 记录网页信息抽取方法【4 】、基于d o m 的w 曲信息抽取【5 1 和基于本体论的w 曲信息抽取 6 】等。 4 内蒙古大学硕士学位论文 1 3 论文的内容和组织结构 针对人们对于w e b 页面感兴趣信息的有效抽取,本文研究提出了一种基于x m l 的w e b 信息抽取系统,w e b 信息抽取系统旨在对w e b 页面特征分析的基础上,研究如何基于x m l 的相关技术来解决w e b 信息抽取问题,并对抽取结果进行分类存储。为了达到这样的目的, 本文在w e b 信息抽取实现的基础上进行相关工作,给出分析研究的过程和结果,并进行相应 的测试。 本文按照基于x m l 的w e b 信息抽取系统研究设计和实现的逻辑层次,文共分五章。 第一章是本文的绪论,对论文选题背景和研究意义及国内外w e b 信息抽取研究现状进行 了分析概括。 第二章介绍了w e b 信息抽取基本知识和相关技术标准。首先,介绍了w e b 信息抽取概念 和当前存在的几种w e b 信息抽取方法,并分析了典型系统。其次,对w e b 信息抽取相关技术 标准做了简要介绍,它们是:x m l 技术标准,h t m l 、x h t m l 和x m l 的关系,x p a t h 语言, x s l t 技术标准以及d o m 树等。 。 第三章在分析w e b 信息抽取的困难和目标后,介绍了基于x m l 的w e b 信息抽取系统框 架模型,分析了信息抽取的过程,提出了自动学习抽取规则的方法,设计了抽取结果的分类 系统模型,探讨了对分类结果的存储方法。 第四章首先介绍了信息抽取和文本分类的评价标准。其次,在分析w e b 页面特征的基础 上,进行了实验测试,然后对抽取结果和分类存储进行了探讨分析,最终实现了基于x m l 的w 曲信息抽取系统的设计。 厂 第五章对本文工作进行了总结和展望。 基于x m l 的w e b 信息抽取系统研究与实现 第二章w e b 信息抽取基本知识与相关技术标准 2 1w e b 信息抽取基本知识 2 1 1 w e b 信息抽取概念 信息抽取的概念有多种描述方式,1 9 9 7 年p r o t e u s 工程的创建者g r i s h m a n 描述信息抽取 的概念:“信息抽取是为从文本中选择出的信息创建一个结构化的表示形式( 比如:数据库 表) ”,微软亚洲研究院2 0 0 5 年信息抽取技术暑期研讨班将信息抽取的概念描述为:“信息抽 取是抽取和链接基于用户详细说明的相关信息的过程”。结合各种对信息抽取概念的描述,以 及过去2 0 年里一系列的消息理解会议( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ,m u c ) 对信息抽取 技术的讨论,综观各定义,可以将w e b 信息抽取的概念界定为:w e b 信息抽取( w e bi n f o r m a t i o n e x t r a c t i o n :w i e ) 就是从网页文本中抽取指定的一类信息( 事件、事实) 并将其形成结构化的 数据填入一个数据库中供用户查询使用的过程。w e b 信息抽取技术的核心是能够从w e b 页包 含的无结构或半结构的信息中识别用户感兴趣的数据,用更为结构化、语意更为清晰的格式 来表示。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样 的文档中被抽取出来,然后以统一的形式集成在一起。这就是w e b 信息抽取的主要功能。i e 系统中的关键组成部分是本文中将要讲到的配置文件里一系列的抽取规则或模式,其作用是 确定需要抽取的信息的位置。 w 曲信息抽取的内容一般可以分为这样几个方面【9 】: 命名实体的抽取、与模板相关的内容信息抽取、各个实体之间关系的抽取和预置事件的 信息抽取。 命名实体的抽取:它包括组织机构、人名、地名的抽取,时间、日期、钱币和百分数的 抽取、专有名词的抽取、隐含指代名词和集合名词的抽取。命名实体的自动抽取能力已近似 于人工抽取:查准率达到了7 0 以上,查全率也到达6 0 。 模板内容信息的抽取:用户预先设置模板,自动抽取用户关心的详细内容,反映时间、 地点、人物和发生的事件,比如新闻。 实体关系信息的抽取:比如某些疾病的因果关系。 预置事件信息的抽取:比如公司宣布破产、合并的消息、原因等等。事件信息抽取的查 准率目前维持在5 0 巧o 。 6 内蒙古大学硕士学位论文 w e b 信息抽取承接了传统信息抽取技术的研究成果,其核心是将分散在i n t e r n e 上的半结 构化的h t m l 页面中的隐含的信息点抽取出来,并以更为结构化、语义更为清晰的形式表示, 为用户在w e b 中查询数据、数据集成和应用程序直接利用w e b 中的数据提供便利。 2 1 2w e b 信息抽取的方法和存在问题 目前,w 曲信息抽取方法的分类各异【9 】。从w 曲信息源考虑可以分为自由文本的抽取、 半结构化的文本抽取和结构化的文本抽取。从包装器原理考虑可以分为基于层次结构的信息 抽取归纳方法和基于概念模型的多记录信息抽取方法。从自动化程度考虑可以分为人工方式、 半自动化方式和全自动化方式 1 们。从各种信息抽取工具所采用的抽取原理和抽取方式考虑可 以将w e b 信息抽取分为基于自然语言理解方式的信息抽取、基于机器学习方式的信息抽取、 基于o n t o l o g y 方式的信息抽取、基于h t m l 结构的信息抽取和基于w e b 查询方式的信息抽 取【1 1 】。本文从抽取工具所采用的原理考虑对信息抽取方法进行简要介绍【1 2 】。 1 基于自然语言理解方式的信息抽取 基于自然语言理解方式的信息抽取技术通常用于自由文本的信息抽取,利用字句结构、 短语和字句间的关系建立基于语法和语义的抽取规则从而实现信息抽取。采用该原理的典型 系统有r a p i e r 13 1 、s r v 1 4 】和w h i s k 1 5 1 。 r a p i e r 和s r v 只能对单条记录进行抽取,而 w h i s k 可以对多条记录进行抽取。基于自然语言理解方式的信息抽取技术用于w e b 信息抽 取是将w e b 文档视为文本进行处理,没有充分利用w e b 文档不同于普通文本的特性,并且还 需要进行大量的样本学习。 2 基于机器学习方式的信息抽取 基于机器学习方式的信息抽取技术是基于定界符来定位待抽取数据。首先由用户标记样 本实例,然后根据实例自动学习并生成基于定界符的抽取规则。其中定界符是对感兴趣语义 项上下文的描述,从而根据语义项左右边界来定位语义项。采用机器学习方式的典型系统有 s t a l k e r 1 6 】【1 刀【1 8 】【1 9 】、s o f t m e a l y 2 0 和w i e n t 2 1 1 。虽然机器学习能提高获取规则的自动化程 度,但通常也需要大量的样本页面,而且需要经过较长时间的学习,信息抽取才能获得较好 的查准率。 3 基于o n t o l o g y 方式的信息抽取 冽 o n t o l o g y 在哲学中泛指对客观世界的本体描述,在人工智能领域一般指智能系统中涉及 的概念术语及其性质等静态知识的描述。基于o n t o l o g y 方式的信息抽取技术主要是利用对数 据本身的描述信息实现抽取,对网页结构的依赖较少。该系统最大的优点是对网页结构的依 7 基于x m l 的w e b 信息抽取系统研究与实现 赖较少,只要事先创建的应用领域的o n t o l o g y 足够强大,系统可以对某一应用领域中各种网 页实现信息抽取。采用该原理的典型系统有b v u ( s r i g h a my o n gu n i v e r s i t y 信息抽取小组开发 的信息抽取工具例) 、q u i x o t e 2 4 】 2 5 】。 主要缺点是: ( 1 ) 需要领域专家创建基于某一应用领域的详细清晰的o n t o l o g y 知识库,工作量大。 ( 2 ) 由于是根据数据本身实现信息抽取的,因此在减少了对网页结构依赖的同时,增加 了对网页中所含的数据结构的要求。比如要求在被抽取内容中包含时间、日期、号码等有一 定格式的内容。 4 基于h t m l 结构的信息抽取 基于h t m l 结构的信息抽取技术的特点是根据h t m l 的结构特点来定位信息,在进行 信息抽取之前使用相关解析器将w e b 文档解析成语法树,通过自动或半自动的方式产生取规 则,将信息抽取转化为对语法树的操作,从而实现w e b 信息抽取。采用该原理的典型系统有 x w r a p 2 6 】【2 7 1 、l i x t o 2 8 】【2 9 】、w 4 f 、a n d e s 、r o a d r u n n e r 。下面分析了具有代性的几个系统。 w 4 f 3 0 1 是用一组自定义的语言描述网页获取、信息抽取以及到j a v a 程序对象的转换规则。 它使用基于h t m l 树结构的树路径和正则表达式的方法来描述抽取规则,通过树路径对信息 进行精确定位。但是,由于自己设计抽取模式语言,一旦网页结构发生变化,修改变得比较 困难。 a n d e s 3 1 1 使用标准的x m l 和x s l t 技术进行w 曲信息抽取,可以很方便地构造抽取规 则,并且x m l 和x s l t 是被广泛支持的标准语言,功能强大。a n d e s 仅提出了一种简单的 构造抽取规则的方法。本文借鉴了该系统采用x s l t 作为抽取规则描述语言的思想。 r o a d r u n n e r 是完全自动化的信息抽取系统。该系统通过对两个或多个样本页面结构进 行比较,获得该类页面的通用结构模式,从而根据结构模式实现对相似页面的信息抽取, r o a d r u n n e r 使用正则表达式描述抽取规则模板。系统根据结构模式中h t m l 标记间的关系, 以嵌套的形式组织抽取数据。然而,它将信息抽取模式的生成等同为正则表达式归纳问题, 而正则表达式归纳是比较难解的问题。同时,为了归纳出正则表达式,它使用了大量复杂的 启发式搜索算法,使得归纳容易失败。另外,该系统还需要大量的样本训练。 5 基于w e b 查询方式的信息抽取 基于w e b 查询方式的信息抽取技术将w e b 信息抽取转化为使用标准的w e b 查询语言对 w 曲文档进行查询,具有通用性。采用该类技术的典型系统有:w 曲o q l 3 3 l 【3 4 1 和 p q a g e n t t 3 5 】【3 6 】。 内蒙古大学硕士学位论文 信息抽取方法的划分标准有很多,以上所提只是其中一种,所有的w e b 信息抽取方法的 最终目的都是为了最大程度提高信息抽取的准确性、高效性和自动性。性能比较好的信息抽 取要求人为参与多,自动化程度比较低,而自动化程度比较高的信息抽取准确率不高,适应 性较差,所以,一个好的信息抽取方法需要对这两者之间的矛盾进行有效的调节。另外,由 于网页多变性的特点,包装器的生成以及维护也是w e b 信息抽取需要解决的问题。 2 2w e b 信息抽取相关技术标准 2 2 1x m l 的技术标准 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展标记语言) 【3 7 】是由w 3 c ( w b r l dw i d ew 曲 c o n s o r t i u m ,万维网联盟) 制定的一种标记语言,用于对w e b 上有格式的数据进行描述、传 输和操作。以便于软件开发人员和内容创建者在网页上组织信息,其目的不仅在于满足不断 增长的网络应用需求,同时还希望借此功能确保在通过网络进行交互合作时,具有良好的可 靠性和互操作性。 虽然x m l 标准本身简单,但与x m l 相关的标准却种类繁多,w 3 c 制定的相关标准就 有2 0 多个,x m l 确实是一种非常实用的结构化语言,并且已经得到了广泛的应用。 x m l 相关标准体系可分为元语言标准、基础标准和应用标准三个层次【l o 】。 元语言标准:用来描述标准的元语言。在x m l 标准体系中只有x m l 标准是整个体系的 核心,其他x m l 相关标准都是通过其制定的或者为其服务的。 基础标准:这一层次的标准时为x m l 的进一步实用化制定的标准,规定了采用x m l 制 定标准时的一些公用特征、方法或规则。包括d t d 、x m ls c h e m a 、x m ln a m e s p a c e 、d o m ( d o c u m e n to b j e c tm o d e l ,文档对象模型) 、s a x ( s i m p l ea p i sf o rx m l ,x m l 简单应用程 序接口) 、x p a t h 、x l i n k 、x p o i n t e r 、x s l 及r d f ( r e s o u r c ed e s c r i p t i o nf o r m a t ,资源描述框 架) 等。 应用标准:x m l 已经开始被大家广泛接受,大量的应用标准,特别是针对i n t e r n e t 的应 用标准纷纷采用x m l 进行制定。包括x h t m l (
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 泰山版五年级下册信息科技第二单元美德少年算法评全课教学设计
- 消防治安检查问题反馈单
- 幂的运算(提高)知识讲解
- 精神科护理学基础课件
- 广东省湛江市2026届高三压轴卷语文试卷含解析
- 陕西省西安市行政职业能力测验公务员考试行测应考难点精析
- 医学26年:出国进修要点解读 查房课件
- 危险化学品作业人员氯化工艺证考试练习题(调整)
- 【业务拓展主管(某大型央企)面试题试题集详解】
- 【2025年】商丘市高校毕业生三支一扶考试真题解析《综合知识》
- OTA运营培训课件
- T/CHES 43-2020水利水电工程白蚁实时自动化监测预警系统技术规范
- 烟草入职培训大纲
- 针灸治疗学-蛇串疮(带状疱疹)
- 第七单元跨学科实践活动6调查家用燃料的变迁与合理使用课件九年级化学人教版(2024)上册
- 六年级下册数学试题-比例-单元测试卷-人教版(含答案)
- 教师与小学生“一对一”谈心谈话记录表及文字内容
- 《江蓠栽培学》课件
- 北京长城的历史简介和资料500字
- 注册测绘师《测绘综合能力》题库(660题)
- 《简单教数学》读书心得
评论
0/150
提交评论