(模式识别与智能系统专业论文)基于语义和版式的网上人物信息提取.pdf_第1页
(模式识别与智能系统专业论文)基于语义和版式的网上人物信息提取.pdf_第2页
(模式识别与智能系统专业论文)基于语义和版式的网上人物信息提取.pdf_第3页
(模式识别与智能系统专业论文)基于语义和版式的网上人物信息提取.pdf_第4页
(模式识别与智能系统专业论文)基于语义和版式的网上人物信息提取.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(模式识别与智能系统专业论文)基于语义和版式的网上人物信息提取.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着i n t e m e t w e b 技术的快速普及和迅猛发展,w e b 上的数据容量空前增长, 成为世界上最大的数据源。但对某一用户而言,真正有用的信息却是少量的。这 就是所谓的r i c hd a t ap o o ri n f o r m a t i o n 问题。由此产生了w e b 信息抽取技术,现 已成为当前研究热点之一。 本文采用基于规则和统计相结合的信息抽取算法,同时利用本体( o n t o l o g y ) 思想,对需要抽取的数据进行描述,进而再生成规则,开发了人物信息抽取系统 p e o p l e l n f o a b s t r a c t ,实现了半结构化人物信息的自动提取。 该系统分为网页采集模块、网页预处理模块、信息抽取模块、检索模块四大 模块。网页采集模块首先界定了本文的研究对象,对研究对象进行定义和分类, 接着从范围、数量、原则、方法四个方面介绍了采集标准。网页预处理模块通过 将h t m l 文档解析成d o m 树,实现了两种预处理方法:提取网页正文区和去 掉所有h t m l 标签。该模块采用海量科技开发的版式分析来得到网页的正文区。 信息抽取模块实现了半结构化人物信息的自动提取。通过在大语料中对人物的字 段名( 即人物属性名) 进行程序统计,创建了一个字段名词典,该词典共收录了 4 6 2 4 个有效字段名。通过对提取出的字段名采用查字典的方式进行有效性检验, 当字段名有效时再提取其对应的字段值,否则不提取,大大提高了信息提取的准 确率。该算法将字段值分为短字段值和长字段值,采用不同的提取规则。对于字 段值的有效性检验,本文采用本体( o n t o l o g y ) 思想,对需要抽取的字段值数据 进行特征描述,生成有效性检验规则,进而来判断字段值的有效性。检索模块实 现了按姓名对抽取到的人物信息进行查询和浏览。 通过对系统测试,平均准确率和召回率达到9 0 以上,并且适应性良好。 关键词:w e b 信息抽取,抽取规则,d o m 树,x m l ,半结构化网页,版式分析 a b s t r a c t w i t ht h er a p i dp o l a r i t ya n dd e v e l o p m e n to ft h ei n t e m e to rw e bt e c h n i q u e ,t h e r e i sa l le v e r - i n c r e a s i n gv o l u m eo fd a t ap u b l i s h e di nw e b t h ew o r l dw i d ew e bh a s a l r e a d yb e c o m et h eb i g g e s ti n f o r m a t i o nr e s o u r c e s b u tf o rap a r t i c u l a ru s e r ,t h eu s e f u l i n f o r m a t i o ni sl i t t l ec o m p a r e dw i t ht h eh u g ew e b t h i si st h ep r o b l e mo ft h es oc a l l e d r i c hd a t ap o o ri n f o r m a t i o n t h ep h e n o m e n o nr e s u l t si nt h ei n f o r m a t i o ne x t r a c t t e c h n i q u ef r o mw e b ,w h i c hi sb e c o m i n go n e o ft h eh o tr e s e a r c h e sr e c e n t l y t h i sp a p e ra d o p t st h ei ea l g o r i t h mb a s e do nt h ec o m b i n i n go fr e g u l a t i o n sa n d s t a t i s t i c s ,t o g e t h e rd e s c r i b e st h ee x t r a c t e di n f o r m a t i o nu t i l i z i n gt h ei d e ao ft h e o n t o l o g yt og e n e r a t et h ee x t r a c t i n gr e g u l a t i o n s t h ei es y s t e mf o rp e o p l ei n f o r m a t i o n c a l l e dp e o p l e i n f o a b s t r a c ts y s t e mh a sb e e nd e v e l o p e 也w h i c ha c c o m p l i s h e st h e a u t o e x t r a c t i n gi n f o r m a t i o nf r o mt h es e m i - s t r u c t u r ep e o p l ew e bp a g e t h i si es y s t e mi sc o m p o s e do ff o u rm o d u l e s :t h ew e bp a g ec o l l e c t i n gm o d u l e , t h ew e bp a g ep r e p r o c e s s i n gm o d u l e ,t h ei em o d u l ea n dt h es e l e c t i n gm o d u l e t h e w e bp a g ec o l l e c t i n gm o d u l ed e f i n e st h i sp a p e r sr e s e a r c ho b j e c ta n dc l a s s i f i e si tf i r s t l y , t h e ni n t r o d u c e st h ec o l l e c t i n gc r i t e r i o nf o l l o w i n gt h er a n g e ,q u a n t i t y , p r i n c i p l ea n d a p p r o a c h t h ew e bp a g ep r e p r o c e s s i n g m o d u l e a c c o m p l i s h e s t w ow a y so f p r e p r o c e s s i n gt h a ta r ee x t r a c t i n gt h ew e bp a g eb o d ya r e aa n dr e m o v i n ga l lt h eh t m l t a g sb ya n a l y z i n gh t m lf i l e st od o mt r e e s t h i sm o d u l eu s e st h ew e bp a g ef o r m a t a n a l y z i n gd e v e l o p e db yh y l a n d at og e tt h ew e bp a g e sb o d ya r e a t h ei em o d u l e a c c o m p l i s h e s t h ea u t o - e x t r a c t i n gi n f o r m a t i o nf r o mt h es e m i s t r u c t u r ep e o p l ew e b p a g e i te s t a b l i s h e daf i e l dn a m ed i c t i o n a r yw h i c hc o n t a i n sf o u rt h o u s a n d sa n ds i x h u n d r e d sa n dt w e n t yf o u re f f e c t i v ef i e l dn a l t l eb yp r o g r a ms t a t i s t i cp e o p l ef i e l dn a m e s f r o mt h eh u g ec o r p u s t h ep r e c i s i o no ft h ei ei sg r e a t l yr a i s e db yc h e c k i n gt h e e x t r a c t e df i e l dn a m ew i t ht h ef i e l dn a m ed i c t i o n a r y t h i sa l g o r i s mc l a s s i f i e st h ef i e l d v a l u ei n t ot h es h o r tf i e l dv a l u ea n dt h el o n gf i e l dv a l u ew h i c hu s ed i f f e r e n te x t r a c t i n g r u l e t h i sp a p e ra d o p t st h eo n t o l o g yi d e at oc h e c kt h ef i e l dv a l u eb yd e s c r i b i n gt h e c h a r a c t e ro ft h ee x t r a c t e df i e l dv a l u et og e n e r a t et h ec h e c k i n gr u l ev a l i d i t y t h ea v e r a g ep r e c i s i o na n dr e c a l lb o t hr e a c ht o9 0 o ra b o v eb yt e s t i n gt h e s y s t e mw h i c hh a sag o o da d a p t a b i l i t y k e y w o r d s :t h ew e bm ,i er e g u l a t i o n s ,d o mt r e e ,x m l ,t h es e m i - s t r u c t u r ew e b p a g e ,t h ew e bp a g ef o r m a ta n a l y z i n g 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得云洼王些太堂或其他教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示了谢意。 学位论文作者签名:邀弘 签字日期:徊苫年2 月胡日 学位论文版权使用授权书 本学位论文作者完全了解云洼王些太堂有关保留、使用学位论文的规定。 特授权云洼王些太堂可以将学位论文的全部或部分内容编入有关数据库进行 检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学 校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:热j 呶 签字日期:沙霹年z 月2 一寥日 新虢匆心 签字日期:加o ? 年2 月龆日 学位论文的主要创新点 一、提出了切实可行的语料采集标准,包括采集范围、采集数量、 采集原则和采集方法四个方面。 二、开发了一套半格式化人物网页的信息提取规则,尤其是对长 字段值的提取,效果明显。 第一章绪论 1 1 研究背景 第一章绪论 随着i n t e m e t 的普及和发展,w e b 数据容量的空前增长,人们越来越依赖于 w e b 来获取信息。我们可以随时从w e b 上查找所需要的信息,w e b 作为一个庞 大的资源库,给我们的学习和生活带来了巨大的便利。目前,w e b 的信息容量已 超过g o p h e r 和w a i s 而成为全球最大的信息系统。 而相对于这海量的数据,对于某一个用户而言,真正有用的信息却是少量的, 大部分都是无用的信息。这也就是所谓的砒c hd a t a p o o ri n f o r m a t i o n 问题。虽然 搜索引擎的出现极大地方便了人们获取信息,但是信息定位仍不是很准确,用户 需要从返回的大量文档中选择最相关的文档,并阅读其全文,才能找到自己需要 的信息。 w 曲数据的描述方式是这一问题产生的根本原因。现有的w e b 网页大部分 是由超文本标记语言( h y p e r t e x tm a r k u pl a n g u a g e ) 描述的,其内容是h t m l 标 签和由h t m l 标签标记了的文本,这种描述方法主要是为了显示( 浏览器负责 显示) ,缺乏语义信息和模式信息,使得应用程序无法直接处理w e b 网页。 x m l 的出现从一定程度上解决了这一问题。它支持用户自定义文档标记, 用有序的、嵌套的元素组织有一定结构的数据。和h t m l 相比,x m l 是面向内 容的,它具有更多的结构和更多的语义,良好的可扩展性等特点,已经成为数据 组织和交换的事实标准。其标记对于人和机器都具有可读性,增强了w e b 信息 处理的自动化程度。但是x m l 不是万能的,一方面它需要一个统一的资源描述 方案( ,d t d 或x m l s c h e m a 等) ,对于w e b 上各种各样的内容,要想制定 一个统一的资源描述方案是不可能的;另一方面,已有的h t m l 网页也不可能 在短时间内都转换为x m l 格式。 w e b 信息抽取技术研究正是在这种背景下兴起的。信息抽取( i n f o r m a t i o n e x t r a c t i o n ) 是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。 它的目标是在一定领域范围的多个文本里识别和提取出用户感兴趣的信息点,将 信息以统一的形式集成在一起。信息以统一的形式集成在一起的好处是方便比 较,例如比较不同的招聘和商品信息,二是能对数据作自动化处理。西方发达国 家都十分重视信息抽取技术的研究和应用,把它列为与信息检索、文档归类和摘 要等并重的语言工程项目,开展了有计划的、长期的、系统的信息抽取研究与应 用工作。w e b 信息抽取是继承传统信息抽取技术的研究成果,以w r e b 页面为研 第一章绪论 究对象的一类信息抽取技术。 w e b 信息抽取技术很好的解决了上面提到的问题。比如,我们可以利用信息 抽取技术来实现元搜索,通过从全文检索返回的结果页中提取关键信息点,来提 供更精确的检索效果。当然,w e b 信息抽取除了应用于w e b 信息检索领域外, 还为w e b 数据挖掘、信息代理等提供了有益的基础。w e b 信息抽取为w e b 数据 增加了语义和模式信息,极大地方便了w e b 数据挖掘。信息代理从大量的资源 网站收集资源,然后根据用户的需求或兴趣过滤和转换信息,再将处理后的信息 发送给用户。w e b 信息抽取正好解决了各个资源网站的异构性,使得各个资源网 站的信息可以集成在一起。总之,w e b 信息抽取为海量的w e b 信息的再利用提 供了可能,因此有着明显的优势和广阔的应用前景,是当今的一个研究热点。 1 2 发展历史和研究现状 信息抽取( ) 的研究起源于2 0 世纪9 0 年代初,主要是由t i p s t e r 的消 息理解会议( m u c ) 发起的。m 的前身是文本理解,在出现之前,已经有大 量的关于自然语言处理的研究和系统。信息抽取原来的目标是从自然语言文档中 找到特定的信息,是自然语言处理领域特别有用的一个子领域。所开发的信息抽 取系统既能处理含有表格信息的结构化文本,又能处理自由式文本( 如新闻报 道) 。但这些系统通常只能处理一个很狭窄领域的文本,很难移植到新的领域。 信息抽取技术是近二十年来发展起来的。其中有两个因素对其发展有重要的 影响:一个是在线和离线文本数量的几何级增加,另一个是“消息理解研讨会” ( m u c ) 近十几年来对该领域的关注和推动。 m u c ( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ,消息理解会议) 由美国国防高 级研究计划委员会d a r p a 资助,对信息抽取技术进行评测。各届m u c 吸引了 许多来自不同学术机构和业界实验室的研究者参加信息抽取系统竞赛。每个参加 单位根据预定的知识领域,开发一个信息抽取系统,然后用该系统处理相同的文 档库。最后用一个官方的评分系统对结果进行打分。从1 9 8 7 到1 9 9 7 年之间共召 开七届,它面向新闻信息提取,每届都设定特定的目标场景,主要处理的是英文, 后两届加了中文。 m u c 有五大评测任务,分别是命名实体识别( n a m e de n t i t y ) 、同指关系消 解( c o r e f e r e n c e ) 、模板元素填充或叫实体属性抽取( t e m p l a t ee l e m e n t ) 、模板 关系确定或叫实体关系抽取( t e m p l a t er e l a t i o n ) 、场景模板填充( s c e n a r i o t e m p l a t e ) 。命名实体识别( n a m e de n t i t y ) 的任务是识别出文本中出现的专有名 称和有意义的数量短语并加以归类。一般指的是三大类( 实体类、时间类和数字 第一章绪论 类) 、七小类( 人名、地名、机构名、时间、日期、货币和百分比) 命名实体。 在面向新闻领域信息提取时,也涉及武器、交通工具等特殊实体;同指关系消解 ( c o r e f e r e n c e ) 的任务是识别出文本中具有同指关系的名词、名词短语和代词 ( m u c 的定义) ;实体属性抽取( t e m p l a t ee l e m e n t ) 是从文本中识别出特定类 型实体的属性特征,填充到预先定义的实体属性模板,形成实体对象,例如:对 人物实体的模板元素,抽取出预先定义的人物的名称、职务、国籍等属性;实体 关系抽取( t e m p l a t er e l a t i o n ) 是从文本中找到指定类型的关系,以及充当该关 系的两个论元的提及及其所指称的实体。其前提是实体提及识别以及提及同指链 接。关系识别一般是作为一个分类任务来处理;场景模板填充( s c e n a r i o t e m p l a t e ) ,即事件的提取,针对某一场景中设定的一些槽从文本中提取相应的 内容进行填充。 研究成果已经非常诱人。英语和日语姓名识别的成功率达到了人类专家 的水平。通过m u c 用现有的技术水平,我们已有能力建造全自动的系统。 在有些任务方面的性能达到人类专家的水平。不过自1 9 9 3 年以来,每届最高组 别的有些任务,其成绩一直没有提高( m u c 的任务一届比一届复杂) 。一个显著 的进步是,越来越多的机构可以完成最高组别的任务。这要归公于技术的普及和 整合。目前,建造能达到如此高水平的系统需要大量的时间和专业人员。另外, 目前大部分的研究都是围绕书面文本,而且只有英语和其他几种主要的语言。 但是m u c 的这种信息抽取方式有很大的领域局限性。根据信息抽取模板生 成信息抽取规则这个过程往往需要大量人工劳动,信息抽取技术无法推广到大规 模、实用化的应用中;需要研发适应性更强的信息提取技术:可扩展的信息抽取 系统( p o r t a b l em ) 。 另外一个促进m 发展的是a c e ( a u t o m a t i cc o n t e n te x t r a c t i o n ) ,是由美国 标准技术研究所n i s t 组织,从2 0 0 0 年开始到现在已经进行了五次评测,主要 面向新闻领域的文本,抽取其中的实体、关系、事件。它的目标是希望建立鲁棒 性的、自适应的信息提取方法。给定一些语言数据,系统就快速构建所需要信息 提取系统。a c e 与m u c 的区别是a c e 是以对象( o b j e c t ) 为单位进行信息抽取, 而m u c 是以词语为单位进行信息抽取。 第一章绪论 a c e 的任务可用图i - 1 来表示 图卜1 a c e 任务图 随着w e b 的出现和繁荣,研究人员逐渐将兴趣转移到w e b 信息抽取的研 究上,涌现了许多算法和系统。其中最知名的研究项目是卡耐基梅隆大学“自 动学习和发现中心( c e n t e r f o r a u t o m a t e d l e a r n i n g a n d d i s c o v e r y ) ”的“w e b 挖掘” 项目。该项目的目标是通过自动的从w e b 中提取事实,来创建大型的、结构化 的有用事实的数据库。他们的技术途径是研究机器学习算法,通过训练,能够自 动提出信息。他们已经开发了许多学习算法,包括:f i r s t - o r d e r 规则学习算法和 文法推断算法( c , r a m m a r i n f e r e n c e ) 等。 最近几年,研究人员借鉴其他领域成功的模型或方法,推动了w e b 信息抽 取技术的进展。归纳逻辑编程( 1 l p ) 、最大熵模型、隐马尔可夫模型、条件随机 场等在信息抽取中得到初步应用,取得了较大的成功。 1 3 本文主要内容 本文处理的对象是含有人物信息的网页。在海量科技开发的自动分词和版式 分析的基础上,通过语义和规则的方法自动地抽取网页中的人物信息。 鉴于人物网页数目繁多,类型多样,通过大量浏览人物网页并分析其数据规 律,按照抽取方法和难易程度,本文将网上人物信息分为三类,分别是结构化网 第一章绪论 页、半结构化网页、非结构化网页。( 有关三种人物网页类型的定义在第四章给 出) 。 由于时间关系,本文只选择半结构化网页作为处理对象,实现了特定类型网 页的信息抽取系统。 系统的逻辑结构如图1 2 所示: 图1 - 2 系统逻辑结构图 整个系统可以分为语料采集模块、网页预处理模块、信息抽取模块和检索模 块四大模块。 语料采集模块:语料是信息抽取的基础,如果语料采集的不全面,在此语料 上开发的信息抽取系统适应性将会变差。鉴于语料的重要性,本文从可操作性方 面制定了一套语料采集标准,包括采集范围、采集数量、采集原则、采集方法这 四个方面。从这四方面详细论述语料的采集。 网页预处理模块:网页预处理是指去掉h t m l 文件中的标签和网页中的“噪 音信息,比如上面的导航栏,左侧或右侧的超链接,下面的广告等,只留下标 题和正文( 包括正文中的图片) 。如果直接处理网页源文件,即h t m l 网页,将 会增加信息抽取的难度,降低准确率,而且处理速度也会变慢。 本文提供两种预处理接口:一是先定位到正文区,二是去掉所有标签。 该模块调用海量科技开发的版式分析动态链接库,得到h t m l 网页的纯文 字信息和正文区内容。 人物信息抽取器:这个模块输入的是含有人物信息的文本,输出的是人物各 个字段( 值) 的x m l 文档,实现了将半格式化的w e b 数据转化为结构化的数据 库数据。转化为数据库数据后,就可以方便地对其作各种处理,比如最常用的数 据库操作:检索等。 在这个模块中,需要调用海量分词模块。当文章中没有显性出现姓名时,而 第一章绪论 姓名是一个人物必须具备的属性,不能缺少。对于这种情况,本文采用对文章分 词,得到每个词的词性标注,比如人名、地名、组织机构名等( 海量分词提供) 。 如果文章中只出现一个人名,那么该人名就是这个人物的姓名;如果文章中出现 多个,本文选择第一个作为人物的姓名,因为一般介绍人物时都会先提及姓名; 如果文章中没有找到人名,本文将该人物信息舍弃。 本文采用的信息抽取算法是基于规则的方法,同时利用本体( o n t o l o g y ) 思 想,对需要抽取的数据进行描述,进而再生成规则。对提取出来的字段名采用语 义的方式进行有效性检验,即利用字段名词典,该词典共收录了4 6 2 4 个人物有 效字段名。 检索接口:用户可以对本系统提取的信息进行各种检索,如按照人名检索, 检索接口返回数据库中所有相关信息。 在系统实现了基本功能之后,本文又花了不少时间对系统进行测试,重点测 试抽取模块的性能,从准确率和召回率两个方面来衡量信息抽取的结果。通过测 试发现错误,进而改进算法,反复循环,最终使得系统获得了较高的准确率和召 回率。 第二章w e b 信息提取技术综述 第二章w e b 信息提取技术综述 信息提取( i n f o r m a t i o ne x t r a c t i o n ) 是指从一段文本中抽取指定的一类信息( 例 如事件、事实) 、并将其( g d 成结构化的数据) 填入一个数据库中供用户查询使 用的过程l l j 。例如从一篇关于自然灾害的新闻报道中摘录出灾害的类型、时间、 地点、人员伤亡、经济损失、救援情况等;或从产品发布的新闻语料中提取某产 品的各种感兴趣的指标,例如计算机网络交换器的协议类型、交换速率、端口数、 软件管理方式等。 信息抽取是自然语言处理领域的一个子领域。它涉及到两个方面的因素,即 用户指定感兴趣的信息和待分析的文本集和系统过滤文本集并以一定的格式输 出匹配的信息。信息提取利用自然语言处理技术,使用基于语法或语义特征,可 以对表格形式的结构化文本和自由式文本( 如新闻报道) 进行处理。 与信息提取相关的信息处理技术有信息检索、自动文摘、文本理解等,但是 他们之间有很大的差异。 首先,信息检索只是找出满足一定检索条件( q u e r y ) 的整篇文档或段落,而人 们仍然必须阅读所找到的每一个文档或段落才能获得所需要的信息。虽然信息检 索的模型和技术还一直在不断地发展更新,但其基本目标始终是文档与检索条件 的接近程度。自然地,也可以认为信息提取是信息检索的更进一步。信息提取不 仅查找信息,而且替用户理解信息,并按用户指定的方式输出信息。可以说,信 息提取是”更高级的信息检索”。 其次,信息提取与自动文摘和文本理解也有实质的差别,即信息提取是对一 个预先定义好的信息模板进行填充,是一种高度受限的信息处理过程;而自动文 摘和文本理解则没有预先规定目标的特性,需要对多种多样的内容进行分析和处 理。相对而言,信息提取技术更注重工程性和可操作性,希望通过使用一定程度 的语言处理技术进行相当多的信息发现和提取工作,以满足某些基本的应用需 求。 信息提取技术具有非常广泛的应用领域。首先,它可以应用于传统的信息检 索系统之中,在信息检索之后对相关的文本进行指定信息的提取,使单纯的信息 查找过程进一步变成信息匹配( 理解) 过程,从而把传统的信息检索系统变成智能 系统,以用户更满意的方式输出信息。例如,大型联机检索系统、图书情报检索 系统、i n t e r n e t 网页搜寻引擎等,都可以通过引进信息提取技术来进行改进,或 把信息提取作为辅助功能供用户选用。其次,信息提取技术也可以集成到一些数 第二章w e b 信息提取技术综述 据库应用系统( 例如产品介绍信息、公司机构名录、分类广告信息、光盘图书报 刊阅读等应用系统) 中,作为由非结构化的文本自动生成结构化数据( 例如x m l 数据) 的前端工具,使用户能够快速方便地提取某类指定信息。最后,信息提取 也可以做成独立的应用系统,直接用于各种文本信息的处理过程之中,例如在办 公文档处理、报刊处理、字处理与校对过程中,由用户指定信息来源,直接进行 信息提取操作。 w e b 文档是一种半结构化的文本,一种界于自由文本和结构化文本之间的数 据,通常缺少语法,也没有严格的格式。因此,对于w e b 文档进行信息抽取不 能单纯地使用自然语言处理技术,也不能使用处理结构化文本的简单的规则进行 处理。需要一种新的w e b 信息抽取技术。 从网站中抽取信息的工作通常由一个叫做“分装器”( w r a p p e r ) 的程序完成。本 章将从分装器的基本生成方法,w e b 网页特征,抽取规则表达,常用抽取算法等 方面全面解析w e b 信息抽取技术。另外本章还将介绍w e b 信息抽取系统的评价 标准和典型的信息抽取系统等。 2 1 分装器的三种生成方法【2 】 分装器是一个程序,用于从特定的信息源中抽取相关内容,并以特定形式加 以表示。在数据库环境下,分装器是软件的组成部分,负责把数据和查询请求从 一种模式转换为另外一种模式。在i n t e m e t 环境下,分装器的目的是把网页中储 存的信息用结构化的形式储存起来,以方便进一步的处理。 因特网分装器可接受针对特定信息源的查询请求,并从该信息源中找出相关 的网页,然后把需要的信息提取出来返回给用户。它由一系列的抽取规则以及应 用这些规则的计算机程序代码组成。通常,一个分装器只能处理一种特定的信息 源。从几个不同信息源中抽取信息,需要一系列的分装器程序库。分装器的运行 速度必须很快,因为它们要在线处理用户的提问。它还要能应付网络经常变化、 运行欠稳定的特点。比如,网络连接失败、文档格式混乱、格式变化等。 一般来说,有三种方法生成分装器,分别是手工、半自动、全自动生成分装 器。 2 1 1 手工生成分装器 t s i m m i s 和a r a n e u s 系统就是采用手工构造方法。该方法通常需要花很 多时间理解文档的结构,编写针对此结构的代码。可以利用工具帮助手工生成分 装器,使用的方法之一是利用描述性语法对网页结构进行描述,并且提供工具生 第二章w e b 信息提取技术综述 成代码。不过编写语法本身就是一项费时的工作,而且需要高水平的专家。 这种方法的缺点是费时费力,比较烦琐而且容易出错,另外可移植性差,当 处理对象发生变化时,分装器就得重新编写。对于网上信息源来说,这个缺点更 为明显,因为新的信息源不断增加,旧的信息还会改变。因此,自动生成分装器 技术变的非常重要。 2 1 2 半自动化生成分装器 这种技术得益于上述手工生成分装器的支持工具。一种方法是使用向导让用 户告诉系统那些信息是需要抽取的。通过图形界面,用户标示出需要抽取的区域。 这种方法在分装器编码过程中不需要专业知识,而且比手工编码产生的错误 少。但是,用这种方法也需要对新的站点进行重新的学习,因为它不能自己学习 新的网站结构,也不能处理旧网站的结构变化。例如,l i x t o ,w 4 f 等系统就是采 用半自动化方法生成分装器。 2 1 3 全自动生成分装器 该方法采用机器学习方法,系统必须通过学习阶段,从例子中归纳出规则。 通常,这个过程是由人工指导的,也就是说即使是全自动的方法也需要人工专家 的少量参与。例如,i 沁a d r u n n e r , w r a p p e ri n d u c t i o n 等系统就是采用全自动方法 生成分装器。 用于的机器学习方法有很多,如符号化学习法,i l p ( 归纳逻辑设计法) , 分装器归纳法,统计法和语法归纳法。 分装器归纳法是一种自动构造分装器的技术。其主要思想是用归纳式学习方 法生成抽取规则。用户在一系列的网页中标记出需要抽取的数据,系统在这些例 子的基础上归纳出规则。这些规则的精确度如何取决于例子的质量如何。如果能 代表那些需要处理的网页,那么,这些例子就是高质量的。 在最高层次,归纳学习法是从一些实例中完成未知目标概念的计算任务,是 对现象的一种概括。主要思路是,如果归纳出来的规则能解释观察到的实例,或 者在新事例出现时能做出准确的预测,那么,这种归纳是成功的。在分类、知识 获取、知识发现等任务中被证明是有用的。 归纳学习法是通过推论来完成的。推论是一种从部分到整体、从个别到一般、 从个体到普遍的推理过程。老师提供几个实例给学生,学生则从中归纳出普遍适 用的规则。人类的学习是基于实验性的观察过程中的,对于我们来说,提供好的 观察事例要比提供明确的完整的规则要容易。总的说来,归纳式学习法是一种建 立在假设的基础上的研究方法。 第二章w e b 信息提取技术综述 i l p 的研究介于机器学习和逻辑编程两种传统研究领域之间。许多其他的机 器学习算法均限定于处理有限的基于特征表达的例子和概念,而不能处理复杂的 关系型和递归型知识。但i l p 借助一阶逻辑的表达能力,可以学习关系和递归概 念。i l p 还可以学习更丰富的表达式和比决策树更复杂的概念,因此,已应用于 解决从包含复杂结构和关系的文档中抽取信息的学习中。 i l p 算法采用两种不同的归纳方法:一是自下而上( 概括) ,另一是自上而 下( 具体化) 。自下而上的方法是数据驱动的。先选择几个例子,在此基础上提 出一个假设,使之能处理这些例子。然后把这个假设推而广之,使之能处理其余 例子。自上而下的方法则先从最普遍的假设开始,通过引入反例,把假设规则不 断具体化。总的说来,自上而下算法可以归纳出一大类的逻辑程序,但需要相对 多的样例。而自下而上算法有为数不多的例子就行了,但只能归纳出一小类的程 序。 2 2w r e b 网页特征 w e b 信息抽取是处理对象是w e b 文档的信息抽取,w e b 网页不同于传统的 文本文档,具有以下特点l j j : 1 、w e b 网页包含的信息是由无结构的或半结构的数据组成,这些数据源不 像传统的关系数据库有明确的模式信息,它们可以没有模式信息来约束和描述这 些数据。 2 、w e b 网页是动态的。w w w 数据源的数量,数据源的组织结构,数据源 的内容和数据源的含义经常发生变化。因此,我们发现在w w w 上定位确定的 信息是困难的。 3 、分析获取w e b 网页中的信息是很困难的。这是由于w e b 信息是异构和超 文本的,一些包含文本,而另一些包含图象、声音或视频,这些数据以不同的格 式管理和表现。 4 、w e b 网页是大量的。据估计被索引的w e b 网页有6 亿页,包含6 t b 的 文本数据。人们通过w e b 搜索感兴趣的信息,例如新闻、产品信息、研究资料 和旅游交通信息等,尤其是电子商务的蓬勃发展,w e b 作为电子商务的平台,信 息量更是剧增。 5 、w e b 文档的组织结构可以表达一定的信息。为了更好的便于人们的浏览 和发布数据,w e b 网页在结构上有一定的规律和一致性,为信息的处理提供了一 定的途径。 与传统文本相比,w e b 页面具有的这些特征,使得w e b 信息抽取不同于普 第二章w e b 信息提取技术综述 通文本的抽取。w e b 页面数量多,内容繁杂,格式各异,更新快等这些特点使得 信息抽取面临更多的挑战,同时又促进了w e b 信息抽取的发展。为了使w e b 信 息抽取能充分利用w e b 页面的特征,避免使用复杂的语言学知识,我们有必要 对w e b 页面进行深入分析。 当前的w e b 页面主要是h t m l 格式,这种格式的页面包含两种元素:h t m l 标签( t a g ) 和关联文本。关联文本是用户实际看到的内容,而h t m l 标签用于 组织关联文本和指导关联文本的输出格式,是面向显示的。h t m l 标签中还可以 附加一些属性( a t t r i b u t e ) ,用于详细描述该标记的细节特征。w e b 页面间通过超 链接( h y p e r l i n k ) 联系起来,构成了一个包罗万象的w e b 网。 由于h t m l 文档中含有大量的标签,有些类型网页的标签出现有一定规律 可循,另外有少数标签具有语义特征,如 , , 标签中的内容一 般对整个文档的语义起概括作用,因此,可以利用这些标签进行抽取信息的定位, 也可以利用文本所在标签的父标签等。 2 3w e b 信息抽取规则表达 抽取规则是指人工总结或由样本学习获得的对目标信息进行抽取的知识。在 现有的w e b 信息抽取系统中,抽取规则一般有两种表示方式:( 1 ) 有限状态自 动机;( 2 ) 一阶逻辑规则。 2 3 1 有限状态自动机 以有限状态自动机表示的抽取规则是待识别的文本片段的文法模型。如果文 本片段能使有限状态自动机达到终态,则该文本片段是目标信息。有限状态自动 机的输入符号是特征化后的文本符号序列。 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ) 是最近几年应用最广泛的抽取规 则表达模型。它是一种随机的有限状态自动机。由于h m m 有成熟的学习算法和 坚实的统计基础,所以在信息提取中是一种成功的模型。 与有限状态自动机相对应的是各种类型的形式文法。也可以用各种形式文法 ( 如上下文无关文法、正则文法等) 来表示抽取规则。 2 3 2 一阶逻辑规则 一阶逻辑语言比起命题逻辑语言( 零阶逻辑) ,表达能力大增,它引入了量 词、变元,能处理命题逻辑不能处理的推理。 在命题逻辑中,简单命题的逻辑形式是不可分析的,这样,命题逻辑不能包 第二章w e b 信息提取技术综述 括所有的逻辑规律。如下面的推理: 前提:所有自然数有大于它的素数; 前提:2 1 0 0 是自然数; 结论:2 1 0 0 有大于它的素数。 这个推理是由两个不同的简单命题推出另一个不同的简单命题,这在命题逻 辑中是不成立的。但这个推理却是正确的,它可以由阶逻辑推理h 实现。 利用一阶逻辑,可以很方便的表达基于w e b 文档特征的抽取规则。 如在s r v 5 算法中,用了5 种形式的规则,其中,有一条是: s o m e ( v a t , p a t h ,f e a t ,v a l u e ) v a t 是一个变元,p a t h 是关系特征,f e a t 是符号特征,v a l u e 是f e a t 的一个 合法值。 比如: s o m e ( ? a ,【】,a l u o w e r c 嬲e ,t r u e ) 用一阶逻辑表达式可以表示为: d a f a a l l _ l o w e u c 勰e ( a ) = t r u e 其含义是文本片段包含某个t o k e na ,a 中只包含小写字母字符。 2 4 常用w e b 信息抽取算法 目前,常用的w e b 信息抽取算法有以下四种: 2 4 1 基于统计机器学习的信息抽取算法【6 】 这种统计机器学习方法有两大基本问题:建立模型和特征选择。 建模的一般任务是首先建立一个装置以模拟一个特定的任务或过程,然后对 这个模型的的每个参数进行估计以实例化该模型,这些模型的参数值经常需要通 过已标注语料对其进行估计。在建立模型时,有两个相互影响的问题需要着重考 虑:怎样参数化一个模型和怎样估计模型的参数值。 统计学习中的特征选择主要有四种策略:第一种策略称为“包装器方法” ( w r a p p e r - a p p r o a c h ) ,它的思想是先生成不同特征子集,然后通过执行学习算法 和测量结果分类器的准确性对各个子集进行评估。各个特征子集一般通过前向选 择或后向删除方法来生成;第二种策略是将所有可能的特征包含到模型中,但对 模型中的参数值引入一个惩罚值,这将导致与无用特征相关的参数将变得非常 小,甚至可能为0 ;第三个策略是计算特征的某种相关性,然后删除相关性低的 特征。测度特征相关性的一个最简单的方法是计算一个特征和某类别的互信息 第二章w e b 信息提取技术综述 v j 。不过,这种相关性测度方法却不能捕捉特征之间的交互性。另外几种方法已 经被提出用于确定这种特征间的交互性,如r e l i e f f h j ,马尔可夫毯( m a r k o v b l a n k e t s ) p 1 等方法;第四个策略是先拟合一个简单的模型,然后分析这个被拟合 模型以确定相关的特征。例如c h o w 描述了一个高效的算法用于对一个数据集拟 合一个树结构的贝叶斯网络i l ,这个网络可以被用来分析以删除对类别影响较 小的特征。 , 近几年来在国外,机器学习方法在信息抽取领域的应用研究受到了广泛的关 注,主要有以下三种统计模型: 1 、隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) i l l - 1 3 j h m m 是一种随机的有限状态自动机,已成功应用于语音识别、手写体识别 等领域。h m m 最近几年被引入到信息提取中,已经得到了成功的应用。h m m 有非常适合自然语言处理的统计基础,对于新数据的处理有良好的鲁棒性,并且 有成熟的学习算法,对信息提取是一个成功的模型。 隐马尔可夫模型九可以表示为一个五元组( s ,va ,b ,7 c ) 其中s = 1 ,2 ,3 ,n ) ,是一组状态的集合; v = v l ,v 2 ,v 3 ,v m ) ,是一组输出符号组成的集合; a = a i j 】是状态转移矩阵,n 行n 列。a i j = p ( q t + 1 = jiq t = i ) , i l ,j 耋n ; b 是输出符号的概率分布。b = b j c k ) 。b j 0 0 表示在状态j 时输出符号v k 的概率,n k ) = p ( v ki j ) ,1 姜k 姜m ,1 耋j - - n ; 兀是初始状态概率分布7 【= 兀i ) 。兀i - p ( q l = i ) 表示时刻l 选择某个状态的 概率。 对于h m m ,有三个基本问题: ( 1 ) 识别问题:给定一个输出序列和模型,模型可能创建的序列概率是什么。 ( 2 ) 序列问题:给定一个输出序列和模型,哪种最可能的状态序列可以创建 输出序列。 ( 3 ) 训练问题:给定一个输出序列和拓扑结构,怎样调整模型参数,包括状 态转移和输出的概率分布,使模型创建的输出序列具有最大概率。 在信息提取中,涉及后两个问题。“序列问题”即是用模型对样本进行识别的 过程,而“训练问题”正是各种基于如、n 嗄的信息提取所要解决的问题。最初的 h m m 构造是通过观察样本手工构造。或者一个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论