




已阅读5页,还剩58页未读, 继续免费阅读
(计算机软件与理论专业论文)人物传记摘要研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上海大学硕士学位论文 摘要 i n t e m e t 的迅猛发展使得网络上聚集了越来越多的文本信息。关于文本信息 处理的诸如检索、分类、聚类、抽取等技术有了很大的发展,但是从多个文本 中自动提取人物的信息并没有引起研究者的广泛注意,其过程和方法也没有统 一的结论。 传统的人物信息提取方法存在一些不足,比如提取的人物信息内容不明 确、组织混乱、输出无规范等。文章介绍了自动文摘、信息抽取、本体和事件 等技术,分别讨论了各自在人物信息抽取中的作用。在总结众多研究者已有工 作的基础上,分析了人物信息提取存在的主要问题,并提出了人物本体模型, 利用本体和事件技术来解决上述的一些不足。本研究主要贡献如下: 1 在大量收集、整理人物语料的基础上,详细分析了人物信息的特点,提 出用人物本体模型利用属性和事件表示人物。该模型通过人物属性和人物事件 能够完整、准确地描述人物信息。 2 在充分了解本体描述语言和本体构建工具的基础上,定义了人物本体的 构成,包括属性和事件,其中事件又有其构成要素。最后用r d f 语言描述人物 本体,并使用p r o t 6 9 6 手工构建了七类不同职业的人物本体,使其便于进行人 物信息的管理和抽取。 3 对收集到的人物语料,研究了实现过程中人名的识别和人名指代的处 理;给出了人物属性抽取的具体实现,提出采用监督式机器学习的方法来抽取 人物的属性,即手工标注一定规模的语料,然后训练出分类器判断人名和属性 是否存在搭配关系。并将抽取结果填充到人物本体中。 4 研究了人物本体中人物事件的抽取,提出基于事件模板的人物事件抽 取算法并进行了系统设计。最后探讨了如何组织抽取到的人物属性信息和人物 事件信息从而生成传记。 关键词:人物传记,本体,事件,信息抽取,自动文摘 v 上海大学硕士学位论文 a bs t r a c t t h e r a p i dd e v e l o p m e n to fi n t e m e tm a k e sh u g et e x ti n f o r m a t i o no n l i n e t h e r e h a sb e e ng r e a ti m p r o v e m e n ti nt h et e c h n o l o g yo fi n f o r m a t i o n r e t r i e v a l ,t e x t c a t e g o r i z a t i o n ,t e x tc l u s t e r i n ga n di n f o r m a t i o ne x t r a c t i o n b u ti nt h ef i e l do ft e x t m i n i n g ,t h em e t h o do fp e r s o nf o r m a t i o ne x t r a c t i o nh a sn o ta t t r a c t e de n o u g ha t t e n t i o n a n dh a sn o td r a w nac o n c l u s i o n t h e r ea r es o m eo b v i o u sd e f e c t si nt h et r a d i t i o n a lm e t h o d so fb i o g r a p h y i n f o r m a t i o ne x t r a c t i o n t h e s ed e f e c t si n c l u d eu n c l e a rc o n t e n t ,c h a o t i co r g a n i z a t i o n a n dn o n s t a n d a r do u t p u t t h i sp a p e ri n t r o d u c e st h et e c h n o l o g yo fa u t o m a t i c a b s t r a c t i n g ,i n f o r m a t i o ne x t r a c t i o n ,o n t o l o g ya n de v e n t ,a n dt h e ni ta n a l y z e st h e i r r o l e si nb i o g r a p h yi n f o r m a t i o ne x t r a c t i o n t h e r e f o r e ,o nt h eb a s i so fm a n y r e s e a r c h e r s w o r kt h i sp a p e ra n a l y s e st h em a i np r o b l e m si nb i o g r a p h yi n f o r m a t i o n e x t r a c t i o n t h e ni tp r o p o s e sap e r s o no n t o l o g ym o d e lb a s e do no n t o l o g yf i l le v e n t 1 1 1 i sp a p e r sm a i ni o bi sa sf o l l o w i n g : f i r s t l y , b a s e do nt h ec o l l e c t i n ga n ds o r t i n go fp e r s o ni n f o r m a t i o nc o r p u s ,t h i s p a p e ra n a l y z e st h ec h a r a c t e r i s t i c so fb i o g r a p h yi n f o r m a t i o na n dp r o p o s e sap e r s o n o n t o l o g ym o d e lt o d e s c r i b ep e r s o ni n f o r m a t i o n t h i sm o d e ld e s c r i b e sp e r s o n i n f o r m a t i o nc o m p l e t e l ya n da c c u r a t e l yb ya t t r i b u t e sa n de v e n t s s e c o n d l y , o nt h eb a s i so fm a s t e r i n gd e s c r i b el a n g u a g ea n dc o n s t r u c t i o nt o o l so f o n t o l o g yt h i sp a p e rg i v e st h ec o n s t i t u e n te l e m e n t so fp e r s o no n t o l o g y t h e s ei n c l u d e a t t r i b u t e s , e v e n t sa n di t sf a c t o r s t h ed e s c r i b i n gl a n g u a g ei sr d f ,a n dt h e c o n s t r u c t i o nt o o li sp r o t d 9 6 s oi ti sc o n v e n i e n tt om a s t e ra n de x t r a c tt h eb i o g r a p h y i n f o r m a t i o n t h i r d l y , t h i sp a p e rg i v e st h er e s e a r c h e so ft h ei d e n t i f i c a t i o no fp e r s o nn a m ea n d t h et r e a t m e n t so fn a m e sr e f e r r e dt o t h e ni st h ec o n c r e t ee x t r a c t i o no fa t t r i b u t e sw i t h s u p e r v i s e dm a c h i n el e a r n i n g w ej u d g ea t t r i b u t e sw h e t h e ri sm a t c hw i t hp e r s o nb y t h ec l a s s i f i e rw h i c hi st r a i n e db ym a n u a lc o r p u sa n da d dt h e mt ot h ep e r s o no n t o l o g y a t1 a s t ,p e r s o ne v e n te x t r a c t i o ni sc o n s i d e r e di tt h i sp a p e r 1 1 1 ea l g o r i t h ma n d s y s t e md e s i g no fp e r s o ne v e n ti d e n t i f i c a t i o nb a s e do ne v e n t - m o d e la r ea l s od i s c u s s e d i nt h i sp a r t f i n a l l y , i tp r o p o s e sh o wt oo r g a n i z ep e r s o ni n f o r m a t i o nt og e n e r a t e b i o g r a p h y k e y w o r d s :b i o g r a p h y , o n t o l o g y , e v e n t ,i n f o r m a t i o ne x t r a c t i o n ,a u t o m a t i c a b s t r a c t i o n v i 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发 表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的 任何贡献均己在论文中作了明确的说明并表示了谢意。 签名: 本论文使用授权说明 日期: 本人完全了解上海大学有关保留、使用学位论文的规定,即: 学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名:导师签名 日期: 上海大学硕士学位论文 第一章绪论 随着信息传播手段的进步,尤其是互联网的出现和发展,我们已经摆脱了 信息贫乏的桎梏,跨进信息时代。然而,信息的极度膨胀在提供给人们丰富的 信息内容的同时,也给人们带来了信息选择方面的困惑。在这种情况下,就造 成了两种局面:一方面信息快速膨胀,极度过剩;另一方面人们却淹没于浩瀚 的信息海洋中,找不到自己所需要的信息。因此,如何快捷准确的获取感兴趣 的信息成为人们关注的主要问题。长久以来,人物的传记是通过人工的方式撰 写的,准确度高,但是耗时费力。随着互联网和文本处理技术的发展,可以通 过越来越先进的文本处理技术,获取和处理互联网上广泛存在的人物相关的文 本,自动生成人物传记,这将有望节省大量的人力成本,并有着广泛存在的需 求。 本文受国家自然科学基金( 6 0 5 7 5 0 3 5 ) ,上海高校选拔培养优秀青年教师科 研专项基金( s h u 0 7 0 2 7 ) 和上海市重点学科建设项目( j 5 0 1 0 3 ) 资助。 1 1 人物传记摘要产生的背景 在这里,我们主要介绍本项研究产生的背景。主要从两个方面来阐述:信 息增长的现实驱动;业务模式发展的内在要求。 1 1 1 信息增长的现实驱动 自九十年代初互联网开始迅速发展至今,虽然只有短短十几年的历史,却 已经渗透到经济、社会、文化、教育以及娱乐等几乎各个方面,已成为我们工 作和生活中不可缺少的一部分。与此同时,信息的规模呈现出爆炸式的增长趋 势。 i d c ( 互联网数据中心) 的一项开创性调研项目,首次测定并预测了全球个 人或企业制造、复制出的数字信息总量及种类。i d c 公布的数字宇宙膨胀: 到2 0 1 0 年全球信息增长预测报告显示2 0 0 6 年数字信息量共计1 6 1 0 亿g b ; 上海大学硕士学位论文 i d c 预计,到2 0 1 0 年,数字信息量将达到2 0 0 6 年的6 倍。1 9 9 8 年,g o o g l e 索 引数量还只有2 6 0 0 万,2 0 0 0 时达到1 0 亿,现在,g o o g l e 只是每天新索引的网 页就超过数百亿。而g o o g l e 能检索到的页面数仅仅是整个w e b 的一部分。经过 十年快速的发展,中国互联网已经形成规模,并呈现出空前的发展速度。据中 国互联网络信息中,g , ( c n n i c ) 在京发布的“第二十二次中国互联网络发展状况 统计报告 显示,截至2 0 0 8 年6 月底,中国网民数量达到2 5 3 亿,网民规模 跃居世界第一位。中国网民规模继续呈现持续快速发展的趋势。比去年同期增 长了9 1 0 0 万人,同比增长5 6 2 。在2 0 0 8 年上半年,中国网民数量净增量为 4 3 0 0 万人。p v 4 地址数量为1 5 8 亿个,年增长率为3 3 7 。2 0 0 8 年6 月份, 中国i p v 4 地址拥有量已经超过日本,跃升至世界第二位。我国的域名注册总量 为1 4 8 5 万个,同比增长6 1 8 。中国c n 域名数量为l1 9 0 万个,同比增长9 3 5 , 已占我国域名数量的8 0 1 。中国网站数量为1 9 1 9 万个,年增长率为4 6 3 。 其中c n 下的网站数为1 3 7 万,占总网站数7 1 4 。中国互联网国际出口带宽 数达到4 9 3 ,7 2 9 m b p s ,目前人均拥有水平为2 0 m b p s 万网民,比2 0 0 7 年1 2 月 增长了2 m b p s ,中国互联网国际出口连接能力不断增强。 信息规模的极度膨胀,固然促进了信息的广泛共享,大大地丰富了人们的 知识结构,为我们跨进信息时代奠定了坚实的基础,但同时也带来了许多问题 和挑战。由于互联网最基本的功能就是任何信息通过它都能够自由在全世界广 泛传播,信息传播的自由就使得互联网内部信息凌乱无序,有价值的信息湮没 在大量冗余信息中,对其发现和管理变得越来越困难。在这种情况下,信息的 规模越增长,人们就越难以找到有价值的信息。因此,严峻的现实就迫切需要 人们把互联网上杂乱无序的信息梳理出脉络,按照内在的逻辑联系组织起来。 1 1 2 业务模式发展的内在要求 为了帮助广大互联网用户有效地发布和接受信息,以人工目录分类为基础 的网站搜索,如y a h o o 、e x c i t e 等,在互联网发展的早期不断涌现,它们因向广 大互联网用户提供基本的信息搜索服务,而被称为互联网的门户网站。但进入 九十年代后期,随着互联网开始步入正常发展阶段,先前那些以提供互联网信 2 上海大学硕士学位论文 息目录服务的门户( 综合) 网站,已越来越难以满足人们对互联网信息服务的 需求,因为它们所能覆盖的网页占整个互联网网页的总量的比例越来越小。 与此同时,各种采用新技术的互联网信息搜索引擎也在不断涌现。其中比 较典型的是以超链分析技术为基础的大规模网页搜索,以g o o g l e 、百度为代表, 其搜索结果的准确度从网站上升至网页。这类搜索引擎的特点是能够返回跟用 户查询相匹配的文档列表,并把最可能符合用户需要的网页排在前边。经过几 年的发展,这类搜索引擎返回网页的质量越来越高,得到了用户的广泛认可, 所采用的竞价排名等业务模式,作为非常有效的广告手段也取得了巨大的成功, 使搜索引擎服务成为目前互联网行业最热的市场,被称为继邮件、短信和网络 游戏后众人争抢的互联网产业第四桶金,从而引发了风靡全球互联网行业的搜 索服务大战。在国际搜索引擎市场,微软、y a h o o 、g o o g l c 等国际巨头的争斗 激烈;而以中国搜索、百度为首的一批中文搜索引擎厂商,也在中文搜索领域, 与国际巨头分庭抗礼。第三代搜索引擎已经在酝酿当中;从功能方面看,网页 搜索依然是搜索引擎具备的基本功能,但目录搜索、新闻搜索、m p 3 、图片、 软件、游戏等搜索,也逐渐成为搜索引擎的必备功能;同时,行业搜索、书籍 搜索、购物搜索、区域搜索以及影视搜索,成为近几年、特别是今年发展新的 热点。 层出不穷的搜索功能极大地方便了人们对特定信息的查找。目前,人们不 禁会感到,与搜索其它实体相比,搜索人物的信息极为不方便。由于目前市场 上还没有完善实用的人物信息方面的搜索引擎,当人们查找一个人物信息的时 候,往往不得不借助于普通的网页查找工具。我们以目前最成功的中文商用搜 索引擎g o o g l e 和b a i d u 为例,来说明目前人物信息搜索效果的不足。 当用户想要查找有关人物“李华的信息的时候,如果向g o o g l c 提交查询 请求,返回的前2 0 个结果里面,有1 5 个人物是叫“李华的,还有一个人物 是叫“李华岳的。这样一来,用户不得不逐页地翻看,到底哪一个网页报道 的是自己关注的那个特定人物。当用户关注人物“江华 的信息时,如果向b a i d u 提交查询,返回的结果中,大部分是包含“江华 字样的机构名,这样用户就 很难从其中找到想要的信息。事实上,在查询人物的时候,这类歧义现象是十 3 上海大学硕士学位论文 分普遍的。这些歧义可大致分为两类:一类是不同的人物及其它非人物实体可 能具有相同的名字;另一类是同一个人物可能具有不同的名字或称谓。这样的 歧义就造成了人物搜索的结果十分不理想。 固然,搜索引擎提供这样的功能,就是可以在人名后边添加一个属性,通 过组合查询来细化结果。但这样就违背了搜索引擎所追求的简单快捷的原则, 而且用户往往不是精通搜索技巧的专家,他们往往不愿意提交额外的查询词。 从上面的分析可以看出,人们对于“人物信息 的需求是普遍的和迫切的。 为什么人物信息搜索没有得到应有的关注,不像其它搜索功能那样流行呢? 这 是因为,跟其它搜索功能相比,人物信息搜索存在着一定的技术难点,主要是 人物信息散落在自然语言文本片断中,还没有成型的技术能对自然语言文本中 人物信息的挖掘进行有效处理,才造成商业模式的相对滞后。随着技术问题的 解决,相信“人物信息 一定会成为下一个互联网搜索的热点,推动搜索行业 的进步。在自然语言文本中提取人物信息也就是自动生成人物传记摘要。 s c h i f f m a n 1 】在2 0 0 1 年最先提出了人物传记,它能够自动地提取文本中的人 物信息,生成人物的传记性文字。人物传记近几年引起了诸多学者的广泛兴趣, 成为了一个新的研究方向。 1 2 人物传记研究意义 人物是抽象对象的典型代表,对其进行挖掘代表了文本挖掘技术的最新进 展和新的增长点,也将为抽象对象挖掘本身凝练理论和方法。基于人物本体和 事件的信息抽取将是人物传记新的发展方向,人物本体的建立能够使人物基本 信息得到准确提取,而对人物事件的抽取和组织是人物传记摘要的主要内容。 除了学术上的意义,人物追踪的研究还可以产生一些重大的应用,例如人 物搜索引擎,人物信息组织的研究在搜索引擎产业中已经得到了应用,产生了 若干相关的商业系统。但是目前已经公开的技术只能根据提交的人名关键词返 回含有该人名的原始网页,处理的精细程度不够;或只能对部分名人的信息进 行较精细的处理,返回相关名人的特征属性和特征人群,所能处理的人物范围 有限。人物传记技术的研究就可以克服现有技术的缺点,解决目前无法对人物 4 上海大学硕士学位论文 信息进行大规模有效处理的问题,提供一种新颖实用的互联网人物搜索引擎的 生成方法。随着互联网和文本处理技术的进一步发展和业务模式的驱动,相信 人物传记的前景将会越来越广阔。 1 3 论文的主要内容和结构安排 本文对人物传记信息进行了详细分析,提出基于本体和事件的人物模型, 并应用本体工具建立了人物本体,最后对人物传记信息的抽取进行了深入的探 讨和研究。 第一章:绪论。该章对人物传记产出的背景、研究意义进行了介绍。 第二章:人物传记摘要研究现状。该章对目前国内外人物传记摘要研究现 状和方法进行了介绍。 第三章:人物传记摘要相关技术。该章对人物传记摘要相关技术进行了介 绍。 第四章:人物本体构建。该章对人物传记信息进行分析,应用本体工具建 立人物本体。 第五章:人物属性抽取。该章分析了人名的识别、人名指代的处理,对人 物属性抽取进行了深入的探讨和研究。 第六章:人物事件抽取和人物信息组织。该章对人物事件的抽取进行了系 统设计和事件识别分析,并说明了人物传记信息的组织。 第七章:结论与展望。该章对这篇论文所做的工作和研究进行了总结,并 对后续研究给予了展望。 5 上海大学硕士学位论文 第二章人物传记研究摘要研究现状 在信息世界里,从人物角度提取人物信息是一项很重要的信息需求,并随 着互联网的发展,而受到越来越多的重视。人物信息组织开始于自然语言处理 方面的研究,主要集中在人名消歧方面。人名的消歧可以看作是自然语言里面 “共指消歧”的一种类型,即识别出人名和它的指代词之间的对应关系。随着 信息处理的不断加深,人名消歧也由单文档消歧扩展到跨文档消歧方面。 近年来,信息检索技术快速发展,一些搜索引擎采用对搜索结果进行聚类 的方式来减少结果中的歧义现象,例如v i v i s i m o ( w w w v i v i s i m o c o r n ) 、i b o o g i e ( w w w i b o o g i e c o r n ) 等。由于这类搜索技术意在对通用领域信息进行处理,对解 决人名歧义的问题效果就不够理想。为此,一些研究者专门针对w e b 搜索结果 中人名消歧的问题进行了研究【2 】【3 】 4 】。与此同时,自然语言处理里面“多文档摘 要的技术也在不断进步,并成功应用在人物传记的生成方面。其方法主要是 结合语言学的知识和统计的信息,提选出最能代表人物特征的句子,组合起来, 反映人物的生平情况。 人物信息组织的研究在搜索引擎产业中已经得到了应用,产生了若干相关 的商业系统。例如,a s k j e e v e s 的“名人搜索 功能( h t t p :w w w a s k e o m o ,能够 优先把检索到的名人的履历页面排在最前面;z o o m i n f o 的人物搜索引擎 ( h t t p :w w w z o o m i n f o t o m p e o p l e ) ,依靠自动搜集再加用户参与的方式来提供人 物的传记信息;s o g o u 的人物搜索功能( h t t p :p e o p l e s o g o u e o m ) ,把名人和非名 人的信息分开处理,对于非知名人物则返回数据库中用户自己注册的信息。 总的说来,人物信息提取在研究上和应用上都越来越受到重视,相关的技 术资源也越来越完善,在某些方面已经取得了不错的进展。本文在总结众多研 究者已有工作的基础上,分析了人物信息组织存在的主要问题。 2 1 基于多文档摘要的人物传记研究 多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为 一个文本的自然语言处理技术。自动摘要研究主要有两个方向,一个是利用语 6 上海人学硕士学位论文 言分析和统计方法抽取文档的子集生成摘要,另一个是基于知识的信息抽取生 成摘要。 k n i g h t 和m a r c u 5 】认为摘要就是句子一级实现语法和信息采集,并推动一 步超越一句提取。许多系统利用机器学习方法学习语料库的科学文章和他们相 应的摘要。z h o u 和h o v y 6 】完成了一个通过服从时间顺序发生的新闻事件的自动 文本摘要系统。很多人认为多文档摘要可以直接应用到人物传记抽取,但是 m 疵【7 】表明多文档摘要的附加功能传记抽取使摘要系统复杂性提高,而且也不 是现今多文档摘要系统能够实现的。s c h i f f i n a n 1 】把多文档摘要技术应用到人物 传记抽取,将描述一个人物的多个文本的主要信息按压缩比提炼为一个文本, 设计了第一个多文档人物传记摘要系统,利用语料库的统计与语言知识的选择、 合并新闻中人物的描述。m i l l e r 8 1 认为传记摘要研究重点是如何通过语义理解生 成简洁的人物传记。 美国南加州大学的z h o u 、t i c r e a 和h o w 【9 】在2 0 0 4 年设计了一个多文档传 记摘要系统,它们利用的是信息提取技术的句子分类和一些自动文摘思想。他 们首先把句子定义为人物传记和非人物传记,描述人物传记的句子又分为9 大 类,分别是:个人简历信息、声望、个性、社会关系、受教育程度、国籍、丑 闻、私人信息、工作信息和其他非上面的,然后把文档中旬子分类,抽取描述 人物传记的句子组成一个人物传记。尽管这些技术都不是新的,但是利用把这 些技术结合在一起做一个多文档传记摘要还是第一次。系统主要流程如图2 1 所示。 7 上海大学硕士学位论文 1 人物传记l 1 _ j 图2 1基于多文档摘要技术的人物传记流程图 随着摘要技术的成熟和发展,利用文本摘要的概念和技术能够对描述人物 信息的句子进行抽取。但是利用这种方法生成的人物摘要抽取的只是包含人物 姓名的句子,对于包含人称指代的句子则不能进行抽取,没有对人物信息进行 细致分析而且对与人物相关的重要事件也没有进行深层次的语义理解。所以通 过这种方法抽取的人物信息内容很笼统,准确性也不高。 2 2 基于事件和本体的人物传记研究 f i l a t o v a t l 0 】等提出的“元事件”是由动词( 或者动名词) 和动词连接的行为的 主要组成部分构成,这些行为的主要连接成分是指三类命名实体:参与者( 人 名和机构名) 、地点和时间,事实上,元事件可以表示成三元组f 命名实体,动 词( 或者动名词) ,命名实体) 。将文本看作事件的集合,打破传统意义上将文本 看作概念的集合的常规。通过自然语言处理和统计学的方法,从文本中提取元 事件。2 0 0 5 年,哥伦比亚大学计算机学院f i l a t o v a 与i b m 研究中心的p r a g e r 和w a t s o n 把元事件应用到提取人物信息,共同提出根据人物的职业特性产生人 物传记摘要。他们认为,人物传记应包含人物一生当中重大事件,而事件又跟 职业有着很大关系。试验结果显示他们对特定领域的人物传记摘要效果明显。 许多人物本体被构建用于抽取人物信息,2 0 0 7 年h a n 和p a r k 掣1 1 】利用 上海大学硕上学位论文 o w l 本体描述语言对人物信息建立事件本体,建立本体时把人物信息分为固定 的和可变的,对人物的事件描述要素主要有:人物、时间、地点、内容等,然 后对人物基本信息和主要事件进行抽取。 利用元事件的概念能够对人物的一些事件进行准确的抽取,但是这些元事 件模型都是人为设定,不能够对没有模型的事件进行抽取。同时该方法也只是 抽取人物的事件一些简单要素,没有对人物事件进行细致分类,事实上事件的 要素与事件的类别有很大的关系。 但是利用事件的概念已经是很大的突破,随着事件技术的成熟,利用事件 技术生成人物传记的方法也能够完善和改进。 2 3 面向人物追踪的人物传记研究 话题识别与跟踪【1 2 j ( t o p i cd e t e c t i o na n dt r a c k i n g ) 是将关于事件的分散信息 有效地汇集并组织起来,从而帮助用户发现事件中各种因素之间的关系,从整 体上了解一个事件的全部细节以及该事件与其他事件的联系。与传统的信息检 索技术不同,话题识别与跟踪所关注的问题领域被称之为“基于事件的信息组 织”,目前主要是对热点新闻话题进行组织。中国科学院计算技术研究所于满泉 2 0 0 6 年把话题识别与跟踪应用到人物事件提取,提出面向人物追踪的知识挖掘 研究中提出人物模型如图2 2 所示。 图2 2 面向人物追踪的人物模型 9 上海大学硕士学位论文 根据话题识别与跟踪技术提出对人物进行追踪,主要是跟踪人物什么时间 出现在什么地点,说了什么话,做了什么事情。事件的组织主要分为微观粒度 的事件组织和宏观粒度的事件组织。微观粒度的事件组织主要是借用信息抽取 的技术,把一些特定领域、复杂程度较低的事件角色框架识别出来,丰富人物 的履历内容;宏观粒度的事件组织是以文本或段落为基本单位,借用信息检索 的技术把具有事件内在联系的报道组织在一起。宏观粒度的事件组织由于不受 事件领域的限制,可以对各种类型的事件进行大规模的高效处理,适合于建立 人物的活动报道专集。 利用话题识别与跟踪技术,结合事件的概念,对事件的分类组织根据触发 词获取和匹配,能够对人物一些复杂程度较低的事件进行处理,把人物的事件 进行分类组织是人物传记的一个新发展方向。 2 4 本章小结 本章对人物传记摘要研究现状进行了综述,分别对基于多文档摘要、事件 和本体研究进行了分析,指出了他们的不足和存在的问题。面向人物追踪的人 物传记摘要对事件的分类组织根据触发词获取和匹配,能够对人物一些复杂程 度较低的事件进行处理。 1 0 上海大学硕士学位论文 第三章人物传记相关技术 现有的人物传记的方法有多种,一些学者采用已有的摘要技术进行人物传 记提取;有些采用信息提取的方法;有些将新的语义网络技术,如本体引入人 物传记的方法中;还有些,采用认知科学中发展起来事件提取技术进行人物传 记提取,本节将对这些人物传记中采用的技术进行简单回顾。 3 1 自动文摘 概括介绍一篇文章的内容可以有多种方式,其中最主要的方法就是做文摘。 文摘是准确全面地反映某一文章中心内容的简洁连贯的短文,与索引相比更能 满足信息获取的要求。自动文摘的概念是由l u h n 首先提出的 13 1 。当时,自动文 摘并未引起人们的足够重视。但随着近年来i n t e r n e t 的迅速普及,信息量激增, 信息的自动化处理成为一个亟待解决的问题。在此时代背景下,自动文摘越来 越引起人们广泛的兴趣。多文档集合 1 4 】是指同一主题下不同文档的集合,特点 是文档之间具有很多的共同信息,各个文档中包含与主题相关的不同的信息的 文档集合。多文档文摘是将多文档集合中的多次重复信息以一次出现在文摘中, 其他与主题相关的信息根据重要性及压缩比依次抽取的文本集合压缩技术。 自动文摘技术的研究早在5 0 年代已经开始,多文档自动文摘的研究工作最 早在8 0 年代开始,但那时的研究工作不具有普遍性。真正的任意域的多文档文 摘的研究是在9 7 和9 8 年间开始的,随着互联网的普及,网上的信息以指数级 增长,人们迫切需要直接、快速、高效地获得信息,一些新的搜索引擎及多文 档研究工作逐渐开展起来。 多文档文摘研究的代表人物应该是哥伦比亚大学的k a t h l e e nr m c k e o w n 、 d r a g o m i rr r a d e v 【l5 】等人,近年来在多文档自动文摘的理论与实践中取得了很 多成绩。而对中文的多文档文摘的研究目前在国内还处于起步阶段。从用户的 角度上讲,做文摘的目的无非是两个:第一、使信息简洁、全面:第二、用流 畅的语言来表达。实际上,对应于研究的角度也体现了这样的思想,去冗余、 抽取主要信息、生成流利的文摘。对于多文档的研究主要包括两个方面:主要 上海大学硕士学位论文 信息的抽取和文摘的生成。 3 1 1 自动文摘的主要方法 自动摘要的研究在不同应用领域都取得了重要的发展。在自动摘要的发展 过程中,逐步形成了两类:基于文本中关键词短语出现频率的概率统计等方法 和基于语义分析和领域知识的文本理解的方法。并随着研究技术的不断发展, 形成两大类方法综合起来进行自动摘要的发展趋势。 1 ) 基于概率统计的方法 概率统计的方法【1 6 】,是将文本看作字符序列进行统计,进行统计的是关键 词在文本中出现的频率,并以此作为摘要提取的基石。把包含高频率关键词的 句或段落选为摘要的备选内容。相关关键词的生成也可分为两类:用户给定和 关键词自动生成,即与领域相关和领域无关的概率统计方法。 统计概率的方法,通常有以下几个步骤: ( 1 ) 统计关键词词频,并据此计算关键词的权值。权值计算根据: 频度:在一篇文档中,关键词出现的次数。 文档数:关键词在文档集中出现在的文档的数量。 总频数:关键词在所有文档中出现的总次数。这三个量彼此相关。 ( 2 ) 计算句子权值,据此抽取关键句作为自动摘要的集合。 另外,段落的段首句、段末句也常常包含了文本的主旨,他们被赋以较高 的权值。 ( 3 ) 摘要的生成。把抽取的句子按权值大小为序生成摘要,以及按照句子 描述事件的先后顺序输出。 概率统计方法仍然存在着一些不足之处: ( 1 ) 关键词的权值由频度的高低决定。但高频度出现的词不一定是关键词。 ( 2 ) 该方法忽略了文章结构。 ( 3 ) 该方法忽略了关键词之间的语义 2 ) 基于文本理解的方法 基于文本理解的自动文摘【1 7 1 ,是以人工智能技术,特别是自然语言理解技 术为核心提出来的方法。与统计分析方法的不同指出,在对文本进行语法结构 1 2 上海大学硕士学位论文 分析的同时,还利用领域知识对文本的语义进行分析,通过判断、推理,得出 文摘的语义描述,最后根据语义描述自动生成文摘。 基于文本理解的自动文摘,通常包括以下两个个步骤: ( 1 ) 语法分析。利用词库、句法结构库对文本进行分词、词语标注。由于 树有很好的结构特征,如层次、相邻节点的关系判断,方便的回溯操作等,使 得词语标注大多以树的形式来表示。 ( 2 ) 语义分析。最主要的方法是进行文本标注,通过标注表示词之间的前 后依赖关系、句之间语义衔接关系、段之间语义聚合或转移关系。再运用领域 知识库所描述的知识,把语义标注通常是语法树的形式转换为能”理解”的语义 网络。 3 ) 基于篇章结构的方法 由于概率统计忽略了文本语义【1 8 】,而基于文本的理解有需要建立完整的、 庞大的语料库,这还是一个难点。因此,结合概率统计和文本理解的方法,综 合各自的优势,研究人员提出了有别于上述两种方法的其它方法。 文本的字、词、句、段落构成了一个有机的结构体,它们处于不同的位置, 承担着不同的功能,各部分之间存在复杂的网状关系。而且,文本的篇章结构 不受具体知识领域的限制。因此,文本的组成结构分析清楚了,文本的中心含 义就能确定。但由于对文本结构的分析,在语言学上还有待进一步研究,因此, 给研究人员对于文本的篇章结构分析就不尽相同。 在统计分析中对于字、词,在理解分析中对于句的标注等都进行了分析。 但是,构成文本的段落却被忽视。由于很难去理解文本段落的语义,同时不同 文本段落数、段落的长短差别较大。由此使得自然段落间的语义网络复杂,造 成难于直接从自然段落中提取语句。因此,在篇章结构分析中,不直接处理自 然划分的段落,而是按照语义对段落进行划分。通常,对于同一个主题子主题, 作者会用连续的多个段落来描述。这样,就可以把这些段落划分成一个语义段。 一篇文本就有多个语义段组成,抽取每个语义段的主题就能够形成文本的摘要。 语义段的基本想法是在一篇文章中寻找从一个主题转到另一个主题的变换 部分。目前组要采用的有三种: 1 3 上海大学硕士学位论文 向量空间( v e c t o rs p a c e ) :该方法主要分为两步:一是用向量表示段落或句 子。二是用内积度量段落或句子间的紧密程度。内积可以用向量的夹角来计算。 文本块比较法( b l o c kc o m p a r i s o n ) :类似于向量空间,唯一的区别是计算文 本块的词条的权重时,只利用文本块内词条的出现频度,而不利用文档数。 新词引入法( v o c a b u l a r yi n t r o d u c t i o n ) :这种方法利用文本块中新词的个数来 分析,即认为文本子主题的变化时通过新词的引入进行的。可以计算新词的引 入量来判定段落或句子语义的变化。 3 1 2 自动摘要的评价 自动文摘的评测没有形成一致的标准【1 9 】。但是,人们在文摘评测的研究过 程中逐步形成了一个比较清晰的认同,主要分为两类: 1 ) 内部评价( i n t r i n s i c ) 它通过定义一系列参数直接分析文摘质量。这样,可以借助人对文摘的连 贯性、与包含文本原文关键信息的判断,也可以借助自动文摘与人提取的标准 摘要进行相似度比较。内部评价主要有两个理解性指标:文摘的可读性和文摘 对原文的覆盖程度。 文摘的可读性:文摘的可读性可以通过文摘的连贯性和一致性进行评测。 由于连贯性和一致性很难有一个同一、客观的表示方法。因此,有学者提出用 摘要中的指代关系、严谨的语法、明确的主题等特征来衡量。 文摘对原文的覆盖程度:由于文摘过短,会导致所表达的内容丢失甚至不 能表达原文的含义。文摘过长,又失去进行自动文摘的原意。另外,对于同一 文本,也会有不同的只要表达方式。因此,一种典型的方法是人工对文本的摘 要给出几个要点,然后检测自动摘要对要点的覆盖来评价自动摘要的质量。 2 ) 外部评价( e x t r i n s i c ) 这是一种间接的评价方法。通过把计算机得出的自动摘要,应用于其它系 统中,检测应用系统是否通过使用自动摘要而提高的自身的性能。例如把自动 摘要应用于自动回答系统、搜索引擎的检索系统等。由于外部评价已经把自动 文摘系统具体的应用到其它系统中,这种评价的结果是不言而喻的。至于一个 1 4 上海大学硕上学位论文 文摘系统是采用内部评价还是外部评价,一般来说,初始研发时应该使用内部 评价。 3 2 信息抽取 信息抽取是【2 0 】以一个以未知的自然语言文档作为输入,产生固定格式、无 歧义的输出数据的过程。即从文本中抽取用户感兴趣的事件、实体和关系,被 抽取出来的信息以结构化的形式描述,然后存放在数据库中,为情报分析和检 测、比价购物、自动文摘、文本分类等各种应用提供服务。 例如,从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、 受害者、袭击目标、使用的武器等;从经济新闻中抽取出公司发布新产品的情 况:公司名、产品名、发布时间、产品性能等;从病人的医疗记录中抽取出症 状、诊断记录、检验结果、处方等等或者直接提取文章中某句话或某段话的信 息等等。 一般来说,信息抽取系统处理的对象是自然语言文本,尤其是非结构化的 文本。但广义上讲,除了电子文本以为,信息抽取的处理对象还可以是语音、 图像、视频等其他媒体类型的数据。本文仅讨论狭义的信息抽取研究,即针对 自然语言文本的信息抽取。信息抽取还可以看作是信息检索的进一步深化,研 究指定信息的查找、理解和抽取,并将指定信息以适当的方式输出。信息抽取 技术本身也是多种基本自然语言处理技术的综合应用,因此应用领域十分广泛。 3 2 1 信息抽取的历史和现状 在2 0 世纪8 0 年代,出现了三个用于商业目的的信息抽取系统【2 l 】。第一个 用于商业目的的信息系统是用于自动处理银行转账信息的a t r a n s 。不久,卡 内基集团为路透社开发了一个通过新闻分析公司收入和盈利的系统j a s p e r 。 另外一个是通用公司为了分析公司合并和盈利而开发的s c i s o r 系统。 从2 0 世纪8 0 年代末开始,信息抽取研究蓬勃发展起来,这主要得益于消 息理解系列会议( m u c ,m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) 的召开。m u c 定义的 信息抽取任务的各种规范以及确立的评价体系已成为信息抽取研究事实上的标 1 5 上海大学硕士学位论文 准。 目前,除了强烈的应用需求外,正在推动信息抽取进一步的动力主要来自 美国标准技术研究所组织的自动内容抽取( a c e ,a u t o m a t i cc o m c n te x t r a c t i o n ) 评测会议。会议的主要内容是自动抽取新闻语料中出现的实体、关系、事件等 内容。会议有两大任务,分别为实体识别与跟踪( e d t ,e n t i t yd e t e c t i o na n d t r a c k i n g ) 和关系识别与描述( r d c ,r e l a t i o nd e t e c t i o na n dc h a r a c t e r i z a t i o n ) 。 3 2 2 信息抽取系统的评测 在m u c 中,衡量信息抽取系统的性能主要根据两个评价指标:召回率和准 确率。召回率等于系统正确抽取的结果占所有可能正确结果的比例;准确率等 于系统正确抽取的结果占所有抽取结果的比例。为了综合评价系统的性能,通 常还计算召回率( r ) 和准确率( p ) 的加权几何平均值2 2 1 ,即f 指数,计算公式为: f :竺兰墨兰堡壁:2 尸+ rx 2 其中,1 3 是召回率和准确率的相对权重。b 等于1 时,二者同样重要;1 3 大于1 时,准确率更重要一些;1 3 小于1 时,召回率更重要一些。在m u c 系列 会议中,1 3 的值一般为1 、1 2 、2 。 3 2 3 信息抽取系统的结构 1 ) 信息抽取系统的构建方法 一般信息系统的构建有两种方法【2 3 】:知识工程方法( k n o w l e d g ee n g i n e e r a p p r o a c h ) 和自动训练方法( a u t o m a t i c a l l yt r a i n a b l es y s t e m ) 。 知识工程方法【2 4 】主要靠手工编制规则使系统能处理特定知识领域的信息抽 取问题。该方法要求编制规则的知识工程师对该知识领域有深入了解。这样的 人才有时找不到,且开发的过程可能非常耗时耗力,但是它具有性能好和易开 发等优点。自动训练方法不一定需要此专业的知识工程师。系统主要通过给出 的已经标记好的文档集,利用机器学
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年模具设计工程师考试试题及答案
- 2025年家庭教育指导师考试题及答案
- 2025年货币政策与宏观经济管理能力的考试题及答案
- 2025年电子信息工程师考试试卷及答案
- 2025年公共卫生安全管理考试试题及答案
- 2025年甘肃省天水市秦安县中医医院招聘编外人员34人笔试参考题库及参考答案详解1套
- 物资采购公司管理制度
- 物资集散中心管理制度
- 特殊人员羁押管理制度
- 特殊工种人员管理制度
- 伊春市纪委监委所属事业单位招聘笔试真题2024
- 2025年高考全国二卷英语高考真题
- (期末复习)常考知识清单(八大单元52个小知识点)-2024-2025学年三年级下册数学期末备考总复习(人教版)
- 2024北京朝阳区四年级(下)期末数学试题及答案
- 《全断面岩石掘进机法水工隧洞工程技术规范》
- 河南省郑州市2023-2024高一下学期期末考试数学试卷及答案
- 2023年工会财务知识竞赛题库及答案(完整版)
- 新高考志愿填报指导报考表
- 整车试验大纲
- 电缆厂物料编码规则(共8页)
- (完整)中考英语首字母填词高频词汇
评论
0/150
提交评论