(计算机软件与理论专业论文)web中文信息抽取技术与命名实体识别方法的研究.pdf_第1页
(计算机软件与理论专业论文)web中文信息抽取技术与命名实体识别方法的研究.pdf_第2页
(计算机软件与理论专业论文)web中文信息抽取技术与命名实体识别方法的研究.pdf_第3页
(计算机软件与理论专业论文)web中文信息抽取技术与命名实体识别方法的研究.pdf_第4页
(计算机软件与理论专业论文)web中文信息抽取技术与命名实体识别方法的研究.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机软件与理论专业论文)web中文信息抽取技术与命名实体识别方法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着i n t e m e t 的飞速发展,人们被包围在信息的汪洋大海之中。准确、高效地 从信息海洋中抽取有用的信息,正是信息抽取任务要解决的问题。 信息抽取是自2 0 世纪8 0 年代末以来,自然语言处理研究领域的热点研究问 题。美国、欧洲都制定了相应的信息抽取技术及评测计划。有关汉语的信息抽取 研究起步较晚,尚处在探索阶段。信息抽取任务的研究在近年来应对突发事故中 表现得尤为亟需。随着各种煤矿安全事故频繁发生,应对突发事故的能力己经成 为考验政府执政能力的一个重要方面。应对突发事故是一个系统工程,其中一个 重要环节就是信息的收集、整理、加工和发布。及时、客观、准确地收集信息, 快速、高效地提取有用信息,这己经成为提高突发事件应对能力的一个重要方面, 也是衡量应对突发事件能力的一个重要指标。 本文在对煤矿安全事故新闻报道特点广泛分析基础上,以同一突发事件的多 个新闻报道( 即同事件多文本) 为处理对象并考虑到时间的重要性,从中获取支持煤 矿安全信息抽取的地名实体识别特征与时间识别特征,在此基础上实现了煤矿安 全信息抽取系统。 与英语信息提取相比,中文在文本处理深度、知识资源支持等方面都有较大 的差距。因此,在研究过程中,对于每一项研究内容,我们都分析了现有资源和 文本n t 深度对信息提取任务的支持和制约,探索性地研究了具有一定鲁棒性的 时间信息识别方法,以期为进一步的研究奠定基础、找到突破口,以便为下一步 的工作提供经验。 关键词:信息抽取,命名实体识别,地名识别,时间识别,合一函数 t h er e s e a r c ho fc h i n e s en a m e d e n t i t yr e c o g n i t i o na n d i n f o r m a t i o ne x t r a c t i o n a bs t r a c t w i t ht h er a p i dd e v e l o p m e n to ft h ei n t e m e t ,w ea r es u r r o u n d e db ya ni m m e n s e s e ao fi n f o r m a t i o n h o wt o g e ta c c u r a t ea n dv a l i d r e f o r m a t i o nf r o mt h i sv a s t i n f o r m a t i o ns e ai st h eg o a lt h a ti n f o r m a t i o ne x t r a c t i o n ( i e ) i n t e n d st oa c h i e v e i t sb a s i c o b j e c t i v e sa r et og e ti n f o r m a t i o nw i t ha u t o m a t i ca n da c c u r a t e i n f o r m a t i o ne x t r a c t i o n ,s i n c et h ee n do f19 8 0 s ,h a sb e e nah o tr e s e a r c hi s s u ei n n l p i th a sb e e nd r i v e nt oar e m a r k a b l ed e g r e eb yt h ec o n s t r u c t i o no fat e x tp r o c e s s i n g s c h e m eb yt h eu s a n de u r o p e i n f o r m a t i o ne x t r a c t i o nt e c h n o l o g ya n de v a l u a t i o na r e a m o n gt h ei m p o r t a n tf a c t o r si ni t sp l a n w i t hr e g a r dt oc h i n e s ei n f o r m a t i o ne x t r a c t i o n , r e s e a r c hh a ds t a r t e dl a t e l yb u ti ss t i l li nt h ee x p l o r a t i o np h a s e t h ei n f o m a t i o ne x t r a c t i o ns y s t e mo ft h em i n es a f e t yi n f o r m a t i o ni sh e l p f u l t h e w o r l dh a sb e e ne x p e r i e n c i n ga ni n c r e a s i n gn u m b e ro f ”m i n es a f e t yi n c i d e n t s ”at e s to f e f f i c i e n tg o v e m m e n ti sh o wt h e o r g a n i z a t i o n sc o r r e s p o n d t ot h e s es p o n t a n e o u s e v e n t s h a n d l i n gs u d d e no u t b u r s t si si n d e e dam u l t i f a c e t e de f f o r t , a n do n eo ft h e i m p o r t a n tt a s k s i s c o l l e c t i n gi n f o r m a t i o n i nat i m e l y , i m p e r s o n a la n da c c u r a t e e x t r a c t i n gi n f o r m a t i o ni sp r o v e dt ob eag o o dc h o i c e t h i st h e s i sf o c u s e so ne x t r a c t i n gi n f o r m a t i o nr e f e r r i n gt ot h em i n e s a f e t y i n f o r m a t i o n ,i t sb a s e do na n a l y s e so fv a r i o u sr e p o r t s t h es t u d yc o n s i s t so ft h e f o l l o w i n gt a s k s :a n a l y z i n gt h ev a r i o u st e x t sc o n c e r n i n go fc h i n e s ep l a c en a m e sa n d t i m ei n f o r m a t i o n ;a n dp r o b i n gi n t ot h ef e a s i b l em o d e l so fi d e n t i f y i n gc h i n e s ep l a c e n a m e sa n dt h em e t h o d so fi d e n t i f i c a t i o no ft i m et oa c q u i r em i n es a f e t yi n f o r m a t i o n e x t r a c t i o ns y s t e m s i n c el e s sw o r ko ne x t r a c t i o nh a sb e e nd o n ei nc h i n e s et h a ne n g l i s h ,t h e r ei sn o d o u b tt h a tw i d eg a p sb e t w e e nc h i n e s ea n de n g l i s hi nt h ea c c u r a c yo ft h ee x t r a c t i n g i l p r o c e s s ,t h ea m a s s m e n to ft h ek n o w l e d g er e s o u r c e s ,e t c t h e r e f o r e ,i ne a c hp r o c e s s i n g s t e p ,w ec a r e f u l l ya n a l y z ep r o sa n dc o n sc r e a t e db yt h ee x i s t i n gi d e n t i f i c a t i o no ft i m ei n o r d e rt ol a yaf o u n d a t i o nf o rf u r t h e rr e s e a r c h k e y w o r d s :i n f o r m a t i o ne x t r a c t i o n ,n a m e de n t i t yr e c o g n i t i o n ,i d e n t i f y i n gc h i n e s e p l a c en a m e s ,i d e n t i f i c a t i o no ft i m e ,u n i f i e dm e s s a g i n g i i i 西北大学学位论文知识产权声明书 本人完全了解西北大学关于收集、保存、使用学位论文的规定。 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。 本人允许论文被查阅和借阅。本人授权西北大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研 究所等机构将本学位论文收录到中国学位论文全文数据库或其它 相关数据库。 保密论文待解密后适用本声明。 学位论文作者签名:垒塑歪盐 指导教师签名: 工删3 年月,厂日吩年秒多月ad 日 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究 成果。据我所知,除了文中特别加以标注和致谢的地方外,本论文不包含其他人已经 发表或撰写过的研究成果,也不包含为获得西北大学或其它教育机构的学位或证书而 使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示谢意 学位论文作者签名:务乃豕斗 沙苦年月7 日 1 1 引言 第一章绪论 2 0 0 8 年1 月2 3 日,中国互联网络信息中,l , ( c n n i c ) 发布的第2 0 次中国互联 网络发展状况统计报告【1 1 显示:截止统计时间中国网页数为8 4 7 亿个,年增长率 达到8 9 4 ,网上信息资源的增长速度非常迅猛。从网页长度上看,网站总字节 数已经达到1 9 8 ,3 4 8 g b ,平均每个网页的字节数为2 3 4 k b 。从网页内容上看,仍 是文本居多,占到网页总数的8 7 8 。可见,随着计算机技术和网络技术的发展, 各种相关信息愈来愈多地通过网络为人们所利用,而用户深感困惑的是很难在浩 瀚如海的网络空间里快速、准确的查找到所需要的信息。当用户面对成千上万的 超级链接难以检索到满意的信息时,借助搜索引擎进行搜索就是一个非常重要的 手段。 1 1 1 搜索引擎的现状 随着计算机的出现与普及,尤其是互联网蓬勃兴起之后,人们摆脱了信息贫 乏的桎梏,进入了一个信息极度丰富的社会。目前仅g o o g l e 能够索引到的网页数 量就超过8 0 亿个,图片超过1 0 亿张。万维网已成为一个由各类文档组成的海量 信息资源中心,其信息量呈几何指数增长,网络已经成为人们日常生活、学习中 获取知识不可或缺的信息来源。如此大量的信息有时使人无所适从,出现了信息 爆炸或信息过剩的现象。根据全球知名市场信息和咨询公司i d c 的调查,迄今为 止,搜索引擎已经成为继e m a i l 之后人们用的最多的网上信息服务系统,约有8 5 以上的用户利用w e b 搜索引擎去查询w w w 上的信息。搜索引擎是以一定的技术 和策略在互联网中搜集、发现信息并对信息进行抽取和处理,为用户提供检索服 务,从而起到快速查检信息作用的一种网络工具。搜索引擎的出现是否给广大网 络用户带来了福音? 下面来看两组数据【2 】: 1 、2 0 0 1 年r o p e rs t a r c h 的调查:3 6 的互联网用户一个星期花了超过2 个小 时时间在网上搜索;7 1 的用户在使用搜索引擎的时候遇到过麻烦:平均搜索1 2 分钟以后发现搜索受挫,搜索受挫中4 6 都是因为链接错误;绝大部分( 8 6 ) 的互 l 联网用户感到应当出现更有效的、准确的信息搜索技术。 2 、美国的个人建议服务供应商k e e n 所做的调查,它在美国三个城市调查了 7 9 个人四天中在寻找问题答案的过程,调查得出的结论是:人们平均每天有四个 问题需要从外界获取答案:其中3 1 的人使用搜索引擎寻找答案;平均每周花费 8 7 5 小时找寻答案;5 3 3 的时间花在从旁人那里获得答案,2 9 的时间花在亲戚 朋友身上,2 4 3 的时间花在销售商那里;网上查找答案的,半数以上都不成功; 他们每周将花费1 4 5 美元以上,以获取正确的信息。 从上面的数据可以看出,目前的搜索引擎仍然存在不少的弊端,这些弊端使 得广大网络用户对于现有的搜索技术仍然不满意,期盼更完美的信息获取技术的 出现。目前信息时代竞争的关键已不是占有信息的多少,而是谁能够以最快的速 度准确而详尽地获得自己真正想要得到的信息。因此,探索新型的更高效、更人 性化的信息获取工具具有十分重要的意义。 1 1 2 自然语言理解和信息抽取 人工智能的研究【3 】已经成为当前十分重要的研究学科之一,而自然语言理解 ( n l u ,n a t u r a ll a n g u a g eu n d e r s t a n d i n g ) 与自然语言处理f n l r , n a t u r a ll a n g u a g e p r o c e s s i n g ) 是同义词,都是人工智能的一个分支。n l u 是研究如何利用计算来理 解和生成自然语言的。一般把人工设计的语言称为人工语言,而自然语言就是人 们日常使用的语言。自然语言和各种符号语言一样,是人们进行推理和交流的桥 梁,由于语言在智能活动中具有重要的作用,当计算机在不同领域逐步替代人类 完成各项工作时,人们也期待着计算机在自然语言的处理上能够接近甚至达到人 的智能水平。自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难 的问题之一,而对自然语言处理的研究也是充满魅力和挑战的。 随着计算机和互联网的广泛应用,计算机可处理的自然语言文本数量空前增 长,面向海量信息的文本挖掘、信息抽取、跨语言信息处理、人机交互等应用需 求急速增长,自然语言理解的研究必将对我们的生活产生深远的影响。其中包括 信息获取系统中n l p 的应用研究。 近年来,一种叫做信息抽取( i n f o r m a t i o ne x t r a c t i o n ,i e ) 的技术逐渐受到了人们的 关注【4 l 它的提出和兴起有着特定的时代背景。2 0 世纪8 0 年代后期,美国政府提 2 出了一个专门的文本处理研究计划_ t i p s t e 耐划,其内容包括信息抽取、文档 检索和文献摘要等,以期提高政府部门的信息处理速度和质量。该计划的一个重 要的目标就是研究和实现文本信息的自动查找、收集汇总和存储,以便将人们从 大量的、低效的文本阅读劳动中解放出来。 信息抽取( i n f o r m a t i o ne x t r a c t i o n ) 4 】是从一段文本中抽取指定的一类信息( 事 件、事实) 并将其( 形成结构化的数据) 填入一个数据库中供用户查询使用的过 程。例如,从一篇关于自然灾害的新闻报道中摘录出灾害的类型、时间、地点、 人员伤亡、经济损失、救援情况等;或者从产品发布的新闻语料中抽取某类产品 的各种感兴趣的指标等。这些处理主要是以词和词组为对象来进行的【5 】。 对于从大量文档中抽取所需要的特定事实来说,信息抽取技术非常有用。在 w w w 上,同一主题的信息通常分散存放在不同网站上,表现的形式也各不相同。 若能将这些信息收集在一起,用结构化形式储存,那将是有益的,所以w e b 信息 抽取技术就成为当前的一个研究热点。 同时,w w w 所具有的海量、异构、动态等特性也给w e b 信息抽取研究带来 了挑战。首先,w w w 是一个巨大的信息空间,w e b 页面数以几十亿计,而且仍 在以几何级数增长【6 1 ,如何自动高效地处理海量的w e b 信息就成为一个难点;其次, w e b 页面的异构性( 即同一主题的信息分散在不同语种、组织形式各异的w e b 页面 中) 使得如何在这些异构的网页里准确识别所需要的信息变得更加困难;最后, w w w 是一个动态的空间,网站的页面格式和内容瞬息万变,如何从w e b 信息中 抽取出需要的信息也是一个有待解决的问题。 w e b 信息抽取系统可以看作是把w e b 信息从不同文档中转换成数据库记录的 系统。因此,成功的w e b 信息抽取系统将把互联网变成巨大的数据库,它为海量 w e b 信息的再利用提供了可能,有着明显的优势和广阔的应用前景,是当今自然 语言处理领域的研究热点。 1 2 国内外研究现状 目前,信息抽取的研究重点主要集中在英文领域,日文的研究也有一部分4 1 。 英文信息抽取在命名实体( t e ) 和实体关系( t r ) 识别方面,已经取得相当大的进步, 但是在真正的事件抽取( s t ) 方面,还有许多问题需要探索,而这些问题大多涉及 到了自然语言处理中的核心难题。比如,在消息理解会议( e u c ,m e s s a g e u n d e r s t a n d i n gc o n f e r e n c e ) 第七届会议上,s r a 公司的3 项i e 指标均取得了较高的 成绩。下面我们给出了几个著名的信息提取应用系统。 表l 一1 几个著名的英文信息提取应用系统 系统名称所属公司基本功能及基本情况 i n f o x t r a c t c y m f o n y 公司n e ,t e ,t r 扩展,非受限领域事件抽取,支持开放领域的 o a s i f rb b n 公司 n e ,t e ,t r ,完全采用统计方法,训练句级模型( 宾州树 库) f a s t u ss i u 公司 整体的瀑布模型,有限状态方法( 纯粹的模板匹配) l a s i b i is h e f f i e l d 公司 g a t e 图形界面,模块化的形式,各模块可以自由组合 1 2 1 英语中进行信息抽取方法的现状 英语中进行信息抽取的方法包括如下几个方面: ( 1 ) 模式匹配方法是对各个层次和粒度信息识别和提取的主要手段。模式匹 配功能通常被抽象成层叠的有限状态转换器【7 】。 ( 2 ) 模式的获取采用机器学习方法自动进行。分为有指导的学习和无指导的 学习。由于无指导的学习模式把人们从繁重的手工劳动中解放出来,它已经成为 模式获取的主流方法。目前最新的做法只要求用户提供几个可以轻易想到的有代 表性的信息抽取模式,或者完全从信息检索的关键字集合获得初始关于模式的信 息。 ( 3 ) 模式库和模式匹配功能相分离。按照模式匹配方法实现的一个完整的 系统由两部分组成:模式学习部分和模式匹配部分。前者从标注或未标注的语料中 学出模式并将之放到一个模式库中,后者从模式库中取出模式并进行实际的信息 抽取。这种将模式库和模式匹配功相分离的做法能够较好保持i e 系统的移植性和 适用性,即当该系统要从一个新领域文本集合中进行新任务的信息提取时,只需 将模式库中的模式更新为适合该领域和任务的模式即可。 ( 4 ) 采用局部句法分析。局部句法分析器仅完成对句中名词短语、动词短语、 介词短语等识别,它们构成了模式中的组成成分。提高了模式获取的效率和模式 匹配的准确率。 4 ( 5 ) 采用语法和语义约束信息来表达信息抽取模式,并指导信息抽取。采用谓 词论元等句法结构作为模式的表达方法,对每一个论元进行语义属性约束。由于 英语的语法在语言表达中起着较为严格的约束作用,因而从一个或多个英语简单 句或从句的句法结构中可以泛化出一个具有较强语法结构概括能力的句法模式。 同时,语句中的词汇或短语的语义类别也具有对这些词汇或短语的抽象概括作用, 将这些信息泛化,得到关于上位概念的模式形式,则可以增强模式的概括能力。 以句法和语义对模式进行约束,需要有相应的领域相关或领域无关的语义知识库 做支持。 1 2 2 汉语信息抽取方法研究现状 与英语相比,1 9 9 8 年2 月,东北大学学报( 自然科学版) 发表了中文信息 自动抽取一文。该文介绍了中文信息抽取的概念和对一些问题进行了初步的探 索。时至今日汉语信息抽取技术还集中在单个任务的识别上。按照m u c 的任务 定义,设计实现完整的汉语信息抽取系统还未见报道,其中最深入的研究是关于 命名实体的识别【4 1 。国立台湾大学【4 】和新加坡肯特岗数字实验室参加了m u c 一7 关于命名实体识别的评测,取得了与英语命名实体识别系统相近的性能。 在实体关系的提取方面,姜吉发9 1 研究了一种自举的二元关系获取方法,该 方法与s n o w b a l l 系统的方法类似,从种子集合出发,获取任意给定的二元关系; 车万翔1 0 1 参加了a c e ( a u t o m a t i cc o n t e n te x t r a c t i o n ) 2 0 0 4 的实体关系评测,利用 a c e 的训练数据,分别对s v m 模型、w i n n o w 算法进行了训练,进行特征选择, 并以此进行实体关系的自动抽取,其f 值均达到了7 3 ;i n t e l 中国研究中心在 a c l - 2 0 0 0 上演示了一个他们开发的命名实体及其关系的信息抽取系统,该系统利 用记忆获取规则从而抽取相关内容【1 1 1 。 在指代的消解方面,北京大学的王厚峰提出了基于h n c 理论的代词消解方 法,西南师范大学的许敏,以第三人称代词为代表,利用格框架理论提出了在上 下文相关的语义环境中进行指代分类解决的思想。 在信息抽取实现方面,北京大学对人民日报中的会议消息进行了抽取。山西 大学郑家恒【1 2 】等利用最长公共子串、通过聚类的方法对关于农作物的品种描述模 式获取进行了研究,在小规模( 3 9 篇文本) 的实验数据上,表现出良好的结果。 在信息抽取资源方面,袁毓林在对支持信息抽取的知识资源建设中提出, 要有三个层面的语义知识支持信息抽取任务:宏观层的篇章知识,包括段落、小节、 句群、句子之间的语义关系;中观层的论元结构知识,包括句子中的谓词和有价名 词及其从属成分支配和依存关系;微观层的逻辑结构知识,包括句子中的否定、量 化、模态、时体等成分和其所约束的成分之间的语义关系等。试图将这些语义知 识通过同语料库的标注体现出来,以支持文本的深入处理。我们也期待着这样的 资源建设。 1 3 课题的提出和研究意义 1 3 1 课题的提出 在网络发展的早期,搜索引擎的出现的确给人们的信息获取提供了一个非常 好的平台,大大方便了网络使用者。但是随着网络和信息技术的快速发展,网络 上信息的爆炸式增长给搜索引擎的使用带来了困难。现有的搜索引擎一般都采用 关键字检索,只完成收录大量网址以供检索、通过关键词匹配检索网页、根据关 键词的匹配程度排序检索结果等几项功能【1 3 】。当用户把一个用户感兴趣的话题直 接提交给搜索引擎,它会找到很多包含问题的文档,但不一定包含答案。而信息 抽取系统可以在搜索引擎的基础上进行更多的智能处理,比如应用n l p 的成熟技 术,通过分析用户的需求从检索出来的文档中抽取出答案等。 以上这些说明,使用传统的搜索引擎是一种技术性比较高的操作,搜索的关 键问题是关键词的选取。人们想快速、准确地获取信息,而传统的搜索引擎似乎 已不能满足人们的信息需求【1 4 】,信息抽取系统正是在这种情况下提出的,它将是 快速准确获取信息的最好途径,它的设计理念、运行机制和期望结果都不同于现 有的关键字检索,是一种更好形式的信息检索。然而信息抽取系统并不能替代传 统的网络搜索引擎,它只是搜索引擎的扩展,它可以理解自然语言,更加人性化 的交互过程使得人们可以更加便捷地获取信息。这将革命性地改变人们从网络获 取信息的方式,具有很大的理论和实用价值。 研究中文信息抽取系统是我们实验室的一个尝试,此课题的目的是对自然语 言处理进行深入的了解,掌握国际和国内信息抽取系统研究的新动态,并提出一 些设计和实现中文信息抽取系统的新思想,将这些思想应用到我们的系统中,做 6 出一个具有良好性能的中文信息抽取系统。 1 3 2 课题的研究意义 中文信息抽取系统能利用已有的自然语言研究成果为用户直接返回所需的 答案,而不是相关的网页。所以,中文信息抽取系统能更好的满足用户的检索 需求,能更快地找出用户所需的信息。可以说,中文信息抽取系统就是新一代 的信息获取工具。对于中文信息抽取系统,用户不需要把自己的问题分解成关 键字,而是用户把兴趣话题直接提交给中文信息抽取系统。中文信息抽取系统 结合自然语言处理技术,通过对问题理解,能够最终直接提交给用户想要的信 息。中文信息抽取系统就像一个知识渊博的专家,可以快速准确地得到用户所 需要的任何信息。可以看出,中文信息抽取系统要比传统的搜索引擎方便、快 捷、高效。 中文信息抽取系统从本质上区别于专家系统、信息检索系统、问答系统,它 不是传统技术的简单变形,而是一个具有高度理论和实用价值的研究课题。 1 4 本文的研究内容 w e b 信息抽取的一个直接应用就是帮助人们在网络中快速准确地查找所需信 息,加快人们获取信息的速度,从而提高工作效率。本着这样一个思想,本选题 着眼于当前社会的煤矿安全信息,深入分析了煤矿安全信息的新闻特点,在此基 础上尝试实现一个煤矿安全信息抽取系统。 本文的内容主要如下: ( 1 ) 总结了基于自然语言理解方式进行w e b 信息抽取时对处理半结构化文本 的特点。 ( 2 ) 改进了现有的语言模型并应用于地名和时间的实体识别,取得了较好的识 别效果。 ( 3 ) 研究了时间短语的特征和识别算法,并应用与系统实现,取得了预期的结 果。 1 5 本文的组织结构 本文共分五章,组织如下: 第一章首先分析了信息抽取的现状和自然语言理解在解决这些问题上所做 的具体的工作,指出了中文信息抽取系统的应用和研究价值,接着阐述了信息抽 取系统在国内外的研究概况。最后说明了本课题的研究意义和本文的主要研究内 容、组织结构。 第二章分析了现有的信息抽取理论研究现状,详细阐述现有的信息抽取理 论、已有的信息抽取模型和语言模型。 第三章分析了信息抽取理论中的当前主要任务,即命名实体识别技术的发展 历程和理论,详细阐述本文中信息抽取系统采用的命名实体识别算法方法。 第四章总结了开发的中文信息抽取系统原型的设计思想,针对四大模块的设 计与实现作了详细的分析和设计,并对实验结果进行分析。 第五章总结了本文的主要工作和本系统中存在的问题及下一步应该进行的 改进工作。 第二章信息抽取技术及知识表示 2 1w e b 信息抽取概述 w e b 信息抽取是基于网络的信息抽取技术,它是信息抽取技术的研究新领域。 本文首先分析了信息抽取技术: 2 1 1 信息抽取的发展历史 从自然语言文本中获取结构化信息的研究最早开始于2 0 世纪6 0 年代中 期,这被看作是信息抽取技术的初始研究,它以两个长期的、研究性的自然语言 处理项目为代表【1 5 】。 一个是美国纽约大学开展的l i n g u i s t i cs t r i n g 项卧16 1 ,它开始于6 0 年代中 期并一直延续到8 0 年代。该项目的主要研究内容是建立二个大规模的英语计算 语法,与之相关的应用是从医疗领域的x 光报告和医院出院记录中抽取信息格 式。 另一个相关的长期项目是由耶鲁大学在2 0 世纪7 0 年代设计实现的 f r u m p 系统【1 7 】。该系统从新闻报道中抽取信息,内容涉及地震、工人罢工等很 多领域或场景。该系统采用了期望驱动( t o p d o w n ,脚本) 与数据驱动( b o a o m u p , 输入文本) 相结合的处理方法,被后来的许多信息抽取系统采用。 从2 0 世纪8 0 年代末开始,信息抽取研究蓬勃开展起来,这主要得益于消 息理解系列会议( m u c ,m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) 的召开。从1 9 8 7 年 开始到1 9 9 8 年,m u c 会议共举行了七届,它由美国国防高级研究计划委员会 ( d a r p a ,t h ed e f e n s e a d v a n c e dr e s e a r c ha r o j e c t sa g e n c y ) 资助。 目前,除强烈的应用需求外,美国国家标准技术研究所( m s t ) 组织的自动 内容抽取评测会议( a c e ,a u t o m a t i cc o n t e n te x t r a c t i o n ) 也是推动信息抽取技术 研究进一步发展的主要动力之一。 中文信息抽取方面的研究起步较晚,主要的研究工作集中在对中文命名实体 的识别方面,在设计实现完整的中文信息抽取系统方面还处在探索阶段【2 0 】【2 l 】【2 2 1 。 按照信息抽取领域项级国际会议m u c 的研讨结果,信息抽取任务分为实体 9 识别、属性抽取和关系抽取等【1 8 】: 1 实体抽取( e n t i t ye x t r a c t i o n ) 命名实体是文本中基本的信息元素,是正确理解文本的基础。常用的实体类 型有: ( 1 ) 命名实体( n a m e di n d i v i d u a l s ) :如组织、人、地点、书、电影、宾馆等。 ( 2 ) 命名类型( n a m e dk i n d s ) :如蛋白质、化合物、药物、疾病、飞行器等。 ( 3 ) 时间( t i m e s ) :时间表达式,日期、时刻等。 ( 4 ) 量度( m e a s u r e s ) - 金钱表达式、距离、大小、重量等。 对于每个参考文本必须识别它的范围和类型,比如“堡丛矛l m i c r o s o f l 今天宣 布 ,其中下划线被识别为组织或者公司名。但“戴尔”是公司名还是人名则需 要根据具体情况来判断。 在信息抽取研究中,命名实体识别是目前最有实用价值的一项技术。根据 m u c 评测结果【1 9 】,英文命名实体识别任务的f 一指数( 召回率与准确率的加权几何平 均值,权重取1 ) 能达到9 0 以上。 命名实体识别的难点在于:在不同领域、场景下,命名实体的外延有差异;数 量巨大,不能枚举,难以全部收录在词典中;某些类型的实体名称变化频繁,并 且没有严格的规律可以遵循:表达形式多样;首次出现后往往采用缩写形式【4 1 。 命名实体识别的方法主要分为:基于规则的方法和基于统计的方法。一般来 说,基于规则的方法性能要优于基于统计的方法。但是这些规则往往依赖于具体 语言、领域、文本格式,编制过程耗时且容易产生错误,并且需要富有经验的语 言学家才能完成。相比而言,基于统计的方法利用人工标注的语料进行训练,标 注语料时不需要广博的计算语言学知识,并且可以在较短时间内完成。因此,这 类系统在移植到新的领域时可以不做或少做改动,只要利用新语料训练一遍即可。 此外,基于统计的系统要移植到其他自然语言文本也相对容易一些。 2 属性抽取( a t t r i b u t ee x t r a c t i o n ) 实体常常是由感兴趣的属性联系起来的,如: 西北大学肇始于1 9 0 2 年的陕西大学堂1 9 1 2 年始称西北大学。1 9 2 3 年8 玛改称 国立西北大学,1 9 3 7 年抗战瀑发盾国立北平大学、国立北平师范大学、国立北 洋i 学院等内迁来陕。组或国立西安临时大学1 9 3 8 年更名为国立西北联合大学 1 0 1 9 3 9 年8 月复称国立西北大学。建国初期。话北大学为中央教育部直属的1 4 所综合 大学之一1 9 5 8 年归属陕西雀主管。1 9 7 8 年被确定为全国重点大学。现为国家 2 1 1 i 程”重点建设院校和西部大开发重点支持建设院校。 对于上面这段文字,西北大学的属性信息可以用如下所示: 西北大学 19 0 2 年 陕西省 学校 属性值的发现常依赖于共指分析,即知道哪些屙l 生是属于同一个实体。 3 关系抽取( r e l a t i o ne x t r a c t i o n ) 在抽取实体和它们的属性之后,下一步就是抽取除实体之间的各种关系。如 e m p l o y e e _ o 缇p e r s o n 和o r g a i z a t i o n 之间的关系:p r o d u c to 堤a r t i f a c t 和o r g a n i z a t i o n 之间的关系等。再比如e m p l o y e e o f ( 张三,i b m ) 表示:张三是i b m 的e m p l o y e e ( r 员 工) :p r o d u c to f ( p c ,i b m ) 表示:p c 是i b m 的p r o d u c t ( 产品) 。 2 1 2 信息抽取的一般过程 按照信息抽取任务定义,目前进行信息提取多采用如下的工作流程【2 3 】【2 4 1 ( 1 ) 定义待抽取的信息框架。 ( 2 ) 用一组信息模式( i n f op a t t e r n s ) 描述感兴趣的信息( 面向主题领域的) 。 ( 3 ) 对文本进行“适度的 词法、句法及语义分析,以提供候选的识别信息。 ( 4 ) 将候选的识别信息与模式相匹配,计算、选择期望的识别信息。 ( 5 ) 进行上下文关联、指代、引用等分析和推理,确定信息的最终形式。 ( 6 ) 输出结构化的文本内容。 结合上面的信息抽取流程,下面给出一个实例信息抽取系统结构: 图2 1 纽约大学p r o t e u s 信息抽取系统结构 这是一个典型的m 系统的瀑布模型,在这样的模型中,的任务是分阶段进 行的,包括语言的分析和处理、模式匹配、在篇章范围内分析处理共指现象等几 个方面,整个系统是由各个子任务组成的。 从这个流程中可以看出,信息抽取的目标是将各种对象( 实体、实体间的关系、 事件) 识别出来、并将其有机的关联起来。 2 1 3 信息抽取研究的关键内容 在大规模的文本集合中进行信息检索和数据挖掘,将i e 推向了越来越广泛的 应用。信息抽取是面向任务的,关键在于抽取信息的模式是随任务而变化的。我 们不可能为每一个任务都开发一个对应的系统,因此信息提取的关键研究内容始 终集中在信息提取系统的移植性( p o r t a b i l i t ) ,即面向任务的适应性) 和复杂关系的 抽取性能 e r f o m a n c e ) 两个方面。具体包括: ( 1 ) 匝是面向任务的,需要特定的主题领域知识的支持。虽然一些独立的任 务( 比如命名实体识别) 己与领域性无关,但模式的获取、面向特定任务的资源建设 代价是很大的。这些资源包括:a ) 表达事件、关系的有关模式集合:b ) 具体的关于 事件模板数据的填充规则以及一定的推理规则;如何快速的获得与任务相关的领 1 2 域知识、把大量已有的规则有效的用于另外的一个主题,是信息抽取系统的适应 性问题,它始终是技术的关键问题。 ( 2 ) 关于事件抽取的性能特征。许多不同的抽取任务,各种各样复杂度的抽 取方法,根据m u c 的结果报告,其抽取性能都不够理想,f 值( 指槽值填充的平 均值) 很少有超过6 0 的。究其原因:一是槽值的填充需要依靠名称、事件、共指、 以及必要的推理等任务的完成而综合获得:另一是定义的抽取模式对信息的覆盖 率一直是尚未解决的问题,抽取的性能完全取决于所规定的模式的合适性。 2 1 4w e b 信息抽取的分类 随着w w w 的日益繁荣,信息抽取的研究重点已经逐渐转移到w e b 信息抽取 上来,并涌现出许多算法和系统【2 3 1 1 2 4 1 。其中最知名的研究项目是卡耐基梅隆大学 自动学习和发现中一i 二, ( c e n t e rf o ra u t o m a t e dl e a r n i n ga n dd i s c o v e r y ) 的“w e b 挖掘 ( m i n i n gt h ew o r l d w i d ew e b ) ”项目。该项目的目标是通过从w e b 中自动抽取事实, 来创建大型的、结构化的和有用事实的数据库。它们的技术途径是研究机器学习 算法,通过训练自动抽取信息。 目前,w e b 信息抽取技术有多种分类方式1 4 1 2 5 1 1 2 6 11 2 7 1 ,根据各种工具所采用的 原理不同,可分为4 类:基于自然语言理解的方式、基于包装器归纳的方式、基于 o n t o l o g y 的方式和基于h t m l 结构的方式。 1 基于自然语言理解方式的信息抽取 自然语言理解技术通常用于自由文本的信息抽取,需要经过的处理步骤包括: 句法分析、语义标注、专有对象的识别( 如人物、公司) 和抽取规则1 2 1 。具体地说 就是把文本分割成多个句子,对一个句子的句子成份进行标记,然后将分析好的 句子语法结构和事先定制的语言模式( 规则) 匹配,获得句子的内容。也就是利用子 句结构、短语和子句间的关系建立基于语法和语义的抽取规则实现信息抽取。规 则可以由人工编制,也可从人工标注的语料库中自动学习获得。这类信息抽取主 要适用于源文档中含有大量文本的情况,特别针对于合乎语法的文本。 基于自然语言理解的信息抽取技术是将w e b 文档视为文本进行处理的,其缺 点是【7 1 : 1 3 ( 1 ) 没有利用w e b 文档独特于普通文本的层次特性,抽取规则表达能力有限, 缺乏健壮性,获得有效的抽取规则需要大量的样本学习,达到全自动的程序较难, 而且速度较慢,对于操作网上海量数据来说这是一个大问题。 ( 2 ) 只支持记录型的语义模式结构,而不支持复杂对象的抽取。 ( 3 ) 由于w e b 页面中的文本通常不是结构完整的句子,所以适用范围较窄。 2 基于包装器归纳方式( w r a p p e ri n d u c t i o n ) 的信息抽取 包装器由一系列的抽取规则以及应用这些规则的程序代码组成。通常,一个 包装器只能处理一种特定的信息源。从几个不同信息源中抽取信息,需要一系列 的包装器程序库。形式化地,每一类w e b 页面对应一个包装器【4 1 。 包装器归纳法可以自动分析出待抽取信息在网面中的结构特征并实现抽取, 其主要思想是用归纳式学习方法生成抽取规则,该方法由n i c h o l a sk u s h m e r i c k 于 1 9 9 6 年提出【2 1 1 。 与自然语言处理方式比较,包装器较少依赖于全面的句子语法分析和分词等 复杂的自然语言处理技术,更注重于文本结构和表格格式的分析。使用包装器的 困难在于: , ( 1 ) 包装器的针对性强,可扩展性( s c a l a b i l i t y ) 较差。由于一个包装器只能处 理一种特定的信息源,所以若从几个不同的信息源中抽取信息,就需要一系列的 包装器集,这样使得信息抽取的工作量巨大。 ( 2 ) 可重用性( r e u s a b i l i t y ) 差。包装器对页面结构的依赖性强,当出现一类新的 w e b 页面或旧的页面结构发生了变化后,原来的包装器就会失效,无法从数据源 中获得数据或得到错误的数据。这使得一个新的问题出现,即包装器的维护问题。 ( 3 ) 缺乏对页面的主动理解。目前的包装器主要依赖于原网页或其后台数据库 的模式,基本上是一种数据模式的还原,缺乏对数据语义的主动理解。 3 基于o n t o l o g y 方式的信息抽取 按照s t a n f o r da i 专家t o mg r u b e r 的定义,o n t o l o g y 是为了帮助程序和人共享知 识的概念化规范,在知识表达和共享领域,o n t o l o g y 描述了在代理之间的概念和 关系( c o n c e p t sa n dr e l a t i o n s ) 。 基于o n t o l o g y 的信息抽取主要利用了对数据本身的描述信息实现抽取,对网 页结构的依赖较少。由b d g h 锄y o n gu n i v e r s i t y 开发的信息抽取工具就采用了这种 1 4 方法。采用该方法,事先要由领域知识专家采用人工的方式书写某一应用领域的 o n t o l o g y ( 包括对象的模式信息、常值、关键字的描述信息,其中常值和关键字提 供了语义项的描述信息) 。根据o n t o l o g y q b 常值和关键字的描述信息产生抽取规则, 对每个无结构的文本块进行抽取获得各语义项的值。另外系统根据边界分隔符和 启发信息将源文档分割为多个描述某一事物不同实例的无结构的文本块,还将抽 取出的结果放入根据o n t o l o g y 的描述信息生成的数据库中。 基于o n t o l o g y 方式的最大的优点是对网页结构的依赖较少,只要事先创建的应 用领域的o n t o l o g y 足够强大,系统可以对某一应用领域中各种网页实现信息抽取。 主要缺点是: ( 1 ) 需要由领域专家创建某一应用领域的详细清晰的o n t o l o g y ,工作量大。 ( 2 ) 由于是根据数据本身实现信息抽取,因此在减少了对网页结构依赖的同 时,增加了对网页中所含的数据结构的要求,如要求内容中包

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论