![[硕士论文精品]web中文信息抽取中命名实体识别的研究及应用_第1页](http://file.renrendoc.com/FileRoot1/2017-12/8/26e7ac73-f957-408e-8522-9dd1a8c03057/26e7ac73-f957-408e-8522-9dd1a8c030571.gif)
![[硕士论文精品]web中文信息抽取中命名实体识别的研究及应用_第2页](http://file.renrendoc.com/FileRoot1/2017-12/8/26e7ac73-f957-408e-8522-9dd1a8c03057/26e7ac73-f957-408e-8522-9dd1a8c030572.gif)
![[硕士论文精品]web中文信息抽取中命名实体识别的研究及应用_第3页](http://file.renrendoc.com/FileRoot1/2017-12/8/26e7ac73-f957-408e-8522-9dd1a8c03057/26e7ac73-f957-408e-8522-9dd1a8c030573.gif)
![[硕士论文精品]web中文信息抽取中命名实体识别的研究及应用_第4页](http://file.renrendoc.com/FileRoot1/2017-12/8/26e7ac73-f957-408e-8522-9dd1a8c03057/26e7ac73-f957-408e-8522-9dd1a8c030574.gif)
![[硕士论文精品]web中文信息抽取中命名实体识别的研究及应用_第5页](http://file.renrendoc.com/FileRoot1/2017-12/8/26e7ac73-f957-408e-8522-9dd1a8c03057/26e7ac73-f957-408e-8522-9dd1a8c030575.gif)
已阅读5页,还剩51页未读, 继续免费阅读
[硕士论文精品]web中文信息抽取中命名实体识别的研究及应用.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要随着信息产业的不断发展,网络已经成为人们工作生活中不可缺少的重要工具。WEB也随之成为人类获取信息的主要来源。WEB中的数据正以每天新增一百万个页面的速度增长。到目前为止,页面的数量已经超过10亿【11。面对海量的、非结构化的文本信息、如何快速有效地获得我们所需要的在信息成为当前信息处理的热点问题。信息检索IR,INFORMATIONRETRIEVAL和信息抽取IE,INFORMATIONEXTRACTION的技术研究F是为了解决这一问题。信息抽取的任务是把文本里包含的信息进行结构化处理,把非结构化及半结构化的信息变成类似表格一样结构化的组织形式,以便人们可以像查询数据库一样获取自己需要的信息。在实现信息抽取过程中,命名实体识别是一项具有关键作用的技术。命名实体NAMEDEMITY,NE识别是指识别出文本中特定的实体。它在信息抽取、文本分类、信息检索和自动问答等多种自然语言处理技术中起着至关重要的作用,是这些技术实现的基础。本文主要以从若干有关名人传记的网页中抽取名人的姓名、籍贯以及与他们有关的机构名为例,研究了中文信息抽取中人名、地名和机构名的识别方法及其应用。本文主要采用基于规则和统计相结合的方法进行命名实体识别。同时指出传统的隐马尔科夫统计模型割裂了词与词之间的关系,忽略了上下文对当前词的影响这一局限性,通过改进的隐马尔科夫模型提高了地名实体识别的准确率和召回率。同时,在利用隐马尔科夫统计模型进行机构名实体识别的基础上,通过构建一元模型来识别那些缩写的以及没有标志词的机构名。实验证明取得了更好的识别效果。关键词信息抽取,命名实体识别,隐马尔科夫模型,局限性,一元模型HTTP/INFO3DOUCOM/网络推广ABSTRACTWITHTHEDEVELOPMENTOFINFORMATIONINDUSTRY,THEINTERNETHASBECOMEAIMPORTANTANDINDISPENSABLETOOLINOURSWORKANDLIFETHEWEBHASBECOMETHEPRIMARYSOURCEFORPEOPLETOGETTHEINFORMATION,BUTTHEDATAONTHEINTERNETINCREASESEXPONENTIALLYATTHESPEEDOFONEMILLIONPAGESEVERYDAYATPRESENT,THEQUANTITYOFTHEPAGESHASEXCEEDTENHUNDREDMILLIONSINTHEFACEOFTHEVASTINFORMATION,HOWTOGETTHEINFORMATIONTHATWENEEDEDFLEETLYANDEFFECTIVELYHASBECOMETHEFOCALPROBLEMININFORMATIONPROCESSINGTHEPURPOSEOFTHERESEARCHABOUTINFORMATIONRETRIEVALIRANDINFORMATIONEXTRACTIONIEISTOSOLVETHISPROBLEMTHEASSIGNMENTOFINFORMATIONEXTRACTIONISTOPROCESSTHEINFORMATIONINTEXTWHITCHLEADSTOTHATTHETINSTRUCTUREANDHALFSTRUCTUREINFORATIONBECOMESTRUCTUREFORMINTHISWAY,PEOPLECANGETTHENEEDEDINFORMATIONTHROUGHQUERYINGTHEINFORMATIONONTHEVCWWJUSTLIKEADATABASEINTHEPROCESSOFIE,THENAMEDENTITYRECOGNITIONNERISPIVOTALTECHNIQUETHEINTENTIONOFTHENERISTORECOGNISETHESPECIFICALLYENTITIESITHASAMAJOREFFECTONTHENATURELANGUAGEPROCESSINGNLPABOUTIE、TEXTCLASSIFICATION、IR、QUESTIONANSWERINGSYSTEMANDSOON,ANDITISTHETHEBASICOFTHESETECHNOLOGYINTHISARTICLE,WESETANEXAMPLEOFTRYINGTORECOGNISETHEENTITIESINTHOSEWEBPAGESABOUTTHEBIOGRAPHYOFTHECELEBRITIESTORESEARCHTHEMETHODSANDAPPLICATIONOFTHERECOGNITIONABOUTPERSON、LOCATION、ORGANIZATIONMAINLYINTHISTEXT,ITADOPTSTHEMETHODTHATRULESANDSTATISTICSCOMBINATIVEMAILYITPOINTSOUTTHELIMITATIONOFTHETRADITIONALHIDDENMARKOVMODELHMMTHELIMITATIONISTHATITDISSEVERSTHERELATIONSHIPAMONGWORDSANDNEGLECTSTHEINFLUENCEOFTHECONTEXTONCURRENTWORDTHROUGHTHEIMPROVEDHMMTHEPRECISIONANDRECALLOFTHELOCATIONENTITIESHAVEBEENRAISEDATTHESAMETIME,ONTHEBASEOFTHEORGANIZATIONENTITIESRECOGNITIONUSINGHMM,THROUGHCONSTRUCTINGTHEONEELEMENTMODELTORECOGNISETHOSEABBREVIATIVEANDUNMARKEDORGANIZATIONSTHEEXPERIMENTSDEMONSTRATETHATITHASOBTAINEDBETTERPERFORMANCEKEYWORDSINFORMATIONEXTRACTION,NAMEDENTITYRECOGNITION,THEHIDDENMARKOVMODEL,LIMITATION,ONEELEMENTMODELII西北大学学位论文知识产权声明书本人完全了解西北大学关于收集、保存、使用学位论文的规定。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。本人授权西北大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研究所等机构将本学位论文收录到中国学位论文全文数据库或其它相关数据库。保密论文待解密后适用本声明。学位论文作者签名壶11垒指导教师签名07年易月,扫1年吖月7日西北大学学位论文独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,本论文不包含其他人已经发表或撰写过的研究成果,也不包含为获得西北大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名L念汐7年易月,日HTTP/INFO3DOUCOM/网络推广西北大学硕十学位论文11研究背景与意义第一章引言随着INTEMET技术的发展,大量的信息以电子文档的方式出现,而且信息数量每天都以几何级数激增,使得人们想从网上获取需要的信息日趋困难。那么面对这些海量的数据,人们如何才能快速准确的获取自己需要的信息成为目自I信息技术的主要挑战。信息抽取IEINFORMATIONEXTRACTION技术正是在这个背景下出现的。在WWW上,同一主题的信息通常分散存放在不同网页上,而且表现的形式也各不相同。信息抽取的任务就是把文本里那些非结构化及半结构化的信息变成结构化的组织形式。所以WEB信息抽取技术就成为当前的研究热点问题口】。在实现信息抽取过程中,命名实体的识别是一项具有关键作用的技术之一。计算机语言学所研究的命名实体是指句子中有确定含义的名词。中文命名实体CHINESENAMEDENTITY,NE识别是指识别出文本中这些特定的实体。它在信息抽取、自动问答、机器翻译和信息检索等多种自然语言处理技术中起着至关重要的作用,是这些技术实现的基础。由于命名实体是信息的主要载体而且包含了文本中重要信息,因此能否高质量高效率地识别这些命名实体成为影响信息抽取的关键环节。一方面,文本中频繁出现的命名实体是制约提高分词精度最主要的原因,其识别的好坏将直接影响分词精度以及其后的词性标注和句法分析的精度;另一方面,命名实体的识别也是汉语分词的关键问题和热点问题。因此研究命名实体的识别具有重要的理论意义和实践价值【3】。12国内外研究现状信息抽取中的命名实体识别是一类特殊的模式识别问题。近年来国内外有关这一问题的研究非常活跃。由美国国防高级研究计划委员会资助的消息理解系列会议MUCMESSAGEUNDERSTANDINGCONFERENCE,从1987年开始到1998年共举行了七届。在1995年9月举行的第六届MUC会议中,引入了命名实体识别评测任务,主要包含中文、英文和同文等三个语种的评测。在1998年召开的MUC7中命名实体被分成人名PERSON、地名LOCATION、机构名ORGANIZATION、日期DAM、时间TIME、百分数PERCENTAGE和货币第一章引言MONETARYVALUE等七类TLL【5】。国外对于英文命名实体识别的研究开始比较早。英文命名实体的识别主要采用基于统计模型和机器学习的方法。英文命名实体的识别中只需考虑词本身的特征而不涉及分词问题,因此实现难度相对较低,目前已经达到了一个较高的水平。根据IVIUC评测结果,测试的准确率和召回率可以达到97左右【5】。中文命名实体识别起步较晚和中文内在的特殊性两方面的原因导致中文命名实体识别的水平相对于国外显得比较落后。中文内在的特殊性决定了在文本处理时首先必须进行词法分析,这就加大了中文命名实体识别的难度。国内外关于中文命名实体识别的准确率和召回率的报告一般在90左右。20世纪90年代初期开始,国内外一些学者对中文通用命名实体如地名、人名、组织结构名等识别进行了一些研究。如清华大学的孙茂松是国内最早做中文人名识别的,他主要采用统计的方法计算姓氏和人名用字概率。复旦大学的吴立德对中文人名、组织机构名的识别进行过研究,他们采用的都是统计或规则的方法,或者是统计和规则相结合的方法,取得了不错的效果。INTEL中国研究中心的ZHANGYIMIN和ZHOUJOEF等人在ACL2000上演示了他们开发的一个抽取中文命名实体以及这些实体间相互关系的信息抽取系统,该系统利用基于记忆的学习MBL,MEMORY,BASED1E删NG算法获取规则用以抽取命名实体及它们之间的关系【6】【71。13本文的内容安排WEB信息抽取的一个直接应用就是帮助人们在海量的数据中找到自己需要的信息。而实现这一目标的关键技术就是如何快速准确地进行命名实体识别。本课题研究了中文命名实体识别的方法在WWW中抽取中华名人有关信息中的应用,帮助人们快速准确地将分散在不同动态网页中中华名人的有关信息抽取出来。在目前信息抽取的研究中,对于命名实体识别的研究仍然是一个有待进一步完善和提高的关键技术。虽然目前已经有大量的关于命名实体识别方法的研究,但是没有哪一种方法在所有类别的命名实体识别中都取得很高的准确率和召回率,各种方法在识别不同类别的命名实体时都有其自身的缺陷,甚至同一种方法在不同的应用领域都表现出不同的识别效果。因此在具体应用中我们需要采取适当的办法弥补这些方法的不足从而提高识别的准确率和召回率。2HTTP/INFO3DOUCOM/网络推广西北人学硕十学位论文本课题以从若干有关于名人传记的网页中抽取出名人的姓名、籍贯以及所在的机构为例研究中文命名实体中人名、地名和机构名的识别方法及其具体应用。在中文命名实体中数字、日期和时间等命名实体,结构特征明显,识别相对简单,利用有限自动机就可以实现并取得较好的识别效果,本文对此不再做专门的讨论。在人名实体识别中,本文按照人名的内部组成规律将入名实体分类,主要采取概率统计的方法进行识别,为了弥补单一概率统计方法的不足,借助划分的人名类别构造出相应的规则,然后按照规则匹配来进行识别,取得了较好的识别效果。在地名实体识别中,主要采用了构造地名识别的规则与隐马尔科夫统计模型相结合的识别方法,同时指出传统的隐马尔科夫模型割裂了词与词之间的关系,忽略了上下文对当前词影响的弊端,改进后的模型考虑到了前后若干词字对当前词的影响,有助于对句子的正确切分和词性标注从而提高了识别的准确率和召回率。在机构名的识别中,在利用基于隐马尔科夫统计模型的识别方法基础上还构建了一元模型,从而实现了对那些缩写的以及没有标志词的机构名实体的识别,实验证明取得了更好的识别效果。14本文结构安排本文主要分为五章,各章节的内容安排如下第一章引言部分。介绍本课题的研究背景与国内外的发展现状,指出本课题的研究内容及意义。第二章信息抽取与中文命名实体识别。阐述有关信息抽取技术和命名实体识别。本文从信息抽取开始,引出信息抽取中的关键技术即命名实体的识别,阐述了中文命名实体识别的特点、难点及其常用的方法,并且给出了常用的语言模型。第三章基于规则与统计相结合的中文人名的识别及应用。以从有关于名人传记的WEB页面中识别名人的姓名以及与他们相关的人名为例,阐述了基于规则与统计相结合的人名的识别方法及其在实际信息抽取中的应用。本文按照人名的内部组成规律将人名实体分类,主要采取概率统计的方法进行识别,为了弥补单一概率统计方法的不足,借助划分的人名类别够造出相应的规则,然后按照规则匹配来进行识别。通过对测试数掘和语料库的试验测试,该方法取得了较好的识别效果。第四章基于规则和统计相结合的地名的识别及应用。以从有关于名人传记的WEB3第一章引言页面中识别名人的籍贯及与其有关的地名为例,阐述基于规则和统计相结合的地名实体的识别方法及应用。本章主要采用了构造地名识别规则与隐马尔科夫统计模型相结合的识别方法,指出传统的隐马尔科夫模型割裂了词与词之间的关系,忽略了上下文对当前词影响的弊端,改进后的模型考虑到了前后若干词字对当前词的影响,有助于提高识别的准确率和召回率。第五章基于统计的中文机构名的识别及应用。以从有关于名人的WEB页面中识别出与名人相关的单位机构名为例阐述机构名的识别方法在现实问题中的应用。本章在利用基于隐马尔科夫统计模型的识别方法基础上还构建了一元模型,从而实现了对那些缩写的和没有标志词的机构名实体的识别,在一定程度上弥补了采用单一统计模型在识别过程中的不足。最后是结束语。总结本课题的研究工作,并指出未来工作的进一步研究以及发展前景。4HTTP/INFO3DOUCOM/网络推广西北人学硕十学位论文第二章信息抽取与中文命名实体识别21信息抽取IE,INFORMATIONEXTRACTION211WEB信息抽取概述文本是网上信息的主要载体。人们要从这些海量的文本数据中快速准确地找到自己需要的数据就迫切需要通过信息抽取从中进行筛选。WEB的信息抽取和浏览器上的信息检索和查询有着本质上的差异,并且处理信息的粒度也不相同。现有的搜索引擎只能根据用户提交的关键词返回一组URLS而不能直接定位到所需的数据,用户必须逐一浏览URL对应的WEB页,采用人工的方式定位最终信息,而信息抽取的目标是把HTML文档中的半结构化文本信息进行结构化处理,变成表格一样的组织形式并将它们转换为结构化数据,并且保存数据库中【81。WEB信息抽取系统就可以看作是把信息从不同文档中转换成数据库记录的系统。212信息抽取技术的发展信息抽取的前身是文本理解。它最早开始于20世纪60年代中期,从自然语言文本中获取结构化信息,这被看作是IE技术的初始研究。八十年代以来,美国政府一直支持MUC对信息抽取技术进行评测。MUC会议使IE发展成为自然语言处理领域一个重要分支I6】。过去的十年,IE研究取得了丰硕的研究成果【91。通过MUC现有的技术水平,我们已有能力建造全自动的IE系统,在有些方面的性能已经达到了人类专家的水平。目前,信息抽取的研究重点主要集中在英文领域,日文的研究也有一部分,而且大部分的研究都是围绕书面文本。213信息抽取技术的分类WEB信息抽取技术有多种分类方式,根据自动化程度可以分为人工方式的信息抽取、半自动方式的信息抽取和全自动方式的信息抽取。根据各种工具所采用的原理不同,可分为五类基于自然语言处理方式的信息抽取、基亍OMOLOGY方式的信息抽取、基于包装器归纳方式的信息抽取、基于HTML结构的信息抽取和基于WEB查询的信息抽取【LO】【LL】1121131141。1、基于自然语言处理方式的信息抽取基于自然语言理解的信息抽取技术是将WEB文档视为文本进行处理的。这种方式5第二章信息抽取与中文命名实体识别是先将文本分解成多个句子,然后对这些句子成分进行标记,最后将得到的语法结构与定制的规则进行匹配,从而获得句子的内容。这些规则可以由人工编制,也可从人工标注的语料库中自动学习获得。但是由于抽取规则的表达能力有限,因此缺乏健壮性,要获取有效规则需要进行大量学习,另外这种方法不支持复杂对象的抽取,所以适用范围有限。本文的应用对象也是包含大量文本的网页,同样也要将这些文本中的句子进行切分,然后进行词性标注。不同的是,本文并不仅仅只采用制定有效规则的来实现信息抽取,而是在构造抽取规则的同时引入了统计模型,通过计算概率来弥补基于自然语言处理进行信息抽取的不足。2、基于ONTOLOGY方式的信息抽取这种由BRIGHAMYONGUNIVERSITYBYU提出的信息抽取方法主要是利用对数据本身的描述信息实现抽取,这种方式对网页结构依赖少。但是需要事先由知识专家采用人工的方式书写某一应用领域ONTOLOGY【LL】。并且根据ONTOLOGY中的信息产生一系列抽取规则。系统根据边界分隔符和启发信息将源文档分割为多个无结构的文本块,通过抽取规则对这些文本块进行抽取,最后将抽取的结果放入数据库中。虽然对网页依赖较少,但是增加了对网页中内容数据结构的要求,同时不支持超链接。另一方面,要创建该领域的详细清晰的ONTOLOGY,工作量很繁重。3、基于包装器归纳方式的信息抽取由NICHOLASKUSHMERICK于1996年提出的基于包装器归纳方式的信息抽取的主要思想是采用归纳式学习方法生成抽取规则自动分析出待抽取信息在网面中的结构特征并实现抽取。包装器由一系列的抽取规则以及应用这些规则的程序代码组成。由于包装器有很强的针对性和对网页结构很强的依赖性,自然缺少可扩展性和可重用性。4、基于HTML结构的信息抽取该类信息抽取技术的特点是根据WEB页面的结构定位信息。在信息抽取之前通过解析器将WEB文档解析成语法树,通过自动或半自动的方式产生抽取规则从而将信息抽取转化为对语法树的操作从而实现信息抽取。5、基于WEB查询的信息抽取上述的四种抽取方式,采用了不同的原理,抽取规则的形式和信息定位方式也各不6HTTP/INFO3DOUCOM/网络推广两北大学硕十学位论文相同,因此均不具有通用性。使用WEB的相关技术解决WEB的问题称为WEB技术规范。具有WEB技术规范的信息抽取,将WEB信息抽取转化为使用标准的WEB查询语言对WEB文档的查询,具有通用性。本文中实体识别的应用对象是有关名人传记网页中的文本。要识别出文本中的命名实体首先要将文本中的句子经过词语切分,然后进行词性标注。一方面,根据识别对象制定相应的抽取规则。另一方面,利用统计模型计算识别对象对应于该类别的生成概率。然后进行模式匹配从而识别出文本中特定的命名实体,实现信息抽取。这种规则与统计相结合的抽取方法既克服了要书写大量有效规则而且规则的表达能力有限的弊端,又可以通过基于统计模型的概率计算来减少规则的复杂性与盲目性,因而这种规则与统计相结合的识别方法在具体实践中得到了广泛的应用。214信息抽取中的关键技术1、命名实体识别命名实体是文本中基本的信息元素。命名实体识别就是要判断一个文字串是否代表一个命名实体,并确定它的类别。识别这些命名实体是正确理解文本的基础。目前,中文信息抽取的主要工作就集中在中文命名实体的识别方面。命名实体识别是自然语言处理中最有实用价值也是最关键的一项技术。2、句法分析需要抽取的信息通常只是某一领域中数量有限的事件或关系。因此文本中可能只有4,部分与抽取任务有关。并且对于每一个句子,并不需要得到它的完整的结构表示,只要识别出部分片段间的某些特定关系就行了。通过句法分析得到输入的某种结构表示,如完整的分析树或分析树片段集合,这是计算机理解自然语言的基础。3、篇章分析与推理一般说来,用户关心的事件和关系往往散布于文本的不同位置,其中涉及到的实体也有多种不同的表达方式,并且还有许多事实信息隐含于文本之中。为了准确无遗漏地从文本中抽取相关信息,信息抽取系统必须能够识别文本中的共指现象,进行必要的推理,以合并描述同一事件或实体的信息片段。因此,篇章分析、推理能力对信息抽取系统来说是必不可少的。在文本来源比较广泛的情况下,很可能有多篇文本描述了同一个事件、同一个实体,不同文本间还会存在语义歧义,如相同的词有不同的含义、不同的7第二章信息抽取与中文命名实体识别词代表一个意思。因此信息抽取系统除了要解决文本内的共指问题外,还需要解决文本间的跨文本的共指问题。为了避免信息的重复、冲突,信息抽取系统需要有识别、处理这些现象的能力。由MUC6和MUC7对信息抽取系统部分篇章处理能力即指称短语的共指消解的评测结果看,篇章处理能力是目前信息抽取系统的弱项,是一个瓶颈,急需深入研究与改进【15】。4、知识获取作为一种自然语言处理系统,信息抽取系统需要强大知识库的支撑。在不同的信息抽取系统中知识库的结构和内容自然也是不同的。要实现抽取,开发者必须要为不同的系统编制大量的对应于该领域的知识,不但费时费力,而且只有具备专业知识的人员才能胜任这种工作。另一方面,人工编制的知识库很难达到很高的语言覆盖面。因此,知识获取问题除了影响系统的可移植性外,也是影响系统性能的主要因素,已经成为制约信息抽取技术广泛应用的一个主要障碍【151。22中文命名实体识别。221命名实体识别的任务根据MUC的定义,命名实体被分成了七类。命名实体的确切含义,只能根据具体应用来确定。命名实体识别就是判断文本中的一个字符串是否代表一个命名实体,并确定它的类别。命名实体识别中人名、地名、机构名是最难识别的三类。下文以从有关名人传记的网页中识别出人名、地名和机构名为例来讲述命名实体识别的研究与应用。222中文命名实体识别的特点及难点1、中文命名实体识别的特点由于中文内在的语言特点,使得中文命名实体识别不同于英文。中文文本中没有明显的切分标记,因而在进行中文处理时,就必须要面对分词的问题。例如“云克咧去商场了“和致刚去商场了两个句子中,对词的切分会影响识别结果。另外,中文命名实体和普通词一样,而且常包含其他普通词,增加识别的难度。比如“民主大街”和“争取民主”。词语“民主”在前一个短语中表示地名,而在后一个短语中它则是名词,意义相差很远。2、中文命名实体识别的难点8HTTP/INFO3DOUCOM/网络推广两幻K学硕十学位论文由于中文语法及词法自身的特点决定了识别的难度较大。其难点在于15】110】FL6】1在不同的领域和场景下,命名实体的外延有差异例如“今天,这个景区迎来了第一个旅游高峰”,这里的“高峰”是名词,表示顶峰。“高峰是个不错的学生”,这里的“高峰”是人名。同样的词在不同的场景中含义截然不同。2中文命名实体的数量巨大,不能枚举3实体的名称变化频繁而且表达形式多种多样,没有严格的规律可以遵循;4还有一些实体在首次出现后往往采用缩写形式。223中文命名实体识别的方法中文命名实体的识别方法大体上可分为三类基于规则的方法、基于统计的方法和统计与规则相结合的方法。后两种方法目前占主导地位。L、基于规则的方法基于规则的方法是指通过分析命名实体的内部和外部特征,人工构造规则模板然后通过规则匹配来实现不同类型的命名实体的识别。这种方法在小规则中测试准确率较高而且速度快。但是单一的基于规则的方法在实际应用中有很大的局限性。一方面,规则覆盖率有限,因此可移植性较差另一方面,只有在不同领域的语言专家深入理解语言知识的基础上才能编写及构造正确规则,因此需要很大的人力物力。比如纽约大学的PROTEUS系统【17】等。2、基于统计的方法基于统计的方法主要是利用标注语料库来训练某个字作为命名实体组成部分的概率,并用它们来计算某个候选字段作为命名实体的概率值,若大于某一阈值,则识别为该命名实体。与规则方法相比,基于统计的方法具有更好的健壮性和灵活性,且实现的代价较小,便于移植。目前,越来越多的统计模型被用于命名实体识别,比如隐马尔科夫模型、最大熵模型等。本文中的机构名实体识别就采用基于统计模型的识别方法。在利用基于隐马尔科夫统计模型的识别方法基础上还构建了一元模型,从而实现了对那些缩写的以及没有标志词的机构名实体的识别。实验证明取得了较好的识别效果。3、统计与规则相结合的方法单一的基于统计的方法受语料库规模的约束,对于语料库中的命名实体识别效果不9第二章信息抽取与中文命名实体识别错。但语料库外的实体识别的准确率和召回率将受到较大的影响。单一的基于规则的方法准确率较高,但是由于受规则的约束,召回率普遍较低。利用规则与统计相结合的方法,一方面通过概率计算来减少规则方法的复杂性与盲目性,另一方面通过规则的复用来降低统计方法对大规模语料库的要求。本文中的人名识别和地名识别中,都采用规则与统计相结合的方法。在人名识别中,按照人名的内部组成规律将人名实体分类,在采取概率统计的方法进行识别的同时,借助于构造相应的规则,然后按照规则匹配来进行补充识别,取得了较好的识别效果。在地名识别中根据地名出现的语境构造其内部和外部规则实现简单地名的抽取,对于那些复合的和隐含的地名采取基于统计模型的方法进行识别,从而弥补规则的有限性。224语言模型本文中用到的统计模型是一种语言模型。语言模型LANGUAGEMODEL是描述自然语言内在规律的数学模型。语言模型可分为传统的文法型语言模型和基于统计的语言模型。基于统计的语言模型通常是概率模型。计算机借助于统计语言模型的概率参数,可以估计出自然语言中每个句子出现的可能性,从而描述自然语言的统计属性。例如在本文的人名、地名和机构名实体的识别中用到的马尔可夫模型删、隐马尔可夫模型HMM、N元模型等。在本文中,由于传统的隐马尔可夫模型只考虑词本身的发生概率而忽视了上下文对当前词的影响和词之间的联系,很容易造成词的错误切分进而造成错误识别,因此还介绍了改进的隐马尔科夫模型,通过它来弥补传统的该模型的这一弊端。1、马尔科夫模型MM,MARKOVMODEL统计模型的基本假设是自然语言可以用随机过程来刻画,而随机过程中的参数可以精确地估计。俄国化学家MARKOVNIKOV于1870年提出的马尔科夫MARKOV模型,是一种描述随机变量序列信息的统计模型F18】。在该统计模型中,每一个状态转换都有一个相应的概率。如果一个系统有N个状态SL,S2,SN,随着时间的推移,该系统从某一状态转移到另一状态,我们将在时间T的状态记为Q。对该系统的描述通常需要给出系统的当前状态时间为T的状念及其之前的所有状念系统在时间T处于状念S的概率取决于其在时间L,2,T1的状念【13】,该概率为10HTTP/INFO3DOUCOM/网络推广西北大学硕士学位论文PQ,S,IQ,LS,Q,2SK,公式21如果在特定情况下,系统在时间T的状态只与其在时间T1的状态相关,则该系统构成一个离散的一阶马尔科夫链PQ,SLQ,1S,Q,_2S”。PQ,SLQ,_1S,公式22进一步,我们只考虑独立于时间T的随机过程PQ,SJQ,_1S,AIJ,I1,歹N公式23该随机过程为马尔科夫模型。其中状态转移概率粕必须满足马尔科夫模型是描述随机过程的统计学习方法。它提供了一种基于训练数据的概率而自动构造识别系统的技术,被广泛应用到自然语言处理的各个领域,成为基于统计的自然语言处理的重要方法,是自然语言处理领域的重要成果之一。2、隐马尔科夫模型HMM,HIDDENMARKOVMODEL隐马尔科夫模型【13】是一双重随机过程。该模型中,观察到的事件是状态的随机函数。模型的状态转移过程是不可观察隐蔽的,我们只能看到各时刻的输出值。HMM可以用一个五元组来表示S,K,兀,A,B,其中SS1,SM表示状态的有限集合;KKI,KN表示观察序列;兀兀I,IS表示初始状态;A_AIJ,I、JS表示从状态SI到状态SJ的转移概率;BBIK,IS,KEK表示从状态SI观察到KJ的输出概率。假设长度为L的观测序列为O01,OC,在模型PS,K,兀,A,B下,对应随机状态XX1,XL为一个由L个随机变量组成的随机过程,即隐藏状态序列。在隐马尔科夫模型P下,该状态序列的发生概率可表示为,|PJIO,尸X。LD,兀PX,XID,Z公式24J1VITERBI算法求解过程实际上就是在给定的HMM中,已知观测序列O,采用VITERBI算法求出最优的状态序列。当前位置在莉个节点时,隐藏状态为I的概率万,MAX尸X1Z,1,01O,】,X,WFI公式25V口卢且0一一矽口第二章信息抽取与中文命名实体识另IJ1、8,0万I262、TF1MAX,TAB讲,1I,1。L膏曼NO,3、存储BEST过程哆U1LMS女ASXN8,TAJ,6J七,1F,14、如果未结束转到2,否则转到55、得到缈MAX6FT1,1IN3、改进的隐马尔科夫模型公式26公式27公式28公式29传统的隐马尔科夫模型是基于后一个状态依赖于前一个状态及当前事件的假设,仅仅考虑了当前词对当前标注的影响,只在此词性上寻找词之问的联系而忽略了上下文对于该词的直接影响。J下是由于没有考虑当前词与上下文的相关性,因此很容易导致分词错误,进而造成词性标注和实体识别的错误。在HMM中,观察事件的随机过程是隐藏状态转换的随机函数,对应于HMM模型中状态到事件的输出概率矩阵BIK。假设观测事件是受其前后的N个状态的影响,是这N个状态的随机函数。同样,一个隐藏状态对其前后N个观测事件产生影响。假设隐藏状态的影响空间N2SL,前后窗口为2S1个事件影响,分别为前S个状态,当前事件和后S个状态。观测序列为OOL,OL,在模型肚下,隐臧状态序列为XXL,XL该状态序列的发生概率可表示为L尸XLO,PX,O,兀PX,IX,D,公式210查找最可能的计算路径,即ARGMAXPX0,。当随机事件序列0确定后求最大值ARGM,AXPX,D陋。本文假设当前状态受前后N22S1个事件OISOIS、的影响,利用VIERBI算法计算最佳状态序列,将VIERBI算法中的第二步转化为下面的形式4F1MAX6JTAB地公式2116成Z包铀木枣ZL九木术五川眈加公式21212HTTP/INFO3DOUCOM/网络推广西北火学硕学位论文石吖南ZLBI量BIK六州包。胁,南公式213公式214公式215与传统的HMM相比,改进后的HMM是针对当前状态的前后多个事件作输出。在这个模型中除了考虑词本身特性以外还考虑到上下文对该词的影响,有助于进行J下确的分词和词性标注,从而提高了命名实体识别的准确度【31。4、N元模型N元模型是一种典型的基于统计的模型。可以用来统计在给定词组序列WLW2W。作为句子存在的概率PWP形尸WLW2PW1尸W2W1PW3WW2尸IWLW2川公式216PWNIWLW2WN。1表示词组串WLW2WN1后跟上词组WN的概率。在N元模型中,它假设一个单词出现的概率分布只与这个单词前面的N1个单词有关,而与更早出现的单词无关。这样,为了描述这个概率分布,我们需要使用一个N维数组,其中元素AN的含义为在单词串WIW2WNI后面出现单词WN的概率,也就是PWNLWIW2WN1。如果我们使用一元模型即N1,也就是说每个词出现的概率只与其本身有关,那么该词的概率就是它出现的频次,参数就等于总的单词个数这里假设为X。当使用二元模型即N2时,那么每个词的出现概率依赖于它前一个词的出现概率。这时就构成了一阶马尔科夫链,参数个数就是X2。以此看来可以通过N的值来描述长距离的语言约束关系,但是同时随着N的增长,该模型的参数呈N的指数性增长,所以在实际应用中,一般取N元凯现北京南洋顾问有限公司总裁,曾任教于节中国科技大学,还曾担任安徽省教委主任、全国人人主席团成员。他凭借在化学方面杰出的成就晋升为当时中国最年轻的教授。1977年8,Q,向刚剐复出只有几天的邓小平同志提出恢复全国高考和出国留学制度,使千百万有志青年进入火学和出国深造。图L进行词性标注后的文本14HTTP/INFO3DOUCOM/网络推广两北大学硕十学位论文第三章基于规则与统计相结合的中文人名识别及应用在信息抽取的研究中,命名实体的识别起着关键性的作用。目IJI对命名实体的识别方法研究有很多,也取得了很大的进展。但是针对不同的应用领域,每种方法都有其自身的局限性。因此要根据实际的应用对象,选取合适的识别方法才能取得较好的识别效果。本文主要通过识别若干个关于名人传记的网页中的人名实体来研究基于规则和统计相结合的方法在中文人名实体识别中的具体应用。31中文人名的识别现状在MUC中划分的七类命名实体中,关于对中文人名的识别研究最多。据统计,对于中文人名识别的准确率和召回率都大多达到了90以上。大多使用了基于统计的方法【24】【251,例女IMILLER的基于HMM的方“澌LBORTHWICH提出利用极大熵实现命名实体识别的方法【2Q等。另外还有基于规则的方法和采用概率统计和规则相结合的方法【27】128】。32中文人名的识别特点和难点1中文人名用字具有很大的任意性,而且是一个丌放的集合,数量大,范围广。因此无论人名词典如何庞大都不可能用穷举的办法将它们完全囊括进去。2中文人名中部分姓氏和名字存在兼类现象,还可能与上下文成词产生歧义。如果不对姓名进行特别的处理,许多人名就会被切开,降低识别的准确率。据统计由于人名的切分引起的识别错误,可以高达50以上【191。例如轵PER国家罩出了突发事件。季乎歆尸ER家里出了突发事件。3中文人名的长短不一,一般由24个汉字组成,而且表现形式多样。常见的有以下形式1、由姓氏和人名用字组成;如李东、刘海、王建设、赵和平等。2、由人名|J缀和姓氏组成;如老王、小高等。3、由姓氏和身份简称组成;如刘总、宋局等。4、由姓氏和人名后缀称谓组成如刘老师、张教授等。15第三章基丁规则与统计相结合的中文人名识别及应用5、省略姓氏;如小明、大宝等。33中文人名的识别方法国内进行中文命名实体识别主要分为两个方向一种充分考虑各类命名实体特点,并根据各种实体的不同特点采用不同的方法进行识别;另一种策略采用一体化方法,对命名实体进行整体识别。将命名实体按照人名,地名,机构名等进行划分,按照识别目的分别进行识别的方法在研究中占主导地位【3】。目前,人名识别的方法主要分为两类基于规则的方法和基于概率统计的方法。如果单一采用基于概率统计的的方法,对于语料库内的人名识别有较好的效果,但是收集规模巨大的中文人名库和真实语料库是一项巨大又困难的工作。如果仅仅使用基于规则的办法,一方面如何提取有效的识别规则将是影响识别效果的决定性因素,由于受规则约束,召回率普遍较低;另一方面,从大规模的语料库中提取规则也是一个巨大的费时而且费力的工程。随着大量已标注的实体语料出现和计算机计算速度的大幅度提高,利用机器学习方法和规则相结合的方法进行人名识别成为主流。本文采用规则和统计互补的方法进行识别测试。34基于规则与统计相结合的人名识别3。41人名用字词的结构分析根据对语料库的分析,中文人名用词字在组成结构上看,经过总结可以分为以下几类1、姓氏人名单字;例如王浩、张三等。2、姓氏人名双字;例如李和平,王小丽等。3、姓氏人名后缀;例如李教授、宋局长等。4、形容词姓氏;例如老李、小刘等。5、省略姓氏的人名例如小明、大宝等。根据对98年1月份人民日报语料库中中文人名实体的统计F23】91,中文人名实体共计16567个,其中“姓氏人名用字姓氏包含复姓,人名用字包括单字和双字“表示的人名一共有15210个,占至LJ9181,“前缀姓氏或姓名”或“姓名或姓氏后缀”表示的人名实体共有714个,占到431,省略姓氏的人名643个,占N388。从统计结果来看,我们对中文人名的识别重点在“姓氏人名用字“的格式上。16HTTP/INFO3DOUCOM/网络推广西北大学硕学位论文342有关定义对于“姓氏人名用字的格式,我们可以定义为下面两种格式,分别为“姓氏人名单字“和“姓氏人名双字“,可以表示为NSCI,NSCIC2,其中N表示人名实体,S表示姓氏,CL表示单字,CLC2表示两个单字或一个双字词。1姓氏的使用概率用PS表示,即啡为姓氏在语料L牢中出现的次数尸S2丽蜀箨阡作翔甄研僻哼词邵飘碾形蔽公式3I2CL作为人名用字使用的概率用PN,E1表示,即C1作为人名用字时在语料库中出现的次数,TLLJ2石茬国肾研霞顶磊雨事耵霸丽蕊丽蹶公式323C2作为人名用字使用的概率用PN,C2表示,即G作为人名用字时在语料库巾出现的次数尸C22瓦磊痹阿两砑函肝稀潭羁可觋勰公式33从姓氏和人名用字的概率,我们可以得到人名产生概率PFN,即对于单字人名来说尸尸S毒EC对于双字人名来说公式34公式354在“前缀姓名“这种格式例如“经理王浩中,该自缀词字作为人名实体的一部分时的概率为PQZ即PT妒,塑笔煞旒黧糯嬲裂茅坚C公式3剐5在“姓名后缀”这种格式例如“李如德教授”中,该后缀词字作为人名实体的一部分时的概率为PHZ,即该后缀词作蔓F人名后缀时在语料库中出现的次数PHZ二该而丽雨甄酥W两雨恧羼盯一公式37将计算出的PN与给定的阈值6经过多次对不同语料库进行测试,取阈值60001时效果最好相比,如果大于给定的阈值,则我们认为该候选姓名是一个人名实体,反之需要进一步采用规则匹配的方法进一步判断。343识别预处理17第三章基于规则与统计相结合的中文人名识别及应用1姓氏和人名用字的统计分析对于中文的姓氏,总体上可以分为两类,一类是使用概率很小的特殊姓氏,对于这一类人名实体,我们采用规则的方法。另一类就是使用概率较大的常用姓氏,我们采用概率统计的方式进行识别。根据对98年1月份标注的新闻语料进行了分析统计【9】,其中常用姓氏317个,在这些常用姓氏中有217个姓氏在人名实体中大约占到7223,中文人名用字1376个,其中有598个人名用字出现在人名实体中的概率达到70以上,另外还有人名前缀371个和人名后缀185个。2姓氏判别在识别“姓氏人名用字这种格式的人名实体时,从文本中识别出姓氏是最关键的一步。但是在实际文本中,并不是所有的姓氏都可以用基于规则和统计的方法识别出来,因为有一些字在具体的上下文之中并没有作为姓氏使用,例如句子在“继黄金周后,这个景区又迎来了又一个高峰”,这里的“高”虽然在姓氏中也常用,但是根据语境,在这个句子中它并不能作为一个姓氏。由此看来在识别之前必须作出判断,不然容易导致识别错误。对于很容易与上下文的语境密切相关的姓氏,如“张、高、段、任、余、尚、贺”等姓氏不管用统计的方法还是规则的方法都很容易引起错误的识别,因此在人名识别时根据其所处语境判断该字在文本中是否作为姓氏。例如“任“作为姓氏时,其后不能是“意、何、务“等字,再比如对于“余”字,其后如果跟“种、元、年、人、万”等字时,它就不能被识别为姓氏。对于姓氏判别的错误往往也是导致识别错误的主要原因。344构建知识库1语料库本文选取由北京大学计算语言学研究所和日本富士通公司合作产生的98年1月的人民同报标注语料库。人民日报语料库从1999年开始,到2002年完成,原始语料取自1998年全年的人民日报,共约2700万字,到2003年又扩充到3500万字。它是我国第一个大型的现代汉语标注语料库。这个语料库加工的项目有词语切分和词性标注,还有专有名词人名、地名、团体机构名称等标注、语素子类标注、动词、形容词的特殊用法标注和短语型标注。2人名前缀和后缀词库18HTTP/INFO3DOUCOM/网络推广两北大学硕士学位论文人名前缀和后缀通常是表示某个人身份的词或字,一般出现在人名实体的前面或后面。例如“赵磊总经理”、“歌星刘德华”等。根据本文的应用目的,本文中涉及的人名前缀和后缀主要包含“董事长”、“厂长”、“主任“等50个,详细列表见附录二。345算法描述1扫描文本并从文本中提取可能的候选字,判断其是否为姓氏,若是,转向2,若不是,则转向6;2假设是一个以该姓氏为首后面跟两个字的人名实体双字人名,即表示为NSCIC2,先用统计的方法计算PN,判断是否为人名,若是转向6。若不是,再用规则的方法判断该字串是否为人名,若是,转向6,若也不是,则转向3;3假设是一个以该姓氏为首后面跟一个字的人名实体单字人名,即表示为NSCI,先用统计的方法计算PN1,判断是否为人名,若是,则转向6,若不是,再用规则的方法判断该字串是否为人名,若是,转向6,反之则转向4;4利用规则的方法对“人名前缀词字姓氏”的格式人名进行识别,若是,转向6,反之则转向5;5利用规则的方法对“姓氏人名后缀词字”格式人名的识别,若与某条配则匹配,转向6;6本次识别结束。346基于规则的方法根据人名的组成特征,构造出下列规则,用于识别那些省略姓氏的人名以及格式为“人名前缀姓氏”和“姓氏人名后缀词字”的人名实体规则一“小“|老”I其他前缀见附录二姓氏;例如D,文TJ、老李等。规N姓氏“老L某”L厂长L其他后缀词见附录二;例如王某、张厂长在占守。规则三“小|大”I“阿”人名用字例如阿飞、小杰等。347模型及规则训练例如对句子“赵局长对曹磊说“老何已经辞职了“进行识别测试,其步骤表示如下19第三章基丁二规则与统计相结合的中文入名识别及应用1先对句子进行从左到右扫描,产生第一个候选姓氏“赵“;2假设“赵局长是一个双字人名,可以表示为NSCLC2,则按照统计的方法,计算出尸户S归瓦丽。根据对测试数据和语料库的统计,可以得到以下结果JPJJP“赵”“赵”在测试语料中做姓氏出现次琴气,在语料中出现的总次数46700993PC1JP局“局”在黼扣燃蝴总次形局,在黼中做人名和单字出删次数79132X10_4EC,尸长“长”在语料库中做人名出现的总次琴长,在语料库中做人名和单字出现的总次数3740005则PM000086860001,识别“曹磊”人名实体,而且本次识别
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 别墅室内设计核心要素解析
- 幼儿园大班火灾安全演练计划
- 江西六年级美术创意设计计划
- 四年级体育课活动安排计划
- JL0501仪器设备操作手册修订计划
- 高二下学期物理教学资源整合计划
- 2025小学科学实验室学习评估计划
- 单片机自动门系统设计答辩
- 汽车销售行业2025年市场分析与工作计划
- 2025第二学期科技教育处工作计划
- 内容质量评价体系
- 2025年中考作文试题预测及范文
- 2023年高考真题-地理(河北卷) 含答案
- 2024年贵州六盘水市中考道德与法治试卷真题(含答案详解)
- DB50-T 1649-2024 餐饮业菜品信息描述规范
- GB/T 17775-2024旅游景区质量等级划分
- 2024-2030年中国冻干猫粮行业供需现状及未来投资效益盈利性研究报告
- 2024年东南亚数字办公场所软件市场深度研究及预测报告
- 2024年4月自考00055企业会计学试题及答案
- 空调维修规章制度
- 残疾人康复辅助器具适配服务规范
评论
0/150
提交评论