基于规则库的地名识别研究_第1页
基于规则库的地名识别研究_第2页
基于规则库的地名识别研究_第3页
基于规则库的地名识别研究_第4页
基于规则库的地名识别研究_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于规则库的地名识别研究

登录语言识别在提高汉语自动分词精度方面发挥着重要作用。本文就未登录词中地名的识别进行了探讨,采用两级处理策略:第1级处理利用从大规模真实文本中统计获得的地名上下文信息形成地名识别规则库,并对规则库中规则的量化处理来体现规则在识别地名中的可信程度的不同,不同可信程度的规则产生的候选地名将作不同的后续处理,采用此方法,可以减少正确地名因为可信度低而被过滤掉的可能性,被识别的地名主要是其前词、后词在真实文本中作为地名的上下文共现频度高的一部分地名;为了提高识别的召回率,引入了第2级处理,第2级处理根据地名前词补召未能在第1级处理中识别出来的地名。文献对带特征词的地名的识别进行了研究。本文采用上述方法不仅实现了对不带特征词的中文地名的识别,而且有效地提高了识别的召回率。1生成地名识别规则库本文从人工标注过的1998年《人民日报》语料中抽取出地名的上下文信息,生成地名识别规则库,以此规则库去识别2000年《人民日报》语料中的地名,并采用错误驱动的方式,对规则库进行完善;对最终形成的规则库进行简单的聚类,计算规则的频度,根据规则频度对规则进行量化处理。1.1定义带特征词地名在真实文本中,某些词具有相同的属性,作为地名的前词(后词)出现时对地名识别的作用是一样的,本文将这样的词合并为一类,识别过程中,将这一类词当作一个特定的词来处理。设人工标注正确的句子切分序列S=W0W1...Wi-1WiWi+1...Wj(i,j为整数),设iW为地名PN,若iW为带特征词地名,则Wi不包括特征词。Wi-1称为地名的前词,Wi+1称为地名的后词。对语料库中含地名的序列进行扫描得到如下规则:规则:前词=Wi-1,后词=Wi+1根据Wi-1(Wi+1)的具体类型,定义如下合并操作:若前词Wi-1(后词Wi+1)是地名特征词(县、市等)、已登录的常见地名(北京市、辽宁省等)、数字(1、一等)、标点符号(,。等)、非汉字(字母、特殊符号等)则分别用符号SpeWord、PName、Number、Punc、Unhz替换。举例如下:词串:在|贵州省|晴|隆|县|开始|试行|。|在该词串中,地名PN=“晴隆”,前词Wi-1=“贵州省”,为已登录的常见地名,所以用“PName”替换之,后词Wi+1=“县”,是地名特征词,所以用“Speword”替换之。替换后形成的规则如下:规则:前词Wi-1=“PName”,后词Wi+1=“Speword”通过对所有规则做上述的合并操作,使得规则的适用范围显著增大。1.2规则频度和规则分类在真实文本中,不同的规则识别出的候选地名的正确率是不同的,例如有以下两条规则:规则1:前词Wi-1=“位于”,后词Wi+1=“Speword”若某一字段序列的左词、右词满足规则1中的前词和后词条件时,该字段序列作为地名的可能性较大;而字段序列的左词、右词满足规则2中的前词和后词条件时,该字段序列作为地名的可能性较小。为了表示规则在识别地名过程中的这种差异,引入规则频度的概念(见表1)。规则频度(FR(PR))的定义如下:其中CorrectTime(PR)是用规则PR去识别地名时,所得到的候选地名中正确地名的个数;AllTime(PR)是用规则PR去识别地名时,所得到的候选地名的总个数。计算规则频度之后,就能客观地反映每条规则在识别地名时的可信程度。在施加规则产生候选地名时,若发生规则冲突,则以频度高的规则为准。规则频度不同,则规则在识别地名中的可信程度不同。根据规则频度对规则进行以下分类:(1)肯定规则:若规则的频度大于0.5,则认为该条规则在识别地名中的可信度很大,这一类规则主要是地名的后词为特征词、前词指示性很强的一类规则。如规则:前词Wi-1=“在”,后词Wi+1=“Speword”(2)半肯定规则:此类规则的频度值介于0.2~0.5之间,此类规则主要是后词或者前词指示性很强的一类规则。如规则:前词Wi-1=“省会”,后词Wi+1=“是”(3)不肯定规则:此类规则的频度值小于0.2,此类规则主要是一些前后词指示性都不强的规则。如规则:前词Wi-1=“的”,后词Wi+1=“punc”通过对规则的量化,可以就不同的规则所产生的候选地名做不同的处理,既可以防止某些候选地名因其可信度值低而被过滤掉,又可以对不是地名而被识别为地名的候选地名进行有效的过滤。2地名之间的信息编码本文采用两级处理方法来识别地名,其中第1级处理主要通过规则匹配的方法来识别地名,由于训练语料的有限,地名识别规则库中不可能包括所有可能的地名上下文信息;为了补召第1级处理中未能识别出的地名,提高召回率,增加了第2级处理,主要是根据地名前词进行补召。2.1以惩罚规则为识别后地名的接入系数第1级处理主要用规则匹配的方法来识别地名,规则来自地名识别规则库,分为肯定规则、半肯定规则和不肯定规则3类。不同类型的规则产生的候选地名将做不同的后续处理。由肯定规则产生的候选地名如果其用字用词可以是地名的用字用词,则该候选地名被确认,否则被否认。由半肯定规则和不肯定规则产生的候选地名需要计算其构词可信度和接续可信度,过滤掉可信度低的候选地名。依据规则类型的不同,过滤时的阈值也不同。地名构词可信度的计算公式如文献,这里不再叙述。文献通过奖励规则和惩罚规则的形式对可信度值进行了调整,本文在已有的奖惩规则基础上,又增加了对于不带特征词地名的奖励和惩罚规则,依据规则类型的不同,奖惩的力度也不同,增加的规则如奖励规则:(1)若候选地名长度小于等于3个汉字长,且地名均由单字词组成。(2)若候选地名长度大于3个汉字长小于6个汉字长,且均由单字词组成,且其中有两个以上单字词未指定词性。惩罚规则:(1)若在候选地名内部存在“动词+名词”、“形容词+名词”等接续。(2)若候选地名由若干个高频单字词组成。如:“到|~家了~|,”。地名的接续可信度反映候选地名与其上下文的联系紧密程度,用互信息来计算地名的接续可信度。设切分后的句子序列为S=W1W2W...Wi-1WiWi+1Wi+2...,其中iW为识别后的地名PN,Wi+1为地名的后词,用iB来表示,Wi-1是地名的前词,用iF来表示。地名PN与其后词iB的互信息定义如下:其中p(PN,Bi)是地名PN和后词iB的二元接续频度,p(iB)是后词Bi的单词频度,p(PN)不是某个具体地名的频度,而是地名作为一类在真实文本中出现的频度。地名PN与其前词iF的互信息定义如下:其中p(Fi,PN)是前词iF和地名PN的二元接续频度,p(iF)是前词iF的单词频度,p(PN)与式(2)意义相同。地名的接续可信度定义如下:2.2计算构词方案在第1级处理中,使用规则匹配的方法来识别地名,但由于规则的不全面,有些地名有可能会被漏识别,因此增加了第2级处理来补召第1级处理中未识别出来的地名。第2级识别的地名是其上下文信息没有在地名识别规则库中出现,但其前词在规则库中出现了的地名。识别过程从地名的前词开始寻找地名的后界,识别后的潜在地名通过计算构词可信度和接续可信度来进一步确认。构词可信度的计算公式如文献,本文不再叙述。Wi为识别后的地名PN,iW初始切分后的序列是Wi=C1C2C...Ci...Cn,地名接续可信度定义如下:其中I(PN,iB)定义如式(2)所述。I(Cn,Bi)是候选地名PN在正常切分后的尾词Cn和候选地名的后词iB作为正常接续的互信息,定义如下:第2级处理是比较候选地名和其后词作为地名接续的可信度大还是作为正常接续的可信度大来对候选地名给出判断的。若二者的差值小于给定的阈值,则该候选地名被否认。2.3切分的词汇序列和异地名词典地名识别过程如下:(1)得到输入文本按常规切分的单词序列;(2)根据地名词典,对常规切分的单词序列进行常见地名的识别;(4)根据识别出的地名,建立起含有地名标志的切分序列。3应用语料进行识别的测试本文从2000年《人民日报》光盘版中抽取了含有6316个地名的4229个句子作为开式测试集,对系统只调用第1级处理时的识别情况,以及增加了第2级处理时的识别情况进行了测试。系统调用一级处理时的识别结果如表2所示。系统调用第1级处理和第2级处理后的识别结果如表3。从表2、表3可知,增加第2级处理后,虽地名识别的精确率有所下降,但召回率提高明显,这是因为第1级处理中识别的地名主要都是前词、后词同现概率高的地名,调用第2级处理能补召第1级处理未识别的地名,提高了召回率,但同时也会召回一些错误的地名,其中包括对切分碎片的错误合并以及补召的地名中有边界错误等,因此精确率下降了。为考察文献和本模型(识别对象为带特征词的地名和不带特征词的地名)在识别效果上的差异,又用上述测试语料对文献的识别系统进行了测试。测试分两种:(1)把带特征词地名和不带特征词地名都作为该系统识别的对象;(2)只把带特征词地名作为该系统的识别对象,结果如表4所示。从表4可以看到,若考虑识别不带特征词的地名,本文和文献比较,无论是召回率还是精确率都有明显提高。这主要是因为纠正了文献识别错误的部分地名,召回率得到提高;此

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论