


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、使用HMM模型改进规则自动生成的命名实体识别系统性能 关键词:命名实体识别 基于规则 可移植性 自动提取 HMM模型 0 引言 在自然语言处理技术中,命名实体识别技术是最有实用价值的基础技术之一,它广泛应用于自动问答、信息提取、信息检索、文本自动摘要等自然语言处理系统中。 随着命名实体识别技术应用语言子领域的不断扩大,基于规则的命名实体识别技术可移植性低的问题突显,从而制约了基于规则的命名实体识别技术的发展。近几年发展起来的规则自动提取技术解决了这个难题,使得基于规则的命名实体识别系统的经济性和可移植性大大增强。 1 相关发展状况 目前,命名实体识
2、别规则的自动提取方法很多,但都是基于有指导或无指导的机器学习方法,其基本思想主要是利用核心规则的自动扩展不断提取识别规则,各种方法的区别仅仅在于提取、验证识别规则的方法及步骤不同。 Ji-Hwan Kim和Wood将使用基于核心规则扩展方法所生成的命名实体识别系统与Identfinder系统(一个较为成熟的基于统计的命名实体识别系统)进行了比较,发现其F值基本一致。在规则的自动生成过程中使用一个已标注出命名实体的训练集,首先使用核心规则对命名实体进行训练,若能够识别命名实体,则将训练向下进行下去,若不能识别命名实体,则使用大小写特征、缩略词和其相邻词的语言特征对规则进行改进和重新编写,系统将对
3、训练集进行不断的训练直至找到最好的规则(F值达到最大)1。Indra BudiSt 和Ephane Bressan等人利用潜在的术语和句法特征、已标注的命名实体以及术语集合之间的关系(使用置信因数和支持因数表达)对核心规则进行不断的扩展,并对新规则进行不断的训练和改进从而验证规则的可靠性,系统对英语和印尼语进行了测试,达到了不错的效果,但这种方法适用于准确率要求较高而召回率要求不高的命名实体识别系统。23 Jae-Ho Kim等人对命名实体分类规则进行了自动提取,他们使用核心规则、命名实体字典(包含人名、地名、组织名三种命名实体)和小规模的训练集,根据命名实体的语法及上下文特征提取分类规则,再
4、使用机器学习方法进行反复训练和评估,进而验证分类规则的可靠性,最后使用这些规则对大规模语料库进行标注。4 牛诚等人首先找出同类型的种子(即与要标注的命名实体属于同一类型,在结构和语法特征上与要标注的命名实体基本相同,如she,he等是表示人名的命名实体的种子),而后利用这些种子与命名实体有相同的结构和语法特征的特点提取出核心规则,并使用核心规则对训练集进行标注,最后使用机器学习的方法对训练集中标注出的命名实体进行训练,从而不断改进和扩展核心规则,这种方法所提取出的规则准确率较高,但召回率不高。5 Venkatesan Chakravarthy和Sachindra Joshi等人在文本挖掘过程中
5、使用了自学习的决策列表生成技术对数十个手工编写的核心规则进行了扩充,并对新生成的规则进行了筛选和排序。在生成规则过程中他们设置了数个权重值,不断对新规则进行筛选和改进,以便使新规则达到最好的识别率和召回率,在所有的新规则生成之后,他们对于所有的规则进行了排序,以便确定在数个规则冲突和迭加使用时各规则的重要程度和使用的先后顺序。6 上述的这些方法从不同的角度出发对核心规则进行了扩展,都取得了不错的效果,增强了规则系统的可移植性,但是也存在许多不足之处,尤其在规则改进方面只局性于同一训练集和一种机器学习的方法,没有进行适当的扩展和反复的训练,本系统将对这一方面进行改进。 2 系统设计 我们将美国白
6、宫网站的07年一至六月所发布的新闻进行手工标注,将其作为训练集,利用核心规则(15个)和机器学习的方法不断对规则进行的扩充,生成基于规则的NER系统,并使用训练集对HMM模型进行训练,得出相关数据,生成基于HMM的NER系统。最后使用两个系统对新的语料(美国白宫网站的07年七至十二月所发布的新闻作为新语料)标注命名实体,寻找两系统标注的不同点,对基于规则的命名实体识别系统进行改进(如图1)。 2.1 基础系统 基础系统包括三个部分:训练集,规则的自动生成系统,基于HMM模型的识别系统。在标注训练集之前,我们要对文本进行预处理,主要包括断句、分词、形态分析、词性标注等,而后使用命名实体识别系统对
7、其进行识别,最后进行人工校对,建立一个十万词规模的训练集。 使用核心规则对命名实体进行训练, 若能够识别命名实体,则将训练向下进行下去,若不能识别命名实体,则使用大小写特征、缩略词、是否含有数字和其相邻词的语言特征及支持向量机(SVM)的机器学习方法对规则进行扩展(如图2),并对扩展后的规则进行不断的训练以便改找到最好的规则(如图3)。 基于HMM模型的识别系统,使用了基本HMM模型加一些命名实体的词汇特征,在数据平滑中使用Good-Turing估计。 2.2 系统评估 在新语料上首先运行基于规则自动
8、生成的NER系统,由于规则对新语料的覆盖性可能不强,会有一些命名实体不能被识别出;而后在新语料上运行基于HMM模型的识别系统;最后对两个系统识别出的命名实体集合进行比较,改进基于规则自动生成的NER系统。 我们主要对人名、地名、机构名进行识别,对于其他特殊命名实体暂不考虑。美国白宫网站的07年一至六月所发布的新闻作共有988篇,共出现命名实体5856次(其中人名1365次,地名1601次,机构名2890;)07年六至十二月所发布的新闻作共有1062篇,共出现命名实体6524次(其中人名1511次,地名1562次,机构名3451)。对新语料的识别结果如表1所示: 两个系统识别的人名有7%不同,地
9、名有6.6%不同,机构名有14.4%不同,平均有10%不同。根据实验数据我们分析,规则系统存在的问题在于对复杂的命名实体识别效果不佳,如只识别出命名实体的一部分。 找出两系统标注出的不同命名实体,考察规则系统没能识别或识别错误的命名实体,进行特征分析,使用机器学习的方法不断改进规则。 3 总结 本文描述了如何使用HMM模型改进基于规则自动生成的NER系统的性能。本系统的最大创新是使用了不同的训练模型和训练集,改善了单模型、单训练集的不足,提高了系统的可靠性和实用性。另外与以往不同的是,建立HMM模型是为了改进基于规则自动生成的NER系统的性能,而不是仅仅对命名实体进行识别。 参考文献: 2In
10、dra Budi. Association Rules Mining for Name Entity Recognition. Proceedings of the Fourth International Conference on Web Information Systems Engineering, 2003. 3Agrawal, R Tomasz I and Arun S Mining Association Rule betweens Sets of Items in Large Databases. Proceeding of the 1993 ACM SIGMOID International Conference on Management of Data, Washington DC, 1993. 4Jae-Ho Kim, In-Ho Kang, and Key-Sun Choi. Unsupervised Named Entity Classification Models and their Ensembles. 2002. 5Cheng Niu, Wei Li, Jihong Ding, and Rohini K. Srihari. Bootstrapping for Named Entity Tagging
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 网络文学IP影视改编独家授权合作协议
- 高端家居生活展国际展会特装展位搭建与服务及家居文化合同
- 俄罗斯工程劳务人员输出及服务协议
- 物流园区停车场委托经营与维护管理合同
- 生物质颗粒燃料生产与生物质能节能减排合同
- 区块链智能合约开发与数字资产交易平台合作协议
- 2025至2031年中国柠檬香型洗衣粉市场现状分析及前景预测报告
- 2025至2030年海蛎干项目投资价值分析报告
- 2025-2030年中国天然芦荟汁数据监测研究报告
- 2024至2030年中国水稻专用多元复合液体肥行业投资前景及策略咨询研究报告
- 江苏省南京市、盐城市2025届高三年级5月第二次模拟考试政治试题及答案(南京盐城二模)
- 快递员合同协议书范本
- 互联网+农产品商业计划书
- 智能对话模型研究-全面剖析
- 考研英语03-12年真题译文
- 公司全员安全生产责任制度
- 2025年陕西省西安交大附中中考物理三模试卷(含解析)
- 放射住培结业考试试题题库及答案
- DL-T5344-2018电力光纤通信工程验收规范
- (完整版)年产30万吨甲醇工艺设计毕业设计
- 管道开挖技术交底
评论
0/150
提交评论