全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文机构名识别的设计与实现课题背景 随着互联网的大规模普及和社会信息化程度的提高, 文本信息的快速积累使公司、政府和科研机构在信息处理和使用中面临前所未有的挑战。一方面, 互联网和各种信息机构每天都不断产生大量的有价值的文本数据; 而另一方面, 因为技术手段的落后, 从这些文本数据资源中获取需要的信息十分困难。人们迫切需要研究出方便有效的工具去从大规模文本信息资源中提取符合需要的简洁、精炼、可理解的知识, 文本挖掘就是为解决这个问题而产生的研究方向。 文本挖掘也称为文本数据挖掘或文本知识发现, 它是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程, 同时运用这些知识更好地组织信息以便将来参考。【2】 文本挖掘的主要目的是从非结构化的文本文档中提取有趣的、重要的模式和知识。所以它可以看成是基于数据库的数据挖掘或知识发现的扩展。但与传统的数据挖掘相比, 文本挖掘有其独特之处, 主要表现在: 文档本身是半结构化或非结构化的, 无确定形式并且缺乏机器可理解的语义; 而数据挖掘的对象以数据库中的结构化数据为主, 并利用关系表等存储结构来发现知识。直观地说, 当数据挖掘的对象完全由文本这种数据类型组成时, 这个过程就称为文本挖掘。文本挖掘在许多方面具有广泛的应用,例如:主动信息服务方面、信息检索系统方面、专利信息分析方面等等。选题意义 文本挖掘最基础、最重要的步骤就是命名实体的识别,识别出文本中的人名、机构名称等。命名实体识别(NE)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。 其中机构名称泛指机关、团体或其他企事业单位,包括学校、公司、医院、研究所和政府机关等的名称。机构名称是专有名词的一个子集,数目也特别庞大。与人名地名相比,机构名称这类专有名词还很不稳定随着社会的发展,新机构不断涌现,旧机构不断被淘汰、改组或更名。此外,机构名称的组成还没有国家统一规范,绝大多数未能收入词典【1】。这些事实都说明机构名称的识别与分析是一个很值得研究的问题,对中文输入、机器翻译、人机对话和文本挖掘的其他的应用等自然语言处理领域都具有相当大的实用价值。关于国内外的研究动态目前英文的命名实体的识别已经达到了较高的水平,中文由于一些限制,识别命名实体更加困难。中文命名实体识别的难点主要存在于:(1)中文文本没有类似英文文本中空格之类的显式标示词的边界标示符,命名实体识别的第一步就是确定词的边界,即分词;(2)中文分词和命名实体识别互相影响;(3)除了英语中定义的实体,外国人名译名和地名译名是存在于中文中的两类特殊实体类型;(4)现代中文文本,尤其是网络中文文本,常出现中英文交替使用,这时中文命名实体识别的任务还包括识别其中的英文命名实体;(5)不同的命名实体具有不同的内部特征,不可能用一个统一的模型来刻画所有的实体内部特征。中文命名实体识别的特点是数量众多和构成规律复杂,其中机构名的识别最为困难。机构名的种类繁多,各有其独特的命名方式,用词相当广泛,只在结尾用词相当集中。长度和边界难以确定使得机构名更难识别。命名实体识别的主要方法分为:基于规则的方法和基于统计的方法。隐马尔可夫模型作为一种统计分析模型,是用于命名实体识别的常用方法。其中,隐马尔可夫模型(Hidden Marka Model ,HMM)是一种统计模型【3】,自20世纪60年代被提出后,成功地应用于语音识别、生物信息、词性标注等领域,具有研究透彻、算法成熟、效率高、效果好、易于训练的优点。因此,我们将HMM应用于机构名识别,可以根据机构名的种类、命名方式、用词、长度和边界的不同,形成不同的隐马尔可夫链或函数集,能达到较好的识别效果。三、 研究目标及内容 (一)系统目标本系统采用隐马尔科夫模型来实现,最终达到识别中文机构名的目标。不仅可以使我们有效地识别中文机构名,还可以提高中文机构名识别的准确性,降低中文机构名识别的复杂度,加深对中文机构名识别的了解和研究。具体要求如下:实现股票交易所、国际组织、商业组织、公私企业、电视台或广播台、政党、宗教组织、乐队或音乐组织、政府实体、运动队、军队等各类机构名的识别。 (二)毕业设计内容1、理论部分本系统采用隐马尔科夫模型来实现,通过对机构名的标注来实现机构名的识别。其中,机构名的标注分为基于分词基础上的机构名标注和不分词的机构名标注两种。基于分词基础上的机构名标注是根据词性的不同,先将文本进行切分,再进行标注;而不分词标注是将机构名看成一个整体进行标注。本系统根据在机构名识别中的作用,采用Viterbi算法【4】对切分结果进行角色标注,在角色序列的基础上,进行字符串识别,最终实现中文机构名的识别。识别过程中我们只需要某个词作为特点角色的概率以及角色之间的转移概率。该方法的实用性还在于:这些角色信息完全可以从真实语料库中自动抽取得到。此方法在人名和地名识别的基础上,对机构名内部构成角色进行有选择的分类,然后采用隐马尔科夫模型,对分词结果进行机构名构成角色的标注,最后,在角色序列上进行模式串识别,并最终识别出机构名。2、系统的实现a基本框架文本测试训练预处理特征提取机构名标注标注的学习标注的模型文本的标注b结果的输出例如:“在/p 年/t 来临/v 之际/f ,/w 通过/p 中央/n 人民/n 广播/vn 电台/nnt 向/p 全国/n 各族/r 人民/n 致以/v 诚挚/a 的/u 问候/vn 和/c 良好/a 的/u 祝愿/vn !/w”通过标注后就变为:“在/Z 年/Z 来临/Z 之际/Z ,/Z 通过/A 中央/I 人民/I 广播/C 电台/D 向/Z 全国/Z 各族/Z 人民/Z 致以/Z 诚挚/Z 的/Z 问候/Z 和/Z 良好/Z 的/Z 祝愿/Z !/Z”。参考文献【1】张小衡,王玲玲. 中文机构名称的识别与分析N. 中文信息学报, 1997,第
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 锻造铝合金轮毂项目可行性研究报告标准立项报告
- 高中生物教学备课教案生物学实验数据的处理与分析
- 高级中学学校外语教学项目实施方案
- 2004年1月国开电大专科《办公室管理》期末纸质考试试题及答案
- 员工激励管理研究答辩
- 2020-2025年公用设备工程师之专业案例(动力专业)押题练习试题B卷含答案
- dou分期服务协议书
- 所罗门签军警协议书
- 密度计创新创业项目商业计划书
- 农作物生长环境调控设备创新创业项目商业计划书
- 2025年福州国有资本投资运营集团有限公司社会公开招聘12人笔试参考题库附带答案详解(10套)
- 左房肺静脉CTA扫描技术
- 成瘾机制干预策略-洞察及研究
- 学生心理健康课件
- 全国大学生职业规划大赛《美术教育》专业生涯发展展示
- 土建工程施工安全注意事项
- 人性的弱点完整版本
- 【生物 四川卷】2025年四川省高考招生统一考试真题生物试卷(真题+答案)
- 保安岗位人员替换方案(3篇)
- 环境生物化学与毒理化学课件
- 子宫内膜癌病人的护理
评论
0/150
提交评论