计算机专业报告_第1页
计算机专业报告_第2页
计算机专业报告_第3页
计算机专业报告_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、假期学习报告为了了解命名实体识别的相关研究从2014年2月7日到2014年2月20日之间,看了关于命名实体识别的相关论文五篇。分别为G_基于条件随机场的中文命名实体识别研究 、 基于CRF的中文命名实体识别研究 、 基于条件随机场的中文命名体识别 (一部分) 、 中文命名实体识别的研究 、 统计机器翻译中命名实体处理研究。G_基于条件随机场的中文命名实体识别研究的作者为张佳宝,是国防科学技术大学研究生院2010年11月的;基于CRF的中文命名实体识别研究的作者是史海峰,是是苏州大学2010年的;基于条件随机场的中文命名体识别的作者是王昌厚,是晋中学院计算机学院2012年的;中文命名实体识别的研

2、究的作者是丁卓冶,是大连理工大学2008年的;统计机器翻译中命名实体处理研究的作者为王欣欣,是哈尔滨工业大学2009年的。通过这几篇论文了解到,命名实体识别是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体识别在问答系统、信息抽取、句法分析、机器翻译等领域都是重要的基础。其任务就是:一、识别命名体的边界;二、为命名实体赋予相应类别的标签。命名实体识别有基于规则的方法、基于统计的方法、规则和统计相结合的方法。基于规则的实体识别算法主要是在实体识别的过程中加入词法规则、语法规则甚至语义规则来提高实体识别的质量。基于规则的方法缺乏鲁棒性指的是稳健性。计算机软件在输入错

3、误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性。和可移植性,对于每个新领域的文本都需要更新规则来保持最优性能,这需要大量的专门知识和人力,代价往往非常大。基于统计的方法也可称为是自动学习的方法,是近年来研究的热点,包括最大熵模型(Entropy Model)方法、隐马尔科夫模型(Hidden Markov Model,HMM)的方法、支持向量机(Support Vector Machine,SVM)方法、条件随机域(Conditional Random Fields,CRF) 方法、决策树方法、感知器学习方法 等。隐马尔科夫模型是在给定观察值序列得情况下,对观察

4、值所对应的可能的标记序列进行遍历,找出最优可能序列。支持向量机是一种基于统计学习理论的模式识别方法。决策树是一种基于实例的归纳学习方法。系统可以自动从名词短语包括专有名词的集合中选择最容易区分的特征。然后用决策树的方法来学习,最终可以用来分类专有名词。最大熵模型选用了信息论中最大熵概念,在信息论中,熵用来描述客观事物的无序性,信息的不确定程度定义为熵。其基本思想就是选择符合约束条件的所有分布中熵最大的那一分布。最大熵原理的实质是在已知部分的前提下,关于位置分布最大合理的推断就是符合已知知识最不确定或最随机的判断。条件随机模型是一种典型的无向图模型。条件随机域(CRF)模型是一种比较新的模型,对

5、于长程相关有很好的描述能力,集合了最大熵模型和HMM模型的特点并且规避了这些模型本身存在的一些缺点,是目前命名实体识别研究的热点方法。下面的流程图是基于条件随机场的中文命名实体识别系统结构。外部语义知识库生成训练语料特征模块生成选择生成特征参数训练模型参数实体识别测试语料用识别命名实体指示词算法生成外部语义信息,并以文本的形式保存起来用特征生成算法生成选择特征,将最终的特征保存在特征库中参数训练得到模型参数。标记了命名实体的结果输出。采用训练好的条件随机场模型进行命名实体识别模型参数训练即是用特征库中的特征和训练语料采用 L-BFGS 方法进行参数训练得到模型参数机器翻译是研究如何利用计算机进

6、行语言之间的翻译。翻译处理的流程包括:对输入的句子进行自动分词,人名和地名等专有名词的识别,查中文分析词典,确定词性,块的解析,依存分析,句型转换,特殊词转换,日文形态树等。在机器翻译时,常常需要进行专有名词如人名、地名、机构名等的精确翻译,此时文本中存在大量的专有名词无法由人工来校对翻译。因此,准确而高效的自动抽取和识别出文本的命名实体,对于提高双语翻译的准确率有重要意义。机器翻译通过命名实体识别结合规则方法和语料库方法的优点,从语言片段着手进行翻译,可以降低翻译的难度。对语句翻译时采用的基本语言单位的颗粒度越大,歧义就相对减少,因此,命名实体翻译有利于提高双语对齐的准确度,这样命名实体识别

7、和翻译的效果越好,对于统计机器翻译的推动作用越大。下面是命名实体翻译总体框架图。汉语语料汉英双语语料文本预处理汉语实体类NER英语实体类NER数字表达式识别时间表达式识别双语命名实体对齐SMT模型数字表达式翻译时间表达式翻译实体类NE翻译实体类NE双语翻译对机器翻译结果数字和时间表达式识别和翻译结果实体类NE双语翻译结果与短语抽取结合最终翻译结果SMT模型训练在进行命名实体翻译前,先对文本预处理,将文本中的全角符号转换成半角符号,包括:英文字母、括号、空格、斜杠、阿拉伯数字等。根据符合数字表达式和时间表达式规则的有限状态自动机来进行数字和时间表达式和数字表达式识别,并进行翻译;实体类命名实体识别要基于双语语料库分别进行源语言和目的语言的实体类 NER 识别的结果,通过双语命名实体对齐获得双语实体的翻译词典,等同于对实体进行翻译,还可以进行机器翻译训练语料中的实体对齐,进一步与短语对抽取任务相结合,生成实体和短语的翻译列表。本文实现了数字和时间表达式的识别和翻译,获取了实体类双语实体翻译对。 以上这些就是我在看这五篇论中的学习当中所了解到的。对于这些内容,我现在学到的知识还不够深刻,有些方面也只是片面的了解。对于深层的东西还不够透彻。所以,我会在利用一个月

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论