文献综述标注_第1页
文献综述标注_第2页
文献综述标注_第3页
文献综述标注_第4页
文献综述标注_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1/7文献综述标注汉语自动分词和词性标注是汉语信息处理中重要的基础性工作,它与语料库基础资源建设相辅相成,在中文信息处理中起着关键作用。经过将近20年的研究,自动分词与词性标注技术、语料库的建设都取得了长足的进步,许许多多的系统应用而生因此,对分词与词性自动标注系统进行公正的评测,将会对这项基础性的工作起到导向性的作用。二者之间有着十分密切的联系,比如,切分歧义是汉语分词所面临的一大难题,其中能用语法知识消解的就约占90以上,而涉及语义和语用知识的切分歧义则很少,另外,词性标注的质量高低直接影响着自动分词的效果好坏。2、汉语自动分词定义和产生原因所谓的自动分词就是把连续的字串分割成词的序列。从处理过程来看,把自动分词可以看作是用计算机自动识别文本字符流中的词并在词与词之间加入明显切分标记的过程。词是最小的能够独立运用的有意义的语言单位,英文单词之间以空格作为自然的分隔符。汉语是以字为基本的书写单位,词语之间没有明显的区分标志,计算机不能通过英文句子之间的空格方法区分汉语词,否则可能会出现错误。2/7如汉语中学生整体是一个词,但计算机不容易理解学和生两个字合起来才能表示一个词,为了解决类似的问题,中文分词技术应运而生。自动分词的分词方法关于分词方法,苏联学者最先提出了关于654321的思想,这种方法中的匹配思想成为后来许多分词方法的基础。目前,汉语自动分词方法不下二十种,例如,最大匹配法、知识分词方法、链接法,在参考众多文献的基础上,综合各家之言,大体上可概括为四种类型基于词典的分词方法、基于统计的分词方法、基于理解的分词方法和基于人工智能的分词方法。这些分词方法各有其特点,分别代表着不同的发展方向。其中基于词典的分词方法具有算法成熟,易于实现的特点,目前是使用最普遍切分方法基于统计的分词方法由于有的歧义切分能力和低频词识别能力,受到越来越多的研究人员的重视,发展较快,但在实际使用中,很少单独使用,一般都与基于词典匹配的信息进行更多的处理,因而加大了实现的难度基于人工智能的分词方法是目前理论上最为理想的分词方法,但是该类分词方法的研究还处于初级阶段,并且由于汉语自然语言复杂灵活,知识表示困难,所以对于这类分词技术还需要进行更深入和全面的研究。自动分词研究现状3/7经过十几年的研究,汉语自动分词技术取得了令人瞩目的成果,出现了一些实用的自动分词系统,如北京航空航天大学的CDWS分词系统,这些系统在分词的精确度和分词速度方面都具有相当的水平,并在一些中文全文检索系统中得到了应用。中文自动分词技术取得了可喜的进步,具体表现在词是否有了清晰的界定。原来很难精确定义的词,现在可通过分词规范词表分词语料库的方法,使中文词语在真实文本中得到了可计算的定义,界定出词语的边界,这是实现计算机自动分词和可比评测的基础。未登录词对分词精度的影响。对交集型歧义字串进行的大规模语料库调查,明确提出把分词歧义消解过程分解为侦察和消歧两个子过程的认识,都是近十年来分词研究的重大收获基于字的分词新方法过去的分词方法大都依赖于一个事先编制好的词表或词典。自动分词过程就是通过词表和相关信息来做出词语切分的决策。基于字标注的分词方法实际上是构词方法。即把分词过程视为字在字串中的标注问题。这种方法的一个重要优势在于,它能够平衡地看待词表词和未登录词的识别问题。困难和问题尽管汉语自动分词取得了重大进展和突破,但仍有大4/7量的问题困扰着这一领域的学者们。因为要自由进行汉语自动分词,至少会遇到以下一些困难1中文原本没有词的概念,至今也没有统一的词的确切定义。汉语词与词之间既没有西文那样有明显的分隔符,也没有日文那样丰富的词尾变化。2汉语迄今为此仍未有一部公认的、确切完备的并适合于计算机自动处理的语法规则。汉语无标准性的词法、复杂性的句法、模糊性的语法与多样性的语义,如汉语中大量存在多义词、同义词、词性变化、词义转借等现象,使汉语表达具有很大的灵活性,所以任何人都都很难对它进行完备的总结。3中文构词方法的多样性和句法的意合性等特点也是造成自动分词困难的重要原因。中文造词的原料,不仅有字,而且有词、词组。造句的方式有以字造词、以词造词,甚至压句成词。如果没有语法、语义知识或语境的帮助就很难对有些句子进行正确切分。4语音中所蕴含的部分有用信息在书面语中无从体现。5新词在不断增加,如人名、地名、新产生的词、外来词等日益充实着汉语词汇。但最重要的困难还是歧义切分和未登录词的问题。歧义切分有两种类型,一种是交集性切分歧义,另外一种5/7是组合型切分歧义,如汉字串将来是一个词,其中将和来也可以单独成词,这就涉及到如何切分的问题。组合型歧义是切不切开的问题,交集型歧义是切在哪里的问题。未登录词即是指未包含在分词词表中的词,包括各类专名人名、地名、企业字号和商标号等、某些术语、缩略语和新词等,由于专用术语繁多,新名词、新概念层出不穷,这些词一般很难全部收录到词典中,但这些词往往在一定时期内呈现较高的检索概率。这就要求分词系统具有一定的未登录词识别能力,从而提高分词的准确性。对于分词的歧义处理,目前已经进行了比较深入的研究,人们通过统计和规则相结合的方法,使得歧义字段的正确切分达到了较高的水平,同时也认识到歧义的解决需要细致的个性化的知识积累,对不同类型的歧义要有不同消歧方法,同时研究汉语的构词规则,增强歧义判别能力另一方面,无论词表规模多么大,未登录词语的存在是必然的。因此,与分词的歧义处理相比较,未登录词语的处理成为影响分词精确率的最主要、最直接的因素,这也是当前的一个研究的难点和热点。3、汉语词性标注基本含义和标注方法词性标注即在给定的句子中判定每个词最合适的词性标记,关键是如何处理兼类词或多义词。词性标注的正6/7确与否对后续的句法分析、语义分析有很大的影响,是中文信息处理的基础性课题之一。常用的词性标注模型有N元模型、隐马尔科夫模型、最大熵模型、基于决策树的模型等。其中,隐马尔科夫模型是应用较广泛且效果较好的模型之一。由于同一个词在不同的语境下会产生不同的词性特征,所以就产生了不同的标注方法。目前主要存在以下四种方法基于规则的方法统计方法规则和统计结合方法基于转换的错误驱动学习方法。基于规则的方法利用规则对多个词性的词进行消歧,利用上下文信息来排除多余词性。它能够利用现有研究成果,通过对语境中的词语、词类和词语的特征做细致描述,起到很好的排歧作用,但主观性较强,覆盖率低统计方法可以将一些不确定的知识量化,可以获得较好的效果和提高覆盖率,现在一般用统计方法来标注词性,据说可以获得95以上的正确率,但实际消歧效果究竟怎样,尚不明确规则和统计结合方法融合了二者的优点基于转换的错误驱动学习方法是一种这种的方法,它在词性标注中能达到98的正确率。困难和问题汉语词性标注的困难主要是因为汉语作为一种孤立语,缺乏严格意义上的形态标志和形态变化,词类判定基础是根据词的已实现的句法功能,对上下文的依赖特别严7/7重。汉语词性标注的困难具体可分为汉语缺乏词的形态变化,不能像印欧语那样,直接从词的形态变化上去辨别出词的类别常用词的兼类现象普遍。兼类词不仅使用频度高,而且兼类现象复杂多样,覆盖面广,兼类现象分布不均,汉语中大部分词类都有兼类现象,使得词类歧义排除的任务困难重重研究者本身的主观因素也会造成兼类词处理的困难。4、应对策略正因为在自动分词和词性标注上还面临很多的困难,所以我们今后的研究应着重在某些点上的有所为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论