基于错误驱动的汉语词性标注研究(终极版).doc_第1页
基于错误驱动的汉语词性标注研究(终极版).doc_第2页
基于错误驱动的汉语词性标注研究(终极版).doc_第3页
基于错误驱动的汉语词性标注研究(终极版).doc_第4页
基于错误驱动的汉语词性标注研究(终极版).doc_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目 录摘 要IABSTRACTII第1章 绪论11.1论文背景11.2论文意义11.2.1国外主要语料库简介21.2.2国内主要语料库简介31.2.3词性标注方法研究现状41)基于规则的方法42)基于统计的方法53)规则与统计相结合的方法71.2.4论文各章节安排8第2章 基于极大熵的词性标注92.1最大熵原理92.2最大熵建模92.2.1样本特征描述112.2.2数据训练112.3特征选择122.3.1问题的提出122.3.2特征选择实验13第3章 汉语兼类词和词性标注错误研究163.1汉语的词性兼类问题163.2兼类词标注中的错误分析和使用方法183.2.2训练模型进行兼类词标注中的错误输出分析193.2.3兼类词的概率特征函数25第4章 实验方案和分析274.1实验设计274.1.1实验语料描述274.1.2实验工具284.1.3实验方案301.概率特征模型302.外部知识模型313.子分类模型324.2实验结果及分析334.3下一步的工作34总结与展望355.1论文工作总结355.2展望36参考文献37致 谢39附 录401.主程序源代码:402.相关的结果截图48摘 要随着互联网文化和经济的飞速发展和信息爆炸时代的到来,能够在短时间内处理大规模文本且从中挖掘和抽取语言信息的计算语言学快速地成长起来。语料库的规模扩大和切分标注水平的提高成为迫切的需要,以计算语言学为主的多语言语料库切分和标注技术越来越受到语言学专家的重视。要使语料库真正为提高自然语言处理的水平服务,就必须对语料库进行深度挖掘和精细加工。词性是对语言进行语法、语义、语用分析的基础和必要前提,如何解决语料库的词性标注问题仍是当今的一项重要的基础工作。汉语词性标注的成果包括基于统计和规则两种处理方法。语言学工作者们常用的统计算法模型,如最大熵模型、隐马尔可夫模型和决策树分析等进行大规模的词性切分和标注,再结合规则模板或者手工编制的排歧词典对经过统计算法训练的模型进行择优、排歧,从而达到较为理想的结果。本文在介绍了提出的汉语词性标注方案也是规则和统计结合的方法,首先在极大熵标注模型的基础上给出了一个汉语词性标注方案,并提出基于兼类词错误学习的思想。该方案有别于以往单纯依靠算法和规则模板的常规方法,从原标注系统的标注错误样本中获取上下文,利用上下文信息形成的概率特征函数计算出容易出错的词的特征概率。另外,提出在统计的基础上加入外部知识库和分类器的联合修正算法,较好地完成了针对兼类词复杂类项的标注任务,缩短了模型运行占用的时间。关键词:汉语词性标注,兼类词错误驱动,最大熵ABSTRACTIn the recent years, with the rapid development and enlargement of the Chinese Corpus and annotation technologies, a large scale of language block based at nationality language and different types of tagging feature musters appeared. The researches of the deep-processing methods and relevant algorithms are in need for the advancement of Nature Language Processing. Just like the other language, the first step toapproach Chinese corpus knowledge is part-of-speech tagging.Annotation systems which can run on the computers supports the computational linguistics which have attracted wide concerns from therelated fields such as Artificial Intellegence.There are several annotating solutions which mostly base statistical algorithm and rules which was writted manually. Such as the Maxent Entropy model and Hidden Markov ModelRule, which integrated different rules-templates can provide tagging tools for Natual Laguage.But the tagging results are not good enough to apply to the deep level annotation.According to the statiscal examples which are collected from multiwo:rds annotation error results in system, this essay will introduce three parts of appending models for Part-of-Speech task based at Maxent Entropy model. A new error-based method composed of events with feature probability which was calculated in advanced was held out to choose features templates for multi-word.KEYWORD: error-driven part-of-speech annotation maxent entropyII基于错误驱动的汉语词性标注研究第1章 绪论1.1论文背景由于语料库语言学的发展,语料库的容量不断扩大,现在,数千万词甚至于数亿词的语料库己经不算少见。但是要使大规模语料库真正能为自然语言处理服务,必须对语料库进行加工。而其中,词性标注是一项重要的基础工作,对于进一步研究语法处理具有重要的价值。本节首先介绍一些语料库,然后介绍基于语料库的词性标注研究的发展状况。为了更高速有效地存取和加工语料库所拥的信息,人们利用计算机的快速运算能力和强大的存储能力开发了大量专用软件,使计算机语料库迅速成为语言研究的一种普遍资源。语料库和语料库语言学在当今语言研究由高度抽象转向语言的实际应用之过渡中起着十分重要的作用:一是提供真实语料;二是提供统计数据;三是验证现行的理论;四是构建新的理论。这些可以说是语料库和语料库语言学的实用价值。提供真实语料可以说是词典编纂的生命线。现在流行的英语词典几乎全部是基于大规模语料库编纂而成的。基于大规模语料库的英语语法书也已经问世。通过大规模语料库建立统计模型成为语言信息处理和加工的主流模式。先前基于规则的机器翻译、语音合成与识别、文语转换等如没有大规模语料库的数据支持,要取得好成果是不可的。语料库为应用语言学的研究提供了丰富的语言材料。语料库语言学使得在语言理论、语言史研究和句法、词法分析及自动语法分析方面得到了充分的应用。在对语料库信息的加工处理过程中,词类标注是一项很重要的工作。它的任务就是给语料库中的每个词赋一个合适的词类标记。由于英语、汉语等许多自然语言中都存在着大量的词的兼类现象,因此给语料库的自动词类标注带来了很大困难。词类歧义消解(Grammatical Category Disambiguation)已成为自动词类标注1.2论文意义兼类词标注准确程度对词性标注的准确率影响非常大,直接关系到后面的句型划分、机器翻译等工作效率,因此在汉语词性标注过程中重点需要解决的是兼类词的歧义问题。短语标注,依存关系标注,句法功能标注,句型标注,义项标注等等。但这些深加工都必须在词语切分和词性标注的基础上进行。可见,兼词的词性标注成为任何一个汉英机器翻译系统都要优先解决的问题。近年来,在汉语的词性标注上,开发了基于概率统计模型的词性标注系统和基于规则的词性标注系统,这两种类型的词性标注系统虽然总体的词性标注正确率较高,但对兼类词的词性标注正确率却较低,至使其正确率难以进一步提高。兼类词多种多样,每个词的词性2-5个不等,把它根据模型的统计结果定量地划分到一个固定的词性类中较为困难。本文提出的兼类词标注方案就是针对这种情况提出了一种从易出错的词性特征和规则出发,有别于单纯依靠算法的常规方法,加入特征概率模型和外部知识库修正,能够高质量地完成针对兼类词的标注任务。1.2.1国外主要语料库简介国外对语料应用研究开展比较早,语料库数量和种类皆较丰富,比较有代表性的主要有以下几个。London-Lund口语语料库:收篇目87篇,每篇5000词,共为43.4万词,有详细的韵律标注(prosodic marking).AHI语料库:美国Heritage出版社为编纂Heritage词典而建立,有400万词。OTA牛津文本档案库(Oxford Text Archive):英国牛津大学计算中心建立,有10亿字节。BNC英国国家语料库(British National Corpus): 1995年正式发布,使用TEI编码(Text Encoding Initiative)和SGML通用标准置标语言的国际标准(TheStandard Generalized Mark up Language, ISO 8879, 1986年公布)。ACUDCI美国计算语言学学会数据采集计划:美国计算语言学学会(Theassociation for Computational Linguistics, ACL)倡议的数据采集计划(DataCollection Initiative, DCI),其宗旨是向非赢利的学术团体提供语料,以免除费用和版权的困扰,用标准通用置标语言SGML统一置标,以便于数据交换。LDC语言数据联合会(Linguistic data Consortium):设在美国宾州大学,实行会员制,有163个语料库(包括Text的以及speech的),共享语言资源。RWC日语语料库:日本新情报处理开发机构RWCP研制,包括每日新闻4年的全文语料,语素标注量达1亿条。亚洲各语种对译作文语料库:日本国立国语研究所研制,中野洋主持,北京外国语大学参加。为了推进语料库研究的发展,欧洲成立了TELRI和ELRA等专门学会。跨欧洲语言资源基础建设学会TELRI (Trans-European Language ResourcesInfrastructure)目的在于建立欧洲诸语言的语料库,现己经建成柏拉图(Plato)的理想国(Politeia)多语语料库,建立了计算工具和资源的研究文档TRACTOR(Research Archive of Computational Tools and Resources),并在语料库的基础上建立欧洲语言词库EUROVOCA. TELRI每年召开一次Seminar。最近的一次Seminar在Lubljana, (Slovenia)召开(22.September一26.September.2000),主题是从语料库中自动抽取知识(Automatic knowledge extraction).欧洲语言资源学会ELRA (European Language Resources Associationi)负责搜集、传播语言资源并使之商品化,对于语言资源的使用提供法律支持。ELRA建立了欧洲语言资源分布服务处ELDA (European Language resources DistributionAgency),负责研制并推行ELRA的战略和计划,还组织语言资源和评价国际会议LREC (Language Resources&Evaluation Congress),每两年一次。1.2.2国内主要语料库简介近几年国内在汉语句法标注语料库开发、自动句法分析和语言知识获取方面主要有以下研究和进展:提出了包括基本短语、功能语块、复杂句子等句法单元的汉语句法标记集;分阶段进行了建立汉语句法标注语料库的实验,开发了200万字规模的功能语块库和100万词规模的句法树库;对汉语句法规则和词语搭配知识获取以及句法分析器进行了探索。1991年,国家语言文字工作委员会开始建立国家级的大型汉语语料库3,以推进汉语的词法、句法、语义和语用的研究,同时也为中文信息处理的研究提供语言资源,计划其规模将达7000万汉字。其语料要经过精心的选材,语料的选材受到如下限制:时间的限制:语料描述具有历时特征,着重描述共时特征。选取从1919到当代的语料(分为5个时期),以1977年以后的语料为主。文化的限制:主要选取受过中等文化教育的普通人能理解的语料。使用领域的限制:语料由人文与社会科学类、自然科学类和综合类3大部分,人文和社会科学再分为8大类29小类,自然科学再分为6大类,综合类再分为2大类。主要选取通用的语料,优先选取社会科学和人文科学的语料。从1979年以来,中国就开始进行机器可读语料库的建设,早期建立的主要的机器可读语料库有:汉语现代文学作品语料库(1979年),527万字,武汉大学。现代汉语语料库(1983年),2000万字,北京航天航空大学。中学语文教材语料库(1983年),106万8千字,北京师范大学。现代汉语词频统计语料库(1983年),182万字,北京语言学院。北大计算语言所大规模的双语语料库,约11万双语对齐句子,北京大学。大规模汉语标注语料库(1999年),约1,300万汉字,富士通与北大计算语言所合作。大型藏文语料库,1亿3千万字节,用于藏文词汇频度和通用度的统计。西北民族大学。1.2.3词性标注方法研究现状在对语料库信息的加工处理过程中,词类(性)标注是一项很重要的工作。它的任务就是给语料库中的每个词赋一个合适的词类标记。由于英语、汉语等许多自然语言中都存在着大量的词的兼类现象,因此给语料库的自动词类标注带来了很大困难。词类歧义消解(Grammatical Category Disambiguation)已成为自动词类标注研究的主要课题。自从上世纪六十年代Brown语料库建立以来,机器自动词性标注技术4在过去的四十多年里发展迅速。迄今为止已经出现了众多的计算机自动词性标注技术,这些技术所依赖的理论方法大致可分为三类:第一类是基于规则的方法;第二类是基于统计的方法;第三类是规则与统计相结合的方法。1)基于规则的方法基于规则的自动词性标注方法最早出现在上世纪六十年代。随着语料库的建立,一些学者开始尝试对英语语料库进行机器自动词性标注,并逐渐形成了一系列基于规则的方法,其中最具代表性的是1971年开发的TAAGGIT标注系统。该系统采用86种词性标记,利用3300条上下文框架规则对100万词的现代美国英语Brown语料库进行自动词性标注5,标注正确率达到了77%。这类基于规则方法的核心思想是计算机根据具体的上下文结构框架,套用语言学家总结的语言学规律来判定兼类词词性。以计算机对“研究”一词进行词性判断过程为例进行说明。处理对象文本:“研究理论”vs“理论研究”。步骤1:“理论”根据电子词典判定为单性词名词;步骤2:“研究”根据电子词典判定为兼类词名词、动词;步骤3:依据预设语言学规则a:名词之前为动词,判断“研究理论”中的“研究”为动词;步骤4:依据预设语言学规则b:名词之后跟名词,判断“理论研究”中的“研究”为名词。 可以看出,这类方法的基本工作原理是在计算机内预先设置电子词典和规则库,计算机先利用电子词典对语料进行静态词性标注(即列出对象词可能具有的所有词性),然后依据上下文信息,结合规则库规则进行词性消歧,最终保留唯一合适的词性。当然,所有规则都是以特殊的计算机语言编写而成的。基于规则的方法是归纳推理的过程,可以很好地对某一自然语料进行定性描述。但是这种方法所依赖的规则库是一个封闭的系统,所含的规则是有限的。值得注意的是,有限的规则无法对无限的不断变化着的自然语言进行一一描述,特别是在处理新词生词和特殊语言现象时,这种方法的局限性就十分突出了。这就决定了这种方法在自然语言处理中不可能具有很强的鲁棒性,其词性标注的正确率还不能满足实用性的要求。2)基于统计的方法 80年代在经验主义的影响下,统计方法逐步被应用于语料库词性标注中,并占据领域的主导地位。1993年,对LOB语料库的标注算法CLAWS首先将概率统计模型应用于自动词性标注技术上,这种做法大大提高了机器词性标注的正确率,对英语语料词性标注的正确率可达到97%.随后的VOLSUNGA(基于转换错误驱动的学习型词性标注算法)算法更使英语语料库的词性标注技术趋近于实用性标准。 这类基于统计的方法的基本思想是,制定词性标志集,选取部分自然语料进行人工词性标注,再利用统计理论(如Bayes公式)进行运算得出统计规律,然后依据统计规律建立统计模型,机器根据统计模型进行词性标注。它与基于规则方法的最大的区别在于:在规则的方法中计算机依据的是人工制定的语言学规则,而在统计的方法中计算机是依据大量自然语料的统计数据自行生成规则。CLAWS算法原名为“成分似然性自动词性标注系统”6,其主要工作原理是先对语料库中部分语料进行人工词性标注形成训练集,计算机对训练集中的任意两个相邻词性标志的同现概率进行统计,计算相邻词性标志的同现概率矩阵。机器进行词性标注时,先依据首词与尾词都为单性词的原则,从处理对象文本中截取有限长度的词串(即跨段),然后在同现概率矩阵中查找跨段中各相邻词的词性同现概率,求出同现概率笛卡儿积,所得概率积最大的为该跨段的最佳词性组合,这些词性作为最终标注结果输出。实验证明,采用CLAWS算法能提高词性标注正确率,但是不难看出CLAWS算法存在一些缺陷。第一,这种多途径的算法使计算机运作复杂,工作量大,工作时间长,而结果只采用一种词性组合;在某种程度上来说,计算机大部分工作是无效的,这造成计算机工作效率低下。第二,兼类词词性种类数的增加和跨段长度的增加都会使计算机的工作量呈指数倍增长,可能造成计算机超负荷运作。1988年,针对这两点缺陷,德罗斯(Seteven DeRose)对CLAWS算法进行T改进,提出了VOLSUNGA算法。在VOLSUNGA算法中,计算机不再求笛卡儿概率积,而是运用“步步为营”的策略,即只对跨段中当前词具有最佳同现概率的词性组合作进一步处理,放弃其它同现概率较小的词性组成。这种方法缩短了工作时间,大大提高了计算机的工作效率。同时,在这种算法中,计算机还统计出每个词的相对标注概率,用它来辅助选择最终结果;这种做法进一步提高了自动词性标注的正确率。综合上述两种具体的统计算法,可以看出基于统计的自动词性标注方法侧重语料的定量描写。这种方法的优点在于:第一,提供的数据是客观的,受非语言因素影响小,可信度、真实度较高;第二,这是一种开放式的描述方法,符合自然语言动态变化的本质特征;第三,计算机不断记录和统计真实语言现象,可以不断生成新的规则,对新词生词和特殊语言现象的处理能力很强;第四,这是一种随机总结规律的方法,适用性强,可以应用于各种语言和语言现象的处理。但是,这类方法也存在着一定的局限性。首先它对于自然语言的理解不直观,无法对各种语一言现象进行明确地、定性地归纳总结。它所形成的规律只是基于数据的统计,因此是一种浮动的、似然的规律。其次,这种规律对语料的依赖性极强,规律稳定性较弱,不可避免地会带有片面性。再次,这种方法在进行词性判断时,只选择最佳概率的词性组合,排除其他选择;但是最佳概率并不是唯一的选择,也不一定就是最合适的选择。这种最佳概率实际上与当前处理的语料无任何关系,只是基于以往经验的判断,所以不可避免会出现错误标注,制约了正确率进一步提高。此外,这种方法对各种自然语言现象不加区分地使用单一复杂的概率算法,忽略了这样的现实情况:一些简单语言现象只需要进行只字片语的规则说明就可以使机器迅速地做出正确判断,但是用统计方法却需要十几步甚至几十步的计算。所以采用单一的统计手段可能会造成计算机资源和时间的浪费。另一方面,以自然语言为主要训练内容的情况下,将会产生训练样本的数据稀疏的问题,统计算法可能造成过度拟合,反而不如基于规则的方法好。3)规则与统计相结合的方法从前文的分析可以看到,基于规则的方法和基于统计的方法各有利弊,都不能很好地满足实际应用的需要。于是人们开始思考采用一种折中的方式,即把基于统计和规则的方法结合起来,取长补短,在利用大规模语料库建立统计模型的同时,使用一定的语言学规则。大规模的实验验证了这种折中的方法的确提高了机器自动词性标注的正确率和工作效率。目前很多专家、学者对此正进行大量的研究,并形成了一些行之有效的方法。人工集成、建造兼类词的鉴别规则库方法就是这类方法中的一种,它的核心思想是对统计算法得到的同现概率矩阵、兼类词词典和非兼类词词典进行再处理,并在处理过程中辅助以语言学规则。具体操作步骤可表示为:1.计算机自动生成的兼类词词典。2.对兼类词词典进行人工处理,整理生成人工处理后的兼类词词典。这种人工处理的结果是,词典中每个词都被注明所有可能的词性标记,并依据词性出现的概率从大到小进行排序,同时每个词性后还附带经典例句。3.利用统计方法生成的词性同现概率矩阵和标注实例的验证结果,对词类搭配 组合进行定性描述,生成句法规则。4.依据语料中自然语法现象获取词汇结构规则,进一步扩充完善规则库内容。5.计算机依据最新的规则库(包括语言学规则和统计模型),进行词性标注。这种统计与规则并举的词性标注方法,融合了两者的优点,用语料库来获取各类知识(包括句法规则、词汇搭配规则)和统计数据,在计算机上同时建立起规则库和统计模型。当计算机进行词性标注时,对简单的语言现象直接调用语言学规则来保持机器较高的工作效率,节约资源;对于语一言学规则难以处理的现象,则借助统计模型来解决。与纯粹的统计方法相比,计算机的工作效率有了明显的提高;而比起纯粹的规则方法,这种方法利用统计模型弥补了规则方法规则有限性的缺陷,其处理自然语言的能力大大增强了,鲁棒性也提高了。1.2.4论文各章节安排论文将描述一个我们已经实现的基于错误规则模型的词性标注系统。 第一章交代了论文背景和论文的设计初衷,然后简单介绍了国内外现有的知名语料库和目前用途较广、比较成熟的标注方法。第二章首先描述了最大熵算法模型,随之给出了一个基于统计的特征选择方案,描述了如何选择有效特征进行标注,并引入了专门针对兼类词的概率特征函数和外部知识的伪事件。第三章是对词性标注错误的定性和定量分析,通过分析,我们得到了一些有效的改善统计标注系统性能的规则集。第四章描述我们的测试实验,我们比较了采用统计标注系统和修正规则集相结合前后的实验结果,实验结果表明统计方法和规则技术结合给标注方案的性能带来了显著的提高。最后一章是结论和未来工作的展望。第2章 基于极大熵的词性标注2.1最大熵原理在信息论,用熵来描述事件的不确定性。信息熵表征了信源整体的统计特征,是总体的平均不确定性的量度。设随机变量含有Al, A2,,An共n个可能的状态,每个状态出现的机率分别为pl,p2,pn,则言的不确定程度,即信息熵为: 式(2.1)自然界的事物总是在约束条件下争取最大的自由权。总是朝着最混乱的方向发展,熵增意味着无序状态增强。熵最大的事物,最可能接近它的真实状态。在无外力作用下,事物因此,在己知约束条件统计建模时,通常根据已知信息,构造统计模型对随机事件进行模拟,来预测其未知行为。满足已知信息要求的模型可能有多个,基于最大熵理论来选择模型就是将已知事件作为制约条件,求得使熵值最大的概率分布作为正确的概率分布。 2.2最大熵建模 若用T表示所有类的集合,X表示所有上下文的集合,而P表示利用最大熵模型估计出的随机事件的发生概率P,则P应满足以下两点要求l:P要使熵最大化: 式(2.2)P要服从样本数据中已知的统计证据,通常要求P尽量和数据集的先验分布相吻合。但是如果一味的追求使两者的值相同,会出现训练过适应的问题,因此只要求它的重要条件信息在P上的期望值和在先验概率尸上期望值相等,这些重要的条件信息称为样本特征,通常用二值特征函数f来描述。特征函数用来表示已知样本的特征,特征fi对P的约束可以表示为: 式(2.3)即:在概率P的情况下,特征的期望值应该和从样本数据得到的特征的经验值相等。也即: 式(2.4)根据最大熵原则,就是要在所有满足特征约束条件的分布P中,选择一个能使熵最大的概率分布: 式(2.5)在标注任务中,约束表示为: 式(2.6)其中,k表示特征函数的个数。熵表示为: 式(2.7) 最大熵用于标注,即是要求约束条件下入一个参数入,利用拉格朗日求解法,得: 式(2.8)其中,为归一化因子, 式(2.9)式(2-8)中,P*具有Gibbs分布,和特征函数及其参数(特征值)有关。最大熵方法就是找出一个合适的特征集合,并计算得到每条特征的重要程度,即特征值。2.2.1样本特征描述最大熵模型一般使用的训练特征是二值的,非零即一,这种特征选取方法对句子层面的应用来说也许是足够的,但是对于文本分类这种基于文档层面应用,很难捕获充足的信息。因为,文档分类中不能仅仅通过词的存在与否来判断它对某一篇文档语义的贡献,更准确的方法是使用词频。关于特征的选择工作最后都归结于特征分类集合的选择。如何通过训练和学习对特征分类过程进行必要的指导,是大部分特征函数在设计过程中需要解决的主要问题。本论文经过大量的实验比较,设计的标注系统采用自行选取的固定数量的特征类别集合。假设特征选择的分类属性值构成随机过程P的所有输出值Y。对于每一个Y E Y,其出现均受与之相关的决策属性值x的影响。己知与Y相关的所有决策属性值组成的集合为X,则模型的目标是:对给定的所有决策属性xEX,计算输出为yEY的条件概率,即对P(Ylx)进行估计,其中yEY且xEX。因此,特征选择的目的就是从众多决策属性中选择出对分类属性具有明显表征作用,从而对熵值起明显决定作用的特征。特征分为原子特征和复合特征:设xEX且x=wlw2. wn,设c是x的子串(长度=1),若c对yEY具有表征作用,则称(c, y)为模型的一个特征。若串c的长度为1,则称(c, y)为原子特征,否则,称(c, Y)为复合特征。2.2.2数据训练最大熵原理的基本思想是:给定训练数据即训练样本,选择一个与所有的训练数据一致的模型。比如在英语中,对于一个具有词性歧义的词条,如果发现一个名词前为一个冠词的概率为50%,而在名词前为一个形容词的概率为30%,则最大熵模型应选择与这些观察一致的概率分布。而对于除此之外的情况,模型赋予的概率分布为均匀分布。对模型输入经过人工排歧或从己标注过的语料库中抽取出的大量训练样本进行训练,特征选择过程是在这些样本的基础上,对空间而言还包含空间数据信息,即对在语料库中有歧义的对象的每次出现,都已有确定的取值Y及其对应的上下文环境x,可以表示为:(x1, y1), (x2, y2),,(xi, yi),,(xn, yn)a其中,x1表示决策属性,或为空间数据,或为非空间数据,yi是分类属性,是由专家提供的类标号。在训练数据的基础上,可以用概率分布的极大似然对训练样本进行表示。可以用概率分布的极大似然对训练样本进行表示: 式(2-10)其中freq(x,y)是(x,Y)在样本中出现的次数。2.3特征选择2.3.1问题的提出在样本的特征描述中提到过,特征选择是最大熵模型的重要工作,那么判断特征集合有效与否的标准是什么,如何进行特征的筛选是我们接下来要解决的问题。假设特征选择的分类属性值构成随机过程P的所有输出值Y。对于每个YEY,其出现均受与之相关的决策属性值x的影响。己知与Y相关的所有决策属性值组成的集合为X,则模型的目标是:对给定的所有决策属性xEX,计算输出为yEY的条件概率,即对P(Ylx)进行估计,其中yEY且xEXo哪些上下文信息作为预测信息即是特征选择的问题。因此,判断特征是否有效的标准就是看模型是否成功地从众多决策属性中选择出对分类属性具有明显表征作用,从而对熵值起明显决定作用的特征。特征选择过程是在抽样数据的基础上,因此抽样数据的准确程度至关重要。抽样数据来自于可靠的采样数据库,对特征空间而言还包含空间数据信息,可表示为(x1, y1), (x2, y2),,(xi, yi),,(xn,”)。其中,xi表示决策属性,或为空间数据,或为非空间数据,yi是分类属性,是由专家提供的类标号。待标记的词的词性和该词所在的上下文环境(特征空间)有关,上下文环境信息用特征来描述。例:“各国/np在/p经济/nn领域/nn加强/vv互利/nn合作/nn,“加强”的词性标一记为vv,其上下文特征信息可以表示为:.当前词:加强.前一个词:领域前一个词的POS为nn.前二个词:经济前二个词的POS为nn.后一个词:合作特征函数通常表示为二值函数,例: 式(2-11)进而引入一系列特征函数:根据词在训练语料中的出现频数,将其分为一般词和生词(rare,出现次数低于系统设定的闽值),分别考虑其上下文信息。例如,词w的上下文信息可以表示为: 式(2-12)2.3.2特征选择实验下面将较为详细地介绍本论文中特征选择的方法。作者把特征集合的选取分为两步:1)利用定义好的特征模板直接从语料中抽取候选选特征,然后再从候选特 征集中选取特征。2)设定当前词的上下文环境为前面若干个词、后面若干个词以及前面若干个词的词性、相依词性信息。论文通过增补实验对以下的样本特征进行筛选,得出可靠的标注特征集合。表2-1备选样本特征说明outcome预期标记值curword输入(即最大熵模型的系统输入)prewordl前一个词pretagl第一个词的词性Preword2前第二个词pretag2前第二个词的词性preword前第三个词pretag3前第三个词的词性nextword后第一个词nextword2后第二个词retag12输入前第一个词的词性前与第二个词的词性的相依信息在理论分析的基础上,结合实际语料建设的功能和特点,选取北大计算语言所提供的1998年1月份10天的人民日报语料,进行特征选择和模型训练实验。表2-2特征选择实验结果实验序号 待实验的特征集合 Accuracy(%)0 outcome curword prewordl,nextwordl 50.37891+ outcome curword prewordl,pretagl,nextwordl 71.27892 outcome curword prewordl,preword2pretagl,nextwordl 57.8314Zbl outcome curword prewordl,pretagl,pretag2,nextwordl 65.72123+ outcome curword prewordl,preword2,pretagl,pretag2,nextwordl 66.15494- outcome curword prewordl,preword2,pretagl,pretag2,nextwordl,nextwordl 53.5911Zb2 outcome curword prewordl,preword12, nextwordl 69.98515+ outcome curword prewordl,preword2,pretagl,pretag2,pretag12,nextwordl,nextword2 57.27496- outcome curword prewordl,preword2, preword3, 50.3689pretaglpretag2,pretag12,nextwordl,nextword2Zb3 outcome curword prewordl,preword2, preword12,Nextwordl 71.87037+ outcome curword prewordl,preword2, preword3,pretagl,pretag2, pretag3,nextwordl,nextword2 54.86258 outcome curword prewordl,pretagl,pretag2, 50.0830pretag3,pretagl2, nextwordl9- outcome curword prewordl,preword2, preword3,pretagl,pretag2, pretag3, nextwordl,nextword2, 43.7544nextword3图表说明:实验0-10共11次实验通过5倍交叉验证方法对材料进行标注,所得准确率。见表2-1,加号表示准确率比上一次实验增加。由实验0-10共11个实验的趋势图可知,系统标注的准确率并不随着特征个数的增加而上升,因此实验采取增补、替换不同特征的方法,检测出对准确率影响较大的特征。其中:第一次增补实验根据序号为0, 1, 2次实验的准确率结果趋势判断,此时继续增加特征可能导致准确率继续下降,去除实验2增加的preword2特征,增加pretag2特征后,结果有所改善;同时把preword2作为排除特征。第二次增补实验根据序号为3, 4次实验的准确率结果趋势判断,去除nextword2以及第一次增补实验筛选掉的preword2排除特征。结果比实验4略理想;增加排除特征nextword2。第三次增补实验根据序号为5, 6次实验的准确率结果趋势判断,去除preword3和两个排除特征preword2, nextword2。增加排除特征preword3。第四次增补实验根据序号为8次实验的准确率结果趋势判断,去除pretag12会导致结果准确率下降,因此增加pretag12,同时删减掉排除特征preword2,nextword2, preword3进行实验,准确率有所回升。补充:序号为9, 10两次实验结果低于50%,没有参考意义。在四次增补实验中,实验Zb3的准确率较高,可以认为实验Zb3选用的特征集合是比较适当的。因此在上下文信息窗口中选取以下七个特征作为最大墒的特征空间,记为后续实验的特征空间:Feature Space= outcome, curword, prewordl,pretagl,pretag2, pretag12, nextwordl第3章 汉语兼类词和词性标注错误研究3.1汉语的词性兼类问题常用汉语兼类词数量不多,在现代汉语词典(2002年增补本,外语教学与研究出版社)中兼类词的比例仅占3%(约为1500个)。但兼类词多为日常用词,在语料库中出现率较高。在修辞学研究中,汉语中的词性兼类现象可以分为如下几类: 汉语的词经常具备两类或几类词的主要功能,大部份词本身就具备着不同的的语法功能,因而在不同的环境下使用,词性会随之产生变化,词义也会随之发生转换。常见的兼类词的情况有以下几种:1.兼动词、名词的,比如:病、锈、建议、决定、工作、代表等2.兼名词、形容词的,比如:左、科学、精神、经济、困难、矛盾等3.兼形容词、动词的,比如:破、忙、丰富、端正、明白、深入等汉语中虽然有一定数量的单义词,其中单纯的单义词比较少,合成的单义词比较多。交际时,单义词不受语言环境的限制,也不会产生歧义。但多义词在汉语中是更为普遍存在着的,词的多义现象正是汉语词汇丰富的一种表现。多义词对语言环境有很强的依赖性,在一定的语境中只能有一个义项适用。对于大规模语料库,系统在生成训练模型时可能也不会遇到兼类词的所有正例。例如,“短”分别有“形容词、动词、名词”三种词性:句1夏季/n 4/n长/a夜/n短/a。/w句2短/v斤/n缺/v两/n。/w句3取/v长/n补/v短/n 。信息处理用的词类与教学语法中的词类在本质上是一致的211,例如在分类标准上,都是根据语法功能分出的类。并且在各类词的属性描述上也是有许多相同之处的,但信息处理用的词类与教学语法中的词类二者的研究目的是不同的,因而在一些具体问题上也表现出一些不同之处。首先二者的研究目的不同。教学语法中的词类研究就是为了使全民族对我们的语言有一个更加深入的认识,从而更好地使用我们的语言;而信息处理用的词类研究,就是为了能使计算机更好地处理我们的语言,从而使人机对话的深度一步一步的提高,适应信息化社会的需要。其次,二者在词类的分类体系上也是不同的,一般来说,为语言教学服务的语法体系的词类,大类分得不是太多,但是计算机处理用的语法体系的词类,大类分得就更细一些,例如在教学语法中,现在比较通用的词类体系是把词分成:动词、名词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词、拟声词,共12类。为信息处理服务的现代汉语语法信息词典中又在这些基础上分出了时间词、处所词、方位词、状态词、区别词、语气词、共18个基本类,还增加了前接成分、后接成分、语素、非语素字、成语、习用语、简称略语,共7个附加类制。另外,兼类词有异型兼类词和同型兼类词两种22。异型兼类词指词义不同的兼类词,如“领导(动、名)、锁(动、名)、死(动、形)”,也有人认为这些实际是同音词。同型兼类词指词义相同的兼类词,如“共同(区别词、副词)、小时(量词、名词)、区别(动词、副词)”。异型兼类词必须处理成兼类词或异类同音词,但同型兼类词从理论上说则不一定处理成兼类词,这与我们的划类策略有关。比如“研究、检查”一类词,兼有动词和名词的性质,我们可以采取同质策略处理成动词兼名词,也可以采取同型策略处理成第三类词,还可以采取优先同型策略处理成动词或名词。到底采取哪一种策略,主要应考虑下面两方面因素:(一)词类的简单性:类的总数尽可能少;同型兼类词总数尽可能少。(二)句法规则的简单性:划归同一词类的不同词的语法功能应尽可能单一。两方面因素实际上是矛盾的,照顾了词类的简单性就会破坏句法的简单性,照顾了句法的简单性就会破坏词类的简单性,因此应全盘考虑,使两方面的总代价降到最小。一般的语法学家认为无论词的分布如何,词义没有发生根本的变化,即同形同音词在不同的分布中同义,只有这种词才属兼类词,而对于具有不同分布时,词义又明显区别的词不属兼类词。而在信息处理用的词类研究中,我们认为只要一个词在不同的分布中,具有不同的词性,才被当成为是兼类词,而不管其意义区别,实质上也就是指多类词。3.2兼类词标注中的错误分析和使用方法在汉语中,兼类词主要集中在动词,名词,形容词等常用词上。经过词典统各种兼类现象的比例如下:表3-1兼类现象的静态分布特征讨词典的统计结果)总词数54760兼类种类113兼类词条数3680兼类词占总词数的百分比6.72%高频兼类占总兼类词百分比其他兼类现象12.55%其他兼类现象3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论