




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《汉语分词的主要技术及其应用展望》、汉语自动分词的提出词具有语音、语义和结构三大特征,其语义特征表现在必须具备一定的意义,表明客观现实中的某一事物的性质、特征、行为和关系等,没有意义的词是不存在的。词里包含有两种不同性质的意义:词汇意义和语法意义。词的结构特征表现在词在结构上是一个不可分割的整体,其意义不是它的几个构成成分(如果存在的话)的意义的简单总和。人们在阅读时,大脑有一个模糊的分词过程,它是与视觉到声音的转换和语义理解交叉或同时进行的,并以语感的形式体现出来,由于文化修养和知识水平的差异,不同的人对词和非词,词和词组的预感差别很大。因而人工分词的同一性得不到保证。北京航空学院曾做过一个实验,三十余个具有高中文化水平的青年对五百字的一个语言材料人工分词,同一率只有50%左右。在大篇文字材料处理时,人工分词不仅速度慢,长时间单调枯燥工作也使错误切分次数大大增加。这些都表明人工分词不能满足汉字处理现代化的要求,但要对书面汉语实现计算机自动分词,并非易事,这与汉语特性有很大关系。与印欧语系相比,现代汉语至少在四个方面于分词不利:第一,汉语的词不分写,而且词无明确的形态标志,这给计算机进行汉语的词法分析带来一大障碍。其次,汉语是一种无形态变化的分析型语言,缺乏明显的句法形式标记,其语法主要靠虚词和不同的词序来实现。第三,汉语的形态不发达,增加了语言的表层结构对语义的依赖性,所以,汉语句子成分的语法作用强烈依赖于该成分的意义。第四,汉语构词具有极大的灵活性和自由性。只要词汇意义和语言习惯允许,就能组合起来,没有限制。如果在自动分词处理时,既不进行语法分析,也不进行语义理解,只是机械的匹配比较,那很容易实现,但必然会出现许多错误切分,而要提高分词精度,就必须进行语法分析和语义理解,于是就引发了一系列耐人寻味的问题。汉语词自动切分是计算机中文信息处理的第一步,也是计算机科学界、语言文字学界以及信息管理学界所面临的挑战性难题,这一“瓶颈”的解决是计算机自然语言理解、人工智能、信息检索、机器翻译和自动文摘等领域突破的关键长期以来一直困扰着这一研究领域的许多专家学者。尽管汉语词自动切分研究已经取得了可喜的进展,但是在汉语词的规范、自动分词算法突破、切分歧义处理、自然语言理解和人工智能等诸多领域还存在着难以克服的阻碍,仍需要多个学科领域的专家学者们通力协作,才能获得新的突破。二、现有的分词方法为了克服汉语词计算机自动切分这一难题许多年来,大量的学者都加入了这一领域的研究,使汉语自动分词取得了丰硕的研究成果。近年来,语言学界、人工智能领域和情报检索界的学者们,在汉语自动分词与自动标引的研究与实践上进行了大量的研究,找到了许多解决汉语分词的方法,归纳起来有:最大匹配法、逆向最大匹配法、逐词遍历法、设立切分标志法、最佳匹配法、有穷多层次列举法、二次扫描法、高频优先分词法、基于期望的分词法、联想——回溯法、双向扫描法、邻接约束法、扩充转移网络分词法、语境相关法、全自动词典切词法、基于规则的分词法、多遍扫描联想法、部件词典法、链接表法、最少分词词频选择法、专家系统分词法、基于神经网络的分词方法等22种。归纳起来,目前国内公开报道过的分词系统采用的分词方法主要有三种类型:(1)机械分词法。机械分词法主要有最大匹配法(MM法)、逆向最大匹配法(RMM、OMM、IMM)、逐词匹配法、部件词典法、词频统计法、设立标志法、并行分词法、词库划分和联想匹配法等。(2)语义分词法。语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、约束矩阵法、语法分析法等。(3)人工智能法。又称理解分词法,人工智能是对信息进行智能化处理的一种模式,主要有两种处理方式:一种是基于心理学的符号处理方法。模拟人脑的功能,像专家系统。即希望模拟人脑的功能,构造推理网络,经过符号转换,从而可以进行解释性处理。一种是基于生理学的模拟方法。神经网络旨在模拟人脑的神经系统机构的运作机制来实现一定的功能。以上两种思路也是近年来人工智能领域研究的热点问题,应用到分词方法上,产生了专家系统分词法和神经网络分词法。这些方法又大体上可分为两类:一类是基于规则的,大多数中文分词方法都属此类;一类是基于语料库的,如神经网络分词法部分的属于此类。基于规则的分词算法的计算模型均是概率论中的马尔可夫过程又称元语法、隐马尔可夫过程和通信中的信道噪声模型。但无论是马尔可夫过程还是信道噪声模型最后都归结为计算词频的统计信息,串频和互信息是词频的另一种表现形式。但遗憾的是自然语言远不是一个经过事先精心规划的系统难以用一套完整的规则去准确地预测正式汉语文本中所出现的各种变异。最大匹配法(MM)这种方法又称5-4-3-2-1查词法,最长匹配法,回巡检索法,其基本思想是:假设自动分词词典中的最长词条所含汉字个数为i,则取被处理材料当前字符串序列中的前i个字作为匹配字段,查找分词词典,若词典中有这样一个i字词,则匹配成功,匹配字段作为一个词被切分出来,如果词典中找不到这样的一个i字词,则匹配失败,匹配字段去掉最后一个汉字,剩下的字符作为新的匹配字段,再进行匹配,如此进行下去,直到匹配成功为止。有专家统计过,MM法的错误切分率为1/169。逆向最大匹配法(RMM)这种方法的分词过程与MM法相同,不过是从句子(或文章)末尾开始处理,每次匹配不成功时去掉的是前面的一个汉字。据说RMM方法的分词精度比MM法要高,其错误切分率是1/245。逐词遍历法把词典中的词按由长到短递减的顺序逐字搜索整个待处理材料,一直到把全部词切分出来为止。不论分词词典多大,被处理材料多么小,都得把整个分词词典匹配一遍。上述三种方法思路清楚,易于机器实现,但由于是把词典作为判词得唯一标准,忽略了汉语词汇得灵活多变性,因而局限性大,出错率高,拒分现象严重,时间复杂度高,这是它们不能被单一采用得最主要原因。设立切分标志法切分标志有自然和非自然之分。自然切分标志是指文章中出现得非文字符号,如标点符号等。非自然标志是利用词缀和不构成词得词(包括单音词,复音节词以及象声词等)。设立切分标志法首先收集众多得切分标志,分词时先找出切分标志,把句子切分为一些较短得字段,然后用MM、RMM或其他方法进行细加工。这种方法并非真正意义上得分词方法,只是自动分词得一种前处理方式而已,它要额外消耗时间扫描切分标志,增加存贮空间存放那些非自然切分标最佳匹配法(OM)此法由北京航空航天大学提出,分为正向得最佳匹配和逆向得最佳匹配法。其出发点是:在词典中按词频的大小顺序排列词条,以求缩短对分词词典的检索时间,达到最佳效果,从而降低分词的时间复杂度,加快分词速度。实质上,这种方法也不是一种纯粹意义上的分词方法,它只是一种对分词词典的组织方式。OM法的分词词典每条词前面必须有指明长度的数据项,所以其空间复杂度有所增加,对提高分词精度没有影响,分词处理的时间复杂度有所降低。有穷多层次列举法其基本思路是:把待处理材料中标点符号区分的语言片断作处理对象,先处理不用查词表的具有特殊标志的字符串,如阿拉伯数字,拉丁字母等,然后用环境词表确定属于15类可列举的词,即先判断一个词能否组成多音词,如五音词,四音词,三音词,双音词,最后确定是否为单音词,这样便把一个个语段化分成较小语段。这实际上是切分标志法的一种变形方法。二次扫描法其基本思想是:取待处理材料中两个切分标志之间的部分作为样本串,检查分词词典中是否有一个词,它的前两个汉字和该样本串相同,若有的话,则取样本串的前三个汉字作为匹配串,重新在分词词典中找以匹配串为子串的词,若有,则重复下去,直到进行到i个汉字为止,(设i为分词词典中最长词所含汉字的个数),则切分出一个i字词;若没有,则完成一次扫描;把匹配串的最后一个汉字去掉,作为新的匹配串,进行第二次扫描,第二次扫描用RMM或MM法进行。高频优先分词法这种方法基于词频统计、字与字之间构词结合力和歧义切分等现象的分析而提出。它不是纯粹意义上的机械分词方法,而是在分词过程中处理歧义字段的一种方式,例如,AB、BC是两个词,如果BC的频度比AB大,则ABC这一歧义字段应切分为A/BC。该方法的一个明显缺点是频度较低的词,永远被错误切分。如果仅考虑当前正在处理文本中的词频的话,将会得到良好效果,问题是如何得到当前正在处理文本的词频。这种方法增加分词的空间复杂度,低频词的错误切分难以克服,目前尚未见成功的报道。基于期望的分词法该法是基于汉语语法及语用规律以及人们语言习惯而提出,它认为一个词的出现对于它后面紧相随的词有一种期望。当然是期望大的词优先,分词时根据期望,到期望值较大的词所在的词库中找出所对应的词,从而切分出相对应的词。这种方法增加了分词的时空复杂度,但在一定程度上提高了分词的精度。目前该法仍处于理论探讨阶段。联想-回溯法其基本做法是:首先将待切分的汉语言文本,依据特征库分割为若干子串,每个子串为词或词群(几个词组合而成的线性序列),然后再用实词库和规则库将词群细分为词。这种方法实际上采用了设立切分标志法和有穷多层次列举法的思想,由于实行分级建库,故增加了分词的空间复杂度,把分词过程分解成分割和细分两个过程,使得分词的时间复杂度增大。它能提高分词精度,具备可行性,已在机器上实现。双向扫描法该法重点是放在检错和纠错上,基本做法是将正向扫描(MM)和逆向扫描(RMM)的结果相比较,一致的部分认为是正确的,不一致的部分(称为疑点)则采用人工干预、记频算法或上下文相关信息选取一种切分。这种方法对于正、逆向扫描结果一致而被认为正确但实际上切分不正确的字段(例如“结合成分子时”)没有强有力的处理手段。时间复杂度比单向扫描至少增加一倍。其分词词典必须同时支持正逆两种顺序的检索,词典结构无疑是比较复杂的,或者要设立两种结构的词典。此方法可作为一种检查歧义字段的方法,但其效果尚不如词尾字构词法。邻接约束法这种方法是利用自然语言中的邻接约束排除不合适切分以提高分词精度。由于汉语句法语义或习惯用法的限制,或人们为了避免造成阅读上的困难,相邻词语之间有一种约束关系,例如“那里”不能切分成“那/里”。汉语中某些单词在句法结构中不拥有或只能条件拥有某些固定位置(如句子或片段的开头或结尾等),不同类型的单词之间具有特定的约束(如副词、助动词一般不后接名词等),某些单音动词只在特定文体或格式中出现(如“知”一般不单独出现),等等,这些语言现象可以用来解决部分歧义切分问题。扩充转移网络分词法本世纪六十年代末由J.Thome等提出运用状态转移网络分析自然语言的思想,1970年由W.A.Woods等在前人工作的基础上提出了扩充转移网络(ATN),ATN以有限状态机的概念为基础,用ATN来组织词典就可以构成一个动态词典,它可以带来静态词典所没有的好处,它能处理只作为词头或词尾的定位字,区分词链字串或非词链字串,并使分词处理和语言理解的句法处理阶段的交互成为可能。语境相关法这是一种基于扩充转移网络(ATN)以知识和理解为基础的分词方法,它是通过将词典组织成为ATN结构,分词知识分散化,分词处理与句法语义处理并行等手段,能够处理现有种种分词方法所不能处理的词链现象,并实现分词与理解的并行。该法的基本思想是:系统从左向右扫描句子(汉字串),对于文本中的非词链部分,它按最大匹配原则,选出与文本当前位置匹配的最长的词;对于词链,分两个步骤作出切分,第一步是从左到右扫描句子,碰到词链即把切分此词链的分词知识(字或字串的成词条件)放到栈工作区中;第二步是从右向左扫描句子(此时句子是一个词或词链的序列),对词或词串作句法语义分析,分析结果放到公共数据区中供分词使用。碰到词链,运行栈工作区中的“过程”,切分次词链,直至栈工作区为空。据称该法已用语构造一个专家系统的汉语人机接口。与此法类似,有人还提出一种基于“分词和理解并行处理”的PTCUS分词法,它与“语境相关法”不同之处在于:PTCUS的方法对于句子中的词链,不是先跳过去,而是利用当前可用的动态句法语义结构信息,进行试探性切分(词的生成),然后进行多种测试。词的生成和测试过程是分时并行的。测试过程同时也是一个句法语义分析过程,它可产生句子的语义格结构。全自动词典切词该法完全使用切词规则切词,规则中的参数由词典提供,包括形式参数,语法参数,语义参数,上下文参数等,如语法参数,在第一遍扫描中(字与字的组合)中可规定:名名相联,动动相联,形名相联,动副不联等。上下文参数:根据上下文语义不同区分字和词,如“把”字可作动词(把着门),名词(把柄),介词(把东西取出来),量词(两把刀)等,不同的词根有不同的上下文。基于规则的分词法这是一种机械切分与语义校正相结合的方法。它包括建立绝对切分标志符表,变长度最大匹配法,2-3-1优先规则集,固有歧义切分校正法等。其分词算法为:1读入字符串文本;2第一次扫视,根据绝对切分标志符表,扫视文本,添加绝对切分标志“A";3计算两个“八”间字段长度M及取领头字词长N,若M<N,则K=M;否则K=N;4若K>=4,则转下一步,否则转第6步;5第二次扫视(变长度最大匹配法),取长度为K的最大匹配法,对4及4以上字词进行匹配;6按2-3-1优先规则进行机械分词;7若有歧义切分标志,作第三次扫视,执行语义校正算法,进行校正,否则转出口。值得一提的是,在这种自动分词法中,专门设计提供了规则描述语言(RDL),用以书写和装入歧义切分校正规则。该法已在机器上实现。多遍扫描联想法这是一种组合方法,其基本做法是:首先用切分标志法把文本切分成若干子串,它也分成两步,先是用自然切分标志对文本进行预处理,然后用非自然标志结合联想库对文本进行分割;其次,利用实词词库和联想库再将词群细分为词。分词时,利用语法知识特别是词法知识,联想和回朔机制同时作用于分割和细分两个阶段,旨在有效解决歧义组合结构的切分问题,同时兼有自动纠错功能。该方法需要分级建库,分别建造特征词词库,实词词库和联想规则库。部件词典法词典法的一大问题是冗余度高,且难穷尽所有词。上海交大提出“部件词典”的概念.部件系指构成词的独立单元,故可分为词首、词尾和词干等若干类部件,词部件有点像词素,但它本身也可是词或词组,以存储部件来代替存储原词。这样,电脑中存储的不是所有的中文词,而是所要用到的词1-3字的词部件以及由这些部件组词的部分信息。上海交大利用这种部件词典,成功对全国报刊索引中的计算机类文献标题和中华人民共和国法规进行处理,可用率高达98%以上。链接表法这种方法是在非用字后缀表抽词法的基础上发展起来的,其切词原则是“有联系则取,无了解则断”。链接表将汉字分为三类:A类为在某一领域内不会与其它汉字有了解而能单独存在的字;C类为其他汉字有链接关系的字;B类字为兼有A、C类字特点的字。由于链接表记载的是两个字之间的了解而不是词本身,可大大降低冗余度。其词典规则比较简单,还采取了一种称作模式字典的辅助工具解决不涉及语法和词义的歧义问题。该方法已用于汉英机译系统,分词速度在286微机上为12-13汉字/秒,准确率为95%。最少分词词频选择法(FWF)哈工大王晓龙等人在构造汉字理解的层次化模型的基础上,提出了把反馈信息限定为最简形式,从而使分词层与语义无关的思想以及词串排序的三种策略:按可能性大小排序,按运转时间长短排序,以及上述两种的结合。基于这些策略的最少分词词频选择法具有运行时间短,分词精度高的双重优点。最少分词问题可抽象为有向图两点间最短路径的问题。设所需分词的汉字数为N,结点为N+1,对应这些汉字的词典中的词均以边的形式出现,每个单字都看作是单词。边的权均为1,这样,求该汉字串切分后的最少词数就等同于求从始点到终点最短路径的边数问题。该方法的基本做法是:先采用按运行时间长短排序策略用最少匹配法分词以确定第一候选,若最少匹配法给出多条最佳路径,则再采用按可能性大小排序策略选择第一候选词串。专家系统分词法该法将自动分词过程看作是知识推理过程,力求从结构与功能上分离分词过程和实现分词所依赖的汉语词法知识,句法知识以及部分语义知识,把知识的表示,知识库的逻辑结构与知识库的维护放在系统设计的首位考虑。其知识库按常识性知识与启发性知识分别进行组织。对于常识性分词知识采用“语义网络”表示,对于启发性分词知识采用“产生式规则”表示。知识库是使专家系统具有“智能”的关键性部件。推理时,把待发词或已发词的字符串视为词语树中的节点,利用常识性知识库进行顺向搜索匹配。若匹配成功,则该词把原字符断为左右两段,以该词作为子树的根,左边一段为子树的左孩子,右边一段为子树的右孩子,来代替原字符串在词语树中的节点,形成一棵新的词语树。一旦子树的根节点满足条件:该字符串是词且存在歧义时,则启动相应的歧义切分规则,校正刚形成的这棵词语树,从而达到消除歧义的目的。每进行一步推理,既启动常识性知识库又启动启发性知识库,对于非歧义切分字段使用的是一般的语法知识;对于歧义切分字段则要使用与歧义相关的语法知识或语义知识。一个句子不管其中是否含有歧义字段,其切分过程均归结为生成该句子的词语树的过程。这种统一的自动分词方法,不仅使整个分词处理过程简明,也使整个系统的运行效率得到提高。其切分精度据称可达语法级。基于神经网络的分词方法华南理工大学的徐秉铮、贺前华等人提出了基于神经网络的一种新的分词方法(以下简称徐贺法),这一新方法是以模拟人脑运行,分布处理和建立数值计算模型工作的。它将分词知识多分散隐式的方法存入神经网内部,通过自学习和训练修改内部权值,以达到正确的分词结果。徐贺法的关键在于知识库(权重链表)的组织和网络推理机制的建立。从语言学的角度看,与分词有关的知识可分为词法知识、句法知识、语义知识和语用知识。徐贺法将分词知识分为两大类:词法知识和词境知识。词法知识的作用域限于一个词内,语境知识的作用域是语句。在知识库中,每个组成字有一个输入/输出对,其间有一个恒定的正权值,词的末字的输入单元对其他字的输出单元有负链接,对于多字词与末字链接的汉字在词中的作用可分为三类:(1)与末字组成二字词;(2)只是该词的首字;(3)只是该词的中间字。对应这三种情况,词内负链也分为三类:(1)成词链;(2)词首链;(3)中间链。例如在“家用电器”中的链“家器”、“用器”是词首链,“电器”是成词链。三类负链的优先级别是:成词链>词首链〉中间链。知识库中只保持高级别的负链。但是,徐贺法仅仅提出了交集型词法歧义字段和多义组合型句法歧义字段的实现方式,还未涉及语义歧义字段和语用歧义字段的问题。看来,用神经网络技术来构造一个高效、实用的汉语分词系统还有许多工作要做。三、汉语词自动分词存在的困难尽管汉语自动分词取得了重大进展和突破,但仍有大量的问题困扰着这一领域的学者们。因为要自由进行汉语自动分词,至少会遇到以下一些困难:(1)汉语词与词之间不象西文那样有明显的分隔符(如空格等),也不象日文那样有丰富的词尾变化(如日语中的片假名和平假名构成了书面日语的词尾变化)。(2)中文原本没有词的概念,中文词的概念是一个泊来品,至今也没有统一的词的确切定义。(3)汉语迄今为此仍未有一部公认的、确切完备的并适合于计算机自动处理的语法规则。汉语词法的无标准性、句法的复杂性、语法的模糊性与语义的多样性如汉语中大量存在一词多义、多词一义、词性变化、词义转借等现象即汉语表达极大的灵活性,使得迄今任何人都难以对它进行完备的总结。(4)中文构词方法的多样性和句法的“意重合”性等特点也使自动分词十分困难。众所周知:中文造词的原料,不仅有字,而且有词、词组。造句的方式有以字造词、以词造词,甚至压句成词。如果没有语法、语义知识或语境了解的帮助就很难对有些句子进行正确切分。书面汉语丢失了语音中所蕴含的部分有用信息。新词在不断增加(如人名、地名、新产生的词、外来词等)。总之,汉语无词的明显分隔标记,词的定义、词与词组划界标准与形式语法的缺乏等特点,构成了汉语词自动切分的极大困难。四、现有分词方法的局限衡量一个自动分词系统的指标主要有三个:切分速度、切分精度、系统的可维护性。切分精度则直接反映系统的正确性与科学性,是三个指标中最重要的一个。所以,要提高自动分词的精度,就必须有效地处理歧义字段。现有的分词方法,无论是机械分词法,语义分词法,还是人工智能分词法都不能有效解决汉语自动分词中存在的困难。因为它们普遍具有以下局限性:切分效率不高。分词速度和分词精度是切分效率的重要衡量指标。现有的分词方法基本上都是基于规则和词典的分词方法,它们都必须在分词速度和精度之间做出选择。要提高速度,就要适当放弃精度的追求,缩减词典,减少匹配次数。而要提高切分精度,就得舍弃速度,无限扩充词典,匹配次数也会无限增加。目前还没有找到有效的破解方法。不能有效消除歧义。书面汉语自动分词是把汉语文本中汉字字符的序列用计算机切分成词的序列的过程。汉字是方块字,每一个方块汉字都自为一个独立的、完整的书写单元,相互之间没有明显的界限,书写时字与字逐一连续等距离排列,词与词之间没有空格隔开,没有任何区分标志。加上汉语词理解的多义性、复杂性因而歧义现象是自动分词过程中不可避免的现象。在自动分词过程中具有两种或两种以上切分形式的字段称为歧义字段只有歧义字段才能产生错误切分,自动分词中的歧义现象一般分为三类:第一类为交集型歧义切分字段;第二类为多义组合型歧义切分字段;第三类为混合型歧义切分字段。也有人根据歧义产生的根源将分词过程中歧义字段归结为以下三个方面:由自然语言中的二义性所引起的歧义,称为第一类歧义;用人工分词是不会产生而由计算机自动分词产生的特有歧义称为第二类歧义;由于分词词典的大小而引起的歧义,称为第三类歧义,不论词典有多大都可能产生歧义。同时汉语自动分词中的歧义还有不同的表现层次,如果进行全切分,则可发现汉语中歧义普遍存在。但是这些歧义在实际语料中都有一定的表现层次,绝大部分可在较低层次消除。根据其表现层次,汉语分词歧义可分为四类:假性歧义、字段歧义、句法层歧义及上下文歧义。假性歧义指不论在什么上下文中都不会切分为多个词的组合型歧义。字段歧义指只凭前后字段即可确定切分结果的歧义,许多交集型歧义属于此类。句法层歧义需利用前后词性及句法限制来消歧,这包括部分组合型与交集型歧义。上下文歧义指其不同切分均符合语法,消歧依赖于语义及上下文。这类歧义虽出现频率很小,但最难处理。歧义表现层次的划分标准不是汉字串本身,而是其出现的上下文环境。因而对于任何歧义都必须考虑其上下文来确定消歧方法。歧义现象在词典式分词方法中普遍存在,而且只能有限减少,不可能完全消除。五、汉语自动分词研究展望汉语自动分词是一个综合性的难题,涉及到众多的学科和研究领域,需要多个学科的研究成果作为基础。但是随着科学技术的快速发展,汉语自动分词也并非遥不可及。传统文本的有效切分目前,汉语自动分词的研究重心主要集中在对传统文本的有效切分上。在计算机科学、情报信息和语言文字研究三个领域的学者专家们的共同努力之下,传统文本的有效切分已经取得了重大进展。汉语词的规范研究。由于汉语词的规范是汉语自动分词的基础。没有统一和明确的汉语词的定义,汉有规范的汉语分词词表,汉语自动分词就无从谈起。在汉语语言学家和计算机中文信息处理研究专家们的共同努力之下,目前,我国汉语词的规范研究和汉语分词规范词表的制定已经有了较大突破。《信息处理用现代汉语分词词表》的制定及不断完善,说明了我国在汉语自动分词词表方面取得了重大研究成果,这为汉语自动分词的研究铺平了道路。汉语词自动切分算法。分词算法研究是汉语自动分词的重点和难点,每一次分词算法上的突破都会使汉语自动分词的速度和精度有较大提高。据不完全统计,目前,在汉语自动分词方法和算法研究中,已经出现了数十种分词方法和算法。仅80年代以来见诸报端的自动分词方法和算法归纳起来就有:最大匹配法、逆向最大匹配法、逐词遍历法、设立切分标志法、最佳匹配法、有穷多层次列举法、二次扫描法、高频优先分词法、基于期望的分词法、联想一一回溯法、双向扫描法、邻接约束法、扩充转移网络分词法、语境相关法、全自动词典切词法、基于规则的分词法、多遍扫描联想法、部件词典法、链接表法、最少分词词频选择法、专家系统分词法、基于神经网络的分词方法、特征词库法、EM算法、演化算法、直接匹配法和后缀匹配法、二分法、基于词形的分词算法、MM分词算法、改进的MM分词算法、RMM算法和DMM算法等上百种。传统汉语分词要获得新的突破,只能在分词算法上做文章,必须在现有的分词算法和方法的基础找到一种新的分词算法,这是今后汉语自动分词努力的重要方向之一。汉语词自动切分歧义处理。汉语自动分词的主要困难是歧义切分,而歧义在自动分词普遍存在。随着分词研究的突破分词歧义处理研究也取得了重大进展。以前的消歧方法大体可分为两类:规则方法与统计方法。由于自动分词中存在三种歧义类型,不同类型的歧义,其产生的根源和消除的方法各不相同。因此,应针对不同的歧义类型采取不同的解决方法:对于第一类歧义,由于他们本身就是汉语言中的歧义问题,解决这类歧义需要依靠上、下文语义信息,即增加语义、语用知识的处理。这无异对自动分词的效率有很大的影响(时间上和空间上),而且实现起来比较困难。若是在词处理的相应阶段,结合对分词阶段未解决的歧义字段进行处理,则会起到事半功倍的效果。统计表明,第一类歧义字段只占整个歧义字段总数的1/30以下,因此不必在分词阶段花费巨大的开销来处理它们。目前对第二类歧义处理方法主要有以下几种:分词知识处理法、联想一回溯法、基于词频统计的方法、邻接约束法、基于数学期望的方法。处理第三类歧义目前主要有两种方法:一是增加构词知识,扩大词典;二是增加临时词典。此外,还可以人工干预分词,人工分词与计算机自动分词结合。在遇到计算机解决不了的歧义时,借助于人工干预来完成。为了有效地消除歧义字段,还可以在上述方法的基础上建立分词歧义知识库或规则库。随着计算机技术和汉语语言研究的发展,汉语词自动切分歧义处理将会有更大的突破。汉语
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 饮料合作加盟合同范本
- 公司聘用文秘合同范本
- 隔热夹芯板采购合同范本
- 公司代签合同范本
- 香港公司股权合同范本
- 基地鱼塘租售合同范本
- 新款合同范本模板
- 衣物袋采购合同范本
- 仓库旧料回收合同范本
- 车辆安全协议合同范本
- 惠州卫生职业技术学院辅导员考试真题2022
- XXX加油站风险分级管控台账
- 甘12J8 屋面标准图集
- 购买设备合同
- GB/T 28288-2012足部防护足趾保护包头和防刺穿垫
- GB/T 19666-2019阻燃和耐火电线电缆或光缆通则
- GA/T 1241-2015法庭科学四甲基联苯胺显现血手印技术规范
- 小学和初中科学教学衔接
- 《循证医学》治疗性研究证据的评价和应用
- “李可中医药学术流派论治厥阴病”-课件
- 通用技术作品设计报告
评论
0/150
提交评论