(计算机应用技术专业论文)基于条件随机场的汉语分词研究.pdf_第1页
(计算机应用技术专业论文)基于条件随机场的汉语分词研究.pdf_第2页
(计算机应用技术专业论文)基于条件随机场的汉语分词研究.pdf_第3页
(计算机应用技术专业论文)基于条件随机场的汉语分词研究.pdf_第4页
(计算机应用技术专业论文)基于条件随机场的汉语分词研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机应用技术专业论文)基于条件随机场的汉语分词研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于条件随机场的汉语分词研究 中文摘要 基于条件随机场的汉语分词研究 中文摘要 随着i n t e m e t 技术的迅速发展,自然语言处理已经成为信息处理领域一个引人 注目的研究热点。由于汉语的特殊性,大多数汉语自然语言处理任务都需建立在分 词的基础之上,因而分词的准确程度将直接影响到一系列的后续处理。由于汉语自 身的复杂性,分词问题一直是汉语自然语言处理的瓶颈问题。 条件随机场是用于标记和切分序列数据的条件概率模型,也是在给定输入节点 条件下计算输出节点的条件概率的无向图模型。它不需要以隐马尔可夫模型为代表 的“生成”模型那样的严格独立假设,并克服了最大熵马尔可夫模型和其他“非生 成”模型所存在的标记偏置问题。该模型可以非常容易地将输入序列中的任意特征 加入到模型中,而且也可以将一些其他的信息加入进来,如构词规则等。 本文系统地描述了条件随机场的定义、模型结构、势函数表示、参数估计及其 训练方法等,并将条件随机场运用于汉语分词,采用汉字标注的分词方法。本文应 用条件随机场进行了大量的实验,实验语料采用s i g h a n 比赛的国际标准语料,并 进行了封闭式测试。实验分析了条件随机场模型参数选择和汉字标注集选择对实验 结果所产生的影响,并且利用条件随机场模型能够添加任意特征的优点,添加了一 些新的特征到模型中,并从字的构词能力角度出发,探索了字位置概率特征。在p k u 语料库上的实验表明:字位置概率特征的引入,使结果f 1 值提高了3 5 ,达到 9 4 5 。最后利用各分词系统的分词结果,运用“结果集成”方法,使分词系统的 f 1 值进一步提高到9 5 6 。 关键词:自然语言处理,汉语分词,条件随机场,构词能力,结果集成 作者:沈勤中 指导老师:朱巧明 a b s t r a e tr e s e a r c ho fc h i n e s ew o r ds e g m e n t a t i o nw i t hc o n d i t i o n a lr a n d o mf i e l d s r e s e a r c ho fc h i n e s ew o r d s e g m e n t a t i o nw i t h c o n d i t i o n a lr a n d o mf i e l d s a b s t r a c t d u r l m gt h el a s td e c a d e ,n a t u r a ll a n g u a g ep r o c e s s i n g ( n l p ) h a sb e c o m eah o tr e s e a r c h f i e l d d u et os p e c i a lc h a r a c t e r i s t i c so ft h ec h i n e s el a n g u a g e ,c h i n e s ew o r ds e g m e n t a t i o n p l a y sa c r i t i c a lr o l ei nm a n nc h i n e s en l p a p p l i c a t i o n sa n d h a sb e c o m eab o t t l e n e c ki n c h i n e s ei n f o r m a t i o np r o c e s s i n g c o n d i t i o n a lr a n d o mf i e l d s ( c i 江s ) i sn o to n l yac o n d i t i o n e dp r o b a b i l i s t i cm o d e lf o r l a b e l i n ga n ds e g m e n t i n gs e q u e n t i a ld a t a , b u ta l s oa nu n d i r e c t e dg r a p hm o d e lt h a t c a l c u l a t e st h ec o n d i t i o n a lp r o b a b i i t yo v e ro u t p u tn o d e sg i v e nt h ei n p u tn o d e s i tr e l a x e s t h es t r o n gi i l d 印e n d e n c ea s s u m p t i o n so fag e n e r a t i v em o d e l ( e g h i d d e nm a r k o vm o d e l ) a n do v e r c o m e st h el a b e l - b i a sp r o b l e me x h i b i t e db yt h em a x i m u me n t r o p ym a r k o v m o d e la n do t h e rd i s c r i m i n a t i v em o d e l s c r f sc a ne a s i l yi n c o r p o r a t ea r b i t r a r yf e a t u r e so f t h ei n p u ts e q u e n c ea n di n t r o d u c es o m eo t h e ri n f o r m a t i o n ,s u c ha st h er u l e so fw o r d s f o r m a t i o n t h i sp a p e rp r o p o s e sac r f s b a s e dc h i n e s ew o r ds e g m e n t a t i o ns y s t e mw i t hf o c u s0 1 1 t h ei m p o r t a n c eo fp a r a m e t e rs e l e c t i o na n dd i f f e r e n tt a g g i n gs t r a t e g i e s w i t h i nt h e i n f r a s t r u c t u r eo fc r f s ,w ea l s oe x p l o r es o m en e wf e a t u r e s ,s u c ha st h ew o r df o r m a t i o n p o w e ro fac h a r a c t e r e v a l u a t i o no nt h es i g h a np k u b e n c h m a r kc o r p u ss h o w st h a tt h e n e wf e a t u r e ss i g n i f i c a n t l yi m p r o v et h ef1s c o r eb y3 5 i ta l s os h o w st h a to u rs y s t e m a c h i e v e s9 4 5 i nf 1 t h i ss u g g e s t st h a tc r f sw o r k sw e l la n dh o l d sg r e a tp o t e n t i a li n c h i n e s ew o r ds e g m e n t a t i o n 。i na d d i t i o n , w ea l s oe x p l o r et h ee f f e c to fi n t e g r a t i n g d i f f e r e n tm o d e l s ,i n c l u d i n gc r f s ,h m ma n dm e m m e v a l u a t i o no nt h es i g h a np k u b e n c h m a r kc o r p u ss h o w st h a tt h e s em o d e l sa r eq u i t ec o m p l e m e n t a r ya n dt h ei n t e g r a t e d s y s t e ma c h i e v e s9 5 6 i nf , 1 ,w m c h m u c ho u t p e r f o r m st h es t a t e o f - t h e a r ts y s t e m s k e yw o r d s :n a t u r a ll a n g u a g ep r o c e s s i n g ,c h i n e s ew o r ds e g m e n t a t i o n ,c o n d i t i o n a l r a n d o mf i e l d s ,w o r df o r m a t i o np o w e r , m o d e li n t e g r a t i o n i i w r i t t e nb ys h e nq i n z h o n g s u p e r v i s e db yz h uq i a o m i n g 苏州大学学位论文独创性声明及使用授权声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 、: 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 1 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名: 学位论文使用授权声明 日期:竺丛三纺 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名: 导师签名甲 、炒1 r v 夕 、 八,、7 期:型:三:哆 期:丝墨:! :彩 基于条件随机场的汉语分词研究第一章绪论 1 1 课题背景 第一章绪论弟一早珀下匕 自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g ,n l p ) 是当前计算机领域的一个研究 热点。语言作为交流工具,在人类活动中有着举足轻重的作用,因此,人们在大量 应用计算机来替代自己工作的同时,也期待计算机在自然语言的处理上能接近甚至 达到人的水平。 自然语言理解技术大致可分为机器翻译、语义理解及人机会话技术等几个方面。 其中,在语义理解的整个过程中,智能分词技术是最初的、最基本的环节,它 将组成语句的核心词提炼出来供语义分析模块使用。在分词的过程中,如何能够恰 当地提供足够的词来供分析程序处理,并且过滤掉冗余的信息,这是保证后期语义 分析的质量和速度的重要前提。 分词,即汉语分词一直是智能信息处理和自然语言理解中的难点,词是一个动 态的概念,每天都可能有新词出现,或者是原有的词被赋予新的用法,并且在信息 高度发展的情况下,外来词的涌入以及网络名词、商标等基于汉语自身的灵活性和 自由性所出现的新词,使得词在不断地变化和扩展。面对这样日新月异的词,分词 技术面临着巨大的挑战。分词技术是当前智能信息处理和自然语言理解必经的重要 阶段,也为后续工作的开展和深入做好扎实的准备。近年来,国内相关领域的人士 一直都在这些方面努力地研究和探索,目的就是为了找到更准确,更可靠,也更有 实用价值的方法,更好地完成序列标记的任务,其中包括汉语分词、词性标注、组 块识别、专名识别等。 本文就是要通过对条件随机场的研究和应用来说明该方法在序列标记任务上所 体现出来的特点及其良好的性能,并为后续的工作指出一个可靠的方向。 1 2 分词研究现状 汉语分词是当前智能信息处理和自然语言理解【1 1 中最为基础的一步。这一中文 第一章绪论基于条箨麓辊场静汉语分谪研究 信息处理领域的重大命题吸引了计算机界和语言学界的许多志士能人。分词系统的 总目标是建立一个开放的,具有较高通用性和实用性的现代书面汉语自动分词系统。 其具体要求是:开放系统的特征是符会整个世界上可用的标准,因而要求分词系 统具有易扩充性、可维护性和可移植性等特点。同时要求在开放环境下切分精度和 处理速度稳定在实用的程度。分词系统必须具有很好的通用性,应支持不同的应 用目标,包括各种输入方式、简繁转换、语言合成、翻译、检索和自动文摘等;支 持不同领域的应用,包括社会科学、鲁然科学和技术,以及日常交际、新闻、办公 等;支持不网的地区的汉语处理应用,包括中国太陆、台湾、香港和澳门等地,应 能适应不同地区不屈用字、用词、不同的语言风格及不同的专有名词构成方式等。 分词系统中各种信息资源,各种信息处理模块都要具有较高的独立性,可以方便 地装入系统或者从系统中卸下,从而提离系统处理精度和处理速度。 ,从1 9 8 3 年由北京航空航天大学设计实现的我国第一个实用分词系统c d w s t 2 1 以来,国内外的研究者在汉语分词方面进行了广泛的研究,提出了很多有效的算法。 先后研制出的分词系统有几十种之多。各种分诃系统虽然名称各异,所用技术也不 相同,但本质上可将它们归为三大类:机械方法、语义分词方法和人工智能分词方 法。 ( 1 ) 机械切分:又称基于字符串匹配的分词方法【3 l ,是指运用简单的模式匹配 技术的无条件切分。 最基本的机械切分方法有:正向匹配法( m m 法) 、逆囱匹配法( r m m 法) 、逐词 遍历法、双向扫描法等。机械匹配式的切分方法已经相当的成熟,其中的代表算法 最大匹配法及其在此基础上的改进算法己经被国内很多研究机构所采用。机械 匹配算法实现比较简单,但其局限也是很明显的,效率和准确性受到词库容量的约 束,对于歧义切分无法有效地克服。虽然专家们采用了不少方法来改善机械匹配的 性能,但是从整体效果上来看,单纯采用机械匹配法进行分词难以满足中文信息处 理中对汉语分词的要求。 ( 2 ) 语义切分:这种方法又称为基于理解的分词法f 4 】嘲,是指对语句中的词义 进行分析,如;扩充转移网络法等。 何克抗等( 1 9 9 1 ) 研制书面汉语自动分词专家系统,首次将专家系统方法完整地 弓| 入到分词技术中。系统使知识痒与推理机保持相对独立,知识库包括常识性知识 2 基于条件随机场的汉语分词研究第一章绪论 库( 词条的词类2 4 种、歧义词加标志及其消除规则编号、消歧的部分语义知识,使 用关联网络存储) 和启发性知识库( 消歧产生式规则集合,用线性表结构存储) , 词典使用首字索引数据结构。通过引入专家系统的形式,系统把分词过程表示成为 知识的推理过程,即句子“分词树”的生长过程。尽管该系统由于结构复杂、知识 库建造困难且并不像预想的那么易于维护、效率不易提高等原因而未能广泛流行, 但是其理论分析和指导思想已获得了普遍关注,影响了众多后继系统的开发。 曹星明等( 1 9 9 8 ) 提出了基于多种知识源的汉语自动分词。与纯规则方法不同, 该方法利用字、词、上下文、语法及语义等多种知识源对汉字串中每一隔点的切分 可能性进行考察,并在无法彻底消歧的情况下通过模糊综合知识得出最可能的切分 结果。用户可以根据需要修改系统以适应不同文本的特征,并能接收前后词法、语 法、语义分析阶段的反馈。系统利用的知识比较多,如单字频、双字相邻频、3 字 相邻频,汉字与词性共现频、单词频、双词相邻频、单字词3 词相邻频,词性一元、 二元、三元共现频,交集型与组合型歧义词链共现频,词语搭配期望、语法语义期 望词集,单字的词首频、词中频、词尾频,上下文汉字串及汉词串频率等。 王彩荣( 2 0 0 4 ) 设计了汉语自动分词专家系统。其总体设计思想是:将汉语分词 过程看作是基于知识的逻辑推理过程,用知识推理与语法分析替代传统的“机械匹 配分词+ 歧义校正”的过程。自动分词专家系统力求从结构与功能上将分词过程和 实现分词所依赖的汉语词法知识、。句法知识以及部分语义知识分离开来,使这两方 面的内容相互独立,互不影响。这样不仅使系统结构清晰,更便于系统知识库的维 护和管理。系统所用知识库包括现代汉语词汇体系中的词类知识,从实际经验中总 结出来的词法、句法和部分语义知识,以及推理规则等,可供系统随机调用。 张茂元等( 2 0 0 5 ) 提出了一种基于语境的中文分词方法。语境中文分词算法不仅 考虑词法和句子语法,还从语境角度出发分析歧义字段内部信息和上下文信息,进 而提高分词准确率。基于这一理论的语境中文分词方法,从词法、句法和语境上解 决歧义切分,是目前中文分词的有效方法之一。但它的分词校正部分和参数还有待 继续深入研究。 ( 3 ) 人工智能切分:是指模拟人的思维,采用词法、句法及语用等各种语义知 一) 识进行有条件的切分【6 l 。7 由于未登录词和歧义字段的存在,机械切分的分词精度受到了很大限制,人们 第一章缭谂 萋予条箨醚橇场豹汉语努谲研究 开始转向对智能切分方法的研究。,智能分词技术的关键是如何在分词过程中引入有 用的词法、句法、语用等各种语义知识来对文本进行有条件的切分。 另外,近期计算语言学开始注重对大规模真实文本的处理,出现了语料库统计 语言模型方法。其特点是以经验为主,以对大规模真实文本的统计为主要方法,利 用统计出来的词出现的频率等信息进行分词【7 】【8 】【9 】。这种方法存在如下弊端:我们很 滩用这种统计的数字去准确地预测真实文本中所出现的各种变异。基于语料库统计 学的方法虽然语言处理的覆盖面更广,但它仅仅考虑了语言的上下文关系,忽略了 语言现象的变化,会受至【| 语料库规模的限制f l o 1 1 玎。 中国科学院计算机研究所张华平、刘群( 2 0 0 2 ) 研制的i c t c l a s 分词词性标注 体化系统,该系统使用基于多层隐马尔可夫模型的一体化方法f 嬲,取得了良好的分 词效果,并在9 7 3 相关主题专家组组织的汉语分词标洼评测和凰际s i g h a n ( 2 0 0 3 ) 研讨会组织的汉语分词评测中分剐获得多项第一。 f u c h u np e n g ( 2 0 0 4 ) j 直用条件随机场模型进行汉语的分词任务 1 3 】,他们将对汉语 分词转化为对汉字的标注,且他们的标注集较为简单,只有s t a r t 和n o t s t a r t 两种。 他们的分词系统在s i g h a n ( 2 0 0 3 ) 的p k u - t e s t c l o s e d 测试集上f l 为9 4 1 。 孙茂松等( 2 0 0 4 ) 探讨了基于无指导学习策略和无词表条件下的汉语自动分词方 法,基本任务是实现一个无词表的汉语自动分词算法,系统全部分词知识均由机器 从生语料中全自动获得,无须人工介入。在字问互信息和t 测试差的基础上,提出 了一种将两者线性叠加的新的统计量并引入了峰和谷的概念,设计了相应的汉语自 动分词算法。大规模开放测试结果显示,该算法关于字间位置的分词正确率为 8 5 5 ,较单独使用互信息或t - n 试差分别提高了2 。4 7 和5 6 6 。 应该说目前在分词领域的研究进展已经有了一定突破,但是这些分词方法在面 对语言现象不断变化时,适应性还很差,所以还需要继续对分词方法作进一步的研 究,以期待能形成更加完善的分词方法。 3 本文研究工作概述 基于统计的汉语分词方法是近年来汉语分词研究的主事段。为了进一步提离 统计汉语分词的精度就必须使用更多的汉语文本中的上下文信息来辅助分词。但如 4 基于条佟随机场的汉谣分词研究第一章绪论 何处理大规模语料库中的信息用于分词,一童是统计分词方法的难点。条件随机场 可以包含任意上下文信息,而且可以根据特征在上下文的不同位置,计算全局最优 的输出。但是,由于汉语中的词之阕没有明确的界限标志,如何将条件随机场模型 与汉语分词问题相结合,是本文要解决的问题。 鼍 本文的主要王作集中在以下几个方面。 ( 1 ) 分析介绍了现有分词技术的研究现状和发展背景,介绍了分词技术的主要 方法及其优缺点。 。 ( 2 ) 概述了与汉语分词相关的理论知识,重点描述了几种概率模型,分析了各 个模型的优缺点,尤其突慰了条件随机场模型的优势,为基于条件随机场的汉语分 词方法作下了铺垫。 ( 3 ) 模型参数选择实验。该实验分析了模型参数选择对整个实验结果所造成的 影响。选择合适的参数对调整整个模型并使其调整到最优起到很大的作用,为将来 取得好的性能打下基础。 ( 4 ) 汉字标注集选择实验。使用“s n 、“o b i 和“s b m e 三种标注集进行 多个实验,并且在两个不同语料测试集上进符测试。验证了标注集选择对实验系统 的性能所产生的影响。 ( 5 ) 新特征实验。新特征,特别是从汉字构词能力角度出发的字位置概率特征, 对实验系统的性能影响较大。不同的字位置概率值和不同的概率组合取得了不同的 结果,通过实验,选取性能较好的概率组合方式。 ( 6 ) 与其他模型比较实验。分别与“h m m 分词系统 和“m e m m 分词系统 作了比较,在相同语料和相同特征的情况下,c r f s 的分词能力要比另外甄种统计 模型的分词能力都要强,从而体现了c r f s 在处理汉语分词方面的优越性。 ( 7 ) 多系统结果集成实验。集成“c r f s 分词系统一”、倒c r f s 分词系统二 、 “h m m 分词系统”和“m e m m 分词系统 在测试集上得到的测试结果,运用“结 果集成”方法并对这多个结果进行处理,取得了理想的实验结果。 第一章绪论基于条件随机场的汉语分词研究 1 4 论文的结构 第一章绪论 论述论文的课题背景与研究现状以及论文的主要工作。 第二章汉语分词技术 介绍了汉语分词的基本知识,包括汉语分词研究的意义、主要难点以及主要方 法。在各分词方法中,基于统计的分词方法占据了主要地位。而基于统计的方法必 须要为汉语分词任务建立统计模型。统计模型中,最具代表性的有:隐马尔可夫模 型、最大熵马尔可夫模型和条件随机场模型。本文重点阐述了条件随机场模型,突 出了该模型的优点,为下一章的内容作下了铺垫。 第三章基于条件随机场的分词方法 本章首先介绍了基于条件随机场的汉字标注分词方法,然后利用这个方法构建 了两个基于c r f s 的分词系统:“c r f s 分词系统一 和“c r f s 分词系统二 ,并对 这两个分词系统作了个大致的阐述,最后提出了“结果集成 方法。 第四章分词实验与结果分析 首先简单介绍了汉语分词实验中所用到的c r f s 工具、实验语料以及实验评测 的标准,然后利用这些工具与语料进行了多个实验,用来验证条件随机场模型参数 选择和汉字标注集选择对实验结果产生的影响,以及新特征的有效性、新方法的可 行性等。 第五章总结与展望 总结全文,并展望下一步需要研究的工作。 6 基子条件随机场豹汉谮分词研究第二章汉语分溺技术 第二章汉语分词技术 2 1 汉语分词研究的意义 词是自然语畜中最小的有意义的构成单位。汉语文本是基于单字的文本,汉语 的书面表达方式以汉字作为最小单位,词与词之间没有明显的界限标志,因此,分 词是汉语文本分析处理中首先要解决的问题之【潍。 由于汉语句予中词与词之间的边界标志是隐含的,对于大多数汉语处理系统来 讲,第一步要识别这些隐含的词语边界,部添加翡显词语边界标志,使得所形成的 词串反映句子的本意。这个过程就是分词。汉语分词是中文信息处理的基础,是自 然语言处理的一项基础性工作。在自然语言处理中首先要解决自动分词的瓶颈问题。 自动分词在自然语言处理中的重要性,可以从两方面来认识。一方面,“词”是组成 旬子的基本单位,要对句子进行分析,首先得对榉词擀进行分析,只有在这个基础 上,才能谈得上进步作其他的处理。这是“词 在自然语言中的基础地位决定的; 另一方面,计算机有关自然语言的知识很大一部分是以机器词典( 给出词豹各项信 息,包括句法信息,语义信息,甚至语用信息等) 的形式存储的。自然语言信息处 理系统只有在“词擀的基础上进行,才可能利用这些知识。 现在从以下几个领域来说明。 ( 1 ) 自动索弓 ( a u t o m a t i ci n d e x i n g ) 。是用机器抽取或赋予索雩l 词。索葶l 词是指 与文献主题相符的或密切相关的词语,也就是文献的关键词或主题词。所以,中文 文本自动索引中离不开词这个基本单位。 ( 2 ) 自动分类( a u t o m a t i cc l a s s i f i c a t i o n ) 。是指利用计算机对批实体或对象进 行分类,包括建立分类体系及其宣动更新。自动分类主要应用予文档聚类和关键谣 聚类等研究领域。文档聚类的关键技术是计算文档相似度( d o c u m e n ts i m i l a r i t y ) ,即 不同文档之闻属性的相似度。文档的属性通常用关键词或标引词代表,因此只有通 过对文本的自动分词处理,才能进行文档聚类技术的研究。关键词聚类( t e r m c l u s t e r i n g ) 是根据词与词之间的关联信息,采用统计或计算的方法对关键词进行聚 合,生成某种词类或词群。词与词之间的关联信息,一般也以文本中词的出现频数、 7 第二鬻汉语努诱技术 基子条律随辊场豹汉语分试研究 位置和权重等来确定。它主要应用于词表或类表的自动生成。 ( 3 ) 信息检索( i n f o r m a t i o nr e t r i e v a l ) 。泛指用户从包含各种信息的文档集中查找 所需要的信息或知识的过程。信息社会的信息包括文本、数字、声音、图像等多种 类型。以文本信息的检索为例,首先需要构造查询模型,即用户需求信息的表示; 然后构造文档索引,即对文档内容的识别和表示。查询模型和文档索引的构造都是 以诃为基础的。进入网络时代以来,信息资源除二次文献外,出现越来越多的是全 文数据。全文检索就是在这种社会需求的背景下应运而生的。 ( 4 ) 信息抽取( i n f o r m a t i o ne x t r a c t i o n ) 。是另外一种扶文档集中搜寻所需信息的 应用,与信息检索中返回含所需信息的文档不同,信息抽取得到的是受精确的信息 表达。以产品信息抽取为例,系统从给定的产品报道中抽取产品的名称、类型、价 格和生产厂家等产品相关信息,这些信息大多是词典中未能收录的未登录词,而未 登录词识别正是分词技术中的一个重要方面。信息模板的构造和对象的分析都必须 | ;l 词为前提。 ( 5 ) “以词定字 、鞭以诃定音挣方法是解决错别字辨识、多音字扮字音辨识和 简一繁体转换等的主要手段。 2 2 汉语分词的主要难点 分词规范的不确定性、以及切分歧义和未登录诃的难于有效解决等方面给中文 分词技术带来很大的挑战。其中两个最大的技术问题是切分歧义和未登录词问题。 前者要解决在上下文环境下不同切分结果的选择;后者要解决词典中未收录词的识 别。可以在机械匹配的基础上通过规则的方法来求解上述两个问题,然而规则方法 很难穷尽真实文本的各种现象。嚣前比较主流的方法是通过对真实文本的概率统计 来求解切分歧义和未登录词离题。 中文分词的一个巨大非技术障碍乃是分词规范和标准问题。虽然中文分词已经 有很多年的研究历史,但是迄今为止国内仍没有一个公开的、受到广泛认可的、可 操作的分词规范,也不存在一个通用的大规模评测语料。这使得众多研究者的研究 结果之间缺乏真正的可比性,从而制约了中文分词技术的提高。能够真正公开为大 众所使用的较好的分词工具很少。 8 基于条件随机场的汉语分词研究第二章汉语分词技术 2 2 1 汉语分词的规范 汉语词在概念上理解的不同以及不同应用对词的切分规范要求不同使得分词规 范不能唯一地确定下来,从而也就不能进行有效地评测和比较。基本上不同的研究 机构都有其一套分词规范:中国标准出版社出版的信息处理用汉语分词规范;台 湾中研院的资讯处理用中文分词规范;北大计算语言所的人民日报语料库词 语切分规范等等。这些不同规范的存在,一定程度上制约了分词技术的发展。 2 2 1 1 词的概念 汉语是字的序列,词之间没有间隔标记,使得词的界定缺乏自然标准,而分词 结果是否正确也需要有一个通用、权威的分词标准来衡量。但是因为以下的一些问 题使得分词规范一直没有统一。 ( 1 ) 词的结构:汉语中的动词和形容词有些可以产生变形结构,如“打牌”、 “看见 、“相信 可能变形成“打打牌”、“看没看见”、“相不相信”等。又如离合 词“睡觉 等可以变形为“睡了一个觉”、“睡了觉”、“睡过觉、“睡过了觉”、“睡 一下觉”。这些变形结构的切分缺少可操作而又合理的规范。 。 ( 2 ) 词缀:语素“者 在现代汉语中是没有意义的,因此“作者、“成功者” 和“开发者 不能切开。而对于“作出了巨大个人财产和精神牺牲者 、“克服许多 困难而最终获得成功者”这样复杂的结构则需要切分。又如职务名称“教育局长 , 语义上理解为“教育局之长,切成“教育局长 、“教育局长”、“教育厂局长”或 不予切分,都会有所异议。 ( 3 ) 非语素词:一些汉字在古代汉语中是词,演变至i 现代汉语时成了非词语素, 例如“民,。现代的书面汉语并非纯粹的“现代汉语”,其中夹杂着不少文言成分, 如“为民除害”、“以逸待劳”、“帮困济穷刀等等。 2 2 1 2 不同应用的要求 汉语自动分词规范必须支持各种不同目标的应用,但不同的应用对词的要求是 不同的。键盘输入系统:为了提高输入速度,一些互现频率高的相互邻接的几个字 9 第二章汉语分词技寒基予条俘蓬瓿绥麓汉语分谖研究 也常作为输入的单位,如:“这是 、“每一 、“再不”等;校对系统:校对系统将含 有易错字的词和词组作为词单位,如许多人“作 、“傲 分不清。校对系统要求分 词单位较大,参与上下文检查;简繁转换系统:“于”的繁体形式有“乾”和“斡 , 它的简繁转换是非确定的。但在词和词组的层面上,它的转换常常是确定的;检索 系统:检索系统的词库注重术语和专名,并且一些检索系统倾向于分词单位较小化。 比如,把“并行计算机 切成群并行计算机使得无论用“并行计算机还是用“计 算机”检索,都能查到。 2 2 2 切分歧义问题 切分歧义是指汉语句子中的某些字段,如果纯粹根据词表做简单的字符串匹配, 则它可能存在多种切分形式。含有切分歧义豹汉字串称为歧义字段。除了由于未登 录词而引起的歧义,切分歧义按照切分形式分类主要有以下3 种。 ( 1 ) 交叉歧义:也称交集歧义,鄂汉字窜a b c 既可以切分成a b c 形式,又 可以切分成a b c 的形式。即a b 是词,b c 也是词。例如:“不合理 可以切分成 “不合7 理封,也可以切分成“不产合理站;“不满意抖可以切分成“不舞蔫意 ,又可以 切分成“不满意”。 ( 2 ) 组合歧义:露汉语字串既可以切分成a b ,又可以切分成a b ,却a b 是 词,a ,b 也是诃。典型的例子如:“个人 可以切分成“个人“,也可以切分成“个 从挣;群马上牡可以切分成“马上抖,也可以切分成群马址势。 ( 3 ) 混合型歧义:是交叉歧义和组合歧义的自身嵌套或者由两者交叉组合而产 生的。如“充分地利用打可切分成“充分爰醴臻l 用抒,还可以切分成“充分触幂l 芦餍。 在各种切分歧义类别中交集型歧义切分字段又占全部歧义切分字段的绝大多 数,约为8 5 以上。根据交集型歧义字段在大量真实语料疼中的切分结果,可以将 其分为真歧义字段和伪歧义字段。据统计伪歧义字段( 即属于机器形式上的歧义, 在真实语言环境中,只有唯可毵的正确切分结果) 占歧义字段总数豹9 4 ,如“挨 批评 ,“爱国家”。另一类有两种以上可实现的切分结果,称为真歧义。这部分又 分为两耪,一种虽然本质上是真歧异,僵通常只有一种切分形式可实现,这类一般 也按伪歧义处理,占真歧义字段的8 8 ,如“解除了”,“其实质,“与其他 。迄 1 0 基于条件随机场的汉语分词研究 第二牵汉语分词技术 今为止,关于交集型歧义切分字段仍缺乏比较深入、完整的研究。 由于歧义字段切分在中文文本中是普遍存在的,其处理能力将直接影响汉语自 动分词系统的切分芷确率。解决歧义的方法很多,排除歧义常常用词频、词长、调 间关系等信息,比如“真正在 中,“真 作为单字词的频率大大低于“在 作为单 字词的频率,即“在 常常单独使用两“真”作为单字词使用的可能性较小,所以 应切成“真正在。有时切分歧义发生在- 4 , 段文字中,但为了排除歧义,需要看 较长的一段文字。如“学生会 既可能是一个名词,指种学生组织,也可能是“学 生会”,其中“会为“可能 或“能够 的意思。在“学生会主席弦中只能是前 者,在“学生会去中只熊是后者,在“学生会组织这次活动”中歧义仍然排除不 了,则需要看更多的语境信息。 王显芳、杜利民提出了一种能够检测所有交叉歧义的汉语分词,该算法基于“长 词优先”的切分原则实现f l 鄹。孙茂松、黄昌宁等提出利用汉字二元语法关系解决汉 语自动分词中的交集型歧义f 1 日。郑德权等提出计算汉语旬内相邻字之间的互信息及 b 信息差这两个统计信息量,并将计算结果应用到歧义字段的切分中f 用。孙茂松、 左正平等提出了“最大交集型歧义切分字段、“真歧义、“伪歧义 等概念,对伪 歧义型高频交集型歧义切分,将它们的正确切分形式预先记录在一张表中,其歧义 消解通过直接查表即可实现【1 8 】。 2 2 3 未登录词问题 汉语自动分词的另一个困难就是未登录词识别问题。未登录词是指在分词词典 中没有收录焉实际却存在的词汇。当采用匹配的方法分谣时,惑子词典中没有收录 这些词,会引起自动分词的困难。在实际的书面文本中,未登录词的处理是一个十 分突窭的阅题。来登录词大致包含两大类:一类是新糍现的通用词或专业术语等, 另一类是专有名词,如中国人名、外国译名、地名、机构名( 泛指机关、团体和其 它企事业革位) 等。第类未登录谣是可预期的,对它的处理,一般是在大规模语 料库的支持下,先由机器根据某种算法自动生成一张候选词表,再人工筛选出其中 的薪词并牵 充到词表中。第二类未登录词夏| l 完全不可预期,无论词表多么庞大,也 无法囊括。对未登录词的识别,目前已有的工作涉及了三种常见专有名词的识别: 第二章汉添分谣技术基予条件隧辊场瓣汉语分谲研究 中国人名的识别【1 9 - 2 2 、外国译名的识别瞄】、中国地名的识别【2 4 】及机构名的识别 1 2 5 2 6 。从结果来看,外国译名的识别效果最好,中国人名次之,中国地名再次之, 机构名最差。而任务本身的难度实质上也是遵循这个顺序由小增大。 2 3 汉语分词的主要方法 自2 0 世纪8 0 年代初期,出现了许多分词方法。分词算法的优劣直接影响切分 的准确往,霜时在切分阶段必须解决豫大难点:歧义现象排除和新词识别。对于汉 字分词算法研究,前人 2 1 1 2 7 】【2 8 】【2 9 】,已经给出了许多经典的算法。概括起来这些算法 大致可以分成基予规刘的方法,基于统计的方法,以及两者结合的方法。据有无分 词词典分为有词典分词和无词典分词。其中有词典分词是主流的分词方法。 2 3 1 基于规则的方法 基于规则的方法一般都需要事先有人工建立好的分词词典和分词规则库。最基 本的基于规则的分词算法是字符串匹配法。主要有正向最大匹配法、逆向最大匹配 法、双向匹配法、逐词遍历匹配法、设立切分标志法、正向最佳匹配法和逆向最佳 匹配法等。如果分词词典规模小,覆盖程度有限,则会影响分调的正确率。 下面主要介绍正向最大匹配、逆向最大匹配、双向匹配法等。 1 正向最大匹配法( f o r w a r dm a x i m u mm a t c h i n gm e t h o d ,简称f m m 方法) 这是最早提出的自动分词方法,它的基本总想是先取一句话的前六个字查词典, 麓不是一个词,则删除六个字中的最后一个,然后再查词典,这样一直查下去直到 找到一词为止,对句子剩余部分重复此工作,直到把所有词分出为止。所谓最大匹 配,就是尽可能地用最长的调来匹配旬中的汉字串。 f m m 方法的具体算法可以描述如下: 设m a x l e n 表示最大词长,d 为分词词典。 ( 1 ) 从待切分语料中按正向取长度为m a x l e n 的字串s t r ,令l e n = m a x l e n ; ( 2 ) 把s t r 与d 中的词相匹配; ( 3 ) 若匹配成功,则认为该字串为词,指向待切分语料的指针向前移l e n 个 汉字,返髓到( 1 ) : 基于条件随机场的汉语分词研究第二章汉语分词技术 ( 4 ) 若匹配不成功,如果l e n 1 ,则把l e n 减1 ,从待切分语料中取长度为 l e n 的字串s 也返回到( 2 ) 。否则,得到长度为1 的单字词,指向待切分语料的指 针向前移动1 个汉字,返回到( 1 ) 。 f m m 法的的原理简单,易于实现,时间复杂度也比较低。但是,最大词长的 长度比较难于确定,如果定得太长,则匹配时花费的时间就多,算法的时间复杂度 l 毋显提高,如果定得太短,则不能切分长度超过它的词,导致切分正确率的降低。 据统计表明,f m m 方法的错误切分率为1 1 6 9 。所以,该方法一般不单独使用,而 是作为一种基本的方法和其它方法配合使用。 2 逆向最大匹配法( r e v e r s em a x i m u mm a t c h i n g ,简称r m m 方法) 这种方法和正向最大匹配法思想一样,不同之处在于它是从句子的最后六个字 开始切分,每次匹配不成功时,去掉汉字串前面的一个字。反向最大匹配法对交集 型歧义字段处理精度比正向最大匹配法略高。 这两种方法思想明了,易于机器实现。但由于试图利用相对稳定的词表来代替 灵活多变、充满活力的词汇,把词表作为判词的唯一标准,因而具有很大主观性和 局限性,另外,r m m 实际否认了“词中含词 这一语言现象。因而出错率高,拒 分现象严重,而且这两种方法的时间复杂度很高。r m m 方法的原理同f m m 方法 基本相同,只不过扫描方向为从右到左。该方法一般也不单独使用,提出r m m 方 法的意义更在于同f m m 方法进行结合运用,即双向匹配法对字符串进行更准确的 切分。 3 双向匹配法 这种方法基本原理是分别用f m m 法和r m m 法进行正向和逆向的扫描和初步 的切分,并将用f m m 法初步切分的结果与用r m m 法初步切分的结果进行比较, 如果两种结果一致,则判定切分正确;如果两种结果不一致,则判定为疑点,采用 其它手段选取一种切分。它的侧重点是放在检错和纠错上,该方法对于正、逆向的 扫描结果一致但实际切分不正确的字段( 如“结合成分子时”) 仍然不能正确处理。 由于要做双向扫描,时间复杂度增加。而且,其分词词库必须同时支持正、逆两种 顺序的检索,词库的结构比一般的分词词库要复杂得多。 双向匹配法克服了f m m 方法的一些缺点。例如,使用双向匹配法对“负责任 的态度”进行切分时分别使用的f m m 方法和r m m 方法得到的两个切分结果是“负 1 3 第二章汉语分词技术基于条件随机场的汉语分词研究 责任的_ 态度 和“负质任厂的,态度,这是切分系统将会进一步的排歧,从而得到 最终的正确结果。 双向匹配法的缺陷有:算法复杂度提高。为了使切词词典支持正向和逆向两 种顺序的匹配和搜索,词典的结构要比一般的词典结构要复杂一些。并不是所有 的交集型歧义和组合型歧义都可以通过双向匹配方法找到。例如字符串“语言学起 来很难和“原子结合成分子时”,f m m 和r m m 得到相同的分词结果,但都存在 切分歧义。 。 4 最佳匹配法( o m ) 最佳匹配法( 包括正向和反向) 实际上可以归并到正向最大匹配法和反向最大 匹配法,因为它与上述两类方法的区别仅仅是对词典中的词序作了适当的调整按词 频排序,以求缩短对分词诃典的检索时间,以降低分词时间复杂度,加快分词速度。 最佳匹配法的原理是:在词库中按词的出现频率大小排列词条,高频率的词排 在前,低频率的词排在后,从而缩短分词词库的检索时间,达到最佳效果,降低分 词的时间复杂度,加快分词速度。o m 法只是预先处理分词词库的排列顺序,它虽 然降低了分词的时间复杂度,但是并没有提高分词精度。实际上,这是对分词诃典 的一种预加工,也不是纯粹意义上的一种分词方法。 5 联想回溯算法( a s s o c i a t i o n b a c k t r a c k i n gw o r ds e g m e n t a t i o n ,简称a b 算 法) 该方法的目的在于提高分词的精度。它要求建立三个知识库特征词词库、 实词词库和规则库。首先将待切分的汉字字符串序列,依据特征库分隔成若干字串, 每个字串为词或是由几个词组合成的词群;然后再利用实词词库和规则库将词群细 分为词。分词时,要利用一定的语法知识,建立联想机制和回溯机制。联想机制由 联想网络和联想推理构成。联想网络描述每个虚词的构词能力,联想推理利用相应 的联想网络,来判定所描述的虚词究竟是单独成词还是作为其它词中的构词成分。 回溯机制主要用于处理歧义句子的切分。联想回溯法虽然增加了算法的时间复 杂度和空间复杂度,但是这种方法的分词正确率较高,是一种行之有效的方法。 综上分析,规则方法的优点是: ( i ) 需要的语言资源少,程序实现简单,开发周期短。 ( 2 ) 对自然语言的表达比较深入,具有较强的概括性,表达的知识容易理解。 1 4 基于条徉麓极场懿汉语分逯研究第二章汉语分镄技术 ( 3 ) 领域应用效果较好。对于某些特殊的歧义组合,可以通过对语境中的词以 及特征信息的深入细致的描述,获得很抒的摊歧效果。 而规则方法的缺点是: ( 1 ) 一致性不好。由于自然语言本身的复杂性,在构建飙则库的过程中不可避 免的会出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论