




已阅读5页,还剩79页未读, 继续免费阅读
(计算机应用技术专业论文)中文信息处理中若干技术的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
辽宁科技大学硕士论文摘要 摘要 随着i n t e n c t 迅猛发展,各种资源不断增多。为了快速、高效的查找信息,信 息处理以成为当前重要的研究领域。 针对信息处理涉及的内容,本文对中文信息处理中的若干关键技术进行了研 究,主要研究内容和贡献如下: 实现了一种基于句法词典的句法分析方法。通过把文法规则映射为特征词, 把句法分析转换为利用特征词生成句法判定树,使概率方法和规则方法有效的结 合在一起。在封闭的测试中,该方法获得了8 9 4 0 的查全率,8 7 1 3 的查准率。 提出了一种利用样本距离,改进k m e a n s 聚类的方法,有效地避免了初始点 的选择所带来的误差,以及噪声和孤立点的影响。 介绍了一种把多种语料库存入字典结构,以及使用此字典结构的方法;对特 征词,使用多层h a s h 存储,结合最大向前匹配,实现了快速分词算法,1 g 内存下, 分词速度到2 m s ;在实现基于隐马尔可夫模型的词性标注同时,结合平滑算法, 标注正确率达到8 6 ,排歧j 下确率达到8 2 ;在实现基于k n n 分类算法中,使用 c h i 统计方法选取属于该类的特征词,同时把该类的文档加载到其后,解决了信 息冗余问题;通过利用句子的特性,计算句子在文本中的权重,简单实现了基于 统计的机械自动文摘;通过采用向量空自j 模型,对输入语句进行同义词扩展,对 文档采用倒排结构存储,实现了一个简单的信息检索。 关键词:中文信息处理,语料库,句法判定树 辽宁科技大学硕士论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to ft h ei n t e r a c t ,a l lk i n d so fr e s o u r c e sa r ec o n t i n u o u s l y i n c r e a s i n g i n o r d e rt oq u i c k l ya n de f f i c i e n t l yf i n dt h ei n f o r m a t i o n ,i n f o r m a t i o n p r o c e s s i n g ( i p ) h a sb e c o m eo n eo f t h em o s ti m p o r t a n tr e s e a r c hf i e l d s i nt h i st h e s i s ,w ed i s c u s ss o m ek e yi s s u e si nc h i n e s ei n f o r m a t i o np r o c e s s i n g t h e m a j o rc o m e t sa n dc o n t r i b u t i o n sa r ea sf o l l o w s : i m p l e m e n t a t i o no fad i c t i o n a r yb a s e do ns y n t a c t i cp a r s i n gm e t h o d s b ym a p p i n g g r a m m a rr u l e sf o rt h es i g n a t u r ew o r d ,p a r s i n gi sc o n v e r t e dt ot h eg e n e r a t i o no f c h a r a c t e r i s t i c so fs y n t a c t i cd e c i s i o nt r e eb yt h eu s et h et e r m ,s ot h a tt h er u l e b a s e d m e t h o da n dp r o b a b i l i t ym e t h o da r ee f f e c t i v e l yc o m b i n e d i no u rc l o s e dt e s t ,t h e p r e c i s i o na n dr e c a l la r e8 7 1 3 a n d8 9 4 0 ,r e s p e c t i v e l y a ni m p r o v e m e n to ft h ek m e a n sc l u s t e r i n gm e t h o dh a sb e e np r o p o s e db yt h eu s e o fs a m p l ed i s t a n c e t h i se f f e c t i v e l ya v o i d se r r o r sc a u s e db yt h ec h o i c eo ft h ei n i t i a l p o i n t a sw e l la sn o i s ea n dt h ei m p a c to fi s o l a t e dp o i n t s t h et h e s i sa l s oi n t r o d u c e sav a r i e t yo fc o r p u sd e p o s i t e di nt h ed i c t i o n a r y s t r u c t u r e a sw e l la st h ei l s eo ft h es t r u c t u r eo ft h ed i c t i o n a r y ;o nt h ec h a r a c t e r i s t i c so f t h ew o r d ,t h eu s eo fm u l t i - s t o r e yh a s hs t o r a g e ,、v i t l it h el a r g e s tm a t c h i n gf o r w a r da n d a c h i e v ear a p i ds e g m e n t a t i o na l g o r i t h m ,w i t h1 gr a m ,t h es p e e do fw o r ds e g m e n t a t i o n i s2m e g a b y t e sp e rs e c o n d t h r o u 曲t h ec o m b i n a t i o no fh i d d e nm a r k o vm o d e lp o s t a g g i n ga n dt h es m o o t h i n ga l g o r i t h m ,w eo b t a i nat a g g i n gp r e c i s i o no f8 6 ,a n da d i s a m b i g u a t i o no f8 2 i nk n nb a s e dc l a s s i f i c a t i o na l g o r i t h m ,w i t ht h eu s eo f s t a t i s t i c a lm e t h o d sc h it os e l e c tf e a t u r ew o r d s ,a n db yl o a d i n gt h ed o c u m e n to fr e l e v a n t c a t e g o r yb e h i n dt h e s ew o r d s ,w eh a v es o l v e dt h ep r o b l e mo fr e d u n d a n ti n f o r m a t i o n t h r o u g ht h eu s eo ft h ec h a r a c t e r i s t i c so ft h es e n t e n c ea n dt e r mw e i g h t i n g ,w eh a v e i m p l e m e n t e dt h es t a t i s t i c a lm e c h a n i c a la u t o m a t i ct e x ta b s t r a c t i o n t h r o u g ht h eu s co f v e c t o rs p a c em o d e l ,c o m b i n e dw i t hs y n o n y m o u st e r me x p a n s i o na n di n v e r t e df i l e s t o r a g es t r u c t u r e ,w eh a v ei m p l e m e n t e das i m p l ei n f o r m a t i o nr e t r i e v a ls y s t e m k e y w o r d s :c h i n e s ei n f o r m a t i o np r o c e s s i n g ,c o r p u s ,s y n t a xd e c i s i o nt r e e 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为 获得辽宁科技大学或其它教育机构的学位或证书而使用过的材料,与 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示了谢意。 签名:塑丝e t 期: 关于论文使用授权的说明 本人完全了解辽宁科技大学有关保留、使用学位论文的规定, 即:学校有权保留送交论文的复印件,允许论文被查阅和借阅:学 校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复 制手段保存论文。 ( 保密的论文在解密后应遵守此规 签名:! 塑! 笙导师签名: 辽宁科技大学硬士论文引言 第1 章引言 1 1 中文信息处理研究概况 根据主流的研究方法和研究的主要问题,中文信息处理技术的发展历 程大致可以分为如下6 个阶段【j 1 ( 1 ) 学习和理论探索的萌芽阶段:对确立中文信息处理的宏观格局起 到了决定性的作用,奠定了中文信息处理后期的理论基础。 ( 2 ) 汉字信息处理为主的早期阶段:从键盘到o c r 、到手写识别、到 语音输入,汉字的输入方式已经是多种多样,能够满足多种需求。 ( 3 ) 字、词等表层处理为特征的初级阶段。 ( 4 ) 句法和语义等深层处理为代表的中期阶段:以中文信息处理产品 的智能化为目标,组织实施并形成了一个完整的中文信息处理应用平台。 ( 5 ) 语料库统计方法兴起的近期阶段:以语言事实作为根据,必须详 尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论 ( 6 ) 以i n t e r n e t 为主要应用对象、大规模真实文本、只能信息访问 的现阶段:统计方法与规则方法相结合、基础理论研究与实用系统并重、 面向i n t e r n e t 的大规模真实文本的智能信息访问。 1 2 中文信息处理的难点 中文信息处理的难点在于1 1 1 ( 1 ) 词语没有形态标记:汉语是以字为基本单位,词之间没有明显的 标记,词本身也没有明显的形态标志。所以中文信息处理的基本课题和特 有的问题就是中文分词。 ( 2 ) 汉语结构松散,不注重语言形式上的完整性。 ( 3 ) 语法灵活:缺乏狭义的形态。汉语句子中各个成分之问的关系一 靠词序,二靠“意合”,三靠虚词。 ( 4 ) 语义灵活:从词汇层面说,有一词多义、同音词、同义词,近义 词;从句义层面说,一方面语法的灵活主要来源于语义的灵活:另一方面 同一个结构可以表达不同的意思,同一个意思可以用不同结构表达。 辽宁科技大学硕士论文 引言 1 3 目前中文信息处理技术发展的态势 当前对中文信息处理主要依赖于对打规模语料的统计,根据概率,对 词与词的关系作为界定。多年来这一方法已经成为难以突破的“瓶颈”, 要使计算机对现代汉语进行自动化处理,使之具有“智能”,就必须把人 的语言知识“教”给计算机,也就是语义以词义为基础,与句法规则结合, 以句为突破的单位。当前朝此方向努力已逐渐形成三大流派【z j 。 第一个流派是以传统计算语言学为基本理论,从词素分析入手,进而 研究词短语( 词组) 语段一句子。概括地说,就是以语科统计为基础结合语 言规则,同时借鉴西方计算语言学的理论和方法。利用该方法已经取得了 许多成果:如短语结构语法、扩充转移网络、从属关系语法和配价语法等。 第二个流派是h n c 理论。由于对传统研究方法( 词斗短语一句一句群 一篇章) 是基于西方语言而建立的,其总体与汉语实际不相符的考虑,黄 曾阳先生提出了概念层次网络理论( h n c ) 。汉语以“字义基元化,词义组 合化”方式构造新词,以构建概念表述体系。h n c 理论认为,计算语占学 界源于图灵标准而采用的句法分析和句法语义分析所提出的标准各有偏 低和偏高的不足,不是描述人的语言感知过程的适当模式,因为“思维的 机制绝不是语法或句法,而是概念联想网络的建立、激活、扩展、浓缩与 存储”,从而提出计算机对汉语处理不应该以图灵检验为标准,而应该以 对语言模糊的消解能力为第一标准。 第三个流派是基于内涵模式论的语义分析。这一流派的理论设计是陆 汝占教授提出的,其出发点是考虑到对中文信息处理的研究单纯走语法的 路已经难以有突破性的结果,归根结底,要深入到语义层面。句义分析的 流程为:语句一切分斗标注一句法分析一句法权一同构的语义树一逻辑 公式寸模型解释。 1 4 本文研究工作的主要内容及贡献 1 4 1 主要内容 实现了字典组织构建( 2 2 ) 、基于字典的自动分词( 2 4 3 ) 、基于二元隐 马尔可夫模型的词性标注( 2 5 ,3 ) 、基于字典信息的句法分析( 2 6 3 ) 、基于 k n n 的文本分类( 3 3 ) 、一种改进的k m e a n s 文本聚类( 4 3 ) 、基于统计的机 械自动文摘( 5 3 ) 、基于向量空自j 模型的信息检索( 6 3 ) a 2 辽宁科技大学硕士论文;l 言 1 4 2 贡献 ( 1 ) 提出了一种新的基于多种语料库字典组织模型。从构造词典角度 出发,根据不同语料库的特点,把语料库资源存入字典组织的不同变量中, 从而实现了对语料库的统一管理,促进语料库之间信息的互补与融合。 ( 2 ) 利用字典组织,实现了分词、词性分析、句法分析、自动文摘文 本分类、文本聚类、信息检索功能。 ( 3 ) 实现了一种基于句法词典的汉语句法分析算法,有效的实现了基 于规则的方法与基于概率的方法相结合。 ( 4 ) 提出了一种改进的k m o a n s 文本聚类算法。 1 5 本文的组织结构 论文正文共分7 章 第一章是引言,介绍了中文信息处理的研究概况,目前中文信息处理 技术发展的态势,提出了本文研究工作的主要内容及贡献,给出了文章的 结构。 第二章是中文信息处理基础。介绍了文本采用的语料库,文本预处理 过程中字典组织、分词、词性标注、句法分析、语义分析、文本表示现状 以及本文在这些方面所做的研究。 第三章研究了中文信息分类的基本策略,简单实现了一种基于k n n 的分类算法。 第四章研究了中文信息聚类的基本策略,提出了一种改进的基于 k m o a n s 聚类方法。 第五章对中文自动文摘进行了研究,简单实现了一种基于统计的自动 文摘。 第六章对中文信息检索进行了研究,简单实现了一种基于向量空间检 索模型。 第七章为本论文的总结和本课题未来发展的展望。 辽宁科技大学硕士论文中文信息处理基础 第2 章中文信息处理基础 2 1 中文信息处理基本概念 所谓中文信息处理,指的是用计算机对汉语( 包括口语和书面语) 进行 转换、传输、存储、分析等加工的科学。它是一门与语言学、计算机科学、 心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系的 边缘交叉性学科,是自然语言信息处理的一个分支,需要以大量的语言知 识、背景知识为依据,对中文信息的人脑处理过程进行模拟。其中,“中 文”是指中国通用的所有语言种类,包括汉语及其他少数民族的语言,但 一般都是指汉语。“信息”是指能通过视觉、听觉、嗅觉、味觉、触觉等 器官或仪器获取,并有一定交际功能的东西,“信息”是不确定性的减少, 是负熵。所谓“处理”,是指用计算机对信息进行各种加工,主要的是图 像信息和语言信息的识别、模拟、分析、转移和传输。 2 2 字典组织构造 2 2 1 概念概述 本文采用统一编码( u n i c o d e ) 方式:一个英文字符占一个字节,一个汉 字占两个字节。同时采用g b 2 3 1 2 汉字编码,其中收录了7 4 4 5 个字符,包 括6 7 6 3 个汉字和6 8 2 个其它符号。汉字区的内码范围高字节从b 0 f 7 ,低 字节从a i f e 。 定义2 1 :对于每个特征词的第f 个字( ,为正整数) ,我们称为第i 级。 例2 1 :有三个特征词:弹拔、弹拔乐器、弹口昌。那么唱属于拔 的同一级字。乐属于拔的下一级字。 定义2 2 :假设特征词a 。、a 2 、a 、a 。为一组同义词,七 4 ) 为特征词a 。的 词性集合,其中k = 1 , 2 ,k ,历。如果q a ) 为该组同义词词性的集合。即 q a = w k 4 ,那么我们把对特征词a i ( k = 1 , 2 ,k ,r n ) 赋予k a ) 词性( 即 以以 = k 即) ) 的方法,称为同义词词性扩展。如果a 。为需分析的特征词, 那么我们把对4 、a :、a 、a 。都看作为a 。代入分析的方法,称为同义词扩展。 4 辽宁科技大学硕士论文中文信息处理基础 2 2 2 词典的逻辑结构分析 在中文信息处理过程中,需要频繁地访问词典以获取汉语词语知识, 因而汉语词典的构造是整个处理系统效率的关键所在。针对这一课题已经 进行了大量的研究,并取得许多成果。如文献【3 】提出首字h a s h + 词次字的 二分查找+ 词剩余字的近邻匹配的词典组织,不限词条长度。同时采用近 邻匹配法,大大降低分词过程中的匹配次数。文献【4 提出首字h a s h + 全词 二分查找的词典组织。进一步提高分词的响应速度。文献【5 】提出基于双数 组t r i o 原理的汉语查询词典,并实现了一种基于双编码机制的词典查询, 时间复杂度进一步提高。 2 2 2 1 总体结构 本文采用类似文献【6 】介绍的方法构造词典,特征词的第i 个字信息, 存储在词典第i 层上,如图2 1 所示。 词典第一层 d i e t l i l j 】 一 l i n k r o o t 【n 1 目 词典第一二层词典第三层 - l i n k d i c t l i n k d i c t - l i n k d i c t - l i n k d i c t l i n k d 研 图2 1 总体结构 ( 1 ) 词典第一层:h a s h 结构,采用二维结构体d i c t 9 4 儿9 4 】存储。 首字d i c t i j ,可以通过i = e h l o x b o ,j = o h 2 0 x a l 进行检索。其中 c h l 为该字的高字节信息,e h 2 为该字的低字节信息。 ( 2 ) 第二层:h a s h 结构,采用链地址法来解决地址冲突。 h a s h 函数o f f s e t = ( ( c h l 0 x b 0 ) * 9 4 + ( c h 2 一o x a l ) ) m o dn :其中o f f s e t 为第二个字在l i n k r o o t 中的下表,n 为l i n k r o o t 的大小, ( 3 ) 词典其它层:二叉树查询,采用结构体l i n k d i c t 存储。 动态指针数组* l i n k r o o t n 1 保存了第二层首址,用于对第二层进行二 分查找。词典第二层* l i n k d i c t 为二叉树的根节点。 辽宁科技大学硕士论文 中文信息处理基础 2 2 2 2 具体结构 ( 1 ) 第一层结构:如图2 - 2 所不 附,叵丑三工三臣丑三丑亟卫圊 图2 - 2 字典第一层 ( 2 ) 其它层结构:如图2 - 3 所示 ;c c 叵丑三丑三五星卫司三丑三工互压亚 图2 - 3 字典其它层 注:图2 - 2 与图2 - 3 中变量名相同的变量,其类型及含义也相同。因 此对l i n k d i e t 结构中解释就包含了对d i c t i j 】结构的解释。 ( 3 ) 具体的结构:如图2 - 4 所示 a n o i c t 叵丑三王三卫心喇t o d i c i 。 “唧“1 竺竺j 竺! ! 竺i 竺:i :皇竺l 二! 竺l :! 竺l 竺! l ! 竺! l :! 竺l 竺竺】 衄叵m _ a d d 正r m _ m 丑m a 三r e _ w e i g 正h t * w i n l 丑d e x t * 回f n t m 商爿i n d i e t l i n k d i c t。k ! f i l e ! f o d i c t w o m h ”【竺兰i 竺l 竺! = ! 卜”,w o r d p l a e c 图2 4 具体结构 2 2 3 变量解释 ( 1 ) m s i g n 成词标志。 若ms i g n = = 0 表示此处不成词,那么* f n e x t 、* k n e x t 、* s n e x t 、* t n e x t 、 + t f n e x t 都为n u l l ;若m s i g n = = 1 停用词;若m s i g n = = 2 提示词;若 i l l s i g n = = 3 线索词。 ( 2 ) m h e i g h t 字的高字节信息:i l l l o w 字的低字节信息。 ( 3 ) 指针* f n e x t 指向f i l e t o d i e t 结构。 在f i l e t o d i c t 结构中记录了该特征词在某文本出现的信息。其中: i n a d d r 此文本存储的地址;i l l h u m 特征词在某文本中出现的频次; m w i g h t 此文本对于该特征词的权重;指针* w n e x t 指向w o r d p l a c e 结构。 在w o r d p l a e e 结构中用于记录特征词在文本中出现的位置。本文采用 文献【7 】介绍的方法对倒排文件进行压缩处理:如果特征词在文本中第一次 6 辽宁科技大学硕士论文中文信息处理基础 出现,那么mp l a c e = 最先出现位置;否则mp l a c e = 此次出现的位置与 前次出现位置的差。 例2 2 :特征词在文本中出现的次数为 4 ,1 0 ,2 3 ,1 4 5 ,那么在 w o r d p l a c e 结构中应存储m p l a c e 的值依次为 4 ,6 ,13 ,1 2 2 ) 。 ( 4 ) 指针* k n e x t 指向k i n d t o d i c t 结构。 在k i n d t o d i c t 结构中记录了特征词的词性信息。其中:i l ln a m e 特征 词的某一词性标记。mn u m 训练预料中出现该词性的频次。 ( 5 ) 指针+ s n e x t 指向数组w o r d c l a s s 8 】。 数组w o r d c l a s s 8 】存放特征词的词义信息。由文献 7 】可以设定: w o r d c l a s s 0 存放大类( 第一级) 信息,w o r d c l a s s 1 】存放中类( 第二级) 信息,w o r d e l a s s 2 】、w o r d c l a s s 3 存放小类( 第三级) 信息,w o r d c l a s s 4 】 存放第四级信息,w o r d c l a s s 5 】、w o r d e l a s s 6 存放第五级信息,w o r d c l a s s 7 】 存放第六级信息。 ( 6 ) 指针* t n e x t 指向下一个同义词,指针t f n e x t 指向上一个同义词。 通过* t n e x t 、* t f n e x t 可实现同义词词性扩展( 定义2 ) ,而且同义词的 * s n e x t 指针。都指向同一个数组w o r d c l a s s 8 1 ,使得同义词具有相同的词义 信息。 ( 7 ) 指针* b r o t h e r 指向同一级的字。指针c h i l d 指向下级的字( 定 义2 1 ) 。 2 3 语料库介绍 语言学的研究必须以语言事实为根据,必须详尽地、大量地占有材料, 才有可能在理论上得出比较可靠的结论。在人们把搜集、整理和加工语言 材料的过程中,逐渐创造了一整套完整的理论和方法,形成了一门新的学 科一一语料库语言学( c o r p u sl i n g u i s t i c s ) ,并成为了自然语言处理的一个分 支科学引。 本文根据文献 9 ,1 0 ,l l 】确定词类标记集,根据文献 9 】确定词义标记, 根据文献【1 0 】确定句法功能结构标记集,对于这些标记,本文采用一正整 数集与之映射。通过此j 下整数集,实现了对语料库的统一管理,促进了语 料库之间信息的互补与融合。其它语料库的标记也可与此正整数集作相应 的映射,以便存入该字典组织,使字典信息更加完善。 辽宁科技大学硬士论文中文信息处理基础 2 3 1 新华字典 语料库来源:h t t p :l f r e e 5 y s l 6 8 c o m ? x m l 0 0 。 基本格式:词+ 语音;例如:阿qa l i q i u l i : 与词典组织相关的部分:i n h e i g h t 的值,m l o w 的值,m s i g n 的值。主 要用于:分词。 与此类似的语料库:带有词汇的语料库。 2 3 2 同义词词林扩展版 语料库来源:哈工大信息检索研究室共享资源。 基本格式【9 】: ;同义词:例如:a a 0 i a 0 l = 人士人物人士 人氏入选: 与词典组织相关的部分:指针* t n e x t ,指针* t f n e x t ;指针* s n e x t 指向 数组w o r d c l a s s 8 1 ;指针* k n e x t 指向利用同义词词性扩充后所得的词性信 息。主要用于:同义词扩展,语义分析。 与此类似的语料库:具有词义的语料库;如知网。 2 3 3 人民日报标注语料 语料库来源:北大计算研究所。 基本格式1 1 0 】:( :例如:1 9 9 8 0 1 0 1 0 1 0 0 1 0 0 l m 迈 向v充满v希望n的u 新纽世纪,n 一w一九九八年t新 年t 讲话n( w 附v 图片,n1 m 张q) w ; 与词典结构相关的部分:指针+ k n e x t ,构造特征词的k i n d t o d i c t 结构。 扩充该词的词性信息。主要用于:词性标注。 与此类似的语料库:带有词性标注的语料库。 2 3 4 句法树库 语料库来源:中文自然语言处理开放平台。i 基本格式1 : + 提示词;3 线索词) 与此类似的语料库:自动文摘语料库。 2 3 6 知网 知网【。2 j 是一个以汉语和英语的词语所代表的概念为描述对象,以揭示 概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知 识库。 表2 1 知网结构 知网辞典文什结构 n o = 当前义项编号 w c = 汉语词语 g c = 汉语词性e c = 汉语词语例子 w e = 英语词语g e = 英语词语词性 e e = 英语词语例子d e f = 概念定义 9 辽宁科技大学硕士论文 中文信息处理基础 其中:d e f 就是知网的知识描述性语言( 不能为空) 。 在知网中,每个概念都是通过一组义原来表示,概念本身并不是义原 层词体系中的结点。并且一个概念并不是简单的描述为一个义原的集合, 而是描述为使用某种专门的“知识描述语言”来表达的一个语义表达式。 知识描述语言由义原和关系符号以一定规则组成。 2 4 分词 2 4 1 分词的研究概况 分词就是将连续的字( 词) 序列按照一定的规范重新组合成词序列的 过程。信息处理用现代汉语分词规范中对分词的定义是:从信息处理 需要出发,按照特定的规范,对汉语按分词单位进行划分的过程。 2 4 1 1 分词算法的意义 中文分词的意义在于,使得计算机快速准确处理中文信息。作为中 文信息处理的基础,分词的重要性不言而喻。主要表现在: ( 1 ) 自动分词是中文信息处理的基础性工作。 ( 2 ) 自动分词在中文信息处理已广泛应用于词频统计、新词辨识、计 算机辅助编纂、词语搭配研究和文章或风格学研究等众多领域。 ( 3 ) 汉语处理要求以词性等知识为依据。 ( 4 ) “以词定字”、“以词定音”方法是解决错别字辨识、多音字的字 音辨识和简繁转换等的主要手段。 2 4 1 2 分词技术的难点 中文句子是由连续的词和词语组成,中间没有空格,为了使机器理解 它,需要对中文句子进行分词处理。中文自动分词已经研究了二十多年, 但是目前仍然是制约汉语信息处理的瓶颈。汉语切分主要困难来自下面几 个方面: ( 1 ) “词”没有清晰的界定 汉语的语素和单字词,合成词和短语之间没有清晰的界限。虽然在语 言界对“词”有一条抽象的定义:语言中有意义的能单说或用来造句的最 1 0 辽宁科技大学硕士论文中文信息处理基础 小单位。但是在计算上,这种模棱两可得定义是不可操作的,或者说,是 不可计算的。即使在母语为汉语的话者之问,中文词语的平均认同率也只 有o 7 5 左右【13 1 。 ( 2 ) 歧义处理消解【4 】 在构成形式上,歧义有两种:交集型歧义、组合型歧义。设a 、b 、c 为汉字字符串,交集型歧义是指在汉字字符串a b c 中,a b 和b c 都可以 组成一个词;组合型歧义是指切分a b 和a b 都能分作词。但从分词结果 上看歧义字段还可以分为以下两类:第一类是确定分法的歧义切分字段: 第二类是不确定分法的歧义切分字段,即在不同的语境中,会出现不同的 切分结果。比如,字段“学生会”在不同的语境中会有不同的切分结果。 在句子“小雨是西安科技大学学生会主席”中“学生会”是一个词:在 句子“学生会考虑自己的将来”中“学生”和“会”是词。 ( 3 ) 未登录词识别 未登录词是指那些在词典中没有收录的但又确实是词的词,又称新 词。如人名、地名、机构名、产品名、简称、省略语等。在b a k e o f f 数据 上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5 倍 以上【”j 。目前对未登录词处理的方法是采用预处理策略,对词先进行分析 处理,经分析是人名、地名还是机构名,对它们进行适当地标记处理,再 进行翻译。 2 4 2 分词方法的基本策略 2 4 2 1 基于词典的机器分词 按照一定的方法将待分析的中文字符串与一个“充分大的”机器词典 中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,从而识别 出了一个词。按照扫描方向的不同,字符串匹配算法可分为正向匹配和逆 向匹配算法;按照长度优先情况,可分为最长匹配和最小匹配;按照是否 与词性标注过程相结合,可分为单纯分词方法和分词与标注相结合的一体 化方法。常用的机械分词算法有: ( 1 ) 正向最大匹配算法 简称为m m 算法。基本思想是:设d 为词典,m a x 表示词典d 中的 最大词长,s t r 为待切分字符串。每次按正向顺序取长度为m a x 长的字符 串与词典中的词进行匹配。若匹配成功,则得出该字符串为一个词,继续 辽宁科技大学硬士论文中文信息处理基础 后移m a x 个字符串继续进行匹配。否则,字符串减一个( 从后减) 字继 续进行匹配,直到匹配成功。 ( 2 ) 逆向最大匹配算法 逆向最大匹配算法,就是把正向最大匹配算法的文本扫描顺序改为 逆向,基本思想还是一样。改为逆向扫描的好处是提高了切分的准确率。 统计表明,单纯使用正向最大匹配算法的错误率为1 1 6 9 ;单纯实用逆向 最大匹配算法的错误率为l 2 4 5 。 ( 3 ) 最小却分算法 优点:分词准确度比较高。弱点:算法不能识别组合歧义,时间复杂 度高。基本思想是:切分时使每一句子的词最少。 例2 3 :句子“我们出现在这星”可用图2 5 形式表示, 图2 - 5 最小切分 那么句子最短切分问题就可以转化为找出图2 5 中0 _ 7 最短路径问题。 ( 4 ) 双向匹配算法 首先进行一趟正向最大匹配算法,然后进行一趟逆向最大匹配算法。 最后,对比两遍扫描的结果,若成词的地方一致,则说明字段为一个词: 否则,则说明存在歧义现象,需要进一步的处理。 2 4 2 2 基于统计的分词方法 从形式上来看,词是稳定的字的组合,在上下文中相邻的字,同时出 现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概 率能够较好的反映成词的可信度。 一般的基于词频的统计分词要有如下的过程: 预处理阶段:将要统计分词的字符串读入内存,以标点符号和禁用 词为切分标志,将字符串且分成一些更短的短语串: 候选词形成阶段:这一步是核心,根据统计信息形成一些可能是词 的候选词串: 后处理阶段:对于相关度超过阀值的候选词还需要经过后处理,以 删除一些冗余词。 辽宁科技大学硕士论文 中文信息处理基础 2 4 2 3 其它方法 切分标记法,部件词典法、二次扫描法,语法分析法,人工智能的分 次算法包括专家系统分词法、神经网络分词法、神经网络专家系统分词法, 最大概率分词法( m p 算法) 。 2 4 3 本文采用的算法及实现 2 4 3 i 基本思路 主要利用词典组织中的ms i g n ,mh e i g h t ,ml o w ,* b r o t h e r 和* c h i l d 信息。其中b r o t h e r 连接同一级的字;c h i l d 连接下一级的字;mh e i g h t 显 示该字的高字节;ml o w 显示该字的高字节;ms i g n 判断该字是否存在 特征词,在符合条件的特征词中,选择词长最大的特征词作为分词的结果。 本文利用一种改进的m m 算法p 】:基本思路对输入串s = c i c ,ac 。在词 典中选择形成= c i c ,人“,( k n ) k 值最大的词作为匹配的结果。同时也可 在分词过程中使用启发式规则分词算法获取新词语【”】。 2 4 3 2 算法描述 算法2 1 :一种改进的正向最大匹配算法 所使用的数据类型 ( 1 ) v o c a b l e 】保存分析过程中读取的字 ( 2 ) c c 2 】保存当前读取的字 ( 3 ) 指针p 指向当前读取的字,在字典中的存储位置。 i n tp a r t i c i p l e :m a x f o r m m a t c h ( d i c t r o o t ) ( 1 ) m a x m a t c h = f i n t e l l g ( ) ;最大匹配处 f i r s t f i n = f i n t e l l g ( ) ;文本中当前位置 ( 2 ) t a g = r e a d c c ( c c ) ;读取一个字 v o c a b l e 【t o p + + 】= c c o 】;v o c a b l e 【t o p + + 】= c c 【1 】; 如果t a g = = 2 那么退出程序: 否则如果t a g = = 1 那么跳转到步骤( 3 ) ; 否则( 如果p = = n u l l 那么跳转到步骤( 3 ) ; 否则 如果p - m s i g n 0 ( 特征词) 辽宁科技大学硕士论文中文信息处理基础 那么m a x m a t c h = f i n t e l l g ( ) ;返回步骤( 2 ) ; ) ( 3 ) 输出结果c o u t v o c a b l e i ;其中f i r s t f i n 以m a x m a t c h ; 返回步骤( 1 ) ; 2 4 3 3 性能分析 本文采取的总词数为2 2 8 0 7 3 。如表2 2 所示 表2 - 2 词频分布 词条字数 l 2 345 词条数9 9 1 91 1 9 2 5 95 4 5 7 84 2 1 1 62 2 0 1 出现频率 4 3 5 2 3 2 3 9 18 5 1 0 三个或三个以上平均词条数为:( 2 l8 15 6 1 1 9 2 5 9 ) 1 1 9 2 5 9 = o 8 2 9 结合2 2 2 节介绍的词典的逻辑结构 查找单字词需匹配次数:l 查找双字词需匹配次数【6 】:( 1 + 口2 + p 1 ) = ( 1 + o 5 2 + e - 05 ) = 2 3 5 7 查找一个三字或高于三字的平均匹配次数: 2 3 5 7 + ( 1 - 5 2 3 - 4 3 ) + ( o 8 2 9 2 ) = 2 5 3 7 因此:整个系统平均匹配一个词次数: 4 3 + 2 3 5 7 + 5 2 3 + 2 5 3 7 + ( 1 5 2 3 - 4 3 ) = 2 3 7 8 在1 g 的内存下,分词效率2 m s ; 2 5 词性标注 2 5 1 词性标注的研究概况 词性指的是词的句法功能类别。自然语言中,一个词往往具有多个词 性,词性标注的目的就是通过词语的上下文将句子中兼类词的词性唯一地 确定下来。词性标注就是在具体的语言环境中正确地给出一个词的确切词 性。对语料进行词性标注是对语料深入处理的基础。 辽宁科技大学硕士论文中文信息处理基础 2 5 1 1 词性标注的意义 如果词性标注错误,就会影响后面的句法分析和语义分析甚至导致 自然语言理解的严重错误。因此词性标注对汉语语料库标注、机器翻译 和大规模文本的信息检索等都有重要的意义。具体表现在: ( 1 ) 在机器翻译中我们不但要知道词义,还要知道词的用法,能根据 不同的语言环境选择最恰当的词义。标注词性就是注明词的用法的最有 效的手段之一。 ( 2 ) 标注词性有助于词的义项分合的确定或发现新义项。词类划分以 词的同一性为基础,分析词性( 考虑词的用法) 会为分析同提供一个新的 角度,弥补单纯的词义分析的不足。 2 5 1 2 词性标注的难点 ( 1 ) 词性归类困难 有些词很难把它归到一类词性中,感觉有点像一种词性又有点像另 外一种词性。如:“贵姓”既像名词,又像动词,还有一部分是外来语, 如“阿门”也不好定义词性。 0 那么 p a r t s p e e c h 【c u r i d 】 1 a s t i d 】+ + ;p a r t s p e e c h 【c u r i d 】【o 】+ + ;l a s t i d = c u r i d ; ( 5 ) 返回步骤( 2 ) ; 算法2 3 :小于l 平滑技术; t a g f r e q s i j 2 ( p a r t s p e e c h i 】d 】+ a ) ( 五i v i + p a r t s p e e c h 0 】d 】) 其中1 i , j 5 0 : 算法2 - 4 :词性标注: 采用的数据结构 ( i ) k i n d t o d i c t t 指向特征词词性所在的地址 ( 2 ) m a x n a m e 词性标注的结果 ( 3 ) s u m pj p ( c ,i g 一) + j p ( sf c ) 的结果 ( 4 ) m a x s a m 保存s u m p 中最大的值 v o i dp a r t i c i p l e :l o o k u p t a g ( k i n d t o d i c t k ,d i e t r o o t ) ( 1 ) 如果k = = n u l l 那么e o u t ” k n e x t ;m a x s u m = 0 ;在与该特征词连接的+ k n e x t 中 ( 3 ) 如果t ! = n u l l 那么 ( 选择(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教师招聘之《小学教师招聘》通关考试题库附完整答案详解【典优】
- 教师招聘之《小学教师招聘》考试综合练习【满分必刷】附答案详解
- 个性化保健食品定制创新创业项目商业计划书
- 功能性乳品创新创业项目商业计划书
- 水产品深加工技术专利布局与保护创新创业项目商业计划书
- 教师招聘之《小学教师招聘》练习题库含完整答案详解【考点梳理】
- 2025年教师招聘之《小学教师招聘》题库试题附答案详解(达标题)
- 2025年教师招聘之《幼儿教师招聘》模拟考试试卷及参考答案详解【模拟题】
- 2025年教师招聘之《小学教师招聘》题库高频难、易错点100题模拟试题含答案详解(轻巧夺冠)
- 2025年教师招聘之《小学教师招聘》综合提升练习题及参考答案详解【b卷】
- CNAS-GL025:2023 校准和测量能力(CMC)表述指南
- 船用齿轮箱基础知识培训讲义
- 古建筑屋面瓦拆除与修复方案
- DB22T 2091-2014 国境空港口岸检验检疫设施建设规范
- 2024数据要素典型案例集
- 医院科室副主任竞聘
- 无人机项目建设规划投资计划书
- 机动车驾驶员培训理论科目一考核题库500题(含答案)
- 人教版(2019)高中生物必修1《分子与细胞》期末复习知识点考点提纲
- 初一开学第一课初一新同学我想对你说课件
- 《无线电失效程序》课件
评论
0/150
提交评论