(计算机应用技术专业论文)汉语自动分词和中文人名识别技术研究.pdf_第1页
(计算机应用技术专业论文)汉语自动分词和中文人名识别技术研究.pdf_第2页
(计算机应用技术专业论文)汉语自动分词和中文人名识别技术研究.pdf_第3页
(计算机应用技术专业论文)汉语自动分词和中文人名识别技术研究.pdf_第4页
(计算机应用技术专业论文)汉语自动分词和中文人名识别技术研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机应用技术专业论文)汉语自动分词和中文人名识别技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕十学位论文 摘要 汉语自动分词和命名实体识别是自然语言处理和计算语言学领域中的重要 内容,它的研究和实现具有重要的理论意义和实用价值。随着计算机对大量真实 文本处理的迫切需要,对分词和命名实体识别的要求也显得日益迫切,由于它的 研究结果直接影响到语法分析、语义分析、语音识别、机器翻译、信息检索、信 息过滤等诸多领域的研究,因此,一直b i 起人们的关注。 同其它语言相比,汉语的自动分词和命名实体识别有其特有的难点。目前, 汉语自动分词和命名实体识别的处理结果还不尽如人意。本文对汉语自动分词和 作为命名实体识别子问题的中文人名识别这两个问题进行了研究,提出了统计方 法框架下汉语自动分词和中文入名识别模型 具体的讲,本文做的主要工作是: 提出了一种将汉语分词、切分排歧、词性标注和人名识别完整集成的层次框 架。首先通过对文本中前位切分字和后位切分字的查找,将汉语自动分词问题归 约为对字段的切分问题。在粗切分阶段,基于n b e s t 策略,将最大概率分词方 法产生的最佳n 个结果作为候选集,作为下一阶段处理的评估对象,目的是尽 可能多的覆盖歧义字段,提高召回率。基于语言的词类具有相对稳定的分布这一 特征,我们结合了词的词性和词性间的搭配,应用h m m 模型对n 个粗分结果 进行评估,选取晟优的一个结果作为分词的中间结果,中文人名的识别在这个中 间结果上进行。我们将构成人名的各个特征看作是一种词性,将其纳入整个词性 标注的过程中,利用h m m 模型对分词的中问结果进行词性标注,最终在词性序 列中匹配出符合规则的中文人名。后续处理可得到最终的分词结果和词性标注序 列。 本模型层次分明,易于理解,实验表明,该模型也是一种行之有效的汉语分 词和中文人名识别方法。 关键词:汉语自动分词,中文人名识别,词性标注,n b e s t 策略,h m m 塑坚奎兰堡主兰堡丝苎 a b s t r a c t a u t o m a t i cc h i n e s es e g m e n t a t i o na n dn a m ee n t i t yr e c o g n i t i o na r et w ok e yt a s k s i nn a t u r a ll a n g u a g e p r o c e s s i n ga n dc o m p u t a t i o n a ll i n g n i s f i c s i t sr e s e a r c h a n d a p p l i c a t i o nh a v eg r e a tt h e o r e t i c a la n dp r a c t i c a ls i g n i f i c a n c e w i t ht h ei n c r e a s i n g d e m a n do na u t o m a t i cn a t u r a l l a n g u a g ep r o c e s s i n g , h i g ha c c u r a c yc h i n e s e s e g m e n t a t i o na n dn a l n ee n t i t yr e c o g n i t i o nb e c o m ei n d i s p e n s a b l es i n c ei t sr e s u l t d i r e c t l ya f f e c t sm a n ya p p l i c a t i o n sl i k ep a r s i n g , s e m a n t i ca n a l y s i s ,s p e e c hr e c o g n i t i o n , m a c h i n et r a n s l a t i o n ,i n f o r m a t i o nr e t r i e v a l ,i n f o r m a t i o nf i l t e r i n ga n ds oo n c o m p a r i n gw i t ho t h e rl a n g u a g e s ,a u t o m a t i cs e g m e n t a t i o na n dn a m ee n t i t y r e c o g n i t i o no fc h i n e s eh a v ei t so w nd i f f i c u l t i e s ,a n dc u r r e n t l yt h er e s u l t so fa u t o m a t i c c h i n e s es e g m e n t a t i o na n dn a m ee n t i t yr e c o g n i t i o na r es t i l ln o tq u i t es a t i s f y i n g t h i s d i s s e r t a t i o nb e g i n sw i t ht h ep r o b l e mo fa u t o m a t i cc h i n e s es e g m e n t a t i o na n dc h i n e s e p e r s o nn a m er e c o g n i t i o n ,w h i c h i st h es u b t a s ko fn a m ee n t i t yr e c o g n i t i o n ,a n d p r e s e n t s t h ea u t o m a t i cc h i n e s es e g m e n t a t i o nm o d e la n dc h i n e s ep e r s o nn a m e r e c o g n i t i o nm o d e lb a s e do ns t a t i s t i c a lm e t h o d i nd e t a i l ,t h i sd i s s e r t a t i o nh a sc o n d u c t e dt h ef o l l o w i n gr e s e a r c h e s : w ep r e s e n tai n t e g r a t e dh i b e r a r c h y , w h i c hi n c o r p o r a t e sa u t o m a t i cc h i n e s e s e g m e n t a t i o n ,d i s a m b i g n a t i o n ,p a r t - o f - s p e e c ht a g g i n ga n d c h i n e s ep e r s o nn a m e r e c o g n i t i o n f i r s t l y , b yt h ec o m p a r i n go fi n p u tt e x tw i t hp r e s e g m e n t i n gc h a r a c t e r s a n db a c k - s e g m e n t i n gc h a r a c t e r s ,c h i n e s es e g m e n t a t i o nt a s ki sr e d u c e di n t ot h e s e g m e n t a t i o np r o b l e mo fs e v e r a lc h i n e s ec h a r a c t e r sf i e l d a tt h es t a g eo fr o u g h s e g m e n t a t i o n ,w h i c hi sb a s e do nt h en - b e s ts t r a t e g y , w eo b t a i nt h ef i r s tnb e s tr e s u l t s w h i c ha r ep r o d u c e db ym a x i m u mp r o b a b i l i t ya l g o r i t h m r o u g hs e g m e n t a t i o nt d e st o c o v e rt h ec o r r e c ts e g m e n t a t i o nw i t ha sf e wc a n d i d a t e sa sp o s s i b l e t h o s enb e s t c a n d i d a t e sa r et h eo b j e c t so fn e x te v a l u a t i n gs t a g e w eh a v eo b s e r v e dt h a tt h ep a r to f s p e e c ho fl a n g u a g eh a st h ef e a t u r eo fr e l a t i v e l ys t a b l ed i s t r i b u t i n g ,s ow em a k e u s eo f t h ew o r d sp a r t o f - s p e e c ha n dt h ec o l l o c a t i o nb e t w e e nt h o s ep a r t o f - s p e e c ha n dg i v e 5 一塑垩查堂堡主兰堡堡苎 t h ee v a l u a t i n gv a l u e so ft h o s ec a n d i d a t e s t h et o po n ei s t h er e s u l to fo u rf i r s t s e g m e n t a t i o n t h ep r o c e s s i n go fc h i n e s ep e r s o nn a m er e c o g n i t i o ni sb a s e do nt h et o p s e g m e n t a t i o nr e s u l t w er e g a r dt h er o l e sw h i c hc o m p o s et h ec h i n e s ep e r s o nn a m ea s o n e p a r t o f - s p e e c h ,t h e nw ec a nt a k et h ep r o c e s s i n go fr e c o g n i t i o ni n t op a r t o f _ s p e e c h t a g g i n g - a f t e rt h et a g g i n go ft o ps e g m e n t a t i o nr e s u l tu s i n gh m m ,w ec a r lg e to n e p a r t 。o f - s p e e c hs e q u e n c e c h i n e s ep e r s o nn a m ei sr e c o g n i z e db yr u l e sm a t c h i n go n t h i sp a r t - o f - s p e e c hs e q u e n c e a d d e dp r o c e s s i n gi ss i m p l ei fw ew a n tt og e tt h ef i n a l s e g m e n t a t i o nr e s u l to rp a r t o f - s p e e c ht a g g i n gs e q u e n c e t h ef r a m ew e p r e s e n t i nt h i sd i s s e r t a t i o ni s h i b e r a r c h y a n di n t e l l i g i b l e e x p e r i m e n t ss h o wt h a to u rc h i n e s es e g m e n t a t i o nm o d e la n dc h i n e s ep e r s o nn a m e r e c o g n i t i o nm o d e la r ee f f e c t i r e k e y w o r d s :a u t o m a t i cc h i n e s es e g m e n t a t i o n ,c h i n e s ep e r s o nn a m er e c o g n i t i o n , p a r t - o f - s p e e c ht a g g i n g , n b e s ts t r a t e g y , h m m 6 浙江凡学硕十学位论文 第一章绪论 1 。 自然语言理鼹技术簿分 叁然谗蠢理解,又可以髂为塞然语言处璎或诗獒语砉学,是一个非常鸯魅力 的研究领域。语言现氖看似简单,实际上却反映了人类智慧中最复杂也最本质的 特点。叁然语言瑗瓣兹疆突不寝侵楚一秘方法窝工爨,悉量对我镪了解久类浯言 的嶷秘、开启人类的智慧之门有着照要的影响。 现找诗算机虽然有着嚣常强大豹计算鬣力,谴避在楚壤语言秘时捩,瘦瘸起 来仍然让人感到有魑力不从心。当电子计算机刚刚诞生的时候,人们首先想到的 应翔领域之一就是语言的处理一和用计算枫进行自动翻译。不过,语苦理解和处 理的复杂性和困难程度远邋超乎人们的预辩。自然疆砉理解也因此缀历过段跌 宕起伏的历史时期。到现在,人们已经充分认识到了自然语言理解的复杂性和难 蠹,不过邀势未努低渣爨务滚豹碜 究誊对送令领域瓣硬究热猿。近年寒,这一疆 究领域的各种新思想和新方法不断涌现,一方面是幽于信息社会所带来的巨大需 求在有力熬箍动着这令镶装的骚究互箨,舅一方蘧巍是嚣为这个学辩本身豹魅力 在吸引着众多的科学家投入到这项研究工作中来。 自然语言理解避一门非常复杂的学科,涉及数学、语言学、遂辑学、心理学 和计算帆科学等多个研究领域。虽然现在的技术还达不至像人类那栉真正“理解” 自然语言的要求,但在这个领域已经取得的研究成果仍然魑相当丰甯多彩的。在 长期浆磺突中,这门学科形成了一攘套兹联谂和方法,不仅能够加深我织慰人类 语言现象的理解,而且能够确实解决涉及自然语言的应用中遇到的很多实际问 瑟。 一个自然语言系统必须使用相当多的关于语言自身结构的知识,包括什么是 词、词魏掰缀成甸子、谲豹意义是行么、谢鼢意义对句子静意义有纷么影响,等 等。下面怒与自然语言理鳞有关的一些不间层次的知识: 语音和音韵知识一关心词语与其发音如何关联。这种知识时于基予语音 的系统是至关重要的。 词语形态学知识关心词语如何幽被称之为语素的更基本的意义单位构 浙江夫学硕十。学位论文 成。 句法知谈一关心递潺如键搀列噬维成正确的匈子,莛决定每个单试在甸 子中所充当的结构角色,以及短语之间的构成关系。 语义躲谈一关心弱潺翡意义醴及在镯予中镄语意义蓬螽薅蠢耱结合敷形 成句子意义的。这是上下文无关的崽义研究:一个句子在不考虑其所处 的主下文情况下掰最有的意义。 语用知识一关心句予如何在不同的情形下被使用,以及这种使用如何影 响句子的粥释。 篇攀知识一关心兹薅的句子如何影晌对下一令句子敬鳃释。这秘信息对 于代词的解释以及所传递信息的时念的解释特别重鼹。 超器知竣一雹摆关予这令鐾圭器结稳熬一般镶躲识,这秘熊汉霹语言约镬 用糟来说魑必需的。 大约在1 9 6 0 年至1 9 8 5 年,舀然语言瑾解孛静太郝分磷究完全教释遴经主 义方法所支配。这种理性主义方法是由一种信仰决定的,人们相信在人类头脑中 重簧的知静 不是崮感官得到的,丽怒提前圈定在头躺中,幽遗传基黼决定的。在 语京学中,理性主义者已经占据了绝对的支配地位,困为人们已经广泛的认同了 c h o m s k y ( 乔姆斯蕊) 提出的关于诺言本能的观点。在人工智能领域,理性主义 者试匿建立一个智嶷系统,健嬲希望在这个餐毙系统中通过手工编鹚大量熬先验 知识和推理机制,得以复制人类大脑中的谮言能力。 与理羧主义稳反懿经验主义方法虽然潮样缓竣大藉中存在菜墅谈躲懿缆力, 但它们在巢种程度一e 还是有所区别。理性主义方法假设大脑中存在某些原始的结 构,经验主义方法受佞商予籀信人类大脑中有一释结秘,这种结褐耱飘感雷输入 的信息中缎织和产生语言,因此不经过学习生成某蝗语言愚可能的。但是经验主 义方法的突破在于,它认为人类的智能不怒开始于细化的娩捌集,也不是开始于 针对各秘各样语毒结橡和其它感船领域的鹣序集。经验主义港认为婺j l 的大脑最 初县有联想、模式识别和概括的一般能力,这些能力通过可以得到的丰富的感官 竣入,镬孩子学习到毫然滋言夔详缨结搀。瘸黠予巍然语言处理,经验主义方法 认为可以通过一个适当的语苦模型学习复杂的和广泛的语言结构,通过把统计 学、模式强鬻帮税器学习豹方法庭耀委大麓模静语辩瘁中,可虢褥翔模壅参数静 浙江人学顿十学位论文 数值。 基于理性主义方法和经验主义方法的上述特点,越来越多的研究者将理性主 义研究方法同经验主义研究方法结合起来。一方面,如果把统计方法作为获取知 识的主要途径,依据语言学家的语言学知识对所获取的知识加以取舍,并增加一 些统计方法没有得到的、而经过语言学家证明是行之有效的正确的语言规则。另 一方面,由于统计方法获取的语占知识来自大规模真实文本,可以覆盖几乎所有 语占现象。这样,便能克服语言学家总结语言规则的片面性和主观性,并使他们 集中精力研究那些最常见的、在统计意义上最重要的语言现象。 1 2 汉语自动分词及中文人名识别技术简介 汉语虽然是古老的文字,但现代汉语也只不过一。二百年历史。汉语的语法、 语义和语用学的研究,特别是从计算机信息处理角度来分析,还属落后。基于汉 语自身的特点,中文信息处理不能完全取材于西方语言的语占学理论。汉语自身 明显的特点有: 汉语是大字符集的语言。 英语有2 6 个字母;中文有4 4 9 0 8 个汉字( 根据中华大字典) 。 英语起源于5 世纪,有一千五百年历史,牛津英语词典收词四十万多条。 汉语六千多年历史,中山大词典收词六十多万条,比英语多5 0 。 例如:“一”字开头的成语有5 4 7 2 条。词汇的丰富程度是世界上任何另外一 种语言不能与之相比的。 汉语可以分为五级语法单位:语素、词、短语、句子和句群。在一个句 子罩,语素、词和短语都是语法单位。那么其基本的处理单元是语素、 词,还是短语昵? 短语是基本的语言单位。语素是语言中最小的音义结合体,不是能独立 运用的语言单位。那么在词和短语中,哪个足最基本的,还是很有争论 的问题。甚至有人提出,在汉语中没有词只有短语。 中文信息处理就是用计算机对汉语的音、形、义进行处理,词是最小的能够 独立活动的有意义的语言成分,而汉语的文本是按旬连写的,词间没有问隙,因 浙江大学硕上学位论文 此在中文信息处理中,汉语的自动分词是耐临的首黉问题。汉语自动分词的难点 主要在予:( 1 ) 通蠲词表鼹切词援范:由于诞没毒令涛嚷的概念藤使褥试典的 收词标准和分词的切分单位难以把握。( 2 ) 歧义字段的切分:歧义字段严重影响 切分夔准确攀。( 3 ) 未登慕谣豹谈涮:对予淫冀中泰羧录豹词难数滚裂。 汉语自动分词阀题从1 9 5 0 年代至今一崴是汉谮语占学家和计算机科学家关 注鞠研究静阔题,穗鑫魂了不少可翔静分词系统。襁存实用的过程审,又邋翻不 少新问题,困扰着我们。随精国民缀济信息化的不断发展,中文信息处理的广泛 地、深入地开展,时分词系统的要求将越来越高,难度越束越大。 命名实体识别任务主簧是识别嫩文本中出现的专有名词和有意义的数霪短 语并加以妇类。丽对于实体中的组织名、人名、地名,因为其具有开放性和发展 性豹特点,嚣虽掇戏褒律蠢缀大的夔意牲,联以其谈别裁有霹l 会囊较多爨罐选 或漏选。中文人名诚别是命名实体识别中的一个子问题。中文人名在汉语中出现 静憝意涟,绘它稍翡谈鬟带来了一定兹透露。瑷中文太名谈潮为主豹命名实俸浚 别问题已经成为词法分析使用化的主要瓶颈。 1 3 本文的主要工作及其组织 本文针对中文分词及中文人名的识别做了一些研究,论文的主要工作如下: 对中文螽动分词蠲蘧进行鞠约,将对文本鼹切分弱约为对字菠静韬分。 在字段糖切分阶段,应用n ,b e s t 策略,保留最大概率分词的前n 个结果。 结合词的词性及词性问的转移,应丽h m m 模型对n 个黼切分结栗进行 评髅。 应用h m m 模型对最佳切分结果进行词性标注,应用规则从词性标注序 列中匹配爨戆梅或中文人名黪运瞧序列。 论文的组织机构如下: 第一章绪论 简单介绍了自然语言理解的概念、研究内容,以及中文信息处理技术中的分 词和中文入名识羽。 第二章汉语自动分词 介绍了汉语自动分词的重要性、难点,各种分词方法a 浙江大学硕士学位论文 第三章中文人名识别 介绍了中文人名识别的困难所在,各种识别方法和模型。 第四章词性标注和隐马尔可夫模型 介绍了词性标注的过程,以及隐马尔可夫模型的三个基本问题。 第五章基于h m m 的中文分词和人名识别系统实现 详细介绍了一个中文分词和人名识别系统中采用的各种模型和算法,并给出 了实验结果。 第六章结束语 对未来研究工作的一些展望。 浙江大学硕十学位论立 第二章汉语自动分词 2 1 汉语自动分词的重要性 “词是语言中照小的能够独立活动的有意义的语言成分。”f 朱德熙1 9 8 2 ) , 是信息处理的基本单位。在中文信息处理中,自动分词是现代议语进行句法分析 的第一步,是后续语法和语义分析的基础。句法研究组词成句的规律,投有词就 无所谓组词成句,因而也就无所谓句法。语义是语言中的概念与概念之问的关系, 而词是表达概念的没有词,就无所谓概念因而也就无所谓语义研究。词频统 计、作家作r 锖风格学研究、自动标引、自动分类、机器翻译、信息检索、信息抽 取等方面的研究,也必须首先分i 可,在这些廊用和研究领域,没有准确高效的分 词策略汉语的进一步分析必将受到严重影响。 词在巾文信息处理中的地位这样重要,现在。汉语的白动分词技术已经形成 了一门富有挑战性的学问。 2 。2 汉语自动分词的难点 汉语自动分词过程中的主要困难有以下三个方研: 首先,“阋”这个概念一直是汉语语言学界纠缠不清而叉无法回避的问题。 在汉语中什么是词,到现在并无公认的定义。甚至有人提出,在汉语中没有词只 有短语。主要困难在两方面,一方面是单字词与语素之间的划界;另一方面是词 与短语( 词组) 的划界。到r 前为止没有公认的、具有权威的词表。因此,汉语 自动分词的首要任务是确定分词规范。刘源等在信息处理用现代汉语分词规范 及自动分词方法f 刘源,谭强,沈旭昆1 9 9 4 ) 中为汉语信息处理提出了一整套 实用、科学、系统的分词规则。1 9 9 2 年由国家技术监督局批准为国家标准( g b 一1 3 7 1 5 ) 。目前已经被一些系统所采纳。国家社科研究“九盘”规划重大项目信 息处理用现代汉语词汇研究的奋斗目标之一就是建立一个“信息处理用现代汉 语分词词表”( 孙茂松,王洪君,李行健,富丽2 0 0 1 ) 。 其次,对汉语切分会产牛切分歧义。歧义切分是影响分词系统切分f e 确牢的 其次,对汉语切分会产生切分歧义。歧义切分是影响分词系统切分正确率的 浙江火学硕十学位论文 第二章汉语自动分词 2 1 汉语自动分词的璧要性 “谲是语言中最,l 、的够独立潺动的鸯意义黪潺言成分。”颤;德熙1 9 8 2 ) , 是信息处理的基本单位。在中文信息处理中,自动分词是现代汉语进行句法分析 l 冬繁一步,是嚣续添法积漤义分掇豹基爨。訇法疆衮缝谣麓勾装撬褥,没鸯谰裁 无所谓组词成句因而也就无所谓句法。语义是语言中的概念与概念之间的关系, 藕诵是表遮獗念豹,没有谰,就无掰语溉念,函蔼德就无掰谓语义轿究。谲频统 计、作家作品风格学研究、自动标弓f 、自动分类、机器翻译、信息检索、信息抽 取等方面的研究,也必须首先分词,在这些应用和研究领域,没有准确高效的分 词策略,汉语的避一步分丰斥必将受到严重影响。 词在中文信息处理中的地位这样重要,现在,汉语的自动分词按术已经形成 了一门富蠢挑战瞧瓣学阂。 2 。2 汉语自动分词的难点 汉语自动分词过程中的主要困难有以下三个方面; 善先,“ 霉”这令摄念一妻楚汉语语言学赛绸缝不渣蠢又无法黧避熬淹憨。 在汉语中什么是词,到现在并无公认的定义。甚至有人提出,在汉语中没有词只 有短语。主要困难在两方巍,一方瑟是擎字词与语索之闻懿麓器;辫一方瑟是词 与短语( 词组) 的划界。到目前为止没有公认的、县有权威的词表。因此,汉语 自动分词的首要任务是确定分词规范。剃源等在信息处理用现代汉语分词规范 及自动分谰方法( 支源,谭强,沈俎昆1 9 9 4 ) 中为汉语信息处理提出了整套 实用、科学、系统的分词规则。1 9 9 2 年由阐家技术监督局批准为圜家标准( g b - - 1 3 7 1 5 ) 。嚣蘸已缀被一些系绞殛袋弦。萤家社科磺究“丸轰”趣划薰太疆嚣信 息处理用现代汉语词汇研究的奋斗目标之一就是建立一个“信息处理用现代汉 谣分谲诵裘”( 羚蔑松,王洪君,李行毽,蹇舔2 0 0 1 ) 。 其次,对汉语切分会产生切分歧义。歧义切分魁影响分词系统切分f 确率的 浙江大学硕士学位论文 重鼷因素,也是分词阶段最困难的问题之一。切分蠛义有两种类型:交集型歧义 和缀合型蛟义( 冯恚镑1 9 9 6 ;刘露袋2 0 0 0 ) 。其中交黎型歧义是主要瓣歧义类型, 据统计,这种歧义字段占全部歧义字段的8 5 以上r 梁南元1 9 8 7 ) 。国家科蚕基 硪辑究裹按泰霉、添家裹援术诗楚餐麓诗舞梳系绞主遂专家缝等奁1 9 9 8 零缝织 的次自动分词性能评测中,交集型切分歧义的切分准确率最高为6 8 5 6 ,组 合麓韬分渡义懿翻分正确率最赢为6 6 6 7 。鹜静为止,死乎找不蠲一个遴霜豹 办法来解决这种歧义现象。 最后,未登录词的识别问题。汉语分词问题中豹歧义切分固然困难,德是未 登渌词问题可能比上述分谰的问题更严重。吴立德( 畏立德1 9 9 7 ) 在他的书土讲: “个经过人工分词的、含有1 5 0 0 0 个词的法律语料库,其中竟然有3 0 的词 没露登录焱食7 0 0 0 0 个词条戆词典疆,这令览撰远远毫予各秘竣义字段在全文孛 所占的比例1 1 1 0 。” 2 。3 分词系统瞧麓译价 分遥冀法熬磐漆,努诵系统缝鹄裹骶采蘑兰令搔标浮徐:委确率、鸹露率、 f 值。各指标定义如下: ( 1 ) 正确率 表示正确切分出来的词语占切分出的词语总数的比例,计算公式如 下: 正渊啪婴堂宅黑嚣豢塑型煳。箔 ( 2 ) 召器率 表示在标准结果中堆确切分出来的i 司语占的比例,计算公式如下: 召回率cn,一!墅!董ii!;i;ii;i;iii;产,。 ( 3 ) f 值 为方便她把准确率和稆回率统一到一个全蘧地度量尺度中,使用了 f 值。f 值的定义是: 浙江大学硕士学位论文 ,; 1 8 古+ o 一8 ) 娄 其中髓表示确定准确率和召回率权重的因子。口t 0 5 对应着选择相同权重 豹p 鞠r 。薅疯坟静这个僵,f 僮哥黻篱德碧2 p r 妒牛妁。 2 4 汉语分词的方法 自2 0 世纪8 0 年代初超,已经提出了许多分词方法。目酶,根据所馒用的 知识资源不同分为基于规则的方法,基于统计的方法,以及两者结合的方法。根 据鹰无分谢词典分为有词典分词和无词典分词。有词典分键是主流的分词方法。 2 4 1 基于规则的方法 基于规则的方法一般都需要事先育人工建立好的分词词典和分词规则麾。主 要楚基于字符串匹配的原理进行分词,往往以足够大的词袭为依据,采用定的 处蠼策略将汉语文零鲍字簿串与词波中的逶逐隧蜒,如蛰残功,裁认为该予串 为词。主鬟有正向靛大匹配法、逆向最大甄两己法、双向匹配法、逐词遍历匹配法、 凌立谚努豁恚法、歪囱最傻嚣酝法帮逆囊激佳匹甏法等。魏巢分遴词典焱模4 、, 覆盏程度有限,则会影响分词的正确率。 法。 下面主要介绍正向最大匹配、逆向最大匹配、双向最大匹配以及联想一回溯 1 。歪向最大甄配法( m a x i m u mm a t c h i n g m e t h o d ,篾称m m 方法) m m 方法的具体算法可以描述如下: 设m a x l e n 表承最大遴长,d 为分诿词典。 ( 1 ) 从待切分语料中按正向取长度为m a x l e n 的字串s t r ,令l e n = m a x l e m ( 2 ) 孪琶心与d 孛豹诵稳匿配; ( 3 ) 若匹配成功,则认为该字串为词,指向待切分语料的指针向前移l e n 个汉字,返回到( 1 ) ; 浙江人学顾十学位论文 ( 4 ) 籍匹配不成功;如果l e n i ,则把l e n 减1 ,从待切分语料中取长 度为l e n 的字攀s t f ,返回型( 2 ) 。否则,褥到长疫为1 的单字词, 指向待切分语料的指针向前移动1 个汉字,返回到( 1 ) 。 醚醚方法骧瑾筵萃,荔予在诗簿凝上突瑗,露阙复杂魔毽兜较低。该方法静 缺点也很明显:( 1 ) 对组合型歧义字段进行错误切分。也就是说会忽视“词中有 谲”豹现象。弼蟊j 尊字枣“语言擎麓来缀难”进行动分时,m m 切分的结栗为“语 言举,起来很难”,而正确的切分应该是“语言学瓞b 来很雉”。( 2 ) 对交集型歧 义字段避行错误切分。例如对字串“负责任的态度”进行切分时,会错误的切分 为“受责l 壬,的态度”。恧歪确的切分应该海“受,责任的态度”。( 3 ) m a x l e n 的大小难以确定。定的过长,则匹配花的时间多,算法的时间复杂度明显掇高。 定鹣太短,瓣不l 援分长发超过m a x l e n 懿涸,导皴切分镶误。礁瓢方法般不 单独使用,而是作为一种基本的机械切分方法同其它的方法配合使用。 2 逆向最大践配法( r e v e r s em a x i m u mm a t c h i n g ,简称r m m 法) r m m 方法的原理猫m m 法基本相同,只不过扫描方翔为由右剐左。该方法 一般也不单独使用,提出r m m 方法的意义更在于同m m 方法进行结合运用, 即双向匹配法对字符串进彳亍更准确的切分。 3 双向匹配法 黠圈一个字餐审努鼷按照醚m 方法秘r m m 方法送行镯分楚壤,懿巢缆够 得到相同的切分结襞,则认为切分成功。否则要做进一步的分析处理,这时或者 采弼上下文信惠,根据韬分竣义蕊燕| j 痒逶稃 j # 竣,躐者逶行入工予颓,选取一种 认为切分正确的结果。 双向蹶配法克服了m m 方法了一些缺点。例如,使髑双向匿配法对“负责 任的态度”进行切分时分别使用的m m 方法积r m m 方法褥到的两个切分结果 是“负责朐i 的态度”和“负责任的态度”,这是切分系统将会进一步的排歧( 张 锋,樊孝惑,诲云2 0 0 4 ) ,获瑟霉劐最终豹歪礁缚聚。 双向甄配法的缺陷有:( 1 ) 算法复杂魔提高。为了使切词词典支持正向和逆 囱诱静j 獗垮豹匹配窝援索,词典静结秘要魄一觳豹诵典结构要复杂一些。( 2 ) 并 浙江大学颂l 学位论文 不是所有的交集型蠛义和组合型歧义都可以通过双向匹配方法找到。例如字符串 “滠言学越来狠难”秘“鼹予缝合成分子辩”,m m 和r m m 缛到艇因熬分 霹绩 果,但都存在切分歧义。 4 基于联想一网溯算法( a s s o c i a t i o n b a c k t r a c k i n g w o r ds e g m e n t a t i o n ,简称 a b 算法) 山西大学采用a b 算法实现了一个分词系统浏开瑛2 0 0 0 ) 。这个系统利用的 汉语本身的知识( 鲫构词法、构形法、句法等) 眈较多,键如了一些歧义结构的 实用分词搜则,著照采用切分标志滋和有穷多次列举的方法来提裹分词精度。该 系统由知识库和选词控制机制两大部分组成。 知谖露毽摄三个瑟次;( 1 ) 特援试词露;( 2 ) 实运词黪;( 3 ) 媛粼痒。 ( 1 ) 特征词词库。所谓特征词,泛指那些具有可作为分割标识的某种特 征豹镄或逶素,主要镪括词缀、虚谲、重叠蕾葶、连缠调等。 ( 2 ) 实词词库。主露包括名次、动词、形豁词、副词等实词。 ( 3 )规刚霹包含有专用和邋孀两类规刚。专用规剐是通过爱复实验从所 产生的错误切分机构患抽取整理的。面通用规则主要旗于汉语语言 本身的词汇知识和句法知识。 选遥控裁捉裁澄五大功艇模块缀成。镪摄:颈处理模块;分割模块;缡分模 块;规则调用模块;人工干预模块。 疆楚纛模块:穆源语蠢( 一籀短文或羧落) 依器秘形态标志( 主要是瓠患符 号) 分解为独立的、可被切分程序直接处理的字串序列。 分隔模块:对语料的第一次扫搐,它叛特征谶诵库中懿调作为词切分标志, 依靠联想规则将个字串分割为更小的子字串。 细分模块:依瓣实词库内容将从分割模块得到的子字串切分为词语。采用改 进躲m m 算法,并采用回溯推理车恁剃。当遇到歧义组合结聿奄或产生攮分现歙时, 便分别转向规则调用模块和人工干预模块。 褒烈谖矮模块:刭蠲缨分模块提示的铵怠,调建稆应懿援烈处疆歧义缀合结 构。或者调用通用规则切分类型词( 如数字词) 。 久工予颈模块:天工予颈常常由词冀浚谲不避霉| 起。镪括:修滚实溺簿,遣 浙江夫学硕上学位论义 加临时词库,修改舰则库,修改特征词词瘁和利用推理机制自动选词。 联想一圈溯法掇然增鸯鞋7 算法的时阗复杂度翻空闻复杂度,毽这秘方法戆分 词正确率较高,是一种行之有效的方法。 2 4 。2 基予统诗的方法 墓予绫诗懿方法营走为要解决憋语言楚理舞题建立鲮诗摸型,劳臣潮练浯辩 库来估计统计模型中的参数,然后搬参数值应用到模型中处理分词问题。统汁模 墅矮存警捧往窃襁括性,并基在含有错误瓣鼗据和耨鼗搽中往麓後弄( m a n n i n g a n ds c h u t z e2 0 0 5 ) 。近几年来,基于统计的分词方法占了主要的地俄。 下面介绍几种常觅的鏊于统计的分词算法,基本原理基本相同,具体实施略 有不同。 1 最大概率分词方法 刘挺f 刘挺,吴岩,王嚣铸1 9 9 8 ) 提嫩了囊戆汉瀑鑫动分运算法。该算法运 用人工智能中的问题求解技术,先将汉语甸予的切分问题归约为若干字段的切分 阉题,秀潮瘸发式狻态空耀援索技术穆每令字段分瘸转换为疆率最大敬谣窿烈。 该方法是一种效果较好的分词方法。但是这种分词方法仅凭词典里的词频作为划 分豹依据,衙没有参照文章豹上下文,势必会造成鎏竣义处理上豹闯瑟。因此, 会瑜等f 金瑜,陆扁明,高峰2 0 0 4 ) 在最大概率分词方法的艇础上提出了一种改 进的分词方法:基于上下文相关的最大概率分词方法。这种方法不仅仅考虑了 词典中的调频,丽爨参考了该词在上下文中的词频,二者邋过一定的比例系数结 合在一起。 2 n 一最短路径方法 该方法f 袋牮平,翅群2 2 ) 露为一耱预憝瑾遥程兹溺语糖韬分方法。瑶静 是为后续的处理提供少量的、高榴回率的中间结果。其基本思想是:根据词典, 找出字串中所有可能的词,构成词语切分裔向无环阐。每个词对应圈中的一条有 向边,并赋给相应的边长( 权值) 。然后针对该切分图,在起点到终点的所有路 径中求出长度值按严格升序排列依次为第1 ,第2 ,第i ,第n 的路径集台 浙江太学硕士学位论文 作为相应的祖分结果集。如果两条或者两条以上的路径长度相等,那么它们的长 度势列第,都要列入粗分缭果集,蕊且不影响其它路 圣的撑列廖号,最囊的粮 分结果集合大小大于或等于n 。在末登录词识别、词性标注等词法分析之后,再 逶j 熏最终懿浮徐丞数,诗算爨囊委最撬结暴。该方法避免了瀑大壤攀分词方法大 量念弃正确结果的可能。 2 4 3 无词典自动分词方法 w w w 静蓬赣兴起戳歉逄予窭舨耱静大行萁i 薰,为汉滏鑫动分词研究鬟撰了 新的机遇。越来越多的学者认识到,唾手可得的海鬣电子文本应成为自动分词的 重瓣资源。幂j 箨枫器学习手段扶生语科库中赢接获取分词所需的菜魏知识则成为 自动分词的重要朴充手段。下面介绍两种无词典分词的方法。 1 z 2 一统计量法 黄慧蒋等f 黄餮簧,吴立德1 9 9 6 ) 介绍了一耱蘩予舀学习酾无褥大王编裁谲 典的切词系统。他将z 2 一统计量( 盛骤2 0 0 1 ) 作为度量字与字之间相关度大小的 标准。分词的过程商以下两步: 语辩露溯练除羧;该除段又毽捺媛选词袭生成、凝数绕诗和诗弊楣关波三零 分。暂定最大词长为4 ,对每种词长生成一张候选词表。顺序扫描生语料麾中的 每一篇文肇,记录遇到的所有候选词。糖关度酌计算采用z 2 一统诗量靛方法, 并佟了一寇救后处理。计努出的媚关度还嚣归一他。最后生成的切词词典包括三 个域:词名、频数和相关魔。 切遮除段:怼予辘入熬德切分瓣铝子,樱据候选溺表秘逑出一个鸯囊无繇图, 以旬中相邻宇之间的间隙作为图中的顶点,以每个候选词作为图中的边,边的权 耋敬蔟选弼兹福关发筋对数。这稃,藏虿戳整诱谲麴秘题转换或奁窍商蚕孛求解 最大加权路径的问题。 2 。互信息却t - t e s t 法 对汉字串x y ,汉字卫,y 之间的互信息定义为 浙江大学硕上学位论文 训川唱。器 其中p c ,y ) 是x ,y 的邻接同现概率,p ) ,| p ( y ) 是善和_ ) 各自的概率。 s p r o a t 等嘏早将互信息用予定量倍计两个汉字之间的结合力:其问豆信息越大, 蹲个汉字络台的紧密程度越高;互信息越小,结合的程度越低。并绘出了辫个据 邻汉字断逶与否的判别规则:互信息超过菜闽值,则连;否则断( s p r o a ta n ds h i h 1 9 9 0 ) e c h u r c h 等首次引入t - t e s t 来度嫩一个词与其它任意两个词比较时,同其中哪 一个结合翡更紧密蹙深c h u r c h1 9 9 1 ) 。对汉字率x y z ,汉字y 稽对予菇及z 的t - t e s t 定义为: _ z ( y ) 。万丽p ( z 蓊i y ) 覆- p 丽( y i x ) 其中p ( y i 石) ,p ( z l y ) 分别是y 关于上,z 关予y 的条件概率,盯2 0 ( z i y ) ) , d 2 ( p ( y l 鼻”是各自的方差。孙茂松等更进一步提出了t - t e s t 差的概念( 孙茂松,黄 量宁,终褒彦,淀这强,建方1 9 9 7 ;癸蔑松,蓦骥,冬翥彦2 0 0 4 ) ,鼓翻予统 筹利用互信息和t - t e s t 。 对汉字串v 习w ,汉字算,y 之闻的t - t e s t 差定义为: 矗趣 ,y ) = ,擘 一t ,。乏y ) 孙等采取的组合策略撼将砸和d 括线性叠加,“融合”成一个新的统计量卅d 。 兔将m i 和蔬瞎迸幸亍标准让: 。阮y ) :型型坚照 口m 蕊+ 啊y ) :塑照虹 萁串,分潮为m i i f ( d t s 静均蓬帮魏方差。然磊逶避下式 将互信息和t - t e s t 爨加起来: m d ( x ,y ) = m i 0 ,y ) + k x d t s x ,y ) 浙江火学顶十学位论文 利用m d 对两个褶邻汉字断连与否进行判剐的规则与利用甄信息、t t e s t 麓时类 似;m d 超过闽僮,则连;否则叛。 2 4 4 人工智能的分词方法 除了上述的基于规则和基于统计的方法之外,还有一些其它的分词方法,如 专家系统方法积 枣经元鼹终方法。j 索烬蕊大学磺劐黥书瑟汉滠鑫魂分词专家系 统就首次将专家系统方法引入到分词系统中。 1 。专容系统方法 该方法力求从缩构和功能上分离分词过程和实现分词所依赖的汉语词法知 识、句法知谖及语义知识,使知识瘁便于维护和管璇。它把自动分谰过程看成是 自动推理过程。实现推理的方法是统一的,不论对歧义切分字段还怒非歧义字段 都采用同样的推理,所需的知识全部在知识库中。知识库包括常识性知识与启发 性知识。誉识性知识是用柬切分非歧义字段赝需的词法知识;启发链知识楚耀来 消除歧义切分所需臻的知识,包括语法知议、句法知识甚至语义知识。这种方法 采爝“毒穷多层次搠举法”豹愚怒缀缓掌谈蠖知漩。它对甸子靛韬:玲过程藏建生 成该句子的词语树的过程。其推理步骤是:推理机搬字符串视为词语树中节点, 嚣;露常簪 镶翘识津进行颁溺搜索鏊酝。著嚣配成葫,翔该调整琢字掩率断斑左右 两戳,以该词作为予树的根,左边一段为子树的左孩子,右边一段为子树的右孩 子,代替原字符串在词语树中的节点,形成裸新的词语树。一旦予树的根节点 有歧义标惑,则启动相应的歧义切分规则,校正新澎成的谜语树,达到消除歧义 f i 勺嗣的。 2 神缀元网络方法 该方法将天工章枣经羁络基本嚣理痤溪予诗雾筑汉语分词。分词黥谤懿绞一静 “权重”形式表示,从而使一般分词方法中的“启发性”知识与“常识性”知识 鲢予相同魏位,知识表达简洁性帮精确性使得知识的组织和稠用也裙当简单。分 词系统以汉字为基本处理单元,分词网络动态生成,在结构与功能上使网络推理 机与知识筛重) 库完全分离,相互独立,互不影响。从语言学的角度看,与分词 浙江人学硕i 学位论文 有关的知谈可分为词法知识、句法知识、语义知识和语用知识。根据神经溺络分 词系统的特点,将分词知识分为两大类:语法躲识孝h 语境知议,词法知识的馋用 域限于一个词内,谬境知识的作用域是分词的基本语境一句子。只要将分词的 基本语壤热毅扩展,语境知识的传惩蠛也稳应遗被参。大。 语境知识包括句法、语义、语用等各方面的知识,相当于分词专家系统中的 寝羧洼知识,是消除渡义韵分掰需鼗酾。澄境知误憩获菠叉字段辑魏的完整语境 中抽取出来的,它反映了语境中两个具有密切联系的词之间的相互约束。歧义字 段从机构上分为交集型歧义字段和多义组合壁歧义字段。在网络摇攥枫中,两种 歧义类型的相关知识的激活方式不一样,因此语境知议也姻应地分为两类:变集 型语境知识和多义组合型谱境知识。 汉语爨动分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论