已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京邮电大学硕j + 研究生学位论文 摘要 摘要 决策是管理过程中经常发生的一种活动,企业或组织发展的优劣成败关键在于高层决 策者在面临复杂问题时所做出决策的正确与否。随着信息化时代的到来,决策者们越来越 需要利用计算机辅助他们的决策行为。这就对计算机处理自然语言能力提出了越来越高的 要求,而汉语分词和词性标注是自然语言处理中的基础,对汉语分词和词性标注的研究有 重要的意义。尽管目前国内外对汉语分词的研究虽然取得了很大的进展,然而还没有满足 现实的需要。本文正是基于决策者们管理问题这一背景对汉语分词和和词性标注作出的进 一步的研究。 本文通过对汉语分词和词性标注理论的深入研究,包括词法分析技术的两方面:形态 分析技术和词典分析技术,词性标注技术主要方法以及兼类词的排歧方法。在这些理论知 识的基础上,重点是在为了决策者们管理问题语义理解正确的基础上,提出了一个改进的 正向最大匹配算法删a m ( m a x i m u mm a t c ha n dm e r g e ) 算法。该算法是建立在三层词典 结构的基础上,对正向最大匹配算法中固定最大匹配词长进行改进,在分词过程中动态确 定,以提高词典查询效率;结合正向最大匹配分词算法和词性标注进行分词、词性标注, 同时利用词性判定规则库中的规则对一词多性进行识别,判断具体词性,进一步对词进行 适当合并操作,优化了问题语义的理解,实现了词典库自学习的操作。 经大量实验测试表明:本文研究初步实现的自动分词方法具有较高的分词速度和较好 的分词精度,可以初步应用到各种文本处理之中。 关键词:中文分词,词性标注,m m a m 算法 南京邮电大学硕士研究生学位论文a b s t r a c t a b s t r a c t d e c i s i o n m a k i n gi saf r e q u e n ta c t i v i t yi nt h ep r o c e s so fm a n a g e m e n t ,t h ek e yo fb u s i n e s so r o r g a n i z a t i o n a ld e v e l o p m e n ti st h ed e c i s i o nw h i c hm a d eb yt h eh i g h l e v e lp o l i c yi nt h ef a c eo f c o m p l e xi s s u e sm a d er i g h to rn o t w i t ht h ea d v e n to ft h ei n f o r m a t i o na g e ,m o r ea n dm o r e d e c i s i o n m a k e r sn e e dt ou s et h ec o m p u t e rt oh e l pt h e mm a k ed e c i s i o n s ,w h i c hd e m a n d st h e a b i l i t yo fc o m p u t e rt od e a lw i t hn a t u r a ll a n g u a g ee v e r - i n c r e a s i n g w h i l ec h i n e s ew o r d s e g m e n t a t i o na n dp o st a g g i n ga r et h eb a s i ci nn a t u r a ll a n g u a g ep r o c e s s i n g t h e r e f o r e ,t h es t u d y o fc h i n e s ew o r ds e g m e n t a t i o na n dp o s t a g g i n gh a si m p o r t a n ts i g n i f i c a n c e d e s p i t et h ec u r r e n t d o m e s t i ca n di n t e r n a t i o n a ls t u d yo ft h ec h i n e s ew o r ds e g m e n t a t i o nh a sm a d e g r e a tp r o g r e s s ,b u t i td o e sn o tm e e tr e a ln e e d s t h i s p a p e ri s b a s e do nt h eb a c k g r o u n do fm a n a g e m e n t d e c i s i o n m a k i n gt os t u d yf u r t h e ro fc h i n e s ew o r ds e g m e n t a t i o na n dp o st a g g i n g i nt h i sp a p e r , t h r o u g hi n d e p t hs t u d yo ft h e o r e t i c a lk n o w l e d g ea b o u tc h i n e s ew o r d s e g m e n t a t i o na n dp o st a g g i n g ,i n c l u d i n gl e x i c a la n a l y s i so ft w oa s p e c t s :m o r p h o l o g i c a l a n a l y s i sa n dd i c t i o n a r ya n a l y s i st e c h n i q u e s ,t h ep r i m a r yt e c h n o l o g yo fp o st a g g i n ga n da r u l e - b a s e dm u l t i - c a t e g o r yw o r d sd i s a m b i g u a t i o nm o d e lw h i c hb a s e do nt h i ss u b j e c ta b o u tc o p i n g w i t ht h em u l t i c a t e g o r yw o r d s b a s e do nt h e s et h e o r e t i c a la p p r o a c h e s ,am m a m ( m a x i m u m m a t c ha n dm e r g e ) a l g o r i t h mi sb r o u g h to u t t h ea l g o r i t h mi sb a s e do nt h et h r e e t i e rs t r u c t u r eo n t h ed i c t i o n a r y , i m p r o v i n gt r a d i t i o n a lw o r ds e g m e n t a t i o na r i t h m e t i c ,c h a n g i n gf i x e dm a xw o r d l e n g t hi n t od y n a m i cd e t e r m i n a t i o ni nt h ep e r s o no fl o n g - w o r d f i r s tp r i n c i p l e ,i no r d e rt oi m p r o v e s e a r c hr a t e c o m b i n e dm a x i m u mm a t c h i n ga l g o r i t h ma n dp o st a g g i n gi no r d e rt os e g m e n tw o r d a n dt a gp a r to fs p e e c h a tt h es a m et i m e ,u s i n gt h ed e t e r m i n a t i o nr u l ed i c t i o n a r yo fp o st o d e t e r m i n ep a r to fs p e e c ha n df u r t h e rm e r g i n go ft h ew o r d t h ea l g o r i t h mo p t i m i z e st h ep r o b l e m o f t h es e m a n t i cu n d e r s t a n d i n ga n di m p l e m e n t st h ed i c t i o n a r yd a t a b a s ei nl e a r n i n g a tl a s t ,t h r o u g ht h ee x p e r i m e n t a lo p e r a t i o n ,t h ei n i t i a li m p l e m e n t a t i o no ft h ea u t o m a t i c s e g m e n t a t i o nm e t h o dh a sh i g h e rs p e e da n db e t t e rs e g m e n t a t i o no ft h es u b w o r da c c u r a c y , c a l lb e u s e dp r e l i m i n a r yi nt h et e x to ft h ed e c i s i o n - m a k i n gw h i c h d e a l i n gw i t hm a n a g e m e n ti s s u e s k e y w o r d s :c h i n e s ew o r ds e g m e n t a t i o n ;p a r t - o f - s p e e c ht a g g i n g ;m m a ma l g o r i t h m 1 1 南京邮电大学学位论文原创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取 得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中 不包含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学 或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研 究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名: 露南期:学 南京邮电大学学位论文使用授权声明 南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留本人所 、 送交学位论文的复印件和电子文档,可以采用影印、缩印或其它复制手段保 存论文。本文电子文档的内容和纸质论文的内容相一致。除在保密期内的保 密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部 分内容。论文的公布( 包括刊登) 授权南京邮电大学研究生部办理。 研究生签名 导 飙严 南京邮l 岜大学硕 j 研究生学位论文 第一章绪论 1 1 问题的提出 第一章绪论 决策是管理过程中经常发生的种活动,企业或组织发展的优劣成败关键在于高层决 策者在面临复杂问题时所做出决策的正确与否。随着信息化时代的到来,决策者们越来越 需要一个有效的管理决策方法和优秀的决策支持工具,来辅助他们提高决策的效率与科学 性。这样,就有了将计算机科学与信息技术引入决策科学的研究,利用计算机辅助人类的 决策行为。然而,大多数决策者对于计算机所特有的形式化描述语言不甚了解,掌握起来 也有一定难度,即使掌握了,为使计算机能够理解实际决策问题,也需要决策者完成从问 题的自然语言描述到计算机形式化语言描述的映射。在很多情况下,这种映射需要大量的 问题领域知识与计算机语言知识,映射过程是非常复杂的。一个使用的问题决策系统,应 该允许用户用自然语言描述问题,使用户在描述问题时真正感到“自然”。因此,用自然 语言作为人机交互语言已是必然趋势。随着i n t e r n e t 技术的迅速发展,自然语言处理己 经成为信息处理领域一个引人注目的研究热点。 1 2 自然语言处理概述 语言是人类思维的载体,是人际交流的重要工具,也是人们生活中不可缺少的组成部 分。自然语言是指人类语言集团的本族语,如汉语、英语、日语等。自然语言是相对于人 造语言而言的。人造语言是指世界语或计算机的各种程序设计语。在人类历史上以语言文 字形式记载和流传的知识占到知识总量的8 0 以上。就计算机的应用而言,据统计用于数 学计算的仅占1 0 ,用于过程控制的不到5 ,其余8 5 左右都是用于语言文字的信息处理。 在信息化社会中,语言信息处理的技术水平和每年处理的信息总量已成为衡量一个国家现 代化水平的重要标志之一。在这样的社会需求下,自然语言处理或称计算语言学,作为语 言信息处理技术的一个高层次的重要方向,一直是人工智能领域所关注的核心课题之一。 它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。这又是一门非 常复杂的学科,还涉及数学、语言学、逻辑学和心理学等多个研究领域。 南京邮电人学硕士研究生学位论文 第一章绪论 1 2 1 自然语言处理研究的历史 2 0 世纪6 0 年代以来已经产生过一些比较成功的自然语言理解系统用来处理受限的自 然语言子集,这种子语言或是在句子结构的复杂性方面受到限制( 句法受限) ,或是在所 表达的事务数量方面受到限制( 语义受限,或领域受限) 。其中的一些系统,如人一机接口 和机器翻译系统,已成为市场上的商品。四十年来自然语言理解的研究积累了一大批丰硕 的成果,根据不同时期的特点,将这段研究历程大体上分为三个时期吨1 :即2 0 世纪6 0 年 代以关键词匹配为主流的早期,7 0 年代以语法一语义分析为主流的中期和8 0 年代开始走向 实用化和工程化的近期。下面将扼要地回顾一下自然语言处理领域的发展历程。 1 以关键词匹配为主流的早期历史 2 0 世纪6 0 年代开发的自然语言理解系统;大都没有真正意义上的语法分析,而主要 依靠关键词匹配技术来识别输入句子的意义。在这些系统只能够设计者事先存放了大量包 含某些关键词的模式,每个模式都与一个或多个理解( 又叫响应式) 相对应。系统将当前 输入句子同这些模式逐个进行匹配,一旦匹配成功便立即得到了这个句子的解释,而不再 考虑句子中的那些不属于关键词的成分对于句子意义会有什么影响。所以这是一种近似匹 配技术,它的最大优点是允许输入句子不一定要遵循规范的语法,甚至可以是文理不通的。 但是这种分析技术的不精确性正是这种方法的主要弱点,因为它往往导致错误的分析。 这个时期代表性的研究成果有麻省理工学院的b r a p h a l e 在1 9 6 8 年完成的s i r ( s e m a n t i ci n f o r m a t i o nr e t r i e v a l ) ,这是一个理解机器的原型,它能把用户通过英语 告诉它的事实记住,然后通过对这些事实的演绎来回答用户提出的问题,系统用不完全的 发音语言编程。 2 以句法一语义分析为主流的中期历史 进入2 0 世纪7 0 年代以后,一批采用句法一语义分析技术的自然语言理解系统脱颖而出, 在语言分析的深度和难度方面都比早期系统有了长足的进步。这个时期代表作是l u n a r 、 s h r d l u 和m a r g i e 系统。l u n a r 是第一个允许用普通英语同计算机数据库对话的人机接口, 是1 9 7 2 年t w i n o g a r d 设计的,这也是他在美国麻省理工学院的博士学位研究工作。s h r d l u 是一个在“积木世界”中进行对话的自然语言理解系统。m a r g i e 是由r s c h a n k 及其学生 们在美国斯坦福大学的人工智能实验室里建立的一个系统,目的是提供一种自然语言理解 过程的直觉模型。 3 以走向实用化和工程化为特征的近期历史 进入2 0 世纪8 0 年代以来,自然语言理解系统的最大特点就是实用化和工程化。其重 2 堕塞堡垒盔兰堕主要塞竺兰垡堡茎 塑二里堕堡 要标注就是一批商业化的自然语言人一机接口和机器翻译系统出现在国际市场上。著名的 有美国人工智能公司( a i c ) 生产的英语人一机i n t e l l e c t ,美国弗雷公司生产的t h e m i a 人 机接口,日本富士通公司开发的a t l a s 英日、日英机译系统等等。国内“七五”期间由 中国软件总公司开发的商品化英汉互译系统“译星”( t r a n s t a r ) ,也是这方面的一个范例。 1 2 2 自然语言处理研究的现状与新趋势 从自然语言理解的发展历史来看,四十年来其主流技术一直是语法一语义分析,它的许 多思想来自人工智能,这就决定了它的主要方法是基于规则的。但是实践已经证明,在当 前计算技术的限度内,要想把理解自然语言所需的知识( 包括语言学知识和语言学以外的 知识) 都用规则形式表达出来是不可能的。这既是由于这种知识的“数量”浩瀚无际,也 是由于它们在“质”的方面高度的不正确性和模糊性。这种情况也说明了为什么多年以来 这类基于规则的自然语言系统只能在极其受限的某些自然语言中获得有限的成功口1 。 处理大规模真实文本的目标同只处理受限语言的目标大相径庭。目标的不同必然导致 观念的变化。为实现大规模真实文本的处理,自然语言处理的理论、方法和工具都需要一 个新的发展。这里值得注意的是近些年中崛起的语料库语言学,它顺应大规模真实文本处 理的需求,运用统计学方法,在自动标注等方面取得了较好的效果。因此,基于统计的方 法越来越受到人们的关注。然而,统计自然语言处理也存在比较粗糙的一面,越来越多的 研究人员认识到,要想取得良好的效果,需要采用深层次的语言处理去提炼由统计方法得 到的粗糙结果,也就是说只有将基于规则的方法和基于统计的方法有机地结合起来,才是 提升自然语言理解效果的有效途径。 在c o l i n g 2 会议上,许多专家提出自然语言处理研究的发展方向,归纳起来有以下几 点。 1 基于规则和基于统计的研究方法的结合 计算语言学的最初发展来自于这样一个观察,即语言事实可以用结构化的规则来描写, 其暗含的主张就是语法结构和意义表达一一对应。不过,2 0 世纪8 0 年代以来这一基础性 方法论逐渐让位于概率方法。随着系统、数据规模和应用的扩展,人们发现,与乔姆斯基 的早期批评不同,起初被认为是“快速而粗糙的”马尔可夫模型在总体上已经取得了比所 谓的基于规则的方法更好的实验结果。从结构到意义的映射的研究仍在继续,但其强调点 不再是如何去解释和说明映射规则,而是如何将规则视为能被统计方法操作的对象。直到 2 1 世纪初,计算语言学家才意识到概率模型也存在极限。随着人们对高质量和高精度信息 南京邮电入学硕士研究生学位论文第苹绪论 的需求越来越大,必须采用深层语言处理去提炼概率方法得到的粗糙结果,即将规则引导 的深层分析和具有稳定性的基于概率的浅层分析结合起来。 2 自然语言理解在语义网中广泛应用 在过去的1 0 年间,网络对计算机语言学产生了积极而深刻的影响,网络的广泛使用也 催生了计算语言学领域的一些热门研究课题,如信息检索和问题回答等。计算语言学也借 此获得了测试和应用其研究成果的一个重要途径。 自t i mb e r n e r sl e e 提出“语义网将成为下一代的新网络”的大胆的预测以来,关于 自然语言理解和语义网之间关系的讨论就从未停息过,语义网对语言技术带来了新的挑 战,这些挑战也正是自然语言理解领域需要不断探讨和解决的问题。 3 与生物信息学的结合 尽管将语言和生物学相提并论的说法看起来有些突兀,但它们实际上是紧密联系的, 并且代表了计算语言学令人鼓舞的新的前沿研究。 语言和生物学协同作用源于人们的如下观点:认知科学和遗传学是决定人类物种的两 个领域,并且,在这两个领域目前还有许多科学问题尚未找到答案。生物信息学将这两个 领域的关注点融合到一起,试图揭开基因组的功能结构和信息结构。语言及其演化研究从 基因研究中吸取了有益的成果,以求解释语言的形成和变化。特别有意思的是,这两个领 域都吸纳了计算语言学技术。 4 逐渐形成国际标准 语言资源的可用性和可复用性在计算语言学的新进展中扮演着核心角色。致力于构建 共享语言资源的工作是新世纪的计算语言学研究的一个前沿领域之一。标准和资源共享的 基础设施是计算语言学的未来发展的一个基石。 1 3 中文分词和词性标注的重要性 自然语言理解是语言处理的最终目标,而汉语分词处于词法、句法、语义等语言层次 的最低层,是中文信息处理中是基本也是很重要的基础环节。自动分词在自然语言处理中 的重要性,可以从两方面来认识h 1 。一方面,“词”是组成句子的基本单位,要对句子进行 分析,首先得对“词”进行分析,只有在这个基础上,才能谈得上进一步作其他的处理。 这是“词”在自然语言中的基础地位决定的;另一方面,计算机有关自然语言的知识很大 一部分是以机器词典( 给出词的各项信息,包括句法信息,语义信息,甚至语用信息等) 的 形式存储的。自然语言信息处理系统只有在“词”的基础上进行,才可能利用这些知识。 4 南京邮电大学硕士研究生学位论文 第一覃绪论 词性标注是一个中间任务,也就是为句子中的词选定一个语法类别的过程。自动分词 后的文本是一个词串,对词串中的每个词孤立而言,它可能有多种词性,也可能有多种语 义( 这些都可以从词典中查到) 。但是,一般而言,在上述文本的特定语境下,每个词的 词性和语义都是唯一确定的,这也正是人们能正确理解给定文本的基础。 1 4 中文分词与词性标注的研究现状及难点 1 4 1 中文分词的研究现状及难点 自从8 0 年代初中文信息处理领域提出自动分词以来,有关方面的众多专家、学者为之 付出了不懈的努力,涌现出了许多成功的汉语自动分词系统,主要有:北京航空航天大学 计算机系1 9 8 3 年设计实现的c d w s 分词系统、山西大学计算机系研制的a b w s 自动分词系 统和北京师范大学现代教育研究所研制的书面汉语自动分词专家系统、清华大学先后研制 开发了s e g 分词系统和s e g t a g 系统、复旦大学研制的复旦分词系统、哈工大统计分词系 统是一种典型的运用统计方法的纯切词的分词系统、北大计算语言所分词系统由北京大学 计算语言学研究所研制,具有分词和词性标注的功能。 目前国内外对中文分词的研究虽然取得了很大的进展,然而还没有满足现实的需要。 对于自动分词中一些存在的主要的问题,没有得到很好的解决。表现在分词算法的运行速 度和精度难以达到理想的结果,对歧义切分和未登录词的识别也未能达到令人满意的程 度,更为主要的是至今未能对分词的标准达成统一的标准。 1 4 2 词性标注的研究现状及难点 国外对英语语料库的自动词性标注研究可以分为以下几个阶段:七十年代初,主要采 用了基于规则的处理方法。其代表是t a g g i t 系统主要利用了3 3 0 0 条上下文框架规则对1 0 0 万词次的b r o w n 语料库进行了自动词性标注,处理正确率达到了7 7 。七十年代末到八十 年代初,随着经验主义方法在计算语言学研究中的不断流行,基于统计的词类排歧方法开 始得到应用。1 9 8 3 年的语料库标注系统c l a w s 最先采用了s h a n n o n 的噪声信道模型汇,思 想进行词类自动标注。通过利用b r o w n 语料库的正确标注语料训练参数,达到了9 6 的正 确率。从此以后,随着正确标注语料数量的不断增长和统计处理技术的不断完善,基于统 计的方法在英语语料库的自动词性标注器设计中占有了主导地位。相比之下,国内对汉语 语料库的词性标注研究则起步较晚。近几年来,清华大学和山西大学对基于统计的汉语语 5 南京邮电大学硕t 研究生学位论文 第一章绪论 料库自动标注方法进行了一些研究和探索,提出了套用于汉语语料库标注的词类标记 集,标注正确率也达到了9 5 左右。从9 2 年初开始,北大计算语言学研究所开始进行汉语 语料库的多级加工处理研究,提出了一种切分和标注相融合的汉语语料库多级加工方法, 其中的重要内容是规则和统计相结合的处理思想。此外还有基于神经网络、遗传算法等的 处理方法。 由于汉语词的一些特殊性,使得汉语词性标注存在一定的困难,归纳起来主要有以下 几点n 1 :一、个别词用法特殊,难以归类,但数量极少;二、个别词在使用中的句法成分 不好确定,因而不好归类:三、部分词的用法不清楚,主要是文言词和专门用语;四、部 分词同一性的确定有困难。 1 5 本文研究内容和组织结构 下面将概括地介绍一下本文的研究内容和组织结构。 1 5 1 研究内容 本文概述了自然语言处理的历史、现状以及未来发展趋势,讨论了词法分析技术的两 个方面:形态分析技术和词典分析技术。介绍了常用的分词系统和一种评价分词系统的方 法。同时还讨论了目前词性标注的主要分类,并对词性标注的三类方法( 基于规则的方法、 基于统计的方法、规则与统计结合的方法) 进行了评价。之后,结合本课题的研究,阐述 了处理兼类词的方法,介绍了基于规则的兼类词排歧模型。最后,结合分词和词性标注的 方法,结合正向最大匹配算法和词性标注的方法,提出了一个改进的最大匹配算法一 m m a m ( m a x i m u mm a t c ha n dm e r g e ) 算法。该算法是为了考虑提高分词效率和为了问题语义 理解正确,基于三层词典结构的正向最大匹配分词算法基础上设计的。实现了在最大匹配 分词已对句子分词完毕的情况下,为了进行合理的词性标注,以及为了问题语义理解正确 而进行的汉词合并和实现词典库自学习的操作。在此基础上,完成了对该算法的测试,结 果显示效果良好。 1 5 2 本文组织结构 全文共分5 章,具体的章节内容安排如下。 第1 章,概述了自然语言处理的历史、现状以及未来发展趋势。紧接着说明了自然语 6 南京邮电大学硕:e 研究生学位论文 第一苹绪论 言处理的基础中文分词和词性标注的重要性,并阐述了其研究的现状、难点,然后说 明了本课题研究的内容和文章的组织结构。 第2 章,主要讨论和分析了词法分析技术的两个方面:形态分析技术和词典分析技术。 重点分析了这两种技术中常用的分词算法,并介绍了常用的分词系统和一种评价分词系统 的方法。 第3 章,主要讨论和分析了目前词性标注的主要分类,并对词性标注的三类方法一基 于规则的方法、基于统计的方法、规则与统计结合的方法进行了评价。之后,结合本课题 处理兼类词的方法适当阐述了基于规则的兼类词排歧模型。 第4 章,结合分词和词性标注的方法,提出了一个改进的最大匹配算法一一 m m a m ( m a x i m u mm a t c ha n dm e r g e ) 算法。完成了该算法的设计与实现。最后进行了实验测 试和结果分析。 第5 章,在结论中对本文的研究成果进行了总结,并对进一步的研究工作进行了分析 和展望。 7 南京邮电大学硕士研究生学位论文第二二章中文分词技术的研究 2 1 词法分析技术 第二章中文分词技术的研究 词法分析技术是对组成自然语言的词的分析技术,分析内容包括语句组成的词结构、 词的词性特征、词的语义特征、词与词之间的关系、词与其主要处理工作之间的关系等。 词法分析技术主要是包括两个部分:一是形态分析技术;二是词典分析技术。 2 1 1 形态分析技术 形态分析技术是对句子中词的结构分析,是自然语言理解的第一步。在汉语中,分词 ( 切词) 是形态分析的主要内容。 关于分词方式按照刘倬西1 的分类有:人工分词、用大词典分词、用中词典( 结构词词 典) 分词、全自动分词、句法功能制导分词。其中,人工分词其优点是方法容易实现,其 缺点是划词的标准可能因人而异,甚至一个人划词也可能出现前后矛盾;用大辞典分词其 优点是分词容易保证分词的正确性,而且词典收词越多,切分的正确率也就越高,缺点是 对切分后剩余的单音节词的处理,使该技术处理效率降低,额外处理费用增高;用中词典 分词其优点是处理效率高。缺点是字典中每个字的参数构造复杂;全自动分词其优点是对 要切分句子中的字和词没有要求收入字或词典中,对输入句子没有约束,被切分的句子集 大,缺点分词规则建立复杂;句法功能制导分词其优点是由于有了基本结构类型段,很多 句法分析工作变得简单了,缺点是不能全面地反映汉语中词与词的真实划分。 关于分词算法,经过专家们的不懈努力,研究出了许多分词方法,目前采用的分词算 法大体上分为如下多种n 引: l 、删方法,该算法的基本思想是:假设自动分词词库中的最长词条中汉字个数为n , 则取待处理文本中的前1 3 个字作为匹配字段,查找分词词库,若词库中有这样一个n 字词, 则匹配成功,匹配字段作为一个词被切分出来;如果词库中找不到这样一个1 3 字词,则匹 配失败,把此匹配字段的最后一个字去掉,重复以上过程,直到匹配成功为止。这样就完 成了一次匹配,即匹配出一个词。然后再按上面的步骤进行下去,直到切分出文本中的所 有词为止。这是一种减字的匹配法。 例如现有短语“计算机科学和工程”,假设词库中最长词为7 字词,于是先取“计算机 南京邮电大学硕士研究生学位论文 第二章中文分词技术的研究 科学和工”为匹配字段,来匹配分词词库,由于词库中没有该词,故匹配失败,去掉最后 一个汉字成为“计算机科学和 作为新的匹配字段,重新匹配词库,同样匹配失败,取“计 算机科学”作为新的匹配字段,来匹配词库,由于词库中有“计算机科学”一词,从而匹 配成功,切分出第一个词“计算机科学”。同样的方法可以切分出第二、第三个词, 栅法的原理简单,易于在计算机上实现,时间复杂度也比较低。但是,最大词长的长 度比较难以确定,如果定得太长,则匹配时花费的时间就多,算法的时间复杂度明显提高, 如果定得太短,则不能切分长度超过它的词,导致切分正确率的降低。据统计表明,m m 方 法的错误切分率为1 1 6 9 。所以,该方法一般不单独使用,而是作为一种基本的方法和其 它方法配合使用。 2 、l 洲方法,它的分词过程与删方法相同,不同是的每次是从待处理语料的末尾开 始处理,每次匹配不成功时去掉的是前面一个汉字。i 洲方法的精度要高一些,它的错误 切分率为1 2 4 5 。该方法为了查询方便,要求配备逆序的分词词典,这样的分词词典维护 起来比较困难,不符合人们习惯。 3 、逐词遍历法,这种方法是将词库中的词由长到短递减的顺序,逐个在待处理的文本 中搜索,直到切分出所有的词为止。如“他睡觉打鼾”,利用该方法切分这一句话,不论 分词词库多大,都得把整个分词词库匹配一遍。故这种方法的时间复杂度比较高,切词的 速度慢,切词的效率不高,是一种不可使用的分词方法。 4 、设立切分标志法,在书面汉语中存在的切分标志有两种:一种是自然的切分标志, 如标点符号。词不能跨越标点符号而存在,标点符号必定是词的边界之所在:另一种是非 自然的切分标志,如只能在词首出现的词首字、只能在词尾出现的词尾字、没有构词能力 的单音节单纯词、多音节单纯词、拟声词等,词显然也不能跨越这些标志而存在,它们也 必定是词的边界之所在。设立切分标志法首先收集众多的切分标志,分词时先找出切分标 志,把句子切分成一些较短的字段,然后用删方法或r m m 方法进行细分。这种分词方法 不是真正意义上的一种分词方法,只不过是自动分词的一种前处理方式而已,而且这种处 理并没有提高分词精度,却要额外消耗时间扫描切分标志,增加分词的时间复杂度,另外 要花费存储空间存放那些所谓的非自然切分标志,该方法一般很少采用。 5 、o m 方法,该方法分为正向最佳匹配法和逆向最佳匹配法。最佳匹配法的原理是: 在词库中按词的出现频率大小排列词条,高频率的词排在前,低频率的词排在后,从而缩 短分词词库的检索时间,达到最佳效果,降低分词的时间复杂度,加快分词速度。o m 法只 是预先处理分词词库的排列顺序,它虽然降低了分词的时间复杂度,但是并没有提高分词 精度。 9 南京邮电大学硕士研究生学位论文第二章中文分词技术的研究 6 、有穷多层次列举法,这种方法把现代汉语中的全部词分为两大类:一类是开放词, 如名词、动词、形容词等,它们的词汇数量是无穷的。另一类是闭锁词,如连词、助词、 叹词、介词、数词等,它们的成员数量是可以一枚举的。分词时,首先处理具有特殊标 志的字符串,如阿拉伯数字、拉丁字母等,然后分出可枚举的闭锁词,最后再逐级分出开 放词。该方法由于使用了较小的分词词典,从而减少了分词空间复杂度,但是由于它进行 多次扫描,又增加了分词的时间按复杂度,总的来说,它还是一种可以采用的方法。 7 、二次扫描法,该方法的基本思想是:取待处理文本中两个切分标志之间的部分作为 样本串,首先从该样本串中取两个汉字作为匹配串,检查分词词库中是否有一个词,它的 前两个汉字和该样本串相同,若有的话,则取样本串的前三个汉字作为匹配串,重新在分 词词库中找可以匹配串的词,若有则重复下去,直到进行1 1 个汉字为止( 设n 为词库中最 长词所含汉字的个数) ,则切分出一个n 字词;若没有则完成了一次扫描;把匹配中的最 后一个汉字去掉,作为新的匹配串,进行第二次扫描,第二次扫描是用删方法或r m m 方 法进行。 8 、基于词频统计的方法,词频统计的结果反映了语言中的用词规律,因此利用词频统 计的结果帮助分词,有一定的效果。这种分词方法主要是在分词过程中处理歧义字段的一 种方法。例如:a b ,b c 是两个词,如果b c 的频度比a b 大,则a b c 这一歧义字段应切分为 a b c 。这种方法的一个明显缺点是频度较低的词,永远被错误切分。如果仅考虑当前正在 处理文本的词频的话,将会得到良好的效果,问题是如何得到当前正在处理文本的词频。 这种方法还有待于专家们深入研究。这种方法增加了分词的空间复杂度,如果完全依据词 频统计,将会产生上面提到的问题。目前这种方法还处于理论探讨阶段,没有实际使用。 9 、基于期望方法,这种方法认为,一个词的出现,它后面紧随的词就会有一种期望, 根据这种期望,在词表中找出所对应的词,从而完成切分。这种方法增加了分词的空间复 杂度和时间复杂度,在一定程度上提高了分词的精度,目前该方法也只是处于理论的探讨 阶段,没有实际使用。 1 0 、联想一回溯法,该方法实际上采用设立切分标志法和有穷多层次列举法的思想, 由于实行分级建库,故增加了分词的空间复杂度,把分词过程分解成分割和细分两个过程, 使得分词的时间复杂度增大,但由于它能提高分词的精度,从而是一种可行的方法。 1 l 、双向扫描法,这种方法的侧重点是放在检错和纠错上,基本原理是分别用删法和 r m m 法进行正向和逆向的扫描和初步的切分,并将用咖法初步切分的结果与用r n i m 法初步 切分的结果进行比较,如果两种结果一致,则判定切分正确;如果两种结果不一致,则判 定为疑点,采用人工干预的方式,或者记频度的算法,或者结合上下文相关信息选取一种 l o 南京邮电大学硕- j j 研究生学位论文第二章中文分词技术的研冗 切分。这种方法对于正、逆向的扫描结果一致但实际切分不正确的字段( 如“结合成分子 时 ) 仍然不能正确处理。由于要做双向扫描,时间复杂度增加。而且,其分词词库必须 同时支持正、逆两种顺序的检索,词库的结构比一般的分词词库要复杂得多。 1 2 、邻接约束方法,该方法利用自然语言中的邻接约束条件排除不合法切分来提高分 词精度,在实际系统中,这种设想如能全面、系统地加以实现,将是有价值的。 1 3 、邻接知识约束方法,该方法以形式分词为主,利用部分语法和语义知识解决分词 中的困难,提高了分词精度,但为提高系统的完备性,需仔细研究以下几个问题:词性分 类、语义分类、词邻接关系的约束条件、词性分类和语义分类的综合考虑及平衡、知识的 内部表示。 1 4 、专家系统方法,该方法力求从结构与功能上分离分词过程和实现分词所依赖的汉 语词法知识、句法知识及语义知识,使知识库便于维护和管理。它把自动分词过程看成是 自动推理过程。实现推理的方法是统一的,不论对歧义切分字段还是非歧义字段都采用同 样的推理,所需的知识全部在知识库中。知识库包括常识性知识与启发性知识。常识性知 识是用来切分非歧义字段所需的词法知识;启发性知识是用来消除歧义切分所需要的知 识,包括语法知识、句法知识甚至语义知识。这种方法采用“有穷多层次列举法”的思想 组织常识性知识。它对句子的切分过程就是生成该句子的词语树的过程。其推理步骤是: 推理机把字符串视为词语树中节点,利用常识性知识库进行顺向搜索匹配。若匹配成功, 则该词把原字符串断为左右两截,以该词作为子树的根,左边一段为子树的左孩子,右边 一段为子树的右孩子,代替原字符串在词语树中的节点,形成一棵新的词语树。一旦子树 的根节点有歧义标志,则启动相应的歧义切分规则,校正新形成的词语树,达到消除歧义 的目的。但该方法由于分词所依赖的常识性知识过于庞大,全面地收集整理这些常识性知 识是非常困难的。 1 5 、最少分词词频选择方法,该方法综合了频度统计方法和最少匹配法,其较双向最 大匹配法快,精度比双向最大匹配法高,但其同样存在如何得到当前正在处理文本的词频 的问题。 1 6 、神经元网络方法,该方法将分词知识以统一的“权重 形式表示,从而使一般分 词方法中的“启发性 知识与“常识性 知识处于相同地位,知识表达简捷性和精确性使 得知识的组织和利用也相当简单,但其时间复杂度较高。 1 7 、全切分方法,该方法是在对自动分词问题的形式模型的分析基础上,以切分一评 价分离为系统设计思想设计出的,该方法优点是对句子的规约是全规约,使得它不存在切 分盲点,切分正确率较高,缺点是合理的评价函数较难给出。 l l 南京邮电大学硕t 研究生学位论文 第二章中文分词技术的研究 2 1 2 词典分析技术 词典分析技术是从机器词典中找出与每个词有关的特征,以及其与理解后处理工作的 关系。词典分析技术关键是采用什么样的方式组织机器词典及该词典包括哪些内容,这些 内容的组织应如何便于以后各阶段的工作。 常用的分词词典机制有:基于整词二分的分词词典机制、基于t r i e 索引树的分词词典 机制、基于逐字二分的分词词典机制、基于哈希索引的分词词典机制等。其优缺点总结如 下: 1 、整词二分的数据结构简单、占用空间小,构建及维护也简单易行,但由于采用全词 匹配的查询过程,效率低下。 2 、t r i e 索引树的数据结构复杂、空间浪费较为严重,树的构造和维护也较为繁琐, 但它采用的查询过程是“逐字匹配”,所以查询效率较高。 3 、基于逐字二分虽然采用了较为高效的匹配方法一逐字匹配,但并没有改进“整词二 分”的数据结构,使得匹配过程并不是完全意义上的逐字匹配,这就导致查询效率并没有 得到最大限度的提高。 4 、哈希索引查找效率比较高,兼具“整词二分”及“t r i e 索引树 二者的优点。 2 2 典型的自动分词系统及评价方法 2 2 1 典型的自动分词系统7 1 、几个早期的自动分词系统 自8 0 年代初中文信息处理领域提出了自动分词以来,一些实用性的分词系统开始得以 开发,其中几个比较有代表性的自动分词系统在当时产生的较大的影响。c d w s 分词系统是 我国第一个实用的自动分词系统工程,由北京航空航天大学计算机系于1 9 8 3 年设计实现, 它采用的自动分词方法为最大匹配法,辅助以词尾字构词纠错技术。其分词速度为5 1 0 字秒,切分精度约为1 6 2 5 ,基本满足了词频统计和其他一些应用的需要。a b w s 是山西 大学计算机系研制的自动分词系统,系统使用的分词方法称为“两次扫描联想一回溯”方 法,用联想一回溯来解决引起的组合切分歧义。系统词库运用了较多的词法、句法等知识。 其切分正确率为9 8 6 ,运行速度为4 8 字秒。c a s s 是北京航空航天大学于1 9 8 8 年实现 的分词系统。它使用的是一种变形的最大匹配方法,即正向增字最大匹配。它运用知识库 南京邮电大学硕士研究生学位论文第二章中文分词技术的研冗 来处理歧义字段。其机械分词速度为2 0 0 字秒以上,知识库分词速度1 5 0 字秒。书面汉 语自动分词专家系统是由北京师范大学现代教育研究所于1 9 9 1 前后研制实现的,它首次 将专家系统方法完整地引入到分词技术中,据报道,系统对封闭原料的切分精度为9 9 9 4 , 对开放语料的切分精度达到9 9 8 ,在3 8 6 机器上切分速度达到2 0 0 字秒左右,这些性能 代表了当时的一流成就。 2 、清华大学早期s g e 分词系统 此系统提供了带回溯的正向、反向、双向最大匹配法和全切分一评价切分算法,由用 户来选择合适的切分算法。其特点则是带修剪的全切分一评价算法。经过封闭试验,在多 遍切分之后,全切分一评价算法的精度可以达到9 9 左右。 3 、清华大学s g e t a g 系统 此系统着眼于将各种各类的信息进行综合,以便最大限度地利用这些信息提高切分精 度。系统使用有向图来集成各种各样的信息,这些信息包括切分标志、预切分模式、其它 切分单位。通过实验,该系统的切分精度基本上可达到9 9 左右,能够处理未登录词比较 密集的文本,切分速度约为3 0 字秒。 4 、国家语委文字所应用句法分析技术的汉语自动分词系统 此分词模型考虑了句法分析在自动分词系统中的作用,以更好地解决切分歧义。切词 过程考虑到了所有的切分可能,并运用汉语句法等信息从各种切分可能中选择出合理的切 分结果。在应用句法分析进行切词时,其测试步是使用汉语的句法规则检验某种切分结果 是否构成合法的汉语句子。随着软硬件水平的不断提高,直接运用时空消耗比较大的句法 分析来检查分词结果的方法正在日益显现其优越性。 5 、复旦大学分词系统 此系统由四个模块组成:一、预处理模块,利用特殊的标记将输入的文本分割成较短 的汉字串,这些标记包括标点符号、数字、字母等非汉字符,还包括文本中常见的一些字 体、字号等排版信息:二、歧义识别模块,使用正向最小匹配和逆向最大匹配对文本进行 双向扫描,如果两种扫描结果相同,则认为切分正确,否则就把它视为歧义字段,需要进 行歧义处理;三、歧义字段处理模块,此模块使用构词规则和词频统计信息来进行排歧。 在使用规则无效的情况下,使用了词频信息,系统取词频的乘积最大的词串作为最后切分 结果;
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年奉节县辅警招聘考试题库含答案详解(满分必刷)
- 2023年铜陵辅警协警招聘考试真题附答案详解(满分必刷)
- 2023年鹤岗辅警协警招聘考试真题及答案详解(考点梳理)
- 2023年贵州辅警协警招聘考试备考题库及答案详解(各地真题)
- 2024年丽江辅警招聘考试真题含答案详解(精练)
- 2023年鹤壁辅警招聘考试题库附答案详解(预热题)
- 2024年信阳辅警协警招聘考试备考题库及完整答案详解
- 2023年西宁辅警协警招聘考试真题及答案详解1套
- 2023年甘孜藏族自治州辅警协警招聘考试备考题库附答案详解(培优b卷)
- 2024年南平辅警招聘考试真题含答案详解(达标题)
- 掼蛋活动方案
- 急性心肌梗死护理管理指南
- 企业信息安全培训课件
- 铝板板材外墙施工技术交底
- 2025下半年四川省自然资源投资集团社会招聘考试笔试参考题库附答案解析
- 大学物理《密立根油滴实验》精品课件
- 金风科技-风电产业集团-供应商现场作业基础安全考试附答案
- 全国青少年机器人技术等级考试:一级培训全套课件
- 盾构施工风险及典型事故案例(多图)
- 陕西省流动人口信息登记表
- 脐带血采集流程课件
评论
0/150
提交评论