




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京邮电学院硕士研究生学位论文 摘要 在w e b 环境下,中文信息处理对象由少量、规范的例旬扩大到大规模、非 规范的文本:中文信息处理范围由单个典型的领域扩大到多个开放的领域,这 样,词典对分词精度的影晌更加突出,但是,因为自动识别词典末登录词问题, 基于词典的分词方法已经不能满足中文分词的要求。分词的目标是保证中高频 词条、尤其是对文档主题特征起重要作用的专业词汇的正确识别。无词库分词 结合上下文识别生词、自动消除歧义的优点使许多研究者和学者着手开始了基 于无词库的中文分词的研究。本文首先对中文分词的基本概念、分词系统的目 标、中文分词技术以及中文分词面i 临的难题进行了概述。接着针对中文分词技 术及其发展问题,重点研究了一种基于无词库的中文分词方法即根据极大似然 原则构建汉语自动分词的一阶马尔可夫模型和一种训练模型的有效算法,分析 了e m ( e x p e c t a t i o n m a x i m i z a t i o n ) 算法。同时给出个无词库抽词方法即通 过自增长算法获取中文文档中的汉字结合模式,以解决模型未知参数初值问题。 关键词:中文信息处理;分词;无词库分词:概率模型;模式获取 南京邮电学院硕士研究生学位论文 a b s t r a c t o nw e be n v i r o n m e n t ,t h ec o n t e n to fc h i n e s ei n f o r m a t i o np r o c e s s i n gh a s s p r e a d e d t ob r o a d s c a l ea n du n r e g u l a rt e x tf i o mf e wa n d r e g u l a rs e n t e n c e s , a c c o r d i n 9 1 s c o p eo fc h i n e s ei n f o r m a t i o n p r o c e s s i n ga l s oh a sb r o a d e n e df r o m s i g n a lt y p i c a ld o m a i nt om u t i lo p e nf i e l d s t h u s ,t h ed i c t o r yw o u l dp l a yam o r e i m p o r t a n tr o l ei nw o r ds e g m e n t a t i o n ,b u t ,b e c a u s et h ed i c t i o n a r yh a sd i f f i c u l t yi n s p o n t a n e o u s l yi d e n t i f i n g u n r e c o r d e dw o r d ,t h ew o r ds e g m e n t a t i o nb a s e do n d i c t i o n a r yu n a b l e t oe f f e c t i v e l yd e a lw i t ht h i si s s u e t h ea i mo f w o r ds e g m e n t a t i o n i sc o r r e c t l yk n o ww o r di t e mw h i c hh a sh i g ho rm e d i u mf r e q u e n c y ,e s p i c a l l y d i s c e r nt h eg l o s s a r yw h i c hc a ng i v ee x p e s s i o nt ot o p i c c h i n e s et e x ts e g m e n t a t i o n b a s e do nn o n _ d i c t i o n a r yh a sm a n ya d v a n t a g e s ,f o re x a m p l e ,i tc a ne f f e c t i v e l ye r a s b r e a m b i g u i t ya n dc a r lk n o w1 e ww o r da c c o r d i n gt oc o n t e x t ,s o ,i ta t t r a c tm a n yr e s e a r c h e r e sa n d s c h o l a r st o s t o d yi t t h ep a p e rf i r s t l y i n t r o d u c et h ec o n c e p t i o no fc h i n e s et e x t s e g m e n t a t i o n 、t h ea i m 、t h et e c h n o l o g y 、a n dt h ed i f f i c u l t y s e c o n d l y ,f o c u so ns t u d y i n go n e m e t h o do fc h i n e s et e x ts e g m e n t a t i o nb a s e do nn o n _ d i c t i o n a r y , w h i c hf o l l o wa f t e ri t s t e c h n o l o g y a n dd e v e l o p m e n t ,t h a ti sl - s to r d e rh i d d e nm a r k o vm o d e l ( h m m ) a c c o r d i n gt ot h em a x i m u ml i k d i h o o dp r i n c i p l e ,a n da n a l y s ei t ,a tt h es a n l et i m e i n t r o d u c eas e l f - i n c r e a s i n ga l g o r i t h mt oa c q u i r et h ec o o c c u t r c n c ep a t t e m so f c h i n e s e c h a r a c t e r s ,i no r d e rt os o l v et h ep r o b l e mo ft h ei n i t i a lv a l u eo fu n k n o w np a r a m e t e r s o f t h em o d e l k e y w o r d :c h i n e s ei n f o r m a t i o np r o c e s s i n g ;w o r ds e g m e n t a t i o n ;c h i n e s et e x t s e g m e n t a t i o nb a s e do nn o n _ d i c t i o n a r y ;p r o b a b i l i t ym o d e l ;p a t t e r n sa c q u i s i t i o n i i 南京邮电学院学位论文独创性声明 本入声明所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谓 的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得南京邮电学院或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 研究生签名: 日期 南京邮电学院学位论文使用授权声明 南京邮电学院、中国科学技术信息研究所、国家图书馆有权保留 本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其 他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一 致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权 南京邮电学院研究生部办理。 研究生签名: 一导师签名:日期 南京邮电学院硕士研究生学位论文 第一章绪论 1 - 1 论文研究背景与意义 随着计算机技术的飞速发展,计算机已经成为辅助人类认识和改造世界最 为强大的工具之一,自出现那一天起至今,帮助人们完成了许多自身难以完成 的工作,使人类社会在这一段时期里获得了比以往任何时期都要快的发展。相 信在可以预见的未来,计算机对人类发展的重要辅助作用还将继续。 为了让计算机能完成人类所赋予的各项任务,一个首要的问题就是人和计 算机的通信问题,即如何把人类希望计算机完成的任务告诉计算机,以及计算 机在完成任务后又如何把结果告诉人们。 人机通信经过了几个时期,编写二进制代码、汇编代码、高级语言、第四 代语言,人类为了与计算机进行通信,创造了一系列人工语言。为了和计算机 进行通信,人类付出了许多的努力。在人类使用工具的历史长河中,人类还从 来没有为了和自己创造的工具进行交流而如此屈尊过;如此为了使用这种工具 而使自己向这种工具靠拢。人机矛盾、人因为工具而产生的异化在这里表现得 异常突出。 但是也可以看出,所有这些不断发展新人工语言的努力,正在让人类在使 用计算机时离计算机远一些,而离人类本身更近一些。然而,我们知道,人类 表达自己思想最方便、最自然的方式是利用人类自身的语言各种自然语言: 人与人之阳j 交流观点、传播消息最方便、最自然的方式也是利用自然语言。因 此,最自然的人机通信不应该是任何人工语言,而应该是自然语言。 要使计算机与人能通过自然语言进行通信,就要使计算机能够理解和运用 自然语言。早在计算机发明不久,人们就开始了这个方面的尝试,自然语言处 理( n p l ) 作为人工智能的一个分支,就是几十年来人们在这个方向不断努力 的产物,是计算机技术和人工智能理论迅速发展的产物,是人们用形式的研究 方法研究自然语言的产物。 从某种意义上来说,自然语言处理技术提供了一个解决人机异化问题的技 南京邮电学院硕士研究生学位论文 术上的解决方案:计算机直接处理自然语言,无需人去适应机器。这将是一个 更自然、消除了异化的人机环境,计算机将能帮助人类完成更多的工作。 自然语言理解的发展包括三个方面:( 1 ) 自然语言的表述和处理模式:( 2 ) 自然语言知识的表示、获取和学习:( 3 ) 研制开发自然语言的应用系统。就中 文而言,由于其深厚的文化底蕴以及与西方语言的不同,中文的自动理解需要 形成一套与西方文字理解相区别的系统。中文处理与西文相比的一个明显的不 同是汉语没有词与词的显式分隔符。 词是“最小的能独立运用的语言单位”。计算机对中文信息的处理,从最底 层的键盘、语音和字符识别等各类汉字输入方法,到最高层的各种汉语理解系 统,都不可能完全摆脱汉语文本分词处理的困扰川。分词问题已成为当前中文 信息处理的一个热点和难点。 1 2 本论文研究目的及内容 中文分词的研究大多数研究工作者着重于基于词库( 或词典) 的分词方法, 对基于无词库的分词方法的研究很少。基于词库的分词方法如m m 、r m m 等, 是基本的分词方法,但由于词典的完备性和可靠性对分词精度的影响,如词典 不可能收集所有词( 新词的识别问题突出) 、歧义处理等,不论分词算法多先进, 分词精度提高不是很大。无词库分词结合上下文识别生词、自动消除歧义的优 点使许多研究者和学者着手开始了基于无词库的中文分词的研究,以期望能够 进一步提高分词精度以及分词的准确率。 本文针对中文分词及其技术问题,重点研究了一种基于无词库的中文分词 方法即一阶马尔可夫模型和一种训练模型的有效算法,同时给出一个无词库抽 词方法以解决模型未知参数初值问题。 本论文共分为五章。第一章绪论:第二章分词综述,主要介绍了中文分词 的概念、中文分词系统的目标、中文分词技术已经分词中的难题。中文分词的 技术部分阐述了中文分词现有的三大类算法:基于字符串匹配的分词方法、基 于理解的分词方法和基于统计的分词方法。中文分词从最初的人工分词发展到 机器分词即自动分词,是现代信息处理发展的必然要求。中文自动分词已经经 历了二十多年的发展历程。中文分词面临的难题,主要是分词标准问题、歧义 识别和未登录词识别问题以及分词理解的先后问题。 2 南京邮电学院硕士研究生学位论文 第三章和第四章是本论文的重点。第三章基于无词库的中文分词,首先对 无词库的中文分词概况进行分析,接着对基于无词库的切分思想和切分方法进 行了研究和探讨。第四章无词库抽词方法,在对无词库抽词的基本思想进行阐 述的基础上,研究了根据汉字结合模式进行抽词的方法。 相信本论文的理论研究将会对中文分词的研究以及中文信息处理的研究起 到积极的推动作用。 3 南京邮电学院硕士研究生学位论文 第二章分词综述 2 1 中文分词的概念 分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。众所 周知,在英文的书写中,单词之间是以空格作为自然分界符的。然而在中文书 面语中,只是字、句和段可以通过明显的分界符来简单划界,唯独词没有个 形式上的分界符。虽然英文也同样存在短语的划分问题,但是在词这一层上, 中文比之英文要复杂的多、困难的多。 例如,英文句子“h ei sat e a c h e r ”,用中文表达则为:“他是一名教师”。 对英文句子,计算机可以很简单通过空格知道t e a c h e r 是一个单词,但是不能很 容易明白中文句子中的“教”、“帅”两个字含起来才表示一个词。 把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为分词。 “他是名教师”的分词结果是:“他是一名教师”。 中文分词是对汉语文本进行自动分析的第一个步骤。可以这样设想中文分 词的困难:如果把某个英语文本中的所有空格符都去掉,然后让计算机自动恢 复文本中原有的空格符,这就是识别过程,此过程的一个主要问题是对大量歧 义现象的处理。 汉语同英语不一样,英语文本是小字符集上的词串,汉语文本是大字符集 上的字串。因此,汉语处理与英语处理不同,多了大字符集处理和字串到词串 处理这两大块任务。汉字编码和输入方法的研究,是为了解决大字符集的问题。 把字串分隔成词串,就是分词系统需要做的工作。 分词体现了中文和英文的显著的不同。英文是小字符集上的己充分分隔开 的词串,而中文是大字符集上的连续字串。把字串分隔成词串,就是自动分词 系统需要做的工作。 词是最小的、能独立活动的、有意义的语言成分e i 。计算机的所有语言知 识都来自机器词典( 给出词的各项信息) 、句法规则( 以词类的各种组合方式来 描述词的聚合现象) 以及有关词和句子的语义、语境、语用知识库。中文信息 d 南京邮电学院硕士研究生学位论文 处理系统只要涉及句法、语义( 如检索、翻译、文摘、校对等应用) ,就需要以 词为基本单位。有些应用,如简体汉字到繁体汉字的转换,汉字的印刷体或手 写体的识别,汉语文章的自动朗读( 即语音合成) 等等,似乎只是字处理的问 题,其实还是要使用词的信息。以简繁转换为例,简体字同繁体字的对应关系, 虽然大多数是一一对应的,但有一些字,特别是一些常用字,是一个对应多个。 比如“干”的繁体形式有“干”、“乾”、“斡”三种。用于“干支”时,仍 为“干”,用于“干燥”的意思时用“乾”,用于“干部”、“干活”、“主干”等 意思时用“斡”。分词以后在词的层面上做简繁转换,转换的确定性就大大提高 了。 从字符串到词串是一个降低不确定性的过程。如信息检索,如果不切词( 按 字检索) ,当检索“华人”时会把“中华人民共和国”检索出来,而检索“和服” 时会把“制造业和服务业”检索出来。检索“人为”时,可能输出结果“人为 因素”、“人为什么活着”、“以人为本”,等等。词汇分析是许多n l p ( 自然语 言处理) 应用系统的基础。 从字符串到词串存在着不确定因素。例如, 1 、学生会组织球赛。 切分:学生会组织球赛。 学生会组织球赛。 2 、你认为他不看重大件事吗? 切分:你认为他不看重大事件吗? 你认为他不看重大事件吗? 分词以后在词的层面上进行处理,处理的确定性就大大提高了。在更高一 级的文本处理中,例如句法分析、语句理解、自动文摘、自动分类和机器翻译 等,更是少不了词的详细信息。 目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一 段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这 道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个 应用。其他的比如机器翻译( m t ) 、语音台成、自动分类、自动摘要、自动校 对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时 也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先 也是要解决中文分词问题。在中文研究方面,相l t # l 国人来说,中国人有十分 明显的优势。 中文分词主要应用于以下几个方面: 5 南京邮电学院硕上研究生学位论文 l 、汉语语言理解:理解是以词而不是以字为基础的。现在汉字处理技术已 经达到实用化,但汉语理解技术尚处于试验阶段,采用的方面的方法也基本是 英语语言理解方法。但汉语和英语是两种差别极大的语言,必须下功夫探索适 合汉语特点的语言理解技术。自动分词是首先要解决的一个问题。 2 、计算机系统的汉语接口:系统软件、统计处理系统、各种数据库系统、 各种人工智能系统,等等。这种种系统的使用目前尚停留在“格式化格式”阶 段,亦即人们只有熟悉了一个系统的形式命令之后,才能使用该系统,一个良 好的汉语人机接口是建立在汉语理解技术基础之上,从而也与自动分词密切相 关。 3 、机器翻译:基于理解的翻译是机器翻译的发展方向。国外在这方面已有 一些成功的例子。国内关于机器翻译的研究工作也正在展开,自动分词的研究 与其息息相关。 4 、情报检索:中文文献的内容分析、自动标引、自动编索引、自动编文摘、 汉语查询的自动构造和修改等问题都涉及自动分词。关于情报检索中的自动分 词,已经有许多人进行研究。 5 、语言文字自动处理:词频统计、词结构分析、编制词索引、句型识别、 统计和分析等问题都与分词有关。 6 、人工智能和知识工程:汉语自动分词是一个与汉语语言理解具有同等难 度的问题,它涉及了知识表示、知识获取、启发式推理、尝试性推理等一系列 基本理论问题。实际上,一个比较好的自动分词系统本身就是一个知识系统。 7 、智能计算机:智能人机接口是智能计算机的三大核心组成部分之一。汉 语智能人机接口的研制首先要考虑自动分词问题。 8 、汉语语言学:自动分词问题的研究对汉语构造词法、句法学、语义学、 篇章分析等领域都产生不同程度的影响,对传统的汉语语言学理论体系也会产 生冲击。实际上,关于词与非词的区分方法一直是汉语语言学家们探讨的问题。 9 、认知心理学:关于英语语言理解的认知模型,国外已经做了许多深入的 研究。在实际语占理解系统的建造中,也成功地使用了认知方法。由于汉语语 言中有此问题,其认知模型与英语语言理解的认知模型必然有所不同。不同之 处到底在哪罩? 从心理学的观点看,分词与理解的关系如何? 这方面的研究将 有助于我们探索适合汉语特点的理解方法和技术。 - 6 南京邮电学院硕_ 上研究生学位论文 2 2 分词系统的目标 中文分词系统为适应信息处理的要求要达到的水平,即准确、高效、通用 及适用。 1 、准确性 准确率是分词系统性能的核心指标。现在有些分词系统的准确率达到9 8 一9 9 ,似乎已经是很高了,其实不然。这种分词系统若被用来支持汉外机器 翻译系统,假定平均每句话有1 0 个汉语词,那么1 0 句话中会错切1 2 个词, 含有错切词的1 2 句就不可能翻对。于是仅仅由于分词系统的准确度不够,汉 外翻译系统的翻译准确率就会减少1 0 一2 0 个百分点。进一步看,自动分词更大 的作用是对大规模语料库进行加工,为上层的应用系统提供统计数据和知识。 分词错误会在这些统计结果中积累起不可忽视的“垃圾”,从而给上层应用系统 带来更为严重的影响。由此可见,分词系统的准确率应达到9 9 9 以上才能基 本满足上层使用的要求,或者说,提高千分之一的准确度都是非常有意义的。 2 、运行效率 分词是各种汉语处理应用系统中共同的、基础性的工作,这步工作消耗的 时间应尽量少,应只占上层处理所需时间的一小部分,并应使用户没有等待的 感觉,在普遍使用的平台上大约每秒钟处理l 万字或5 千词以上为宜。 3 、通用性 随着i n t e r n e t 的普遍应用,中文平台的处理能力不能仅限于我国,仅限于字 处理,仅限于日常应用领域。作为各种高层次中文处理的共同基础,自动分词 系统必须具有很好的通用性。 1 ) 自动分词系统应支持不同地区( 包括我国的香港、台湾、澳门,以及新 加坡和美洲、欧洲、澳洲的华语社区) 的汉语处理: 2 ) 自动分词系统应能适应不同地区的不同用字、用词,不同的语言风格, 不同的专名构成方式( 如港澳台地区一些妇女名前冠夫姓,外国人名地名的汉 译方式与我国人名地名很不一样) 等: 3 ) 自动分词系统应能支持不同的应用目标,包括各种输入方式、简繁转换、 语音合成、校对、翻译、检索、文摘等等:支持不同领域的应用,包括社会科 学、自然科学和技术,以及日常交际、新闻、办公等等; 4 ) 应当同现在的键盘输入系统一样成为中文平台的组成部分。为了做到足 够通用叉不过分庞大,必须做到在词表和处理功能、处理方式上能灵活组合装 7 南京邮电学院硕士研究生学位论文 卸,有充分可靠和方便的维护能力,有标准的开发接口。同时,系统还应该具 有良好的可移植性,能够方便地从一个系统平台移植到另一个系统平台上而无 需很多的修改。当然,完全的通用性很难达到。 4 、适用性 汉语自动分词是手段而不是目的,任何分词系统产生的结果都是为某个具 体的应用服务的。好的分词系统具有良好的适用性,可以方便地集成在各种各 样的汉语信息处理系统中。 2 3 中文分词技术 中文分词从最初的人工分词发展到机器分词即自动分词,是现代信息处理 发展的必然要求。自动分词是指利用计算机把等具距排列的汉字字符序列按词 切分开来,打上区分标志,使得汉字字符串序列转换成词序列。 中文分词技术属于自然语言处理技术范畴,是语义理解过程中最初的一个 环节,它将组成语句的核心词提炼出来供语义分析模块使用。在分词的过程中, 如何能够恰当地提供足够的词来供分析程序处理,并且过滤掉冗余的信息,这 是后期语义分析的质量和速度的重要前提。对于一句话,人可以通过自己的知 识来判断哪些是词,哪些不是词,但如何让计算机也能理解? 其处理过程就称 为分词算法。 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的 分词方法和基于统计的分词方法。 1 、基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与 一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串则 匹配成功( 识别出一个词) 。按照扫描方向的不同,串匹配分词方法可以分为正 向匹配和逆向匹配:按照不同长度优先匹配的情况,可以分为最大( 最长) 匹 配和最小( 晟短) 匹配;按照是否与词性标注过程相结合,又可以分为单纯分 词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下: ( 1 ) 正向最大匹配法( 由左到右的方向) :这是最早提出的自动分词方法, 由苏联学者在六十年代研究汉俄机器翻译时提出,它的基本思想是先取一句话 的前六个字查词典,若不是一个词,则删除六个字中的最后一个,然后再查词 典,这样下去一直到找到一词为止,对句子剩余部分重复此工作,宜到把所有 8 南京邮电学院倾士研究生学位论文 词分出为止。 ( 2 1 逆向最大匹配法( 由右到左的方向) :这种方法和正向最大匹配法思想 一样,不同之处在于它是从句子的最后六个字开始切分,每次匹配不成功时, 去掉汉字前面的一个字。反向最大匹配法对交集型歧义字段处理精度比正向最 大匹配法略高。 f 3 ) 最少切分( 使每句中切出的词数最小) 。 还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向 最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,j 下向最小 匹配和逆向最小匹配一般很少使用。般说来,逆向匹配的切分精度略高于正 向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错 误率为1 1 6 9 ,单纯使用逆向最大匹配的错误率为1 1 2 4 5 。但这种精度还远远不 能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段, 还需通过利用各种其它的语言信息来进一步提高切分的准确率。 一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符 串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串 分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词 和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注 过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。 对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论 文,这里不做详细论述。 2 、基于理解的分词方法 这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。 其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息 来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控 部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语 义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方 法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以 将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统 还处在试验阶段。 3 、基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现 的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够 较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行 9 南京邮电学院硕卜研究生学位论文 统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字x 、y 的 相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高 于某一个闽值时,便可认为此字组可能构成了一个词。这种方法只需对语料中 的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词 方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是 词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且 对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部 基本的分词词典( 常用词词典) 进行串匹配分词,同时使用统计方法识别一些 新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率 高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。 目前,国内已经公开报道的中文分词系统以及采用分词技术主要有: 1 、几个早期的自动分词系统及其技术 c d w s 分词系统是我国第一个实用的自动分词系统,它采用的自动分词方 法为最大匹配法,辅助以词尾字构词纠错技术。其切分精度约为1 6 2 5 ,基本满 足了词频统计和其他一些应用的需要。这是汉语自动分词实践的首次尝试,具 有很大的启发作用和理论意义。 a b w s 的自动分词系统,使用的分词方法称为“两次扫描联想回溯”方法, 用联想回溯来解决引起组合切分歧义。系统词库运用了较多的词法、句法等知 识。其切分正确率为9 8 6 ( 不包括非常用、未登录的专用名词1 。 c a s s 分词系统。它使用的是一种变形的最大匹配方法,即正向增字最大 匹配。它运用知识库来处理歧义字段。 书面汉语自动分词专家系统,它首次将专家系统方法完整地引入到分词技 术中。系统使知识库与推理机保持相对独立,知识库包括常识性知识库( 词条 的词类2 4 种、歧义词加标志及其消除规则编号、消歧的部分语义知识,使用关 联网络存储) 和启发性知识库( 消歧产生式规则集合,用线性表结构存储) ,词 典使用首字索引数据结构。通过引入专家系统的形式,系统把分词过程表示成 为知识的推理过程,即句子“分词树”的生长过程。据报道,系统对封闭原料 的切分精度为9 9 9 4 ,对丌放语料的切分精度达到9 9 8 。这些性能代表了当 时的一流成就。 2 、s e g 分词系统 此系统提供了带回溯的正向、反向、双向最大匹配法和全切分评价切分算 法,由用户来选择合适的切分算法。其特点则是带修剪的全切分评价算法。系 统考虑到了切分盲点的问题( 某些字串永远不会被某种分词方法匹配出来) ,由 - 1 0 南京邮电学院硕上研究生学位论文 此提出了全切分的概念,即找出输入字串的所有可能的子串,然后利用某种评 价方法从所有这些可能的子串中选出最佳子串序列作为分词结果。为了解决全 切分所带来的组合爆炸问题,又引进了对全切分过程进行修剪的方法,强制性 地截止某些全切分的进行。用户在使用时,对于歧义较少的语料,可采用正向 或反向最大匹配法;对于有较多交叉歧义的语料,可使用双向最大匹配法;对 于其它歧义较大的语料,则采用全切分评价算法,并需要采用一个合适的评价 函数。由于对具体语料的统计参数设置了不确切初值,全切分评价算法在第一、 二遍切分过程中的正确率较低,随着切分的多遍进行,评价函数逐渐得以矫正, 系统的切分精度逐步得以提高。 3 、s e g t a g 系统 此系统着眼于将各种各类的信息进行综合,以便最大限度地利用这些信息 提高切分精度。系统使用有向图来集成各种各样的信息,这些信息包括切分标 志、预切分模式、其他切分单位。为了实现有限的全切分,系统对词典中的每 一个重要的词都加上了切分标志,即标志“c k ”或“q k ”。“q k ,标志表示该词 可进行绝对切分,不必理会它是否产生切分歧义;“c k ”标志表示该词有组合歧 义,系统将对其进行全切分,即保留其所有可能的切分方式。系统通过这两种 标志并使用几条规则以实现有限的全切分,限制过多的切分和没有必要的搜索。 规则包括: ( 1 ) 无条件切出q k 类词; ( 2 ) 完全切分c k 类词( 保留所有可能子串) ; ( 3 ) 对没有标记( q k 或c k ) 的词,若它与别的词之间存在交叉歧义,则作全 切分;否则将其切出。 为了获得切分结果,系统采用在有向图d a g 上搜索最佳路径的方法,使 用一个评价函数系统e v a l u a t ep a t h ) ,求此评价函数的极大值而获得最佳路 径p m a x 。所运用的搜索算法有两种,“动态规划”和“全切分搜索+ 叶子评价”, 使用了词频、词类频度、词类共现频度等统计信息。 4 、国家语委文字所应用句法分析技术的汉语自动分词 此分词模型考虑了句法分析在自动分词系统中的作用,以更好地解决切分 歧义。切词过程考虑到了所有的切分可能,并运用汉语句法等信息从各种切分 可能中选择出合理的切分结果。其过程由两步构成:一、对输入字串进行处理, 得到一个所有可能的切分字串的集合,即进行( 不受限的) 全切分:二、利用 句法分析从全切分集合中将某些词选出来,由它们构成合理的词序列,还原为 原输入字串。系统使用一个自由传播式句法分析网络,用短语文法描述句法规 南京邮电学院硕士研究生学位论文 则,并将其表示为层次化网络图,通过此网络的信息传递过程来进行选词。网 络的节点分为词类节点( 终结符节点) 和规则类节点( 非终结符节点) 。词类节 点保存词的信息;规则类节点对信息进行合并和句法、语义分析,生成新的信 息,并将本节点的信息传递出去( 也就是用文法产生式进行归约,并进行属性 计算作者注) 。网络运行的初态是所有节点状态为n o ,各种可能切分的字串进 入响应相应的词类节点( 终结符节点) ,然后开始运用文法进行计算。当网络的 最高层节点s ( 文法起始符号) 达到稳定状态o k 时,计算结束,在最高节点处 输出最后的切分结果。 从一般的角度来看,应用句法分析技术进行切词的方法是一种“生成一测试” 方法,它是一种常用的a i 问题求解方法,包括两个步骤:生成步找出所有可 能的解( 假设) ;测试步对各个假设进行检验,找出合格者。在应用句法分析 进行切词时,其测试步是使用汉语的句法规则检验某种切分结果是否构成合法 的汉语句子。这样可以将句法分析理论的各种成果用于切词之中,有多种句法 分析技术可以应用,常见的是a t n 分析、c y k 分析( c h a r t p a r s i n g ) 、g l r 分析 等。可以将这种方法称做“切词句法分析一体化”方法。随着软硬件水平的不 断提高,直接运用时空消耗比较大的句法分析来检查分词结果的方法正在同益 显现其优越性。 5 、一种双向匹配分词系统 此系统由四个模块构成。 预处理模块,利用特殊的标记将输入的文本分割成较短的汉字串,这些标 记包括标点符号、数字、字母等非汉字符,还包括文本中常见的一些字体、字 号等排版信息。一些特殊的数词短语、时间短语、货币表示等,由于其结构相 对简单,即由数词和特征字构成构成,也在本阶段进行处理。为此系统特别增 加一次独立的扫描过程来识别这些短语,系统维护一张特征词表,在扫描到特 征字咀后,即调用这些短语的识别模块,确定这些短语的左、右边界,然后将 其完整地切分开; 歧义识别模块,使用j 下向最小匹配和逆向最大匹配对文本进行双向扫描, 如果两种扫描结果相同,则认为切分正确,否则就判别其为歧义字段,需要进 行歧义处理; 歧义字段处理模块,此模块使用构词规则和词频统计信息来进行排歧。构 词规则包括前缀、后缀、重叠词等构词情况,以及成语、量词、单字动词切分 优先等规则。在使用规则无效的情况下,使用了词频信息,系统取词频的乘积 最大的词串作为最后切分结果; - 1 2 南京邮电学院硕士研究生学位论文 最后,此系统还包括一个未登录词识别模块,以解决未登录词造成的分词 错误。未登录词和歧义字段构成了降低分词准确率的两大因素,而末登录词造 成的切分错误比歧义字段更为严重,实际上绝大多数分词错误都是由未登录词 造成的。系统对中文姓氏进行了自动识别,它利用了中文姓名的用字规律、频 率,以及姓名的上下文等信息。通过对十万以上的中文姓名进行抽样综合统计, 建立了姓氏频率表和名字用字频率表,由此可获得任意相邻的二、三个单字构 成姓氏的概率大小和某些规律,再利用这些字串周围的一些称谓、指界动词和 特定模式等具有指示意义的上下文信息,对字串是否构成姓名进行辨别。 6 、统计分词系统 该系统是一种典型的运用统计方法的纯切词系统,它试图将串频统计和词 匹配结合起来。 系统由三个部分构成: 预处理模块,利用显式和隐式的切分标记( 标点符号、数字、a s c i i 字符 以及出现频率高、构词能力差的单字词、数词+ 单字常用量词模式) 将待分析的 文本切分成短的汉字串,这大大地减少了需要统计的( 无效) 字串的数量和高 频单字或量词边界串; 串频统计模块,此模块计算各个已分开的短汉字串中所有长度大于l 的子 串在局部上下文中出现的次数,并根据串频和串长对每个这样的予串进行加权, 加权函数为( f 为串频,l 为串长,即串中汉字个数) 。根据经验,局部上下 文中取为2 0 0 字左右。局部上下文的串频计算使用一个滑动窗口( 为一个队列 式缓冲区,保存当前待切分汉字串及其前后2 0 个短串) ,当当前待切分汉字串 处理完之后,窗口下移一个短串( 中心变为相邻下一个短串) 。系统采用一个外 散列表来记录窗口中的短串,以加快窗口中串频计数。散列函数取为汉字的 g b 8 0 位码( 二级汉字共用入口9 5 ) ,每个桶中保存窗口中每一行( 短串) 上 的汉字位置:( 短串的行号,汉字列号) ,并且对于在窗口中出现多次的汉字位 嚣用一个链指针连接起来,则计算某个字串在窗口中出现的频度时,不必将该 字串与窗口中的短串逐个匹配,而只需统计在该字串中的各个汉字所对应的位 置链表中能够相邻的位置的序列的个数即可。此外,还需要根据词缀集( 前、 后缀集合) 对字串的权值进行提升,例如“处理器”中“处理”的权值很高, 但由于对“处理器”的权值作了提升( 达到或超过了“处理”) ,就不会切成“处 理器”。如果某个汉字串的权值超过某一阈值d ( 取为4 0 ) ,则将此汉字串作 为一个新识别的词,将其存入一临时词库中; 切分模块,首先用临时词库对每个短的汉字串进行切分,使用的是逐词遍 一1 3 南京邮电学院硕士研究生学位论立 历算法,再利用一个小型的常用词词典对汉字短串中未切分的子串进行正向最 大匹配分词。对于短汉字串中那些仍未切分的子串,则将所有相邻单字作为一 个权值很低的生词( 例如“玛”、“莉”) 。其中每个模块都对待分析的文本进行 了一次扫描,因而是三遍扫描方法。此系统能够利用上下文识别大部分生词, 解决一部分切分歧义,但是统计分词方法对常用词识别精度差的固有缺点仍然 存在( 例如切出“由来”、“语用”、“对联”等) 。 7 、一种改进的m m 分词系统 考虑到汉语的歧义切分字段出现的平均最大概率为l 1 1 0 ,因而纯机械分词 的精度在理论上能够达到1 1 1 1 0 = 9 9 1 。那么是否还有更一般、精度更高的机 械分词系统呢? 根据统计,汉语的局部( 词法一级) 歧义字段占了全部歧义的 8 4 ,句法歧义占1 0 ,如果提高系统处理这两类歧义的准确率,则可以大幅 度提高切分精度。这方面的改进导致了改进的m m 分词算法。将其阐述如下。 通过对交叉歧义字段的考察,发现其中8 0 以上可以通过运用一条无需任 何语言知识的“归右原则”( 交叉歧义字段优先与其右边的字段成词) 就可以获 得正确切分,一这是因为在多数情况下汉语的修饰语在前、中心词在后因而 “归右”好于“归左”。“归右原则”可以使机械分词的精度上升到9 9 7 0 。 这种考察给出了鼓舞人心的结果,有可能使机械分词系统达到这样的理论精度。 不过“归右原则”还有需要修正的地方,既对于“连续型交叉歧义”会发 生错误,需要补充一条“左部结合”原则:若a b c d e 为连续型交叉歧义字段, ”归右原则”产生切分a bc de 再由”左结合原则”( 合并最左边的a 、b ) 而 得到a b c d e 。 例如“结合成分子”,“结合成分子”“结合成分子”。但是仍然 还有例外,例如“当结合成分子时”一 “当结合成分子时”;为此引入“跳 跃匹配”,在词典中定义“非连续词”( 实际上为串模式作者注) “当t 时”,然 后在切分时首先分出”当结合成分子时”,然后再用“归右+ 左结合”切分中间 的歧义字段。 综合以上思想,就建立了如下改进的m m 分词算法: 正向扫描 + 增字最大匹配( 包括“跳跃匹配非连续词”) + 词尾歧义检查( 逐次去掉首字做m m 匹配以发现交叉歧义字段) + ”归右原则”( 对于“连续型交叉歧义”还需要“左结合原则”) 。 系统的词典采用一级首字索引结构,词条中包括了“非连续词”( 形如c i “ + c n ) 。 1 4 南京邮电学院硕士研究生学位论文 8 、n l p w i n 汉语句法分析器中的自动分词 据报道,n l p w i n 的语法分析部分使用的是种双向的c h a r t p a r s i n g ,使用 了语法规则并以概率模型作导向,并且将语法和分析器独立开。 n l p w i n 中文部分的一个特点是将词的切分同句法分析融合起来,即是一 种前面提到过的“切词一句法分析一体化”方法:在其匹配切词阶段保留所有可 能的切分结果( 包括歧义切分) ,然后在句法分析阶段使用汉语的句法规则判断 切分的合理性,如果对句子的某种切分能够成功地建立起完全的句法树,则表 示该切分结果是正确的。对于有上下文及语用歧义的歧义切分字段,系统将生 成两棵以上的分析树( 可以使用某种标准进行排序) 。 其中使用的技术有:消除所有导致词典中没有对应词条的单字的切分;为 词典中的每一个词条增加一项“a t o m i c ”属性( 为l 表示不需要分析其内部字 串,为0 表示需要保留其内部的切分,即是一种组合歧义标志一作者注) ;以及 为每个词增加l e f l c o n d l 、r i g h t c o n d l 、l e f t c o n d 2 、r i g h t c o n d 2 四类字符集合 ( 前两项表示歧义绝对生效,后两项表示歧义有比较高的可能性生效,即歧义 的直接前后文一作者注) :还包括一些排歧规则( 例如对于连续型歧义字段 a b c d ,如果a b 和c d 不与前后词交叉、a 或d 是名词、a b c 和b c d 都不是 词,则切分出a bc d :”昨天下午”一 ”昨天下午”) 。 2 4 分词中的难题 从8 0 年代起,很多学者、专家致力于汉语书面语的自动分词【3 】取得了不 少可用的分词系统,但在实用的过程中,又遇到不少新问题【3 】。例如人名、地 名、企业名、新词等未登录词6 ”。 有了成熟的分词算法,是否就能容易的解决中文分词的问题昵? 事实远非 如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。汉语分 词所面临的困难可以从如下四方面来考察: 1 、汉语词的概念 汉语分词的首要困难是词的概念不清楚。书面汉语是字的序列,词之间没 有间隔标记,使得词的界定缺乏自然标准。 一是核心词表问题。分词需要有一个核心词表,凡在该词表中的词,分词 时就应该切分出来。哪些词应当收进核心词表呢? 信息处理用现代汉语分词 规范( g b l 3 7 1 5 ) 用“结合紧密,使用稳定”的条件来限定,但这种条件本身 1 5 - 南京邮电学院硕上研究生学位论文 难以操作。对于“琵琶”、“沙发”、“造次”这样的字序列,没有人怀疑它们是 一个不能切开的整体。对于“人民”、“计算”、“兴奋”、“忽然”、“所以”等字 序列,绝大多数人也认为不能切开。但是,对于“鸡蛋”、“鸭蛋”、“龟蛋”、“鸵 鸟蛋”,“铁路”、“公路”、“水路”、“海路”、“土路”、“大路”、“小路”,“打倒”、 “卧倒”、“拜倒”、“拉倒”、“推倒”、“摔倒”、“踢倒”、“跪倒”、“昏倒”等等, 其中哪些是应收进核心词表的词,哪些是单字词组成的短语,就很有分歧了。 有人提出把“互信息”和词频、词长等因素结合起来决定是否把某词收入词表, 但尚无合理的可操作的理论。 二是动词和形容词的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大唐电力盘锦市2025秋招采矿工程专业面试追问及参考回答
- 湘潭市中石油2025秋招面试半结构化模拟题及答案油气储运与管道岗
- 国家能源凉山自治州2025秋招面试专业追问及参考电气工程岗位
- 中国广电天水市2025秋招笔试行测题库及答案互联网运营
- 中国移动汕头市2025秋招笔试题库含答案
- 茂名市中石油2025秋招笔试模拟题含答案市场营销与国际贸易岗
- 国家能源惠州市2025秋招心理测评常考题型与答题技巧
- 临沂市中石化2025秋招笔试模拟题含答案财务与审计岗
- 国家能源宿迁市2025秋招机械工程类面试追问及参考回答
- 国家能源南平市2025秋招心理测评常考题型与答题技巧
- 上肢静脉血管超声检查规范与应用
- 2025年职业指导师(二级)专业能力职业素养提升辅导策略实务策略试卷
- 2025 精神科护理抑郁患者干预医学查房课件
- 2025年汽车驾驶员(技师)考试题库及答案
- 遵义介绍课件
- 播音主持重音的教学课件
- 2025年辽宁省公安招聘辅警考试试卷及答案
- 2025年福建省选调生考试综合知识真题解析试卷
- 飞书软件使用培训
- NSM安全管理体系培训
- 新解读《HJ 1249 - 2022排污单位自行监测技术指南 储油库、加油站》新解读
评论
0/150
提交评论