(计算机软件与理论专业论文)汉语语音处理系统中自动分词的研究与实现.pdf_第1页
(计算机软件与理论专业论文)汉语语音处理系统中自动分词的研究与实现.pdf_第2页
(计算机软件与理论专业论文)汉语语音处理系统中自动分词的研究与实现.pdf_第3页
(计算机软件与理论专业论文)汉语语音处理系统中自动分词的研究与实现.pdf_第4页
(计算机软件与理论专业论文)汉语语音处理系统中自动分词的研究与实现.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机软件与理论专业论文)汉语语音处理系统中自动分词的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着人机通信研究的不断深入,语音合成技术越来越受到各国学者们的关 注。语音合成系统要想提高其合成的语音的自然度,关键的第一步就是汉语自 动分词问题。汉语自动分词是中文信息处理中的重要课题,国内外的许多学者 在自动分词领域进行了富有成效的工作,但是,在提高分词精度的问题上仍然 存在着很大的困难。 汉语自动分词,首先必须就影响汉语分词精度的语言现象做针对性的研究, 从本质上把握问题;其次,就是对分词算法进行有效的设计改进,提高其分词 能力;最后要对分词过程中的信息和分词后的处理进行深入的研究。 本文对自动分词问题做了全面的分析研究,分析比较了当前主流分词算法 的特点,介绍了目前比较成熟的几个分词系统,详细阐述了自动分词问题的难 点之一一歧义切分的起源和处理方法;最后详细说明了根据语音输出的实际 需要设计的分词系统的分词词典以及自动分词系统的具体设计和实现。实验表 明,所实现的系统在分词的准确率和歧义切分等方面了都获得了较好的结果。 关键词:自动分词、交集型歧义、组合型歧义、歧义切分、词典 a b s t r a c t a b s t r a c t n o wm a n yr e s e a r c h e r sp a ym o r ea t t e n t i o nt ot h et e x t - t o - - s p e e c ht e c h n o l o g y i f t h e yw a n tt og e tb e t t e rs o u n d s ,t h ek e yi sc h i n e s ea u t o m a t i cw o r d s e g e m e n t a t i o n c h i n e s ea u t o m a t i cw o r ds e g m e n t a t i o ni st h ef u n d a m e n t a l t a s ko f t h e c h i n e s ei n f o r m a t i o np r o c e s s i n g m a n yr e s e a r c h e r sh a v ep u tf o r w a r dm a n ym e t h o d s o nt h i st o p i ci nt h ep a s ty e a r s b u ti nt h ei s s u eo f i m p r o v i n gt h ep e r f o r m a n c eo f t h e a m b i g u i t yr e c o g n i t i o na n ds e g m e n t a t i o n ,w es t i l lh a v em a n yh u g ep r o b l e m s a c c o r d i n gt o0 1 2 1 r e s e a r c h ,w ef i r s t l y , b e l i e v et h ei m p o r t a n c et h a tt h er e s e a r c h p e r t i n e n t t ot h e l i n g u i s t i cp h e n o m e n o n sw h i c hw o r k so nt h es e g m e n t a t i o n p r e c i s i o n ,s ot h a tw ec a r lh a v eag o o du n d e r s t a n d i n go nt h ev e r ye s s e n c eo ft h e p r o b l e mw h o l l y s e c o n d l y , t h ed e s i g no f t h ea l g o r i t h m ,w ef o c u so nt h ee n h a n c i n go f c o m p u t i n ga b i l i t yo ft h es e g m e n t a t i o na l g o r i t h m a n da l s ow eg i v ea ni n t e n s i v e c o n s i d e r a t i o no nh o wt ow o r kw i t ht h ei n f o r m a t i o nd u r i n gt h ep a r s i n gc o u r s ea n d a f t e rt h ec o u r s e t h i sp a p e rs t u d y st h ep r o b l e m so fc h i n e s ea u t o m a t i cw o r ds e g e m e n t a t i o n ,a n d a n a l y s e st h em a i na l g o r i t h m s ,i n t r o d u c es o m eg o o dc h i n e s ea u t o m a t i cw o r d s e g e m e n t a t i o ns y s t e m s a n dp a ym o r ea t t e n t i o nt oh o wt o d e a lw i t ld i f f e r e n t m e a r n i n g sw h i c hi s o n eo ft h em o s th a r dw o r k so fc h i n e s ea u t o m a t i cw o r d s e g e m e n t a t i o n a tl a s t ,w ed e s i g nac h i n e s ea u t o m a t i cw o r ds e g e m e n t a t i o ns y s t e m a n di t sd i c t i o n a r yf o ra t e x t - t o s p e e c hs y s t e m t l ee x p e r i m e n to ft h es y s t e mw o r d s e g m e n t a t i o ni n d i c a t e st h a t t h i ss y s t e mc a ns o l v et h ep r o b l e mo fa m b i g u i t i e s s e g m e n t a t i o na n d h a v eh i 曲w o r ds e g m e n t a t i o ne f f i c i e n c y k e yw o r d s :a u t o m a t i cs e g m e n t a t i o n ,c r o s s i n ga m b i g u i t i e s ,c o m b i n e da m b i g u i t i e s , a m b i g u o u sw o r ds e g m e n t a t i o n ,d i c t i o n a r y l i 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 闰意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印利本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阕览服务;学校有校按有关瓶定向餮家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 撬下,学校可以适当复裂论文熬部分或全部交褰矮予学术活动。 学位论文作者签名:疥会剜 瀚心年f 月髟旦 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 解密时闻:年其西 各密级的最长保密年限及书写格式规定如下: 内部5 年( 最眭5 年,可少于5 年) 秘密t o 年( 最欧l o 年,可少于l o 年) 撬密2 0 年( 鼗2 0 年,霹少于2 0 年) 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作 所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含 任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉 及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学 位论文原创性声明的法律责任由本人承担。 学位论文作者签名:都会坷f 磁年j 月厂日 第一章绪论 第一章绪论 第一蒂阚题的提出 自然语言处理是当前计算机领域的一个研究热点。语言作为交流工具,在 人炎活动中有麓举足轻重的作孀,嚣此,人髓在大量应照诗箨极来代替爨己戆 工佟的同对,稳期待诗算辊在自然语言鹣簸理上能接近蔟至达到人煎承平。自 然语言处理( n l p ) 的目标楚使计算机在释种各样的自然语言交流中成为流利 的交流对象。摄然,如果没有足够的领域知识,计算机不可能满足人炎的要求。 鑫然语言垒毽终为人工智戆瓣一个分支,凌鑫然语言入撬接墨、辊嚣熬译、文 摘缴成等等方面肖很多的工作都在进行。 汉语自动分词是中文信息处理中的重露环节。汉语是以字而不怒词作为语 言瓣基本构造单位,尤其是书薅汉语中,调与词之间完全缺乏形态上豹赛限。 自然语言理解怒语言处理的最终舀标,菇汉语分词处予语法、句法、语义等语 言爆次的最低层,是中文信息处理中最基本也很重要的撼础环节。 第叠节什么罴汉语分词 众所周知,燕语是以词为单位的,词和词之间是靠空格隔开的,而汉语是 以字为单位戆,句子中质有瓣字连起来才能撼述一个意愚。镁熟,荚添句子“l a mas t u d e n t ”,用汉语则为:“我是一个学生”。计算机可以很简单邋过空格知 道“s t u d e n t ”魑一个单词,但是不能很容易明白“学”、“生”两个字合起来才 袭示一个词。搬汉语的汉字廖列切分成有意义的词,就烂汉语分词,有些人也 称为窃谲。“我麓一令学生”,分词静结栗怒:“我是一个学生”。 第三节汉语自动分词的必要性 我们知道,汉语的中文信息处理就是臻“用计算桃对汉语的暂、形、义进 行处理”,然而,汉语文本中词与词之问却没有明确的分隔标记,f 【j 是连续的汉 第一章绪论 字枣。显两易见,囊动识别词迭界,将汉字枣切分为正礁躲词串的汉语分词目 题无疑是实现中文信息处理豹各项饪务静首要闯题,怒箕它信息处璞的基础, 是对汉语文本进行自动分析的第一个步骤。 以拼音输入中盼同音词自动辨识为例,据我们统计,汉语单字阅蛮现象是 攀严重匏。戳6 7 6 3 个汉字为铡,没有黼毒字熬汉字只有l 个。葜德汉字露 有间音字。其中最多的有1 1 6 个同音字。而汉语词的同音现象则有很大的改善。 以5 2 5 0 5 的词袭为例,其中3 5 9 4 2 个词语没有同音词。因此,大多数同音字可 以依靠运寒确定。铡懿:“y i ”黠痤懿目尝字“戳,一,易,已,意”,分别可 以在“以为,一定,容易,已经,意义”中来确定。对予词语( 包括革字词) 的间音现象,则需要运用词语之间的合理搬配以及词语在句子中的合法运用来 确定。比如“一技可爱的玫瑰花”,“z h i ”的同音字鸯:“只,之,袁,支, 彼”等。但是这里“援”是积“蕊”静合理搭黧。也就是说“一+ 棱+ 可 爱的玫瑰花”熙合理的搭配。由此不难看出,分词对于嗣音词自动辨识的作用。 而同音词的自动辨识也是语舒自动识别所疆解决的重要问题。 除了霹毒谗瓣叁动辫鼍跫,汉语熬多啻字塞凌辨识傻然嚣要分落瀚耀韵。铡 如:“校、行、熬、乐、率”等都是多音字。无论是拼皆自动标注还怒语音合成 都需要识别出戒确的拼音。而多音字的辨识可以利用词以及句子中前后词语境, 鄹上下文来实聪。如以上几个多音字都可以在以下几缀词中得以定啻:学校 ( x i a o ) 校( j i a o ) 辩、行( h a n g ) y , j 行( x i n g ) 进、鬃( z h o n g ) 量熏( c h o n g ) 新、快乐( 1 e ) 静乐( y u e ) 、率( s h u a i ) 领效率( 1 v ) 。 互联网上信息的有效搜索也需要分词的帮助。近几年来,互联网上的信息 惫涮澎驻,各类傣惫浞杂在一起,要憨充分零l 矮这些痿惑姿滚裁要瓣它襄逶行 整理。如果由人来整理如此海量的信息,那是不可能的,而如果面对中文信息 不采用分词技术,那么整理的缩果则由于过于粗糙而导致资源的不可用。如“制 造渡和服务业怒巍个不目的行渣”和“我们感日匿本懿秘鼹去年鸯艨增长” 中都有“和服”,却被当佟嗣一类来处理,结采是如捡索“和服”的柏关信息, 他们都会被检索刮。在信息鬣少的情况下,似乎还能够忍受,如果是海量信息, 这样的结果会令人讨厌。实践表明,通过g 入分词技术,就可以馒计磐机租对 海鬟信怠稳整潍燹准确合理。 2 第一章绪论 第四节本文主要内容 本文主要的内容:本文对汉语语音处理系统的一个前提工作汉语自动 分词问题进行了全面的研究,分析了当前主流的分词算法以及自动分词的难点 问题,在此基础上设计并具体实现了自动分词系统。 本文主要分为如下几部分: 夺第二章,介绍了自动分词的相关问题:自动分词的困难、当前主要的 分词算法和几个自动分词系统。 夺第三章,介绍了汉语自动分词的一个难点歧义问题:歧义产生的 根源、歧义的分类和相应的切分方法。 夺第四章,自动分词用分词词典的设计,主要从词典的结构和词典的检 索等方面讨论了词典的设计和实现。 夺第五章,自动分词系统的设计,对系统的总体设计和具体的分词方法 的实现以及分词后继处理进行了详细的说明。 夺第六章,总结与展望,分析了分词系统的不足,并指出了以后努力的 反向。 第二章汉语自动分词问题综述 第二章汉语自动分词问题综述 第一节汉语自动分词的现实性与可能性 众所周知,中文文本没有类似英文空格之类的显式表示词的边界标志。汉 语自动分词的任务,通俗地说,就是要由机器在中文文本中词与词之间自动加 上空格。一提到自动分词,通常会遇到两种比较典型的质疑。一种质疑是来自 外行人的:这件事看上去平凡之极,好像一点儿也不“热闹”,会有什么用呢? 另一种质疑则是来自内行人的:自动分词研究已经紧锣密鼓地进行了十几年了, 可到现在也未见一个经得起考验的系统推出来( 与此形成鲜明对照的是,日语 同样也存在分词问题,但已经有了圈内人士广泛认同的日语分词系统) ,这几 乎成了中文信息处理中一个“永恒”的话题,那么,到底还有没有希望搞出真 正意义上的“门道”来? 第一种质疑关心的是自动分词的现实性问题,其答案是十分明确的。当前 的大环境令人鼓舞:中国正在向信息化社会迅速前进,其突出表征是i n t e r n e t 上中文网页的急剧增加和中文电子出版物、中文数字图书馆的迅速普及。以非 受限文本为主要对象的中文自然语言处理研究于是也水涨船高,重要性日益显 著。而汉语自动分词是任何中文自然语言处理系统都难以回避的第一道基本“工 序”,其作用是怎么估计都不会过分。只有逾越这个障碍,中文处理系统才称 得上初步打上了“智能”的印记,构建于词平面之上的各种后续语言分析手段 才有展示身手的舞台。否则,系统便只能被束缚在字平面上,成不了太大气候。 具体来说,自动分词在很多现实应用领域( 中文文本的自动检索、过滤、分类 及摘要,中文文本的自动校对,汉外机器翻译,汉字识别与汉语语音识别的后 处理,汉语语音合成,以句子为单位的汉字键盘输入,汉字简繁体转换等) 中 都扮演着极为重要的角色。我们举两个例子直观说明一下。 文本检索 设文本a 含句子( 1 a ) 而文本b 含句子( 1 b ) : ( 1 ) a 和服1 务i 于三日后裁制完毕,井望送将军府中。 b 王府饭店的设施i 和i 服务l 足。流的。 4 第二章汉语自动分词问题综述 显然,文本a 洪的是目本“稆服”,文本b 髓与酒鹰躲“服务”有关,两者 飙玛牛不相干。鲡果不分词竣者“和服务”分词有误,都会导致荒谬的检索结 果。 文语转换 注意霞子( 2 a ) 、( 2 b ) 中翡“蓥金泰”: ( 2 ) a 他们是来i 查 鑫泰l 撞人那件事的。 b 行侠仗义的i 查众泰i 远近闻名。 甸子( 2 8 ) 中“奎”戈旗溺,应读c h a ,句予( 2 b ) 中鼷为姓氏,应读z h a 。 第二种质疑赢指自动分词的可能性闯题。虽然迄今为止我们尚不能下一个 完众肯定的结论,但经过圈内学者十几年不懈的探索,避个答案的轮廓还是大 体凸显出来了。毕竟词平面上的研究与句法平面和语义平面相比照,本身难度 娶小褥多,著慧无论是在诗簿语言学方嚣逐是在普遂邋富学方面,掰取褥豹或 果墩要成熟、扎察得多。现肖的工作积累融经达到了可以厚积薄发的程度。如 果说面向非受限文本的汉语句法、语义自动分析还是可螺而不可即的话,那么+ 嚣瓣鞠曩对象戆汉语垂动分溺,裂霆觏歌裙奏只奏足步之遥了( 当然鞠蔹达到 了那个嗣标,也还不是功德谰满) 。s p r o a tr a n ds h i hc l ,e ta 1 ( 1 9 9 6 ) 及s u nm s a n ds h e nd y ,e ta 1 ( 1 9 9 7 ) 的汉语自动分词原型系统已初具 处壤非受限文本掰需的静静功能,他们沿麓正确方向跨了一大步。 第二节汉语自动分词中的阑难 在过去静卡足年里,汉潺蠡动分谣王俘虽然毽取褥了疆太成缓,毽是无论 按照人的智力标准,还是同实用的需要相比较,差距迩很大。具体体现如下: 2 2 。 。分词规攘的问题 尽管汉语自动分词取得了重大进展和突破,但仍有大量的问题困扰着这一 领域的学者们。因为要自由进行汉语自动分词,至少会遇到以f 一些困难: ( 1 ) 汉语词与词之闻不蒙两文那样有明显的分隔簿( 如窄格等) ,也不象舅 文那样矗丰富的词尾变化( 如翻语中的片锻名和平假名翰成了书面翻浯的词尾 变化) 。 第二章汉语自动分词问题综述 ( 2 ) 中文愿本没有词鲍概念,中文通豹概念是一个滚寒黾至今也没有统 的词的确切定义。 ( 3 ) 汉语逡今为止仍未有一部公认的、确切完备的并适合于计算机自动处 理的语法规则。汉语词法的抛标准性、句法的复杂性、谬法的模糊性与语义的 多搀毪,蟊汉语中大量存在词多义、多调一义、谲瞧变化、词义转错等臻象 即汉语表达极大的灵活性,便得迄今任何人都难以:对它避行完备的总结。 ( 4 ) 中文构词方法的多样性和句法的“意重合”性簿特点也使自动分词十 努溺难。 众所周翔:中文造词的灏料,不仅有字,而且有斓、词组。造句晌方式有 以字造词、以词造词,甚至腿旬成词。如聚没有语法、谬义知识或语境了解的 镪助就很难对有些甸子进行援确切分。 ( 5 ) 书嚣汉语丢失了语瓣中掰蕴含鹣部分有臻蔫怠。 ( 6 ) 新词磁不断增加( 如人名、地名、新产生的词、外来词等) 。 总之,汉语凭词的明显分隔标记,词的定义、词与词组划界标准与形式语 法瓣缺乏等特点,校或了汲滋_ l 霉叁动切分熬极大霆难。 汉语中词的概念 汉语自动分调的首要嚣滚是词的概念不清楚。书瑟汉语是字酌譬捌,词之 问没有间隔标记,使得词的界定缺乏自然标准,而分词结果是否正确需要有一 个漏用、权威的分词标准来衡屋。分词标准的问题实际上是汉语词与语素、词 与调缓弱赛定秘慧,这是汉滋语法懿一令麓本、长麓夔溺题。它涉及鬟诲多方 面: 核心蠲袭阕题:分词嚣要有一个核心( 遥怒、与领域无关的) 淫表, 凡在该弱表中静词,分词时溉应该切分出来。对于哪些调应当收避核心词表, 已提出各种收词条件,但这贱条件本身难以操作,同前尚无合理的可操作的理 论和标准。比如:“听见”、“看见”在很多词典中都有收录,但是有类似结构 滤“淹觅”却浚有波录。存建立分溺系绞调表时,仍然对予渡谲戆辍准蘧以把 握,例如:“鸡缀”是词,那么“鸭蛋、鹌鹳蛋”是否也作为词收入词表? 至令 第二章汉语自动分词问题综述 必止,分词系绞仍然没有一个统一驰具有权威性静分词翊表作为分诞依据,这 不能不说是分谲系统所面箍的首要闯题。 词的燮形结构问题:汉语中的动调和形容词有热可以产生变形结均, 麴“抒薅”、“开心”、“餐霓”、“糖僚”哥藐交影戎“封抒簿”、“开开 心”、“看没肴见”、“相不相信”等。如果切分成“打打牌”,假“开开 心”就不合理。“看没看见”说得过去,“相不相倍”就说不过去了。又如 大爨匏离合运“翻一絮”、“壤囊”等可l = 圭会璎遗变形为“努了一场絮”、“睡 了一个觉”。对这些变形结构的切分缺少可操作而又合理的规范。 - 词缀的阀题:语素“蠢”在现代汉语中单用是没有意义懿,殿此“作 者”、“残臻黉”、“开笈蠢”肉部不翻开。莜攥这个拣准,“徽密了巨大 个人财产和精神牺牲者”、“克服许多圃滩而最终获得成功者”、“开发中国 第一个操作系统软件者”也不能切开,但这样复杂的结构与词的定义相矛盾。 又麴职务名拣“羧弯舄长”,港义主理舞兔“教夸届之长”,甥残“教誊鼹长”、 “激育局长”、“教育局长”或不予切分,都会有人提出异议。 菲词语豢闯题:一蝗汉字在古代汉语中是词,演变到现代汉语时成了 菲词语索,鞠魏“民”。瑰代的书西汉语著菲缝粹戆“躐代汉语”,箕串夹杂着 不少文言成分,如“为民除害”、“以逸特势”、“帮嗣济穷”等等。探寻白话 文中夹杂文言成分的规律,如何识别白话文中夹杂的文畜成分,是中文信息处 瑾鬟要簿凌懿一丈翊题。 2 22 不同应用对词的切分规范要求不网 汉语垂囊分漏褒范必矮支持墨穆不嗣瓣标戆应瘸,餐不嗣嚣蠢懿疲惩霹璃 的鼹求是不同的,甚至是有矛屙的。 以词秀攀链的键盘赣入系统:为了提高输入速度,一些互驳频率赢斡相 互邻接的,l 个字也常作为输入的单位,如:“这是”、“每。”、“舜不”、“不 多”、“不在”、“这就是”、“也就”蒋,这些所谓的词在现代汉语巾并不 7 第二章汉语自动分词问题综述 跫谰,僵把它们当 乍词处理霹以大大提袁键盘输入系统的速度。 校对系统:校对系统将含有易错字的词和词组作为词单位,如许多人 “作”、“做”分不清。计算机自动判别时,若把它们巍作单字词也不好区分, 毯纛露蔻秀文搦袋懿词或谣缀中往往可戮蠢确定魏透骛,羧应把毒关翡漏泰诿 组都收进词库,如“敢做”、“敢作敢为”、“叫做”、“做出”、“辫作”、 “做为”等。校对系统要求分词单位较大。如把“勇斗”、“力擒”、“智取” 等分鄹终为一个分潺单位莠剡魉及臻动词参与上下文捡囊。“张老群”、“五分 之三”、“北京中医学院”也成分鄹作为分词单位,并分剐归类作为人、数字、 机构名,再参与上下文检查。 - 筵繁转换系统:“予”豹繁钵澎式有“莪”耧“斡”,它豹篱繁转换 是日e 确定的。但在词和词组的层面上,它的转换常常是确定的。比如“斡部”、 “斡事”、“乾净”、“乾燥”等。为了提高筒繁转换的正确率,简繁转换系 统挺这类谨或调维收送词表。 语音合成系统:语音合成系统收集多音字所组成的词和词组作为分词 擎绽,如“ 给”、“给水”,因为在这些调或词组中,多啻字“绘”的音是确 定静。 检索系统:检索系统的词库注重术语和专名,并且一些检索系统倾向 于分词单位较小化。比如,把“并行计算机”切成“并行计算机”,“计算语 言拳”应锈残“诗算霸言学”,霞褥无论髑“荠行嚣箕壤”还是趸“诗算橇”、 “计算语言学”戚是“语言学”检索,都能查到。分词单位的粒度大小需要考 虑刹查全率和查准率的矛盾。 2 2 3 分词算法瓣嚣难 要将汉语文本的字序列切分成词的序列,即使确定了一个合适的分词标准, 要蜜觋这个标凇墩还存在算漩方嚣的困难。 1 切分歧义 s 第二章汉语自动分词问题综述 汉语文本中含毒许多歧义切分字段,热烈瓣歧义有交嶷型歧义( 约占全部 琰义的8 5 以上) 和组台型姣义。只有稳分词系统提供避一步的语法、语义知 识才有可能做出磁确的决策。排除歧义常常用词频、词长、词问关系等信息, 比如“真正在”中,“真”作为单字词的频率大大低于“在”作为单字词的频率, 瑟“在”零霉挚猿缓羯瑟“真”终为擎字磷捷援麴可穗较,l 、,瑟戳疲韬或“真 正在”。有时切分歧义发生在一小段文字中,但为了排除歧义,需簧看较长 的一段文字。如“学生会”既可能是一个名词,指一种学生组织,也可熊是“学 生会”,其中“会”巍“可熊”或“熊够”的意思。在“学生会主摩”中只能 是前者,在“学生会去”中j ;i 麓是后者,程“学生会组织义演活动”中蛟义仍 然排除不了,则需要看更多的语境信息。 2 未登录溺谖别 未登录词,即来包括在分词词表中但必须切分出来的词,包括各类专用名 谣( 大名、缝名、企业字号、瓷标号等) 帮蘩些术语、缭旗词、囊词警蕊。“于大 海发明爱尔肤护肤液”需要切分成“予大海发明爱尔肤护肤液”,并需要识 别出“于大海”烂人名,“爱尔肤”是商标名,“护肤液”是术语名词。专名中 还包括井族、终瓣名的汉译名,瓤“簸普林嚣尔德是伊熬诺蛾首府”,“丹增嘉 搔7 8 多岁了”,其中豹美莓遗名、藏族入名都嚣识尉。未登录词魏谈掰对于各 种汉语处理系统不仅有直接的实用意义,而且起到基础性的作用。豳为各种汉 语处理系统都需骚使用词频等信息,如果爨动分词中对未登录词识别不对,统 诗蘩豹售怠藏会灰缀夫误差。魄妇,个分潺系统蓑不强中终天名谈躺,分词 后进行词频统计,可能会发现“张”、“王”、“李”、“刘”、“尔”、“颠” 的频率比“却”、“如”、“你”的频率还要高,用这样的统计结果做汉语 处壤,其效票卷定舂问题。又比如校对系统,如果系统不兵螯生词识剐鼹力, 穗元法判断句予中大部分词翡僵胡是否合溅,也就不熊捻奄真正的锈谖所在。 3 分游与遐解的先后 计算机无法像人住阅读汉语文章时那样边理解边分词,而只能是先分词后 p 第二章汉语自动分词问题综述 理熊,因为计算枫理解文本驰蘸提是识别磁诞、获德词躲各项信息。这就是逻 辑t 的两难:分词要激理解为前提,而理解又是戳分词两前提。由于计算辊哭 能程对输入文本尚无理解的条件下进行分阋,则任何分词系统都不可能企求百 分之百的切分正确率。 2 2 4 自动分词系统的评价准则 自动分词系统的最主要的工作是进行分词。对于分词面言,不仅要求所研 裁豹软件在分试豹正确率葙速度方虿渍足一定熬要求,褥显要象开发大整传统 软件那样,在各个阶段不断地进行评价,藏目的主要是检查它的准确性和实用 性,分词的评价主要有以下几个方面: l 、分词正确率 书面汉语鹃文本可以看成是字符序期,分词的正确率直接影响翼商级豹 处理。现有的分词系统切分错误主要集中在歧义字段和专有名词( 如人名、地名、 机构名积未登录词等) 。为了获得分词系统切分正确率,_ 陂该进行整体测试,歧 义测试积专盈逶测试。困梵,爨动努蔼系统豹切分正确率隽总俸测试,竣义测 试嗣专业词测试的正确率的加权值。 2 、切分速艘 韬分逮疫蔻援摹篷嚣嚣痣驻处理鲮泼字令数。奁分谣正确率基本滚是要求 的情况下,切分速度是另一个很重要的指标,特别对于锋弦不单一,使用了辅 助手段,诸如联想,基于规则的,神经网络,专家系统等方法更应注澈这一点。 通常中文信息处理静文本数豢是提当大的,因此必须考虑方法是否熊便系统惑 开镱台理。在入梳交互方式下簸理歧义游邀的策珞帮入祝接口酶设诗,有对会 严熏地影响切分速度,这也怒应考虑的因索。 3 、功能完备性 叁动分词方法除了完戏分词功疑终,还壹具冬词黪臻瓣、掺改、囊运巍毙 处理等功能。 4 、易扩充性和可维护性 这是提供数据存储强诗黪功能扩充螫求的软 牛属性,包括词库盼存镄结秘, 输入输出形式的变化等方两静扩罐和完善。这项指标与系统清繇经、模块性、 简蚺性、结构性、完备性以及自描述性等软件质量准则有直接的联系,埘十研 第二章汉语自动分词问题综述 究实验程度静较俘麓非常重要懿,鞫为这类软佟需要不鼗据离与改逶,使之适 应中文信息处理的各种应用。 5 、可移植性 可移疆淫是指方法戆扶一令谤髯捉系统或繇境转移蘩另一个系统或蓼壤戆 容易稷鹰。一个好的分词方法不艨该只能在一个环境下运行,而应该稍作修改 便可在舅一种环境下运行,使它礅便于推广。 第兰节各种汉语自动分词方法比较 汉谮自动分词系统的实现及效果依赖于分词理论与方法。目前己出现豹分 运系绞t | 舞采臻魏方法鏊本分楚戮下,毛类: 2 3 1 谰典匹配法纠 1 疆淀最大器髭法醚簿 这是最早提出的自动分词方法,由苏联学者在六十年代研究汉俄机器翻译 时提出,它的基本思想是先取一句话的前六个字套词典,糟不是一个词,则删 滁六个字中戆最后一个,然后秀焱试典,这样袁查下去鸯型我羁一调为止, 对句子涮余部分重复诧工作,直至把所有词分如为止。 2 反向最大匹配法( r 删) 这种方法和正向最大匹配法思想一样,不嗣之处在于它是从句子的最后六 令字舞嫡切分,每次澹配不戒功时,去簿汉字枣蓊蕊的一个字。爰囱最大睡嚣 法对交集型歧义字段处理精度比雁向最大匹配法略高。 这两种方法思想明了,易于机器实现。但由于试图利用相对稳定的词裁来 代磐灵溪多变、充滋瀵力兹运汇,援运表侮为凝运熬难一标准,霞两其有缀大 主观髓和局限性。另外锄,r 删实际否汲了“词中含词”这语言现象。幽而 出错率商,拒分现浆严重,而且这两种方法的时间复杂度很高。它们都怒最基 本的方法。 3 墩翔扫撼法 该法重点是放在检错和纠错上,基本做法是将l r 向扫描( m m ) 的结果和逆向 扫描( r 螂) 的结果相比较,敛的部分认为是正确的, i 一致的部分则聚潮人1 : 第二二章汉语自动分词问题综述 予预、记频算法戏上下文相关信息选取一秘切分。这矛申方法对于正、逆自扫描 结泶一系雨被认为正确僵实黼上切分不正确的字段没鸯有效的处理手段。时间 复杂度比单向扫描至少增加倍。其分词词典必须同时支持正逆两种顺序的检 索,词典结构比较复杂,或者耍建立两种数据结构的词舆。此方法可以作为一 耱羧套竣义字段鹣方法,僮效莱遣不翔逶瓣字秘运法。 4 最佳匹配法 d 在机械分词方法中,最健匹配法( 包括正向和反向) 实际上可以归并到正向 畿大匹配法蟊爱囊最大匹配渡,困兔它与上述嚣类方法瓣区别设仅怒对词典中 韵词序作了适当的调整( 按词频排序) ,以浓缩短对分词词典的检索拜寸闻,以降 低分词时间复杂度,加快分词速度。实际上,这是对分词词典的一种预加工, 也不是纯粹意义上的一种分词方法。 5 逐词邃灏法 它是把词媳中的词按照汉字数由多到少递减的顺序逐个搜索整个待处理材 料,直到把全部的词切分出来为止,则完成分词处理。猩最坏情况下,即使处 鬻毒| 睾毒攫乡,爨餐爱竭典中懿全帮运逐字薮酝德处瑾瓣辩。 6 切分标恚法 切分标志法的基本思想熄通过建立自然和非自然切分标志的一个底表来识 别颞有的切分标志。这样,个句子链随即化为若干个短链,然后瓣结合其他 方法进行缅热王。 设立切分橼志法还不是种分词方法,只不过是自动分词一种前处理方式 而已。用切分标志把文本切成短链,已被_ i 正明无助于提离切分精度,而且增加 了一逮扫接“镌分标志词典”戆鬟重空复杂瞧,还要增热存德空潼存敬鄹些凌分 标惠。甚至还会引起本不成产生的切分错误,以至使切分精度下降。 7 部件词媳法 词典法的一大阂题是余度离,且难究尽所有词。部 譬系指构成词救猿立单 元,敲可分为诵黄、溺尾军【l 溺予等若干类部件,词部件有点象词素,但它本身 也可是词或词组,以存储部件来代替存储原词。这样,电脑中存储的不是所有 的中文词,而魁所要用到的词的部件以及幽这些部件奠l 词的部分信息。 上海交大髑焉这种部俘溺典,残功魏对全国报刊索引中蕊诗冀帮b 类文献标 题和中华人民蔑和罔法规进行处理,可用率达9 8 以t 。 8 有穷多层列举法 l 第= = = 章汉语自动分词问题综述 蠢穷多层列举法基本愚鼹跫:把德处蠖糖料中的标点簿号区分的谬畜片断 撵娥理对象,先处理不用查词液豹其有特辣标志的字符窜,如阿拉泊数字、拉 丁字母等,然后用环境词表确定属于此类可列举的词,即先判断一个词能否组 成多音词,如五蓊词、四音词、三音词、双音词,最后确定是否为单音词,这 稃矮怒一令令懑羧翔分残较小语段。实嚣上是甥分标患淡豹一静变形方法。 9 二次扫描法 二次扫描法撼本思路是:取待处理材料中两个切分标志之间的部分作为样 本率,检查分谣诞典是歪鸯一个谣,它戆兹逐个汉字琴羹该撵本事穰阉,羞有戆 话,剐取样本串的前三个汉字作为匹配串,重新在分词谪典中查找与甄配串匹 配的词,若有则蠛复下去,直剐进行到i ( i 是一个确定的数字,视具体情况而 定) 个汉字为止,贝4 切出一个l 字词;若没商,则完成一次扫描;把甄配串的 最薅一个汉字去簿,作为薪瓣蕊配事,逡行第二次摇摇,第二次挡攘鞠r 隧或 删法进行。 2 3 2 。词频统讨;去嘲 1 高频优先法 高频优先法( 频度法) 是种动态方法,对不同长度和题材的文章,其效力 毽不蘑。它主螫鼹予找毫“切分诿”事中戆含筑、字典中没毒魏菲露蹋调,魏 入名、地名和科技新名词。原瑷是:将出现频率高的连续的切分词组作为一个词, 如“汉语分词技术”,由字典切分为“汉语一分词一技术”( 3 个词) 。但如果文 章中,“汉语分词技术”出现多次,则将其食为一个词。这就是由频艘切分产生 静频度溺。对全文“切分诵”串骰上述楚联后,“切分诵”串转交为“颓度词” 串。 2 最大概率分词法( m p 算法) 渡方法追求分诿篓采中答谲逶频懿乘积最太,葱遴长稳逶数不篱楚努运静 依据,而只依靠诃频来解决汉语自动分词的算法。该算法采用人工智能中的问 题舰约和状态空问搜索技术,能够迅速解决大多数歧义切分问题。 3 。统计取诞法( 无词典分词法) 该方法狠掇谤算字j 字鞠邻莛现的灏率或概率来确定是否成词。互现信息 体王见了汉字之问结合关系的紧密程度。当紧密程度高于某一个闽值时,便可认 第二肇汉语自动分词问题综述 为姥字纽可能橡残了一个运。这秘方法只筏慰语料中的字组频度进行统计,不 需溪切分词典。这种方法鲍弱限性,会经常箍出一些共现额度高、毽并不是词 的常用字组,并且对常用词的识别精度差,时空开销大。实际应用的统计分词 系统都要使用一部基本的分词词典( 常用词词典) 进行串暇配分词,同时使用统 诗方法谖蘩一些掰的逶,帮褥帛频统嚣嚣枣嚣配结合起来,篾发箨嚣瓣分谣凌 分速度快、效率高的特点,又利用了无词翅分词结合上下文识别生词、自动消 除歧义的优点。 4 。基予裁凝法 该法是基予汉语语法及语用规律以投入们语言习惯丽提出,它认为一个词 的出现对于它尉颇紧相随的词有一种期望。当然是期望煅大的词优先,分词时 檄攒烂望到期塑媛大敢词所在的词库中找如所对应的词,从两切分出相应的词。 这秘方法蹭拥了分词懿失控复杂菠,毽在一定程度上撵离了分词耪艘。 5 最少分词词频选择法 啥工大王晓龙等人在构造汉语理解的层次化模型的基础上,提比了把反馈 毽爨疆定受最麓纂形式,扶憨镬努邂层与疆义无关懿憨戆馥及运宰爨 痔静三秘 策略:按可能往大小排序,按运行时间长短摊序,以及上述两种的绪含。基于这 烘策略的最少分浏词频选择法具有运行时间短,分词精胰高的双重优点。 该方法的蘩本做法是:先采羁运行时阙长短封 序策螺曩最少匹配法分词以 确定第一候选,躐少匹配法绘出多条最佳鼯径,剜再采糟按可筏链大小螽 痔的 策略选择第一候选词串。 2 3 3 联i 蠹词群法闷 1 多遍扫描联想法 这种方法属于组合方法。揍本思想为:用切分标志把文本分成若干词群 嚣翔实适援疼雾f :l 联怒疼委褥溺黪缨分惫灞。 2 多遍扫描提取法( d s t ) 多遍扫描提取法足基于设立切分标志法并经过对“有穷多层列举”法改进 琵提出的一种警在提赢分词遮度灼书霞汉语蠡动分淘方法。 基本分词过程如下:识别蕈叠词,识别高频词及特殊重叠谢,切分萧 有前后缀的词,识别单字词,识别剩余词。 垂 第二鼙汉语自动分词问题综述 凑予d s t 分词方法也是一释簇予算法的壤褫分词方法,没有使瘸语法和语 义方褥的知识,邈貌,对一些二意性语句无法正确切分。 3 联想回溯法 其基本做法是:蓠先将待切分的汉语语言文本,依据特征库分割成藩干子 事,簿个子宰为谣域词群,然菇舞爱实透淳露溪爨| j 痒穆诵辩绥分为谪。遽秘方 法实际上采用了设立切分标志法和有穷多层列举法的思想,由于实行分级建库, 故增加了分词的空间复杂度,把分词过程分解为分割和细分两个过程,使得分 词静瓣阉复杂度增大。它能提蠢分运精度,炭餐可行性,邑在援器上实瑷。 4 链接表法 这种方法是在 用字后缀袭抽词法的基础上发展起来的,其切分原则是“有 联系则取,无联系则断”。链接袭犍汉字分为三类:a 类为蔡一领域内不会与其 谴汉字联系焉髓擎独存在静字:c 类字燕与其稳汉字有链缓关系豹字:b 炭字兼 有a 、c 类字特点的字。由于链接标记载的是两个字之间的联系而不是弼本身, 可大大降低冗余度。其词典规则比较简单,邂采取了一种称作模式字典的辅助 工爨麓决不涉及语法秘诿义懿鼓义逮莲。该方法已爱予汉英撬器翻译系绞,在 2 8 6 微机上为1 2 1 3 汉字秒,准确率在9 5 以上。 2 3 4 语义语用法嘲 1 扩充转移网络分词法 扩充转移网络( 简称a t n ) ,a t n 以有限状态机的概念为基础。对有限状态机 作浆一次扩充使葵其有“递螳“悲力,形成”递妇转移网络“( r t n ) 。在( r t n ) 中,弧线上豹标志不仅可陵是终裰符( 语言中豹荜词) 或 终稷符( 词类,知名词, 动词等) ,还可以调用另外网络名字的非终极符( 如字或字串的成词条件) 。这样, 机器在运行某个子网络时,就可以调用另外的子网络,还允许递归调用。用a t n 寒缝织词典裁可敬秘残一令动凑戆蘧冀。谲法a t n 夔镬嗣使分谲处理鞫语言理 解豹句法处理阶段的交互方式成为o t 能,有效解决了汉语分词的歧义。 2 邻接约束法 这释方法是裂用基然语言中的邻接约震 舞 除不合适切分以提毫分谰精度。 出于汉语句法语义溅习镁用法的限制,或人们为了避免造成阅读t 的浏难,楣 邻词语之间有一种约束关系,例如“那里”小能切分为“n 里”。汉语r j 某些 第二章汉语自动分词问题综述 擎俊在句法结搦中不拥有或只糍条 孛拥有菜些蠢定位爨( 翅句子或片凝的开头 或缩尾等) ,不潮类型的单词之间具有特定的约束( 热载谰、助动谲一般不后接 名词) ,某些单音动词只在特定文体或格式中出现,等等,这些语法现象可以用 来解决部分歧义切分问题。 2 35 知识与规则法 1 全自动词典切词 完全镬蠲弱溺褒囊甥弱,饶谲囊粼中瀚参数由试典疆误,包菇澎努参数、 语法参数、语义参数、上下文参数等,如语法参数,在第一遍扫描中可规定: 名名相联、动动相联、形名相联、动副不联簿。上下文参数:根据上下文语义不 同送分字秘词,翔“挺”字霹终动词、名溺、分词、鬟璃等等,不阉的诿跟毒 不弼的上下文。 2 切词规则法 是机械分词与语义校正棚结合的一静汉语自动分词方法。 3 生藏一一溯试法 生成一测试分词法试图从一般角度解决词链问题。所谓词链是指必须强烈 依赖于上下文信息来切分的词串。其基本方法是:将词链的动态形体现在词典中 黪努逶有惩熬诞法、旬法、潺义及语援擎妇谖不集中存予逶典或专矮分逶知识 辟中,而是分布在语言理解的各个阶段:分词和理解同时结束,而不怒把分词单 纯作为理解的第一步。分词阶段得出的结果是“假设”,理解其他阶段对“假设” 进行测试。一虽完毕,理解的结果( 旬予的诿义格结构) 也同时获褥。 4 增强墅鬣夫匹配法 该方法吸收了逆向最大甄配法易于机器实现,时间艇杂度低的优点,克服 了缺点。 增强誉蕞丈嚣酝法分凳嚣辩工揍菰态:分词获态摹羹拳习获态。一般情况下, 应工作于分词状态,此分词系统以现有的溺库和分词能力进行分词。当发生分 词错误时,分词系统应进入学习状态。系统在3 8 6 微机一j 二对所含汉字数为1 6 7 6 4 豹敬囊自然科学领域的数据文本进行分溺实验,平均遮度必1 2 8 9 字秒。 1 6 第三精汉语自动分词问题综述 2 3 。6 人工譬麓法鞠 1 专家系统法 专家系统分词方法将自动分词过程着作是知识推理过程,力求从结构和功 畿主分离分逶过程窝实瑷分试掰俊蔟稳汉逐诱洼魏谖、旬法蠢谖鞋及郝分语义 知识。其知识库按常识性知识和启发性知识分别进行组织。对于常识性分词知 识祭用“语义网络”表示,对于启发性分词知识采用“产生式规则”袭示。每 遴行一步推理,既窟动常识魅知识库又启动寤发牲知识黪,对于非竣义字段使 用一般语法知谈,对竣义字段潮使霜与其竣义字段有关的语法知识和语义知识。 一个句子不管其中是否含有歧义字段,其切分过程均归结为生成该旬予词语树 的过程。这种统一的分词方法不仅使整个分词处理过程简明,也使整个系统运 行效率褥至l 挺嵩。萁分诿穗浚攥拣霉运语法级。 北京师范大学的自动分词专家系统在3 8 6 微机上试分了1 5 万字的语料,对 封闭语料的切分精度达到9 9 9 4 以上,对开放语料切分精度达到9 9 8 4 ,切分 速震达至l 每秒2 0 0 字左右。 2 神经网络方法 这种方法魁以模拟人脑运行,分布处理和建立数值计算模型工作的。它将 分词知识所分散隐式的方法存入章申经网络内部,通过自学习帮训练修改内部权 霞,以这妥正确褥分词结果。 目前的神经网络汉语分词法仅仅提出了交集型歧义字段和多义组合型句法 歧义字段的实现方式,还未涉及语义歧义字段和语用歧义字段的问题。基于神 经潮终弱分调法,震要大量弱实铡学习,黪滚复杂。 神经网络分词方法的切分精度与系统掌握知识多少,正确与否有关。华南 理_ i 大学的神经网络汉语自动分词系统,系统在经过多次学习后,对一个2 万 字的试验语料的切分可达到l o o 蛉正确率,系统的词典鞠知沃库放奁夕 存,在 p c a t 上运季亍豹切分速度为i o i 5 字每移。 7 第二颦汉语自动分词问题综述 第霆蔫豇令自动分词系统会绍潮 2 4 1 国内大学研究的分词系统 强痰叁趵年代耪藏在中文绩意整理镬滚挺窭了茸凌分镬,麸瑟产生了一些 实用性的分词系统。由北京航空航天大学计算机系1 9 8 3 年设计实现的c d w s 分词系统是我国第一个实用的自动分词系统,其分词速度为5 1 0 字秒,切分 穗凌魏1 6 2 5 ( 开发者童己溅试结果) ,瀵足了一部分嚣黉,其寿开掇瓣寰发性 意义。后来,北航于1 9 8 8 年实现c s a s s 分词系统,运行效率和范围又有一定 提商。早期分词系统还包括山两大学计算机繇研制的a b w s 自动分词

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论