(计算机应用技术专业论文)大词汇量手语词语分割的研究.pdf_第1页
(计算机应用技术专业论文)大词汇量手语词语分割的研究.pdf_第2页
(计算机应用技术专业论文)大词汇量手语词语分割的研究.pdf_第3页
(计算机应用技术专业论文)大词汇量手语词语分割的研究.pdf_第4页
(计算机应用技术专业论文)大词汇量手语词语分割的研究.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机应用技术专业论文)大词汇量手语词语分割的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 中国手语环境下的自然语言处理是人工智能的一个重要分支,而手语环境下 的汉语自动分词是中国自然语言处理的一项基础性工作,也是中文信息处理的一 个重要问题,同时也是实现自然语言和手语语言互译的一个技术难点。 中国手语环境下的分词方法和通用的分词方法差异很大,本文在分析手语词 汇和手语环境的基础上,进行了排歧问题、手语词语分割问题等方面的研究。 本文提出了一种基于统计模型和知识库相结合歧义消减算法,即一种基于词 的二元模型的广度似然比g l 瓤g e n d i z c dl i k e l i l l o o dr 崩o ) 算法,该算法结合了 互信息m 【m m 】a l 幽彻撕) 模型和似然比l r ( i j k e 】i h o o dr 撕o ) 模型的优点,不 但减少了排歧过程的计算量,而且解决了数据稀疏敏感的问题。实验表明,该方 法可有效的进行歧义消减。 本文关于手语词语分割的问题主要做了两方面的工作: 手语词典重构问题:针对中国手语的特点设计了适应于手语环境的字典重构 策略,首先根据词典中无重复的手语词的首字进行h a s h 散列,然后首字相同 的词语聚类存储。此结构不但使首字相同的词语聚类,而且提高了词语查找匹配 的速度。 手语词分割的算法方面:提出了一种渐进式长度优先的正向匹配和逆向匹配 分词算法。该方法不仅极大缩减了词语查找范围,且大大的减少了手语词查找和 匹配的次数,提高了系统的性能,保证了系统的实时性。 本文设计和实现了大词汇量手语词的“汉语自动分词系统”,该系统包括 w 曲文本的抓取和解析模块、语料预处理模块、语料切分模块、歧义字段识别和 消减等模块。通过用大量的不同类型的语料作为测试集,做了封闭式和开放式的 实验,验证了系统的性能。与人工分词结果相比,系统的分词正确率达到了 9 0 o o 左右,分词速度在8 0 0 0 1 2 0 0 0 个词,秒。 关键词中国手语词;歧义字段;w e b 文本解析;手语词语切分 a b s t r a c t a b s t r a c t n l p 删a t 岫l 蛔l a g ep r o c 鲻i n g ) i s 姐i m p a m l mb 船眦ho fa l t i 】丘c i a ll 啦i t i g e n c c , e w o 柑s e j 驷锄t 砒i ( c w s ) i s 恤f o i 珊枷o f n l pl m d 盯a l 址s i 印i 越i g u 噼a n d a l 妇a 黜捌i 曩s i nn l es i n l u l 纽姆。吣l y ,i r 3 衄mat e 枷c a ld i 伍c u 姆幻删i 砖 缸缸咚l 砒i o no f m n i m ll 锄g 岫g e 龃dc h i n 黜es i g nl 砒唱u a g e 1 1 坞印p r o a c ho f 仃a d i t i 伽圆lc w si sd i 彘倒1 t 舶mc w su 1 1 d e rc h j i l 龉es i 弘h 粤l a g e 1 1 l c s t i l d i e s s i g l a 珥弘l a g ew o r ds e g m 印协l i o n b y 协l 【i n g1 h ed 蜘_ a 删鲥体o fa h i 嚼es i 蜘 l 锄g u a g ej n t oc 衄s i d e r 硝m ba 地m a d ei n 血i s 弘i p e lt 1 1 ew 毗so f d i 鹪盯b 血ma 鹤f o u o w s : an e wm e l l l o di sp r l 巴9 e n l e dt os o l v e 勰l b i g i l j 吼ni sd 锄m e db y0 u l ( g 锄e r a l 切e dl i k d 血d 0 d r 删,讲d c hi sb 啪d0 l lw o r db i g r a mo f m io 讧曲枷i i l :f o l m 砒i o n ) a n du t 皿i k e l i h o o dr m - o ) t o d 1w 协m e 棚b i g u i 吼1 面sm e 恤o dn o t l yd e c f e a s 龉t l :峙c a l 叫l a l i o no f d i s 锄b j g i | 越i o nl a r g e l y , b i l ta l s o l v 韶t h es e 鹏i 啪姆0 f 蛐s p 缸蚴鹤s m a n ye x p e r j 胁e n 招8 h a w 恤缸hc 锄e 球咖l y 缸e 对喇m l h e 咖b i 舒i a 嗨缸c l d s t h cw 听k s0 f w o r d 卵驴嘲1 缸曲ma 陀嬲f o l l a w s : d 主c f i o 瑙t l yl c 0 1 域翻c l i o n :8 盈鹏ls f 赳9 9 yl d 赶o l 馨出m ec m n e 辩s i g nl a l 】雩烨 d i c 6 m 坷r yi sd 器i g n e d ,k 嘲毒do nl h ed 扭瑚d 珊i 鲥鹳o fs i 髓l a l l l 孵v 讲矧l a r y nm a k 群l 量l e w o r d sw 弛t h es a n 地矗惜tc h a 船m 盯曲w e dt 0 掣:吐l e r a tm es a m ed 蛳,i ti m p v e st h em 砒c h i l 培 印e e d w b r d 扣1 c n _ t 舐蛆m e l l l o d :i tp m p o s 孤i m p f o v e da 1 9 0 r i 埘o fm ma n dr m m ,1 1 l 船e m e m o d sh a wn o t l yi n i 删t h e 矾航i l ga 鹄b l j ta l f e d u c c d 删l yt h e 廿m c so f 靶出蛐g 舶dm a 士c h i i i gj i ld i c 6 彻a 1 l l e y 啪e 丘硎v e l ya l h 锄t h es y s k mp 曲m t 柚c e , l a 巩t h ep 印口d e s i g n s d a l i 缁1 h e 科s t e mo f c w s 、】l r i t hal a i 謦ev o c 曲l i l l a i ti n c l u d e s w g bl 姗e p 盛g e 掣a 印i n 舀w 苦bh o m 印a g ep a 格i f l 吕c o r p 岫p i 吲阳a t m 肋w o r d 鞭掣圳m 伽a l l d 彻曲i g u 时l v i n g ,粕ds oo 也e 嘲,幽c n tm a d ei l lo p c i l 飙dc l o s e dt 防to fv a f i o 吣l y p 曲o f c h i n e c 唧璐s h o wt l l a tb 0 协e 伍c i e m y 锄da c c u 忍c yo f t h ep r o p o s e dm e t i l o dh 硒b e e ni i i l p r o v e d 鲫咖虹1 扯s y s l e m 麒曲螂ap 暇矧鲫o f9 0 o o c 耳瑚蜘聃i l b 删五c i a ls e g m 髓t a _ t i o m 办e s p e e d i s b c t w e 即舳0 0 t 0 1 2 0 0 0 w o r d s p 苜c o l l d k e y w o r 凼c h i n e s 如驴k n g m g ew 研也a m b i g 岫f e 地s i 印i 舢訇珀g ew 矾s e 印嘲妇t i o 珥 w 曲h e p a g e p 掷i 1 1 9 - m - 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 躲趣吼型 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:盘里旱壑翩签名:煎荭 瞧塑z :乏脚 第l 章绪论 1 1 论文的研究背景 1 1 1 自然语言处理 第1 章绪论 中国手语环境下的自然语言处理是自然语言处理的一个重要分支“1 ,而自然 语言处理是计算机科学领域和人工智能领域中的一个重要研究方向啪。它研究的 是人与计算机之间用自然语言进行有效通信的各种理论和方法。作为计算机科学 领域的一个重要研究方向,自然语言处理不单单研究语言学脚,更重要的是研究 能够进行自然语言通讯的计算机系统。一旦人类在这一领域实现突破,那么人们 就可以用自己的语言来使用计算机,而无需花费大量的人力和物力去学习各种计 算机语言。 通过自然语言实现人机交互不仅要使计算机能理解自然语言文本的意义,而 且要能以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解,后 者称为自然语言生成“1 。人们在自然语言的理解方面已经做了较多的研究,而在 自然语言生成方面近几年才有所重视。但是无论是哪一方面,就现在的理论和技 术而言,实现都是十分困难的。造成这困难的根本原因是自然语言文本和对话 的各个层次上广泛存在着的各种各样的歧义性或多义性。一组中文文本,在不同 的场景和语境下可以理解成多种不同的意思,然而我们在阅读的过程中并没有感 觉到歧义的存在,是因为我们的大脑基于存储在大脑中的大量知识进行了快速的 信息处理。那么如何将这一过程利用计算机来实现,即如何将大脑中的知识收集 整理到计算机中,又如何有效的进行信息处理最终消除歧义就成为解决这一问题 的核心内容。正是由于自然语言的歧义现象如此广泛的存在,使得基于语言学理 论的歧义消减方法很难得以实现,尤其是在大规模真实文本的系统研制方面更是 捉襟见肘。 从2 0 世纪9 0 年代开始,自然语言处理领域开始重视系统的输入和输出,这 一变化可以说是自然语言领域的一个重大变革。这一变化具体表现在:系统输入 上要处理大规模真实文本;系统输出上要能够从文本中提取有用的信息而不是全 部理解文本内容。在这一趋势的推动下,人们开始了对大规模语料库的研制和对 大规模词典的编制,依赖统计学的方法来处理歧义问题,并且取得了相当多的成 果。但是基于统计学的方法在当今似乎快要达到其极限,已经无法在歧义消减、 语义判断上实现飞跃性的突破。要取得更大的进展是进行理论上创新还是现有方 法的完善至今仍是自然语言处理领域一个广泛讨论的问题。 北京工业大学工学硕士学位论文 1 1 2 手语环境下自动分词技术的现状 在经历了二十年的发展之后,汉语自动分词技术在理论上和实践上都取得了 众多成果。分词系统在运行速度、准确性等方面已经初步具有了实用价值,被应 用到多种中文应用系统中。而与之一脉相承的中国手语词汇分词技术,也已经开 始起步。大量的汉语分词研究成果为中国手语词汇的分割技术提供了一个继承创 新的条件。在这个基础之上,人们可以根据中国手语的具体情况,对汉语分词的 技术进行改进,以更好的适应中国手语环境下的分词需要。因此,了解汉语分词 的相关技术是一项十分必要的工作。汉语分词的算法主要有以下几种: 1 1 2 1 基于字符串匹配的分词方法这种方法是基于规则的分词“方法,又叫 做机械分词方法”“1 。基于规则的分词方法一般都需要事先建立好一个分词词典 和分词规则库。它是按照一定的策略将待切分的汉字串与一个足够大的词典 进行匹配,若在词典中找到某个字符串,则匹配成功。基于字符串匹配的分词方 法按照扫描方向的不同,可以分为正向匹配和逆向匹配:按照不同长度优先匹配 的情况,可以分为最大( 最长) 匹配和最小( 最短) 匹配;按照是否与词性标注 过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。 常用的几种机械分词方法如下: ( 1 )正向最大匹配( m 戤血岫m 砒粗n gm e l t l o d ) ( 2 )逆向最大匹配( r e v e 碍em a x j 彻硼m a t c l l i n gm 幽d ) ( 3 )最少切分( 使每一句中切出的诃数最少) ( 4 ) 逐词遍历法 还可以将上述各种方法相互组合,或者增加一些辅助性功能。其中一种方法 是改进扫描方式,称为特征扫描或标志切分,优先在待切分字符串中识别、或切 分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串, 然后再进行机械分词,从而减少匹配的错误率。 另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策 提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地 提高切分的准确率。 可是所有这些方法,不论组成规则的条件和动作多么复杂,其本质都是解决 “是”与“非”的问题。但是面对如此复杂的自然语言现象仅仅用“是”和“非” 的回答是难以解决问题的,同时这类方法一般都忽略语言运用的多样性,缺乏对 大规模真实语料的调查。因此,单纯采用基于规则的自然语言处理系统,难以应 付现实世界中的自然语言的复杂多变的现象,主要表现在:( 1 ) 规则所能刻画的 知识颗粒度太大,无法用有限的规则来刻画自然复杂多变的现象,很难处理自然 语言的不确定性;( 2 ) 不能保证语言学规则之间相容,也就是说在自然语言处理 系统中随着规则数量的增加,规则之间常常发生矛盾和冲突;( 3 ) 获取语言学和 第l 章绪论 世界知识是非常困难的事情。 1 1 2 2 基于理解的分词方法通常的分词系统,都力图在分词阶段消除所有歧 义切分现象。而有些系统则在后续过程中来处理歧义切分问题,其分词过程只是 整个语言理解过程的一小部分。其基本思想就是在分词的同时进行句法、语义分 析,利用句法信息和语义信息来处理歧义现象“。它通常包括三个部分:分词 子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获 得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句 子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知 识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目 前基于理解的分词系统还处在试验阶段。 1 1 2 3 基于统计的分词方法从形式上看,词是稳定的字的组合,在上下文中, 相邻的汉字同时出现的次数越多,就越有可能构成一个词。因此,字与字相邻共 现的频率或概率能够较好地反映成词的可信度“3 。”。可以对语料中相邻共现的各 个字的组合的频度进行统计,计算它们的互现信息“”1 。互现信息体现了汉字之 间结合关系的紧密程度,当紧密程度高于某一个阈值时,便可认为此字串可能构 成了一个词。这种方法只需对语料中的字串频度进行统计,不需要切分词典,因 而又叫做无词典分词法或统计分词方法“”。但这种方法也有一定的局限性,会经 常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、 “我的“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的 统计分词系统都需要使用一部基本的分词词典n 8 埘( 常用词词典) 进行串匹配分 词,同时使用统计方法识别些新的词,即将串频率统计和串匹配结合起来,既 发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词”1 结合上下文 识别生词、自动消除歧义的优点。但由于早期计算机技术的限制,使得统计所需 的大量生语料的获取和处理面临困难,所以这种方法在计算机的早期阶段发展很 慢。 1 1 2 4 基于规则和基于统计相结合的方法基于规则的方法捌的优点是可以 不必事先建立一个语料库,这种方法具有较强的概括性,容易推广到一些尚未涉 及的领域,但由于其描述语言知识的颗粒太大,所以难以处理复杂的、不规则的 信息。而且当规则数量增加时难以保证其一致性和健壮性。基于统计的方法卿 则需要事先建立一个语料库,但由于其全部知识都是由计算机通过处理大规模真 实文本而自动获取的,所以具有很好的一致性和健壮性。而二者相结合的方法综 合了二者的优点但同时也包含了二者的缺点,主要是是规则库的建立的工作量太 大,而早期由于计算机技术的限制,对大规模真实文本的自动获取的难度也很大, 所以在实际应用中有较大的难度。 北京工业大学工学硕士学位论文 1 1 2 5 基于语料库的统计分词方法语言学的研究必须以语言事实作为根据, 必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。“州。传 统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费 力费时的工作。计算机出现后,人们可以把这些工作交给计算机去作,大大地减 轻了人们的劳动。后来,在这种工作中逐渐创造了一整套完整的理论和方法,形 成了一门新的学科一语料库语言学( c 0 m 啪l i n g u i s t i c s ) ,并成为了自然语言处理 的一个分支学科。 语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、 语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编 纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。不言而喻,语料 库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工 搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获 得更为深刻全面的认识。 伤势纪8 0 年代,一方面由于计算机技术的飞速发展,大规模收集语料上世 纪8 0 年代,一方面由于计算机技术的飞速发展,大规模收集语料收入计算机并 加以处理成为可能;另一方面也是对旧方法的深刻反思人们开始转向大规模语料 库,试图从中获取颗粒度较小的语言知识来支持大规模真实文本的自然语言处理 系统。从而使语料库的建设和语料库语言学成为一门计算语言学的新分支而迅速 崛起。语料库语言学的目的是企图通过对大规模真实的调查来发现并总结自然语 言的各种语言事实和语言规律。同时,语料库语言学希望找到一种新的研究方法, 在大量真实语料的基础上实现语言理解,这就是基于统计的方法。它利用字与词、 词与词间的同现频率作为分词的依据,可以没有建立好的分词词典。基于统计的 方法解决了基于规则的方法的问题,其优点是不受应用领域的限制。 1 1 3 手语分词系统的目标 汉语自动分词系统达到怎样的水平才能适应信息处理的要求? 可以从以下几 个方面来衡量,即准确、高效、通用及适用。 ( 1 ) 准确率 准确率是分词系统性能的核心指标。现在有些分词系统的准确率达到9 0 似乎已经很高了,其实不然。若这种分词系统被用来支持句法分析、汉- 夕h 机器翻 译系统,假定平均每句话有1 0 个汉语词,那么l o 句话中会错切2 个词,含有2 个切 分错误的句子不可能正确处理。因此,仅仅由于分词阶段的准确度不够,语言理 解的准确率就会减少2 0 。可见,分词系统的准确率应达到9 9 9 以上才能基本 满足上层使用的要求。 ( 2 ) 运行效率 第l 章绪论 分词是各种汉语处理应用系统中共同的、基础性的工作。这步工作消耗的时 间应尽量少,应只占上层处理所需时间的一小部分,并应使用户没有等待的感觉。 在普遍使用的平台上大约每秒钟处理1 万字或5 千单词以上为宜。 ( 3 ) 通用性 随着b m e t 的普遍应用,中文平台的处理能力不能仅限于我国、仅限于字处 理、仅限于日常应用领域。作为各种高层次中文处理的共同基础,自动分词系统 必须具有很好的通用性。自动分词系统应支持不同地区( 包括我国的香港、台湾、 澳门,以及新加坡和美洲、欧洲、澳洲的华语社区) 的汉语处理;应能适应不同地 区的不同用字、用词、不同的语言风格、不同的专名构成方式( 如港澳台地区一 些妇女名前冠夫姓,外国人名地名的汉译方式与我国人名地名很不一样) 等;支持 不同的应用目标,包括各种输入方式、简繁转换、语音合成、校对、翻译、检索、 文摘等等;支持不同领域的应用,包括社会科学、自然科学和技术,以及日常交际、 新闻、办公等等;应当同现在的键盘输入系统一样成为中文平台的组成部分。为 了做到足够通用又不过分庞大,必须做到在词表和处理功能、处理方式上能灵活 组合装卸,有充分可靠和方便的维护能力,有标准的开发接口。同时,系统还应该 具有良好的可移植性,能够方便地从一个系统平台移植到另一个系统平台上而无 需很多的修改。当然,完全的通用性很难达到。 ( 4 ) 适用性 汉语自动分词是手段而不是目的,任何分词系统产生的结果都是为某个具体 的应用服务的。好的分词系统具有良好的适用性,可以方便地集成在各种各样的 汉语信息处理系统中。 1 1 4 手语环境下自动分词存在的问题 中国手语环境下的分词是实现聋哑人与健全人无障碍交流的基础。虽然现在 对它的研究仍然处于探索阶段,但同样是基于汉语词汇的分词问题。因此可以知 道,在汉语分词中遇到的几个关键问题在手语环境下将依然存在,而且手语环境 下的分词还可能存在其特有的问题。在中国手语环境下的汉语分词所要面对的问 题将有以下几种: ( 1 ) 词的理解 词的理解历来是汉语分词领域的难题之一。因为汉语分词以整个汉语词汇为 基准,而汉语界对词这个概念的理解仍然没有达到共识。这是由于汉语词汇错综 复杂,同样一个字可能作为词来使用,也可能作为一个词的语素来使用。类似这 样的情况在汉语词汇中大量出现,这就给计算机分词带来了困难。同样,在中国 手语环境下的分词仍然有这样的问题存在,但是所面临的困难要小一些。因为中 国手语词汇的数量要远远小于汉语词汇,因此在切分上所要考虑的情况较少,切 北京工业大学工学硕士学位论文 分的准确率也更接近与手语词汇所能表达的意思。但是要进一步提高手语分词的 准确性,分词问题仍然是不可回避的。 ( 2 ) 歧义切分的问题 歧义问题是汉语切分的最为核心的问题之一。由于汉语在书写时不像英语一 样在词与词之间有空格进行划分,因此在划分的过程中将很可能出现大量的歧义 切分。如何处理歧义切分不仅是汉语分词的重要内容和关键问题,也是中l 虱手语 词汇分词的核心问题。因此在中国手语的自然语言处理的分词阶段,所有关键性 的问题几乎都是围绕歧义切分展开。另外,中国手语词汇的词汇的特点导致了一 写通用汉语词汇切分所没有遇到的问题,即在汉语词库中包含的许多三个字以上 的词,在中国手语词库中大多没有,这就给中国手语词汇下的分词带来了更多的 歧义可能。例如:“大家庭”这个词,在汉语切分中将作为一个整体进行匹配不 再进行进一步的切分,但是在中国手语词汇中没有“大家庭”这个词,为此不得 不将其切分,然而这个词有两种切分方法一“大家庭”和“大家庭”,于是 在这个简单的词上就产生了歧义现象。类似这样的情况比比皆是,由此可见,歧 义切分问题将成为中国手语词汇分词急需解决的问题之一。 ( 3 ) 未登录词语的识别 由于中国手语词汇十分有限,许多词汇都没有被记录在内,如:专业术语和 专有名词。对于没有记录在案的词汇,都将按照单字进行查分,这样很多的未登 陆词在切分时很可能失去其原意。因此未登陆实名问题也是中国手语词汇分词所 要面临的问题之一。 1 2 论文的研究意义 使用手语是聋哑人唯一的交流方法。对于“天生”会说话的健全人来说,易如 反掌的交流,却是聋哑人难以逾越的鸿沟。虽然手语的诞生为聋哑人打开了一扇 窗,但手语有明显的局限性。首先,打手语需要面对面,交谈双方不能距离太远。 其次,也是最重要的,除非必须,健全人不会去学手语。手语大多数情况下是聋 哑人内部交流手段,与外部世界依然是“呼叫,无应答。在现代这个远程通讯十 分发达的社会里,可以供聋哑人使用的空间并不多。本论文所要讨论的中国手语 环境下的自然语言分析服务的人群正是面向有交流障碍的聋哑人。 在提倡关爱、互助的现代文明社会,对残疾人的服务也越来越受到社会各界 的重视。整个社会都在为聋哑人创造着与普通人一样的生活方式。在网络日益流 行的今天,海量信息通过网络在世界各地传输,而基于中国手语词汇的分词系统 将使中国聋哑人能够有机会真正享受到与正常人一样的网络服务。通过这一技 术,聋哑人可以接受网络教学、中国手语导播、电视手语新闻导播,甚至可以在 网络上同正常人进行无障碍交流。这一技术的另一个重要意义在于,对改善残疾 第l 章绪论 人儿童的教育有着深远的影响。在科教兴国的今天,社会在关注正常儿童教育问 题的同时,必须同时关注残疾人儿童的特殊教育问题,残疾儿童之中依然不伐栋 梁之材,所以基于中国手语词汇的分词系统的研究将对残疾儿童的教育培养起到 十分积极的作用。 据统计全世界现有7 0 0 0 多万聋哑人,中国的聋哑人大概有2 0 5 7 万之多。因 此服务于聋哑人的基于网络的中国手语环境下的自然语言处理系统在整个中国, 乃至整个世界都将具有广泛的市场。并且在中国有关这一领域的研究仍然处于萌 芽状态。针对聋哑人的信息产业还没有成型,因此,无论从社会公益的角度,还 是从市场销售的角度,此项目都具有极大的发展潜力,也必将得到社会的广泛认 同和支持。 为了达到聋哑人在网络上的无障碍交流,中国手语词汇的分词系统将是整个 项目的基础。虽然中国手语词汇较之汉语词汇在数量上削减了很多,但是同普通 汉语分词系统一样,整个系统的准确性、高效性、适用性依然是研究的重要内容。 此次,对中国手语环境下分词系统的研究,是将语料文本信息过滤,然后进行切 分和歧义消减,希望能够在理论和关键技术上取得新的突破,使机器的自动分词 功能可以达到像人类理解词语一样准确和高效。 1 3 论文的研究目的和研究内容 1 3 1 本文的研究目的 中国手语的研究具有重要的理论意义和应用价值。但是,客观地说,目前中 国手语研究尚处于研究阶段,理论基础也还不够坚实,更有很多实践问题急需解 决。因此,本文将在已有相关研究的基础上,面向全世界的残疾人,结合中国手 语的具体应用问题,重点研究中国手语环境下的大词汇量的分割,基于网页的文 本抓取和解析、文本分割问题,尤其是要研究词语分割的效率、分词过程歧义的 识别、歧义字段消减的解决方案,在中国手语环境下提高分词的准确度和精度的 理论与方法,力争在这些问题上取得一些突破。最终目标是要实现一个系统:中 国手语环境下的“汉语自动分词系统”。 1 3 2 本文的研究内容 ( 1 ) 研究w 曲网页的抓取和w 曲网页的解析,其中包括网页抓取、h n 仉 格式文件解析的算法和实现过程。 ( 2 ) 语料库的整理。详细介绍了语料库的训练集和钡9 试集的收集过程、信 息的统计过程和信息的整理过程,以及分词系统知识库的建立过程。 北京工业大学工学硕士学位论文 ( 3 ) 手语词典的重建。详细介绍了中国手语词典的特点,探讨了线性链表、 二叉树和 k 吐表的工作原理与改进措施,并详细描述了h a s h 表的构造算法。深 入研究了手语词典的结构和构造算法,并分析了重构后词典的性能。 ( 4 ) 针对歧义字段的识别问题,本文在分析中国手语词典地基础上,提出 了一种改进的正向匹配算法和逆向匹配算法。本算法大大减少了词典查找和匹配 的次数,提高了分词效率。 ( 5 ) 针对歧义字段的消减问题,本文在统计学的基础上,提出一种广义似 然比和上下文信息相结合歧义消减算法,本方法既考虑到了训练集语料的先验知 识,同时又考虑到了当前待处理语料的上下文信息。 ( 6 ) 实验测试:通过大量的测试语料验证算法的可行性和系统的准确度和 效率。 ( 7 ) 本文实现了中国手语环境下的基于大词汇量手语词语的“汉语自动分 词系统”,并分析和剖析了系统的框架和工作原理。 ( 8 ) 最后,分析了手语分词系统的缺点和不足,提出了改进措施,并对后 期工作进行了展望。 第2 章自然语言自动分词的数学基础 第2 章自然语言自动分词的数学基础 2 1 自动分词系统的理论模型 设d 为自然语言自动分词过程中依据的手语词典,彤,呢,为d 中 的元素( 手语词汇) ,n 为自然数。 设t 为要进行分词的文本;a 是非汉字字符集合,即外文字母、阿拉伯数字、 标点符号和空格的集合;c 为汉字的集合,则t 是由c 的元素和a 的元素组成 的序列。设s 是t 中短旬的集合,则t 是s 和a 的元素组成的序列。 对于任意的歧义字段p ,再确定的语言环境中都存在唯一的一种正确切分。 即对任意的一个歧义字段p = c l c :厶都有唯一映射七:q 吃厶斗形既 其中,形,d ,_ ,= l 2 ,埘,使得p 在k 的作用下的得到正确的切分。所有的k 的集合称为知识库k 。因此,知识库k 可用于处理各类歧义字段。 综上所述。可以得到如下分词的模型c s l s m ( c h i i 璩s es i 伊伽g l l a g cw j r d s e g 删斌a t i o n m o d c l ) :肘( 只d ,r ,的,其结构如图2 1 所示。 图2 1 中国手语分词系统的框架 f i g 哦冬l 鼬1 l c 缸“w o 柑s q 蛐州t 嘶0 n 句砷锄l 】n d 盯c h h 氍s i 趴h l g u 咿 其中f 是基本的分词方法,d 是中国手语词典,t 是中文文本,k 是知识库, 对任意的一个短旬( 或字段) d r ,有,0 七) = 以,其中 北京工业大学工学硕士学位论文 ,f :呢d ,_ j 置。上式表示f 在k 的约束下,将d 切分成为 彬,有时k 还包括t 的上下文知识。 2 2 自动分词的数学基础 语言现象有着显著的随机性,需要用分析随机现象的工具来对其加以研究, 概率论和统计学就是讨论随机现象的基本的数学工具:概率论给出了随机现象数 学模型,并用数学的语言来描述它们,以便找出其规律性;统计学研究如何以有 效的方式收集、整理和分析受到随机性影响的数据,从而对所考察的问题做出统 计推断,这种统计推断是以概率论的理论为基础的剐。可以说概率论是统计学 的理论基础,而统计学是概率论的一种应用。 2 2 1 概率 “概率”是概率论中的一个最基本的概念。 定义2 1 概率设e 是随机试验,s 是它的样本样本空间。对于e 的每一事 件a 赋予一个实数,记为,( ,称为事件a 的概率,如果集合函数p ( ) 满足下 列条件: 非负性:对于每一个事件a ,有p 乜) o 。 规范性:对于必然事件s ,有p $ ) = 1 。 可列可加性;设4 ,4 ,4 两两互不相容的事件,即对于f - , 4 4 = o ,f ,_ ,= 1 ,2 ,”栉,贝u 有p 0 。u 彳:u u 彳。) = p “) + ,0 :) + + p 0 ) 。 7 定义2 2 频率在相同条件下,进行了n 次试验,事件a 发生的次数为删, 比值删以称为事件a 发生的频率,记为加) 。 对于具体的随机事件,通常容易得到它的频率,当实验次数不断增大时频率 表现出一种稳定性,b 锄o l l l l i 大数定理指出频率收敛于概率,由实际推断原理 ( 触i n 陆p i i n c i p l e ,即指:在一次试验中大概率事件几乎肯定要发生,而小概 率事件几乎不可能发生。) ,在实际应用中,当试验次数很大时,便可以用事件发 生的频率替代事件的概率。由此,在计算语言学中,如果语料规模相当大,便能 够用词频来替代词的概率。 例如,一个规模是l o o 万词的文学语料库中,其中“桓”出现了1 5 1 6 9 次, 第2 章自然语言自动分词的数学基础 就可以大致认为“桓”的概率是o 0 1 5 1 6 9 ,表示为:p ( 形- i t 橱) = o 0 1 5 1 6 9 这意 味着当从语料中任意挑选一个词恰好为“桓”的可能性为1 5 1 6 9 。可以简单地 写成p ( ”桓”) = o 0 1 5 1 6 9 。 2 2 2n g r a m 模型 n g r a m 模型是统计语言模型邶中最常用的模型之一。这种模型假设:变 量形代表一个文本中顺序排列的m 个词( 矿= w l ) ,然后计算这个词序 列w 在文本信息中出现的概率p ( 形) 。计算以矽) 的公式如式( 2 - 1 ) 所示: 尸( 降r ) = p ( 嵋) 以w 2im ) p ( w 31w l ) 。,( l 。j - 1 )( 2 - 1 ) 由公式( 2 - 1 ) 可知,如果想预知词m 0 出现的概率,就必须已知它前面所有 词的出现概率。由此总结出n 元模型嘲( n g r a m ) 的公式如下: ,( 形) = p ( w 1 ) p ( w 21w 1 ) p ( w 31w l w 2 ) 。p ( 川i 啦一“嵋- 1 ) = 兀尸( 嵋i m 掣“) ( 2 - 笱 l l 在公式( 2 - 2 ) 中,假定任意一个词的出现概率只与它之前的n - 1 个词有 关。n p ( ) 符号表示概率的连乘,h 学“表示w l - 。嵋。j 。在实际中,通 m 常使用的是二元或者三元模型,即令= 2 或者= 3 。 在二元模型中,m 的出现概率可以近似的看成只与其之前的一个词相关, 所以二元模型的表达式如式( 2 3 ) 所示: p ( 形) = n p ( 川i m h ) ( 2 3 ) m 对三元模型,m 的出现概率可以近似的看成只与其之间的两个词有关,所 以三元模型的表达式如式( 2 4 ) 所示: p ( 形) = 兀p ( w ii 雌:川。) ( 2 川 北京工业大学工学硕士学位论文 2 2 3 互信息( m i ) 模型 c e s h 锄n 于1 9 4 8 年1 0 月发表子1 1 1 cb e us y s 缸nt e c h n i c a lj o 嘲1 a l 上的论 文am a :i h e m a 虹c a lm o r yo fc o 删珈n i c a t i 给出了熵( e n t r c p y ) 和互信息阻 删q 如t u a li n f o r m a t i o n ) 的定义。 定义2 3 自信息它是指任意随机事件发生概率的对数的负值。其定义如式 ( 2 5 ) 所示: i ) = - l 0 9 2 p )( 2 5 ) 自信息量阱3 町是用来度量随机事件的不确定度。 定义2 4 互信息对两个离散随机事件x 和y ,事件y 的出现给出关于事件 x 的信息量,定义为互信息量。其定义式为: ,何;d = 蜿:号等= 崦:爿鬻高 g 甸 由互信息的定义可得式( 2 7 ) : 职;州o g :等= 1 0 9 2 删即_ 1 0 9 2 艄 容易看出,互信息为两个不确定度之差,是不确定度被消除的部分,代表已 经确定的东西。实际是从y 得到的关于x 的信息量。即等于先验的不确定性减 去尚存在的不确定性。也就是说,互信息指出了两个事件集合之问的相关性。 互信息的几个性质: 1 互信息的互易性 互信息量的互易性可表示为: ,( x ;】,) = j ( y ;z ) 此性质的意义是:事件x 提供的有关于事件y 的信息量等于由事件y 提供 的关于事件x 信息量。 2 互信息可为零 当事件x 和y 统计独立时,互信息量为零。 ,( z ;y ) = o 此性质的意义是:当两个事件统计独立时,其相互信息量为零,这也就是说 不能从观测一个事件中获得有关另一个事件的任何信息。 3 互信息可正可负 互信息量为正,意味着事件y 的出现有助于肯定事件x 的出现;互信息量 为负时估计变得更加困难,即不确定性增加了 设一个汉字串q c 2 c 3 q q 。厶,汉字q 和汉字c 。的互信息计算如下; 讹;) = l o g :嵩璐 公式( 2 8 ) 中p ( q ) 是汉字串q 出现的概率,其值是通过统计汉字q 和 汉字c 。同时出现频率除以语料库中汉字的总数n 得到的;同理可以得到以q ) , ,( q q 。) = 掣 ( 2 - 9 ) 盹) = 掣 ( 2 - 1 0 ) 撕。h 唱2 f 三塞筮卜( 高器糕 。 以叩m ) - l o g z i 丽茄面而l = l o g z 【嵩篆豢告j 弘1 1 ) nn ) 例如,两个词在语料中的概率分别是p 0 。) 和p ( q 。) ,它们在语料中同时出 即p ( q c j + ,) p ( q ) p ( c j + 。) ,这时q 和q + 。之间存在结合关系,认为它们构成 北京工业大学工学硕士学位论文 即尸“q + 。) * p ) 即。) ,这时q 和钆。之间没有可以肯定的关系 可以利用互信息的概念,从未经分词的语料中获取词汇。如果所要获取的是 双字词,就统计每两个字的互信息,把互信息高于一定阈值的双字作为候选词, 再由人工检查作最后确定。 互信息具有互易性,即,( x ;y ) = j ( e 柳。如果使用互信息原有的定义,那 么就会将“气功”和“功气”都确定为候选词,但显然,双字“气功”是词,“功 气”不是词,前者的出现概率远远高于后者。因此,在词汇获取时, ,c _ :| ;d “l x ) 。所以将互信息用于词汇获取时必需对其定义加以修改,定义 式中的分子应该是两个语言符号之间的转移概率而不是它们同时出现的概率,这 样就能确定两个语言符号之间的次序关系。 获取三字词时,可以把三字词拆两个部分:q q + 与q 。,然后统计c ,q 。与 q + :的互信息: 枷胍鼬g :老荔高 如果互信息高于预定的阈值,就可以把该三字视为词。当然,也可以拆成a 与b c 两个部分。不管怎样拆分,都需要统计双字和三字同现的概率。如果的 确是词,互信息,( 4 ;b ) 跟j ( b ;c ) 的比值可以显示出词的结构:如果接近于l , 三个字之间的关系没有疏密之分,如“阿根廷”;如果远大于1 ,表明前两个字 结合更加紧密,如“参谋长”;如果远小于1 ,表明后两个字结合更加紧密,如 “总司令”。 2 2 4 似然比( l r ) 模型 似然比l r 矧皿i l 【e l i h o o di l a t i o ) 和互信息( ) 相似,可以用来测量相邻 汉字紧密程度,如果相邻的汉字具有很高的l r 值或超过一个预定义的阙值,则 把它们看成一个词语。 假设形是n 个汉字组成的序列串形= q 心岛c 4 。 假设l :汉字乞和汉字q 的出现是不相关的,即两者问是独立的: h 1 :尸( 岛f q ) = p = p p 2i - 1 c 1 ) ( 2 1 2 ) 假设2 :汉字c :和汉字c l 的出现相关的,即两者间是非独立的: 1 4 第2 章自然语言自动分词的数学基础 h 2 :,【c 2lc l j 2 q 艺2 ,【吃l _ 1 q )【2 。1 3 ) 然而,极大似然比m l e ( m a x i l m 姐l 龇l i h de 删o n ) 被用于计算尸,毋 和最的值,具体公式如下: p :塑磐 ( 2 1 4 ) 、7 丑= 甓等 s , e = 等紫 ( 2 j 6 ) n 一静e q ( c t 、 、 其中咖g ( c i ) ,加g 包) 和加g ( c 。c :) 分别表示c l ,吒和q c 2 在语料中出现的频 率n 是语料中词语的总数目。 二项分布的定义如下: 6 ,疗,功= ( : 矿( 1 一曲。嘲 ( 2 - 1 7 ) 根据公式( 2 - 1 7 ) ,似然比九的对数值计算如下: l 略五:l o g 兰塑竺丝! 垒! :丝垡鱼! ! ! 鲨! 地鱼2 二丝堡鱼垒2 1 丝二塑型鱼2 1 生 。 。6 汐叼( q 吒) ,加g ( c 1 ) ,置) 6 p g ( c :) 一加g ( q c :) ,一加g ( c 1 ) ,e ) = l o g 三( 加g “乞) ,加q “) ,d + l o g 工g ( c 2 ) 一加g ( c l c 2 ) ,一西叼“) ,p ) 一k 喀工( 加g “白) ,嘞( q ) ,丑) 一1 0 9 三( 咕g ( c 2 ) 一加g ( c l c 2 ) ,一 叼( q ) ,最 ( 2 一1 8 ) 其中上以靠,力= ( 1 一功加哪,- 2 l o 酚分布近似于z 2 分布。一2 l o g a 的值越大, 我们选择日2 而拒绝日1 的可能性越大。 2 3 本童小结 本章首先对自动分词的理论模型进行了探讨,重点介绍了典型的统计模型互 信息( m i ) 和似然比( l r ) 模型。文中分别分析了两种方法的原理,并结合自 然语言处理的应用对两种方法进行了介绍。 到目前为止,在中国手语环境下还没有一个得到业界公认、通用性比较好的 分词系统面世。本论文在充分挖掘现有研究成果的基础上,试图能在分词算法、 北京工业大学工学硕士学位论文 歧义字段的识别和消减上有所改进,从而能使系统性能在一些方面得到突破。 第3 章中国手语环境下自动分词的研究 第3 章中国手语环境下自动分词的研究 中国手语环境下基于w 曲网页的自然语言处理所要达到的目的是和普通汉 语分词一样的,都是为了使计算机能够更加高效准确的理解中文文本信息。然而, 中国手语环境下的自然语言的处理的方法和普通的自然语言处理方法截然不同。 中国手语环境的独特性和中国手语词语的特殊性导致了分词的差异。中国手语环 境下的分词必须借助于中国手语词典,这就决定了我们分词方法的特定性。除此 之外,中国手语词汇本身的特殊性又给自然语言的出来带了很多问题。针对以上 问题,本文采用了基于规则的方法( 机械分词) 和统计方法相结合的方式进行自 然语言处理。 手语环境下的分词研究就有广泛的应用前景,可以用于w 曲新闻导播、电 视画中画导播和信息亭等多领域。如图3 1 所示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论