（计算机软件与理论专业论文）面向普适计算办公环境的汉语处理技术的研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：59 大小：1.51MB 积分：0 举报 版权申诉

（计算机软件与理论专业论文）面向普适计算办公环境的汉语处理技术的研究.pdf_第2页

（计算机软件与理论专业论文）面向普适计算办公环境的汉语处理技术的研究.pdf_第3页

（计算机软件与理论专业论文）面向普适计算办公环境的汉语处理技术的研究.pdf_第4页

（计算机软件与理论专业论文）面向普适计算办公环境的汉语处理技术的研究.pdf_第5页

已阅读5页，还剩54页未读，继续免费阅读

（计算机软件与理论专业论文）面向普适计算办公环境的汉语处理技术的研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

ab s t r a c t ab s t r a c t t h e re a l p u r p o s e o f p e r v a s i v e c o m p u t i n g i s h u m a n - c e n t e r e d c o m p u t i n g , w h i c h b r i n g s a b u n d a n t c o m p u ta t i o n a n d c o m m u n i c a t i o n , a s p e rv a s i v e a n d fr e e a s a i r , n a t u r a ll y i n t o p e o p l e s l i v e s . s o c o n v e n i e n c e a n d fl e x i b i l i t y o f p e r s o n - m a c h i n e i n t e r a c t i o n i s e s s e n t i a l , w h i c h r a i s e s h i g h e r r e q u e s t t o s y s t e m a b i l i t y o f t h e n a t u r a l l a n g u a g e p r o c e s s i n g , m a k i n g t h e s y s t e m u n d e r s t a n d u s e r re q u i r e m e n t , p r o v i d i n g th e s e r v i c e a c t i v e l y f o r t h e c u s t o m e r , w i t h o u t i n t e r f e r e n c e o f p e o p l e s a tt e n t i o n . i n p e r v a s i v e c o m p u t i n g e n v i r o n me n t , t h e n a t u r a l l a n g u a g e p r o c e s s i n g t e c h n o l - o g y i n i n t e l l i g e n c e o f f i c e s y s t e m w a s re s e a r c h e 氏a n d a p l a t f o r m o f n l p w a s i m p l e m e n t e d t o p r o v i d e a s y n t a c t i c a n d s e m a n t i c i n t e r f a c e f o r t h e f o l l o w i n g w o r k . t h e re s e a r c h o f s y n t a x a n a l y s i s w a s m a i n l y f o c u s e d o n i n t h i s a r t i c l e t o d e v e l o p a s y n t a x a n a l y s i s s y s t e m , w h i c h w a s d i v i d e d i n t o t h r e e m a i n t a s k s : w o r d s e g m e n t a t i o n , p a rt o f s p e e c h t a g g i n g a n d s y n t a x a n a l y s i s . t h e s e t h ree t a s k s w e r e r e a li z e d w i t h t w o m o d u l e s : t h e w o r d s e g m e n t a t i o n a n d p a r t o f s p e e c h t a g g i n g m o d u l e , t h e s y n t a x a n a l y s i s m o d u l e . t h e m a x i m u m m a t c h b a s e d a p p r o a c h a l g o r it h m s w a s a d o p t e d a n d i m p r o v e d c h a rt a l g o r i t h m b a s e d o n c o n t e x t w a s a d o p t e d t o i m p l e m e n t t h e m o d u l e s s e p a r a t e l y . h a v i n g a n a l y z e d t h e c h a r a c t e r i s t i c s a n d m e t h o d s o f t h e t w o m o d u l e s , t h e a l g o r it h m fl o w , t h e a n a l y s i s t a c t i c s , a n d t h e p r o c e d u re o f re a l i z a t i o n w e re p r o v i d e 氏 a n d a l s o s i m p l e a n a l y s i s o f a l g o r i t h m e ff i c i e n c y w a s g i v e n . a t l a s t , a s i m p l e s u m m a ry a n d o u t l o o k o f t h e w o r k i n t h i s p a p e r w a s p r o v i d e 氏 a n d t h e re s e a r c h me t h o d o f s e m a n t i c a n a l y s i s w a s p u t f o r w a r d . k e y wo r d s p e r v a s i v e c o m p u t i n g , n a t u r a l l a n g u a g e p r o c e s s i n g , l e x i c a l a n a l y s i s , s y n t a x a n a l y s i s 图目录图目录图1 . 1系统处理流程图. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 图2 . 1 c h o m s k y 形式语法. . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 5 图3 . 1语言理解系统总体设计图 . . . . . . . . . . . . . . . . . . . . . 2 1 图4 . 1词典的结构示例 . . . . . . . . . ， . . . . . . . . . . . . . 2 7 图4 . 2单词切分流程图. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 9 图4 . 3歧义处理示例 . . . . . . . . . . . . . . . . . . . . . ， . . . 3 2 图4 . 4钡业试结果示例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 图4 . 5 c h a r t 分析示例. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 5 图4 . 6具有连看功能的c h a r t 分析示例 . . . . . . . . . . . . . . . 3 5 图4 . 7具有剪枝功能的c h a r t 分析示例 . . . . . . . . . . . . . . . 3 6 图4 . 8改进的c h a r t 算法的流程图 . . . . . . . . . . . . . . . . . . . 3 8 图4 . 9传统的c h a r t 算法分析结果示例 . . . . . . . . . . . . . . . 4 4 图4 . 1 0改进的c h a r t 算法分析结果示例 . . . . . . . . . . . ，二4 5 图4 . 1 1改进前的句法分析结果示例，二， . . . . . . . . 4 6 图4 . 1 2改进后的句法分析结果示例， . . ， . . . . . 4 6 图5 . 1语义理解流程图二， . . . . . . . . . . . . . . . . . . . . . . . . . . 5 3 图5 . 2语义网络示例 . . . . . . . . . . . . . . . . . . . . . . . . . ， . . 5 3 vi ii 表目录表目录表2 . 1 c h o m s k y 语法层次体系. . . . . . . . . . . . . . . . . . . . . . . . 1 4 表3 . 1活性边与非活性边示例 . . . . . . . . . . . . . . . . . . . . . . . 1 7 表 4 . 1词性标记集. . . . 。， . . . . . . ， . . . . . . . . 2 4 表 4 . 2短语标记集 . ， . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 4 表 4 . 3句型库示例. ， . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 5 表 4 . 4典型句型测试结果 . . . . . . . . . . . ， . ， . . . . . . . 4 7 i x 南开大学学位论文版权使用授权书本人完全了解南开大学关于收集、保存、使用学位论文的规定，同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版，并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务; 学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下，学校一可以适当复制论文的部分或全部内容用于学术活动。学位论文作者签名 : i wd k, 川年 t 月才日经指导教师同意，本学位论文属于保密，在年解密后适用本授权书。指导教师签名:学位论文作者签名: 解密时间: 年月日各密级的最长保密年限及书写格式规定如下: 内部5 年 ( 最长 5 年，可少于 5 年) 秘密*1 0 年 ( 最长 1 0年，可少于 1 0年) 机密*2 0 年 ( 最长 2 0年，可少于 2 0年) 南开大学学位论文原创性声明本人郑重声明:所呈交的学位论文，是本人在导师指导下，进行研究工作所取得的成果。除文中已经注明引用的内容外，本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体，均己在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名 : 刻,# 砂1 年丁月牙日第一章前言第一章前言第一节项目背景介绍 1 . 1 . 1普适计算简介普适计算的思想最早是由 m a r k w e i s e r博士于 1 9 9 1年在 s c ie n t i f i c a m e r ic a n 的 “ t h e c o m p u t e r f o r t h e 2 1 s t c e n t u ry ，提出的。普适计算 h l也称作无处不在计算( p e rv a s i v e c o m p u t i n g o r u b i q u i t o u s c o m p u t i n g ) ，指无所不在的、随时随地可以进行计算的一种方式，普适计算设备嵌入到人们生活的环境中，为人们提供计算和信息访问。普适计算描述了具有丰富计算资源和通信能力的人和环境之间关系的场景，这个环境与人们逐渐地融合在一起;它把计算机嵌入到各种类型的设备中，建立一个将计算和通信融入人类生活空间的交互环境，从而极大地提高个人的工作以及与他人合作的效率自。普适计算将具有以下特点: 首先，普适计算具有无处不在性。在普适计算环境下计算将充斥在地下、墙壁、桌椅、日用品、衣服等日常生活环境中，普适计算设备不仅通过有线网络，还常借助于无线网络等来实现信息的访问和资源的共享，它一般具有高度可移动性。其次，普适计算将改善人与计算机的关系。目前人必须通过培训才能使用计算机，并用计算机能够理解的方式，例如，使用鼠标或键盘和计算机交互，在普适计算环境下人可以使用语音、手势等更自然的方式和计算机交互，这样使得人能够更专注于主要的工作。再次，普适计算将具有上下文感知能力。它知道何时、何地、在和谁交互，从而能更具个性化，甚至主动发现人的需要，为人提供服务。最后，普适计算服务具有不可见性。普适计算环境下不需要人工干预，普适计算设备具有自我调整和自我配置的能力，信息空间将同人们学习工作生活的物理空间融合在一起。总之，普适计算将改变 “ 人使用计算机” 的方式，将人与计算机的关系改变为“ 计算机为人服务” ，让人与计算环境更好地融合在一起，是 2 1 世纪的计算模式。一言以概之，“ 只有当机器进入人们生活环境，而不是强迫人们进入机器第 1页第一章前言世界时，机器的使用才能像林中漫步一样新鲜有趣3 j n. 1 . 1 . 2 普适环境下的语言理解技术普适计算的真正目的在于实现以人为本的计算，它使计算和通信能力无处不在地融合在人们生活和工作的现实环境中。其中人机交互的友好性和便利性是必需的，其对于系统的自然语言理解和处理能力有了更高的要求，使得系统能在不干扰人们注意力的同时，理解用户的需求，为用户主动地提供服务。系统中通过手持设备进行服务器访问的工作流程为:用户通过手持设备以语音或文本的方式提出自己的需求，服务器收到后将其转换成文字的形式，进行语法分析，语义分析和提取，动作函数的定位和执行，最终实现用户的请求。这一过程中，对用户需求的理解和相关信息的分析具有非常重要的作用，只有正确理解用户的意图，才能更好的为用户提供服务。系统的整个处理流程如图 1 . 1 所示: 图 1 . 1系统处理流程图第二节课题的提出 1 .2 . 1汉语语言的特点汉语有很多不同于西方语言的语法特性，只有了解汉语本身的特点，才能更好的实现语言理解技术。下面列出一些显著的特性f4 1 , 第 2页第一章前言 1 .汉语句子由汉字串组成，字与字之间无空格; 2 .一个词在不同的上下文中具有多个不同的语法功能; 3 .汉语没有屈折变化形式的标志; 4 . 构词规则可由很多不同的句法类型来实现; 5 .线性词序相对自由任意; 6 .词的语义复杂，多音词广泛存在; 7 .汉语中的词基本上没有词型标志等。这些特点对汉语的分析造成了一定的影响，使得汉语分析呈现出和英语以及其他一些语言不同的特点。 1 . 2 .2普适办公环境下自然语言的特点现在计算机智能还远远没有达到能够象人一样理解自然语言的水平，而且在可预见的将来也达不到这样的水平。因此，关于计算机对自然语言的理解一般是从实用的角度进行评判的5 1 . 本文针对普适计算办公环境这一应用领域下语言的特点，对语言理解提出一定的要求，使得计算机能实现在此要求上的语言信息处理功能。普适计算办公环境下的语言有如下特点: 1 .词典库的特点词汇是文本分析的基础，本系统的词汇分为专用词汇和普通词汇，主要收集了办公环境下的常用词汇，特别是一些专用名词 “ 打印机” 、“ 投影仪”等进行整理，形成专用词汇库。在此基础上，对日常生活中常见的词汇，参考信息处理用现代汉语分词词表进行尽可能全面的收集，使词典库能满足办公环境下自然语言处理的需要。 2 .词语分词的特点汉语的词频统计 6 1 表明，在汉语中，两字词大约占7 5 % 左右。该系统下的语言主要是规范的办公环境用语，对于一些 “ 呀”、“ 哦”等口语化的语气词使用较少，因而双字词的比例会更高一些。据此，词语的存储设计为基于二级索引的词典结构，相应的分词算法采用增量的最大匹配算法，经测试切分结果基本满足了系统的需要。 3 .短语的特点该系统具有上下文敏感性，对于代词、介词短语、时间短语、方位短语等第 3页第一章前言所表达的含义要进行转换处理、实现模糊指代功能。如 “ 打开我的计算机” ，在句法分析之后，系统要对词 “ 我”要进行定位和转换处理，最终将 “ 我” 变为 u s e r 0 0 1 ( 系统对用户的统一编号) ，之后去寻找计算机，执行操作。这里对短语结构、句法结构的正确性分析提出了一定的要求。随着社会的日益信息化，人们越来越强烈地希望用自然语言同计算机交流。从计算机科学特别是从人工智能的观点看，自然语言理解就是研究如何能让计算机理解人们日常所使用的语言，目的在于建立起一种人与机器之间的密切而友好的关系，使之能进行高度的信息传递与认知活动. 在普适计算环境下，这种需求变得更加的强烈，只有计算机能真正理解人的话语、懂得人的需求，才可能按照人们的期望，给出相应的信息或执行相关的动作，才能真正实现计算机为人服务。 1 . 2 .3课题的实际意义普适计算的目标之一就是要使得人和计算机的交互更加自然，让人能够更专注于工作本身，因而使用自然语言理解的方式是普适计算的内在要求.可以预见，在未来的普适计算中自然语言理解将会有很重要的应用. 在基于普适计算环境建设方面，国外一些研究机构非常关注自然语言理解在普适环境中的应用。麻省理工学院a 1 l a b 的 “ o x y g e n ，计划(71 的一个普适计算在会议的应用例子中，用户通过头戴式话筒给计算机发送语音命令，例如: “ 计算机，将今天的议程显示一下” ，计算机听到命令后用投影仪在墙壁上投影今天的议程。这说明了国外研究机构在普适计算中己经开始重视自然语言理解的作用，并己取得了一定的进展。从国内对普适计算的研究领域可以知道，国内还没有一个专门研究如何建立一个基于自然语言理解的普适计算环境的项目，因此这方面的研究具有一定的新颖性。可见，由于汉语本身的特点使得我们不能照搬国外的研究成果，而且在普适计算办公环境下自然语言又有其自身的特点，因此对语言理解技术进行专门的研究和实现，就显得非常必要了。第三节本文内容组织与工作内容本文的内容如下组织: 第 4页第一章前言第一章对普适计算环境以及该环境下的语言理解技术做了简单的介绍，并给出了课题研究的实际意义。第二章介绍了该系统中涉及的技术理论和常用算法，从分词、词性标注和句法分析三个部分分别阐述。第三章是对系统总体结构设计的说明，包括系统的目标、功能、实现的关键技术及总体架构等几个方面。第四章给出了本系统的设计与实现。在分词和词性标注模块实现了基于词典的增字的最大匹配分词算法，在句法分析模块实现了改进的基于上下文的c h a r t 算法，并分别给出了试验结果和简单分析。第五章对本文所做的工作进行了总结，提出了今后的工作方向并对语义处理部分做了进一步的展望。目前，主要完成了以下几项工作: 1 .设计了一套普适计算办公环境下常用的汉语句型库作为研究基础; 2 .根据办公环境实际应用，确定了一套词性标记集和短语标记集; 3 .建立了一套普适计算办公环境下使用的词典库; 4 .根据普适环境下常用的句型，设计了一套基于上下文无关的语法规则库; s .实现了基于增量的最大匹配算法的分词和词性标注模块; 6 .实现了改进的基于上下文的c h a rt 算法的句法分析模块。以上任何一方面均是系统实现必不可少的环节，设计的优劣将关系到本系统的实际性能。第 5页第二章系统的关键技术分析第二章系统的关键技术分析第一节单词切分相关技术 2 . 1 . 1简介计算机中文信息处理就是要 “ 用计算机对汉语的音、形、义进行处理”e 1 在汉语中，“ 词是最小的能够独立活动的有意义的语言成分” 1 。然而，汉语文本是连续的汉字串，词与词之间没有明确的分隔标记，因此，自动识别词边界，将汉字串切分为正确的词串的汉语分词无疑是实现中文信息处理的各项任务的首要问题 d ol 2 . 1 . 2 分词系统的目标普适计算办公环境下分词系统的优劣主要从以下几个方面来衡量，即准确性、高效性、模块化及适用性。 1 .准确性准确率是分词系统性能的核心指标。分词是自然语言处理的首要步骤，经统计发现 f i l l ，分词系统的准确率应达到9 9 . 9 96 以上才能基本满足上层模块使用的要求。 2 .高效性分词是自然语言处理的基础性工作，这步工作消耗的时间应尽量少，应只占上层处理所需时间的一小部分，并应使用户没有等待的感觉。 3 .模块化分词系统是句法分析、语义分析等后续工作的基础，其作为语言理解系统的一个环节，既要保证其独立的正确运行，又要为后续处理提供友好的接口，使得对其的修改不会对其他模块造成影响。 4 .适用性汉语自动分词是手段而不是目的，任何分词系统产生的结果都是为某个具体的应用服务的。本文设计的分词系统主要针对办公环境下的自然语言进行切分，使其能很好地满足办公环境下语言理解的需要。第7页第二章系统的关键技术分析 2 . 1 . 3 常用的分词方法目前常用的切分方法可以分为以下三类: 2 . 1 .3 . 1基于词典的机械分词方法按照一定的策略将待分析的汉字串与一个机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功( 识别出一个词) 。按照扫描方向的不同，串匹配分词方法可以分为正向匹配、逆向匹配和双向匹配( 正向和逆向的组合) : 按照不同长度优先匹配的情况，可以分为最大匹配、最小匹配、逐词匹配和最佳匹配等。最大匹配的基本思想:( 1 ) 取出待切分汉语句的m 个字符作为匹配字段，其中 m 为机器可读词典中的最长词条的汉字个数;( 2 ) 查找机器可读词典并进行匹配。若能匹配，则将这个匹配字段作为一个词切分出来;若不能匹配，则将这个匹配字段的最后一个字去掉，剩余的字符串作为新的匹配字段，进行再词匹配.重复以上过程，直到切分出所有词为止。最小匹配的基本思想是使待切分语句分词后得到的词最少。逐词匹配法是把词典中的词按由长到短的顺序在待切分语句中进行搜索和匹配，直到把所有的词都切分出来为止。最佳匹配的基本思想是词典中的词条按照词频的大小来顺序排列，以求缩短分词词典的检索时间，从而降低分词的时间复杂度。基于词典的分词方法的优点是简单、易于实现。其缺点是 1 2 .13 1 : ( 1 ) 匹配速度慢:( 2 ) 存在交集型和组合型歧义切分问题;( 3 ) 词本身没有一个标准的定义，没有统一标准的词集;( 4 ) 不同词典产生的歧义也不同。 2 . 1 .3 .2 基于统计的分词方法基于统计的分词方法所应用的主要统计量或统计模型有: 互信息、n元文法模型、隐m a r k o v 模型和最大嫡模型等。这些统计模型主要是利用词与词的联合概率作为分词的信息。 1 .互信息对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互信息。定义两个字的互信息，计算两个汉字x , y 的相邻共现概率。对于字符串x 和y ，其互信息的计算公式如下: 第 b页第二章系统的关键技术分析 w ( x , y ) = l o g 2p ( x , y ) 其中 p ( x ,y ) 为字符串 x 和y 共现的概率， p ( x ) p ( y ) p ( x ) 和p ( y ) 分别为字符串x 和y 出现的概率。互信息m i ( x ,y ) 反映了字符串对之间结合关系的紧密程度。 ( 1 ) 互信息 m i ( x ,y ) 0 ，则x 与y 之间具有可信的结合关系，并且 m i ( x ,y ) 越大，结合程度越强; ( 2 ) m i ( x , y ) -o，则 x 与 y 之间的结合关系不明确; ( 3 ) m i ( x ,y ) 刀， ( 。，刀e ( v u t ) * ) , a x e 1 型上下文有关文法线性有界自动机 a 。)6 , (a , ,6 。 ( v u t ) * ) , la l lq l 2 型上下文无关文法下推自动机 a - r /6 , q ( v u t ) * , a。 v 3 型正规文法有穷自动机 a -+a , a -+a b , a 。 t u 琳a ,b e v 一个p s g 所接受的语言就是由开始符号s 通过p 中的规则所可以导出的所有终结符串的集合. c h o m s k y 四种形式语法所导出的语言之间的关系如图 2 . 1 所示: 第1 4 页第二章系统的关键技术分析图2 . 1 c h o m s k y 形式语法正规文法的语法形式最严格，生成的语言最简单，分析起来也最容易 ( 时间复杂度是线性的) ，可以用有限状态自动机进行分析。由于有限状态自动机的高效性，也有人使用它来进行句法分析，甚至有人用来做机器翻译 3 1 1 上下文无关文法虽然不足以刻划自然语言的复杂性，但由于其形式简单，分析效率高 ( 多项式时间复杂度)，是目前句法分析中使用最广泛的一种语言形式。本文实现的句法分析算法也都是基于上下文无关语法的。上下文有关文法分析的时间复杂度是非多项式的 ( n p问题)，而 0型文法的分析甚至不是一个可判定性问题 ( 实际上是一个半可判定问题)，所以这两种语法形式在实际中都无法得到应用。 2 .3 .3句法分析基本策略句法分析的基本策略3 2 1 有:自顶向下分析法、自底向上分析法、左角分析法等。一自顶向下分析法自顶向下的方法又称为基于预测的方法，即先构造句法树的根节点，再逐步向下扩展，直到叶节点。一自底向上分析法自底向上的方法也叫基于归约的方法，即先构造句法树的叶节点，再逐步向上扩展，直到根节点。一左角分析法第1 5页第二章系统的关键技术分析左角分析法是一种自顶向下和自底向上相结合的方法，所谓 “ 左角( l e f t c o m e r ) ” 是指任何一个句法子树中左下角的那个符号。 2 . 3 . 4 句法分析算法句法分析的过程就是将小的语法成分组合成大的语法成分的过程。虽然各种语法的形式相差很大，不过在句法分析的过程中采用的分析算法都是类似的. 常见的上下文无关语法的句法分析算法包括: 1 . l r算法; 2 . 左角分析算法; 3 . c y k算法: 4 . m a r c u s 确定性分析算法; 5 . e a r l e y 算法; 6 . t o m i ta 算法 ( g l r算法 ) ; 7 . c h a rt 算法等。国内很多有代表性的汉语句法分析模块都是通过改进已有的经典句法分析算法设计的，不少己在实践中取得了很好的效果 3 3 1 。目前应用得最为广泛的句法分析算法是 l r算法和 c h a rt算法。由于论文主要采用了c h a rt算法的改进，下面主要介绍 c h a rt的相关概念. 2 .3 .4 . 1 线图线图 ( c h a rt )是美国计算语言学家卡普兰在树形图的基础上修改而来的。它是一组节点 ( n o d e ) 和边( e d g e ) 的集合. 即把词与词之间的间隔作为结点，把词和短语当作连接结点的边。在句法树中，父节点支配子节点，同级节点之间存在顺序关系。 2 . 3 . 4 . 2 点规则规则的右部的符号串中，可以加圆点，叫做“ 点规则” 。例如，如果s -n p v p 是语法中的一个规则，那么在线图中，下面几个加了圆点的点规则都可以作边上的标记: s-. np vp s-np . vp s- np vp. 第 1 6页第二章系统的关键技术分析在这些点规则中，圆点用来表示在分析过程的某一时刻，什么是规则中检验过的，什么是规则中尚未检验过而有待进一步检验的，可见，引入 “ 点规则” 用于表示规则右部被匹配的程度。 2 . 3 . 4 . 3 活性边与非活性边在规则使用的过程中，为了消除冗余的操作，将边分为两种，一种叫做活性边，即规则右部未被完全匹配的边。另一种叫做非活性边，用于记录一条规则右部已经被完全匹配的情形。于是，规则 s -n p v p在使用的过程中，可以产生如表3 . 1 所示的两条活性边和一条非活性边: 表3 . 1活性边与非活性边示例记录方式边状态匹配程度起点终点活性 s- - . nipvp00 活性 snp. vp01 非活性s np v p.03 2 . 3 . 4 . 4 代理表在c h a rt 算法中，还有一个重要的数据结构，称为 “ 代理表”或 “ 待处理表” ( a g e n d a )。记录待处理的成分，也称k e y . c h a rt 分析的过程就是一个不断产生新的边的过程。但是每一条新产生的边并不能立即加入到c h a r t 中，而是要放到代理表中。代理表实际上是一个边的集合，用于存放已经产生，但是还没有加入到c h a rt 中的边。代理表中边的排序和存取方式，是c h a rt算法执行策略的一个重要方面。 2 . 3 . 5 小结本节主要介绍了句法分析的任务、常用句法理论、句法分析的基本策略以及常用的句法分析算法。句法分析一般都依赖于某种语法理论，该系统实现的句法分析算法基于短语结构语法中的上下文无关文法，采用自底向上的基本策略，针对传统的 c h a rt 算法产生冗余较多而导致分析效率低的情况，提出基于上下文的改进思想，为其添加了连看和剪枝功能。改进的句法分析方法降低了冗余边的产生概率，使得分析效率和准确率得到进一步提高。第 1 7页第三章系统的总体结构设计第三章系统的总体结构设计自然语言理解是实现普适计算办公系统的第一步，是无处不在计算中信息处理和控制的基础。本文主要研究办公环境下的语言理解技术，实现自然语言处理的平台，为后续的工作提供基于用户需求的、友好的句法和语义接口。具体分为语法分析和语义分析两个部分.本论文主要着眼于语法分析的研究，目的在于开发一个适用于本环境的语法分析系统，其实现分为词法分析和句法分析两个模块。第一节系统目标该系统的目标主要是对语句进行单词切分、词性标注并给出其合理的句法结构。现阶段处理的文本单位是单句，系统以下面几个原则为目标: 1 .具有合理性，为后续的语义分析提供合理的句法树结构; 2 .具有实用性，为今后该环境下自然语言的进一步研究提供基础; 3 .具有通用性，可以方便的同其他模块相结合，不仅仅是语言处理模块，还可以为普适计算环境下更多相关问题的解决提供语法方面的支持。第二节系统的功能本文实现的是基于规则的语法分析系统，主要由知识库和控制程序两大部分组成，知识库包括含有一千多个词条的词典库和用于句法分析的规则库，以及句型库、语料库、词性和短语标记集等。控制程序是由词法分析控制程序和句法分析控制程序组成的软件包。通过本系统的工作，主要实现以下几个功能: 1 .给每个输入的句子s 进行分词: 2 .给分好的词进行词性标注; 3 .对一系列标注好词性的词，用改进的c h a rt算法进行句法分析。第 1 9页第三章系统的总体结构设计第三节系统的关键技术系统采用的后台数据库是o r a c l e 9 i 数据库，使用通用可移植语言c / c + + 作为开发工具，极大地提高了工作效率，实现了普适环境下的平台无关性。经过进一步地运行、测试、完善，最终提供给用户可以方便使用的语法接口。本文主要采用以下几种关键技术来实现: 词法分析阶段:采用基于词典的分词算法，并根据 “ 在汉语中两字词大约占7 5 % 左右”的统计规律，采用增字的最大匹配算法实现分词。匹配词条的同时为句子中的词条标注词性，对于兼类词的词性，按照办公环境下的出现频率进行优先级排序，优先处理级别较高的词性，然后依据上下文信息，结合规则库中的规则进行词性消歧。句法分析阶段:依据上下文无关文法，采用自底向上的基本策略，针对传统的c h a r t 算法产生冗余较多而导致分析效率低的情况，基于上下文的改进思想，添加连看和剪枝功能，提高算法的分析效率和准确率。存储机制采用的是句法结构树的形式。第四节系统的总体设计 3 .4 . 1系统设计的原则系统的几个重要设计原则: 1 .立足于实际需要本文的目的是构造一个普适办公环境下实用的汉语理解系统，因而在可供选择的若千技术路线面前，将根据系统的特点，尽量选用比较适合该环境的技术，完成系统的设计和实现。 2 .开放的体系结构开放的体系结构主要体现在系统的实现上所采用的软件构件技术。整个系统由一些相对独立的软件构件组成，因而可以方便地对系统进行修改、维护和扩充。分析的过程严格按照独立分析、独立生成的原则进行组织，每一阶段的算法相互独立，对其中一个阶段算法的修改不会对其他算法造成影响。 3 .采用一致的数据结构，有利于各个阶段之间的衔接. 第 2 0页第三章系统的总体结构设计 3 .4 .2 系统的组成模块该系统由两个模块组成，它们是分词和词性标注模块以及句法分析模块。 1 .分词和词性标注模块是通过最大词长匹配算法和建立的词典库实现的。当输入一个句子的时候，该算法在词典数据库中进行相应的搜索，从而将句子分解为一个个独立的词，同时为相应的词标注词性。这里采用分词和词性标注合一的方法。 2 .句法分析模块是实现对一个单句建立一个句法树的过程。将己经分词、标注词性的句子，通过改进的c h a r t 算法，运用从汉语的句法结构特点出发总结的一套语法规则，实现适用于本环境的基于规则的汉语句法分析模块。 3 .4 . 3 系统的总体设计本文主要实现了基于词法分析和句法分析的自然语言理解系统，其总体设计如图3 . 1 所示: 图3 . 1语言理解系统总体设计图在该系统中，首先从键盘或文本文件中输入汉语句子，然后通过词法分析模块，分析该句中的每个词并为其进行词性标注:在句法分析模块中根据 c h o m s k y范式形式的语法规则分析句子，用句法树描述出该句子的句法结构。在此系统中所用到的词典库和规则库，分别在后台建立词典管理系统和规则管理系统加以管理。第 2 1页第三章系统的总体结构设计第五节小结本章给出了该系统的设计目标和总体结构，介绍了实现该系统的开发环境和算法。系统具有良好的模块独立性，可以分别对分词和词性标注、句法分析进行实验。上面是对该系统的总体介绍，下一章将分各个模块具体介绍整个系统的实现。第 2 2页第四章系统的实现与结果分析第四章系统的实现与结果分析第一节知识库一个比较完善的句子或短语的自动分析，总离不开两样东西: 一部词典，词典中的每一个词项都必须带上词类标记;一部语法，语法中每一条规则都由一组词类或形式类符号按照一定顺序的排列来表示【 3 4 1 。然而在实现的过程中，对其科学性、合理性的设计和统一、规范化的表示是必须的，因此根据系统实际需要，本文建立了词性标记集和短语标记集，并且根据常用句型总结了典型句型，成为分词词典和语法规则的分析基础。 4 . 1 . 1词性标记集与短语标记集为了进行语法研究与信息处理，需要把语法功能( 或者说语法性质) 相同的或者相近的词归成一类3 5 1 .这里包含两项工作。一项是要针对汉语词语的全集，按照某种标准，建立一个分类体系。在朱德熙先生的语法理论的指导下，北大计算语言学研究所与中文系合作，经过几年的研究，提出了一个适用于语言信息处理的现代汉语词语分类体系 3 61 。多项语言工程的实践检验了这个词语分类体系的科学性与可操作性。这个词语分类体系在中文信息处理学界己产生较大的影响。另一项工作是决定该全集中的每一个词语究竟属于哪一个词类。根据这些思想，并结合实际情况，本文确定了一套适用于普适计算办公环境的词性标记集和短语标记集。第 2 3页第四章系统的实现与结果分析表 4 . 1词性标记集表 4 . 2短语标记集词性标识词性描述 1 v 动词 2n 名词 3a 形容词 4f 方位词 5t时间词 6 9量词 7田数词 8 an y 数量词 9d 副词 1 0 p介词 1 1c连词 1 2 y语气词 1 3e 叹词 1 4u 助词 1 5r 代词 1 6 s处所词短语标识短语名描述 1 np 名词性短语 2v p 动词性短语 3a p形容词性短语 4d p副词性短语 5 p p 介词性短语 6s p 处所词性短语 77 p 时间词性短语 8mp数量词短语 9m c p数词短语 1 0d j“ 的”字结构 1 1s 单句由于时间短语、处所短语在项目研究中有特殊的意义，为了后面语义分析的方便，把它们从副词短语中分出，单独进行分析。 4 . 1 . 2 句型库句型库是一个基础数据库。本文根据常用句型总结出了典型句型，并为句法分析过程中使用的产生式规则的分析奠定了基础。第 2 4 页第四章系统的实现与结果分析表4 .3句型库示例汉语类型示例短语语法结构示例完全句 ( 主谓不缺) 主谓 ( 动词短语当谓语)电脑打开了np vp 主谓 ( 形容词短语当谓语)会议室热得很np ap 主谓名词短语当谓语)今天星期天tp np 主谓宾我打开门np vp np 主谓补天黑下来np ap vp 主谓定宾小鸟吃黄色的果子np vp ap np 主谓定补宾小张送我一本词典n p v p np mp np 主状谓老张明天出发np t p vp 主状谓老张骑自行车出发np vp np vp 主状谓补他只答应了一声np dp vp mp 主状谓宾逃犯企图偷越边境np dp vp np 主状谓定宾中国坚决执行改革开放的政策np dp vp ap np 主状状谓人们在田野里辛勤地劳动 np p p dp vp 主状状谓宾他今天在单位里整理资料np作即 v p np 状主状谓宾今天他在单位里整理资料t p np p p v p np 状状主谓宾今天在单位里他整理资料t p p p np v p np 状定主谓那座老房子塌了dp np np vp 省略句 ( 主谓不全) 主张三np 定主美丽的花儿ap np 补主一个人dp np 主补我李明np np 谓工作v p 谓补跑得飞快vpap 谓宾刮风了vpnp 状谓在学校工作p p v p 状谓补渐渐慢下来dp a vp vp 第 2 5页第四章系统的实现与结果分析续表 4 .3 汉语类型示例短语语法结构示例状谓补宾屋顶上飘着一面红旗 p p vp mp np 状状谓今天已经开会了 tp dp vp 宾计算机 np 状在学校里 p p 第二节单词切分和词性标注 4 . 2 . 】分词词典词典作为知识库的一部分，担任着重要的角色，词典查询主要考虑分词词典的数据结构与查询算法的时空消耗问题。本系统的词典主要存放了每个词条的词性信息和语义信息，每个兼类词的词性根据在该办公环境下的使用频率自高向低排列。词典中词条收录的合理与否非常重要。目前词典中主要收录了办公环境下的常用词汇以及一些简单的日常用语，经统计词库总数约为1 2 0 0 余条，尚在进一步完善中。 4 .2 .2分词词典的设计基于词典的分词方法，分词词典建立的好坏直接影响单词的查询速度和匹配算法效率，因而必须考虑

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机软件与理论专业论文）面向普适计算办公环境的汉语处理技术的研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机软件与理论专业论文）面向普适计算办公环境的汉语处理技术的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档