




已阅读5页,还剩70页未读, 继续免费阅读
(计算机应用技术专业论文)基于远程教育的智能答疑系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着i n t e r n e t 在我国广泛应用,远程教育越来越受到人们的重视。远程教 育不仅仅是将教学材料在网上发布,更多的是学生与教师、教师与学生之间的沟 通和交流。目前的远程教育系统主要采用电子邮件、在线讨论和关键字查询方式 三种主要方式进行答疑。前两种方式都造成了教师资源和答案资源的巨大浪费, 关键词查询方式要求用户具备一定的关键词抽取技术,给用户增加负担,查询效 果不理想。要解决以上问题必须引入新技术、新方法。 本文利用人工智能语言v i s u a lp r o l o g 作为开发工具,采用自然语言处理技 术,根据教学答疑系统的特点,提出了一种在限定领域中支持自然语言理解的智 能答疑系统模型,并对其关键技术和辅助手段进行分析和讨论。该系统能够人性 化的理解用户输入的自然语言描述文本,返回一组与问题相关的知识点,具有节 省资源、智能性、高效等特点。本文的最后对系统进行了客观的分析和评价,指 出智能答疑系统具有广阔的研究前景和实用价值。 关键字:智能答疑( a d ,自然语言处理,语义分析,远程教育 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e m e ti no u rc o u n t r y , t h ep e o p l ep a ym o r ea t t e n t i o n t ot h ed i s t a n c ee d u c a t i o n t h ed i s t a n c ee d u c a t i o nn o to n l ym e a n sp u t t i n gt h e p e d a g o g i ci n f o r m a t i o no nt h en e t , b u ta l s om e a r l sc o m m u n i c a t i n gb e t w e e ns t u d e n t s a n dt e a c h e r s t h e r ea r et h r e em a i nq u e s t i o na n s w e rs y s t e m s :e - m a i l ,d i s c u s s i n go n l i n ea n dk e yw o r ds e a r c h i n g e m a i la n dd i s c u s s i n gw a s t eal o to ft e a c h e r sa n d a n s w e r sr e s o u r c e t h et h i f do fs y s t e mn e e d ss t u d e n t st ol e a r nm o r em u c hk n o w l e d g e a b o u tt h es e a r c h i n g ,w i t hi n c r e a s es t u d e n t s b u r d e n i no r d e rt or e s o l v et h i sp r o b l e m , t h i sa r t i c l ei n t r o d u c en e wt e c h n o l o g ya n di m p r o v et h em e t h o do fq u e s t i o na n s w e r s y s t e m t h ea u t h o rm a k e si l s eo fa il a n g u a g ev i s u a lp r o l o ga se x p l o i tt 0 0 1 u s i n g n a 】删l a n g u a g ep r o c e s st e c h n o l o g ya n da d v a n c i n gan e wm o d e lo fq u e s t i o na n s w e r o fn a t u r a il a n g u a g ei nl i m i t e df i e l d t h es y s t e mh a st h r e ec h a r a c t e r i s t i c ss a v i n g r e s o u r c e ,i n t e l l i g e n c ea n dh i g he f f i c i e n c yi nt h eq u e s t i o na n s w e rs y s t e m a tt h ee n d o f t h ep a p e r , w i t l la no b j e c t i v ea n a l y s i sa n de s t i m a t i o no ft h es y s t e m t h ea u t h o rp o i n t s t h es y s t e mh a sw i d eu t i l i t ya n dd e e p l yr e s e a r c h e di nt h ef u t u r e k e y w o r d :a n s w e r o fi n t e l l i g e n c e ,n a t u r a ll a n g u a g ep r o c e s s , d i s t a n c ee d u c a t i o n 创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容外,论文中不包 含其他人已经发表或撰写过的研究成果;也不包括为获得西安电子科技大学或其 它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所作过 的任何贡献均已在论文中做了明确的说明并表示了谢意。 本人签名:j 旅 日期 关于论文使用授权的说明 ,6 。t 一吃s 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属于西安电子科技大学。本人保证 毕业离开学校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技 大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论 文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密 的论文在解密后遵守此规定) 本人签名:呈塞i :堡日期:乏笸! 兰:鲨 导师签名 簪 日期:口! 羔:2 星 第一章绪论 第一章绪论 1 1 问题的提出 随着i n t e r n e t 在我国的广泛应用,远程教育越来越受到人们的重视。但是现 代远程教育的质量还不能得到广泛承认。 的首要任务。世界范围的教育已经发现, 如何提高远程教育质量是远程教育发展 真正有效的授课必须有用户之间的相互 交流和师生间的相互交流。而近几年内i n t e r n e t 的广泛使用,环球网昀建立,各 种基于w e b 的远程教学系统的开发、传送和教学考核工具的问世,都是这种交互 成为可能,成为辅助网络远程教学的重要组成部分。答疑系统即是实现这种交互 方式的一种手段,提高了教学质量除了通过课程内容的学习,也可以通过答疑系 统来帮助用户巩固所学习的知识。因此,答疑系统是远程教育平台的重要组成部 分之一。 近年来,自动问答( q u e s t i o na n s w e r i n gt r a c k ) 在每年一度的文本信息检 索( t r e c ) 会议上是最受关注的主题之一。他即能够让用户用自然语言句子提问, 又能够为用户返回一个简洁、准确的答案,而不是一些相关的网页。因此,自动 问答系统和传统的依靠关键字匹配的搜索引擎相比,能够更好的满足用户的检索 需求,更准确的找出用户所需的答案,具有方便、快捷、高效等特点。远程教学 中的答疑系统与检索中的自动问答系统有很多相同之处,本文认为可以借用自动 问答系统的一些思想,结合远程教学的特点和人工智能的方法,开发适应一种应 用于远程教学的智能答疑系统,应能很好地提高教师资源和答案资源的利用率。 2 0 0 1 年上半年科技部进行了“十五”国家科技攻关计划“网络教育关键技术 及示范工程”项目招标【1 1 ,国内很多高校科研单位和公司应标,这些标数反映了国 内业界对于现代远程教育亟待解决的问题的理解和认识,一定程度上也代表了二 至五年国内现代远程教育技术的发展趋势和水平。此时,智能答疑系统被作为单 独的子项目提了出来。 智能答疑系统是一个具有知识记忆、数据计算、逻辑推理、知识学习和实现 友好人机交互的智能系统。其本质是一个具有智能性的知识系统【2 】。 支持自然语言的提问; 自动检索问题并呈现有效答案; 2 基于远程教育的智能答疑系统的研究与实现 通过学习自动扩展和更新答案知识库; 提供有自动特征的人工答疑; 具有知识库和用户信息库的管理功能; 具有教育意义的统计功能。 1 2 国内外智能答疑系统研究概况 i 2 i 国内研究概况 目前,国内的网上答疑系统多是嵌套在教育网站中,作为一个子系统而存在, 而具有答疑功能的独立的平台或系统非常少。从功能上来说,国内的网上答疑系 统的功能较为丰富和全面,主要包括答疑、问题查询、浏览、用户信息和知识管 理、问题统计等,除此之外,还有一些答疑系统提供了一些附加功能,以增强其 系统的特色,例如:用户个性化定制等。国内答疑系统功能的实现主要是通过人 工答疑和基于数据库的自动答疑两种方式。从系统的智能化方面来看,国内的大 部分网上答疑系统在提问关键词的匹配上,经常答非所问:问题和答案的智能管 理不是很完善:智能分析、统计功能薄弱,不能根据所提问题给老师提出教学建 议1 3 1 。 根据目前国内具有代表性的远程教育系统中有关答疑部分的特点,可以分为 以下几类 4 1 : i ) 没有专门答疑部件的答疑系统 在此类系统中,答案主要是基于e - m a i l 的形式。教师与学生之间的信息交流 方式仅局限于电子邮件直接联系,或者利用系统留言版发布公告信息。如北京邮 电大学现代远程教育系统,华南理工大学远程教育中心,浙江大学现代远程教育 中心等研制的系统和大部分的面向中小学的远程教育系统等均属于这一类。 2 ) 初步具有专门答疑部件的答疑系统 此类系统提供了基于w e b 的b b s 形式的讨论方式或是在老师的主持下疑聊天 的方式进行的模拟课堂,供师生进行实时或非实时答疑讨论。也可以进行教师主 持下的w e b 实时聊天讨论。属于这类系统如北京大学现代远程教育系统1 5 1 、清华大 学远程教育系统和湖南大学多媒体信息教育学院【6 j 的远程教育系统等。 以北京大学现代远程教育系统为例( 图1 1 ) ,该答疑系统是典型的以b b s 的 第一章绪论3 形式提供网上讨论和答疑的系统,整个答疑过程包括四个环节:用户登录选 择课程提问讨论获取解答。目前该系统设置了法学、金融学,对外汉语 以及公共课等主题讨论区,当用户在进入相应讨论区后,即可参与讨论,提出问 题寻求解答,浏览其他问题及其解答等。 图1 1 北京大学网上答疑系统界面 3 ) 初步具备智能化自动答疑功能的答疑部件的答疑系统 此类系统已经具备智能化自动答疑功能,他一般具有一个存储问题及答案的 数据库。用户可以输入关键词在已有的数据库中寻找相关的资料,如果有心的问 题和答案,可以增加到数据库中,由专家做出解答。 典型代表是上海交通大学的远程教育设计中心设计开发的a n s w e rw e b 自动答 疑系统。a n s w e rw e b 自动答疑系统是一个动态的问题及答案的数据库,包括问题 查询、用户提问、问题和解答管理、数据统计分析四个模块。a n s w e rw e b 自动答 疑系统提供了三种问题查询方式,即对常见的问题和解答进行查询、按照章节和 知识点分类查询以及根据关键词进行查询。系统学生端主要采用了以下流程:系 统在接受到学生提交的问题时,首先通过关键词拆分、匹配,在系统问题库中查 找出相关问题集,同时根据关键词,系统自动为该问题划分章节,关联知识点; 如果学生在此问题集中找到某个问题及其解答回答了他的疑问,系统则被认为完 成了自动答疑的过程;如果学生并没有找到它所满意的答案,系统则将问题提交 问题库并同时自动将问题以e - m a i l 形式提转给教师 7 1 。新的问题和解答将被增加 4 基于远程教育的智能答疑系统的研究与实现 到系统库中,随着数据库中用户的询问和系统的解答越来越多,系统中的有用资 源也就越来越多。 从上面的分析可以看出,尽管很多现有的远程教育系统已经提供了基本的答 疑功能,但就系统功能和答疑效果而言,还存在种种不足【8 】: 1 ) 系统的智能性不够 以上海交通大学的远程教育设计中心设计开发的a n s w e rw e b 系统为例,用户 提问时,只能采取纯文本的关键词逻辑组合的形式。这不仅要求用户具有一定的 抽取关键词的能力,而且还要组成一定的逻辑组合。这无疑会给用户造成困难。 2 ) 答疑手段单一 上述的各种答疑系统,或者使用讨论或者使用搜索匹配的方式来解答疑问, 而没有将二者很好的结合起来。而实际上,这两种方式对于很好的解答用户的疑 问都具有不可或缺的作用。另外用户提问或者参加讨论的方式基本上以同步的w w w 浏览方式为主,缺乏对于异步提问和讨论的支持,这无疑是不全面的。 4 ) 答案结构不良,呈现方式不够丰富 无论是讨论为主的答疑系统,还是a m s w c r w e b 这种通过搜索匹配方式工作的 答疑系统,其内部的作为答案的材料组织并非结构良好的。换句话说,没有将之 转换成结构良好的知识。而答案的呈现形式基本是纯文本的形式,缺乏多媒体支 持。 可见,国内大部分人员对网上答疑的认识还局限在传统教学中人际交互的模 式中,回避了网络技术、人工智能等先进技术给答疑提供的强大支持。 i 2 2 国外研究的概况 与国内的答疑系统不同的是,国外有许多专门的、出色的、智能化的答疑系 统。这些系统,如a s kj e e v e s t m 公司a s kj e e v e sf o rk i d s 网上答疑系统唧、z h i p i n g z h e n g 博士组织开发的a n s w e r b u s 答疑系统【1 0 l 、麻省理工( m i t ) 人工智能实验室 b o r i se a t z 博士组织开发的s t a r t ( s y n t a c t i ca n a l y s i su s i n gr e v e r s i b l e t r a n s f o r m a t i o n ) 系鲥u 】等几乎都是独立运行的系统,他们不属于任何教学或学 习平台。这些答疑网站涉及的方面相当广泛,例如:k 1 2 教育、大学教育和大众教 育等领域。这类系统所扮演的角色更像是一个专业领域资源的提供者,提问者借 助系统解答的问题不一定是某个完整的教学过程中的一部分,他们通过寻求答案 第一章绪论 可能是为了解决他们在相应学科的问题,也可能仅仅是为了满足好奇心,或者是 为了寻找作业或任务中需要的资源。 从功能上说,相比国内的系统而言,国外的答疑系统功能比较简洁,所有的 功能都是围绕答疑功能而设计,重点突出。由于国内外系统主要采用英语系,而 且目前基于英语语系的自然语言处理技术、文本检索和数据挖掘技术都已经得到 了长期的发展,并且取得了优秀的成果,正是这些技术的发展为答疑系统的智能 性、高准确率提供了保证。国外系统的智能性主要体现在人机理解的自然语言接 口和相应的问题查询和反馈上,这表现在自动答疑方面。有的系统( 如a s kj e e v e s f o rk i d s ) 在提问模块不但支持自然语言提问,还设计了问题的确认交互,通过 这层交互,系统能够精确的理解用户的问题,为问题的准确解决提供了保障;在 问题呈现方面,系统会基于解答问题所需的知识点类型提供给用户准确、简洁的 答案,一般有关时间、人物、地点、概念等类型的问题,其答案的简洁性和正确 性较高。 国外答疑系统的资源库的突出特点是其拥有非常丰富且高质量的内容,比如 a s kj e e v e sf o rk i d s 系统的所有答案均是来自数以万计通过查询和确定的其他网 站的连接,其中主要来源是y a h o o l i g a n s 、e d u c a t i o nw o r l d 和f e d e r a le d u c a t i o n r e s o u r c e s 。这些网站资源时人为建设的,并不是软件搜索得到,因此,每一个答 案连接都与问题有关。国外答疑系统的资源库另一个特色在于其不只包括知识库 还包括信息库。这样,答案中呈现的信息既包括对问题的解答,也包括能够理解 相关问题的网上资源的信息。与系统的独立性相关的是,和国内针对学科和课本 的内容体系相比,由于国外系统多是独立平台,因此,答案资源库的内容采用了 内容更加丰富和广泛的主题式或专业领域式内容组织体系1 2 l 。 m i t 人工智能实验室b o r i sk a t z 博士组织开发的s t a r t 系统是世界范围内第 一个也是目前国外比较出色的答疑系统之一。从1 9 9 3 年开始发布在i n t e r n e t 上, 网址如下:h t t p :w w a i m i t e d u p r o j e c t s i n f o l a b 。可以回答些有关地 理、历史、文化、科技、娱乐等方面的简单问题。在s t a r t 系统中,如果用户输 入问题:“w h a ti sa r t i f i c i a li n t e l l i g e n c e ? ”s t a r t 将会回答“a r t i f i c i a l i n t e l l i g e n c ei st h es t u d yo ft h ec o m p u t a t i o n st h a tm a k ei tp o s s i b l et o p e r c e i v e ,r e a s o na n da c t ”。在答案的下方系统还给出了其他相关信息,例 如:“t h ec a p a b i l i t yo fam a c h i n et oi m i t a t ei n t e l l i g e n th u m a nb e h a v i o r ” 6基于远程教育的智能答疑系统的研究与实现 和“ab r a n c ho fc o m p u t e rs c i e n c ed e a l i n gw i t ht h es i m u l a t i o no fi n t e l l i g e n t b e h a v i o ri nc o m p u t e r s ”等。具体解答界面如图1 2 。s t a r t 系统的出色之处还 表现答疑准确率上。更具有关资料表明,在国内外现有智能系统的考察和比较中, s t a r t 系统的答疑准确率高达1 0 0 ”】。 图1 2s t a r t 系统问题解答界面 1 3 研究的目的和内容 目前已有的答疑系统多是基于关键词的查找,即首先由用户输入关键词或者 关键词的逻辑组合,然后系统在已有的问题和答案库中查找相关的材料。这种方 式需要体文人具有提取关键词的能力,但是用户的用词和系统中存储的关键词在 表达方式上可能不完全一样,这样关键词匹配必将导致很多问题由于不是标准描 述而找不到应有的答案,或者找出的答案答非所闯。为了提高系统回答问题的效 率和减轻用户不必要的负担,更具自动问答系统的思想,该课题研究了基于自然 语言理解的智能答疑系统。该系统有一定的智能性,能够在对用户疑问进行语义 分析的基础上自动解答用户的疑问,帮助用户快速、准确的找到他们真正需要的 答案知识点。同时还给出了该疑问知识点的前提知识,大大降低了用户的理解难 度,提高了用户的理解深度。 计算机智能化的自动回答用户所提出的问题,就其本质来说,是属于自然语 第一章绪论 7 言理解范畴。而自然语言理解作为人工智能学科的一个分支,在实际应用中尚有 一段距离。但是在具体到本文的远程教育环境中,由于用户提出的问题一般情况 下都是针对于某- a - j 具体的课程而言,因而大量用户提出的问题中有相当大的一 部分是非常类似的。因此,本文真对- i - 具体的课程( 软件工程) ,建立一个支持 自然语言理解的智能答疑系统,在人机交互的基础上,通过领域专家的适当参与, 让计算机对用户的问题进行分析和匹配,自动寻找问题的答案知识点。 本文的主要研究目标是:对智能答疑系统中关键技术及辅助技术展开理论和 实践两方面的研究。在此基础上,初步实现真对清华大学出版社出版的郑人杰、 殷人昆、陶永雷编写的实用软件工程( 第二版) 支持自然语言的智能答疑系统。 系统应具有较高的准确性、较好的健壮性的特点,应能基本满足远程教育的教学 要求。 研究基于自然语言处理的答疑系统,除了要研究对自然语言语义的理解、研 究问题和答案的快速匹配外,还要研究答案的存储和组织问题。也就是说,当学 生提出一个问题后,系统怎样在答案库中快速的找到答案。如果采用顺序存储方 式,对答案库中所有记录进行顺序匹配显然是不合理的,而且随着库中答案数的 增加,查找性能肯定会下降。因此,需要重新设计更为适合的答案组织方式和数 据结构。 1 4 研究的意义 答疑、解惑作为教育活动中的一个必不可少的环节,同时也是远程教育系 统中的一项重要模块。在基于w e b 的自主学习式远程教学环境中,分布各地的学 生、老师不再需要面对面地进行教学活动。这样,远程教学在提供了一些便利的 同时,也造成了一个问题:如何使传统的答疑活动在远程教学系统中得以实现。 网络教学的优势在于学生在任何时间任何地点都可以上网参加学习,而教师则不 可能及时回答如此众多学生的问题,并且不断地回答重复或相似的问题也是一种 极为低效的工作。因此,这样的答疑不是学生和教师之间及时有效的答疑方式, 远远没有把计算机基于w e b 的潜力发挥出来。为解决远程教学环境中的高效率答 疑问题,需要建立一个方便有效的智能答疑系统。 该答疑系统具有的强大优势: 1 、提高学习和工作效率 8 基于远程教育的智能答疑系统的研究与实现 学生在整个学习过程中不可避免地要出现疑难问题,而这些问题的描述是千 奇百态的,但提出的问题有6 0 一7 0 的实质内容都是相同的。智能答疑系统通过 专家学习后能够自主理解学生用自然语言所提出的问题,经过分析后,能自动的 给出答案。用户不需要了解太多的搜索引擎工作原理与关键词抽取技术,从而减 轻了学生负担;同时,教师只需要定时更新和维护知识库就可以了,不需要时时 在网上和学生进行交流,提高了教师的工作效率。 2 、突破传统的教学模式。更具有人性化 答疑系统突破了传统意义上的网络教学模式,创立了一种新型的远程教学 交流模式。由于自然语言理解技术的三方面功能,即机器翻译、语义理解及人机 会话技术能够赋予搜索技术根据人性化、方便易用的特点。因此,与传统的目录 查询、关键词查询模式相比,自然语言查询的优势体现在:一是使用问题交流更 加人性化;二是使用信息查询变得更加方便、快速和准确;三是能够理解人类语 言使其具有智能性。 1 5 论文的内容和组织 本文首先阐述了自然语言处理技术的主要内容和实现算法,然后把自然语言 处理技术应用到远程教学中,提出了一种新型的智能答疑系统的模型,并给出实 验系统总体设计框架,最后对系统实现的关键技术进行了分析和研究,并给出自 己的实现方案。 论文共分为五个部分: 第一章绪论。主要阐述论文研究的背景、现状、目的、意义以及研究内容 和结构。 第二章智能答疑关键技术。其中主要包括自动分词,标准化、归一化处理 的语义分析,知识管联网等关键技术,同时对语义分析模型进行了 详细阐述。 第三章系统设计。包括系统需求分析、目标与功能、工作原理、系统结构、 数据设计和资料库的设计。 第四章系统的实现。本章介绍了设计语言平台、系统关键技术的实现、系 统界面和功能的实现,最后给出了系统测评。 第五章总结与展望。 第二章智能答疑关键技术 9 第二章智能答疑关键技术 智能答疑系统是远程教育不可缺少的重要组成部分。其涉及的技术众多,主 要包括了自动分词、语法分析、语义理解、索引、知识点的结构和知识关联网的 设计。在学术研究上,这些技术均是一个研究课题,到目前为止仍没有理想的解 决方案。本章主要对智能答疑系统所涉及的关键技术进行探讨研究。 2 1 分词技术现状 智能计算技术涉及的学科包括物理学、数学、计算机科学、电子机械、通讯、 生理学、进化理论和心理学等等。简单的说,智能计算就是让机器“能看会想, 能听会讲”。要实现这样的一个目标,首先就要让机器理解人类的语言,只有机器 理解了人类的语言文字,才会使人与机器的交流成为可能。在人类的语言中,“词 是最小的能够独立活动的有意义的语言成分”,所以对于中文来讲,将词语确定下 来是理解自然语言的第一步,只有跨越了这一步,中文才能像英文那样过渡到短 语划分、概念抽取、主题分析及自然语言理解,最终达到智能计算的最高境界, 实现人类的梦想1 1 4 1 。 2 1 1 分词技术的发展 从现阶段的实际情况来看,英文已经跨越了分词这一步,也就是说在词的利 用上已经先本文一步,并且已经展现了良好的应用前景,无论是信息检索还是主 题分析的研究都要强于中文,究其根本原因就是中文要通过分词这道难关,只有 攻破了这道难关才能有希望赶上并超过英文在信息领域的发展,所以中文分词对 本文来说意义重大,它的最终解决将对汉语语言理解、汉语人机接口、机器翻译、 情报检索、语言文字的处理等领域产生实质性的影响【1 5 1 。 作为自然语言处理的前期处理阶段,自动分词技术又是重中之重,它是机器 翻译、文献标引、智能检索、自然语言处理等必不可少的基础,也是制约中文信 息处理飞跃的“瓶颈”之一。国外自动分词与自然语言的研究始于5 0 年代末,现 已获得很大进展。我国汉语文献自动分词与处理的研究起步比较晚,主要开始于 8 0 年代初,近几年来这项研究工作进展比较快,取得了许多可喜的成绩。但是, l o 基于远程教育的智能答疑系统的研究与实现 由于汉语构词与书写的特点与西方相异,因此不能把西文自动标引理论技术完全 照搬到汉语自动分词与标引中来。汉语词在不同人中有不同的概念与标准,而且 汉语字间组词丰富、复杂,这给汉语词语的正确切分带来了极大困难,使这项研 究工作长期以来缺少突破性进展。 近几年来,自动分词技术取得的成果是客观的,但无论是同人的智力相比, 还是同实际需要相比,其差距还是很大的。目前,中文自动分词方面还存在着许 多困难,主要包括切分歧义、词自身定位的模糊性、未登陆词的识别、分词与理 解的先后等问尉1 6 1 。 l 、切分歧义 汉语文本中含有许多歧义切分字段,典型的歧义有交集型歧义( 约占全部歧 义的8 5 以上) 和组合型歧义。只有向分词系统提供进步的语法、语义知识才有 可能做出正确的决策。排除歧义常常用词频、词长、词间关系等信息,比如“真 正在”中,“真”作为单字词的词频大大低于“在”作为单字词的频率,即“在” 常常单独使用而“真”作为单字词使用的可能性较小,所以应该切成“真正在”。 有时切分歧义发生在- - d , 段文字中,但为了排除歧义,需要看较长的一段文字。 如“用户会”既可能是一个名词,指一种用户组织,也可能是“用户会”,其中 “会”为“可能”或“能够”的意思。在“用户会主席”中只能是前者,在“用 户会去”中只能是后者,在“用户会组织义演活动”中歧义仍然排除不了,则需 要看更多的语境信息。 2 、词自身定位的模糊性 词与词素、词组之间往往没有明确的界限,如“明白”、“国会”,这为分词词 典中词条的选择带来难题,分词词典不能明确这一概念,又如何为自动分词提供 依据呢? 3 、新词的识别1 7 】 新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确 实能称为词的那些词。最典型的是入名,人可以很容易理解句子“王军虎去广州 了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困 难了。如果把“王军虎”作为一个词收录到字典中去,全世界有那么多名字,而 且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项 工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军 第二章智能答疑关键技术 i l 虎”还能不能算词? 新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语 等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引 擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一 个分词系统好坏的重要标志之一。 4 、分词与理解的先后 计算机无法真正做到像人在阅读汉语文章是那样边理解边分词,通常是先分 词后理解,因为计算机理解文本的前提是识别出词、获得词的各项信息。这样就 造成了逻辑上的两难境地:一方面要以理解为前提,而另一方面理解要以分词为 前提。由于计算机只能对输入文本尚无理解的条件下进行分词,所以任何分词系 统都不可能祈求获得百分百的切分正确率。 2 1 2 机械分词 待分词的汉字串s ,按照某种确定的原则切取s 的字串,若该字串与词库中的 某词条相匹配,则该字串是词,继续分割剩余的部分,直到剩余部分为空;否则, 该子串不是词,转上重新切取s 的予串进行匹配。 按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照 不同长度优先匹配的情况,可以分为最大( 最长) 匹配和最小( 最短) 匹配;按 照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的 一体化方法。常用的几种分词方法如下【1 s l : 1 、正向最大匹配 “最大匹配法”( 精确的说法应该叫“最长词优先匹配法”) 是最早出现、 同时也是最基本的汉语自动分词方法,1 9 6 3 年就在文字改革杂菇上被介绍过 ( 刘涌泉1 9 8 8 ) 。刘源、梁南元( 1 9 8 6 ) 首次将这个方法大规模应用到汉语自动分 词系统中。依扫描句子的方向,又分正向最大匹配删( 从左向右) 和逆向最大匹 配r 删( 从右向左) 两种。最大匹配法实际上将切分歧义检测与消解这两个过程 合二为一,对输入句子给出唯一的切分可能性,并以之为解。据梁南元( 1 9 8 7 ) 的实验结果,在词典完备、没有任何其它知识的条件下,最大匹配法的错误切分 率为1 次1 6 9 字1 次2 4 5 字,并且具有简单、快速的优点。6 u oj ( 1 9 9 7 ) 更 对最大匹配法的工作原理作了严格的形式解释。此外,揭春雨、刘源等( 1 9 8 9 ) 1 2 基于远程教育的智能答疑系统的研究与实现 比较完整地分析了最大匹配法的结构及其时间效率。 正向最大匹配法的主要设计思想:用m a x l 表示最大词长,按照从左到右的顺 序,首先判断汉字串长度是否大于m a x l ,大于则从汉字串中取长度为m a x l 的字串, 查词典,若词典中存在这个词,则切分出这一子串,后移m a x l 个汉字后继续切分, 否则子串长度减一,再与词典匹配。直到长度为2 的子串还不能在词典中找到, 则取当前汉字为词,指针后移一个汉字继续匹配。如果汉字串长度小于m a x l ,则 将此汉字子串作为子串,将其长度付给m a x l ,进行以上处理。 正向最大匹配法的原理较简单,易于在计算机上实现,时间复杂度也较低。 但是,最大词长的长度比较难以确定。如果定得太长,则匹配是花费的时间就会 增多,算法的时问复杂度明显提高;如果定得太短,则不能切分长度超过它的词, 导致切分正确率的降低。由于正向最大匹配法的错误切分率交答,故一般不单独 使用,而是与其他方法一起使用。 2 、逆向最大匹配 逆向匹配是从汉字串尾端开始抽取,而你向最大匹配算法与正向最大匹配原 理类似。 3 、最少切分( 使每一句中切出的词数最小) 和正向最大匹配一样,按照从左至右的顺序,首先从汉字串中取出长度为2 的子串查词典,若词典中存在这个词,则切分出该子串,指针后移两个汉字,否 则,子串长度逐次加一继续匹配。若一直到长度为m a x l 的子串仍无法匹配,则切 分出当前汉字。 例如切分句子“明天我们去上海”设最大词长为4 ,根据不同的机械切分方法 得到不同的切分结果,如表2 1 所示: 表2 1 机械分词示例 分词方法 分词过程与分词结果 正向晟大匹配明天我们明天我明天我们去上我们去我们去上海去上去上海 正向最小甄配 明天我们去上去上海 逆向最大匹配们去上海去上海上海天我们去我们去们击去明天我们天我们我们明天 逆向最小匹配 上海们去我们去天我们去明天我们去去我们明天 第二章智能答疑关键技术 2 1 3 基于理解的分词方法 这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其 基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处 理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。 在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来 对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用 大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信 息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。 2 1 4 基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的 次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好 的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计, 计算它们的互现信息。定义两个字的互现信息,计算两个汉字x 、y 的相邻共现概 率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值 时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行 统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法 也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如 “这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识 别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典 ( 常用词词典) 进行串匹配分词,同时使用统计方法识别一些新的词,即将串频 统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了 无词典分词结合上下文识别生词、自动消除歧义的优点【l 。 2 2 基于神经网络自动分词方法锄1 汉语自动分词是中文信息处理的前提,同时也是中文信息处理的难点。中文自 然语言理解、文献标引、智能检索和机器翻译都离不开汉语自动分词。十余年来, 国内推出了数十种汉语自动分词方法,也取得了一定的成果。例如以非线性并行处 理为主流的神经网络理论的发展为汉语自动分词研究开辟了新途径。 1 4 基于远程教育的智能答疑系统的研究与实现 本节从分析神经网络的基本原理和自动分词技术入手阐述应用神经网络技术 进行汉语自动分词的研究。 2 2 1 神经网络的模型与算法 神经网络是在模拟人脑结构和行为的基础上,用大量简单的处理单元广泛连 接组成的复杂网络,其研究成果显示了人工神经网络的主要特征为连续时间非线 性动力学、网络的全局作用、大规模并行分布处理及高度的鲁棒性和学习联想能 力。 根据人工神经网络对生物神经系统的不同组织层次和抽象层次的模拟,神经 网络已经出现4 0 余种模型。从信息加工和分词处理的角度看,在神经元所具有的 各种机能中,最重要的是在突触处许多输入在空间和时间上进行加权的性质,以 及神经元细胞的阈值作用。 bp 模型,是最常见的反向传播神经网络。它引入了中间隐含层神经元,整 体上由三个神经元层次组成,各层次的神经元之间形成全互连连接,各层次内的 神经元之问没有连接。 bp 模型的结构如图2 1 所示。 输出模式 t,t+ 输出层 i i = 3 _ 青层 输人层 输入模式 输山神经丘 i 晡神毵冗 输人剩l 经元 图2 1b p 模型 bp 学习算法要求神经元特性函数是可微的,如s 形函数,故误差后向传播可 以用l m s 法则进行。 令某一训练输入矢量为五,网络实际输出为k ,k = ( 以。,心2 ,x 。) 7 , l = ( y n ,) ,。,y 。) 7 ,对应输入x 。的理想输出为y t ,输出误差为 第二章智能答疑关键技术 程为 b = 去( y 目一) 2 ( 1 ) - j i j 为输出层中第j 个神经元。由最速下降法知各层神经元的权系数的迭代方 其中 且 w ( k + i ) = w ( k ) 一p e k 蝇2 蔫朋氓 = 乃( w u x 。) 有 象= 券甏 ( 2 ) ( 3 ) ( 4 ) 对于输出层有熹:吨目叫目) ( 5 ) 砂h 。 将( 3 ) 式代入( 4 ) 式,有 堡:旦坠i g n e t h a o n e h # a 其中 咿军w 蜘= f 1 ( n e t j ,) ,等= 令 & 可= u c g 。e k 乏 则 ( _ j + 1 ) = ( 七) + 舻f = ( 七) 一声象 艿:一里l :一堡旦生 i g n e t 目谚q 钿e t o 因为 = f j ( n e t 目) 故有毒鳖= 厂,( 础o ) 3 n e t 目 。 。 若是输出层,那么 导:- ( y 茸嘞) 砂h 。 则 如= ( ) ,目j 0 ) 厂( 邶) = ( y 自一儿,) ( n e t n ) ( 1 一厂,( ,圮名) ) ( 6 ) ( 7 ) 1 6 基于远程教育的智能答疑系统的研究与实现 其中 f j ( n e t 目) 2 嘉 若是隐含层象= 军鼍鲁= 等坳= 莩屯嘞。 则 = f ( 玎e ) 屯 = f j ( n e t 目) ( 1 - f j ( n e t t j ) ) y , 氏 ( 8 ) 所以 ( t + 1 ) = ( 七) + 目粕 对输出层 = ( y v - y 目) ,:( ”g r 白) ( 1 一y j ( n e t , p ) 对隐含层 毛= f , ( n e t o x l - f i ( n e t 自) ) 翰坳 为s 形多层神经网络的8 法则,即bp 算法。 对多层网络进行训练时,首先要提供一组训练样本,其中的每个样本由输入 样本和理想输出对组成。当网络的所有实际输出与其理想输出一致时,表明训练 结束。否则,通过修正权值,使网络的理想输出与实际输出一致。 bp 算法的学习过程,是由正向传播和反向传播组成。在正向传播过程中, 输入信息从输入层经隐含层逐层处理,并传向输出层,每一层的神经元状态只影 响下一层的神经元状态。如果在输出层不能得到期望的输出,则转入反向传播, 将误差信号沿原来的连接通路返回,通过修改各层神经元的权值,使得误差信号 最小。 bp 模型把一组样本的i o 问题变为一个非线性优化问题,使用了优化中最 普通的梯度下降法。用迭代运算求解权相应于学 - - j 记忆问题,加入隐节点使优化 问题的可调参数增加,从而可得到更精确的解。如果把这种神经网络看成一个从 输入到输出的映射,则这个映射是一个高度非线性的映射。 2 2 2 神经网络分词 利用神经网络原理进行分词,最基本的是要解决待分语句的输入、学习和理 解。为此,必须建立神经网络的输入模型、学习模型、动态网络和输出解释模型。 第二章智能答疑关键技术 1 7 建立输入模型为了使神经网络能够接受外部数据,首先要建立输入模型。该模 型首先从输入文字流中取出语句,进行规整处理( 如限定句子的字长、加语句分隔 符等) ,然后对接收的语句进行汉字编码压缩,再进行切分格式转换,把汉语句子变 成神经网络能够识别、学习和存储的编码形式,送至神经网络接口。模型框图如图 2 2 所示。 本模型的核心是编码压缩和切分格式转 换。汉语分词的难点是歧义字段的切分,本文 以歧义字段作研究重点,并确定分词的基本语 境为一个句子。 采集的文本样例以带歧义的字段为主, 如: ( i ) 他烤白薯。 ( 2 ) 今天空位子很多。 ( 3 ) 这个糖果真好吃! ( 4 ) 他在热水。 ( 5 ) 他吃烤白薯。 图2 2 数据采集模型框图 ( 6 ) 如今天空总是很蓝。 ( 7 ) 放了糖果真好吃。 ( 8 ) 他用热水洗澡。 ( 9 ) 他从马上下来。 ( 1 0 ) 她一阵风似地跑了。 ( 1 i ) 他的确切意图是什么? ( 1 2 ) 把手伸出来! 本文采集的样本基本上囊括了国内公开发表的有关汉语分词的论文所提出的 典型歧义语句,样本空间具有一定的代表性。 学习模型与学习方式bp 是目前应用最广泛的一种网络,bp 算法是一个很 有效的算法,可解决诸如学习、识别、分类和模式识别等问题。 本文建立的bp 学习模型其主要参数是: ( i ) 输入层结点数:若每个汉字用1 3 b i t s 。并限定句子( 有自然分隔标志) 长度 为n 个字,则神经元的输入结点数为1 3 n 。 1 8 基于远程教育的智能答疑系统的研究与实现 ( 2 ) 隐含层结点数:一般比输入神经元数目少,但不能太少,否则限制了神经网 络存储各种模式的能力。可考虑选1 3a ( a = o 2 0 8 ) ,具体数值由实验确定。本 文在实验中选取a 为0 5 或0 8 。 ( 3 ) 输出层结点数:按句子最大要求,本文暂选l o 个。 分词网络学习方式及学习过程如下: 化,并根据实验结果确定隐含层数及n , 学习开始时,将内部连接权,阈值初始 网络各单元之间的连接权及单元阈值随 机地赋予。每给网络提供一输入输出模式对,首先进行前向传播并计算出各单元 的实际输出,求出各单元的参考误差。当各单元的参考误差都求出后,进行连接 权和各单元阈值的调整,从而完成一项迭代。对下一模式对,重复上述过程。当 选择的1 句( 模式对) 对各自的迭代都完成后,又重复对第一模式的迭代。这样循 环下去,直到输出层单元的误差满足要求为止。 神经网络的分词系统所具有的学习机制,使它可根据用户的要求随意地增添 或删除某些权重链接,以达到维护知识库的目的。在神经网络中,允许输入偏离 学习样本,只要输入模式接近于某一学习样本的输入模式,则输出亦会接近学习 样本的输
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论