(计算机应用技术专业论文)远程教学中自动答疑系统的研究.pdf_第1页
(计算机应用技术专业论文)远程教学中自动答疑系统的研究.pdf_第2页
(计算机应用技术专业论文)远程教学中自动答疑系统的研究.pdf_第3页
(计算机应用技术专业论文)远程教学中自动答疑系统的研究.pdf_第4页
(计算机应用技术专业论文)远程教学中自动答疑系统的研究.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着i n t e r n e t 在我国广泛应用,远程教育越来越受到人们的重视。远程教 学不仅仅是将教学材料在网上发布,更多的是学生与教师、教师与学生之间的充 分沟通、交流。由于远程教学中教师与学生之间在空问上是分离的,沟通与交流 就显得尤为重要。因此,答疑系统是远程教学的重要组成部分。 在传统课堂教学模式中,答疑是通过师生面对面方式进行的,远程教育中这 种答疑方式已经不再可行。目前远程教学系统主要采用电子邮件、在线讨论和关 键字查询方式三种主要方式进行答疑。对于电子邮件方式,教师不能及时地把答 案反馈给学生,同一问题多次回答;在线讨论方式要求教师必须时时在线。这两 种方式都造成了教师资源和答案资源的巨大浪费。关键词查询方式要求用户具备 一定的关键词抽取技术,给用户增加负担,查询效果并不理想。要解决以上问题, 必须引入新技术,对现有的答疑系统进行改进。 作者利用检索系统中自动问答系统的工作原理,采用自然语言处理技术, 根据教学答疑系统的特点,提出了一种在限定领域中支持自然语言理解的自动答 疑系统模型,并对其关键技术和辅助手段进行分析和讨论。该系统能够自动理解 用户输入的自然语言问题文本,返回一组与问题相关的答案,具有节约资源、智 能性、执行效率高等特点。 本文首先对国内外答疑系统进行了对比,指出我国答疑系统缺少先进技术支 持,接着阐述自然语言处理技术原理,给出自动答疑系统总体设计方案,然后对 系统进行实现,并对系统关键技术进行讨论和改进,最后进行总结,指出该类型 答疑系统具有广阔的研究前景和实用价值。 本文的主要工作如下: 设计词语权重的计算方法,并给出实现方案; 句子相似度算法的改进; 索引和二级检索策略的引用。 关键词:自动答疑,远程教育,自然语言处理,相似度 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e r a c ti no u rc o u n t r y ,t h ep e o p l ep a ym o r ea t t e n t i o n t ot h ed i s t a n c ee d u c a t i o n t h ed i s t a n c ee d u c a t i o nn o to n l ym e a n sp u t t i n gt h es t u d y i n f o r m a t i o no nt h en e t ,b u ta l s om e a n sc o m m u n i c a t i n gb e t w e e ns t u d e n t sa n dt e a c h e r s c o m m u n i c a t i o ni sm o r ei m p o r t a n c e ,b e c a u s eo f t h ed i s t a n c e s o ,t h eq u e s t i o na n s w e r s y s t e mi so n ek e yp a r t so f t h ed i s t a n c ee d u c a t i o n t h ef a c et of a c ec a n ta p p e a ri nt h ed i s t a n c ee d u c a t i o nt h a ta l w a y si ss e e ni nt h e t r a d i t i o n a le d u c a t i o n t h e r et h r e em a i nq u e s t i o na i l s w e rs y s t e m s :e - m a i l ,c h a r t i n ga n d k e yw o r ds e a r c h i n g t h es h o r t c o m i n go fe - m a l li st h a tt h i ss y s t e mc a n tg i v es t u d e n t s a n s w e ri nt i m ea n da n s w e rs e v e r a lt i m e sf o rt h es a m eq u e s t i o n ;c h a r t i n ga s k st e a c h e r s o nt h en e ta l lt h et i m e t h e ya l lw a s t eal o to ft e a c h e r sa n da n s w e r sr e s o u r c e t h e t l l i r do fs y s t e mn e e d ss t u d e n t sk n o wm u c hk n o w l e d g ea b o u tt h es e a r c h i n ga n d i n c r e a s e ss t u d e n t sb u r d e n t h ea r t i c l ei m p o r t ss o m en e wt e c h n o l o g ya n di m p r o v e st h e m o d e lo f q u e s t i o na n s w e rs y s t e mt or e s o l v et h o s eq u e s t i o n s t h ea u t h o rm a k e su s eo fn a t u r a ll a n g u a g ep r o c e s st e c h n o l o g ya n da d v a n c e sa n e ws o r to fq u e s t i o na n s w e rs y s t e mo fn a t u r a ll a n g u a g ei nl i m i t e dd o m a i n t h e s y s t e ma c c e p tt h en a t u r a ll a n g u a g eq u e s t i o na n dk n o ww h a ta b o u tt h eq u e s t i o n ,t h e n t h es y s t e mg i v eo u tas e to fa n s w e r sr e l a t e dt ot h eq u e s t i o n t h e r ea r et h r e e c h a r a c t e r i s t i c si nt h eq u e s t i o na n s w e rs y s t e m , r e t r e n c h i n gr e s o u r c e ,i n t e l l i g e n c e ,a n d h i g he f f i c i e n c y c o m p a r i n gw i t ht h ef o r e i g nq u e s t i o na n s w e rs y s t e m ,t h ep a p e rp o i n t so u tt h a tt h e s h o r t c o m i n go fo u rs y s t e mi sl a c ko fa d v a n c i n gt e c h n o l o g y f i r s t l y , t h ea r t i c l e i n t r o d u c e st h et e c h n o l o g ya b o u tn a t u r a ll a n g u a g ep r o c e s sa n dd e s i g n st h es t r u c t u r eo f t h es y s t e m s e c o n d l y , t h ea u t h o rt u r n su pt h i ss y s t e ma n dd i s c u s s e ss o m ek e ya r ta n d m a k e ss o m ep r o g r a mo nt h ea r i t h m e t i c f i n a l l y , t h ep a p e rt h i n k st h a tt h es y s t e mi s u t i l i t ya n d i sd e e p l yr e s e a r c h e di nt h ef u t u r e t h em a i nw o r ko f t h i sp a p e ri sa st h ef o l l o w i n g : d e s i g n i n gp r e c e p to f t h ek e yo f a n dr e a l i z i n gi t ; i m p r o v i n ga r i t h m e t i co fs i m i l a r i t y ; i m p o r t i n gi n d e xs t r u c t u r ea n dt h et a c t i co f t h et w ol e v e ls e a r c h i n g k e y w o r d s :q u e s t i o na n s w e r , d i s t a n c ee d u c a t i o n ,n a t u r a ll a n g u a g ep r o c e s s , s i m i l a r i t y 1 1 问题的提出 第一章绪论 远程教育( 或远距离教育) 是英文d i s t a n c ee d u c a t i o n 的中译名。de s t a n c e e d u c a t i o n 这一概念于1 9 世纪7 0 年代在国际教育界丌始流行,在8 0 年代仞引入我国。 从本质上来说远程教育是指教与学在时空分离的状态下所实施的教学,它的发展u r 以使 广大受教育者不必再受到传统教育模式的限制,即在不受时间和空间等条件的约束下 可实现优秀教育资源和教育方法的共享“1 。受教育者可以根据自己的业务水平和b , c f j 自 主的安排学习计划和学习进度,真正做到了“个性化教育”,而这一点是传统教育无法做 到的。 随着i n t e r n e t 在我国广泛应用,远程教育越来越受到人们的熏视。侗是i 见代远秤 的教育质量还不能得到广泛承认。如何提高远程教育质量是远程教育发展的首要任务。 f 世界范围的教育者已经发现,真正有效的授课必需有用户之间的相五:交流和师卜之间的 相互交流。而近几年内i n t e r n e t 的广泛使用,环球网的建立,各种基十w e b 的远程教 学系统的开发、传送和教学考核工具的问世,都使这种交互成为可能,成为辅助| j 【; 络远 程教学的重要组成部分。答疑系统即是实现这种交互方式的一种手段。提高教学质量除了 通过课程内容的学习,也可以通过答疑系统来帮助用户巩固所学习的知识。因此,答疑 系统是远程教育平台的重要组成部分之一。 目前,国内远程教学系统中答疑系统主要分为以下三个类型”。:第炎,没:h - 0 门 的答疑部分,师生的信息交流仅仅限于电子邮件、留言板或聊天室等简单的方式。这 类远程教育系统可以看成是电视大学的网络版,没有发挥网络教学的优势。第二类,具 有初步答疑功能的答疑系统,提供了类似于bbs 形式的讨论和在老师主持下的以聊天 方式进行的模拟课堂。第三类,具备了一定能力的答疑系统。陔类系统人多数采川的址 搜索引擎,即所谓的关键词查询方式。通过用户自己去输入所谓的“关键词”,然后返酗 一大堆与问题相关或不相关的材料,最后用户自己进行筛选吸收。第一种方式对用户存 在的问题不能及时解答,对同一问题多次回答;第二种方式要求有限数目的教师全天候 实时应答大量学生的问题;第三种方式应该看为一种辅助查询系统,要求学, i 典备定 的查询技术背景。可见,国内大部分教育人员对网上答疑的认识还局限在传统教学中的 人际交互的模式中,回避了网络技术、人工智能等先进技术给答疑提供的强大支持。 1 近年来,自动问答( q u e s t i o na n s w e r i n gt r a c k ) 在每年度的文本信息检索( t r e c ) 会议上是最受关注的主题之一。它即能够让用户用自然语言句子提问又能够为用户返 回一个简洁、准确的答案,而不是一些相关的网页。因此自动问答系统和传统的依靠 关键字匹配的搜索引擎相比,能够更好地满足用户的检索需求,更准确地找出用户所需 的答案,具有方便、快捷、高效等特点。远程教学中的答疑系统与检索中的自动问答系 统有很多相同之处,本文认为可以借用自动问答系统的一些思想,结合远程教学的特点, 开发适应一种适应于远程教学的自动答疑系统,应能很好地提高教师资源和答案资源的 利用率。 该答疑系统的研究主要致力于改革现有的答疑模式,充分利用远程教育网中的资源 通过机器处理,自动回答学生的问题,从而实现远程教育中答疑这一重要的教学环节,提 高教学的效率和质量。这样的答疑系统兼顾了及时性和并发性,解决了教师和答案资源 的浪费,同时该系统也是一个人工智能、信息检索和自然语苦处理等技术的综介体,j t 有一定的研究空间。 1 2 研究的概况 最近几年。随着网络和信息技术的快速发展和人们想更快地获取信息的愿望健进了 自动问答技术的发展。最近越来越多的公司和科研院所参与了自动问答技术的研究。比 如微软和i b m 等著名的跨国公司。在每年一度的文献信息检索( t r e c ) 会议 二。f j 动问 答系统是最受关注的主题之一。在2 0 0 0 年1 0 月召开的a c l 2 0 0 0 国际计算语言学学术会 议上,有一个专题讨论会,题目是“o p e n d o m a i nq u e s t i o na n s w e r ”。 目前,国外已经开发出一些相对成熟的问答系统。麻省理工( m i t ) 丌发出一个问答 系统s t a r t ( s y n t a c t i ca n a l y s i su s i n gr e v e r s i b l et r a n s f o r m a t i o n ) 从1 9 9 3 开始 发布在i n t e r n e t 上,网址如下:鲢! p ;竖魁:垦i :i ! :g g ! p ! q j ! ! i i ! 垡】业。可以网 答一些有关地理、历史、文化、科技、娱乐等方面地简单问题。比如:对于问题“w h a ti s t h el o n g e s tr i v e ri nt h ew o r l d ? ”s t a r t 将会回答“w i t hal e n g t ho f4 ,1 8 0m i l e s , t h en i l er i v e ri st h el o n g e s tr i v e ri nt h ew o r l d ”另外还有一个比较成熟是个多 语种的自动问答系统,它不仅可以回答英文问题,还可以网符法语、两班牙衙、德语、 意大利语和葡萄牙语的问题。 国内研究机构也正关注这个热点问题,其中做的比较好的是哈尔滨工业大学的开放 式自动问答系统,北京语言大学的问答系统以及中国科学院计算所的n k i ( n a t i o n a l , k n o w l e d g ei n f r a s t r u c t u r e ) 问答系统。n k i 问答系统囊括了人物知识库、国家知识库、 朝代帝王知识库、中国少数民族知识库、药膳知识库、中医疾病知识库、中医证型知议 库、计算机知识库、体育知识库人们可以询问以上领域的基本问题。如剧恩米烛什么 人? 毛里求斯讲什么语言? 系统可以给出简单的答案。目前,该系统的知识库币存进一步 扩充,测试的网址h ! ! b ;里螋:! k i :盟:! ! _ ! 丛b 垫d b q q 8 :h ! 盟。 问题 r 一一一一一一一一一一一一一1 答案 自动问答系统包括三个主要部分:问题分析、信息检索和答案抽取,自动问答系统 结构图如图1 1 所示0 1 。 对于用户提交的问题,首先要对问题进行分析,要理解用户要问的是什么。比如“什 么是多媒体”,问题分析模块通过对这个问题的分析,就可以知道用户是在问多媒体的概 念。问题的分析一般包括问题的分类、分词、关键词的提取和关键倒的扩展。 通过问题分析得到的关键词需要提交给信息检索模块来查找相关的文档。检索系统 的任务就是在已有的文档库中搜索和关键词集相关的文档。为了保证对任何问题都能找 到相关的文档。文档库必须足够大。 信息检索模块返回的是一堆相关的网页。然后抽取模块从这些相关的网页中找出相 关的答案( 一句话,或者是一段) 提交给用户。对于远程教学系统中的答疑系统l f 【f 者, 经过信息检索模块后,返回的即为答案,因此答案抽取模块应是一个预处理过程。 目前,国内外很多研究机构和远程教育站点都对答疑系统展,门7 深入的研究。如浙 江大学现代远程教育系统、北方交通大学远程教育系统和上海交通大学远程教育中心设 计开发的a n s w e rw e b 自动答疑系统等等。这些系统基本上部是采用基于关键字的查询和 匹配技术,存在交互性差、查询精度低等问题。因此有必要把自动问答系统的思想引 入到远程教学答疑系统中来,以突破传统教育模式对远程教学答疑系统的禁铜。 1 3 研究的目的和内容 目前已有的答疑系统多数是基于关键字的查找,即首先由用户输入关键词或者关键 词的逻辑组合,然后系统在已有的问题和答案数据库中查找相关的材料。这种方式需要提 问的人具有提取关键词的能力但是用户的用词和系统中存储的关键词在表达方式上可 能不完全一样,关键词匹配法必将导致很多问题找不到答案,或者找可i 准答案。为j 挺离 系统回答问题的效率和减轻用户不必要的负担,根据自动问答系统的思想,作箱研究了 基于自然语言理解的自动笞疑系统。该系统有一定的智能性,能够自动解答用户的疑问 帮助用户快速、准确地找到他们真正需要的答案。 计算机自动地回答用户所提出的问题,就其本质来说,是属于自然语占理解范畴。 而自然语言理解作为人工智能学科的一个分支,在实际应用中尚有一段距离。f h 楚h 体 到本文的远程教育环境中,由于用户提出的问题一般情况下都是针对于某一门具体的课 程而言,因而大量用户提出的问题中有相当大的一部分是非常类似的。因此,本文针对 一门具体的课程,建立一个支持自然语言理解的自动答疑系统在人机交瓦的翠础h 通过领域专家的适当参与,让计算机对用户提出的问题进行分析和匹配,| ,| 动,拽m 题 的答案。 本文的主要研究目标是:对自动答疑系统中关键技术及辅助技术展开理论和实践两 方面的研究。在此基础上,初步实现针对于河海大学出版社出版的张正兰、张明编写的 多媒体技术基础及应用“1 支持自然语言的自动答疑实验系统。系统j 越儿仃玳确悱较 高、健壮性较好的特点,应能基本满足远程教学的教学要求。 研究基于自然语言处理的答疑系统,除了要研究问题和答案的匹配度、研究自然语 言的语义理解外,还要研究问题和答案的快速匹配问题。也就是说,当学生提山个问题 后,系统怎样在答案库中快速地找到答案。如果采用顺序存储方式,埘答案j 1 :i 所仃址j 止 进行顺序匹配,显然是不合理的而且随着库中答案数的增加,查找性能肯定会卜降。因此 需要重新设计更为合适的数据结构。 1 4 研究的意义 答疑、解惑不仅是教育活动中的一个必不可少的环节,同时也是远程教育系统i i ,的 一项重要模块。在基于i n t e r n e t 的自主学习式远程教学环境中,分布在各地的用,“、老 师不再需要面对面地进行教学活动。这样,远程教学在提供了一些便利的同时,也造成 了一个问题:如何使传统的答疑活动在远程教学系统中得以实现。网络教学的优势在于 用户在任何时间、任何地点都可以上网参加学习,但是教师则不可能及时回答如此众多 用户的问题,同时不断地回答重复或相似的问题也是一种极为低效的工作。凶此,这样 的答疑不是用户和教师之间及时有效的答疑方式只是一种初级而简单的方式,远远没 有把计算机与w e b 的潜力发挥出来。为解决远程教学环境中的高效率答疑问题,需要建 立一个方便、有效的自动答疑系统。 该答疑系统具有强大的优势: 1 、提高学习和工作效率。 用户在整个学习过程中不可避免地要出现疑难问题。但提出的问题有6 0 一7 0 的实 质内容都是相同的,自动答疑系统能够自动理解用户用自然语言所书写的问题,经过分 析后,能够自动的给出答案。用户不需要了解太多的搜索引擎工作原理与关键词抽取技 术,从而减轻了用户负担:同时,教师只需要定时更新和维护知识库就可以了,不需要 时时在网上和用户进行交流,提高了教师的工作效率。 2 、突破传统的教学模式,更具有人性化。 答疑系统突破了传统意义上的网络教学模式创立了一种新型的远程教学交流模 式。由于自然语言理解技术的三方面功能,即机器翻译、语义理解及人机会话技术能够 赋予搜索技术更具人性化、方便易用的特点。因此,与传统的目录查询、关键词食询模 式相比,自然语言查询的优势体现在:一是使问题交流更加人- 降化;:1 :是使信息夼询变 得更加方便、快速和准确;三、能够正确理解人类语言,使其具有智能性。 1 5 论文的内容和组织 作者首先阐述了自然语者处理技术的主要内容和实现算法,然后把_ 然语1 ;处 l ! 坎 术应用到远程教学中,提出了一种新型的自动答疑系统的模型,并给出实验系统总体设 计框架,最后对系统实现的关键技术进行了分析和研究,并给出自己的实现方案。 论文共分为五个部分: 5 第一章主要阐述论文研究的背景、目的、意义以及研究内容和结构。 第二章对中文信息处理的关键技术进行论述。其中主要包括分词、特征提取、权 重等关键技术,同时对相似度计算的数学模型进行了阐述。 第三章主要阐明系统的总体设计框架,包括系统目标、丁作原理、需求分析、系 统结构和系统资料库的设计。 第四章详细分析和讨论了自动答疑系统实现过程中引用的关键技术。其 ,上要包 括:一、系统在实现过程中,对所涉及到的中文信息处理技术的改进:二、为了提高系 统的速度性能,引入索引技术;三、为了实现问题与答案的快速定位,引用二级检索策 略:四、其他提高系统性能的辅助手段。 第五章总结了全文的主要成果,并指出需进一步完善的工作。 6 第二章文本处理技术 本章主要阐述了自然语言处理技术的基本原理,它是实现基于自然语言理解的自动 答疑系统核心技术的理论依据。其涉及的内容众多,主要包括自动分词、文本形式化表 示、句子相似度算法等具体内容。在学术研究中,以上每一部分功能均是一项研究课题 目前为止仍未有满意的解答。 2 1 分词 智能计算技术涉及的学科包括物理学、数学、计算机科学、电f 机械、通砒、_ :理 学、进化理论和心理学等等。简单的说智能计算就是让机器“能看会想,能听会讲”。 要想实现这样的一个目标首先就要让机器理解人类的语言,只有机器理解了人类的语 言文字,才使得人与机器的交流成为可能。再反观本文人类的语青中“词是最小的能够 独立活动的有意义的语言成分”,所以对于中文来讲,将词语确定下来是理解自然语吉的 第一步,只有跨越了这一步,中文才能像英文那样过渡到短语划分、概念抽取以及丰题 分析,以至于自然语言理解最终达到智能计算的最高境界,实现人类的梦想”1 。 2 1 1 分词技术的发展 从现阶段的实际情况来看,英文已经跨越了分词这一步也就是说“:h 的利川i 止 经先本文一步,并且已经展现了良好的应用前景,无论是信息检索还是主题分析的研究 都要强于中文,究其根本原因就是中文要通过分词这道难关,只有攻破了这道难关,彳。 有希望赶上并超过英文在信息领域的发展,所以中文分词对本文来说意义重大,它的最 终解决将对汉语语言理解、汉语人机接口、机器翻译、情报检索、语音文芦的处理等领 域产生实质性的影响鲫。 作为自然语言处理的前处理阶段,自动分词技术又是重中之重,它是机器翻泽、文 献标引、智能检索、自然语言处理等必不可少的基础,也是制约- | 文信息处删e 跃的“j 眦 颈”之一。国外自动分词与自然语言的研究始于5 0 年代术,现已获得很人进腱。我幽汉 语文献自动分词与处理的研究起步较晚,主要开始于8 0 年代初,近几年柬这项研究工作 进展较快,取得了许多可喜的成绩。但是,由于汉语构词与书写的特点与西方相异,凶 此不能把西文自动标引理论技术完全照搬到汉语自动分词于标引中来。汉语词存玎i 同人 7 中有不同的概念与标准,而且汉语字间组词丰富,复杂,这给汉语语的证确切分一;_ i 5 :来 了极大困难,使这项研究工作长期以来缺少突破性进展。 近十年来,自动分词技术取得的成果是可观的,但无论是同人的智力相比,还是同 实际需要相比,其差距还是很大的。目前,中文自动分词方面还存在着许多困难主要 包括切分歧义、词自身定位的模糊性、未登录词的识别、分训与理解的先后等l i u j 题。 i 、切分歧义 汉语文本中含有许多歧义切分字段,典型的歧义有交集型歧义( 约占全部歧义的8 5 以上) 和组合型歧义。只有向分词系统提供进一步的语法、语义知识才有可能做出正确 的决策。排除歧义常常用词频、词长、词间关系等信息,比如“真证在”中,“真”作为 单字词的频率大大低于”在”作为单字词的频率,即“在”常常单独使用而“真”作为单 字词使用的可能性较小,所以应该切成”真f 在”。有时切分歧义发小存,j 、段文宁中 但为了排除歧义,需要看较长的一段文字。如”用户会”既可能是一个名词,指一种用户 组织。也可能是“用户会”,其中”会”为”可能”或”能够”的意思。在“用户会垂席”中只 能是前者,在”用户会去”中只能是后者,在“用户会组织义演活动”中歧义仍然排除不 了,则需要看更多的语境信息。 2 、词自身定位的模糊性。 词与词素、词组之间往往没有明确的界限,如“明白”、“国会”,这为分词词典中 词条的选择带来难题分词词典不能明确这一概念,又如何为自动分词捉f j i 依 l e l 皑? 3 、未登录词的识别 对于分词词典中没有收录的概念词,词表并不能做到实时更新来适应新的需求,自 适应能力差,然而人工智能技术尚且处在摸索阶段,如果自动分词系统中对未静录词识 别不正确,则统计到的信息就会有较大的误差。 4 、分词与理解的先后 计算机无法真正做到像人在阅读汉语文章时那样边理解边分词,通常是先分词后理 解,因为计算机理解文本的前提是识别出词、获得词的各项信息。这样就造成了逻辑一卜 的两难境地:一方面要以理解为前提,而另一方面理解又以分词为前提。出于计算机只 能在对输入文本尚无理解的条件下进行分词,所以任何分词系统都4 i i j 能企球扶褂白分 百的切分正确率。 2 1 2 机械分词 待分词的汉字串s ,按照某种确定的原则切取s 的子串若该予串与词库中的某泌 条相匹配,则该子串是词继续分割剩余的部分,直到剩余部分为空;否则该子串不 是词,转上重新切取s 的予串进行匹配。 按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长 度优先匹配的情况,可以分为最大( 最长) 匹配和最小( 最短) 匹配;按照是否与词性 标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的 几种机械分词方法如下。1 : 1 、正向最大匹配 正向最大匹配法的主要设计思想:用m a x l 表示最大词长,按照从左到右的顺序, 首先从汉字串中取长度为m a x l 的子串,查词典,若词典中存在这个词,则切分出这。 串,后移m a x l 个汉子后继续切分,否则,子串长度减一,再与词典匹配。若k 度为2 的子串还不能在词典中找到,则取当前汉字为词,指针后移一个汉字继续匹配。 正向最大匹配法的原理较简单,易于在计算机上实现,时间复杂度也较低。但是, 最大词长的长度比较难咀确定。如果定得太长,则匹配时所花费的州m 就会增多,卯法 的时间复杂度明显提高:如果定得太短,则不能切分出跃度超过它的词,导致切分i i :确 率的降低。由于正向最大匹配法的错误切分率较大,故一般不单独使用,而是与其他方 法一起使用。 2 、逆向最大匹配 逆向匹配是从汉字串尾端开始抽取,而逆向最大匹配算法与正向最人匹配脓删类 似。 3 、最少切分( 使每一句中切出的词数最小) 和正向最大匹配一样,按照从左到右的顺序,首先从汉字串中取出长度为2 的子串 查词典,若词典中存在这个词,则切分出该子串,指引j | ;舀移2 个汉。,f r 则,一1 1k 搜 逐次加一继续匹配。若一直到长度为m a x l 的子串仍无法匹配,则切分出当前汉字。 例如切分句子“后天我们去北京”,设最大词长为4 ,根据不同的机械切分方法得到 不同的切分结果,如表2 1 所示: 表2 1 机械分词示例 分词方法 分词过程与分词结果 正向最大匹配后天我们后天我后天我们去北我们去我们去北京去北去北京 正向最小匹配后天我们去北去北京 逆向最大匹配 们去北京去北京北京天我们去我们去们去去后天我们天我w j 后天 逆向最小匹配北京们去我们去天我们去去我们后天 2 i 3 中科院分词系统 衡量自动分词系统的主要指标是切分精度和速度。由于切分速度与所运行的软、硬 件平台密切相关,在没有注明运行平台时,切分速度只是一个参考指标。没有可比性a 另外,所注明的切分精度都是开发者自测试的结果。自8 0 年代初中文信息处理领域提出 了自动分词以来,一些实用性的分词系统逐步得以开发,其中c d w s 分词系统、清华大学 s e g t a g 系统、北大计算语言所分词系统等几个比较有代表性的自动分词系统产卜了较大 的影响。 作者开发的自动答疑系统中分词部件,主要采用了中科院研究所研制的分词和词类 标注相结合的分词系统i c t c l a s ( i n s t i t u t eo f c o m p u t i n gt e c h n o l o g y ,c h in e s e l e x f c a i a n a l y s i ss y s t e m ) 。系统利用丰富的词类信息对分词决策提供帮助并同存标泞过程巾 又反过来对分词结果进行检验、调整,同时将基于规则的标注排歧与基于语料库统计模 型的排歧结合起来,使规则的普遍性与灵活性得到统一,而且对未登录词的估算到达了 相当高的准确率。系统的处理过程包括了自动切分和初始词性标记、切分歧义字段识别、 组词和标注预处理、词性标记排歧、切分和词性标注后处理等过程系统的算法综合了 多种数据组织和搜索技术,以很低的时空开销实现了高速匹配和查找,同时采用了当代 计算语言学的统计方法,运用隐m a r k o v 过程进行词类标注和排歧,对算法的效率和稳同 性都作了尽可能的优化。此系统的一大特色是对通用性的强凋,将最稳定、最常_ | _ f j 的4 万6 千余条现代汉语基本词汇( 即将扩充到7 万多条) 及其柏荑槲性组织成为丛奉叫贝, 这些词的基本地位都是由汉语语言学家逐一检验认可的,这是本系统通用忭的保证:存 此词典的基础上充分利用汉语构词法的研究成果,可以识别出大部分的常用词。同时本 系统对用户词典机制作了最大限度的扩展,允许用户加入3 部到3 0 部以上的自定义词典 并允许用户对这些词典的优先顺序自由排列,这样就可以用较小规模的多个特殊训腆殳 有针对性地解决具体领域的文本处理。因此i c t c l a s 分词系统的语言模型实现了通用性 与多样性的有效结合,并到达了极高的效率。经过最近在搜索算法上的改进,系统的分 词连同标注的速度在p e n t i u m1 3 3 h z 1 6 m b 内存机器上的达到了每秒3 干词以卜,而在 p e n t i u m1 1 6 4 m b 内存机器上速度高达每秒5 干词”。 中文分词系统的功能最终将影响到自动答疑系统的最终效果,因此选择合适的分词 算法,是自动答疑系统实现中比较重要的一步。根据9 7 3 专家组的犬规模语料丌放评比 测试表明:i c t c l a s 系统是国内最好的。目前。i c t c l a s 已经成功应用到了巾1 # 商务网、 慧聪、计算所的搜索引擎等系统当中,取得比较好的效果。中科院的分词系统分为f r e e 版本和商用版本,f r e e 版本源码完全公开,资源共享,其前身就是参加国家9 7 3 评测中 的第一名的系统,同时该系统还提供了相应的a p i 接口和d i l 动态连接席,同时还附有 相应的c d e l p h i 调用示例。因此,本文选择了中科院的i c t c l a s 分词a p i 作为本文自动 答疑系统的基础件。 2 。2 文本形式化表示 计算机理解自然语言的核心任务是将自然语言语句( 文本) 转换成某种机器内部表 示形式。这种内部表示形式应能完整地刻画句子的词法、句法或语义信息,然后住这种 内部表示形式上进行信息抽取( 自动文摘系统) 、问题求解( 自然语言问答系统) ,向另 外一种自然语言转换( 机器翻译系统) 。显然,文本的数字化表示是自然语言信息处理的 基础。 与一般数据库中的结构化数据相比,文本使用自然语言,没有标准结构,计算机难 以直接处理。因此,首先要对文本进行预处理,抽取代表其本质特征的元数挣 ( 义称特 征项) ,以结构化形式保存,这就是文本表示,也称目标表示。主要有两种表示方案,即 数字化方案和符号化方案,数字化表示方案应用广泛,本文的研究基于第一种方案。 2 2 1 向量空间 从文本所蕴涵信息的角度来看,一个中文文本可以由特征项的频率及其相互之删的 顺序来表达。要表示文本中特征项之间的顺序信息,就必然要使有向的指针结构,整个 文本就变成了一个复杂的图,比如树或者网;与之相反的是表示文本中特征项的频率信 息,仅仅使用一个向量就足够了。然而信息检索要求定义一种距离函数,以表,j i 文本之 间的相似程度。如果使用复杂的图结构表示文本的话,则很难定义一一科t 台理的距离函数, 因为存在这样的问题:怎样的两棵树才能说很相似? 又是什么样的_ 两个网爿能随足距离 比较小呢? 而使用向量来表示文本,则不会遇到这种困难,数学中又很多定义距离的方 式可供使用,比如欧式距离、相关系数等。正因为存在以上的困难。所以作者不得不舍 弃不好利用的顺序信息,只使用特征项的频率向量来表示文本。 美国s a l t o n 提出的向量空间模型( v e c t o rs p a c em o d e l 。v s m ) 即是使用向量来 表示文本,并成功应用到信息检索系统中,是应用最成功的模型,它的核心概念可以描 述如下“”: 项:文本的内容被看作主要由一些特征项来表达,这些特征项可以是字、词、句子 等语言单位即文本可以表示为d o c u m e n t = d ( t ,t 。t ) ,其中,t ;表示各个特征项。 换句话说,由这些项组成了一个向量空间,每个项表示一个维度。 项的频率:在一个文本中每个特征项都被赋予。个权重w ,以表力这个特l l 】:项住 该文本中的重要程度。权重都是以特征项的频率为基础进行计算,比如采用反比文本频 数,信息熵等技术。 向量空间模型,v s m :在舍弃了备个特征项之间的顺序信息之后,一个文本就表示 成一个向量,也就是特征项空间中的一个点:而一个文本集就表示成一i 个矩阵,也就是 特征项空间中的一些点的集合。 在v s m 中,将文本看作由一组特征项( w 。w :,w ) 构成。n 个文本组成的集合 d = ( d 。,d 。,d 。) 被m 个特征项w ,w :,w m 索引可表示成一个n * m 的特女e 项文 本矩阵a ,见公式2 1 : w 。lw ,z w 1 jw :_ | v :2 w :。 弋l w 。lw 。2 w 。 其中a 的每个元素w 。表示特征项i 在文本j 中的权重。在向量空间模型中,a 的列 向量称为文本向量,a 的行称为特征项向量。其中a 的列向最表达了文本的语义内容。 相似性度量( s i m i l a r i t y ) :相似度函数s i m i i a r ( d 。吼) 表示两个文本之间的柏似 程度,在向量空间模型下,可以用相应向量的内积或夹角余弦束表示。具体的数学模型 将会在2 3 1 小节中给出,并进行详细的描述。 2 2 2 特征项 )l2( 、,j 一个中文文本表现为一个由汉字和标点符号组成的字符串,由字构成词t i _ 1 训构成 短语,进而形成句、段、节、章、篇等结构。这里,本文把字、词短语等等称为语义特 征项。实际应用中常常采用字、词或者短语作为特征项1 。 1 、字特征 使用字特征项是最简单的方法,将文本分解为字特征非常容易实现。按照g b 2 3 1 2 的规定麸有6 7 6 8 个汉字。这样特征集合就非常小,最大不会超过6 7 6 8 。在这一点上与 其他特征( 如词特征) 相比优点是非常明显的。以字为特征项也有其明显得缺点,闪为 从理论上说,字不能完整地表示一个语义范畴,对文档的表示能力应当是较差的。 2 、词特征 现有的研究中大部分认为应以词为单位进行文本的表示。首先,以词为单位比较符 合自然思维习惯,便于系统利用语言学知识:其次,以词为单位就州+ 以借用英文全义检 索系统中已有的理论及方法。与字特征比较起来,词特征蕴涵了更为丰富的语义信息, 能够更为完整、准确地表达文本信息。但是由于使用词特征首先要进行有效地分词和 特征抽取,因此运用词特征将增大信息处理的工作量和复杂度。采用词特征的先决条件 是要有一个良好的分词策略,不好的分词会造成最终的归类效果反而不如直接采闱字特 征。 根据答疑系统要求和实际应用的需要以及实现的难易程度,本文选择词特征作为本 文系统的处理的基本元素。中科院提供的免费i c t c l a s 系统的a p i ,不仅可以帮助本文 快速地进行分词,同时还对每一词的词性做了词性标注,有助j :臼z ;j 答疑系统卜_ 步进 行特征词的提取。 2 2 3 特征词提取 特征词又称为关键词,是能较好反映文章中心内容的词汇。 通常,一本普通的课本经过分词后有几千甚至几万个词,即它的特征空间维数达到 几千甚至几万维,太多数的学习算法无法处理这么大的维数,因此特征抽取是中文文本 信息处理中的关键问题,它具有降低向量空间维数、简化计算、防l f :过分拟含等f 1 :用。 由于特征子集的数量和特征数量之间是指数关系,枚举几乎是不可能的,闪此,可以假 设特征之间是相互独立的,这样特征子集的抽取就转化为特征项的抽取。根据某个特征 评估函数计算各个特征的评分值,然后按评分值排序,选取若干个评分最高的作为特征 词。 1 3 特征词是能较好反映特定课程中心内容的词,而课程的中心内容主要是依靠名词或 名词词组来表达的,所以特征词一般为名词或名词词组;另外,课程的中心内容要通过 不同的侧面、不同的角度,反复说明才能表达出来,因此,特征词往往在文章中具有多 次出现的特点。具体地说,特征词具有以下一些性质: 1 、出现的范围有规律 2 、特征词既然是表达中心思想的词,而中心思想是贯穿课程的始终的,因此,特 征词一般出现在整本课本之中。 3 、特征词是名词或名词词组 4 、特征词还要体现出新颖性 由于课程中的每一章讲述的中心内容,都有自己的特点和专门的知识点。因此,为 了突出本章的内容,特征词往往在当前章节中出王见次数较多,l f u 任墼篇躁奉t t 山蚬的i 父 数较少。而虚词和常用实词一般在任何章节中都要出现,因此在背景知以q ,出现的次数 较多,所以,即使在当前章节中出现次数较多,也不是特征词。 2 2 4 词语的权重 前面所提到的特征词提取,只是认为所抽取的特征词在课程中的重要性都是一样 的,实际上他们对课程内容的影响是有区别的。例如问题:什么是多通道用户界面技术? 其中可以抽取的特征词有:“什么”,“是”,“多通道”,“用户界面”,“技术”。这么多 的关键词,每个词都参与表达问题的中心思想,但是它们所起的作用有大有小。显然。 “是”、“什么”,“技术”的重要性低子“多通道”、“用户界向”的重要性, f | j “片j 户界 面”的重要性又低于“多通道”的重要性。为了快速准确的找到答案,必然要给这些关 键词赋予不样的权值,以体现这种差别。 目前,常采用下面的t f i d f 函数来计算单词w 的权重w o i g h t ( w ) “,见公式2 2 : w e i g h t ( w ) = t f i d f = t f l g i dj d f ( w ) ( 2 2 ) 其中:词频t f 为特征词w 在该文本中出现的次数, i d 代表训练集中文本总数, d f ( w ) 为出现了w 的文档数。 i d f = l g j d d f ( w ) 称为逆文本频数。 该算法又称为t f - i d f 法。 文本经过分词程序分词后,首先去除停用词,合并数字和人名等词汇,然后统i 十词 频,计算权重最终表示成向量空间所需要的向量。 2 3 句子相似度 计算两个句子之间的相似度的算法有很多,本文主要阐述自动答疑系统所用到的两 种计算句子相似度的数学模型,一种是基于词频的相似度算法向量空间模型的t f t l 3 f 方 法另一种是基于语义的相似度算法。 2 3 1 句子词频相似度算法 基于向量空间模型的t f i d f 方法在信息检索领域中被广泛地用来计算文本之叫的相 似度。向量空间法是利用机器学习方法进行文本信息过滤的基础,也是本文所讨论力法 的基础。本节主要论述了哈尔滨工业大学王洋、秦兵、郑实福同学在问答系统中提出的 句子相似度算法“”思想。 在自动问答系统中,为了检索的方便,作者引入常问问题集。本节主要论述常| 、口j 问 题集中句子相似度常规算法,答案集的句子相似度算法与之类似。如果铃疑系统 l 常问 问题集中包含的所有的词为w i 、w z 、,则答疑系统中的每一个问旬都可以用一一 个1 1 维的向量t = 来表示。其中,t i 代表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论