(计算机应用技术专业论文)基于web的自动答疑系统的研究与实现.pdf_第1页
(计算机应用技术专业论文)基于web的自动答疑系统的研究与实现.pdf_第2页
(计算机应用技术专业论文)基于web的自动答疑系统的研究与实现.pdf_第3页
(计算机应用技术专业论文)基于web的自动答疑系统的研究与实现.pdf_第4页
(计算机应用技术专业论文)基于web的自动答疑系统的研究与实现.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机应用技术专业论文)基于web的自动答疑系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海大学硕士学位论文 摘要 随着互联网的普及和发展,远程教学越来越受到人们的重视,涌现出了大 量利用i n t e m e t 进行远程教学的系统。这种新的学习方式克服了传统教学在教 学资源和教学方法方面的限制,学生可以不受时空的限制,按照自己的学习水 平和时间自由地制定学习计划和安排学习进度,真正实现学生的个性化教学。 然而无论是传统教学还是远程教学,教师和学生之间的沟通是非常重要的。 在传统教学中,学生和教师可以面对面的沟通,学生如有疑问可以直接向老师 提问。而在远程教学中,学生和教师一般无法直接交流,因此,答疑系统的研 究与开发,即如何在远程教学中开发一个基于w e b 的自动答疑系统成为远程教 学需要解决的一个重要问题。 目前国内的许多答疑系统基本上都是采用基于关键字的查询和匹配技术, 存在交互性差、查询精度低等问题。本文利用自动问答系统的思想,通过对自 然语言处理技术的研究与分析,根据答疑系统的特点,提出了一种受限领域内 的支持自然语言理解的自动答疑系统模型。 该模型主要由三部分组成:问题分析模块、常问问题模块和答案检索模块。 问题分析模块是用来理解学生提问的意图,主要包括:分词、问题分类和关键 词的提取。常问问题模块主要是为了提高系统的检索效率而提出的,常问问题 库保存了学生经常提问的问题和相关答案。答案检索模块的功能就是从系统的 答案库中找出和问题分析阶段产生的关键词相关的答案,并返回最相关的答案。 针对自动答疑系统的特点,本文改进了计算关键词权重的词频统计方法, 在对常问问题库设计时,增加了常问问题库的问题分类。在常问问题库中问句 与问旬之间的相似度计算以及答案库中问旬与答案之间的相似度计算中,综合 应用了基于向量空间模型t f 1 d f 方法和语义相似度法。 基于上述各种关键技术,本文实现了基于w e b 的自动答疑系统。这种支持 自然语言提问的自动答疑系统在其它一些领域也具有一定的参考价值。 关键词:自动答疑,自然语言处理,分词,向量空间模型,相似度 v 上海火学硕士学位论文 a b s t r a c t w “ht h eg r o w i n gp o p u l a r i t ya n dr a p i dd e v e l o p m e n to fi n t e m e t p e o p l ep a y m o r ea n dm o r ea t t e n t i o nt ot h ed i s t a n c ee d u c a t i o n t h u sm a n yd i s t a n c ee d u c a t i o n p r o g r a m se m e r g e t h i sn e wh n d o fs t u d yp a t t e r no v e r c o m e st h el i m i t so ft r a d i t i o n a l e d u c a t i o ni nt e r m so fe d u c a t i o n a lr e s o u r c e sa n dm e t h o d s t h es t u d e n t sc a nm a k et h e i rs t u d y p l a na n da r r a n g et h es c h e d u l ef r e e l yw i t h o u tt h el i m i to f s p a c ea n dt i m e b u tw h e t h e rt ot a k et h et r a d i t i o n a lo rm o d e r ne d u c a t i o nv i ai n t e r a c t ,t h e c o m m u n i c a t i o nb e t w e e nt h et e a c h e r sa n ds t u d e n t si sv e r y i m p o r t a n t a st o t h et r a d i t i o n a l e d u c a t i o n ,t h ec o m m u n i c a t i o nb e t w e e nt h et e a c h e r sa n ds t u d e n t si sp r a c t i c e df a c e - t o - f a c e s h o u l dt h es t u d e n th a v ea n yq u e s t i o n s ,h ec a na s kt h et e a c h e rd i r e c t l y b u tf o rt h ed i s t a n c e e d u c a t i o n t h es t u d e n t sc a n n o tc o m m u n i c a t ew i mt h et e a c h e r sd i r e c t l y , s ot h er e s e a r c ha n d d e v e l o p m e n to fq u e s t i o n a n s w e rs y s t e mi sav e r yi m p o r t a n tp r o b l e mt h a tw en e e dt or e s o l v et o i m p r o v et h ed i s t a n c ee d u c a t i o n n o w a d a y sm a n yq u e s t i o na n s w e rs y s t e m sh a v ea d o p t e dt h et e c h n o l o g yo f k e y w o r d b a s e di n q u i r ya n dm a t c h i n gw i t ht h ep r o b l e mo fb a di n t e r a c t i o na n dl o w p r e c i s i o n a c c o r d i n gt ot h eo r i g i n a li d e ao fq u e s t i o na n s w e rs y s t e m ,a n dw i t ht h e r e s e a r c ha n da n a l y s i so fn a t u r a ll a n g u a g ep r o c e s st e c h n o l o g y ,t h i sd i s s e r t a t i o np u t s f o r w a r das o r to fq u e s t i o na n s w e rs y s t e mi nl i m i t e dd o m a i nt h a tc a l lu s en a t u r a l l a n g u a g e o u rq u e s t i o na n s w e rs y s t e mc o n s i s t so ft h r e em a i np a r t s :q u e s t i o na n a l y s i s , f r e q u e n t l ya s k e dq u e s t i o n sa n da n s w e rs e a r c h 1 1 1 ef u n c t i o no fq u e s t i o na n a l y s i si st o u n d e r s t a n dt h eu s e r s q u e s t i o n i t i n c l u d e sw o r d s e g m e n t a t i o n , q u e s t i o n c l a s s i f i c a t i o na n dk e y w o r ds e l e c t i o n t h em o d u l eo f f r e q u e n t l ya s k e dq u e s t i o ni sp u t f o r w a r di no r d e rt oi m p r o v et h es e a r c he f f i c i e n c y i ts a v e st h ef r e q u e n t i ya s k e d q u e s t i o n sa n dt h er e l a t e da n s w e r s a n s w e rs e a r c hm o d u l ea i m st or e t r i e v ea n s w e r s r e l a t e dt ot h ek e y w o r d sg e n e r a t e di nq u e s t i o na n a l y s i s ,a n dr e t u r nt h em o s tr e l a t e d a n s 、v c r a c c o r d i n gt ot h ec h a r a c t e r i s t i co fq u e s t i o na n s w e rs y s t e m ,w et r yt oi m p r o v e t h em e t h o do fc o m p u t i n gt h e w e i g h to fk e y w o r d a n dw ea d dt h eq u e s t i o n c l a s s i f i c a t i o ni nf r e q u e n t l ya s k e dq u e s t i o n s i nc o m p u t i n gt h es e n t e n c es i m i l a r i t y ,w e a d o p t t h e m e t h o d so f t f x i d f b a s e d o n v e c t o rs p a c e m o d e l a n ds e m a n t i cs i m i l a r i t y f i n a l l y ,w eh a v es u c c e s s f u ls e tu pt h ew e b - b a s e dq u e s t i o na n s w e rs y s t e mu s i n g v i 上海大学硕士学位论文 t h ek e yt e c h n o l o g ym e n t i o n e da sa b o v e i na d d i t i o n ,o u rq u e s t i o na n s w e rs y s t e mh a s c e r t a i nr e f e r e n c ev a l u ei ns o m eo t h e rf i e l d s k e y w o r d :q u e s t i o na n s w e r ,n a t u r el a n g u a g ep r o c e s s ,w o r ds e g m e n t a t i o n , v e c t o rs p a c em o d e l ,s i m i l a r i t y v i i 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发 表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 签名:丕刍! 望日期丝蔓:! :! 竺 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即:学校有权保留论文及送 交论文复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名:丝笪导师签名: i i 上海大学硕士学位论文 1 1 研究的背景 第一章绪论 随着网络技术的发展和互联网资源的不断完善,远程教学逐渐普及,答疑 作为教学活动中的一个重要环节,正日益引起人们的关注。如何在远程教学系 统中实现答疑,是构建教学系统时所面临的一个重要问题。在远程教学环境下, 学生在自主学习过程中不可避免地会碰到各种疑难问题,由于教师和学生是一 对多的关系,教师受到时间和精力的限制,根本无法及时地回答学生提出的所 有问题,由此将会造成学生知识掌握上的缺陷和漏洞,从而影响学生的学习积 极性和主动性。答疑系统是教学系统的重要组成部分之一,它在加强教师和学 生的交流,帮助学生明确问题的所在和获得自己真正需要的答案信息方面具有 不可或缺的作用。一个优秀的答疑系统,不仅是师生交流的重要方式和手段, 而且可以充分利用已有资源,帮助教师更准确地了解学生学习情况,改善教学 环境,提高效率。 目前,大多数的答疑系统采用的是关键词检索方式,用户输入关键词后, 返回一堆与问题相关或不相关的材料。这种方式存在诸多不足。第一,用户对 答案的检索往往需要用关键词的组合来表达。然而用户对检索的需求往往很复 杂,很多时候无法用几个关键词的简单组合来表示。若用户无法将自己的需求 表达清楚,答疑系统就没有办法给出用户满意的答案了;第二,以关键词匹配 为基础的检索,匹配算法只是停留在语言的表面,而没有触及语义,因此检索 效果很难有进一步的提高。 最近几年,自动问答( q u e s t i o n a n s w e r i n gt r a c k ) 在每年一度的文本信息检索 ( t e x tr e t r i e v a lc o n f e r e n c e ,t r e c ) 会议上是最受关注的主题之一。它能够 让用户用自然语言句子提问,并为用户返回一个简洁、准确的答案,而不是一 些相关的网页。因此,自动问答系统和传统的依靠关键词匹配的搜索引擎相比, 能够更好地满足用户的检索需求,更准确地找出用户所需的答案,具有方便、 上海大学硕士学位论文 快捷、高效等特点。远程教学中的答疑系统与信息检索中的自动问答系统有诸 多的相同之处,因此,我们可以采用自动问答系统中的一些思想,结合远程教 学的特点,开发一种适应于远程教学的自动答疑系统,能够很好地提高教师资 源和答案资源的利用率。 1 2 研究的概况 早在6 0 年代人工智能研究刚开始的时候,人们就提出了让计算机用自然语 言来回答人们的问题,这就是指自动问答系统。问答系统在8 0 年代的自然语 言处理领域曾风行一时,因为t u r i n g 实验告诉人们如果计算机能够像人一样与 人进行对话,就可以认为计算机有智能,所以研究者们为了探索语言理解技术, 纷纷研究自然语言问答系统。但是,由于当时的条件限制,所有的实验都是在 非常受限的领域,甚至是固定段落上进行的,所以自动问答直被限制在特殊 领域的专家系统。此后,由于大规模文本处理技术的兴起,问答系统的研究受 到了冷落。 最近几年,随着网络和信息技术的快速发展和人们想更快地获取信息的愿 望促进了自动问答技术的发展。最近越来越多的公司和科研院所参与了自动问 答技术的研究。比如微软和i b m 等著名的跨国公司。在每年度的文献信息检 索会议上,自动问答系统是最受关注的主题之一。在2 0 0 0 年1 0 月召开的 a c l 2 0 0 0 国际计算语言学学术会议上,有一个专题讨论会,题目是 “o p e n d o m a i nq u e s t i o na n s w e r ”。 目前,国外已经开发出一些相对成熟的问答系统,其中有些答疑系统在智 能化方面做得比较出色,如a s kj e e v e s 公司a s kj e e v e sf o r k i d s 网上答疑系统、 麻省理工( m i t ) 人工智能实验室b o r i sk a t z 博士组织开发的s t a r t ( s y n t a c t i c a n a l y s i su s i n gr e v e r s i b l et r a n s f o r m a t i o n ) i b 3 答系统、z h i p i n gz h e n g 博士组织开发 的a n s w e r b u s 答疑系统【”。 a s kj e e v e sf o rk i d s 网上答疑系统口】的网址是h t t p :w w w a j k i d s t o m ,系统提 供给用户一些问题的样例和提问技巧以保证系统快速给出确切的答案。提问模 块系统不但支持了自然语言提问,而且设计了问题的确认交互,通过这层交互, 上海大学硕士学位论文 系统能够更精确地理解用户的问题,为问题的准确解答提供了保障。 s t a r t 系统口 是国外比较出色的答疑系统之一,从1 9 9 3 年开始发布在 i n t e m e t 上,网址如下:h t t p :w w w a i m i t e d u p r o j e c t s i n f o l a b 。可以回答一些有 关地理、历史、文化、科技和娱乐等方面的简单问题。 a n s w e r b u s 4 1 是个多语种的自动问答系统,它不仅可以回答英语的问题,还 可以回答法语、西班牙语、德语、意大利语和葡萄牙语的问题。该问答系统的 网址是:h t t p :m i s s h o o v e r s i u m i c h e d u z z h e n g q a n e w 。 这类系统几乎都是独立运行的,所扮演的角色更像是一个专业领域资源的 提供者,提问者借助系统解答的问题不一定是某个完整的教学过程中的一部分, 他们通过寻求答案可能是为了解决他们在相应学科的问题,也可能仅仅是为了 满足好奇心,或者是为了寻找作业或任务中需要的资源。 目前,国内很多研究机构和远程教学站点也对答疑系统展开了深入的研究。 根据国内具有代表性的远程教学系统中有关答疑部分的特点,可以分为以下三 个类型 5 :第一类,没有专门的答疑部分,师生之间的信息交流仅局限于通过 电子邮件直接联系,或者利用系统留言板发布公告信息,如浙江大学现代远程 教育中心 6 】等研制的系统属于这一类;第二类,具有初步答疑功能的答疑系统, 这类系统提供了基于w 曲的b b s 形式的讨论和在老师的主持下以聊天方式进 行的模拟课堂,如北京大学现代远程教育系统【”、北京理工大学现代远程教育 学院【8 】的远程教育系统等;第三类,初步具备智能自动答疑功能的答疑系统, 该类系统大多采用的是关键词查询方式,通过用户输入关键词,然后返回一大 堆与问题相关或不相关的材料。尽管很多现有的远程教学系统已经提供了基本 的答疑功能,但就系统功能和答疑效果而言,还存在很多不足:第一种类型对 用户存在的问题不能及时解答,对同一问题多次回答;第二种类型要求有限的 教师全天候实时回答大量学生的问题;第三种类型可看为一种辅助查询系统, 要求学生具备一定的查询技术。从上面的分析可以看出,国内大部分教育人员 对网上答疑的认识还局限在传统教学中的人际交互的模式中,回避了网络技术、 人工智能等先进技术给答疑提供的强大支持。因此,有必要把自动问答系统的 思想引入到远程教学答疑系统中来,以突破传统教学模式对远程教学答疑系统 上海大学硕士学位论文 的禁锢。 1 3 研究的目的和意义 目前已有的答疑系统多数是基于关键词的查找,即首先由用户输入关键词 或者关键词的逻辑组合,然后系统在己有的问题和答案数据库中查找相关的材 料。这种方式需要提问的人具有提取关键词的能力,但是用户的用词和系统中 存储的关键词在表达方式上可能不完全一样,关键词匹配法必将导致很多问题 找不到答案,或者找不准答案。为了提高系统回答问题的效率和减轻用户不必 要的负担,根据自动问答系统的思想,本文研究了能理解自然语言的自动答疑 系统。该系统有一定的智能性,能够自动解答用户的疑问,帮助用户快速、准 确地找到他们真正需要的答案。 计算机自动地回答用户所提出的问题,就其本质来说,是属于自然语言理 解范畴。而自然语言理解作为人工智能学科的一个分支,在实际应用中尚有一 段距离。但是具体到本文,由于用户提出的问题都是针对某一门具体的课程而 言,因而大量用户提出的问题中有相当大的一部分是非常类似的。因此,本文 以西安电子科技大学出版社出版的汤子瀛等编著的计算机操作系统 9 为实 例,建立一个支持自然语言理解的自动答疑系统,在人机交互的基础上,通过 教师的适当参与,让计算机对用户提出的问题进行分析和匹配,自动查找问题 的答案。 答疑是教学活动中一个必不可少的环节。在基于i n t e m e t 的自主学习式远程 教学环境中,分布在各地的用户、老师不再需要面对面地进行教学活动。这样, 远程教学在提供了一些便利的同时,也产生了一个问题:如何使传统的答疑活 动在远程教学系统中得以实现。远程教学的优势在于用户在任何时间、任何地 点都可以上网参加学习,但是教师则不可能及时回答众多用户的问题,同时不 断地回答重复或相似的问题也是一种极为低效的工作。因此,这样的答疑不是 用户和教师之间及时有效的答疑方式,只是一种初级而简单的方式,远远没有 把计算机与w e b 的潜力发挥出来。为解决远程教学环境中的高效率答疑问题, 需要建立一个方便、有效的自动答疑系统。 上海大学硕士学位论文 本文提出的自动答疑系统具有的优势主要体现在: 1 、提高了学习和工作效率。 用户在整个学习过程中不可避免地要产生疑难蒯题,但提出的问题有 6 0 7 0 是实质内容相同的,自动答疑系统能够自动理解用户用自然语言提出的 问题,经过分析后,能够自动的给山答案,用户不需要了解太多的搜索引擎工 作原理与关键词抽取技术,从而减轻了用户负担:同时,教师只需要定时更新 和维护知识库就可以了,1 ;必时时在网上和用户进行交流,提高了教师的工作 效率。 2 、突破了传统的教学模式,更具有人性化。 自动答疑系统突破了传统意义e 的远程教学模式,创立了一种新型的远程 教学交流模式。由于自然语言理解技术的三方面功能,即机器翻译、语义理解 及人机会话技术能够赋予搜索技术更具人性化、方便易用的特点,因此,与传 统的目录查询、关键词查询模式相比,自然语言查询的优势体现在:一、使问 题交流更加人性化;二、使信息查询变得更加方便、快速和准确;三、能够正 确理解人类语言,使其具有智能性。 1 4 论文的研究内容 本文首先阐述了自然语言处理技术的主要内容和实现算法,然后把自然语 言处理技术应用到远程教学中,提出了一种新型的自动答疑系统的模型,并给 出系统总体设计框架,最后对系统实现的关键技术进行了分析和研究,并给出 了实现方案。 论文共分为五个部分:第一章介绍了论文研究的背景、目的和意义,分析 了目前国内外研究和发展的概况;第二章对自然语言处理的关键技术进行了论 述。其中主要包括分词、特征提取、权重以及相似度计算等关键技术:第三章 详细介绍了自动答疑系统的设计原理、系统结构以及系统的功能模块:第四章 介绍了系统关键技术的实现;第五章总结了全文的主要成果,并指出需进一步 完善的工作。 完善的工作。 上海大学硕士学位论文 第二章自然语言处理技术 本章主要阐述自然语言处理技术的基本原理,它是实现基于自然语言理解 的自动答疑系统的核心技术的理论依据。主要包括:自动分词、文本的表示以 及语句相似度计算等。 2 1 汉语自动分词 自从8 0 年代初中文信息处理领域提出自动分词以来,有关方面的专家、学 者为之付出了不懈的努力。 中国正在向信息化社会迅速前进,网上中文网页急剧增加,中文电子出版 物和中文数字图书馆迅速普及。以非受限文本为主要对象的中文自然语言处理 研究的重要性日益显著。而汉语自动分词是任何中文自然语言处理系统都难以 回避的第一道基本“工序”,其作用是怎么估计都不会过分。只有逾越这个障碍, 中文处理系统才称得上初步打上了“智能”的印记,构建于词平面之上的各种 后续语言分析手段才有展示身手的舞台,否则,系统便只能被束缚在字平面上, 成不了太大气候。具体来说,自动分词在很多现实应用领域中都扮演着极为重 要的角色。主要包括:自动答疑、中文文本的自动检索、过滤、分类及摘要, 机器翻译,汉字识别与汉语语音识别的后处理等。 2 1 1 汉语自动分词的方法与技术 可以将现有的分词方法分为三大类:基于字符串匹配的分词方法、基于理 解的分词方法和基于统计的分词方法【1 1 i 。 1 、基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与 一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串, 则匹配成功( 识别出一个词) 。 按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按 上海大学硕士学位论文 照不同长度优先匹配的情况,可以分为最大( 最长) 匹配和最小( 最短) 匹配: 按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结 合的一体化方法。常用的几种机械分词方法如下: 正向最大匹配法( m a x i m u mm a t c h i n g ) :也称为m m 方法。正向最大匹配法 的基本思想是:用m a x l 表示最大词长,按照从左到右的顺序,首先从汉字串 中取长度为m a x l 的子串,查词典,若词典中存在这个词,则切分出这一子串, 后移m a x l 个汉字后继续切分;否则,子串长度减一,再与词典匹配。若长度 为2 的子串还不能在词典中找到,则取当前汉字为词,指针后移一个汉字继续 匹配。 逆向最大匹配法( r e v e r s em a x i m u mm e t h o d ) :也称为r m l v l 方法。它的分词 过程与m m 方法相同,不同的是每次是从待处理汉字串的末尾开始处理,每次 匹配不成功时去掉的是前面一个汉字。 最少切分:和正向最大匹配一样,按照从左到右的顺序,首先从汉字串中 取出长度为2 的子串查词典,若词典中存在这个词,则切分出该子串,指针后 移2 个汉字,否则,子串长度逐次加一继续匹配。若一直到长度为m a x l 的子 串仍无法匹配,则切分出当前汉字。 还可以将上述各种方法相互组合。例如,可以将正向最大匹配方法和逆向 最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小 匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正 向匹配,遇到的歧义现象也较少。 统计结果表明,单纯使用正向最大匹配的错误率为1 1 6 9 ,单纯使用逆向最 大匹配的错误率为1 2 4 5 ( 这可能是因为汉语的中心语靠后的特点) 。但这种精 度还远远不能满足实际的需要。由于分词是一个智能决策过程,机械分词方法 无法解决分词阶段的两大基本问题:歧义切分问题和未登录词识别问题。实际 使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它 的语言信息来进一步提高切分的准确率。 一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符 串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串 上海大学硕士学位论文 分为较小的串再来进机械分词,从而减少匹配的错误率。 另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决 策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极 大地提高切分的准确率。 另外,还可以证明,早期曾流行一时的“切分标志字串”预处理方法是一 个毫无必要的技术,它增加了一遍扫描“切分标志词典”的时空复杂性,却并 没有提高分词精度,因为所谓的切分标志其实都已经隐含在词典之中,是对词 典功能的重复。实际上“切分标志”也没有标记歧义字段的任何信息。因此, 在近来的分词系统中,已经基本上废弃了这种“切分标志”预处理方法。 目前实用的自动分词系统基本上都是以采用机械分词为主,辅以少量的词 法、语法和语义信息的分词系统。 2 、基于理解的分词方法 通常的分析系统,都力图在分词阶段消除所有歧义切分现象。而有些系统 则在后续过程中来处理歧义切分问题,其分词过程只是整个语言理解过程的一 小部分。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和 语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系 统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的 句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。 这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、 复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理 解的分词系统还处在试验阶段。 3 、基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现 的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够 较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行 统计,计算它们的互现信息。定义两个字的互现信息为:m ( ) ( ,y ) = l o g ( p ( x ,y ) ( p ( x ) p ( y ) ) ) ,其中v ( x ,y ) 是汉字x 、y 的相邻共现概率,p ( 砷、v ( y ) 分别是x 、y 在语料中出现的概率。互现信息体现了汉字之间结合关系的紧密 上海大学硕士学位论文 程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这 种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词 典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共 现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、 “许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分 词系统都要使用一部基本的分词词典( 常用词词典) 进行串匹配分词,同时使 用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分 词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自 动消除歧义的优点。 2 1 2 现有的汉语自动分词系统 衡量自动分词系统的主要指标是切分精度和速度。由于切分速度与所运行 的软、硬件平台密切相关,在没有注明运行平台时,切分速度只是一个参考指 标,没有可比性。另外,所注明的切分精度都是开发者自测试的结果。自8 0 年 代初中文信息处理领域提出自动分词以来,一些实用的分词系统逐步得以开发, 其中c d w s 分词系统【1 2 】、哈尔滨工业大学统计分词系统 1 3 和中科院分词系统 i c t c l a s 1 4 等几个比较有代表性的自动分词系统产生了较大的影响。 1 、c d w s ( t h em o d e m w r i t t e nc h i n e s ed i s t i n g u i s h i n gw o r ds y s t e m ) 是我国第 一个实用性的自动分词系统,是北京航空航天大学计算机科学与工程系于1 9 8 3 年设计实现的。c s w s 系统采用的自动分词方法为m m 方法,辅助以词尾字构 词检错技术,使用知识库进行纠错。c d w s 的分词精度约为1 1 6 2 5 ( 人工干预, 不考虑多音字构词所引起的分词错误) ,基本上满足了词频统计和其他一些领域 的应用要求。 2 、哈尔滨工业大学统计分词系统是一种典型的运用统计方法的纯分词的分 词系统,它试图将串频统计和词匹配结合起来。系统由预处理模块、串频统计 模块、切分模块三个部分构成,能够利用上下文识别大部分生词,解决一部分 切分歧义,但是统计分词方法对常用词识别精度差的固有缺点仍然存在。经测 试,此系统的分词错误率为1 5 ,速度为2 3 6 字秒。 上海大学硕士学位论文 3 、中科院分词系统i c t c l a s ( i n s t i t u t eo f c o m p u t i n gt e c h n o l o g y ,c h i n e s e l e x i c a l a n a l y s i ss y s t e m ) ,系统利用丰富的词类信息对分词决策提供帮助,并且 在标注过程中又反过来对分词结果进行检验、调整,同时将基于规则的标注排 歧与基于语料库统计模型的排歧结合起来,使规则的普遍性与灵活性得到统一, 而且对未登录词的估算到达了相当高的准确率。系统的处理过程包括了自动切 分和初始词性标记、切分歧义字段识别、组词和标注预处理、词性标记排歧、 切分和词性标注后处理等过程,系统的算法综合了多种数据组织和搜索技术, 以很低的时空开销实现了高速匹配和查找,同时采用了当代计算语言学的统计 方法,运用隐m a r k o v 过程进行词类标注和排歧,对算法的效率和稳定性都作 了尽可能的优化。此系统的一大特色是对通用性的强调,将最稳定、最常用的 4 万6 千余条现代汉语基本词汇( 即将扩充到7 万多条) 及其有关属性组织成 为基本词典,这些词的基本地位都是由汉语语言学家逐一检验认可的,这是本 系统通用性的保证;在此词典的基础上充分利用汉语构词法的研究成果,可以 识别出大部分的常用词。同时该系统对用户词典机制作了最大限度的扩展,允 许用户加入多部自定义词典,并允许用户对这些词典的优先顺序自由排列,这 样就可以用较小规模的多个特殊词典更有针对性地解决具体领域的文本处理。 因此i c t c l a s 分词系统的语言模型实现了通用性与多样性的有效结合,并达 到了极高的效率。 中文分词系统的功能将影响到自动答疑系统的最终效果,因此选择合适的 分词算法,是自动答疑系统实现中比较重要的一步。根据9 7 3 专家组的大规模 语料开放评比测试表明:i c t c l a s 系统是国内最好的。目前,i c t c l a s 己经 成功应用到了中华商务网、慧聪、计算所的搜索引擎等系统当中,取得比较好 的效果。中科院的分词系统分为f r e e 版本和商用版本,f r e e 版本源码完全公开, 资源共享,其前身就是参加国家9 7 3 评测中的第一名的系统。因此,我们选择 了中科院的i c t c l a s 分词系统作为本文自动答疑系统的基础件。 2 2 文本的表示 计算机并不具有人类的智能,人在阅读文章后,根据自身的理解能力可以 上海大学硕士学位论文 产生对文章内容的模糊认识;而计算机并不能轻易地“读懂文章”,从根本上说, 它只认识0 和1 ,所以必须将文本转换为计算机可以识别的格式。根据“贝叶 斯假设”,假定组成文本的字或词在确定文本类别的作用上相互独立,就可以使 用文本中出现的字或词的集合来代替文本。不言而喻,这将丢失大量关于文章 内容的信息,但是这种假设可以使文本的表示和处理形式化。 2 2 1 向量空间模型 向量空间模型( v e c t o rs p a c em o d e l ,v s m ) 是一种文档表示的统计模型, 它是指一篇或一类文档用一组特征项及其权值构成的向量表示,向量的集合组 成向量空i ne 1 5 】。目前,在信息处理方面,文本的表示主要采用向量空间模型。 文本的内容可以用特征项来表示,特征项可以是字、词或词组等语言单位 。使用字特征项是最简单的方法,将文本分解为字特征非常容易实现。按照 g b 2 31 2 的规定共有6 7 6 8 个汉字。这样特征集合就非常小,最大不会超过6 7 6 8 。 在这一点上与其他特征( 如词特征) 相比优点是非常明显的。以字为特征项也 有其明显的缺点,因为从理论上说,字不能完整地表示一个语义范畴,对文档 的表示能力应当是较差的。 根据实验结果,普遍认为选取词作为特征项要优于字和词组。以词为单位 比较符合自然思维习惯,便于系统利用语言学知识。与字特征比较起来,词特 征蕴涵了更为丰富的语义信息,能够更为完整、准确地表达文本信息。 在向量空间模型中,将文本看作由一组特征项( w l ,w 2 ,w m ) 构成, i 1 个文本组成的集合d = d l ,d 2 ,“) 被m 个特征项w l ,w 2 ,w 。索 引可表示成一个n m 的特征项矩阵a ,见公式2 1 : , 。 既,氓:。 ( 2 1 ) 其中a 的每个元素w d 表示特征项j 在文本i 中的权重。在向量空问模型中, a 的列向量称为文本向量,a 的行称为特征项向量。其中a 的列向量表达了文 本的语义内容。 上海大学硕士学位论文 2 2 2 特征项的提取 构成文本的词汇,数量是相当大的,所以,表示文本的向量空间的维数也 相当大,可以达到几万维。因此我们需要进行维数压缩的工作,这样做的目的 主要有两个:第一,为了提高程序的效率,提高运行速度;第二,所有几万个 词汇对文本分类的意义是不同的,一些通用的、各个类别都普遍存在的词汇对 分类的贡献小;在某特定类中出现比重大而在其它类中出现比重小的词汇对文 本分类的贡献大。为了提高分类精度,对于每一类,我们应去除那些表现力不 强的词汇,筛选出针对该类的特征项集合,筛选特征项的算法可以采用词和类 别的互信息量判断,其算法过程如下【1 7 】: 1 、初始情况下,该特征项集合包含所有该类中出现的词。 2 、对于每个词,计算词和类别的互信息量为l o g 三群 舯p ( fc 沪而篝 p ( w i c j ) 为词w 在类别c j 中出现的比重,l d i 为该类的训练文本数,n ( w , d i ) 为词w 在d i 中的词频,i v l 为总词数,:,i d i n ( w , =。,d ,) 为该类所有词的词频 和。而p ( w ) 与上面的计算公式相同,只是计算词在所有训练文本中的比重,其 中,i d i 为全体训练文本数。 3 、对于该类中所有的词,依据上面计算的互信息量排序。 4 、抽取一定数量的词作为特征项。具体需要抽取多少维的特征项,目前无 很好的解决方法,一般采用先定初始值,然后根据实验测试和统计结果确定最 佳值。一般初始值定在几千左右。 5 、将每类中所有的训练文本,根据抽取的特征项进行向量维数压缩,精简 向量表示。 对于某一门课程,每一章节都有其讲述的中心内容,所以在我们的自动答 疑系统中可以对课程以章节进行分类,然后利用词和类别互信息量的算法对课 程中的特征项进行提取。我们把提取出来的特征项称为特征词或关键词,它是 能够较好反映文本中心内容的词汇。特征词一般在当前的章节中出现的次数较 上海大学硕士学位论文 多,而在整个课程中出现的次数较少。而虚词,如“的”等一般在整篇课程中 出现的次数很多,但不能作为特征词。 2 2 3 关键词的权重 关键词是组成文本的基本元素。关键词的权重综合反映了该词对标识文本 内容的贡献度和文本之间的区分能力。各个关键词在不同文本中的出现频率满 足一定的统计规律,因此可根据关键词的频率特性来分配特征词权重。一个有 效的关键词集,必须具备以下两个特征:1 、完全性:关键词确实能够标识文本 内容;2 、区分性:关键词具有将目标文本与其他文本相区分的能力。根据以上 两条特征,关键词权重分配大致满足两条原则:一是正比于关键词在文本中的 出现频率;二是反比于样本文本集中出现该关键词的文本频率。 关键词权重的计算方法主要运用t f x i d f 公式,见公式2 2 。 w ( t ,d ) 2 t f ( t ,d ) l 0 9 0 n n t ) 2 t f i d f ( 2 2 ) 其中,w ( t ,d ) 为词t 在文本d 中的权重,而t f ( t , d ) 为词t 在文本d 中的 词频,n 为i j l l 练文本的总数,n t 为训练文本集中出现t 的文本数,i d f = l o g ( n n 0 称为逆文本频数。 文本经过分词系统分词后,首先去除停用词,合并数字和人名等词汇,然 后统计词频,最终表示为向量空间所需要的向量。 2 3 语句相似度的计算 语句相似度的计算是中文自动问答系统中一个最重要的理论基础。在答疑 系统中,很多部分需要用到语句相似度的计算。自动问答系统中语句相似度的 计算包括问题与问题之间的相似度计算,问题和答案之间的相似度计算。在常 问问题库中就需要用到问题与问题之间的相似度,在答案检索模块中需要用到 问题和答案之间的相似度。所以,语句相似度的计算在自动问答系统中占有重 要的地位。 语句相似度的计算有很多种方法,这里我们提出了两种计算语句相似度的 方法:基于向量空间模型的t f i d f 方法和语义相似度法 1 9 1 的语句相似度计 上海火学硕士学位论文 算法。 2 , 3 1 基于向量空间模型的t f i d f 方法 在信息检索领域中,基于向量空间模型的t f i d f 方法被广泛地用来计算 文本之间的相似度。假设所有句子中包含的词为w 1 、w 2 、w 。,则每一个 句子都可以用一个n 维的向量t = 来表示。其中,t j ( 1 i n ) 的计算方法为:设k 为w 。在这个句子中出现的个数,1 7 1 为其他所有句子中 含有w 。的句子的个数,m 为句子的总数,那么t 。_ k l o g ( m m ) = t f i d f 【2 0 】。 从这个式子中可以看出,出现次数多的词将被赋予较高的k 值,但这样的词并 不一定具有较高的t 值。例如,在汉语中“的”出现的频率非常高,即t f 值 ( k 值) 很大,但由于“的”在很多句子中都出现,它对于我们分辨各个句子 并没有太大的帮助,它的i d f 值( 1 0 9 ( m m ) ) 将是一个很小的数。因此,这 种方法综合地考虑了一个词的出现频率和这个词对不同句子的分辨能力。 用同样的方法,我们可以计算目标句子的n 维向量t = 。得到t 和t 后,它们所对应的两个句子之间相似度就可以t 和t 这两个向量之间夹角的余弦值来表示,见公式2 3 : y z z , s i m i l a r i “t ,t ) = 1 望一 ( 2 3 ) 1 1 2 z 。 yt = l i = l t f i d f 方法综合考虑了不同的词在所有句子中的出现频率( t f 值1 和这 个词对不同句子的分辨能力( i d f 值) 。 向量模型的优点是能满足用户多样化以及检索多样化的需要,缺点是相似 度计算量大,影响检索速度。 2 3 2 语义相似度法 计算语义

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论