(计算机软件与理论专业论文)模糊数学在网络自动答疑系统中的应用.pdf_第1页
(计算机软件与理论专业论文)模糊数学在网络自动答疑系统中的应用.pdf_第2页
(计算机软件与理论专业论文)模糊数学在网络自动答疑系统中的应用.pdf_第3页
(计算机软件与理论专业论文)模糊数学在网络自动答疑系统中的应用.pdf_第4页
(计算机软件与理论专业论文)模糊数学在网络自动答疑系统中的应用.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 模糊数学在网络自动答疑系统中的应用 张小勤滕至阳东南人学 答疑解惑是教学过程中不可缺少的环节,如何在i n t e r n e t 环境f 设计具有自动答疑功能的 网络自动答疑系统,成为当前智能教学研究的热点。目前国内外在这方面做的工作主要集中 在如何提高系统的智能方面,代表性的算法有:关键词匹配算法、加权关键词算法等。这些 算法具有一定的智能,但就返同答案的准确率以及系统的个性化服务等方面还存在很多问题。 作者针对这些情况,做了以下两方面的工作: 1 应用模糊数学于网络自动答疑系统中,在分析关键词对于句子的隶属度、用户问题与标准问 题的贴近度基础上,提山了基于闽值的择近原则算法。该算法克服了目前国内外几个代表 性算法的不足。提高了返回答案的准确率,并且为用户提供了个性化的服务。 2 采用三层体系结构架构系统,设计并完成了基于j 2 e e 体系结构的网络自动答疑系统 n a a q s 。通过对系统运行情况的分析。证实了基于阅值的择近原则算法具有高智能性。 关键词网络自动答疑系统模糊数学隶属度贴近度择近原则三层体系结构 j 2 e e a b s t r a c t t h e a p p l i c a t i o no ff u z z ym a t h e m a t i c s i nt h en e t w o r ka u t o m a t i ca n s w e r q u e s t i o ns y s t e m z h a n g x i a o - q i n t e n g z h i y a n g s o u t h e a s tu n i v e r s i t y q u e s t i o na n s w e r i n gi s a ni m p o r t a n te d u c a t i o n a la c t i v i t y h o wt od e v e l o pa na u t o m a t i ca n s w e r q u e s t i o ns y s t e mr u n n i n go n t h ei n t e r a c t b e c o m eah o t s p o ti nt h ei n t e l l i g e n tt e a c h i n ga r e a ,c u r r e n t w o r k sa r e f o c u s i n g o nh o wt o i m p r o v et h ei n t e l l i g e n c e o ft h e s y s t e m ,a n d t h e r ea r es o m e r e p r e s e n t a t i v ea l g o r i t h m sa b o u ti t ,s u c ha s :b a s e do nt h ek e y w o r d sm a t c h i n ga l g o r i t h ma n db a s e d o nt h ev a l u e sk e y w o r d sa l g o r i t h m ,e t c t h o s ea l g o r i t h m sh a v ec e r t a i ni n t e l l i g e n c e ,b u tt h e ya l s o h a v es o m ef l a w sa b o u tt h ec o r r e c t n e s so fa n s w e ra n dp o o rq u a l i t yo fs e r v i c et ot h eu s e r t o w a r dt h i s s i t u a t i o n ,t w om a i n w o r k so f t h i sp a p e ra r ea st h ef o l l o w i n g : 1 a p p l y i n gt h ef u z z y m a t h e m a t i c si nt h es y s t e m ,t h i sp a p e r ,b a s e do l lt h eg r a d eo fm e m b e r s h i p b e t w e e nk e y w o r da n ds e n t e n c e ,t h ep r o x i m i t yb e t w e e nu s e rq u e s t i o na n ds t a n d a r dq u e s t i o n , p r o v i d e s an e wa l g o r i t h mo ft h ef u l lc l o s ep r i n c i p l ew i t ht h r e s h o l d ,a n di t i m p r o v g t h e i n t e l l i g e n c eo f s y s t e m 2 d e v e l o p an e t w o r ka u t o m a t i ca n s w e rq u e s t i o ns y s t e m ( n a a q s ) w i t ht h e t h r e e - t i e r e d a r c h i t e c t u r e k e y w o r d s n e t w o r ka u t o m a t i ca n s w e rq u e s t i o ns y s t e m f u z z y m a t h e m a t i c s g r a d eo f m e m b e r s h i p p r o x i m i t y f u l lc l o s ep r i n c i p l e t h r e e t i e r e da r c h i t e c t u r e h 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:弪d :垦歪 日期: 2 q q 垒生q 3 旦 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印 件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质 论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括 刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。 研究生签名:翟j 眨一导师签名:三阻日 期:猁 第一章引言 第一章引言 随着计算机和i n t e r n e t 的普及与发展,人们构架了许多基于w e b 环境的软件系统。其中 面向教育的远程教育系统发挥着越来越重要的作用,它突破了传统教学模式,充分利用现有 条件,为缓解当前日益紧张的教育资源提供了一种有效的解决方案。答疑是教学活动过程中 一个必不可少的环节,如何设计好答疑系统成为远程教育系统需要解决的个重要课题。 目前,答疑系统有人工答疑和自动答疑两种类型。人工答疑系统一般通过网上讨论区、 e - m a j l 、聊天室和留言板等方式实现;自动答疑系统主要通过分析用户提出的问题,再从答 寨库中自动搜索出与这个问题相关性较强的答案反馈给用户方式实现 1 。 由于人工答疑系统易于设计,本文不考虑这一部分内容,相关文章请参阅 2 】。而基于w e b 环境的自动答疑系统突破传统的“师生现场答疑”模式,使得答疑时间和空间不再受到限制, 并丰富了问题解答的表现形式,成为传统课堂教学的有益补充。 1 1 国内外研究现状 从国内外研究现状来看,基于w e b 的网络自动答疑系统框架一般如图11 所示。首先用 户向网络自动答疑系统提交问题,然后系统的分析处理模块以某种智能方法处理后,返回答 案给用户。 用户提出的问题 【 浏 r i目,* 自 览分析处理模块i 7 d b 措 系统返回问题的答案 1 1 返回答案 答案库 网络自动答疑系统 客户机服务器 图1 1 网络自动答疑系统框架 对于图11 ,说明如下: 1 ) 服务器端的答案库存贮某一领域内常见问题及其答案,其表结构形式一般如表1 i 所示。 该表结构包括蕊部分:问题和答案。针对答案库中的答案,可以有多种形式的问题,不存 在唯一问题( 其实答案库中的问题也不一定是标准的) 。例如:答案“操作系统是一个管理 计算机软、硬件资源,方便用户使用计算机的系统软件”,可以是问题“操作系统的定义? ” 的答案,也可以是问题“操作系统的概念? ”的答案,甚至是问题“操作系统是什么? ” 的答案,。总之,不存在唯一的提问。为了论述的方便,假设答案库中的问题为标准问 题。另外该表结构应该具有一定的开放性,可以把没有答案的问题存贮下来,等待老师的 解答。 东南大学砸士学位论文 表11 答案库的表结构 lq u e s t i o n ( f a 题)a n s w e r ( 答案) 【操作系统的定义操作系统是 操作系统的分类单用户o s ,多用户o s 卜 卜 2 ) 分析处理模块是网络自动答疑系统的核心部分,主要解决系统的智能问题。目前代表性的 算法有:关键词匹配算法 2 】 3 】【4 5 、加权关键词算法【6 。 1 1 1 关键词匹配算法。 算法思路( 2 : 先把用户问题拆分成一个个关键词,再对拆分后的关键词进行逻辑组合,最后在答案库 中寻找与之匹配的答案。 算法利弊分析: 该算法思路简单、易懂,基本能满足用户的需要。一个典型应用是上海交通大学远程教 育中心设计的a n s w e rw e b 自动答疑系统。但算法存在最主要的问题是:基于关键词的精确匹 配,没有考虑句子的语义性。如果有多个问题对应于同一个答案,该算法就没有办法解决。 例如: 问题1 :“操作系统的概念? ” 问题2 :“操作系统的定义? ” 这两个问题应该对应于同个答案,也就是说在答案库中应该只存在一条记录:要么是 “操作系统的概念? ”及其答案或者是“操作系统的定义? ”及其答案。假如只存在“操作 系统的概念? ”及其答案,那么问题2 “操作系统的定义? ”依照算法就难以得到解答,显然 不令人满意。 有一种方法可以解决这个问题:把问题2 及其相应答案添加到答案库中。但这造成了答 案库的数据冗余现象:同一个答案在数据库中有不同的问题记录。像这种类型的情况可以在基 丁加权关键词算法和作者提出的基于阂值的择近原则算法中得到比较好的解决。 1 1 2 基于加权关键词算法。 算法是在文献 6 中v o a s s 自动答疑系统中提出来的。 算法思路【6 : 1 ) 对于问题文本,根据系统的加权关键词词库进行逆向最大匹配分词( 逆向最大匹配分词是 指查找问题中是否有关键词库中的关键词) 。 2 1 根据加权关键词词库各个词的权值,计算分词结果后各个词在同一篇文档中的权值总和, 权值总和超过某个闽值的文档将按照权值总和大小依次被返同。 算法用到了一张精心设计的关键词表,如表1 2 所示。 表1 2 关键词的表结构 词语i 文档j 的i d 权值位置序列 “操作系统” 15 01 其中一个词语i 可以对应多个文档j ,一个文档j 也可包含多个词语i 。词语j 就是能够代 2 第一章引言 表目标文档j ( 即问题) 的文本特征的关键词。通过文档j 的i d 号,可以在答案库中查找文档j 的属性信息。权值则是词语i 在文档j 中的权值。文档j 的1 d 是答案库中某一项问题一答案 所对应的编号。 例如:问题:“操作系统的定义? ” 经过搜索关键词表后,发现“操作系统”对应于文档i 的权值为5 0 ,“定义”对应于文 档i 的权值为1 0 ,两个权值相加后权值总和为6 0 ,假设阈值为4 0 ,那么文档i 就应该返同。 算法利弊分析: 如果关键词表设计的好,可在某种程度上解决前面基于关键词匹配算法中的问题。 例如:假设关键词表中的“定义”和“概念”两个词所对应的文档j d 都有i ,并且权值近 似的话,那么提问1 “探作系统的定义? ”和“操作系统的概念? ”就应该返回同一个答案, 也即解决了关键词匹配算法中的答案冗余问题。 但是该算法存在下面一些新问题: 权值的选择和闽值的确定,这是一个非常复杂并且较难把握的问题,带有很大的主观性, 结果造成误选率很高。例如:“操作系统的定义? ”问题就会把“操作系统的定义? ”和“操 作系统的种类? ”及“操作系统的功能? ”所对应的答案提出来,因为三者所对应的权值总 和都大于闽值4 0 。如果要区分开来的话,必须调整“操作系统”关键词在各文档中的权值, 但是当调整权值后,你会发现当提取另外一个问题时,会把其它两个问题所对应的答案提出 来,也就是说该算法增加了对词语语义性的理解,但同时又提高了误选率。 再一个问题:不利于用户对返回答案的控制,缺少个性化。用户一般是希望返同接近某 一 度的答案,而不是返回夫于多少阈值的答案。例如:谁能理解如下的信息:“请返回大于 闽值4 0 的答案”,但是换成如下的信息就更容易理解:“请返回与正确答案接近度大于9 0 以 上的答寨”。 该算法存在的问题可以在作者提出的基于阈值的择近原则算法中得到很好的解决。 总之,从运行效果来看,这些算法不能很好地提高返同答疑的准确率;另外从实现技术 角度来看,还停留在传统的c s 模式上,不利于设计复杂的应用系统。 1 2 论文研究内容与目标 首先,作者通过对国内外研究现状的分析,发现自动答疑系统在智能方面的关键在于“用 户问题与标准问题的匹配”。针对这一点,本文提出需要达到高智能的五点要求: 1 1 如果用户问题与标准问题一模一样,那么就必须返回标准问题所对应的答案给用户。 称之为完全匹配。 2 ) 如果用户问题与标准问题在语义上很相似,那么就应该返回标准问题所对应的答案给 用户。称之为语义匹配。 3 ) 如果答案库中不存在与用户问题完全匹配或者语义匹配的标准问题,那么最好返回与 之有关联的标准问题所对应的答案。称之为关联匹配。 4 1 对于以上的完全匹配、语义匹配和关联匹配,系统可以提供某种机制供用户选择,使 系统呈现出一定的个性化服务。 5 1 答案库中的问题最好不要在语义层次上有数据冗余现象。 在具体实现过程中,为了方便用户的理解,作者把“贴近度”换成了“匹配程度”。 其次,为了使算法满足前面提出的五点要求,作者改进了模糊数学中的择近原则,提出 了基于阈值的择近原则算法。首先本文定义了关键词对于句子的隶属函数,然后形式化表示 句子为模糊向量,再用贴近度大小来表示用户问题与标准问题之间的匹配程度,可以根据匹 配程度大小归为哪种匹配类型,最后提出了基于闽值的择近原则算法。 东南大学硕士学位论文 另外作者日l a - - 层体系结构和j 2 e e 技术,设计并实现了n a a q s 系统,提高了复杂应用 系统设计的可靠性和跨平台性。通过系统的运行情况来看,验证了基于闽值的择近原则算法 的高智能性。 1 3 论文章节安排 第一章引言 介绍了目前国内外具有代表性的算法,并且分析了它们的优缺点,然后提出了自 己的研究内容与目标,并对章节进行了安排。 第二章模糊数学中与论文相关的一些概念 介绍了模糊数学中与论文相关的一些基本概念( 模糊集台、隶属度、模糊向量、 贴近度等) 。 第三章模糊数学在网络自动答疑系统n a a q s 中的应用 针对系统智能的关键点,提出了系统达到高智能的5 点要求,并定义了三种类型 的匹配。然后分析了关键词与甸子的隶属度以及句子与句子的贴近度,提出了基 于闽值的择近原则算法,并应用此算法提高了自动答疑系统的智能。 第四章网络自动答疑系统n a a q s 的设计与实现 介绍了三层体系结构和j 2 e e 规范,分析和提出了v v c 模式在3 2 e e 体系结构f 的应用模式j m v c ,并将该模式应用于网络自动答疑系统的设计和分析过程中, 设计和完成了n a a q s 系统。经过系统的运行,验证了基于阈值的择近原则算法 的高智能性。 第五章结束语 总结全文,提出不足,展望未来。 4 第二章模糊数学中与论文相关的一些概念 第二章模糊数学中与论文相关的一些概念 现实世界存在着的概念大体上可分为确定性和不确定性两类【7 】。例如三角形的面积、 物体的加速度、国籍、性别等,都是属于确定性的内容,即可以通过经典的数学方法f 代数方 程、微分方程等) 进行分析研究;而像美与丑、圆与缺、好与坏、老与少等,未必都有某种完 全确定的结论,属于不确定的内容,即不太能通过经典的数学方法进行分析研究。 对于不确定性的问题又可分为随机不确定性与模糊( f u z z y ) 不确定性两类【7 。随机不确定 性常指由于因果律存在破缺造成的不确定性。例如:实验的观测误差主要与观测手段( 如观测 仪器先进与否) 、观测环境( 如气温、温度、海拔高度等) 等因素有关;多元件组成的产品的寿 命与各元件的制作材料、工艺、操作技术、组合方式等诸多因素有关,且这些因素很难一一 枚举,更难定量地说明各自对结果造成了多大影响,从而在因果律上存在破缺,属于随机不 确定性一类。概率论与数理统计是研究随机不确定性问题的主要数学工具【7 。 对于美与丑、圆与缺、好与坏、老与少的划分,通常并不能通过因果关系获得结果。比 较典型的例子:“年青人”,你能在年龄轴上划上一道线,表明线内的就是年青人,线外的就 不是年青人吗? 显然不能,人的生命是一个连续过程,一个人从少年走向青年是一天一天积 累的,同样一个人从青年步入中年也是一个渐变的过程,它们都不是一跃而就的,必定存在 某种中间状态,这些中间状态使用了一些含糊不清( 较好、较差、较年青、较年老) 的词汇描述, 带有明显的不确定性。因此,一类因中间状态的存在而引起的不确定性,称为模糊( f a z z y ) 不 确定性。 1 9 6 5 年美国计算机与控制论专家扎德( l az a d e h ) 发表了奠基性论文“模糊集合”( f u z z y s e t s l ,提出了研究模糊不确定性问题的数学方法一模糊数学。3 0 多年来,模糊数学从理论 到应用,从软技术到硬技术都得到了较快的发展,已在人工智能、信息处理、专家系统、模 式识别、自动控制、天气预报、图像处理,医疗诊断、项目评估以及经济学、心理学、社会 学、管理学、运筹学等众多领域,得到了广泛的应用。 下面介绍与本文有关的模糊数学中的一些基本理论 7 8 1 1 9 。 2 1 模糊集合的概念及其表示法 设u 表示一些对象的集合,称之为论域,x , i 于u 的一个子集a ,我们可以用它的特征 函数来表示。令 州沪r 卧 一“邮 x 是定义于u 上取值于 0 ,1 ) 的函数,称之为集合a 的特征函数,xh 明确表示了集 合a 。对t - u e l j ,若x ( u ) = l ,则说u 是a 中的元素:若xa ( u ) = o ,则说u 不是a 中的元素。 _ _ _ _ = 燮兰堡主兰堡堡苎 例21 论域u 为 l ,2 ,3 ,4 ,5 ,6 ) 集合,a 为u 上的一个子集,令a 的特征函数:一 x ( u ) 1 u 为偶数 0 u 为奇数 则xa ( 2 ) = 1 ,x a ( 4 ) = 1 ,x a ( 6 ) = 1 ,说明2 、4 、6 是a 中的元素,即u 的子集a = 2 ,4 6 ) 2 1 1 模糊集合的定义 下面给出模糊集合的定义 8 。 定义2 1 设u 是论域,u 上的一个模糊集合a 由u 上的一个实值函数 h :u 啼 0 ,1 表示,对于ue u ,h ( u ) 称为u 对于a 的隶属度,而k 称为a 的隶属函数。 由此定义可以看出,模糊集合a 完全由其隶属函数所刻画。虽然模糊集合a 是一个抽象 的概念,但隶属函数h 是具体的,我们可以通过k 来认识和掌握模糊集合a 。 这样,对于论域u 的一个元素u 和u 上的一个模糊子集a ,不再是简单地问u “绝对 属于还是不属于a ,而是问u 在多大程度上属于a 。隶属度i x a ( u ) i e 是1 2 属于a 的程度的数量 指标。若纵( u ) = l ,则认为u 完全属于a :若o h ( u ) l ,则认为u 在h ( u ) 程度上属于a 。这 样在完全属于和完全不属于a 的元素之间,呈现出中间过渡状态,或者叫连续变化状态。这 也正是我们所说的a 表现出模糊性。 模糊集合与普通集合的关系;当h ( u ) 只能取0 、1 两值时,任意元素u 或者是a 的成员, 或者不是,此时的模糊集合a 就是普通集合。所以说普通集合是模糊集台的特例,模糊集合 是普通集合的扩展。 例2 2 考虑人们的年龄,取u = 【o ,2 0 0 作论域,令模糊集合y 表示“年轻”,模糊集合o 表示“年老”,扎德给出了y 与o 的隶属函数: 当0 1 1 2 5 : 当2 5 u 2 0 0 b ( u ) 2 i + 。一。,。,一:,一,三i 三兰。 6 厂l,、ll 巧 扮r 百 一 = u 队 塑三皇塑塑垫堂皇兰垒壅塑差塑二些塑垒 一一一 以( u ) 为例说明如f : ( 1 ) 0 到2 5 岁,肯定年轻,规定0 u 2 5 时:比“) = 1 。 ( 2 1 当2 5 u 、 2 0 0 时,d ( ( 1 + ( ( u - 2 5 ) 5 ) 2 ) 1 ) d u o ,h ( u ) 单调减少,也就是越来 越不年轻。 例如: ( 3 0 ) = 0 5 ,h ( 3 5 ) = o2 ,h ( 4 0 ) - 0l ,h ( 1 0 0 ) = 0 0 0 4 ,h ( 2 0 0 ) 5 00 0 0 9 。 利用微积分有关知识可知这两个隶属函数的图像大致如图2 1 所示。 从图中可看到:年龄对年轻”、“年老的隶属度呈现出连续的变化,这样更符合人们 的认识。 例2 3 如图2 2 所示u = a ,b ,c ,d ,e ,f ) 没a 表示“圆块,这一模糊集合,根据圆的程度对u 中每个元素规定一个隶属度 h ( a ) = 1 ,h ( b ) = 0 8 ,h ( c ) = 0 6 ,h ( d ) = 0 4 ,h ( e ) 5 0 2 ,k ( f ) 2 0 u 图2 2“圆块”模糊集合 如何表示上述类似情况的模糊集合呢? 这就引出下面关于模糊集合的表示法a 2 1 2 模糊集合的表示法 ? 喜鬻况u 瞧钏u 乩u 2 删,u 上的模糊集合可以采用下蚓十表诎1 当论域为有限集合,即= ( u l ,“2 ,u n ) 时,u 上的棋糊集合。j 以米用r 叨二二柙衣不怙。 ( i ) 扎德给出的表示法 a = 队( “1 ) “1 + h ( “2 ) “2 + h ( “3 ) u 3 + + h ( u o ) a ( u i ) u 说明:这里的h ( 。) “及并没有普通分数与和的意义;其中的分母表示元素,分子表 示相应元素的隶属度;表示对于这儿个带有隶属度的元素的一个总概括。 上例2 3 中a - i a + o 8 b + o ,6 c + 0 4 d + o 2 e + o f 7 。 肛日 东南大学硕士学位论文 ( 2 ) 向量法( 称之为模糊向量) a = ( h ( u 1 ) ,h ( u 2 ) ,h ( u 3 ) ,- ,队( u 。) ) 这里只写出了按元素顺序排列的隶属度。 上倒2 3 中a = ( 1 ,0 8 ,0 6 ,0 4 ,0 2 ,0 ) 。 ( 3 ) 有序对表示法:用若干有序y a ( p a ( u i ) ,u i ) ( 其中i = l ,2 ,n ) 表示a 。 a = ( 岷( u 1 ) ,u 1 ) ,( k ( u 2 ) ,t 1 2 ) ,( 欺( u 3 ) ,u 3 ) ,( 心( u n ) ,u 。) 】 上例2 3 中a = ( 1 ,a ) ,( 0 8 ,b ) ,( 0 6 ,c ) ,( 0 4 ,d ) ,( o 2 ,e ) ,( 0 ,f ) ) 2 ) 当论域u 为区司时的模糊集台表不法 扎德在有序对表示法的基础上,借用积分号形式,将模糊集合a 记为: a = 掣 说明:这里符号,已没有积分的原意,只是对所带隶属度元素的一个总概括。 上例2 2 中 y :f 丝盟: o 2 0 0 “ o :f a o ( u ) 2 2 模糊集合的运算 将普通集合间关系运算( u ,n ,c ,一) 推广到模糊集合中去,定义如下的模 糊集合运算。 定义2 2 设a ,b 是论域u 上的二个模糊集合。 1 ) a 与b 的并记为a u b ,其隶属函数为: k u b ( u ) = 队( u ) v h ( u ) 拙x ( k ( u ) ,h ( u ) ) ( 其中v 表示两者比较后取最大值) 2 ) a 与b 的交记为a n b ,其隶属函数为: 队n b ( u ) = 队( u ) h ( u ) = m i n ( 队( u ) ,( u ) ) ( 其中八表示两者比较后取最小值) 3 ) 模糊集台a 的余模糊集合记为a 。,其隶属函数为: 肛a 。( u ) = 1 一k ( u ) 4 ) 如果vu e u ,队( u ) ( u ) ,则说a 被b 包含,记为:a g b 5 ) a = b ,当且仅当a b 且a 2 b 。 模糊集合的并集,交集和余集的隶属函数如图2 3 中阴影部分所示。 第二章模糊数学中与论文相关的一些概念 图2 3 模糊集a u b ,a n b ,a 。的隶属函数图形 扎德给出的上述关于模糊集合u ,n ,c 运算的定义是直接从经典集合论中关于普通集合 u ,n ,c 运算移植过来的。它保证了当模糊集合蜕化成普通集合时定义的合理性,这种合理 性被称为模糊集合的并、交、余运算定义的扩充原则。事实上,满足这种扩充原则的定义绝 不是唯一的 8 。 例2 4 设论域u = u l ,u 2 ,u 3 ,u 4 ,a 、b 为u 上的模糊子集。 a = ( 0 8 ,0 4 ,0 2 ,1 ) b = ( 0 7 ,05 ,07 ,0 4 ) 则a u b = ( 0 8 ,0 5 ,0 7 ,1 ) a n b = ( 0 7 ,04 ,0 2 ,0 4 ) a 。= ( 02 ,0 6 ,0 ,8 ,0 ) 例2 5 由例2 中的“年轻”y ,“年老”0 ,可以得到 “年轻或年老”y u 0 ,它的隶属函数为 f 1 , u0 ( u ) =l j 、( 1 + ( ( u 一2 5 ) 5 ) 2 ) 1 i l ( 1 + ( ( u 一5 0 ) 5 ) 一2 ) 一1 当o u 2 5 当2 5 u 5 1 当5 1 u 2 0 0 。c 。,:f 。, 当。u 5 。; 。+(1。+。(一(u。-。5,0,)。,5。),一-。2)一1当。5。0;u。51 “不年轻”y 。,它的隶属函数为: ( u ) :j 0 l i - ( 1 + ( ( u 一2 5 ) 5 ) 2 ) “不年老”o 。,它的隶属函数为: l。(u)2,二。+。一。,。,一:, 9 当o u 2 5 当2 5 u 1 0 0 当0 u 5 0 当5 0 - - 1 ) ( 2 3 2 ) 为a 与b 的距离。 当p = l 时,称d ( a ,b ) 为a 与b 的海明距离。 当p = 2 时,称d ( a ,b ) 为a 与b 的欧氏距离。 】0 、llj 第二章模糊数学中与论文相关的一些概念 容易证明 盯( a ,b ) = 1 - - c ( d ( a ,b ) ) 。 为a 与b 的贴近度,其中c 与口均为适当选择的参数。 3 ) 取晟火、最小法。 若u = ( u t ,u ,u 。) ( 或u = a ,b ) ,a 、b f ( u ) , 则可定义: h m i n u 。( ) ,心( ) 盯( a ,b ) = 士 一 ( 2 3 3 ) m a x a ( u 。) ,儿( ) 2 e 。 。) 。( 坼) 盯( a ,b ) = 一 ( 2 3 4 ) 丑心( ) + 如( ) k = l 或州,b):丁min,ua堂(u),z8 ( 23 5 ) j :m a x a ( “) ,& ( u ) l d u 帆ab ) :! 些坐坐些 ( 2 3 2 6 ) 盯( ,) = ;卜一 ( 3 ) i _ a ( “) + 盹( “) k m 易证明均为a 与b 的贴近度。 上述关于贴近度的定义,不好断言它们的优劣,只能依具体情况灵活地选用。 例2 6 设u = ( u ,u 2 ,u 6 ) a = ( 05 ,0 7 ,1 ,0 9 ,0 6 ,0 3 ) b = ( 0 7 ,0 8 ,0 9 ,1 ,0 7 ,0 5 ) 求a 与b 的贴近度。 解:若按( 2 3 3 ) 式中的定义得盯( a ,b ) = o 8 3 若按( 2 3 4 ) 式中的定义得盯( a ,b ) = 0 9 注意此例中用了两种方法求仃( a ,b ) ,所得的结果虽不相同,却很相近。在解决实际问 题时,可依具体情况,选定一种。 2 4 小结 自从1 9 6 5 年扎德( l a z a d e h ) 发表了奠基性论文叫莫糊集合”( f u z z ys e t s ) 以来,许多研究 人工智能的学者应用模糊数学中有关的理论于各自领域系统的设计中,取得了很好的效果。 把模糊数学中与论文有关的一些概念介绍了。作者在设计自动答疑系统过程中,也引入了模 糊数学理论。本章主要简单介绍了与论文有关的一些基本概念:模糊集合、隶属度、模糊向 量、贴近度等。 东南大学硕士学位论文 第三章模糊数学在网络自动答疑系统 n a a q s 中的应用 基于w e b 的网络自动答疑系统牵涉自然语言处理、网络、智能处理、数据挖掘和信息检 索等多方面的内容,其中最关键的还是智能问题,如何提高系统的智能成了大家追求的目标。 本章通过应用模糊数学理论于网络自动答疑系统中,提出了基于闽值的择近原则算法,增强 了系统在智能处理方面的能力。 3 1 网络自动答疑系统在智能方面的关键点 前面提到网络自动答疑系统的难点在于它的智能,智能高低直接影响到系统性能。那么 系统在智能方面的关键点是什么呢? 通过分析发现,问题的关键在于: 用户问题与标准问题的匹配。 从常理的角度出发,作者认为如果满足以t - 几点,那么系统的智能就高,否则就不令人 满意。 1 ) 如果用户问题与标准问题一模一样,那么就必须返回标准问题所对应的答案给用户。 称之为完全匹配。 例如:用户问题“操作系统的定义? ” 答案库存在标准问题“操作系统的定义? ” 那么就必须返回标准问题所对应的答案。 2 ) 如果用户问题与标准问题在语义上很相似那么就应该返回标准问题所对应的答案给 用户。称之为语义匹配。这一点很重要,因为用户提出的问题很大程度上不固定,存 在形式上都不同的问题有着相同的语义。 例如:用户问题“操作系统的概念? ”或“操作系统是什么? ”等 如果答案库中存在标准问题“操作系统的定义? ”及其答案,即使不存在“操 作系统的概念? ”或“操作系统是什么? ”等标准问题及其答案,但由于“操作系 统的概念? ”或“操作系统是什么? ”与“操作系统的定义? ”在语义上相同,系 统就应该返回标准问题所对应的答案。 如果能够返回语义上很相似的答案,系统的智能就达到了较高的程度。 3 ) 如果答案库中不存在与用户问题完全匹配或者语义匹配的标准问题,那么最好返回 与之有关联的标准问题所对应的答案。这一点要求不是很严格。称之为关联匹配。 例如:用户问题“操作系统的分类? ” 如果答案库中存在与之有关联的标准问题“操作系统的定义? ”,那么最好返回 该标准问题所对应的答案给用户,作为参考答案供用户参考。 4 ) 对于以上的完全匹配、语义匹配和关联匹配,系统可以提供某种机制供用户选择, 使系统呈现出一定的个性化服务。从另一层面上体现了智能。 例如:用户问题“操作系统的概念? ” 如果用户选择的是“完全匹配”,那么系统只能返回与用户问题完全匹配的标准问 题所对应的答案,即使有标准问题“操作系统的定义? ”及其答案,也不能返同。 如果用户选择的是“语义匹配”,那么系统不仅要返回与用户问题完全匹配的标准 问题所对应的答案,还应返回与用户问题在语义上相似的标准问题所对应的答案。例 第三章模糊数学在厨络自动答疑系统n a a q s 串的应用 如标准问题“操作系统的定义? ”或者“操作系统是什么? ”所对应的答案。 如果用户选择的是“关联匹配”,那么系统不仅要返回与用户问题完全匹配或者语 义匹配的答案,还应返回与用户问题有关联的标准问题所对应的答案,供用户参考, 例如标准问题“操作系统的分类”等所对应的答案。 5 ) 答案库中的问题最好不要在语义层次上有数据冗余现象。 例如:答案库中同时存在“操作系统的概念? ”和“操作系统的定义? ”两个标准 问题及其答案,这造成语义层次上的数据冗余现象。 对于系统需要达到上述智能的要求,前面提到的两个具有代表性算法在某些方面达到了, 但并不完全满足上述5 点。像基于关键词匹配算法的系统不满足2 、3 、4 、5 ,基于加权关键 词算法的系统不完全满足2 、3 、4 、5 ,它们还不具有较高的智能。而作者提出的基于模糊数 学理论的网络自动答疑系统完全满足上述5 点具有很高的智能。 其实可以把完全匹配、语义匹配和关联匹配三个概念归为一个概念:“匹配程度”,也就 是在多大程度上匹配。经过后面的分析,有理由相信:如果用户选择的匹配程度为1 0 0 ,那 就会返回与用户问题完全匹配的标准问题所对应的答案;如果匹配程度在某个值之上( 例如 9 5 1 ,那么系统会返回与用户问题完全匹配、语义匹配的标准问题所对应的答案;如果匹配 程度在1 7 至9 0 ,那就会返回与用户问题完全匹配、语义匹配以及关联匹配的标准问题所 对应的答案,其中的原因和阚值的确定会在后面的论述中得到肯定,具有很强的说服力。 上面提到的“匹配程度”可用模糊数学中的“贴近度”概念代替。另外系统在运行时, 从方便用户的角度出发,隐去了完全匹配、语义匹配和关联匹配三个概念,只有匹配程度( 贴 近度) 供用户确定e 3 2 系统框架及流程 为了便于描述作者提出的算法,介绍系统的框架及流程如下 月篙尹刊掣攀卜 f 二i f = = 图3 1 系统框架 n a a q s 系统流程如下: 1 ) 登录模块对t j | 户进行身份认证,返回合法用户一个提交问题的界面。 2 ) 用户提出问题,并且选择匹配程度( 贴近度) 。 3 ) 系统的切词模块根据关键词库中的关键词对用户问题进行逆向最大匹配分词处理,得 到关键词串,该串中关键词之间用空格键隔开。例如: 切词处理 “操作系统的定义? ”+ “操作系统定义”。 4 ) 系统根据用户选择的闽值( 匹配程度) ,再经过基于闽值的择近原则算法处理后,返回相 应的答案:如果没有满足闽值的答案,返回默认信息。 上面系统流程中提到的基于阈值的择近原则算法要用到关键词对于句子的隶属度咀及用 户问题与标准问题的贴近度等概念。这些内容会在下面几小节中加以说明和论述。 东南大学硕士学位论文 系统表结构如下 表3 1 关键词库表结构 关键词 操作系统 进程 作业 定义 概念 作者汇总学生平时提出的问题,并且抽取出其中的专业词汇和常见词汇构成该表 内容。共有专业词汇4 5 0 多个,常见词汇5 0 多个。 表3 2 答案库表结构 q u e s t i o n ( 标准a n s w e r ( 标准答m a t c h ( 匹配标志)k e y w o r d s 关键词序列 问题)案1 操作系统的定操作系统是 o操作系统定义 义 操作系统的分单用户o s ,多用户 0 操作系统分类 类 o s 该表内容主要依据学生平时提出的问题和课本后的习题建立起来的。 表3 3 同义词库表结构 关键词同义词 定义概念 概念什么 什么 w h a t 同义词库收集的是常用词汇及其同义词,该表内容主要根据同义词词典而构造的。当 要增加一个词的同义词时,在同义词表末尾添加相应记录,这样就为每个关键词建立了一 条链表。在具体计算关键词i 的隶属度时,只需查找该链表,如果查到了,那么它们就是 同义词,否则就不是,然后再根据隶属函数的定义得出相应的数值。 3 3 模糊数学在网络自动答疑系统中的应用 31 节提到网络自动答疑系统智能的关键在于用户问题与标准问题的匹配,这是个模糊性 很强的问题。鉴于模糊数学在模糊处理方面具有很好的理论和成功的应用实例,作者把它引 入到系统的算法设计中,提出了基于闽值的择近原则算法。该算法要用到关键词对于句子的 隶属度以及熠户问题与标准问题的贴近度等概念。 与其它模糊问题不同之处在于网络自动答疑系统中的用户问题与标准问题都是非形式化 的,为了理论上的分析和研究,需要对用户问题和标准问题在形式上进行改变,以便利用模 糊数学中的理论进行讨论和计算。下面首先对句子进行形式化表示。 1 4 苎三里垫塑塑兰垄堕塑皂垫笪壁墨堕型垒垒里曼塑壁旦 3 3 1 句子的模糊向量表示 为了形式化表示句子,可以这样认为一个句子;它由一些关键词标识的。这在网络自动 答疑系统中是合理并且有效的,因为网络自动答疑系统与自然语言理解、自然语言翻译等其 它系统不n 之处在于它的专业性很强。n 络自动答疑系统并不能解答任何问题,例如;提问 “你好吗? ”就不能得到满意的答案。它往往是在某一行业领域中的具体应用,例如:应用 丁教学的网络自动答疑系统。本文研究的背景是为 课程提供远程自动答疑 功能,像在这种背景下的用户问题具有特殊性。 例3 1 “操作系统的定义”可以认为该句子是由“操作系统”和“定义”两个关键词标识。 “操作系统的分类”可以认为该句子是由“操作系统”和“分类”两个关键词标识。 “产生死锁的原因是什么”可以认为该句子是由“死锁”和“原因”两个关键词标 识。 根据以上假设和分析,知道用户问题可以由若干个关键词所标识。下面用集台来形式 化表示句子。 例3 2 句子a “操作系统的定义? 用经典集合表示之: 用模糊集合的序列法表示之: 用模糊集合的向量法表示之 ”,由“操作系统”和“定义”两个关键词标识。 a = f “操作系统”,“定义”1 a = 1 操作系统+ 1 定义( 1 操作系统表示“操作系统” 对于句子a 的隶属度为l ,l ,定义表示“定义”对于 句子a 的隶属度为l 。) a = ( 1 ,1 ) ( 前个1 表示“操作系统”对于句子a 的隶属度为1 ,后一个l 表示“定义”对于句子a 的隶属度为1 ) ( 隶属函数的定义和隶属度的计算会在后面加以说明1 假设另有一个集合b : 用经典集合表示之:b = f “操作系统”,“概念”, 用模糊集合的序列法表示之:b = i 操作系统+ o 9 概念( 1 操作系统表示f 操作系 统”对于句子a 的隶属度为1 ,0 9 概念表示“概念” 对于句子a 的隶属度为0 9 ) 用模糊集合的向量法表示之:b = ( 1 ,0 9 ) ( 前一个1 表示“操作系统”对于句子a 的隶属度,后一个0 9 表示“定义”对于句子a 的 隶属度) 而集合b 可以用来形式化标识句子q “操作系统的概念”,也就是说句子q 的模糊 向量表示为: q = ( 1 ,0 9 ) 。 前一个1 表示句子q 中的“操作系统”对于句子a 的隶属度,后一个0 9 表示句子 q 中的“定义”对于句子a 的隶属度。 f 面给出一般句子的模糊向量表示: 定义3 1 设论域u = 关键词1 ,关键词2 ,关键词i 2 ) ,句子q 由 关键词1 ,关键 词2 ,关键词k 标识,设句子q 中的关键词i 对于句子a 的隶属度为以( 关键词i ) ,那 么句子q 用模糊向量表示为: q = ( 心( 关键词1 ) ,心( 关键词2 ) ,胁( 关键词k ) ) 其中隶属函数。在f 一小节中定义。 东南大学硕上学位论文 例3 3 设句子a “操作系统的定义? ”为论域。 句子q l 为“操作系统的概念? ”。 句子q 2 为“操作系统的定义? ”。 句子q 3 为“操作系统的分类? ”。 句子q - 经过切词处理后由关键词“操作系统”和“概念”标识。 句子o :经过切词处理后由关键词“操作系统”和“定义”标识。 句子o ,经过切词处理后由关键词“操作系统”和“分类”标识。 那么句子q 用模糊向量表示为: q - = ( 心( “操作系统”) ,以( “概念”) ) 其中1 。( “操作系统”) 为关键词“操作系统”对于句子a 的隶属度 l ( “概念”) 为关键词“概念”对于句子a 的隶属度 假设t ( “操作系统”) = 1 ,t _ ( “概念”) = o 9 那么 q 1 2 ( 1 ,o 9 ) 。 同理句子q 2 用模糊向量表示为: q 2 = ( ( “操作系统”) ,1 ( “定义”) ) 其中。( “操作系统”) 为关键词“操作系统”对于句子a 的隶属度 t 。( “定义”) 为关键词“定义”对于句子a 的隶属度, 假设以( “操作系统”) 2 l ,t ( “定义

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论