模糊理论在信息检索中的应用(人工智能)_第1页
模糊理论在信息检索中的应用(人工智能)_第2页
模糊理论在信息检索中的应用(人工智能)_第3页
模糊理论在信息检索中的应用(人工智能)_第4页
模糊理论在信息检索中的应用(人工智能)_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、。无线网络技术课程(论文)主题:模糊理论在信息检索中的应用学生名称:1:孟学校编号:130101062学生姓名2:王乐妍学校。130101063系:计算机工程学院专业课:2班,13个科目讲师姓名:裴职称/学位:助理硕士完成时间:2016年6月计算机工程学院。文摘:模糊理论是为解决现实世界中常见的模糊现象而发展起来的一门科学。模糊理论是以模糊集为基础的,其基本精神是接受模糊现象存在的事实,以处理带有模糊和不确定概念的事物为研究目标,并积极地将它们量化为计算机可以处理的信息。本文首先介绍了模糊理论,然后讨论了模糊理论在信息检索中的应用。我希望通过本文,大学能够对模糊理论有更深的理解,并思考如何将其

2、更广泛地应用于图书馆信息学。关键词:模糊理论模糊集信息检索1.模糊理论的一般解释基于康托经典集合论的精确数学要求:元素A和集合A之间的关系只存在于两种情况:aA和aA。集合可以通过特征函数来描述。每个集合A都有一个特征函数C(A),其定义由以下公式表示:1当a A甲(甲)=甲当A为0时这个公式表明经典集合论不能容忍模糊的概念。这使得很难解释现实世界中的大量模糊现象。针对这种情况,美国自动控制专家扎登在20世纪60年代初提出了“模糊集”的概念。其基本出发点是用“隶属函数”的概念来描述差异的中间过渡。这是精确度第一次被推到模糊的境地。经典集合论中的特征函数由隶属函数扩展而来,从而引入了“模糊子集”

3、的概念。模糊子集定义如下:从最终域u,u到封闭区间0,1的任何映射 A都是: A : u 0,1确定u a的模糊子集, a是 a的隶属度。正如经典集合论是传统精确数学的基础一样,模糊子集论也是模糊理论的基础,模糊子集上的运算也可以定义。总之,模糊理论可以将传统的二进制逻辑0,1扩展到连续值逻辑,该逻辑可以取0,1封闭区间内的任何值,即无穷多个值。2.将模糊理论引入信息检索的必要性2.1传统信息检索方法存在的问题2.11通过检索语言和索引语言之间的精确匹配,只能检索相同的信息。传统的信息检索是基于精确数学和公共集合论。检索系统主要基于三种经典的检索模型:布尔模型、向量空间模型和概率模型。三个模型

4、的检索过程是通过搜索者输入的关键词(或搜索项)和信息输入的关键词(或索引项)之间的精确匹配来完成的。只能检索具有完全相同的搜索项和索引项的信息,而不能查询具有相似含义或在一定程度上具有相似含义的相关信息。2.12在传统的检索方法中,虽然检索者可以通过检索词之间的逻辑运算和组合来表达检索要求,但是它不能描述许多问题,例如检索者对检索词的重视程度以及检索词是否适合信息。2.13只有具有明确含义的特定信息才能被访问和处理。在客观世界中,许多事物都表现出它们的不完整或不精确。例如,我们经常说“高与矮”、“胖与瘦”、“美与丑”,所有这些都属于模糊的概念,难以准确测量和明确界定界限。当检索这样的信息时,传

5、统的检索方法不能执行。2.2信息发展的模糊性2.21信息的模糊随着现代科学技术的发展和渗透,许多新兴学科、边缘学科和交叉学科不断涌现,使得学科分类模糊不清。如“生物电子学”,它不仅与生物学有关,也与电子学有关。在对文献进行分类时,我们只能根据它们对这两个学科的重视程度来粗略地分类它们是属于生物学还是电子学。在情报学范畴中,学科分类的模糊性将在分类和叙词表中体现出来,这将使分类范畴和叙词表的表达范围变得模糊。因此,随着科学技术的发展,信息也呈现出模糊性。2.22信息检索结果的模糊评价我们经常使用“文档是否相关”和“文档是否相关”来判断信息检索的结果,相应的“相关性”和“相关性”已经成为判断信息检

6、索结果的两个重要指标。“相关性”是指检索系统中的命中文档与用户在信息检索过程中所需的文档相一致的程度。文档的相关性和非相关性不是绝对的,它们本身是模糊的,它们之间没有明确的界限。对于用户来说,由于各种因素(如表达信息的要求不完整、表达不清晰或检索过程中对所需信息的调整),检索到的文档只在一定程度上与实际需求相关。然而,用户检索的相关文档并不一定意味着所检查的文档符合用户的需求。信息需求与文档一致的性质被称为相关性。相关性反映了当用户做出决定时,文档满足用户需求的程度。它是否相关只有在用户阅读后才能确定。原因是:个问题通常是固定的,而信息需求是不稳定和可变的。在检索过程中,用户对所获得的文档的阅

7、读可能会影响他对原始信息的需求,从而影响他对后来检索到的文档的相关性判断。因此,判断文件是否相关没有严格的限制。它更加模糊和主观。3.模糊理论在信息检索中的应用针对传统信息检索方法存在的问题和现代信息发展的特点,许多学者对如何利用模糊集理论来完善和改进信息检索方法进行了大量的研究,从而使检索效果更加理想,检索过程更加人性化。3.1信息检索结果的模糊聚类分析分析方法基于以下假设:(1)信息集中的任何一个单位都可以用几个指标t i (i=1,2,n)来表示;(2)从文档中提取的不同索引揭示了原始文本的不同内容;(3)文档中使用的索引词的数量和每个索引词的数值可以用作反映文档信息的主要内容的有用数据

8、。具体步骤如下:(1)确定相似系数。确定相似系数的方法很多,其中最常用的是贴近度法、绝对值减法和余弦计算法。(2)利用相似系数,建立模糊相似矩阵R。模糊相似矩阵R通常是自反的和对称的。(3)模糊聚类分析。有两种方法:(1)利用模糊等价关系,通过模糊聚类分析,根据传递闭包法,将模糊相似矩阵R转化为模糊等价矩阵t(R),然后进行分类。模糊集的水平割集用来实现模糊集和普通集之间的相互转换。对于任何给定的置信水平0,1,模糊等价矩阵的截矩阵t(R) 只有两个结果,0和1(当相似系数大于或等于时,结果为1,而当相似系数小于时,结果为0)。因此,对于不同的置信水平,可以获得不同的水平割集,从而获得不同的割

9、矩阵。当从1下降到0时,由得到的分类结果将由细到粗逐渐融合,从而形成一个动态聚类图。通过这种方式,可以根据实际情况和置信度来识别文档之间的接近程度,并且可以对彼此接近的文档进行分类(2)用最大树法进行模糊聚类分析,相似系数由大到小排列,所有文档作为顶点,相似系数相同的顶点连接,相似系数标记在相应的线段上作为边的权重(相交线不能出现)。如果在连接两个顶点时出现循环,则直到所有对象都被连接后,边才被连接,从而获得最大的树(该树不一定是唯一的)。用这种方法得到的树在它的边上有最大的权重,所以它被称为最大树。如果取 0,1并去掉线段上值小于的线,则可得到一个未连通图,而其余的连通分支则收敛于水平上的一

10、个类。根据不同的,可以得到不同结果的聚类图,然后根据实际情况分析得到聚类结果。3.2自然语言的加权索引自然语言表达式包含大量模糊词。为了描述这些模糊词,首先要建立隶属函数来表达它们的含义。在实际应用中,由于事物的不确定性和人们对事物理解的局限性,只能建立近似的隶属函数。确定隶属函数的方法很多,其中用模糊分布函数逼近隶属函数的方法应用最广泛,最常见的模糊函数分布类型是:(1)左大右小部分小下降函数1 X C (x)= 1 a(x-c)b -1 X C其中:度是宇宙中的任意一点,a和b是两个参数,a0,b0。(2)右大左小偏小上升功能1 X C (x)= 1 a(x-c)b (-1) X 0,b0

11、 .(3)对称中间正规凸函数 (x)=e -k(x-c)2其中:C是宇宙中的任意一点u,k是一个参数,k是0。自然语言所描述的信息是模糊的,但有时不同程度的模糊词语也会导致不同的含义。例如,“美丽”和“非常美丽”这两个模糊的词有不同的含义。因此,为了更好地表达自然语言,有必要对模糊词进行定量分析,以区分和确定不同的模糊程度。常见修饰语,如:非常、特殊、非常、比较、等价、稍微、稍微、粗略、近似等。被称为语言运算符,分为三种类型:(1)语气算子集中运算符,如:“非常”和“非常”,用于描述模糊词的表示程度。它有一个加强的效果,并能使隶属函数的分布更加清晰。另一种是松弛算子,如:的“相对”和“略”,它

12、具有平坦化隶属函数分布的功能,带有情绪计算孩子的模糊词汇隶属函数表示为: HA (X)= A (X) 其中:A是模糊词,H 是语气运算符。可以假设:H 4代表“极点”,被定义为所描述的模糊词的四次幂。H 2代表“非常”并被定义为所描述的模糊词的二次幂。H 1/2代表“一点点”,被定义为所描述的模糊词的1/2次方。由于集中算子的幂大于1(1),因此在幂计算之后,隶属函数曲线被集中到中心。权力越大,分配越集中,代表范围越窄。相反,松弛算子的幂小于1 (1)。经过幂运算后,隶属函数曲线向两边扩展。功率越低,分布越平坦,代表范围越广。(2)模糊算子它用于将肯定词转换成模糊词或使模糊词更模糊。“约”、“

13、近似”、“近似等于”等修饰语属于模糊化算子,具有模糊化算子的模糊词的隶属函数表示为: fa (x)= ea (x)=vy u ( e (x,y)ta(y)(或 A (X)其中,如果:A是一个精确的词,其特征函数为T A (x),如果是一个模糊词,其隶属函数为A(x);f是模糊化运算符;e是宇宙U上的类似关系; E (x,y)=e-x-y20 x -y (0)是用于调整模糊词的表示范围的参数。(3)确定性算子与模糊化操作符相反,如:修饰符“倾斜”和“倾斜”等。用于确认模糊词和作出倾向性判断。具体的处理方法有点类似于“舍入”,判断运算符在实际应用中很少见。2.3改善用户需求问题与检索系统输入之间的

14、相关性由于传统检索模型在处理不确定知识时的固有局限性,当文档信息或用户查询不明确时,不能很好地满足用户的查询需求。为了克服这一缺点,可以采用基于模糊语言方法的信息检索系统模型。通过引入语言变量的概念,在信息表示中考虑语言值权重,用语言值权重代替数字权重,在文档表示中引入数字权重。权重系数语言变量采用有序语言值集S,假设S= Si ,I 0,1,2,n是语言值集。每个元素都是描述某个语言变量的同一类型的语言值。集合中元素的数量称为集合的势。潜力表示语言值集描述语言变量信息模糊程度的粒度。潜在值越小,描述语言变量的语言值集就越模糊,反之亦然,语言值集就越精细。但是,值越大,所需的计算量就越大。根据综合平衡,潜在值为7或9。如果s具有以下性质:如果i j,s i s j。其中,s i和s j是中国的。由0,1上的语音值表示的模糊数。s被称为语言的有序集合。如果它的元素对称分布在0,1上,它满足下面的操作:(1)如果s i s j,找到最大值:MAX(s i,s j)=s I;(2)如果s i s j,找到最小值:MIN(s i,s j)=s j;(3)取:Neg(s i )=s j,其中j=n-i。随着科技发展的多样化和现代信息发展的特点,模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论