(应用数学专业论文)一种新的信息过滤方法——粗糙集在信息过滤中的应用.pdf_第1页
(应用数学专业论文)一种新的信息过滤方法——粗糙集在信息过滤中的应用.pdf_第2页
(应用数学专业论文)一种新的信息过滤方法——粗糙集在信息过滤中的应用.pdf_第3页
(应用数学专业论文)一种新的信息过滤方法——粗糙集在信息过滤中的应用.pdf_第4页
(应用数学专业论文)一种新的信息过滤方法——粗糙集在信息过滤中的应用.pdf_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一种新的信息过滤方法粗糙集在信息过滤中的应用李治国 摘要 数据挖掘,也可以称为数据库中的知识发现( k n o w l e d g ed i s c o v e r y i n d a t a b a s e ,k d d ) ,是从大量数据中提取出可信、新颖、有效并能被人理解的 模式的高级处理过程。文本挖掘是数据挖掘的一个分支,主要是对文本数据库 中的数据进行分析处理。 信息过滤是文本挖掘的一个主要内容。随着i n t e m e t 的发展,如何从众多 的网络文档中快速准确地过滤出自己需要的文档变得越来越重要。信息过滤 的方法主要有:布尔模型、向量空问模型、潜在语义索引模型等等,他们各 有各的优点,但是也有各自一定的缺点。 本文结合向量空间模型和潜在语义模型两种方法的优点,提出了一种新 的信息过滤方法,即在奇异值分解( s v d ) 的基础上,运用粗糙集( r o u g h s e t s ) 方法进行文本挖掘。通过对词语文档矩阵进行奇异值分解得出近似矩阵, 该近似矩阵将与文档关系较密切的词语的数值增大,将与文档关系较小的词 语的数值减小,改变了一些词语在相应文档中的重要性,从而使得词语更能 很好的体现文档的内容。然后运用粗糙集理论中决策表上的规则推理方法, 生成我们感兴趣信息的规则库,将未知文档的条件属性与规则库里规则进行 相似匹配,进行信息过滤。 我们通过实验证明该方法在准确率和查全率方面比向量空间模型都要 好得多,在准确率方面比潜在语义索引模型要好,只在查全率方面比潜在语 义索引模型差一点。而且,该方法在空间复杂度上比潜在语义索引模型多存 储一个向量。但是在过滤过程中的过滤速度却比潜在语义索引模型快了一个 数量级,说明该方法是行之有效的。最后我们从理论上分析了出现上述实验 结果的原因。 关键字数据挖掘文本挖掘信息过滤粗糙集奇异值分解规则提取 种新的信息过滤方法粗糙集在信息过滤中的应用李治国 a b s t r a c t d a t a m i n i n gw h i c h i sa l s oc a l l e dk n o w l e d g e d i s c o v e r yi nd a t a b a s e ( k d d ) i s t h ea d v a n c e dp r o c e d u r eo f e x t r a c t i n gr e l i a b l e ,o r i g i n a l ,v a l u a b l ei n f o r m a t i o nf r o m p l e n t yo f d a t a a n dt e x tm i n i n gi sab r a n c ho fd a t am i n i n gw h i c h m a i n l ya n a l y z e s a n d p r o c e s s e s t h ed a t ai nt e x td a t a s e t i n f o r m a t i o nf i l t e r i n g ( i f ) i sa n i m p o r t a n tp a r t o ft e x t m i n i n g w i t h t h e d e v e l o p m e n t o f i n t e r n e t ,h o w t of i l t e rt h ew a n t e dd o c u m e n t s q u i c k l y a n d e f f i c i e n t l yf r o m a l lk i n d so f t h ew e bd o c u m e n t sb e c o m e sm o r ea n dm o r e i m p o r t a n t t h em e t h o d so fi fi n c l u d i n gt h eb o o l e a nm o d e l ,t h ev e c t o rs p a c em o d e l ( v s m l a n dt h el a t e n ts e m a n t i c i n d e x i n g ( l s i ) h a v es o m ea d v a n t a g e s a sw e l la s d i s a d v a n t a g e sr e s p e c t i v e l y t h i sp a p e rp r o p o s e san e wm e t h o df o ri n f o r m a t i o nf i l t e r i n gb a s e do n r o u g h s e t st h e o r ya n ds i n g u l a rv a l u ed e c o m p o s i t i o n ( s v d ) w ed e t e r m i n et h er e l a t i v e i m p o r t a n c eo ft e r m sa p p e a r i n gi nt h er e s p e c t i v ed o c u m e n t sb ys v d t h e nw e e x t r a c tt h er u l e sw h i c ha r eu s e f u lt ou sb a s e do nt h ed e c i s i o nt a b l e so f r o u g hs e t s t h e o r y f o re a c hu n k n o w nd o c u m e n t ,w ej u s tm a t c ha p p r o x i m a t e l yt h ec o n d i t i o n a t t r i b u t eo f t h ed o c u m e n tt ot h e s er u l e sa n dd e t e r m i n ew h e t h e rt h i sd o c u m e n tj so u r w a n t e dd o c u m e n t s t h ee x p e r i m e n t sp r o v et h a tt h er e c a l la n dp r e c i s i o na r eb e r e rt h a nt h a to f v s m ,a n dt h ep r e c i s i o ni sa l s ob e t t e rt h a nt h a to fl s i t h ec o m p l e x i t yo fo u r m e t h o di sl o w e rt h a nt h a to fl s ii nt h ep r o c e s so f f i l t e r i n ga l t h o u g hi t i sal i t t l e c o m p l e x i np r o c e s so f t r a i n i n gd a t a ,a n di to c c u p i e sj u s to n ev e c t o rt os t o r ei tm o r e t h a nl s lw h i c hd o e sn o tb r i n ga n yb u r d e n sf o rs t o r a g e s oo u rm e t h o di sv a l i di n p r a c t i c a l a n di nt h ee n d ,w ea n a l y z et h er e a s o no f t h er e s u l t so f e x p e r i m e n t s k e y w o r d d a t a m i n i n g t e x tm i n i n gi n f o r m a t i o n f i l t e r i n gr o u g h s e t sr u l e e x t r a c t i o n s i n g u l a rv a l u ed e c o m p o s i t i o n ( s v d ) 2 第一章数据挖掘概述 1 1 数据挖掘的历史 随着数据库技术的迅速发展,数据存储量大量增加着,但是挖掘海量数 据的背后隐藏着的知识的手段远远不足。从而导致了“数据爆炸但知识贫乏” 的现象。计算机技术的另一领域人工智能( a r t i f i c i a li n t e l l i g e n c e ) 自1 9 5 6 年 诞生之后取得了重大进展。该领域目前的研究热点是机器学习用计算机 模拟人类学习的一门科学。 用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大 量数据背后的知识,这两者的结合促成了数据挖掘的产生。实际上,数据挖 掘是一门交叉学科,涉及到机器学习、模式识别、统计学、智能数据库、知 识获取、数据可视化、高性能计算、专家系统等多个领域。数据挖掘的成果 可以用在信息管理、过程控制、科学研究、决策支持等许多方面。 1 2定义和处理阶段 数据挖掘( d a t am i n i n g ) ,指的是从大型数据库或数据仓库中提取人们感 兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息。数据挖掘是一 个高级的处理过程,它从数据集中识别出模式来表示的知识。高级的处理过 程是指一个多步骤的处理过程,多步骤之间相互影响、反复调整,形成一种 螺旋式上升过程。 数据挖掘的过程与人类问题求解的过程是存在巨大相似性的。具体比较 见表1 1 。挖掘过程可能需要多次的循环反复,每一个步骤一旦与预期目标不 符,都要回到前面的步骤,重新调整,重新执行。 表1 。i 解决问题的步骤” 典型人类问题求解的过程数据挖掘的过程 定义问题定义问题 收集数据获取数据论证过去经验 检查数据的质量对数据进行预处理 概括一下数据找山潜在的解决方案开发一个模型 检查一下概括是否正确检验模型 同顾一f 目标定义目标 对所有的解决方案进行评估,找出最佳解决方法优化问题找出最优解 1 3 从数据中发现模式 数据挖掘算法的好坏将直接影响到所发现知识的好坏。数据挖掘的任务 是从数据中发现模式。模式是一个用语言l 来表示的一个表达式e ,它可用 来描述数据集f 中数据的特性,e 所描述的数据是集合f 的一个子集f e 。e 作为一个模式要求它比列举数据子集f e 中所有元素的描述方法简单。模式有 多种分类,下面做一个简要的介绍: 按功能可分有两大类:预测型( p r e d i c t i v e ) 模式和描述型( d e s c r i p t i v e ) 模式: 1 预测型模式 2 描述型模式 在实际应用中,往往根据模式的实际作用细分为以下6 种: 1 分类模式 2 回归模式 3 时间序列模式 4 聚类模式 5 关联模式 6 序列模式 在解决实际问题时,经常要同时使用多种模式。分类模式和回归模式是 使用最普遍的模式。分类模式、回归模式、时间序列模式也被认为是受监督 知识,因为在建立模式前数据的结果是已知的,可以直接用来检测模式的准 确性,模式的产生是在受监督的情况下进行的。一般在建立这些模式时,使 用一部分数据作为样本,用另一部分数据来检验、校正模式。聚类模式、关 联模式、序列模式则是非监督知识,因为在模式建立前结果是未知的,模式 的产生不受任何监督。 1 4 在何种数据上进行数据挖掘 原则上讲,数据挖掘可以在任何类型的信息存储上进行。这包括关系数 据数据库、数据仓库事务数据库、高级数据库系统、展开文件和w w w 。高 级数据库系统包括面向对象和对象关系数据库:面向特殊应用的数据库,如 空间数据库、时间序列数据库、文本数据库和多媒体数掘库。挖掘的挑战和 技术可能因存储系统而异。 种新的信息过滤方法粗糙集在信息过滤中的应t l j牟治国 第二章文本挖掘 2 1 文本挖掘概述 在现实世界中,可获取的大部分信息是存储在文本数据库( 或文档数据 库) 中的,由来自各种数据源( 如新闻文章、研究论文、书籍、数字图书馆、 电子邮件消息和w e b 页面) 的大量文档组成。由于电子形式的信息量的飞速 增长,如电子出版物,电子邮件,c d r o m 和万维网( 它也可以被视为一个 巨大的、互连的动态文本数据库) 等,文本数据库得到迅速的发展。 文档数据库中存储最多的数据是所谓的半结构化数据( s e m i s t r u c t u r e d a t a ) ,它既不是完全无结构的也不是完全结构的。例如,一个文档可能包含 结构字段,如标题、作者、出版日期、长度、分类等等,还可能包含大量的 非结构化的文本成分,如摘要和内容。在最近数据库领域研究中已有大量的 有关半结构化数据的建模和实现方面的研究n 0 ,1 1 ,1 2 ,1 3 ,1 4 ,1 5 ,1 6 , 1 7 】。而且,信息检索技术,如文本标引( t e x ti n d e x ) 方法,已经被用来处理 非结构化文档。 传统的信息检索技术已不适应日益增加的大量文本数据处理的需要。典 型的大量文档中只有很少一部分与某一个体或用户相关。而不清楚文档中的 内容,就很难形成有效的查询,从数据中分析和提取有用信息用户需要有关 的工具完成不同文档的比较,以及文档重要性和相关性排列,或找出多文档 的模式或趋势。因此文本挖掘就成为数据挖掘中一个目益流行而重要的研究 课题。 2 2 文本挖掘的研究内容 2 2 1 文本数据分析和信息检索 信息检索( i n f o r m a t i o n r e t r i e v i n g ,即i r ) 是与数据库系统并行发展了很 多年的一个领域。与数据库系统不同,信息检索研究的主要不是结构数据的 查询和事务处理的问题,而是研究大量文本文档的信息组织的检索。典型的 信息检索问题是基于用户的输入( 如关键字或样例文档) 定位相关文档。典 型的信息检索系统有联机图书馆目录系统和联机文档管理系统。判断文本检 索质量的基本度量有两个:查准率和查全率。 词语文档矩阵是反映词和文档关系的一种方法。每一行表示一个词, 每一列表示一个文档向量,基中每一项表示某个词在某个文档中出现的次数。 2 2 。2 基于关键字的关联和文档分类 基于关键字的关联分析首先收集经常一起出现的关键字或词汇,然后找 出其关联或相互关系。与文本数据库中大多数分析样,关联分析首先要对 文本数据进行分类、词根处理、去除非常用词等预处理,然后调用关联挖掘 算法。在文档数据库中,每一文档被视为一个事务,文档中的关键字组可视 种新的信息过滤方法一粗糙集在信息过滤中的应川李治国 为事务中的一组事务项。文档数据库中关键字关联挖掘的问题就变成事务数 据库中事务项的关联挖掘。 自动文档分类是一种重要的文本挖掘工作,由于现在存在大量的联机文 档,自动对其分类组织以便于对文档的检索和分析,是至关重要的。 自动地对文档进行分类的一般做法是:首先,把一组预先分类的文档作 为训练集。然后对训练集进行分析以便得出分类模式。这种分类模式通常需 要定的测试过程,不断地细化。之后就用这些导出的分类模式对其他联机 文档加以分类。 2 2 3 信息过滤 近年来在信息查询领域中兴起的信息过滤( i n f o r m a t i o nf i l t e r i n g ,即i f ) 技 术,结合现有的信息检索方法,对于解决网络信息的个性化、动态化以及提 高被查询信息对用户的可用度有很大的帮助。与i r 不同,i f 关注用户对特定兴 趣主题长期稳定的信息需求,并将这种需求用兴趣主题模型( t o p i cp r o f i l e ) 来 表示,其作用相当于i r 中的查询索引项( q u e r yt e r m s ) 。i f 是系统根据用户 的兴趣主题模型对新来的文献进行相关度计算,主动将相关度较高的新文献 提供给符合该兴趣主题模型的注册用户,同时同户可以将最相关文献反馈给 i f 服务器以更新调整现有的兴趣主题模型。信息过滤技术集信息检索方法和 机器学习方法于一体。 2 3 信息过滤的常用方法 多数信息过滤的算法都是基于词语文档矩阵的,即首先建立词语文 档矩阵。因为词语文档矩阵中只是一些词语在文档中的绝对词频,绝对词 频在进行分析时意义不大,所以很有必要对词语文档矩阵进行处理。 对词语文档矩阵的处理,主要修改字项的权值。计算字项的权值,最通 用的方法是用字项频度因子( t h et e r mf r e q u e n c y , 或简称t f ) 与反向文档频度因 子( t h ei n v e r s ed o c u m e n tf r e q u e n c y 或简称为i d f ) 之积。字项频度因子与字项 在文档中出现的频度成正比。反向文档频度因子是用来表示字项在文档中的 重要程度。有些字项在文档中出现的频度很低,但是它们的i d f 却可能很大: 而有的字项在文档中出现的频度很高,而i d f 却很小( 如系统等) 。这一步需要 具有专业人士参与才能达到更好的效果。 在对词语文档矩阵的处理方法上面主要有两种,一种是把绝对词频转 化为相对词频,相对词频为归一化的词频,其计算方法主要运用t f i d f 公式。 目前存在多种多样的t f i d f 公式【i ”。另外一种处理方法是采用奇异值分解 ( s v d ) 的方法,关于采用奇异值分解的理论和概念我们在第三章给出。 常用的信息过滤的模型有:布尔模型、向量空间模型、潜在语义模型【2 0 】 等等。以下几节简单的介绍一下这三种模型。 6 种新的信息过滤方法柑糙集庄信息过滤中的膨川李治| = :| i 2 3 1 布尔模型 利用布尔模型进行信息过滤,就是给定一系列的具有二值逻辑的特征变 量。这些变量是从文档中抽取出来的,用来描述文档的特征。比如:关键字或 索引词等。有时也可以是时间作者的姓名等个性信息。通过布尔操作符把表 示文档信息的特征变量构成布尔表达式,此即为一查询。当在一个查询中, 两个查询关键词之间用布尔操作符a n d 相关联,则表示这两个关键词必须同 时包含在过滤文档中。如果两个查询词之间用布尔操作符o r 相关联,则表示 对于这两个关键词,其中有一个包含在过滤文档中即可。 利用布尔模型构造的过滤系统在运算的环境下可取得显著的过滤效果。 更进一步来说,这种技术就是甚佳于一系列的差与和来执行布尔操作的,相 对来说比较容易理解。 但是这种传统的布尔过滤技术也存在一些不足之处【i 引: ( 1 ) 对于一个给定的查询很难控制它的输出结果。有时会得出很多结果, 可与用户个性兴趣相一致的却很少。相反,有时却得不到任何信息。 ( 2 ) 在一次查询所获得在文档中,没有把文档符合用户个性兴趣的相近 程度表示出来。即:所有获得的文档都处于同样的重要程度。 ( 3 ) 对于关键词来说,没有标识其对文档或查询的重要程度的重要因子 或权重。即:所有文档中或查询中的关键词都处于同样重要的地位,没有主 次之分。 2 3 2 向量空间模型 向量空间模型( t h ev e c t o rs p a c em o d e l ,v s m ) 已被人们普遍认为是一 种非常有效的检索模型。它具有自然语言界面,易于使用。同样向量空问模 型也可以应用到信息过滤系统中来。 在以向量空间模型构造的信息过滤系统中,用字项来标识文档。如一个 文档d ,用一个m 维向量来表示,其中r n 是能够用来表示文档内容的字项的 总数。给每一个字项赋予一个权值,用来表明它的重要程度。一个文档d 的 向量表示为: d = ( w l ,”2 ,w 。) 其中w ,表示第i 个字项的权值。 向量空间模型过满目系统主要包括4 个方面: l 要给出一篇文档的向量表示 主要按以下步骤进行: ( 1 ) 找出文档中的所有词。 ( 2 ) 删掉那些高频出现但却没有实际意义的词。如:例如、然而、可 是等等。 ( 3 ) 对于未被删掉的词计算它的权值。 一种新的信息过滤方法粗糙集在信息过滤中的应埘 李治l ( i 2 文档与用户趣向的相近度的测量 衡量一篇文档的向量表示与用户趣向的向量表示的相近度,也就是判断 某篇文档是否满足用户的个性兴趣,即是判断此篇文档是用户所需要的。通 常用求两个向量夹角的余玄值来计算。 文档向量和用户兴趣向量的夹角的余玄值越大表明它们的相近度也就越 大,反之则越小。 3 相关域值 在一个信息检索系统中,某一查询是对文档数据库进行的,返回给用户 的相关文档都被赋予一个相关值。而在一个信息过滤系统中,某一个用户趣 向模型只是与单一文档或少数几个文档进行相近性比较。过滤的效率经常以 准确率和查全率来衡量,这是靠在一段时间内所得到的文档集来判断的。如 果特别要保证达到高准确率,即所查到的文档都是与用户的个性兴趣相符的, 那么查全率必然就会受到影响,必有相关的文档没有被查出来;如果要达到 高的查全率,即把所有相关的文档都查出来,在所查出的文档中就必有一些 文档是不相关的则准确率就会降低。 相关域值这一概念的提出,是对准确率和查全率进行了综合考虑,以求 得较高的过滤效率。即让用户设定一个相关域值,只返回给用户高于这个值 的文档,即:给定用户趣向p 和相关域值t ,则对于任意返回的文档d ,它 的相关度必大于t 。 4 相关反馈( r e l e v a n c ef e e d b a c k ) 相关反馈这个技术在提高信息检索效率方面使用的较多,这个技术主要 是根据所得到的结果对用户的趣向模型及查询进行适当的修改和完善,以是 其能更忠实地反映用户的个性兴趣及其所需。相关反馈这一技术在参考文献【9 中有详细的叙述。 向量空蒯模型有一定的局限性【】,它把每一篇文本用一个字项权重的向 量来表示,只是一个数学描述,没有考虑到各种用户的实际情况和信息需求 乃至文本的语义。 2 3 3 潜在语义索引模型( l a t e n t s e m a n t i ci n d e x i n g ,l s i ) 潜在语义索引模型己被广泛地应用到信息检索领域中,它是利用字项与 文档对象之间的内在关系形成信息的语义结构。这种语义结构反映了数据间 最主要的联系模式,忽略了个体文档对词的不同的使用风格。这是挖掘文档 的潜在的语义内容,而不仅仅是使用关键字的匹配,是对词语文档矩阵使 用奇异值分解( s i n g u l a r v a l u ed e c o m p o s i t i o n ,s v d ) 方法实现的( s v d 的详细 内容我们将在第三章详述1 ,把小的奇异值去掉,生成与词语文档矩阵的相 似矩阵。对生成的相似矩阵与新来的文档进行相似性匹配,并对相似度进行 排序,从而确定新来文档的属性。 潜在语义索引模型虽然比较好的处理了信息的相关性,比较善于处理信息 空间中具有大量因素的情况,但是在过滤的过程中要不断对文档的相似性进行 一种新的信息过滤方法粗糙集在信息过滤中的应_ 【_ j李治国 比较、排序,计算的复杂度是平方级的,过滤速度必然受到影响。 本文结合这两种方法( v s m 和l s i ) 的优缺点,在定程度上提高了过 滤的速度和准确度。 2 3 4 方法的评估 因为信息过滤从根本上说是一个映射过程,所以评估信息过滤系统的标 志是映射的准确程度和映射的速度。映射的速度取决于映射规则的复杂程度, 而评估映射准确程度的参照物是通过专家思考判断后对信息过滤的结果( 这 里假设人工过滤完全正确并且排除个人思维差异的因素) ,与人工过滤结果越 相近,过滤的准确程度就越高,这里隐含了评估信息过滤系统的两个指标: 准确率和查全率。 准确率是所有判断的文档中与人工过滤的结果吻合的文档所占的比率。 其数学公式表示如下:准确率( p r e c i s i o n ) = 萎漂裳罢淼 查全率是人工过滤的结果应有的文档中过滤系统吻合的文档所占的比 率,其数学公式表示如下: 查全率( 旭c 洲) = 望孽罢警 准确率和查全率反映了分类质量的两个不同方面,两者必须综合考虑, 不可偏废。 所有信息过滤系统的目标都是使信息过滤过程更准确,更快速。 一种新的信息过滤方法粗糙集在信息过滤中的应埘李治国 第三章奇异值分解( s v d ) 3 1 s v d 的基本理论和方法 给定m x n 的矩阵m ,可以分解成三个矩阵的乘积m = u s v 。,其中 u 和v 分别为m 。m 和n r l 的正交矩阵,s 为对角矩阵,s 的对角元4 ,( f _ l ,) 叫做矩阵m 的奇异值,r 为对角元的个数。 定义m x n 矩阵m 女= 瓯圪7 ,其中u k 由u 的前k ( k r ) 列列向 量组成的m x k 的矩阵,s k 由s 的前k 个最大的奇异值组成的k x k 的对角矩 阵,v k 由v 的前k 列列向量组成的n x k 矩阵。我们下面证明我们构造的 氙 在f 一范数意义下是所有秩为k 的矩阵中与m 距离最近的矩阵,我们称之为 m k 为m 的秩为k 的最好近似矩阵【”。 引理1 设u ,v 为m 。m tn n 正交矩阵,v , p u 7 u = i ,v 7 v = i ,a 为 m x n 矩阵,则有: i i av lr ,= jr a i l ,f i u a i i ,= 1 1 4 , 证明:m i 蝈u a i i ,= a l l ,j i a v l l ,= 恻l 可以同法得到结果。 将a 列分块得到a = ( q ,口:,吒) ,那么, j f 删脏2 喜f j 己勾e2 喜f f ( 己讧) 7 ( 己讧) := ;| ;f 阿u 7 己讧= 喜怜蛭= ;,从而 有i 蚴忆= l i a l l ,证毕。 定理1 设m 与m 。如e 所述,则有下式成立: 1 m 一心忆2 珊巍。i 阻一b 忆 ( + ) 证明:在( 4 ) 式极小值存在的假设下来证明这个定理。设b 是一个使 0 m 一冽,达到最小的秩为k 的矩阵,且设b 的奇异值分解是 c :q r b p :ho i l 0 u o 一种新的信息过滤方法粗糙集在信息过滤中的应用 李治国 其中c i = d i a g ( y ,:,“) 。又设 。= q t 脚= 纠 其分块与c 一致。 在此可证d l 。= c 1 ,d i := 0 和d 2 。= 0 。譬如假定d 】:0 ,那么矩阵 c = f g 的秩为k ,且忪一c k j p c l l ,。如果设f = q c 。p 7 ,那么b 的秩也为k , 同时由引理1 可得 | 彳一b ,= | i d c | l , 口) 。 决策规则可以用如果那么语句来表示,即如果某个条件成立,那么就 有某个结论成立。在本文中,决策规则我们可以表示为:对于一条新来的文 档,如果该文档与规则库中某个规则相对应的文档的相似度大于等于阈值中。, 那么该文档的决策属性就是该规则所对应的决策属性。举例来说,对于新来 的文档,如果它与x 2 的相似度大于吼,并且2 ,g ,那么该文档就是我们感 一种新的信息过滤方法粗糙集在信息过滤中的应用李治国 兴趣的。 从上面的叙述中可以看到我们只需把训练集中与规则库对应的文档标识 出来就可以了,对于新来的文档只需与这些文档进行相似度计算。用一个1 m 的向量r 存储标识,r 的每一位只有0 和1 两个值。l 表示该文档与规则库的 规则对应,0 表示没有规则与该文档对应。也就是说与标识为l 的文档相似的 文档就是我们感兴趣的,否则

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论