




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章作业说明等价关系、等价类以及划分的定义。等价关系:对于aa(a中包含一个或多个属性),ar,xu,yu,他们的属性值相同,即fa(x)=fb(y)成立,称对象x和y是对属性a的等价关系。等价类:在u中,对属性集a中具有相同等价关系的元素集合成为等价关系ind(a)的等价类。划分:在u中对属性a的所有等价类形成的划分表示为a=ei | ei=xia,i=1,2, 说明集合x的上、下近似关系定义。下近似定义:任一一个子集xu,属性a的等价类ei=xa ,有:a-(x)=uei|eiaeix 或a-(x)=x|xax 表示等价类ei=xa中的元素x都属于x,即xa-(x),则x一定属于x。上近似定义:任一一个子集xu,属性a的等价类ei=xa ,有:a-(x)=uei|eiaeix 或a-(x)=x|xax 表示等价类ei=xa中的元素x可能属于x,即xa-(x),则x可能属于x,也可能不属于x。说明正域、负域和边界的定义。全集u可以划分为三个不相交的区域,即正域(pos),负域(neg)和边界(bnd):posa(x)= a-(x)nega(x)=u- a-(x)bnda(x) = a-(x)-a-(x)4.粗糙集定义:若 ,即 , 即边界为空,称x为a的可定义集;否则x为a不可定义的,即 ,称x为a的rough集(粗糙集)确定度定义:其中和分别表示集合u、()中的元素个数5.在信息表中根据等价关系,我们可以用等价类中的一个对象(元组)来代表整个等价类,这实际上是按纵方向约简了信息表中数据。对信息表中的数据按横方向进行约简就是看信息表中有无冗余的属性,即去除这些属性后能保持等价性,使对象分类能力不会下降。约减后的属性集称为属性约减集。6.属性集a的所有约简的交集称为a的核。记作 core(a)是a中为保证信息表中对象可精确定义的必要属性组成的集合,为a中不能约简的重要属性,它是进行属性约简的基础。 7表6.3中,定义类别第一类人和第二类人为决策属性,身高、头发、眼睛为条件属性,身高为a,头发为b,眼睛为c,类别d。c=a,b,c,d=dind(c)=1,2,3,4,5,6,7,8,9ind(d)=1,2,3,4,5,6,7,8,9pos c(d)=uind(ca)=1,3,2,4,5,9,6,7,8ind(cb)=1,6,2,3,7,4,5,8,9ind(cc)=1,4,9,2,3,5,6,7,8pos (ca) (d)=upos (cb) (d)=4,5,8,9pos (cc) (d)=2,6,7,8ind(cb,c)(d)=1,4,6,9,2,3,5,7,8pos ()(cb,c)(d)=空集所以red d(c)=a,b,a,c8条件属性c和决策属性d之间的依赖度r(c,d)=|pos c(d)| / |u|其中|pos c(d)|表示正域pos c(d)的元素个数,|u|表示整个对象集合的个数。9依赖度r(c,d)的性质:若r=1,意味着ind(c) ind(d),即在已知条件c下,可将u上全部个体准确分类到决策属性d的类别中去,即d完全依赖于c。若0r1,则称d部分依赖于c,即在已知条件下,只能将u上那些属于正域的个体分类到决策属性d的类别中去。若r=0,则称d完全不依赖于c,即利用条件c不能分类到d的类别中去。10.属性a的重要度sgf(a、c、d)的含义是什么?答:属性重要度的定义:c、d包含a c为条件属性集,d为决策属性集,a属于a关于d的重要度定义为 sgf(a,c, d)=r(c,d)-r(c-a,d)其中r(c-a,d)表示在c中缺少属性a后,条件属性与决策属性的依赖程度sgf(a、c、d)表示c中缺少属性a后,导致不能被准确分类的对象在系统中所占的比例。(2)sgf(a、c、d)性质。 1,sgf(a、c、d)0,1。2,若sgf(a、c、d)=0,表示属性a关于d是可省的,因为从属性集中去除属性a后,c-a中的消息,原来可以被准确分类为所有的对象仍可以能准确的划分到决策类中去。3. sgf(a、c、d)0,表示属性a关于d是不可省的。因为属性集c中去除属性a后,某些原来可以被准确分类的对象再不能准确划分。11.最小属性集的概念是什么?答:设c, d分别是信息系统s的条件集和决策属性集,属性集p(p是c的子集)是c的一个最小属性集,当且仅当r(p,d)=r(c,d)并且p包含,p,r(p,d)r(p,d),说明若p是c的最小属性集,则p具有与c同样的区分决策的能力。 需要注意的是,c的属性集一般不是唯一的,而要找到所有的最小属性集是以个np问题。在大多数应用中,没有必要找到所有的最小属性集。用户可以根据不同的原则来选择一个他认为最好的最小属性集。12、在数据库中获得最小属性集的步骤是什么?答:在数据库中根据决策属性将一组对象划分为各不相交的等价集,通过条件属性来决定每一个决策类,并产生每一个类的判定规则,对每个判断规则进行精简,得到具有全部条件属性区分决策属性所划分的决策类能力的集合。13、如何利用集合之间的上下近似关系获得规则?答:设u中有两个划分c=ei和d=yj,把c视为分类条件,把d视为分类结论,(1)当eiyj时,有ij:des(ei)des(yj), des(ei)和des(yj)分别为ei和yj中的特征描述。当eiyj=ei即下近似时,建立的规则ij是确定的,规则的可信度cf=1;当eiyjei即上近似,建立的规则ij是不确定的,规则的可信度cf=(2)当eiyj=时,ei和yj不能建立规则;14、按照聚类的原理和方法划分有哪三种聚类算法?各种聚类算法的思想是什么?答:按聚类的原理和方法划分,可分为层次聚类、划分聚类和基于密度的聚类;层次聚类:递归地对对象进行合并或分裂直至满足某终止条件;划分聚类:给定聚类数目k和目标函数f,将d划分为k个类,是目标函数在此划分下达最优,即把聚类问题过转换为一个组合最优问题,从一个初始划分开始,利用迭代控制策略优化目标函数;基于密度的聚类:单位体积内点的个数为该点的密度,根据空间密度的差别,把具有相似密度的点作为聚类。15k-均值聚类算法的计算步骤:首先随机地选取k个初始聚类中心,并把每个对象分配给离他最近的中心,从而得到一个初始聚类;然后,计算出当前每个聚类的重心作为新的聚类中心,并把每个对象重新分配到最近的中心;如果新的聚类的质量优于原先的聚类,则用新聚类代替原聚类。循环执行这一过程直至聚类质量不再提高为止。16规则的支持度和可信度是什么?规则的支持度:规则ab在数据库d中具有支持度s,表示s是d中事物同时包含ab的百分比,它是概率p(ab)。规则的可信度:规则ab具有可信度c,表示c是包含a项集的同时也包含b项集,相对于包含a项集的百分比,这是条件概率p(b|a)。17.关联规则的兴趣度定义是什么?说明兴趣度的作用。兴趣度为i(ab)=p(ab)/p(a)p(b)公式反应了项集a与项集b的相关程度。在兴趣度的使用中,一条规则的兴趣度越大于1说明我们对规则越感兴趣(即其实际利用价值越大);一条规则的兴趣度越小于1说明我们对这条规则的反面规则感兴趣(即其反面规则的实际利用价值越大);显然,兴趣度i不小于0。18.使用apriori算法找出所有的频繁项目集。假定最小事务支持计数为2 min-sup=2/4=0.5c1候选集:a支持度2 ,b支持度3,c支持度3,d支持度1,e支持度3d不是频繁项集l1 1-项集 a支持度2 ,b支持度3,c支持度3, e支持度3c2候选集:a,b支持度1, a,c支持度2, a,e支持度1, b,c支持度2,b,e支持度3, c,e支持度2a,b、a,e不是频繁项集l2频繁2-项集:a,c支持度2, b,c支持度2,b,e支持度3, c,e支持度2c3候选集: b,c,e=2l3频繁3-项集:b,c,e=2算法终止,l3是最大频繁项集19.实现apriori算法,说明apriori算法的主要系统开销在哪里?(1)可能产生大量的候选集。当长度为1的频繁集有10000个的时候,长度为2候选集个数将会超过10m。还有就是如果要产生一个很长的规则的时候,要产生的中间元素也是巨大的。(2)必须多次重复扫描数据库,对候选集进行模式匹配,因此效率低下。20 l1频繁1-项集:项集abcde支持度计数23313l2频繁2-项集项集a,ca,dc,db,cb,ec,ea,ba,e支持度计数21123211l3频繁3-项集项集a,c,da,b,ca,c,eb,c,e支持度计数1112l4频繁4-项集项集a,b,c,e支持度计数1差异:随着最小支持度的逐渐减小,apriori算法的性能急剧降低,而fp-树算法的性能相对稳定,所需时间没有发生突变的增加,fp-树算法比apriori算法快一个数量级,且fp-树算法对不同长度的规则都有很好的适应性。21,计算过程:第一个事物:“t0:e”只有一个事物,从l表中节点链中,项e的指针指向树中节点e,且e的计数为1,即e:1。第二个事物“t1:a,c,g,i”包含四个事物,具有四个分支,其中a为根节点,c链接到a,i链接到c,g链接到i,且计数均为1,从l表中节点链中,项,a,c,g,i的指针分别指向树中的a,c,i,g节点,因为不包含e事物,所以从r节点产生一个新分支指向a。第三个事物“t2:d,h”因为最小支持度为20%,所以只有一个事物d,计数为1,因为不包含事物e,所以从r产生一个新分支指向d,从l表中节点链中,项d的指针指向树中的d节点。第四个事物“t3:b,d”因为最小支持度为20%,所以只有一个事物d,从l表中节点链中,项d的指针指向树中的d节点,d计数加1.即d:2.第五个事物“t4:d,e”包含两个事物,节点e计数加1,即e:2,,节点d链接到e,即d:1,因为已存在d:2,则有d:2指向d:1.第六个事物“t5:a,c,e,i”包含四个事物,节点e计数加1,即e:4,a链接到e,因为已存在节点a:1,所以节点a:1指向a,a计数为1,即a:1,c连接到a,i链接到c,c:1,i:1分别指向c,i。c,i计数加1,即c:1,i:1.第七个事物“t6:a,c,e,f,i”因为最小支持度,所以只有四个事物,则a链接到e,c链接到a,i链接到c,e,a,c,i计数分别加1,即e:4,a:2,c:2,i:2.第八个事物“t7:a,e,g”包含三个事物,则a链接到e,g链接到a,e,a,g计数分别加1,即e:5,a:3,g:1,因为已存在g:1,所以有g:1指向新节点g:1.第九个事物“t8:a,c,e,i”包含四个事物,则a链接到e,c链接到a,i链接到c,e,a,c,i计数分别加1,即e:6,a:4,c:3,i:3.第十个事物“t9:c,e,g”包含三个事物,则产生一条新分支,a链接到e,g链接到a,e,c,g计数分别加1,即e:7,c:1,g:1.因为已存在节点c:3,g:1,所以节点c:3指向新节点c:1,节点g:1指向新节点g:1.22.对上题得出的频繁项集,求出关联规则。答:不懂。23.集合论原理用于分类问题的思想是什么?答:集合论原理用于分类问题时,主要是利用集合之间的覆盖关系,构成规则知识。24.集合论原理集合论或集论是研究集合由一堆抽象物件构成的整体)的数学理论,包含了集合、元素和成员关系等最基本的数学概念。在大多数现代数学的公式化中,集合论提供了要如何描述数学物件的语言。集合论和逻辑与一阶逻辑共同构成了数学的公理化基础,以未定义的“集合”与“集合成员”等术语来形式化地建构数学物件。用于解决聚类问题时,主要是按数据集中元素间的距离远近或者是相似度的大小聚集成多个类别集合。25. 关联规则是形如xy的蕴涵式,其中且, x和y分别称为关联规则的先导(antecedent或left-hand-side, lhs)和后继(consequent或right-hand-side, rhs) 。集合论原理用于关联规则挖掘是计算数据项集在整个集合中和相关集合中所占的比例,大于阈值时构成数据项之间关联规则。我的大学爱情观目录:1、 大学概念2、 分析爱情健康观3、 爱情观要三思4、 大学需要对爱情要认识和理解5、 总结1、什么是大学爱情:大学是一个相对宽松,时间自由,自己支配的环境,也正因为这样,培植爱情之花最肥沃的土地。大学生恋爱一直是大学校园的热门话题,恋爱和学业也就自然成为了大学生在校期间面对的两个主要问题。恋爱关系处理得好、正确,健康,可以成为学习和事业的催化剂,使人学习努力、成绩上升;恋爱关系处理的不当,不健康,可能分散精力、浪费时间、情绪波动、成绩下降。因此,大学生的恋爱观必须树立在健康之上,并且树立正确的恋爱观是十分有必要的。因此我从下面几方面谈谈自己的对大学爱情观。2、什么是健康的爱情:1) 尊重对方,不显示对爱情的占有欲,不把爱情放第一位,不痴情过分;2) 理解对方,互相关心,互相支持,互相鼓励,并以对方的幸福为自己的满足; 3) 是彼此独立的前提下结合;3、什么是不健康的爱情:1)盲目的约会,忽视了学业;2)过于痴情,一味地要求对方表露爱的情怀,这种爱情常有病态的夸张;3)缺乏体贴怜爱之心,只表现自己强烈的占有欲;4)偏重于外表的追求;4、大学生处理两人的在爱情观需要三思:1. 不影响学习:大学恋爱可以说是一种必要的经历,学习是大学的基本和主要任务,这两者之间有错综复杂的关系,有的学生因为爱情,过分的忽视了学习,把感情放在第一位;学习的时候就认真的去学,不要去想爱情中的事,谈恋爱的时候用心去谈,也可以交流下学习,互相鼓励,共同进步。2. 有足够的精力:大学生活,说忙也会很忙,但说轻松也是相对会轻松的!大学生恋爱必须合理安排自身的精力,忙于学习的同时不能因为感情的事情分心,不能在学习期间,放弃学习而去谈感情,把握合理的精力,分配好学习和感情。3、 有合理的时间;大学时间可以分为学习和生活时间,合理把握好学习时间和生活时间的“度”很重要;学习的时候,不能分配学习时间去安排两人的在一起的事情,应该以学习为第一;生活时间,两人可以相互谈谈恋爱,用心去谈,也可以交流下学习,互相鼓励,共同进步。5、大学生对爱情需要认识与理解,主要涉及到以下几个方面:(1) 明确学生的主要任务“放弃时间的人,时间也会放弃他。”大学时代是吸纳知识、增长才干的时期。作为当代大学生,要认识到现在的任务是学习学习做人、学习知识、学习为人民服务的本领。在校大学生要集中精力,投入到学习和社会实践中,而不是因把过多的精力、时间用于谈情说爱浪费宝贵的青春年华。因此,明确自己的目标,规划自己的学习道路,合理分配好学习和恋爱的地位。(2) 树林正确的恋爱观提倡志同道合、有默契、相互喜欢的爱情:在恋人的选择上最重要的条件应该是志同道合,思想品德、事业理想和生活情趣等大体一致。摆正爱情与学习、事业的关系:大学生应该把学习、事业放在首位,摆正爱情与学习、事业的关系,不能把宝贵的大学时间,锻炼自身的时间都用于谈情说有爱而放松了学习。 相互理解、相互信任,是一份责任和奉献。爱情是奉献而不时索取,是拥有而不是占有。身边的人与事时刻为我们敲响警钟,不再让悲剧重演。生命只有一次,不会重来,大学生一定要树立正确的爱情观。(3) 发展健康的恋爱行为 在当今大学校园,情侣成双入对已司空见惯。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 45791-2025城市基础设施公共安全监测通用技术规范
- GB/T 34138-2025辐射防护仪器环境、电磁和机械性能要求以及试验方法
- 眼视光技术专业教学标准(高等职业教育专科)2025修订
- 中国褥垫行业市场发展现状及投资战略咨询报告
- 2022-2027年中国蛋白饮料行业市场深度分析及发展战略规划报告
- 棕刚玉砂轮项目投资可行性研究分析报告(2024-2030版)
- 中国低压母线桥市场深度分析及投资战略咨询报告
- 中国移动机器人(AGV) 行业市场行情动态分析及发展前景趋势预测报告
- 中国铝焊条行业市场调查报告
- 中国鸳鸯养殖行业市场全景评估及投资策略咨询报告
- 2025年高考真题-语文(北京卷) 含答案
- 2025年安徽省高考化学试卷真题(含答案)
- 【基于多元线性回归模型的浙江省居民消费水平影响因素的实证研究9400字(论文)】
- 2025安全月竞赛应知应会1000题库(必答题 抢答题 风险题)
- 2025年高考语文全国一卷试题真题及答案详解(精校打印)
- 消防堵漏工具课件
- 快递箱合作协议书合同
- 山西焦煤集团笔试题
- 星期音乐会智慧树知到期末考试答案章节答案2024年同济大学
- 平衡与协调训练PPT课件
- 年普通高校(中专招生考生体格检查表
评论
0/150
提交评论