数据挖掘粗糙集题目及答案_第1页
数据挖掘粗糙集题目及答案_第2页
数据挖掘粗糙集题目及答案_第3页
数据挖掘粗糙集题目及答案_第4页
数据挖掘粗糙集题目及答案_第5页
已阅读5页,还剩6页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘粗糙集题目及答案单选题(每题2分,共20分)1.在粗糙集理论中,若对象x与y在属性子集B下不可分辨,则下列符号表示正确的是A.x∈[y]_{B}  B.x⊆[y]_{B}  C.x∈IND(B)  D.x∈POS_{B}(X)答案:A2.给定决策表S=(U,C∪D),若POS_{C}(D)=U,则该决策表属于A.一致  B.不一致  C.不协调  D.不完备答案:A3.属性约简的核心目标是A.增加分类精度  B.删除冗余属性并保持正区域不变  C.降低样本数量  D.提高属性重要度答案:B4.在可分辨矩阵中,元素m_{ij}=∅表示A.对象i与j在所有条件属性上取值完全相同  B.对象i与j在决策属性上不同  C.对象i与j不可比较  D.对象i与j在至少一个条件属性上不同答案:A5.若某属性a在可分辨矩阵中出现的频次越高,则其A.重要度越低  B.重要度越高  C.与约简无关  D.一定属于核答案:B6.在基于信息熵的约简算法中,选择属性的标准是A.条件熵最小  B.互信息最大  C.信息增益最小  D.熵值最大答案:B7.不完备决策表中,相似类与等价类的关系是A.相似类=等价类  B.相似类⊆等价类  C.等价类⊆相似类  D.无包含关系答案:C8.变精度粗糙集模型中,若β=0.5,则允许分类误差上限为A.25%  B.50%  C.75%  D.100%答案:B9.在动态数据更新场景下,增量式约简算法主要解决A.属性增加  B.属性删除  C.对象增加  D.属性值细化答案:C10.若核属性集CORE_{C}(D)=∅,则下列说法一定正确的是A.存在多个约简  B.不存在约简  C.任意单属性均可构成约简  D.无法判断约简存在性答案:D多选题(每题3分,共15分,多选少选均不得分)11.下列哪些属于粗糙集模型的扩展A.概率粗糙集  B.决策粗糙集  C.模糊粗糙集  D.覆盖粗糙集答案:ABCD12.可分辨矩阵能够直接用于A.求核  B.求所有约简  C.计算正区域  D.生成决策规则答案:AB13.在基于差别函数的约简算法中,下列操作合法的是A.吸收律  B.分配律  C.合并相同极小项  D.删除冗余项答案:ABCD14.对不完备决策表采用限制容差关系时,需满足A.同时考虑已知属性值  B.允许部分未知值存在  C.要求决策值相同  D.容差阈值可调答案:ABD15.在规则提取阶段,规则置信度conf(φ→ψ)受哪些因素影响A.支持度计数  B.条件类大小  C.决策类大小  D.属性排列顺序答案:ABC填空题(每空2分,共20分)16.给定等价类U/IND(A)={{x1,x2},{x3},{x4,x5}},则|U/IND(A)|=________。答案:317.若属性a在可分辨矩阵中仅出现一次,则a________(一定/不一定)属于核。答案:一定18.差别函数Δ=∧(a∨b)∧(a∨c)化简后的极小析取范式为________。答案:a∨(b∧c)19.在可变精度模型中,若β=0.2,则下近似包含的对象需满足|X∩[x]|/|[x]|≥________。答案:0.820.若规则r:φ→ψ的支持度为7,决策类D_{k}大小为10,则置信度为________%。答案:7021.增量式对象更新时,新对象x_{new}导致正区域增大,则称x_{new}为________对象。答案:正域增益22.在基于熵的约简中,若H(D|C)=0,则称C对D________。答案:完全确定23.若相似关系SIM(B)满足自反、对称,则称其关系为________关系。答案:容差24.决策表中,若两条规则前件相同但后件不同,则称它们________。答案:冲突25.在规则泛化中,若将连续属性离散化,则离散化算法必须保持________不变。答案:决策一致性简答题(每题8分,共24分)26.写出粗糙集上下近似的定义,并说明其直观意义。答案:下近似:\underline{R}X={x∈U|[x]_{R}⊆X},表示肯定属于X的对象集合;上近似:\overline{R}X={x∈U|[x]_{R}∩X≠∅},表示可能属于X的对象集合;直观意义:下近似刻画“确定性”知识,上近似刻画“可能性”知识,边界域\overline{R}X−\underline{R}X反映不确定性区域。27.描述基于可分辨矩阵求核的算法步骤,并给出复杂度分析。答案:步骤:1.构造可分辨矩阵M,维度|U|×|U|;2.遍历矩阵,若m_{ij}为单属性集{a},则a加入核;3.输出核CORE。时间复杂度:最坏O(|U|²|C|),空间复杂度:O(|U|²)。28.解释为什么变精度粗糙集能处理噪声数据,并给出β取值对分类结果的影响。答案:变精度通过引入分类误差阈值β,允许等价类部分对象不属于目标概念,从而降低噪声对下近似的敏感;β增大→下近似收缩,边界变宽,抗噪能力增强但精度下降;β减小→下近似扩张,边界变窄,精度提高但抗噪能力下降;实际应用中需交叉验证选取最优β。应用题(共61分)29.计算与分析(15分)给定决策表:U a b c d1 1 0 2 Y2 1 0 2 Y3 0 1 2 N4 0 1 0 N5 1 0 2 Y求:(1)等价类划分U/IND({a,b});(2)正区域POS_{{a,b}}({d});(3)属性c相对于{d}是否必要,给出判断过程。答案:(1)U/IND({a,b})={{1,2,5},{3},{4}};(2)[1,2,5]⊆Y,故POS={{1,2,5}},|POS|=3;(3)计算POS_{{a,b,c}}({d})={{1,2,5},{3},{4}}=U,与POS_{{a,b}}({d})比较,未增大,故c不必要。30.综合约简(16分)对下表使用差别函数法求所有约简:U a b c d1 1 0 1 +2 0 1 1 −3 1 1 0 +4 0 0 0 −要求:(1)构造可分辨矩阵;(2)写出差别函数并化简;(3)列出全部约简。答案:(1)矩阵M:m_{12}={a,b} m_{13}={b,c} m_{14}={a,b,c}m_{23}={a,c} m_{24}={b,c} m_{34}={a,b,c}(2)Δ=(a∨b)∧(b∨c)∧(a∨b∨c)∧(a∨c)∧(b∨c)吸收化简得:Δ=(a∧b)∨(a∧c)∨(b∧c)(3)全部约简:{a,b}、{a,c}、{b,c}。31.规则提取与评估(15分)对第30题结果,采用{a,b}约简,提取最简确定性规则,计算每条规则的支持度、置信度,并绘制ROC空间示意点。答案:等价类:[a=1,b=0]={1}⊆+ →规则1:a=1∧b=0→+,sup=1,conf=100%[a=0,b=1]={2}⊆− →规则2:a=0∧b=1→−,sup=1,conf=100%[a=1,b=1]={3}⊆+ →规则3:a=1∧b=1→+,sup=1,conf=100%[a=0,b=0]={4}⊆− →规则4:a=0∧b=0→−,sup=1,conf=100%ROC空间:TPR=1,FPR=0,点(0,1)位于左上角,分类完美。32.增量更新(15分)原表同上,新增对象5:a=0,b=1,c=1,d=+。要求:(1)判断新对象是否与原表冲突;(2)使用增量式正区域算法更新POS_{{a,b}}({d});(3)给出更新后约简{a,b}是否保持不变的理由。答案:(1)原对象2:(0,1,1,−)与新对象(0,1,1,+)前件相同后件相反,冲突;(2)新对象属于边界,原POS={{1,3}}不变;(3)冲突导致不一致,约简{a,b}仍保持,因正区域未增大,且差别函数新增项(a∨b∨c)已被原有项吸收,约简集合不变。设计题(20分)33.某电商公司拥有1000万条用户浏览记录,属性包括{年龄,性别,城市,品类,时长,是否购买}。请设计一套基于粗糙集的精准营销流程,需涵盖:(1)数据预处理方案;(2)属性约简策略;(3)规则提取与排序机制;(4)在线实时推荐引擎集成方案;(5)效果评估指标。答案:(1)预处理:对年龄、时长做等频离散;城市按一线/二线/其他映射;缺失值采用相似关系容差;采样构建10万训练子

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论