版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘复习一、题型1、判断题15分2、单选题15分3、简单题15分4、综合题20分5、 计算题35分(C5.0算法、感知机算法、Apriori算法,见练习题)二、考试大纲 三、实验/作业评讲在教学过程的各个环节,从学生的出勤、日常表现、作业、测试、项目完成 情况及完成质量、TOPCARE能力目标的实现情况等方面,对学生进行全方位的 考核。类别考核项目考核主要内容考核方式考核时间所占权重形成性考核出勤出勤、请假、迟到、旷课等过程考核上课期间5%日常表现是否认真听课,回答问题等过程考核上课期间5%作业课堂作业的完成情况过程考核上课期间10%实习项目实践任务的完成情况机考上课期间10%终结性考核完
2、成情况及完 成质量教学内容闭卷第17周70%说明:四、知识点梳理,重点教学内容串讲名词解释数据挖掘(P6)、算法(P10)、MODELE中的节点(P13)、MODELER的数据流(P14)、 MODELE中的超节点(P18)、决策树分析(P104)、人工神经网络分析(P157)、关联分析(P207)、 知识发现KDD( P6)主要概念DW产生的基础(P3)DW勺基本过程包括(P6)DW能做什么(P7)DW得到的知识形式(P8)DW勺算法分类(P10)MODELE 的主窗口由哪几部分组成(P13)MODELE中数据流中的节点主要可实现哪些功能(P15)MODELE中数据流的操作主要包括哪几步(P
3、15)MODELE中节点工具箱含由八大选项卡组织(P15)MODELEI中通常数据挖掘的基本思路包括哪些过程(P19)MODELE中从数据挖掘角度看变量有哪7大类型(P26),通过TYPE节点可以说明变量什么内容(P42)什么是“有指导学习”(P12、P104)?举例说明;决策树算法的核心问题有哪些(P106)?什么是信息熵(P57、P109)?(信息熵是连续型变量分箱MDLP算法和决策树C5.0算法的核心) 人工神经网络中主要有哪些网络种类(P156)神经网络中处理单元的内部结构图(P158)什么是感知机模型( P162) 什么是B-P反向传播网络模型,由什么特点(P164)Apriorit
4、y关联分析算法主要包括哪两大部分技术(P213)(产生频繁集、依据频繁集产生关联规则)决策树分析(P104)、人工神经网络分析(P157)、关联分析(P207)等数据挖掘方法主要用 来解决什么问题(分类、预测、关联等)3、算法决策树 C5.0 算法、人工神经网络 B-P 感知机算法、关联分析 Apriori 算法五、典型例题分析(一)判断题,在每题后面正确打勾,错误打叉有高质的原始数据,才可能有高质量的数据挖掘结果。(V )高质量数据是数据分析的前提和分析结论可靠性的保障。(V )MODELE中数据质量的探索主要包括数据缺失、数据离群点和极端值等几方面。(V )数据挖掘的结果都是正确的。 (
5、)MODELE中数据挖掘的数据通常以变量为列、样本为行的二维表形式组织。(V )变量说明是对读入数据流中变量取值的有效性进行限定、 检查和修正, 同时指出各个变量在未来建模中的角色。 (V )变量说明应通过 Field Ops选项卡中的类型(Type)节点实现。(V )样本浓缩是通过 Iecord Ops 卡中的浓缩( Distinct )节点实现。 (V )样本浓缩是通过 Iecord Ops 卡中的汇总( Aggregate )节点实现。 ( )数据的重新组织是通过 Field Ops选项卡中的类型(Type)节点实现。(* ) 数据的重新组织是通过 Field Ops 选项卡中的重构(
6、Iestructure )节点实现。 (V )数据质量的探索是通过 Output 卡中的表( Table )节点实现。 ( )数据质量的探索是通过 Output卡中的审核(Data Audit )节点实现。(V )网状图是一种更为生动和直观地展示两个或多个分类变量相关特征的图形。(V )决策树中, 分类树实现对分类型输出变量的分类, 回归树则完成对数值型输出变量取值 的预测。(V )决策树中,称树的每个节点都只能生长出两个分枝的树为多叉树。()决策树算法中, C5.0 用于生成多分支的决策树。 (V )人工神经网络中, 神经网络的最低层称为输入层, 最顶层称为输出层, 中间层称为中间 层。()
7、在关联分析中,与时间有关的关联分析称为简单关联分析。()关联规则中的规则的支持度测度了关联规则的普遍性,表示项目X和项目Y同时出现的概率。(V )(二)多选题选择题,请在每题正确备选答案前面打勾(单选及多选) 。(每题满分 3 分,全选对得 3 分,部分选对得 2 分,有选错者该题不得分)1. Modeler 中(类型 Type) 节点的主要作用有:1)定义变量的取值范围和缺失值;2)变量取值的有效性检查和修正;3)角色说明;4)变量取值的实例化。答案: 1-42. Modeler 中(数据审核 Data Audit) 节点的主要作用有:1)对变量取值分布进行基本描述;2)检验数据质量好坏;3
8、)修正坏数据;4)保留高质量的变量和数据。答案: 1-43. Modeler 中 (变换 Transform) 节点的主要作用有:1)描述变量取值分布进行描述;2)实现变量的变换处理;3)输出变换后的变量;4)对变量进行分类汇总。答案:1-34. Modeler中(分区Partition) 节点的主要作用有:1 )生成训练集、检验集;2 )生成训练集、检验集、验证集;3 )对数据进行转置;4 )对样本进行排序。答案:1-25. 神经网络按其拓扑结构可划分为两层、三层和多层结构。如图所示的神经网络各层的名称 是:1)其中A层是输入层;2)其中B层是隐层;3)其中C层是输出层;4)其中A层是接收层
9、。答案:1-36. 完整的神经网络节点内部主要由两部分组织(如下图),其中:1 ) A是加法器;2 ) B是激活函数;3 ) A是激活函数;4 ) B是加法器。答案:1-27. 拟合就是把平面上一系列的点,用一条光滑的曲线连接起来。在采用机器学习或者训练深度神经网络的时候经常会出现理想情况、欠拟合和过拟合等三种情况。请写出如下图A、B、C三种拟合状况是属于什么拟合。1)A欠拟合;2)B理想拟合;3)C过拟合;4)A过拟合。答案:1-38. 如下图神经网络中,“流失”为目标变量,则其输入层、隐层、输出层各有多少个节点?Ortwin电會*: +/Ld护1)输入层11个节点;2)隐层有6个节点;3)
10、输出层有1个节点;4)输入层有1个节点;答案:1-39. 建立决策树的核心问题是:1)决策树得生长;2)决策树的修剪;3)决策树得几何理解;4)信息熵和信息增益。答案:1-210. B-P反向传播神经网络的特点是:1)包含隐层;2)激活函数采用 Sigmoid函数;3)反向传播;4)不包含隐层。答案:1-3(三)解答题1. MODELE的“数据审核 Data Audit ”节点操作中,如下操作界面中含义是:答:指定离群值和极值得监测方法。具体可按平均值的标准差大小或四分位数的四位数 范围来确定离群值和极值,从而监测出离群值和极值。2 .在MODELE的“数据变换Transform ”节点操作中
11、,如下操作界面中的含义是:答:指定采用哪种变量转换公式,从第2列图开始,各图依次为原始变量的直方图、计算倒数后的直方图、求自然对数的直方图、 求常用对数的直方图、 计算e的原始变量幕次后的 直方图、原始变量求平方根后的直方图。3 .在MODELE的“网状图”节点中,如下套餐类型的输出结果含义是:答:显示各种套餐类型与客户流失的之间的关联情况。如客户流失最少的有:套餐类型为 Plus service ,其次是 Basic service 等等。4. 写出如下数据流各节点的主要功能。答:Students.xls读取EXCEL数据文件,Append实现样本追加,Type实现变量实例化,Filler进
12、行变量值的填充,Reclassify 实现变量重新分类,Partition实现样本分区。5. 写出如下数据流各节点的主要功能。cnctFinrlH答:Customer1、Customer2、ClickPath 节点读取数据库文件, Merge实现样本合 并,Distinct 数据浓缩,Restructure 变量重构,Type变量实例化,Apriori 进行关联 分析。(四)综合题1. 通过C5.0算法建立了如下决策树,请对照决策树写出对应的推理规则。家长杲SM1H = Not Encouraged 式忻C No H家长罡否St励=Encouraged 模式Yes 在校综合评价指数v 4805
13、2【模式妝】。No在校综合评常指4S 052 模式保列 O Yes2. 通过C5.0算法建立了如下决策树,请对照决策树写出对应的推理规则。节点1冏绐T1a万悴离Q 000 0lii i B100 ODO 3节点3變别%rIH|i总计33 233 3戲别缶n A44 444 4T忖一TL苗A1 00.000 4 B55 556 5R方点2 B0 UQO 0总计 1 00 000 9I1WIn粪密輔n总计4A4ts A66 AB? 4Sl ? B33 333 2节甲4总汁C6 667 6% n T A0 ODD Qi B WO.OOO 2总汁22 222 2答:IF属性3=立方体THEN 类别=B
14、IF属性3=圆 AND 属性2=红或黄 THEN 类别=AIF属性3=圆 AND 属性2=黑 THEN 类别=B3.在关联分析中,通过Apriori规则,并注明每条关联规则的支持度算法,Modeler如下输出结果,请写出对应的三条关联 S、置信度C分别为多少。后项L 前顷一責持度百分比蛊信度百分比|冷集*品權知礁J16 7B7 425Si去游菜-TF*17.085882冷床倉品ira84 393答案:三条规则:啤酒和罐头蔬菜t冷冻食品(S=16.7%,C=87.4%)啤酒和冷冻食品t罐头蔬菜(S=17.0%,C=85.9%);冷冻食品和罐头蔬菜t啤酒(S=17.3%,C=84.4%)。同时,三
15、条关联规则的提升值都可以接受。因此,啤酒、罐头蔬菜、冷冻食品是最可能连 带销售的商品。4.在关联分析中,请根据如下输出结果写出相应的关联规则。以h內容进行排严:重信窒 /沪 匪昇血 亍属于$支持度rroznmeaieer cannedeIS 7S742&匚 EnnecKftgseerftozarrnnM17.085.652berfrozenmeai cannedveg17 384.3S3答:(beer)A (cannedveg) t (frozenmeal)(支持度=16.7 ,置信度=87.425%)(beer) A (frozenmeal) t(cannedveg)(支持度=17.0,置信
16、度=85.882%)(frozenmeal)A (cannedveg) t (beer)(支持度=17.3,置信度=84.393%)(五)计算题1.在人工神经网络中,设神经元结构如下:其中x1、x2、x3为输入变量,y为数值型输出变量。在该神经元的调整权值因子的过程中其学习率n =0.2 ,神经元的偏差b=0,并且激活函数是线性的,即y=f(净输入net)=net。各权重初始值分别为:W(1)=0.1、W2(1)=-0.3 、W(1)=0.8。设其权重的调整公式为: W=n *e*XiW+1 = W + A W设有如下训练样本,请按照感知机算法写出第一次迭代后各权重W(2)、W2(2)、W3(
17、2)的调整值。样本X1X2X3Y11-110.9解答:U=0.1*1+ (-0.3 ) * (-1 ) +0.8*1=1.2 , e=0.9-1.2=-0.3 W(2)=-0.03 、 W2(2)=0.03、 W3(2)=-0.03 。W(2)=0.1+(-0.03)=0.07、W(2)=(-0.3)+0.03=-0.27、W(2)=0.8+(-0.03)=0.772.在人工神经网络中,设神经元结构如下:其中x1、x2、x3为输入变量,y为数值型输出变量。在该神经元的调整权值因子 的过程中其学习率n=0.2,神经元的偏差b=0,并且激活函数是线性的,即y=f(净输入net)=net。各权重初始
18、值分别为:W(1)=0.1、W(1)=-0.3 、W(1)=0.8。设其权重的调整公式为: W=n *e*XiWi = W+A W设有如下训练样本,按照Apriori算法请写出第一次迭代后各权重W(2)、W(2)、W(2)的调整值。样本X1X2X3Y1-1110.8解答:U=0.1* (-1 ) + (-0.3 ) *1+0.8*1=0.4 , e=0.8-0.4=0.4 W(2)=-0.04 、 W(2)=0.04、 W(2)=0.04。W(2)=、W(2)=、W(2)=。3. 设有如下交易(表1),请按照Apriori算法寻找频繁项集。设定最小支持度为3。表1交易号项集合T001A,B,C
19、,ET002A,BT003A,B,CT004A,B,DT005A,C,DT006B,CT007A,CT008A,B,C,ET009A,B,C解答:候选集第1次扫描支持度计数生成频繁项集ABCDE产生2-候选集第2次扫描支持度计数生成频繁项集产生3-候选集第3次扫描支持度计数生成频繁项集4. 设有如下交易(表1),请按照Apriori算法寻找频繁项集。设定最小支持度为3。交易号项集合T001A,B,C,ET002A,DT003A,B,CT004A,B,DT005A,C,DT006B,CT007A,CT008A,B,C,ET009A,B,C解答:候选集第1次扫描支持度计数生成频繁项集ABCDE产生
20、候选集第2次扫描支持度计数生成频繁项集产生候选集第3次扫描支持度计数生成频繁项集5. 在决策树分析中,已知输出变量U的先验信息熵计算公式为:1Ent(U) = P(Ui)log2八 P(Ui)log2 P(Ui)P(Ui)i参考分组变量T1下U的后验条件熵计算公式为:En t(U | 邛= PJ )( P(Ui | 11 ) log 2 P(Ui | tQji计算信息增益的计算公式为:Rai ns(U,T1)=E nt(U)-E nt(U|T1)设有如下训练数据,其中收入、性别、学历是输入变量,是否购房是输出变量。试计算出第一次分枝时输入变量“收入”的信息增益。 表2决策树训练数据收入性别学历是否购房=5000女大学是=5000男咼中是5000女咼中否=5000女咼中是=5000男初中否5000女大学否5000男大学是其中:已知 log 2(6/10)=-0.74, log 2(4/10)=-1.32, log2(3/6)=-1, log 2(3/4)=-0.42,log 2(1/4)=-2解答:1) 输出变量的信息熵 1(10,6)=-(6/ 10)*log(6/10)+(4/10)*log(4/10)=0.9722) 条件熵 E(收入)=(6/10)*1(6,3)+(4/10)*1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 能源管理试题及答案
- 小学三年级英语试题及分析
- 概率论与数理统计随机变量题目及分析
- 肾小球肾炎随堂测验试题及答案解析
- 2026年跨境电商品牌高端市场定位策略与实践
- 职业技能等级评定标准解读与考试冲刺卷真题
- 工作吵架协议书
- 工地工人结账协议书
- 工程损失协议书
- 工资撤诉协议书
- 国家职业技术技能标准 4-03-02-06 营养配餐员 人社厅发202226号
- 路灯基础现浇混凝土检验批质量验收记录
- 1.2美术作品与客观世界课件高中美术美术鉴赏
- 香囊-完整课件
- AQ/T 2061-2018 金属非金属地下矿山防治水安全技术规范(正式版)
- 早期预警评分量表(MEWS评分表)
- 合并多支病变的CTO介入治疗
- 地震人工搜索与救援技术
- 护理患者的排泄管理
- 对数 公开课比赛一等奖
- 上海市临检中心 基因扩增实验室常见仪器设备的使用和维护
评论
0/150
提交评论