版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘复习一、题型1、判断题15分2、单选题15分3、简单题15分4、综合题20分5、计算题35分(C5.0算法、感知机算法、Apriori算法,见练习题)二、考试大纲 三、实验/作业评讲在教学过程的各个环节,从学生的出勤、日常表现、作业、测试、项目完成 情况及完成质量、TOPCARES9力目标的实现情况等方面,对学生进行全方位的 考核。类别考核项目考核主要内容考核方式考核时间所占权重形成性考核出勤出勤、请假、迟到、旷课等过程考核上课期间5%日常表现是否认真听课,回答问题等过程考核上课期间5%作业课堂作业的完成情况过程考核上课期间10%实习项目实践任务的完成情况机考上课期间10%终结性考核完
2、成情况及完 成质量教学内容闭卷第17周70%说明:四、知识点梳理,重点教学内容串讲名词解释数据挖掘(P6)、算法(P10)、MODELER中的节点(P13)、MODELER中的数据流(P14)、 MODELER中的超节点(P18)、决策树分析(P104)、人工神经网络分析(P157)、关联分析(P207)、知识发现 KDD (P6)主要概念DW产生的基础(P3)DW的基本过程包括(P6)DW能做什么(P7)DW得到的知识形式(P8)DW的算法分类(P10)MODELER的主窗口由哪几部分组成(P13)MODELER中数据流中的节点主要可实现哪些功能(P15)MODELER中数据流的操作主要包括
3、哪几步(P15)MODELER中节点工具箱含由八大选项卡组织(P15)MODELER中通常数据挖掘的基本思'路包括哪些过程(P19)MODELER中从数据挖掘角度看变量有哪7大类型(P26),通过TYP印点可以说明变量什么内容(P42)什么是“有指导学习”(P12、P104) ?举例说明;决策树算法的核心问题有哪些(P106)?什么是信息嫡(P57、P109) ?(信息嫡是连续型变量分有fMDLP算法和决策树C5.0算法的核心)人工神经网络中主要有哪些网络种类(P156)神经网络中处理单元的内部结构图(P158)什么是感知机模型(P162)什么是B P反向传播网络模型,由什么特点(P1
4、64)Apriority 关联分析算法主要包括哪两大部分技术( P213) (产生频繁集、依据频繁集产生关联规则)决策树分析(P104)、人工神经网络分析(P157)、关联分析(P207)等数据挖掘方法主要用来解决什么问题(分类、预测、关联等)3、算法决策树C5.0算法、人工神经网络 B-P感知机算法、关联分析 Apriori算法五、典型例题分析(一)判断题,在每题后面正确打勾,错误打叉有高质的原始数据,才可能有高质量的数据挖掘结果。(,)高质量数据是数据分析的前提和分析结论可靠性的保障。(,)MODELER中数据质量的探索主要包括数据缺失、数据离群点和极端值等几方面。(,)数据挖掘的结果都是
5、正确的。 ( )MODELER中数据挖掘的数据通常以变量为列、样本为行的二维表形式组织。(,)变量说明是对读入数据流中变量取值的有效性进行限定、 检查和修正, 同时指出各个变量在未来建模中的角色。(,)变量说明应通过 Field Ops选项卡中白类型(Type)节点实现。(,)样本浓缩是通过 Record Ops卡中的浓缩(Distinct)节点实现。(,)样本浓缩是通过Record Ops 卡中的汇总( Aggregate )节点实现。 ( )数据的重新组织是通过 Field Ops选项卡中白类型(Type)节点实现。(* )数据的重新组织是通过Field Ops选项卡中白重构(Restru
6、cture)节点实现。(,)数据质量的探索是通过 Output卡中的表(Table)节点实现。(* )数据质量的探索是通过 Output卡中的审核(Data Audit)节点实现。(,)网状图是一种更为生动和直观地展示两个或多个分类变量相关特征的图形。(,)决策树中, 分类树实现对分类型输出变量的分类, 回归树则完成对数值型输出变量取值 的预测。(,)决策树中,称树的每个节点都只能生长出两个分枝的树为多叉树。 ()决策树算法中,C5.0用于生成多分支的决策树。(V )人工神经网络中, 神经网络的最低层称为输入层, 最顶层称为输出层, 中间层称为中间 层。 ()在关联分析中,与时间有关的关联分析
7、称为简单关联分析。 ()关联规则中的规则的支持度测度了关联规则的普遍性,表示项目X和项目Y同时出现的概率。(,)(二)多选题选择题,请在每题正确备选答案前面打勾(单选及多选)。 (每题满分3 分,全选对得 3分,部分选对得2 分,有选错者该题不得分)I.Modeler中(类型Type)节点的主要作用有:1)定义变量的取值范围和缺失值;2)变量取值的有效性检查和修正;3)角色说明;4)变量取值的实例化。答案: 1-42 .Modeler 中 (数据审核 Data Audit) 节点的主要作用有:1)对变量取值分布进行基本描述;2)检验数据质量好坏;3)修正坏数据;4)保留高质量的变量和数据。答案
8、: 1-43 .Modeler 中 (变换 Transform) 节点的主要作用有:1)描述变量取值分布进行描述;2)实现变量的变换处理;3)输出变换后的变量;4)对变量进行分类汇总。答案:1-34 .Modeler中(分区Partition)节点的主要作用有:1)生成训练集、检验集;2)生成训练集、检验集、验证集;3)对数据进行转置;4)对样本进行排序。答案:1-25 .神经网络按其拓扑结构可划分为两层、三层和多层结构。如图所示的神经网络各层的名称 是:A Ar i -B qC -1)其中A层是输入层;2)其中B层是隐层;3)其中C层是输出层;4)其中A层是接收层。答案:1-36 .完整的神
9、经网络节点内部主要由两部分组织(如下图),其中:1) A是加法器;2) B是激活函数;3) A是激活函数;4) B是加法器。答案:1-27.拟合就是把平面上一系列的点,用一条光滑的曲线连接起来。在采用机器学习或者训练深 度神经网络的时候经常会出现理想情况、欠拟合和过拟合等三种情况。请写出如下图A、B、1)输入层11个节点;2)隐层有6个节点;3)输出层有1个节点;4)输入层有1个节点;答案:1-39.建立决策树的核心问题是:1)决策树得生长;2)决策树的修剪;3)决策树得几何理解;4)信息嫡和信息增益。答案:1-2C三种拟合状况是属于什么拟合。8.如下图神经网络中,“流失”为目标变量,则其输入
10、层、隐层、输出层各有多少个节点?*陞叵Iifrjth歪性的JH靶/打1)2)3)4)答案:A欠拟合;B理想拟合;C过拟合;A过拟合。1-310.B-P反向传播神经网络的特点是:1)包含隐层;2)激活函数采用 Sigmoid函数;3)反向传播;4)不包含隐层。答案:1-3(三)解答题1. MODELER的“数据审核 Data Audit”节点操作中,如下操作界面中含义是:答:指定离群值和极值得监测方法。具体可按平均值的标准差大小或四分位数的四位数 范围来确定离群值和极值,从而监测出离群值和极值。2.在MODELER的“数据变换Transform”节点操作中,如下操作界面中的含义是:答:指定采用哪
11、种变量转换公式,从第2列图开始,各图依次为原始变量的直方图、计算倒数后的直方图、求自然对数的直方图、求常用对数的直方图、 计算e的原始变量哥次后的直方图、原始变量求平方根后的直方图。3 .在MODELER的“网状图”节点中,如下套餐类型的输出结果含义是:答:显示各种套餐类型与客户流失的之间的关联情况。如客户流失最少的有:套餐类型为 Plus service, 其次是 Basic service 等等。4 .写出如下数据流各节点的主要功能。jstuderite 由答:Students.xls读取EXCE嗽据文件,Append实现样本追加,Type实现变量实例化, Filler进行变量值的填充,R
12、eclassify实现变量重新分类,Partition实现样本分区。5 .写出如下数据流各节点的主要功能。CirinnfifCUmF 黝CliCkF3thDiMnct Restrucfljrfl Type Apmri答:Customer、Customer2、ClickPath节点读取数据库文件,Merge实现样本合并,Distinct数据浓缩,Restructure变量重构,Type变量实例化,Apriori进行关联分析。(四)综合题1 .通过C5.0算法建立了如下决策树,请对照决策树写出对应的推理规则。-tlotErKOufi L_旭1 德,_。 Mo 91333 朝.y, 6 6&
13、T 2StF 43 VB30-期L%n笛。鼻的一 口比的.脚M,一 1二三£计100.皿曲r岭的!L拈的j节点3 鼻麻 NO 00012 你im计 J1729151毗11。前怖 丫期讨羽&?3就 K52239*<H2福 NO 1666T 4包"8也7 20嘉 34 7E3 24衿; 相卜可的推上里规则力;.家长是否鼓励=Not Encouraged 模式Mo H家长是否鼓励=Encouraged 模式Yes )6 NoYes在校综台评价指数= 4&口52 梗式U0在校综合评珀指数 > 的052 模式 Y")2 .通过C5.0算法建立了如
14、下决策树,请对照决策树写出对应的推理规则。答:IF属性3=立方体 THEN类别=BIF属性3=圆 AND属性2=红或黄 THEN 类别=AIF属性3=圆 AND属性2=黑 THEN 类别=B3 .在关联分析中,通过 Apriori算法,Modeler如下输出结果,请写出对应的三条关联规 则,并注明每条关联规则的支持度S置彳t度C分别为多少。后项前项L 支持度百分比置信度百分比令客食品悭酒16 787 425霰决靖菜产酒17.C85S82啤酒冷冻食品17384 393答案:三条规则:啤酒和罐头蔬菜一冷冻食品(S=16.7%,C=87.4%啤酒和冷冻食品一罐头蔬菜(S=17.0%,C=85.9%)
15、;冷冻食品和罐头蔬菜一啤酒(S=17.3%,C=84.4%)。同时,三条关联规则的提升值都可以接受。因此,啤酒、罐头蔬菜、冷冻食品是最可能连 带销售的商品。4 .在关联分析中,请根据如下输出结果写出相应的关联规则。Kdud模以下内容进行排序:五信。二j【且-nmtj -i属于3支持度%笠信度Ifrozenmealbeer canredveg16.787.425cannedvegceer fro2«rm4£l17.065.332bearfrozen meal cflnnadv«g17.384 393答:(beer) n (cannedveg) (frozenmeal
16、)(支持度=16.7,置信度=87.425%) (beer) n (frozenmeal)(cannedveg)(支持度=17.0,置信度=85.882%) (frozenmeal) n (cannedveg)(beer)(支持度=17.3,置信度=84.393%)(五)计算题1.在人工神经网络中,设神经元结构如下:其中x1、x2、x3为输入变量,y为数值型输出变量。在该神经元的调整权值因子的过程中其学习率 刀=0.2,神经元的偏差 b=0,并且激活函数是线性的,即y=f(净输入net尸net。各权重初始值分别为:Wi(1)=0.1、W2(1)=-0. 3、W3(1)=0.8。设其权重的调整公
17、式为: Wi=r *e*XiWi+1= Wi+A Wi设有如下训练样本,请按照感知机算法写出第一次迭代后各权重Wi(2)、W2(2)、W3(2)的调整值。X1X2X3Y11-110.9解答:U=0.1*1+ (-0.3) * (-1) +0.8*1=1.2 , e=0.9-1.2=-0.3 Wi(2)=-0.03、W2(2)=0.03、 W3(2)=-0.03。Wi(2)=0.1+(-0.03)=0.07、W2(2)=(-0.3)+0.03=-0.27、W3(2)=0.8+(-0.03)=0.77。2 .在人工神经网络中,设神经元结构如下:其中x1、x2、x3为输入变量,y为数值型输出变量。在
18、该神经元的调整权值因子的过程中其学习率 刀=0.2,神经元的偏差 b=0,并且激活函数是线性的,即y=f(净输入net尸net。各权重初始值分别为:Wi(1)=0.1、W2(1)=-0. 3、W3(1)=0.8。设其权重的调整公式为: Wi=刀 *e*x iWi+i= Wi+A Wi设有如下训练样本,按照 Apriori算法请写出第一次迭代后各权重Wi(2)、W2(2)、W3(2)的调整值。X1X2X3Y1-1110.8解答:U=0.1* (-1) + (-0.3) *1+0.8*1=0.4 , e=0.8-0.4 =0.4 Wi(2)=-0.04、W2(2)=0.04、W3(2)=0.04。
19、W1(2)=、W2(2)=、W3(2)=。3 .设有如下交易(表1),请按照Apriori算法寻找频繁项集。设定最小支持度为3。表1乂勿P项集合T001A,B,C,ET002A,BT003A,B,CT004A,B,DT005A,C,DT006B,CT007A,CT008A,B,C,ET009A,B,C解答:候选集第1次扫描支持度 计数生成频 繁项集ABCDE产生2-候选集第2次扫描支持度 计数生成频 繁项集产生3-候选集第3次扫描支持度 计数生成频 繁项集4 .设有如下交易(表1),请按照Apriori算法寻找频繁项集。设定最小支持度为3。表1解答:候选集第1次扫描支持度 计数生成频 繁项集A
20、BCDE产生候 选集第2次扫描支持度 计数生成频 繁项集产生候 选集第3次扫描支持度 计数生成频 繁项集乂勿P项集合T001A,B,C,ET002A,DT003A,B,CT004A,B,DT005A,C,DT006B,CT007A,CT008A,B,C,ET009A,B,C5 .在决策树分析中,已知输出变量U的先验信息嫡计算公式为:1Ent(U) = " Rujog2八 p(Ui)log2Rq)RU) i参考分组变量T1下U的后验条件嫡计算公式为:Ent(U | 工)=2 R%)(- Z P(u | t ij ) log 2 P(Ui % )计算信息增益的计算公式为:Rains(U,
21、T1)=Ent(U)-Ent(U|T1)设有如下训练数据,其中收入、性别、学历是输入变量,是否购房是输出变量。试计算出第一次分枝时输入变量“收入”的信息增益。表2决策树训练数据收入性别学历是否购房<5000男是>=5000女是>=5000男局中是<5000女局中否<5000男是>=5000女是<5000女初中否>=5000男初中否<5000女否<5000男是其中:已知 10g2(6/10)=-0.74, log2(4/10)=-1 .32, log2(3/6)=-1 , log2(3/4)=-0 .42, log2(1/4)=-2 解答:1)输出变量的信息嫡 I(10, 6)=-(6/10)*log(6/10)+(4/10)*log(4/10)=0.9722)条件嫡 E(收入)=(6/10)*I(6 , 3)+(4/10)*I(4 , 3)=0.6*-(3/6)log(3/6)-(3/6)log(3/6)+0.4-(3/4)log(3/4)-(1/4)log(1/4)=0.6*(0.5*1+0.5*1)+0.4*(0.75*0.42+0.25*2)=0.6+0.326=0.9263) Gai
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年郑州市颈肩腰腿痛医院工作人员招聘12人的备考题库及完整答案详解一套
- 2025年河南省水利水电学校公开招聘工作人员6人备考题库及一套参考答案详解
- 3D打印血管网络技术的临床应用与推广策略
- 同仁堂集团2026届高校毕业生招聘备考题库及答案详解参考
- 城市热岛效应对城市居民生活品质的影响与对策教学研究课题报告
- 3D打印导板在神经外科手术中的精准设计与精准固定
- 3D打印导板对神经外科手术切口的美容效果
- 2025年文元育英中学招聘6人备考题库及1套参考答案详解
- 2025年郑州大学第二附属医院公开招聘员额制工作人员(硕士)23人备考题库及1套参考答案详解
- 2025年周口市第二人民医院(周口市老年医院)专业技术人员招聘备考题库及一套完整答案详解
- Unit 6 A Day in the Life Section A Prociation +(2a-2e) 课件 2025-2026学年人教版七年级英语上册
- 《煤矿安全规程(2025)》防治水部分解读课件
- 2026年无人机物流配送应急预案制定与风险防控
- 山东开放大学《劳动合同法(本科)》形考作业1-3终考答案
- 杨辉三角的性质与应用课件-高二下学期数学人教A版选择性
- 15《我们不乱扔》课件 2025-2026学年道德与法治一年级上册统编版
- 发电厂项目管理员岗位考试试卷及答案
- CN119399202B 一种伤口评估监测方法及设备 (浙江大学医学院附属第一医院(浙江省第一医院))
- 2025年山东省公务员公开遴选笔试试题及答案(综合类)
- 北京市西城区2024-2025学年三年级上学期期末语文试题
- 藏文主持词模板
评论
0/150
提交评论