


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘复习题 1选择题1 某超市研究销售记录数据后发现,买啤酒的人很大概率也会购买尿布,这属于数据挖掘的_A_问题。 A 关联规则发现 B 聚类 C 分类 D 自然语言处理2 将原始数据进行集成、变换、维度规约、数值规约是在_C_阶段完成的。 A 频繁模式挖掘 B 分类和预测 C 数据预处理 D 数据流挖掘3 Clementine 不能读取的数据文件是_D_。A SPSS文件 B SAS文件 C 文本文件 D PDF文件4 在将“学生成绩.sav”数据文件通过Clementine的数据源(Source)选项卡加载到流中后,浏览此上载数据可用_A_节点。A 表(Table) B 类型(Types) C 过滤(Filter) D 导出(Derive)5 在利用多元线性回归进行预测过程中,如果解释变量的数目被控制在十个以内,至少需要_C_个样本才能满足模型估计的基本要求。A 10 B 20 C 30 D 40填空题1 某单位有100个人,他们的平均身高是170cm,标准差为5cm, 根据切比雪夫定理,该单位至少有_75_%的人身高在160cm180cm这个区间里,如果预先知道该单位人的身高服从正态分布,在上述条件不变的情况下,可得出该单位大约有_95_%人的身高在160cm180cm这个区间里的结论。2 Clementine 可视化界面的四个区域分别是_流区域_, _面板区_, _模型管理区_,_项目管理区_。3 Clementine 超节点的建立操作是:首先选中若干个节点,然后右击鼠标,选择弹出菜单中的_创建超节点_选项,要查看超节点中的具体内容,选择超节点弹出菜单中的_放大_选项,如果要取消超节点,选择弹出菜单中的_展开_选项。4 Clementine数据质量的探索主要包括_数据缺失问题_、_数据离群点和极端值两大方面。5 Clementine 输出选项卡中的数据审核节点默认变量值在以均值为中心的3个标准差以外为离群点,5个标准差以外为极端值,默认变量值与上四分位数或下四分位数的绝对差大于1.5倍的四分位差为离群点,大于3倍四分位差为极端值。简答题1 数据流的操作主要包括哪几个步骤?(1) 选择和管理节点(2) 节点连接和连接调整(3) 设置节点参数(4) 执行数据流2 预测与分类的区别是什么?分类是预测数据对象的离散类别,预测是用于数据对象的连续取值3 数据分类由哪几步过程组成?第一步,建立一个模型,描述指定的数据类集或概念集;第二步,使用模型进行分类。4 ID3算法的核心是什么?在决策树各级节点上选择属性时,用信息增益作为属性的选择标准,以使得在每一个叶节点进行测试时能获得关于被测试记录最大的类别信息。5 不完整数据的产生原因有哪些?(1) 有些属性的内容有时没有(2) 有些数据当时被认为是不必要的(3) 由于误解或检测设备失灵导致相关数据没有记录下来(4) 与其他记录内容不一致而被删除(5)历史记录或对数据的修改被忽略了。6. 噪声数据的产生原因有哪些?(1) 数据采集设备有问题(2) 在数据录入过程中发生了人为或计算机错误(3) 数据传输过程中发生错误(4) 由于命名规则或数据代码不同而引起的不一致。7. 对遗漏数据有哪些处理方法?忽略该条记录;手工填补遗漏值;利用默认值填补遗漏值;利用均值填补遗漏值;利用同类别均值填补遗漏值;利用最可能的值填充遗漏值。8. Clementine中有哪些对离群点或极端值的修正方法?(1) 用距离离群点或极端值最近的正常数据代替。(2) 剔除离群点或极端值。(3) 用系统缺失值null替代离群点或极端值。(4) 按照(1)修正离群点,剔除极端值。(5) 按照(1)修正离群点,用系统缺失值null替代极端值。9. Clementine中有哪些对数据缺失值的替补方法?(1) 用具体值替补,包括均值、中间值、或一个指定常数。(2) 用正态分布或均匀分布中的一个随机数替补。(3) 用一个指定的算术表达式结果替补。(4) 用分类回归树的预测值替补。10. 说明多元线性回归模型假设检验的步骤?查看拟合优度,进行F检验,从整体上判断回归方程是否成立,如果F检验通不过,无须进行下一步;否则进行下一步查看各个变量的t值及其相应的概率,进行t检验,如果相应的概率小于给定的显著水平,该自变量的系数显著地不为0,该自变量对因变量作用显著;否则系数与0无显著差异(本质上=0),该自变量对因变量无显著的作用,应从方程中删去,重新估计方程。但是,一次只能将最不显著(相应概率最大)的删除。每次删除一个,直至全部显著。计算题杨昭军等利用中国统计年鉴提供的1977 1985 年耐用消费品社会拥有量数据如下:t 0 1 2 3 4 5 6 7 8年度 1977 1978 1979 1980 1981 1982 1983 1984 1985实际值 3.04 3.5 4.06 4.7 5.63 6.63 7.5 8.4 9.4采用迭代算法, 建立了缝纫机平均百人拥有量增长Logistic 曲线回归方程如下:,(1) 试求缝纫机平均百人拥有量的渐增期、快增期和缓增期,(2) 通过该曲线对1977 1985 年缝纫机平均百
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 黑龙江省齐齐哈尔市梅里斯区2024-2025学年八年级下学期期末考试语文试题(含解析)
- 社区消防员安全知识培训课件
- 项目聘用 长期合同范本
- 与焊接厂合同范本
- 看仓库人员合同范本
- 12333劳动合同范本
- 房屋全款转让合同范本
- 厂房代理合同范本
- 购买建材石材合同范本
- 蔬菜店经营合同范本
- 2025劳动合同范本【模板下载】
- 以课程标准为导向:上海市初中信息科技教学设计的探索与实践
- 2025年公共基础知识考试试题(附完整答案)
- 北川羌族自治县农业农村局北川羌族自治县测雨雷达建设项目环评报告
- 2025社区工作者必考试题库(含答案)
- 友邦资讯面试题目及答案
- 2025年山东青岛海关缉私局辅警招聘考试笔试试卷【附答案】
- 2025年社区工作者考试真题库及答案
- 飞灰处置再生资源化利用项目可行性研究报告模板-立项备案
- 2025年中国药典试题及答案
- 昆明一中实验班数学试卷
评论
0/150
提交评论