版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学年第1学期;课号课程名称Python经济大数据分析(A闭卷);适用班级(或年级、专业)(每位考生需要答题纸(8k)1张、草稿纸(16k)1张)考试时间120分钟班级学号姓名题号一二三四五六七八九十成绩满分30202030得分评卷人一、单项选择题(每道题2分,共30分)1.衡量取样数据的质量的标准不包括:()A.资料完整无缺B.各类指标项齐全C.数据准确无误D.数据一致2.Python中如果用户要自己定义函数,需要使用的关键字是?()A.fromB.def或lambdaC.importD.return3.以下代码的输出结果为()defFoo(x):if(x==1):return1else:returnx+Foo(x-1)print(Foo(4))10B.24C.7D.1以下关于分类问题的说法错误的是?()A.分类问题输入属性必须是离散的B.分类属于监督学习C.回归问题在一定条件下可被转化为多分类问题D.多分类问题可以被拆分为多个二分类问题5.关于第三方库,以下说法不正确的是()。A.下载源代码自行安装B.用pip命令安装C.现在编译好的文件包进行安装D.单独导入库名不可以使用库中的所有子模块6.提供了数组支持以及相应的高效的处理函数的是()A.SciPyB.KerasC.NumpyD.StatsModels7.有关数据质量正确的说法是()A.错误的数据也可能产生有用的结果B.数据预处理的重要目的是提高数据挖掘结果的质量C.因为分析的数据量很大,有些噪声即使不去除也对数据挖掘没多大影响D.数据质量不需要对业务理解8.假设有三类数据,用OVR(OneVRest)方法需要分类几次才能完成?A.3B.4C.1D.29.以下哪些不是二分类问题?A.根据一个人的身高和体重判断他(她)的性别。B.根据肿瘤的体积、患者的年龄来判断良性或恶性?C.身高1.85m,体重100kg的男人穿什么尺码的T恤?D.或者根据用户的年龄、职业、存款数量来判断信用卡是否会违约?10.以下不属于集中趋势统计量的是()A.均值B.中位数C.四分位数D.众数11.置信度是度量()的指标。A.简洁性B.可靠性C.实用性D.新颖性12.以下不属于聚类算法类型的是()A.划分方法B.层次方法C.基于密度的方法D.决策树归纳算法13.下面哪个回归分析的说法是正确的()A.非线性回归问题一般要转化为线性回归B.回归分析不需要样本训练C.可以预测非数据型属性的类别D.回归分析是分析一个变量与其他一个(或几个)变量之间的线性关系的统计方法14.以下不属于属性规约常用的处理技术是()A.合并属性B.决策树归纳C.主成分分析D.特征加权15.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?A.根据内容检索B.建模描述C.预测建模D.寻找模式和规则二、填空题(每空2分,共20分)1.处理缺失值常用的三种方法是:删除记录、___________和____________。2.二分类问题的混淆矩阵如图所示,通过图中的数据可以得知精确率是________,召回率是_________,F1值是___________,真正例率是__________,假正例率是________,准确率是________,错误率是_________。(保留两位小数)3.对聚类分析算法进行评价常用的方法有purity评价法、RI评价法和________。三、名词解释题(每道题5分,共20分)1.脏数据2.数据清洗3.关联规则4.BP神经网络四、简答题(每道题6分,共30分)1.在数据质量分析的过程中,如何进行异常值分析?2.数据探索的定义,简述数据质量分析中脏数据的类型。3.简述为什么要做数据预处理,数据预处理的主要内容。4.什么是决策树?决策树的剪枝有哪些方法?5.什么是聚类?简要描述K-Means聚类算法的实现过程。试卷一答案单选1-5:DBAAD6-10:CBDCC11-15:BDADC填空1.数据插补、不处理。2.0.90;0.78;0.84;0.78;0.02;0.93;0.073.5F值评价法名词解释题1.脏数据:脏数据一般是指不符合要求以及不能直接进行相应分析的数据。2.数据清洗:数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉和挖掘主题无关的数据,处理缺失值、异常值等。3.关联规则:假设I={I_1,I_2,⋯,I_n}是项的集合。给定一个交易数据库D,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(TransactionID)对应。关联规则是反映一个事物与其他事物之间的相互依存性和关联性,用于从大量数据中挖掘出有价值的数据项之间的相关关系,可从数据中分析出形如“由于某些事件的发生而引起另外一些事件的发生”之类的规则。4.BP神经网络:一种按误差拟传播算法训练的多层前馈网络,学习算法是σ学习规则。问答题1.异常值分析是检验数据是否有录入错误以及含有不合常理的数据。忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会带来不良影响;重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机。异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称为离群点,异常值的分析也称为离群点的分析。异常值分析方法主要有:简单统计量分析、3原则、箱型图分析。2.通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程就是数据探索。脏数据的类型:缺失值、异常值、不一致的值、重复数据以及含有特殊符号的数据。3.在数据挖掘中,海量的原始数据中存在着大量不完整、不一致、有异常的数据,将严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以需要进行数据的预处理。数据预处理的主要包括数据清洗、数据集成、数据变换和数据规约。4.决策树是一种机器学习的方法,是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,生成算法有ID3,C4.5和C5.0等。决策树的剪枝通常有两类方法,一类是预剪枝,另一类是后剪枝。5.聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。K-Means算法的实现过程:从n个样本数据中随机的选取k个对象作为初始的聚类中心。分别计算每个样本到各个聚类中心的距离,将对象分配到距离最近的聚类中。所有对象分配完成后,重新计算k个聚类的中心。与前一步计算得到的k个聚类中心比较,如果聚类中心发生变化,转至步骤2,否则转至步骤5.当质心不发生变化时,停止并输出聚类结果。学年第1学期;课号课程名称Python经济大数据分析(B闭卷);适用班级(或年级、专业)(每位考生需要答题纸(8k)1张、草稿纸(16k)1张)考试时间120分钟班级学号姓名题号一二三四五六七八九十成绩满分30202030得分评卷人一、单项选择题(每道题2分,共30分)1.在进行数据抽样时候的标准不包括:()A.可靠性B.有效性C.一致性D.相关性2.以下代码的运行结果是?()defInputInt(a):a=15b=2InputInt(b)print(b)15B.2C.15.2D.b3.对于数据挖掘中的原始数据,不需要考虑的问题包括()。A.错误值B.重复C.不完整D.数据产生的人4.对于不服从正态分布的变量、分类或等级变量之间的关联性常采用:()A.Spearman相关系数B.判定系数C.Pearson相关系数D.Gamma系数5.在进行数据探索时能够一次查看数据的基本情况的方法是()A.subplot()B.describe()C.cumsum()D.add_subplot()6.由于研究目的和对比基础不同,在进行相对数比较时采用的方法不包括()A.结构相对数B.比例相对数C.过程相对数D.强度相对数7.以下不属于数据处理中经常使用的缺失值填充的方法()。A.忽略元组B.属性均值填充缺失值C.最近邻填充缺失值D.回归填充缺失值8.哪些算法不需要数据归一化?A.kNNB.SVMC.k-meansD.决策树9.以下哪些方法不能用于处理欠拟合?A.增加模型复杂度B.增大正则化系数C.增加新的特征D.对特征进行变换,使用组合特征或高维特征10.以下那种说法是错误的()。A.一个系统越是有序,信息熵就越低B.中国足球队战胜巴西足球队的信息熵要小于中国乒乓球队战胜巴西乒乓球队的信息熵C.信息增益=信息熵-条件熵D.一个系统越是混乱,随机变量的不确定性就越大,信息熵就越高11.关于CART算法,错误的是()。A.CART算法既可以处理分类问题,也可以处理回归问题B.可以处理样本不平衡问题C.CART算法采用信息增益率的大小来度量特征的各个划分点D.CART分类树采用基尼系数的大小来度量特征的各个划分点12.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘中的()。A.关联规则B.聚类C.分类D.自然语言处理13.有关数据挖掘预处理不正确的说法是()。A.预处理是数据挖掘一个不可少的环节B.数值规约可以使用聚类进行C.预处理涉及缺失值分析、异常值分析等很多工作D.预处理的过程可能本身就是一个数据挖掘过程14.假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:()A.0.821B.1.224C.1.458D.0.71615.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?A.分类B.聚类C.关联分析D.协同过滤二、填空题(每空2分,共20分)1.数据抽样的标准包括:可靠性、有效性、___________。2.Python中包含4种内建的数据结构为:________、字典、元组、_________。3.常用的异常值探测方法是简单统计量分析、箱型图分析和____________。4.数据的不一致性主要是数据的_____________和______________。5.处理缺失值常用的三种方法是:删除记录、___________和____________。6.实现分类与预测的常用算法有回归分析、__________、人工神经网络、___________和支持向量机。三、名词解释题(每道题5分,共20分)1.分类2.决策树3.预测4.纯随机序列四、简答题(每道题6分,共30分)1.简述什么是异常值分析,以及进行异常值探测的方法。2.简述为什么要做数据预处理,数据预处理的主要内容。3.常见的分类算法有哪些?4.简述分类的概念,以及分类算法的实现过程。5.LR(逻辑回归)和SVM的联系与区别?试卷二答案单选1-5:CBDBA6-10:CADBB11-15:CACDD填空1.相关性2.列表list、集合set3.3σ原则4.矛盾性、不相容性5.数据插补、不处理。6.决策树、贝叶斯网络名词解释题1.分类是构建一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别。2.决策树(DecisionTree)通过对训练样本的学习,并建立分类规则,然后依据分类规则,对新样本数据进行分类预测,属于有监督学习。3.预测是建立两种或两种以上变量间相互以来的函数模型,然后进行预测和控制。4.纯随机序列又称白噪声序列,序列的各项之间没有任何相关性,序列在进行完全无序的随机波动。问答题1.异常值分析是检验数据是否有录入错误,是否含有不合常理的数据。常用的方法有简单统计量分析、3σ原则和箱型图。2.在数据挖掘中,海量的原始数据中存在着大量不完整、不一致、有异常的数据,将严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以需要进行数据的预处理。3.答:SVM、神经网络
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026中国能建中电工程黑龙江院校园招聘笔试历年参考题库附带答案详解
- 2026中国有色集团沈阳矿业投资有限公司安全总监招聘1人笔试历年参考题库附带答案详解
- 2026中国巨石股份有限公司招聘3人笔试历年参考题库附带答案详解
- 2026年甘肃省嘉峪关市档案馆招聘公益性岗位人员笔试模拟试题及答案详解
- 2026年循化县人民医院医护人员招聘笔试备考题库及答案详解
- 2026中粮到家•重庆哈鑫康业食品有限公司人力资源部部长招聘1人考试模拟试题及答案详解
- 2026年吉林省农村义务教育阶段学校特设岗位教师招聘办法考试模拟试题及答案详解
- 2026年北京市西城区妇婴医院医护人员招聘笔试备考试题及答案详解
- 2026年南昌市红谷滩城市投资集团有限公司招聘5人考试参考题库及答案详解
- 2026山东海泽金属科技有限公司招聘20人考试参考题库及答案详解
- 2026年全国高考语文(全国Ⅰ卷)真题及答案
- 2026年7月自考13996旅游接待业押题及答案
- 2026春西师大版小学数学四年级下册期末综合测试卷含答案
- IATF16949 五大核心工具综合培训(APQP-FMEA-SPC-MSA-PPAP)
- 人教版五年级下册道德与法治专项训练测试题(附答案)
- 2026年(春新版)道德与法治二年级下册1-4单元全套试卷
- 股票技术指标公式参考文档
- 2026年餐厅装修设计需求说明书
- 安装与土建交叉作业施工方案1
- 初中七年级道德与法治下册《让和声更美-集体生活中的个人与规则》教学设计
- (2026版)《电力重大事故隐患判定标准及治理监督管理规定》培训
评论
0/150
提交评论