数据科学导论南开大学

上传人：d*** IP属地：天津上传时间：2022-05-03 格式：DOCX 页数：12 大小：26.09KB 积分：15 举报 版权申诉

已阅读5页，还剩7页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、数据科学导论课程一、客观部分：（单项选择、判断）（一）、选择部分1、通过构造新的指标-线损率，当超出线损率的正常范围，则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的（C）A.简单函数变换B.规范化C.属性构造D.连续属性离散化2、实体识别属于以下哪个过程（B）A.数据清洗B.数据集成C.数据规约D.数据变换3、数据质量检验的主要任务就是检查原始数据中是否存在“脏数据”，概括性来说，脏数据不包括以下（A）A.普通值B.异常值C.不一致的值D.重复值4、决策树在什么情况下结点需要划分（D）A.当前结点所包含的样本全属于同一类别B.当前属性集为空，或是所有样本在所有属性上取值相同C

2、.当前结点包含的样本集为空D.还有子集不能被基本正确分类5、系统日志收集的基本特征不包括（D）A.高可用性B.高可靠性C.可扩展性D.高效率6、k近邻法的基本要素不包括（C）。A.距离度量B.k值的选择C.样本大小D.分类决策规则7、一元回归参数估计的参数求解方法不包括（D）A.最大似然法B.距估计法C.最小二乘法D.欧式距离法8、下列选项不是BFR的对象是（B）A.废弃集B.临时集C.压缩集D.留存集9、聚类的主要方法不包括（D）A.划分聚类B.层次聚类C.密度聚类D.距离聚类10、以下哪一项不是特征选择常见的方法（D）A.过滤式B.封装式C.嵌入式D.开放式11、以下哪一项不是特征工程的子

3、问题（D）A.特征创建B.特征提取C.特征选择D.特征识别12、比如一张表，从业务上讲，一个用户应该只会有一条记录，那么如果某个用户出现了超过一条的记录，这就产生了（C）A.异常值B.不一致的值C.重复值D.缺失值13、对于相似性与相异性的度量方法，基于距离的方法，以下哪一项不符合要求（D）A.欧氏距离B.曼哈顿距离C.马氏距离D.对角距离14、通过变量标准化计算得到的回归方程称为（A）。A.标准化回归方程B.标准化偏回归方程C.标准化自回归方程D.标准化多回归方程D）。15、一元线性回归中，真实值与预测值的差称为样本的（A.误差B.方差C.测差D.残差16、在回归分析中，自变量为（），因变量

4、为（D）。A.离散型变量，离散型变量B.连续型变量，离散型变量C.离散型变量，连续型变量D.连续型变量，连续型变量17、为了解决任何复杂的分类问题，使用的感知机结构应至少包含（B）个隐含层。A.1B.2C.3D.418、BF咪类用于在（A）欧氏空间中对数据进行聚类A.高维B.中维C.低维D.中高维19、层次聚类对给定的数据进行（B）的分解。A.聚合B.层次C.分拆D.复制（二）、判断部分1、当维度增加时，特征空间的体积增加得很快，使得可用的数据变得稀疏。（，）2、数据分析师的任务：用模型来回答具体问题，了解数据，其来源和结构。（X）3、探索性数据分析的特点是研究从原始数据入手，完全以实际数据为

5、依据。（，）4、特征的信息增益越大，则其越重要。（V）5、随着特征维数的增加，样本间区分度提高。（X）6、多层感知机的学习能力有限，只能处理线性可分的二分类问题。（X）7、给定一组点，使用点之间的距离概念，将点分组为若干簇，不同簇的成员不可以相同。（，）8、给定关联规则QB,意味着：若A发生，B也会发生。（X）9、Jaccard系数只关心个体间共同具有的特征是否一致这个问题。（，）10、集中趋势能够表明在一定条件下数据的独特性质与差异。（x）11、利用K近邻法进行分类时，使用不同的距离度量所确定的最近邻点都是相同的。（X）12、利用K近邻法进行分类时，k值过小容易发生过拟合现象。（，）13、神

6、经网络中误差精度的提高可以通过增加隐含层中的神经元数目来实现。（V）14、单层感知机对于线性不可分的数据，学习过程也可以收敛。（X）15、聚合方法是自底向上的方法。（，）16、如果一个候选集至少有一个子集是非频繁的，根据支持度的反单调属性，这样的候选项集肯定是非频繁的。（，）17、在k近邻方法中,k值增大意味着整体模型变得复杂。（x）18、朴素贝叶斯分类器有简单、高效、健壮的特点，但某些属性可能会降低分类。、主观部分:（一）、填空部分1、二分类问题常用的评价指标是精确率、召回率2、朴素贝叶斯分类器建立在一个类条件独立性假设基础之上。3、在决策树生成算法中，最关键的是如何在每一轮的迭代中选择最优

7、特征。4、一个关联规则同时满足最小支持度和最小置信度，我们称之为强关联规则。5、数据科学的过程包括获取数据、数据预处理、数据探索、数据建模、结果展示。6、Pearson线性相关系数要求连续变量的取值服从正本分布。7、欧氏距离越小，两个点的相似度就越大,欧氏距离越大，两个点的相似度就越小。8、数据散度分析表示一组数据离数据中心的距离，多用标准差、方差以及极差进行衡量。9、在k近邻法中，选择较大的k值时，学习的“近似误差”会,“估计误差”会减小。10、在k近邻法中，通常采用交叉验证法来选取最优的k值。11、划分聚类采取互斥簇的划分.即每个对象必须恰好属于一个1。12、在线性回归分析中，根据自变量的

8、维度不同可以分为一维和d维。13、反向的基本思想为，通过输出层得到输出结果和期望输出的误差，间接调整隐含层的权值。14、多层感知机中，隐含层和输出层都是拥有激活函数的功能神经元。15、神经网络中最基本的成分是神经元模型。16、密度分类法中，单维的变量可以通过其分布峰的个数来确定K值。17、在聚类中，使用距离测量来定义相似性18、Apriori核心算法有两个关键步骤为连接步和剪枝步。（二）、简答1、为什么需要标准化偏回归系数？标准化偏回归系数与普通的偏回归系数之间的关系是什么？在实际问题中，各自变量都有各自的计量单位以及不同的变异程度，所以不能直接用普通的偏回归系数的大小来比较方程中各个自变量对

9、因变量？的影响大小，可以利用标准化偏回归系数来衡量。通过变量标准化计算得到的回归方程称为标准化回归方程，相应的回归系数即为标准化偏回归系数。标准化偏回归系数与普通的偏回归系数关系如下：?=q?其中？?<2?2、简单介绍决策树算法流程决策树算法流程：1 .首先计算训练数据集的信息嫡；2 .计算各特征对数据集的信息增益；3 .选取信息增益最大的特征为最优特征;4 .将数据集按照最优特征进行划分；5 .循环2,3,4直到结点不能划分。3、一般的关联规则学习的步骤是什么？关联规则学习的步骤：1 .找出所有的频繁项集；2 .根据频繁项集生成频繁规则；3 .根据置信度等指标进一步过滤筛选规则;4、请

10、简述K-means聚类的优缺点。优点：容易实现。缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢。5、请简述在使用反向传播算法训练多层感知机时，应该如何设置学习的停止条件？在使用反向传播算法训练多层感知机时，设置学习的停止条件常见的方法有两种。第一种为设置最大迭代次数，比如使用数据集迭代100次后停止训练；第二种为将数据分为训练集与验证集，当训练集的误差降低而验证集的误差升高，则停止训练。6、请简述k近邻法中k的取值对模型的影响。对于k近邻法中k的取值：选择较小的k值，相当于用较小的邻域中的训练实例进行预测，学习的“近似误差”会减小，“估计误差”会增大，预测结果会对近邻的点实例点非常敏感。

11、k值减小意味着整体模型变得复杂，容易发生过拟合。选择较大的k值，学习的“近似误差”会增大，“估计误差”会减小，与输入实例较远（不相似）的训练实例也会对预测起作用。k值增大意味着整体模型变得简单。在应用中，k值一般取一个比较小的数值，通常采用交叉验证法来选取最优7、简答特征选择的四个步骤？特征选择的四个步骤：1 .子集产生2 .子集评估3 .停止条件4 .子集验证8、探索性数据分析有哪些特点？探索性数据分析的特点：1 .研究从原始数据入手，完全以实际数据为依据；2 .分析方法从实际出发，不以某种理论为依据；3 .分析工具简单直观，更易于普及。9、单变量分析的方法主要包括非图形化方法和图形化方法两

12、种，其中非图形化方法中主要求出哪些常量？非图形化方法中主要求出的变量有：均值、方差、标准差和峰度系数10、请简述，对于多层感知机，为什么无法通过简单感知机的学习规则对隐含层进行误差估计。因为对于各隐含层的节点来说，它们并不直接与外界相连，即不存在期望输出。所以无法通过简单感知机的学习规则对隐含层进行误差估计。(三)、计算题1、已知二维空间有三个点xi=(2,1)T,X2=(5,4)T,X3=(6,2)T要求：求出在？?=1,2,3时，？?&E离下？?的最近邻点，并得出相应结论?E离计算公式如下：1?/?？?=(汇|?以-?|)?=1p=1时,Ll(xi,X2)=经1|x1"-

14、2,?的标准差？枷=2.5,?勺标准差？?=0.8。要求：请写出y,?万口？?的标准化回归方程，并分析？?和？?哪个变量对？?勺影响强度更大。标准化偏回归系数与普通的偏回归系数关系为SjWj=Wj()4y因此,，4x1、W1=W1(G)Sy0.2=4X0.8W2=W2=-0.52.5=0.8-1.5625因此标准化回归方程为y=x1-1.5625x2+22从标准化偏回归系数可以看出|W1|<|w2|,由此可知x2对y的影响强度更大（四）、论述题1、在特征选择问题上，贪心算法依据搜索策略的不同可以分为几种？并简述每种策略是如何进行的？贪心算法依据搜索策H&的不同可以分为3种，分别是前向搜索、后向搜索和双向搜索。前向搜索：特征子集从空集产生，迭代的从特征全集中选择特征加入子集。只能加入特征而不能去除特征。后向搜索：特征子集从全集产生，迭代的从子集中删除无关或冗余的特征。只能去除特征不能加入特征。双向搜索：从某个随机的特征子集开始，使用前向搜索向子集中增加新特征，同时使用后向搜

人人文库> 全部分类> 应用文书 > 作业报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据科学导论南开大学

文档简介

温馨提示

最新文档

评论

数据科学导论南开大学

文档简介

温馨提示

最新文档

评论

相关文档