CDA数据分析师LEVEL1模拟题.pdf_第1页
CDA数据分析师LEVEL1模拟题.pdf_第2页
CDA数据分析师LEVEL1模拟题.pdf_第3页
CDA数据分析师LEVEL1模拟题.pdf_第4页
CDA数据分析师LEVEL1模拟题.pdf_第5页
已阅读5页,还剩22页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

CDA LEVEL I 业务数据分析师模拟题 第 1 页,共 27 页 版权所有,侵权必究 CDA LEVEL I业务数据分析师业务数据分析师模拟题模拟题 一、一、单选单选题题(60道道,1分分/道道) 1、关系型数据库的完整性约束条件有( ) 。 A. 主键约束 B. 非空约束 C. 唯一约束 D. 以上都是 答案:D 分析:完整性约束条件可以对字段进行限制,规定字段内容。 2、以下哪个 SQL 函数可以完成对数字的四舍五入( ) 。 A. floor B. ceiling C. round D. truncate 答案:C 分析:floor(x)表示返回小于 x 的最大整数值(去掉小数取整) ,ceiling(x)表示返 回大于 x 的最小整数值(进一取整) ,round(x,y)表示返回参数 x 的四舍五入的有 y 位小数的值(四舍五入) ,truncate(x,y)表示返回数字 x 截短为 y 位小数的结果。 3、查询 student 表中记录数可以使用如下语句( ) A. select count() from student B. select count(*) from student C. select columns() from student D. select columns(*) from student 答案:B 分析:在 sql 中用 count 语句进行记录数统计,count(*)表示统计所有记录数。 CDA LEVEL I 业务数据分析师模拟题 第 2 页,共 27 页 版权所有,侵权必究 4、已知表 student,字段如下: ID course1 course2 course3 1 60 90 70 2 80 70 90 3 30 80 60 4 60 90 80 取出 course1,course2,course3 三门成绩均超过 60 分的记录,可以使用如下查 询语句( ) A. select * from student where course1+course2+course360 B. select * from student where course1 and course2 and course360 C. select * from student where max(course1,courser2,course3)60 D. select * from student where course160 and course260 and course360 答案:D 分析:where 后不可以跟如 max,min,sum 之类的聚合函数。 5、分析师小 A 想要在数据表中查询名称里包含“新款”的产品。那么在进行查询 时,可以选择以下哪种方式用来进行模糊匹配( ) A. like B. C. distinct D. between 答案:A 分析: 可以通过使用 like%字符串%的形式来进行模糊匹配, 寻找包含字符串取 值的所有记录。 6、对 student1 和 student2 两张表进行 inner join 连接后,形成的新表中( ) A. 一定包含 student1 中的所有行,不一定包含 student2 中的所有行 B. 不一定包含 student1 中的所有行,一定包含 student2 中的所有行 CDA LEVEL I 业务数据分析师模拟题 第 3 页,共 27 页 版权所有,侵权必究 C. 一定包含 student1 中的所有行,一定包含 student2 中的所有行 D. 不一定包含 student1 中的所有行,不一定包含 student2 中的所有行 答案:D 分析:inner join 连接,又叫做内连接,结果为两张表的共同信息。 7、希望将不同数据表中的数据进行关联的时候,我们可以采用表连接。以下不 是 sql 表连接方式的一个是( ) A. right join B. left join C. union D. all join 答案:D 分析:连接后保留两张表全部信息应使用 full join。 8、以下哪个数据库可以使用 row number over partition by 函数( ) A. MySql B. SQL Server C. Oracle D. SAS 答案:C 分析:Oracle 包含了非常多的高级函数,row number over partition by 就是其中之 一。这个函数在 Hive 和 Impala 上也可以使用。 9、主成分分析算法认为数据的信息是包含在( )中。 A. 方差 B. 均值 C. 误差 D. 极值 答案:A CDA LEVEL I 业务数据分析师模拟题 第 4 页,共 27 页 版权所有,侵权必究 分析:主成分分析算法认为,数据的信息是包含在其方差当中的。如果一个变量 方差很大,获得它的抽样值可以帮助我们消除很大一部分不确定性,因此它包含 的信息较多。 10、实际应用中,如果想要研究单个指标的方差对结果的影响,在做主成分分析 的时候应该选择使用( ) A. 协方差矩阵 B. 相关系数矩阵 C. 关联矩阵 D. 三者皆可 答案:A 分析:主成分分析时可以使用协方差矩阵或者相关系数矩阵。相关系数矩阵就是 随机变量标准化后的协方差矩阵。通过随机变量的标准化,相关系数矩阵剥离了 单个指标的方差,仅保留指标间的相关性。而协方差矩阵更适用于研究单个指标 的方法对结果的影响。 11、以下属于因子分析计算过程的步骤有( ) A. 估计因子载荷矩阵 B. 进行因子旋转 C. 估计公共因子(因子得分) D. 以上都是 答案:D 分析:因子分析的计算过程大致可分为三步:估计因子载荷矩阵,进行因子 旋转,估计公共因子(因子得分) 。 12、在因子分析中,为了帮助解释因子,我们可以使用( ) A. 因子得分 B. 因子负载 C. 因子旋转 CDA LEVEL I 业务数据分析师模拟题 第 5 页,共 27 页 版权所有,侵权必究 D. 主成分分析 答案:C 分析:在进行因子分析时,我们可以通过因子旋转来使得最终得到的因子更具有 解释性。 13、层次聚类中,聚类的变量类型是( ) A. 连续变量 B. 分类变量 C. 两者都可以 D. 不确定 答案:C 分析:层次聚类的变量可以是连续变量,也可以是分类变量。 14、以下关于层次聚类的描述中,错误的是( ) A. 层次聚类也叫作系统聚类 B. 层次聚类法通常分为自底向上和自顶向下 C. 层次聚类的过程非常清楚,会形成类似树状的聚类图谱,便于理解和检查 D. 层次聚类适用于数据量非常大或者变量非常多的项目 答案:D 分析:层次聚类由于需要反复计算距离,限制了层次聚类的速度。因此不适用于 数据量非常大或者变量非常多的项目。 15、以下哪个聚类方法又叫快速聚类法( ) A. K-means 聚类法 B. 层次聚类法 C. 系统聚类法 D. 两步聚类法 答案:A 分析:K-means 聚类法计算量非常小,因此又得名快速聚类法。 CDA LEVEL I 业务数据分析师模拟题 第 6 页,共 27 页 版权所有,侵权必究 16、以下不属于对应分析的优点的选项有( ) A. 结果直观 B. 图形化 C. 没有复杂的中间过程 D. 信息保留完整 答案:D 分析:在进行对应分析时,由于进行了降维展示,因此原来的信息会受到一定程 度的损失。 17、在使用对应分析方法时, ( )会帮助提升结果的有效性 A. 采用卡方检验作为预分析 B. 精简变量 C. 异常值处理 D. 以上都是 答案:D 分析:对应分析作为一种描述性的方法,观察到的变量间联系并没有经过验证, 因此得出结论时要万分小心。比如可以采用卡方检验等方法作为预分析,或者精 简变量。即使在图形中观察到结论,也需要和原始数据反复观察确认,避免错误 判断。另外,对应分析的结果也会受到异常值的影响。因此前期的数据清洗也非 常重要。 18、使用余弦相似度时,结果等于 1 表示两个向量( ) A. 完全相同 B. 完全相反 C. 完全相关 D. 不确定 答案:A 分析:余弦相似度表示 a、b 两个向量之间夹角的余弦值。等于 1 时,表明两个 向量方向完全相同,越接近 1,表明两个向量越相似。 CDA LEVEL I 业务数据分析师模拟题 第 7 页,共 27 页 版权所有,侵权必究 19、对于一个列联表来说,多维尺度分析关注的是( ) A. 行变量和列变量两者的相关性 B. 变量之间的相关关系 C. 行变量之间的相似性 D. 维度的含义 答案:C 分析:主成分分析关注变量之间的相关关系。因子分析关注维度的含义。对应分 析关注行变量和列变量两者的相关性。 20、 分析师小 A 想要对多元线性回归 y=b0+b1x1+b2x2+bnxn+ 进行线性关系 检验时,他设定的原假设可以是( ) A. b0=b1=bn=0 B. b1=bn=0 C. b0,b1,bn 中存在任意一个不为 0 D. b1,bn 中存在任意一个不为 0 答案:B 分析:与一元线性回归不同在于,多元线性回归的原假设为所有因变量前的参数 同时为 0。 21、如果多元线性回归模型中残差不等于 0,而是一个常数,那么( ) A. 这个常数应该包含在常数项 B. 应该去除常数项 C. 应该去除残差项 D. 模型有效 答案:A 分析:如果残差的期望不等于 0,而等于其他的某个常数,那么这个常数就应该 出现在多元线性回归的常数项内。 22、分析师小 A 在对他的模型进行评估时,更倾向选用调整 R作为指标。因为 CDA LEVEL I 业务数据分析师模拟题 第 8 页,共 27 页 版权所有,侵权必究 相比较 R,调整 R对拟合度的估计更加( ) A. 高估 B. 低估 C. 一样 D. 不确定 答案:B 分析:调整 R能够有效的改进这种对于拟合度的高估,如果在模型中存在不重 要的变量,那么调整 R将会降低。 23、存在什么情况时,Wald 检验不再有效( ) A. 变量过多 B. 共线性 C. 异方差 D. 过拟合 答案:B 分析:当变量存在共线性时,Wald 检验结果不可靠。 24、逻辑回归属于( ) A. 无监督学习 B. 有监督学习 C. 半监督学习 D. 非监督学习 答案:B 分析:逻辑回归是有监督学习的算法。 25、逻辑回归模型中计算得到的发生概率 p,一般作为( ) A. 绝对概率 B. 相对概率 C. 绝对概率的自然对数 CDA LEVEL I 业务数据分析师模拟题 第 9 页,共 27 页 版权所有,侵权必究 D. 相对概率的自然对数 答案:B 分析:p 仅是相对的可能性,而不是绝对的发生概率。 26、偏自相关函数 ACF 在 n 阶之后迅速趋近于零,我们称 ACF 具有 n 阶( ) A. 长尾性 B. 短尾性 C. 截尾性 D. 拖尾性 答案:C 分析:如果偏自相关函数 ACF 在 n 阶之后迅速趋近于零,我们称 ACF 具有 n 阶 截尾性。 27、某电手机池生产商对电池的生产工艺进行了改进,并对外宣称改进后的电池 能够显著的提高手机待机时间, 为了检验该改进工艺是否有效, 你的建议是 ( ) 。 A. 使用相关系数分析方法分析工艺改进前后的相关性。 B. 使用线性回归,检验工艺改进对待机时间的影响。 C. 使用 t 检验分析工艺改进前后的待机时间是否有显著差异。 D. 使用卡方的独立性检验查看工艺改进与待机时间是否相关。 答案:C. 分析:本题需要检验工艺对待机时间的影响,其本质是分析工艺改进前后的待机 时间均值是否有显著差异或显著提高,因此用 t 检验。 28.下面的数据是一家企业科研投入与专利产出的相关性描述,根据表格信息, 下列选项中正确的是( ) 。 专利产出 科研投入 皮尔逊相关系数 0.03 显著性 0.76 CDA LEVEL I 业务数据分析师模拟题 第 10 页,共 27 页 版权所有,侵权必究 A. 专利产出与科研投入高度线性相关 B. 专利产出与科研投入相关性不显著 C. 专利产出与科研投入存在线性相关性,但是相关性较弱 D. 加大科研投入就能够提高专利的产出 答案:B. 分析:相关性是只有 0.03,且其 P 值很大,所以是不显著的。 29、下列关于数据挖掘说法正确的是( ) 。 A. 数据挖掘更加注重预测 B. 数据挖掘在方法论上与统计模型没有区别 C. 数据挖掘更加注重对于前期各种假设的检验 D. 数据挖掘不属于数据分析范畴 答案:A 分析:数据挖掘偏重预测,统计模型偏重关系发现。 30、关于为什么要计算均值估计的置信区间说法正确的是( ) A. 用于判断总体有多大的百分比的个体,其数值等于均值的点估计 B. 用以决定随机抽样的类型 C. 用以评价随机抽样的有效性 D. 用以评价点估计的可靠性 答案:D 分析:区间估计的核心作用。 31、下列有关数据分析说法正确的是( ) 。 A. 数据分析规定其操作流程分为 5 步 B. SEMMA 是数据挖掘项目方法论的名称 C. 数据分析只是针对大数据情形,小数据是没有意义的 D. 数据分析中模型的精度是第一位的 答案:B CDA LEVEL I 业务数据分析师模拟题 第 11 页,共 27 页 版权所有,侵权必究 分析:A 项,没有明确规定的步骤数量;C 项两类数据各有用处;D 项,数据分 析需要权衡成本、精度、效率等。 32、设某工厂甲、乙、丙三个车间生产同一产品,产量依次占全厂的 45%,35%, 20%。且各车间的次品率依次为 4%,2%,5%。现从待出厂的产品中抽取 1 个产 品,该产品是次品的概率是( ) A. 0.035 B. 0.04 C. 0.045 D. 0.05 答案:A 分析:设 1 A, 2 A, 3 A分别表示甲、乙、丙三厂生产;A表示该产品是次品的概 率 122331 AAAAAAP(A)=P() P(A|)+P() P(A|)+P() P(A|) 454352205 0.035 100100100100100100 =+= 33、下图横轴为 X,纵轴为 Y,则关于下图描述错误的是( ) A. X 和 Y 之间很大可能是非线性关系 B. 这些散点中存在异常点 C. X 和 Y 之间是正相关的 D. 分析两者之间的关系可用逻辑回归模型 CDA LEVEL I 业务数据分析师模拟题 第 12 页,共 27 页 版权所有,侵权必究 答案:D 分析:都是数值变量,不能用逻辑回归。 34、关于下表阐述错误的是( ) 方差分析 差异源 SS df MS F P-value F crit 组间 0.245 1 0.245 0.12 0.729793 3.940163 组内 196 96 2.041667 总计 196.245 97 A. 这是单因素方差分析的输出结果 B. 由于组内的 SS 显著的大于组间 SS,因此不同的分类对于数值变量是有显著 影响的 C. 表中 F F crit, 与 P-value 大于显著性水平是等价的 D. 表内组间均方差没有显著大于组内均方差 答案:B 分析:判别分类对于数值变量是否有显著影响,可以用 MS,F,或者 P-value。 35、下关于一元线性回归分析中(y = b0+b1x+)的假定,描述错误的是( ) 。 A. 因变量 y 与自变量 x 之间具有线性关系 B. 误差项 是一个期望值为 0 的随机变量 C. 误差项 的方差 2 都相同 D. 因变量来自于正态总体 答案:D 分析:没有这个假定 36、当一元线性回归模型的残差出现异方差时,我们可以尝试哪项工作( ) A. 对自变量做线性变换 B. 对因变量做线性变换 C. 对自变量做非线性变换 CDA LEVEL I 业务数据分析师模拟题 第 13 页,共 27 页 版权所有,侵权必究 D. 自变量做归一化处理 答案:C 分析:其余三个都是线性处理,不改变异方差 37、 某班级同学在一个月后的期末考试成绩前 50%将参加某项学科竞赛, 现组织 同学进行测验,小郑考了 84 分,他希望评估自己是否有希望参加学科竞赛,因 此将他的成绩与班级成绩( )进行比较是最合理的。 A. 平均数 B. 中位数 C. 众数 D. 四分位差 答案:B 分析:中位数是指中间位置的数,即 50%。 38、在方差分析中,我们如下输出 SUMMARY 组 观测数 求和 平均 方差 列 1 33 1089 33 374 列 2 33 1155 35 374 差异来源 离差平方和 自由度 平均平方和 F 组间 66 组内 23936 ? 总计 24002 上表有?号的空格数值是多少( ) A.32 B. 33 C.64 D.66 答案:C 分析:组内自由度等于观察数 66-组数 2=64。 CDA LEVEL I 业务数据分析师模拟题 第 14 页,共 27 页 版权所有,侵权必究 39、下面哪种数据属于面板数据( ) 。 A. 2010-2018 年某网站年访问量数据 B. 2010-2017 年全国各乡镇绿化面积年度数据 C. 2016 年五一期间北京市地铁旅客接待总数 D. 2010-2017 年某航空公司接待乘客人数的月度数据 答案:B 分析:面板数据,是指在时间序列上取多个截面。 40、检验单总体方差的过程中,检验统计量服从( ) 。 A. 标准正态分布 B. 正态分布 C. 卡方分布 D. t 分布 答案:C. 分析:见单总体方差检验概念 41、一个电瓶车制造商声称,其生产的电瓶车正常行驶条件下大于40公里,对一 个由20辆电瓶车组成的随机样本作了试验,测得平均值为50公里,标准差为10 公里。已知电瓶车的行驶距离服从正态分布,我们希望检验该制造商的产品同他 所说的标准相符?我们应该选择( ) A. 单侧 t 检验 B. 双侧 t 检验 C. 单侧 F 检验 D. 双侧 F 检验 答案:A. 分析:小样本均值检验用 t 检验。 42、按组织市场调查的时间层次确定,调查可以分为( ) 。 A. 经常性市场调查(不定期) CDA LEVEL I 业务数据分析师模拟题 第 15 页,共 27 页 版权所有,侵权必究 B. 定期市场调查 C. 临时性市场调查(一次性) D. 以上都是 答案:D 分析:由题意 43、 (知识点2)盒须图(箱线图)中,Q1到其最近的内限距离为( ) 。 A.IQR B.1.5IQR C.0.5 D.0.75 答案:B 分析:根据定义。 44、如果一组数据不是对称分布,按照切比雪夫不等式,至少约有( )的观测 值落在距均值4个标准差的区间范围内。 A. 75% B. 89% C. 94% D. 98% 答案:C 分析:至少有75%的数据落在平均数加减2个标准差的范围之内 至少有89%的数据落在平均数加减3个标准差的范围之内 至少有 94%的数据落在平均数加减 4 个标准差的范围之内 45、假设一组数据的取值从923 到 899。数据中最大绝对值为 923。因此,我们 用 1000 除每个值。因此,923 被规范化为0.923,而 899 被规范化为 0.899, 这种数据规范化被称为( ) 。 A. 小数定标规范化 CDA LEVEL I 业务数据分析师模拟题 第 16 页,共 27 页 版权所有,侵权必究 B. z-score 规范化 C. 对数规范化 D. 归一化规范化 答案:A 分析:根据定义。 46、在处理后台数据时,有一列客户输入变量名为“您的爱好”,共有 5 个不同的 选项, 但是有 70%左右的客户这一项的数据没有填写, 那么那一项的处理方式更 合理( )? A 建模前先将这个变量删除 B 将这一项没有填写的客户归为第 6 类 C 用前 5 项的众数替换缺失值 D 提出这部分未填写爱好的客户信息 答案:B 解析:建模前尽可能保留原始信息。 47、在估计总体比例时, 若其他条件不变, 如果为了节约成本, 减少 50%的样本, 那么误差将大约是原来的( ) A. 1.4 倍 B. 1.5 倍 C. 2 倍 D. 4 倍 答案:D 分析: 2 (1) Ez n a pp- = 48、一个多分类的变量“班级类型”,其水平有“A”,“B”,“C”, “D”, 将其转为哑变量后,有( )个对应的分类变量 A. 1 B. 2 CDA LEVEL I 业务数据分析师模拟题 第 17 页,共 27 页 版权所有,侵权必究 C. 3 D. 4 答案:C 分析:4 分类的变量,转化为哑变量后,少一个,只需要 3 个就可以了。 49、下列哪一项方法对于发现异常值没有帮助( ) A. 均值加减标准差法 B. 百分分数法 C. 聚类法 D. 梯度下降法 答案:D 分析:D 是加速收敛的方法 50、“将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机 地抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位”, 这种抽样方法称为( ) A. 多阶段抽样(systematic sampling) B. 分层随机抽样(stratified random sampling) C. 集群抽样(cluster sampling) D. 系统抽样(systematic sampling) 答案:D 分析:根据定义。 51、下面哪种方法更适合于对稀少群体和特定群体研究( ) A. 滚雪球抽样 B. 配额抽样 C. 判断抽样 D. 多阶段抽样 答案:A CDA LEVEL I 业务数据分析师模拟题 第 18 页,共 27 页 版权所有,侵权必究 分析:这是滚雪球抽样的优势。 52、下面不属于面访式问卷调查优势的是( ) A. 可提高调查的回答率 B. 可提高调查数据的质量 C. 能调节数据搜集所花费的时间 D. 适合于样本单位十分分散的情况 答案:D 分析:D 是电话调查的优势。 53、字段“贷款人姓名”,下列方法最适宜的是( ) A. 需要编码为数值变量 B. 需要编码为字符变量 C. 需要编码为二分变量 D. 需要编码为分类变量 答案:B 解析:字符型变量适合姓名。 54、一组数据为 1、3、5、7、9,它们的样本方差为( ) A. 8 B. 10 C. 12 D. 14 答案:B 分析:公式 2 2 1 () 1 n i i xx S n = - = - 55、有一组数据的偏态系数为-4.23,那么下面表述正确的是( ) CDA LEVEL I 业务数据分析师模拟题 第 19 页,共 27 页 版权所有,侵权必究 A. 这是一组极度左偏的数据 B. 偏态系数在 0 附近,所以只是轻微的左偏 C. 偏态系数在 0 附近,所以只是轻微的右偏 D. 这是一组极度右偏的数据 答案:A 分析:超过正负 3,就是极度偏态了。 56、一家电商抽取了 36 个消费者年龄作为随机样本,得到样本均值为 40,样本 标准差为 6。该电商客户年龄 90%的置信区间为( ) z0.05=1.65 A. (34,46) B. (38.35,41.65) C. (39.1,40.9) D. (39.15,40.95) 答案:B 分析: () 2 6 401.65 36 401.65 38.35,41.65 s xz n a = = = 57、现在通过参数估计得到一个一元线性回归模型为 y=3x+4。那么在回归系数 检验中下列说法错误的是( ) A. 检验统计量是 t 统计量 B. 原假设是 1 3b= C. 如果拒绝原假设,就认为自变量与因变量存在显著的线性关系 D. 判断是否拒绝原假设,可以用 P 值与显著性水平进行比较 答案:B 分析:原假设是 1 0b= CDA LEVEL I 业务数据分析师模拟题 第 20 页,共 27 页 版权所有,侵权必究 58、数据分析 8 个层次中的最高层次是( ) A. 预报 B. 优化 C. 报警 D. 统计分析 答案:B 分析:参考解析中 8 个层次的介绍。 59、某数据分析员希望展示某网站 10 年来月度访问量数据,采用以下哪个图形 比较合适? A. 散点图 B. 饼图 C. 盒须图 D. 折线图 答案:D 分析:折线图更容易看出时间上的趋势 60、下列情境中,数据分析师不正确的做法是( ) A. 客户行为分析中决策数据化均需谨慎 B. 数据挖掘分析中势必强调模型的精确性,模型都不精确谈何决策支持 C. 数据分析师需要具备建构模型和数据展示的能力 D. 业务问题的洞察与模型的理解同样重要 答案:B 分析:本题 A 和 B 产生疑惑,A 项决策数据化均需谨慎不仅仅在客户行为分析 中,在其他数据分析中也是同样,B 项“数据挖掘分析中,模型都不精确谈何决 策支持”模型的精确性是一个很模糊的字眼,况且使用“势必”显然不合适。在 不同行业中,对精确性的要求不同,此外如果模型精确度不够,但却能发现有用 的商业知识也是可以接受。 二、多选题二、多选题(20道道,2分分/道道) CDA LEVEL I 业务数据分析师模拟题 第 21 页,共 27 页 版权所有,侵权必究 1、INT 型数据是实际业务中经常需要用到的一类数据。以下可以对 INT 型数据 使用的函数包括( ) 。 A. round B. max C. abs D. now 答案:ABC 分析:now()表示返回当前的日期和时间。 2.student 表中记录了同学每一次考试的成绩。那么以下哪组 sql 代码取数的结果 中,id 字段取值不会出现重复( ) A. select id, max(score) from student group by id B. select distinct id from student C. select id from student D. select id from student where id is not null 答案:AB 分析:选项 A 代码以 id 的值作为分组依据,统计每组 score 的最大值,因此最 终取数结果中 id 的取值不会重复。distinct 是去重函数。 3、实际业务中,数据常常来源于不同的数据表。以下连接方式中会包括两个表 的所有信息的有( ) A. inner join B. left join C. full join D. union all 答案:CD 分析:full join 为横向连接,保留两张表的全部信息。union all 为纵向连接,且 不去除重复记录。 CDA LEVEL I 业务数据分析师模拟题 第 22 页,共 27 页 版权所有,侵权必究 4、以下关于主成分分析的描述正确的有( ) A. 主成分分析选取能够最大化解释数据变异的成分 B. 在主成分分析中,对应最大特征值的特征向量,其方向正是协方差矩阵变异 最大的方向 C. 主成分分析算法中第一个主成分对应的l不应超过 1 D. 我们一般使得保留的前 k 个主成分累计能够解释数据 80%以上的变异 答案:ABD 分析: 在主成分分析算法中, 我们一般要求最后一个主成分对应的l不应小于 1。 5、 为了分析客户的类型, 分析师小 A 进行了一次聚类分析。 在评估聚类结果时, ( ) A. 组间平方和 BSS 越大,聚类效果越好 B. 组间平方和 BSS 越小,聚类效果越好 C. 组内平方和 WSS 越大,聚类效果越好 D. 组内平方和 WSS 越小,聚类效果越好 答案:AD 分析:我们一般可以近似地用组间平方和 BSS(Between Sum of Squares)和组内平 方和 WSS(Within Sum of Squares)来作为评价指标判断聚类的类别数是否合适。 BSS 越大,WSS 越小,聚类的效果就越好。 6、从方向上,逐步回归可以分为以下几类( ) A. 向前选择法 B. 向后删除法 C. 双向法 D. 完全法 答案:ABC 分析:从方向上,逐步回归可以分为三类,分别是向前选择法、向后删除法和双 向法。 CDA LEVEL I 业务数据分析师模拟题 第 23 页,共 27 页 版权所有,侵权必究 7、如果因变量和自变量之间的关系是非线性的,可以考虑使用( )变换后,再 进行线性回归 A. 因变量取对数 B. 自变量乘以 2 C. 自变量平方 D. 因变量乘以 2 答案:AC 分析:BD 项都是线性变换,变换后的因变量和自变量仍然不存在线性关系。 8、ABC 公司的数据团队为了预测销售量,进行了一次多元线性回归,模型结果 无效,可能的原因有( ) A. 多重共线性 B. 条件异方差 C. 非条件异方差 D. 序列相关 答案:ABD 分析:非条件异方差一般不会对回归结果产生影响。 9、以下关于异方差情况的说明,正确的有( ) A. 条件异方差指的是残差的方差随自变量变化而变化 B. 条件异方差指的是残差的方差不随自变量变化而变化 C. 非条件异方差指的是残差的方差随自变量变化而变化 D. 非条件异方差指的是残差的方差不随自变量变化而变化 答案:AD 分析:条件异方差指的是残差的方差随自变量变化而变化,非条件异方差指的是 残差的方差不随自变量变化而变化。 10、ROC 曲线是基于( )来判断逻辑回归模型的效果 A. 灵敏度 CD

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论