南开大学22年春学期《数据分析》在线作业-00003_第1页
南开大学22年春学期《数据分析》在线作业-00003_第2页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、-本页为预览页PAGE12-本页为预览页-本页为预览页22春学期(高起本1709-1803、全层次1809-2103)数据分析在线作业-00003第1题. 决策树中的分支表示()选项A:特征选项B:类选项C:属性选项D:值域输出参考答案:D第2题. 闵式距离参数是()时代表曼哈顿距离选项A:0选项B:1选项C:2选项D:无穷参考答案:B第3题. 决策树中的叶结点表示()选项A:特征选项B:类选项C:属性选项D:值域输出参考答案:B第4题. 皮尔森相关系数的变化分为是()选项A:0, 1选项B:-1, 1选项C:-1, 0选项D:0.5, 1参考答案:B第5题. 经典的Apriori算法是逐层扫

2、描的,也就是说它是()优先的选项A:宽度选项B:深度参考答案:A第6题. 数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段( )。选项A:运营式系统阶段选项B:用户原创内容阶段选项C:感知式系统阶段参考答案:B第7题. 特征空间中两个实例点的()是两个实例点相似程度的反映。选项A:关联性选项B:向量值选项C:距离参考答案:C第8题. 在文本信息处理系统中,所处理的原始数据是()选项A:结构化的自然语言文本选项B:非结构化的自然语言文本选项C:非结构化的编码选项D:结构化的编码参考答案:B第9题. 逻辑斯谛分布的分布函数范围在()选项A:(-,+)选项B:(0,1)选项C:(-1/2,1

3、/2)选项D:(-1,1)参考答案:B第10题. 向量空间模型中,将单词在文本中出现的数据用一个()表示选项A:单词-文本矩阵选项B:单词-向量矩阵选项C:距离矩阵选项D:权重矩阵参考答案:A第11题. 类的R型聚类是指()选项A:对样本个体进行聚类选项B:对指标变量进行聚类。参考答案:B第12题. pageRank中,将网页链接转化为()“投票”。选项A:搜索量选项B:评价选项C:访问量选项D:重要度参考答案:D第13题. 在网页中增加大量与主题无关的热点作弊词项,并将其文字颜色设置成与背景颜色一致,不可见;提交热点查询给搜索引擎,将排名第一或前列的页面内容复制到其网页中,并隐藏。这样的欺骗

4、搜索引擎技术称为()选项A:词项作弊选项B:链接作弊参考答案:A第14题. 评估模型的分类预测准确率,使用()进行评估;选项A:训练数据集选项B:验证数据集选项C:测试数据集选项D:未知数据参考答案:C第15题. 大数据分析中,面向有用户参与分析决策的分析任务,不要求实时响应,但是也存在响应时间约束,称为()选项A:实时分析选项B:弱实时分析选项C:非实时分析参考答案:B第16题. kNN中的k值一般用()的方法来选择最优值。选项A:交叉验证选项B:逐次检验选项C:随机测试选项D:反馈验证参考答案:A第17题. 任何故意提高网页在搜索引擎结果中的位置,使其与网页的()不相符的行为,称为Web作

5、弊选项A:访问量选项B:实际价值选项C:搜索量选项D:用户数量参考答案:B第18题. 非频繁模式( )选项A:其置信度小于阈值选项B:令人不感兴趣选项C:包含负模式和负相关模式选项D:对异常数据项敏感参考答案:D第19题. 聚类属于()选项A:有监督学习选项B:无监督学习选项C:强化学习选项D:对抗学习参考答案:B第20题. 话题向量空间模型中,用()的一个向量表示该文本。选项A:特征词选项B:话题空间选项C:语义空间选项D:词向量空间参考答案:B第21题. 基于聚类结构的分类有()选项A:Q型聚类选项B:凝聚方式选项C:R型聚类选项D:分解方式参考答案:A,C第22题. 类的特征可以通过不同

6、角度来刻画,包括()选项A:类的均值选项B:类的直径选项C:类的样本散布矩阵选项D:样本协方差矩阵参考答案:A,B,C,D第23题. 随机游走的马尔可夫链中,互联网中的每一个网页就是马尔可夫链中的一个();该马尔可夫链平稳时每个状态停留的概率即反映了相应网页的()。选项A:序列选项B:隐变量选项C:状态选项D:重要程度参考答案:C,D第24题. 聚合聚类的三个要素是()选项A:相似度选项B:置信度选项C:合并规则选项D:停止条件参考答案:A,C,D第25题. 统计学习方法的组成选项A:监督学习选项B:无监督学习选项C:强化学习参考答案:A,B,C第26题. 决策树中的内部结点表示()选项A:特

7、征选项B:类选项C:属性选项D:值域输出参考答案:A,C第27题. 大数据四大特征包括( )选项A:数据量大选项B:数据类型繁多选项C:数据价值密度相对较低选项D:处理速度快,时效性要求高参考答案:A,B,C,D第28题. 层次方法中,自底向上的方法是哪种()选项A:凝聚法选项B:分裂法选项C:K-均值算法选项D:K-中心点算法参考答案:A,B第29题. 下列属于朴素贝叶斯缺点的是()选项A:分类效果不稳定选项B:不适合增量式训练选项C:先验模型可能导致结果不佳选项D:对缺失数据不太敏感参考答案:C,D第30题. 关联规则挖掘的算法主要有()和()选项A:Apriori选项B:KNN选项C:贝

8、叶斯算法选项D:FP-Growth参考答案:A,D第31题. 内积相似度可以准确表达两个文本的语义相似度。()选项A:对选项B:错参考答案:B第32题. 城市公共交通规划、教育资源配置、医疗资源配置、商业中心建设、房地产规划、产业规划、城市建设等都可以借助于大数据技术进行良好的规划和动态调整。选项A:对选项B:错参考答案:A第33题. 一个样本在特征空间的k个最相邻样本中的均属于某一个类别选项A:对选项B:错参考答案:B第34题. 单词-文本矩阵是一个稀疏矩阵。()选项A:对选项B:错参考答案:A第35题. 大数据分析模型讨论的问题是从大数据中发现什么选项A:对选项B:错参考答案:A第36题.

9、 k均值聚类归结为从样本到类的函数的选择问题。()选项A:对选项B:错参考答案:A第37题. 通过分析已知训练样本类别的数据集属性,通过训练建立相应分类模型,是监督学习。()选项A:对选项B:错参考答案:A第38题. IDC给出的大数据定义是大数据(Big Data)是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。选项A:对选项B:错参考答案:B第39题. 网络数据采集是利用互联网搜索引擎技术对数据进行针对性、行业性、精准性的抓取,并按照一定规则和筛选标准将数据进行归类,形成数据库文件的一个过程。选项A:对选项B:错参考答案:A第40题. G

10、irvan-Newman算法中用到了DFS。()选项A:对选项B:错参考答案:B第41题. 潜在语义分析主要解决单词向量空间模型不能准确表示语义的问题。()选项A:对选项B:错参考答案:A第42题. 大数据可视化的意义在于以简单、友好、易用的图形化、智能化的形式将数据呈现给用户,供其分析使用选项A:对选项B:错参考答案:A第43题. 概率潜在语义分析就是发现由隐变量表示的话题。()选项A:对选项B:错参考答案:A第44题. 未来考验零售企业的是如何挖掘消费者需求选项A:对选项B:错参考答案:A第45题. k均值聚类是基于样本集合划分的聚类算法.()选项A:对选项B:错参考答案:A第46题. AGNES算法中,要使用相似矩阵查找最相似的两个簇。()选项A:对选项B:错参考答案:A第47题. PageRank可以定义在任何有向图上

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论