




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
【MOOC】走进数据科学-江西财经大学中国大学慕课MOOC答案大数据溯源随堂测验1、【判断题】大数据就是大量数字的集合。本题答案:【错误】2、【判断题】大数据价值的产生和实现,需要技术的持续积累,才能由量变到质变。本题答案:【正确】3、【判断题】任何事物的属性和规律,只要通过适当编码,均可以通过统一的数字信号表达出来。本题答案:【正确】4、【判断题】大数据对未来的发展有着至关重要的作用。本题答案:【正确】5、【判断题】大数据技术是包括硬件、数据库、操作系统、Hadoop等一系列技术的综合应用。本题答案:【正确】大数据特征随堂测验1、【判断题】大数据强调地是数据量,主要突出数据的海量性。本题答案:【错误】2、【判断题】从技术上看,信息传感设备的出现、快速发展的物联网数据及存储技术的进步,推动了信息量几何增长。本题答案:【正确】3、【判断题】从需求上看,数据类型没有改变,主要是由于数据搜集的基数逐渐变大导致信息量的增大。本题答案:【错误】4、【判断题】大数据的数据类型多,早已经能不是单一的结构化数据占比大。本题答案:【正确】5、【判断题】由于大数据的数据量大、数据类型多等特征,导致价值隐藏在海量的数据中,使得大数据往往表现为“数据价值高,价值密度低”的情况。本题答案:【正确】大数据现象随堂测验1、【判断题】大数据在各行各业都有较为广泛的应用。本题答案:【正确】2、【判断题】美国是大数据的策源地及创新引导者,大数据的发展一直走在全球前列。如今,大数据技术应成为了美国各个领域的变革力量。本题答案:【正确】3、【判断题】企业发展也离不开大数据的支持,但每个独立的公司都会根据自身的成长基因对大数据给予不同的理解和运用。本题答案:【正确】4、【判断题】由于大数据的广泛应用,国内出现了“数据科学”概念,数据处理技术将成为一个与计算科学并列的新的学科领域。本题答案:【正确】5、【判断题】大数据计算的高度复杂性是由于数据覆盖面广。本题答案:【错误】大数据产业随堂测验1、【判断题】大数据给人类带来前所未有的机遇,很多创业者开创了具有大数据标签的公司,形成大数据产业。本题答案:【正确】2、【判断题】伴随着大数据时代的到来,大数据涉及的数据采集、数据分析、数据应用等环节都是大数据产业的一部分。本题答案:【正确】3、【判断题】大数据产业中的基础支撑产业是指与政务、工业、农业、金融、交通和电信等行业紧密相关的应用软件和整体解决方案。本题答案:【错误】4、【判断题】在大数据被多方面认同的情况下,不同期望、不同利益主体对于大数据所带来的机遇和挑战应对方式截然不同。因此,分析大数据产业的生存环境对于大数据产业的发展尤其重要。本题答案:【正确】5、【判断题】云计算等存储手段的发展及推进为大数据应用的部署与运维提供了事实的基础设施保障。本题答案:【正确】大数据挑战随堂测验1、【判断题】数据收集手段、数据收集碎片化、数据的可信性造成了大数据收集过程中的挑战。本题答案:【正确】2、【判断题】现如今,很多企业业务部门不了解大数据,不了解大数据的应用场景和价值,制约了大数据的发展。本题答案:【正确】3、【判断题】大数据处理和分析能力远远不及理想中水平,数据量的快速增长,对存储技术提出了挑战。本题答案:【正确】4、【判断题】数据存储虽然技术还不能支撑大数据的发展,但是安全性已经达到标准,目前阶段不必在考虑。本题答案:【错误】5、【判断题】大数据时代不仅对存储技术提出了挑战,它还需要高速信息传输能力的支持,以及低密度有价值数据的快速分析和处理能力。本题答案:【正确】单元作业单元测验1、【单选题】海量数据从原始数据源到产生价值,期间会经过存储、()、挖掘、分析等多个环节。本题答案:【清洗】2、【单选题】由于大数据存在数据量大、数据类型多、数据处理快三个特点,导致数据价值隐藏在海量的数据中,使得大数据往往表现为()。本题答案:【数据价值密度低】3、【单选题】2012年美国总统大选时,纳特西尔弗(NateSilver)利用大数据成功预测出投票结果,让众多企业看到大数据应用的()。本题答案:【真实性】4、【单选题】学界大数据中,对大数据感知与表示的研究目的是()。本题答案:【如何高效的采集和整合不同的数据源的数据】5、【单选题】随着大数据产业链的不断成熟和明晰,大数据生态越来越稳定,数据的产生及数据的应用都有一套完整的技术作为支撑,说明了()对大数据产业环境的影响。本题答案:【产业化分工】6、【单选题】()的理念促进了大数据产业的发展,在大数据项目研发和试错中,通过跨界合作获得资源互补是大数据项目进展过程中的主旋律,进一步加强了多边的合作,促进了集体智慧的体现。本题答案:【多边合作】7、【单选题】由于(),很多企业业务部门不了解大数据,也不了解大数据的应用场景和价值,导致很多数据没有应用场景,很多有价值历史数据被删除。本题答案:【需求不清晰】8、【多选题】大数据的特征主要有()方面特征。本题答案:【数据量大#数据类型多#数据处理快#数据价值密度低】9、【多选题】基于现有数据类型,可以对其划分为()。本题答案:【结构化数据#半结构化数据#非结构化数据】10、【多选题】大数据产业链中共有()三种典型公司。本题答案:【基于数据(本身)的公司#基于技术(研发)的公司#基于思维(服务)的公司】11、【多选题】在学界大数据研究中,研究大数据的复杂性和计算模型包括()本题答案:【处理数据规模的巨大性#处理数据内容复杂性#处理数据计算高度复杂性】12、【多选题】大数据产业可以分为三种:本题答案:【融合应用产业#基础支撑产业】13、【多选题】机遇和挑战永远是并存的,在大数据时代到来的同时,大数据所面临的挑战也随之而来,大数据面临的技术层面的挑战可以分为()。本题答案:【数据收集#数据储存#数据处理#数据展示】14、【多选题】由于大数据的四个特点,给现如今数据存储带来很多的挑战,主要为()。本题答案:【数据库过小#数据多样性#反馈时间#数据运维】15、【多选题】大数据可视化如今仍然没有达到人们的要求,尽管计算机智能化有了很大进步,但目前还只能针对小规模、有结构或类结构的数据进行分析。大数据可视化仍然面临着()等挑战。本题答案:【视觉噪声#信息丢失#大型图像感知#高速图像变换】16、【判断题】数据科研的研究大致可以分为五类:大数据的复杂性和计算模型、大数据的感知与表示、大数据的内容建模与语义理解、大数据的存储与架构体系、其他相关基础研究支撑。本题答案:【正确】17、【判断题】学界对于大数据的存储与结构体系的研究目的是应对大数据在数据规模上的巨大性及数据内容的复杂性特点。本题答案:【正确】18、【判断题】大数据产业是指伴随着大数据时代的到来,大数据涉及的数据采集、数据分析、数据应用等环节都是大数据产业的一部分。本题答案:【正确】19、【判断题】大数据产业分类中的数据服务层是围绕各类应用和市场需求,提供辅助性的服务,包括数据交易、数据资产管理、数据采集加工分析、数据安全等。本题答案:【正确】20、【判断题】大数据现在被广泛地认可与期待,但是认可与期待能否持续下去仍然取决于大数据能否真正地落实并且创造价值。本题答案:【正确】21、【判断题】现如今大数据产业以及它所生存的环境已然较为健康,大数据产业有着较为稳定的发展,不会有什么较大的挑战。本题答案:【错误】22、【判断题】大数据收集的最大挑战是数据收集的碎片化。在很多企业中尤其是大型的企业,数据常常散落在不同部门,而且这些数据存在不同的数据仓库中,不同部门的数据技术也有可能不一样,这导致企业内部自己的数据都无法打通整合。本题答案:【正确】23、【判断题】数据存储的安全性在大数据时代下已经得到了稳妥的保护,个人一些知名网站密码等不会存在泄漏等问题。本题答案:【错误】随堂测验1、【判断题】大数据基础支撑技术主要分为四个层次,分别是治理层、数据层、统计层、模型层。本题答案:【正确】2、【判断题】数据层是大数据项目开展的第一部分,也是最基础的一个层次,只有严格把控数据的质量、数据的可访问性、数据的可用性等要求,才能进行有效的数据收集及处理分析。本题答案:【错误】3、【判断题】数据层是大数据项目开展的第二部分,也是最重要的一个层次。分为三个部分:一是数据采集,二是数据预处理,三是数据存储与管理。本题答案:【正确】4、【判断题】数据的存储与管理也是对数据进行处理过程中不可或缺的一部分,数据的存储与管理主要分为三种类型:离线存储、近线存储、实时存储。本题答案:【正确】5、【判断题】数据层及统计层是大数据项目开展的核心,对数据进行有效地分析及建模,才能够实现“数据—价值”转变,挖掘出背后的知识与规律。本题答案:【错误】随堂测验1、【判断题】在云计算的运用过程中,云计算可以划分为三个服务层。一是将软件作为服务(SaaS)、二是将平台作为服务(PaaS)、三是将基础设施作为服务(IaaS)。本题答案:【正确】2、【判断题】云计算的本质是一种基于互联网的应用模式,有效地嫁接了计算资源提供者与计算资源消费者(需求者)的双边关系,各取所需。本题答案:【正确】3、【判断题】在云计算的实现机制中,管理中间层(资源管理层)主要目的还是为了将资源最大化的共享,是将大量相同类型的资源构成同构或者接近同构的资源池。本题答案:【错误】4、【判断题】管理中间件层和资源池层是云计算技术的最关键部分,SOA构建层的功能更多依靠外部设施提供。本题答案:【正确】5、【判断题】云计算根据其服务对象和服务性质可分为公有云及私有云。本题答案:【错误】随堂测验1、【判断题】在数据大爆炸的互联网时代,不仅数据量呈现几何级数的增长,数据的类型也变得更加的复杂多样,大数据采集技术则变得尤为重要,它是大数据挖掘的基础。本题答案:【正确】2、【判断题】数据大概有两种来源:现实生活与网络。传感器和系统日志是从现实生活进行数据采集,Web爬虫是从网络进行数据采集。本题答案:【错误】3、【判断题】Web爬虫是一种自动下载网页的计算机程序和自动化脚本,通常从一个成为种子集开始运行,按照一定序列或者条件爬取页面信息,最终遍历整个Web网页。本题答案:【正确】4、【判断题】Web爬虫的流程—先发送请求,然后获得网页内容,然后对网页内容进行解析,得到一个比较方便查看的数据结果,最后爬取相关内容。本题答案:【正确】随堂测验1、【判断题】数据的收集是大数据的开始,但刚刚收集的数据有各种各样的缺陷,是无法直接进行分析的,我们需要对这些数据进行处理,为分析打下基础。本题答案:【正确】2、【判断题】数据处理大致分为三部分:导入数据、查看数据、数据清洗。其中,导入数据就是数据预处理部分。本题答案:【错误】3、【判断题】数据预处理主要包括数据的导入与数据的查看。数据的查看主要是查看元数据,元数据又称中介数据,为描述数据的数据,主要是描述数据属性的信息,包括存储位置、历史数据、字段解释等。本题答案:【正确】4、【判断题】在采集的数据中因为技术、现实等原因可能导致采集数据错误、不全,因此数据清洗是数据分析中不可或缺的环节。本题答案:【正确】5、【判断题】数据清洗大致分为六个步骤:分析数据、去除不必要数据,改变数据类型,处理缺失数据,处理内容错误,处理逻辑错误。本题答案:【错误】随堂测验1、【判断题】大数据时代,随着数据规模的急剧增长,数据类型的多样化,传统的关系型数据库无法满足半结构化和非结构化数据的存储需求。本题答案:【正确】2、【判断题】针对不同的数据结构我们有不同的存储方式,大致分为两大类,一个是分布式文件系统,一个是NoSQL数据库。本题答案:【正确】3、【判断题】Hadoop分布式文件系统特点之一就是可以有效防止硬件失效,对大数据存储而言,涉及到上百台的服务器,硬件异常时经常发生的事情,Hadoop分布式文件系统加入了有效的预防硬件异常措施,并且都能有自动恢复的能力。本题答案:【正确】4、【判断题】NoSQL数据库适用于数据类型比较简单、对数据库性能要求较高且不需要高度的数据一致性等场景。主要分为三大种类:键值存储数据库、列存储数据库、文档型数据库。本题答案:【错误】5、【判断题】键值存储数据库会使用一个特定的键和一个指针指向特定的数据的哈希表(根据关键码值(Keyvalue)而直接进行访问的数据结构)。特点是模型简单,易部署,但效率低。本题答案:【正确】随堂测验1、【判断题】数据库系统阶段是传统数据中最新的阶段,数据库系统也是现在传统数据常用的处理方式。在这个阶段中,数据的共享性高、冗余度小,且数据整体结构化,但是缺乏数据安全性、完整性、并发控制和恢复能力。本题答案:【错误】2、【判断题】传统数据库模型主要有关系数据模型、网状数据模型和层次模型。传统数据主要通过这三个模型进行表达和解释。本题答案:【正确】3、【判断题】关系数据模型是目前运用最多的数据模型,结构简单,并且存取路径对用户而言是完全隐蔽的,是程序和数据具有高度的独立性,其数据语言的非过程化程度较高。本题答案:【正确】4、【判断题】网状数据模型的结构简单、清晰、明朗,很容易看到各个实体之间的联系,但是修改数据时,具有较多严格的限制,例如删除父节点,那么其下的所有子节点都要同时删除。本题答案:【错误】随堂测验1、【判断题】大数据具有与传统数据不一样的特征,因此要让大数据被正确表达的前提是:它首先必须是能够被记录进计算机并被识别。本题答案:【正确】2、【判断题】采用合适的数据结构与算法能够高效快速地对海量数据进行表达和解释。本题答案:【正确】3、【判断题】布隆过滤器与Merkle哈希树只能使用在允许发生一定误判的场景,而在要求百分之百精确判断集合成员的场景不能使用。本题答案:【正确】4、【判断题】Merkle哈希树被广泛应用在分布式领域,主要用来在海量数据下快速定位少量变化的数据内容(变化原因可能是损毁、篡改或者正常变化等)。本题答案:【正确】5、【判断题】Cuckoo哈希的优良性质,尤其是高效查找效率,使得其可以应用在大规模存储系统设计中。本题答案:【正确】随堂测验1、【判断题】在分析的过程中你会发现所有分析其实是为了得到某种结论,没有结论的数字罗列并不是分析。本题答案:【正确】2、【判断题】在分析的过程中,数据是客观的,而人是主观的。对于同样的数据来说,不同的人可能会得到不同的结论,甚至是完全相反的,因此需要有一些科学的分析方法作为桥梁,帮助数据信息得到更好、更全面、更快的传递。本题答案:【正确】3、【判断题】数据分析的过程实际上就是从数据到信息再到知识的过程。而为了实现这一过程,通常需要基础理论、行业经验以及工具三者的结合。本题答案:【正确】4、【判断题】由于学科的交叉性发展,数据分析的手段和方法更加丰富,包括了常规分析、数据挖掘、商务智能、大数据技术、数据可视化。本题答案:【正确】5、【判断题】统计学领域,一般将数据分析划分为描述性数据分析、探索性数据分析以及验证性数据分析,在分析过程中,三者相互排斥,不能同时使用。本题答案:【错误】随堂测验1、【判断题】机器学习是大数据分析技术中重要的一种技术,是通过数据进行建模的技术,即从给定的大数据中挖掘出合适的模型来解释、预测的技术。本题答案:【正确】2、【判断题】大数据分析与传统数据分析技术有所差异,在数据基础、分析方法和分析工具三个方面均有所体现。本题答案:【正确】3、【判断题】大数据和传统数据库最明显的差别在于数据规模上的不同,大数据的数据量至少是TB级别以上,而传统的数据仓库因为存储的是结构化的关系数据,数据量往往比较小。本题答案:【正确】4、【判断题】在传统的小数据时代背景下,主要是推断和分析样本数据,而在大数据背景之下,主要是分析和研究总体数据,这样能够获取总体特征,并且全面探索出特征背后的规律以及发生概率等。本题答案:【正确】5、【判断题】相对于单一的传统数据而言,大数据的数据类型种类繁多,形式多样,如结构化数据、半结构化数据和非结构化数据等。本题答案:【正确】随堂测验1、【判断题】机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法。本题答案:【正确】2、【判断题】在真实的机器学习中,一般的机器学习模型至少考虑两个变量:一个是因变量,也就是我们希望预测的结果。另一个是自变量,影响结果的变量。本题答案:【正确】3、【判断题】机器学习的一个主要目的就是把人类思考归纳经验的过程转化为计算机通过对数据的处理计算得出模型的过程。本题答案:【正确】4、【判断题】方法层面来说,机器学习是计算机利用已有的数据(经验),训练出某种模型(迟到的规律),并利用此模型预测未来(是否迟到)的一种方法。本题答案:【错误】5、【判断题】聚类算法是一种无监督学习算法,其主要特征是将数据从高维降低到低维层次。本题答案:【错误】随堂测验1、【判断题】图像识别理解为是图像的模式识别,是模式识别技术在图像领域中的具体应用,是对输入的图像信息建立图像识别模型,分析并提取图像的特征,然后建立分类器,根据图像的特征进行分类识别的一种技术。本题答案:【正确】2、【判断题】图像识别的基本原理包括三个方面:图像的组成、图像的识别、图像识别的要点。本题答案:【错误】3、【判断题】随着计算机技术的迅速发展和科技的不断进步,图像识别技术已经在众多领域得到了应用,包括神经网络的图像识别技术和非线性降维的图像识别技术。本题答案:【正确】4、【判断题】图像识别的应用主要可以分为三类:生物特征识别、物体与场景识别和视频识别。本题答案:【正确】5、【判断题】在进行行视频识别与分析时,需要前端摄像机设备来传输数据,同时,需要通过大数据训练、具备云计算能力的深度学习图像分析系统来实时进行视频检测和数据分析。本题答案:【正确】随堂测验1、【判断题】自然语言指的是汉语、英语、法语等人们日常使用的语言,是自然而然的随着人类社会发展演变而来的语言,而不是人造的语言,它是人类学习生活的重要工具。本题答案:【正确】2、【判断题】自然语言有两种表现形式:文字和语音,它们能够承载整个信息。本题答案:【错误】3、【判断题】自然语言处理在许多方面仍存在难点需要继续研究,例如,语义角度上,如何从一个语句中词的意义,以及这些词在该语句中句法结构的作用来推导出该语句的意义。本题答案:【正确】4、【判断题】分词是自然语言处理技术的基础构成之一,并且是其它技术的基础。基于统计实现的词性标注、命名实体识别、句法分析等都需要依赖对句子进行正确的分词。本题答案:【正确】5、【判断题】词性标注是语言识别、句法分析、信息抽取技术的基础技术之一,是指为句子中每个单词标注一个词性类别,这里的类别包括名词、动词、形容词、连词、副词、标点符号等。本题答案:【正确】数据测度之六:文本数据分析1、【判断题】计算机时代的迅猛发展使网络数据呈现爆发性增长,全球多达80%的大数据都是非结构化的,主要是文本数据。因此,对文本的数据分析尤为重要。本题答案:【正确】2、【判断题】文本分析的目的在于从根本上把所有的非结构化数据整合从而化为结构化数据,从之前被认为难以量化的海量文本中抽取出大量有价值的、有意义的数据或信息。本题答案:【正确】3、【判断题】自动问答是从一份或者多份文本中提取出来部分的文字,这些文字中包含了原文本中的重要的信息,并且长度也会不超过或者远少于原文本的一半。本题答案:【错误】4、【判断题】文本数据处理的基本步骤包括文本采集、文本预处理、特征提取与特征选择、建模分析等。本题答案:【正确】5、【判断题】情感分析是基于大数据的文本分析的一种运用,指的是对文本中情感的倾向性和评价对象进行提取的过程。本题答案:【正确】数据角度之一:可视化设计1、【判断题】对编码需要进行解释,对坐标轴也应当进行标注。没有标注或解释的坐标轴就只是个摆设而已。标注坐标轴可以显示它所描绘的尺度和内容,只要改动坐标轴的标记就会得到一个完全不同的故事。本题答案:【正确】2、【判断题】在进行可视化数据时,必定会用到几何形状。柱形图中有矩形,它们的长度代表了数值的多少,在点状图中表现数值的则是位置,这和标准的时序图类似。饼图通过角度来表现数值,其总和通常不等于100%。本题答案:【错误】3、【判断题】在可视化的设计过程最后,还应当注明数据来源。数据来源不仅能便于读者进行核验或者分析,而且还能为数据带来更多的上下文背景。本题答案:【正确】4、【判断题】数据图形的设计流程都是相似的。拿到数据后,以圆形、柱形和颜色等形式对数据进行“编码”,进行标注,然后呈现给读者。本题答案:【正确】数据角度之二:可视化元素1、【判断题】可视化元素具体可以分为两部分内容:可视化元素类型和可视化元素选择。本题答案:【正确】2、【判断题】视觉元素与视觉标记均为可视化元素的类型。视觉元素意为视觉元素的表现形式,主要为点、线、面等;视觉标记表示人眼所能看到的各种元素的属性,例如大小,颜色,形状等。本题答案:【正确】3、【判断题】如何选择并搭配可视化元素,是实现可视化重要的一个流程。各个元素组合的不同所带来的直观效果以及结果是不同的。本题答案:【正确】4、【判断题】我们需要根据数据类型决定视觉元素的优先级:数值型数据适合用能够量化的视觉元素表示,如坐标、长度等,使用颜色表示的效果就大打折扣,且容易引起歧义;序列型数据适合用区分度明显的视觉元素表示;类别型数据适合用易于分组的视觉元素。本题答案:【正确】5、【判断题】对数据进行可视化过程中,不仅要了解数据的类型,还要了解数据背景信息,从而才能设计出具有价值的可视化效果。离开背景信息,数据就毫无用处了,这就如同断章取义截取文中的片段作为主要论点引用一样。本题答案:【正确】数据角度之三:非编程可视化工具(上)1、【判断题】Excel不仅仅是数据存储与处理的工具,也是最为基础的可视化软件。与大多数软件一样,Excel的可视化形式主要分为2D图表与3D图表。本题答案:【正确】2、【判断题】和Excel相比,GoogleSpreadsheets拥有更多优势。可以在任何安装了浏览器的计算机上查看自己的数据,同时也能很方便地与其他人共享,还能做到实时协作。本题答案:【正确】3、【判断题】ManyEyes涵盖了绝大多数传统的可视化类型,例如折线图和散点图(如图所示)。ManyEyes的优势在于其中的可视化数据图都是可交互的,而且有一些定制选项。本题答案:【正确】4、【判断题】Gephi是一款网络及系统可视化的专业开源软件,支持交互式探索网络与层次结构,操作简便。本题答案:【正确】5、【判断题】TileMill是一款开源的桌面软件,可以按喜好和需求设计地图,它支持多种地图数据、支持自定义样式、支持svg图标和文字样式等,而且地图输出格式也比较丰富。本题答案:【正确】数据角度之四:可视化图形1、【判断题】指标值可视化一般用与指标含义相近的图标来表现,使用场景也比较多,将指标用通俗易懂的符号表示。本题答案:【正确】2、【判断题】指标图形化最常见的可视化形式,一个指标值就是一个数据,将数据的大小以图形的方式表现。比如用柱形图的长度或高度表现数据大小。本题答案:【正确】3、【判断题】当存在多个指标时,挖掘指标之间的关系,并将其图形化表达,可提升图表的可视化深度。关系图就展现了不同类别之间的数据关系。本题答案:【正确】4、【判断题】时空可视化包括时间可视化与空间可视化,其中,空间可视化指的是用时间维度来查看指标值的变化情况。本题答案:【错误】5、【判断题】数据图形化完成后,可结合实际情况,将其变为动态化和可操控性的图表,用户在操控过程中能更好地感知数据的变化过程,提升体验。本题答案:【正确】数据角度之五:可视化数据1、【判断题】当可视化时序时间时,目标是要能够清楚的看到什么已经成为过去,什么已经发生了变化,而又有什么保持不变,相差的程度又是多少。本题答案:【正确】2、【判断题】空间数据包括时间与空间属性,存在自然的层次结构,可以并需要以不同的粒度进行探索研究。本题答案:【错误】3、【判断题】针对于分类数据,条形图是显示分类数据最常用的方法。此外,饼图用于描述数据的结构化,堆叠条形图显示各类占比情况。本题答案:【正确】4、【判断题】分类中的分类数据,常用的两种图形是树图和马赛克图。马赛克图是在紧凑的空间里显示层次结构,通常面积和颜色结合使用;树图则允许在一个视图中进行跨分类比较。本题答案:【错误】5、【判断题】马赛克图能够明显看到数据的分类情况,还可以显示各个分类内部的组成以及分类的组合。本题答案:【正确】单元作业单元测验1、【单选题】()是一种自动下载网页的计算机程序和自动化脚本,通常从一个成为种子集开始运行,按照一定序列或者条件爬取页面信息,最终遍历整个Web网页。本题答案:【Web爬虫】2、【单选题】()是指对文本的表示及其特征项的选取,是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。本题答案:【文本分析】3、【单选题】()是模式识别技术在图像领域中的具体应用,是对输入的图像信息建立图像识别模型,分析并提取图像的特征,然后建立分类器,根据图像的特征进行分类识别的一种技术。本题答案:【图像识别】4、【单选题】()是一种基于词典和人工规则的方法。是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功。本题答案:【机械分词算法】5、【单选题】()是一种无监督学习算法,其主要特征是将数据从高维降低到低维层次。本题答案:【降维算法】6、【多选题】大数据基础支撑技术涵盖了一下哪几个层次。本题答案:【数据层#统计层#治理层#模型层】7、【多选题】治理层是大数据项目开展的第一部分,也是最基础的一个层次。我们通常需要几个方面来支持使得能够更好地实现数据治理。本题答案:【标准#策略流程#技术平台】8、【多选题】潜在数据源主要存在于哪几处。本题答案:【内部数据#互联网数据#外部数据】9、【多选题】大数据采集方法主要分为哪几种。本题答案:【传感器#系统日志#Web爬虫】10、【多选题】统计学领域,一般将数据分析划分为()。本题答案:【描述性数据分析#探索性数据分析#验证性数据分析】11、【判断题】数据分析更多的是基于业务背景来解读数据,把隐藏在数据背后的信息提炼和总结出来,也即通过数据理解、数据准备、建立模型、模型评估,进而发现其中有价值的内容,最后将模型应用于业务实践。本题答案:【正确】12、【判断题】大数据分析主要涉及六个方面,具体包括可视化分析、数据仓库、数据质量和数据管理、数据挖掘算法、预测分析能力、语义引擎。本题答案:【正确】13、【判断题】一般来说我们把数据清洗大致分为这五个步骤,分别是:去除不必要数据,改变数据类型,处理缺失数据,处理内容错误,处理书写错误。具体实践中可以稍作调整。本题答案:【错误】14、【判断题】分词是自然语言处理技术的基础构成之一,但仍存在难点进行处理,例如中文分词中交叉歧义、组合歧义、真歧义分词问题。本题答案:【正确】15、【判断题】图像数据是大数据时代重要的一类数据类型,图像识别技术大致可以分为三个阶段:文字识别、数字图像处理与识别、物体识别。本题答案:【正确】数据演绎之一:从统计数字到统计数据1、【判断题】从古至今,统计数据发生了翻天覆地的变化,从最初的数字,到文字,再到图像,音频等。数据存储的方式越来越多,统计数据的多样化突显了出来。直至今天,统计数据仍在随着科学技术的不断突破,继续向前发展中。本题答案:【正确】2、【判断题】数字是作为最早出现的统计数据类型,一直被广泛地使用,并且对于数字的统计分析早已非常完善,不处于现统计学的研究核心。本题答案:【错误】3、【判断题】随着时代的发展以及进步,文本信息目前已经成为了一种重要,并且有趣的数据类型。因为我们看到现在很多的文本数据分析被应用在对美食和电影的角色评价中。本题答案:【正确】4、【判断题】如今,统计数据类型包括数字、文本、图像、音频、视频等形式。针对各种不同存储数据信息的形式,都有着较为广泛成熟地使用情况。本题答案:【正确】5、【判断题】随着科技的发展,统计数据类型逐渐由简变繁,然而统计数据的变化却不会影响对于数据处理的效率。本题答案:【错误】数据演绎之二:从统计数据到智能化1、【判断题】数据已发生了巨大的转变,不仅仅是在数据的量上有明显的增加,数据的种类也发生了翻天覆地的变化。数据的转变给我们在数据处理上带来了一定的挑战。本题答案:【正确】2、【判断题】随着互联网等科技的飞速发展,智能化的出现很好的应对了统计数据类型的多样性及海量性,减少了大量的工作,高效地完成了对数据的分析。本题答案:【正确】3、【判断题】从技术角度对其进行定义,智能化是指事物在网络、大数据、物联网和人工智能等技术的支持下,所具有的能动地满足人的各种需求的属性。本题答案:【正确】4、【判断题】智能化具有学习能力和自适应能力,即具有能够感知外部世界、获取外部信息的能力。本题答案:【错误】5、【判断题】智能化在统计过程中最基础的是数据搜集工作中起到的作用不是很大,仍需要对访问者进行调查,并对采集而来的数据进行归类整理。本题答案:【错误】3.3数据演绎之三:从智能化到人工智能1、【判断题】数据已发生了巨大的转变,不仅仅是在数据的量上有明显的增加,数据的种类也发生了翻天覆地的变化。数据的转变给我们在数据处理上带来了一定的挑战。本题答案:【正确】2、【判断题】随着互联网等科技的飞速发展,智能化的出现很好的应对了统计数据类型的多样性及海量性,减少了大量的工作,高效地完成了对数据的分析。本题答案:【正确】3、【判断题】从技术角度对其进行定义,智能化是指事物在网络、大数据、物联网和人工智能等技术的支持下,所具有的能动地满足人的各种需求的属性。本题答案:【正确】4、【判断题】智能化具有学习能力和自适应能力,即具有能够感知外部世界、获取外部信息的能力。本题答案:【错误】5、【判断题】智能化在统计过程中最基础的是数据搜集工作中起到的作用不是很大,仍需要需要对访问者进行调查,并对采集而来的数据进行归类整理。本题答案:【错误】3.4数据演绎之四:从人工智能到机器学习(一)1、【判断题】智能已经与我们的生活紧密结合起来,大家可以在生活中观察到许多智能化的产品及运用。随着互联网、计算机等科技的进一步发展,人类开始对人的智能进行模拟、研究、拓展,人工智能的概念出现了。本题答案:【正确】2、【判断题】对于人工智能的理解上,存在两个学派的分歧,也就是强人工智能学派及弱人工智能学派。本题答案:【正确】3、【判断题】弱人工智能学派认为对人的模拟能够达到很高的界限。人类有可能制造出能真正推理和解决问题的智能机器,并且这样的机器人是有知觉的和有自我意愿的。本题答案:【错误】4、【判断题】人工智能的模拟对象是人,因此不论是强人工智能还是弱人工智能,人工智能都是针对于智能的研究,主要知识只涉及智能科学。本题答案:【错误】5、【判断题】随着大数据、云计算、互联网、物联网等信息技术的发展,泛在感知数据和图形处理器等计算平台推动了以深度神经网络为代表的人工智能技术地飞速发展,诸如图像分类、语音识别、知识问答、人机对弈、无人驾驶等人工智能技术迎来爆发式增长的新高潮。本题答案:【正确】3.4数据演绎之四:从人工智能到机器学习(二)1、【判断题】人工智能的根本在于为机器赋予人类的智能。而如何让机器变得更加智能,则需要机器学习。也就是说机器学习是部署支持人工智能的计算方法。本题答案:【正确】2、【判断题】机器学习简而言之就是机器自我学习,学习的目的在于对某件事情进行预测或判定,学习的方法在于使用算法来进行解析,学习的对象在于数据。本题答案:【正确】3、【判断题】机器学习算法主要包括二种:监督学习和非监督学习。本题答案:【错误】4、【判断题】强化学习时机器学习算法的一种,就是程序或智能体(agent)通过与环境不断地进行交互学习完成从环境到动作的映射,学习的目标就是使累计回报最大化。本题答案:【正确】5、【判断题】相比于监督学习,无监督学习的发展较缓慢,至今仍未取得大的突破。目前主要分为两类,也就是聚类算法和数据降维算法。本题答案:【正确】从机器学习到数据挖掘随堂测验1、【判断题】数据挖掘是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。本题答案:【正确】2、【判断题】数据挖掘是从数据中发掘知识的过程,而在这个过程中人工智能和数据库技术可以作为挖掘工具。本题答案:【正确】3、【判断题】大数据挖掘与传统数据挖掘的差异主要存在三个方面的差异:技术背景的差异、处理对象差异与挖掘程度差异。本题答案:【正确】4、【判断题】应用性是大数据挖掘的一个特性,是指数据挖掘的应用特性决定了数据挖掘不仅仅是算法分析和应用,而是一个包含数据准备和管理、数据预处理和转换、挖掘算法开发和应用、结果展示和验证以及知识积累和使用的完整过程。本题答案:【错误】5、【判断题】数据挖掘的基本流程一般是根据基本目标所制定的。现如今,一般来说,数据挖掘的基本目标主要是帮助企业提取数据蕴含的商业价值,提高企业竞争力。本题答案:【正确】从数据挖掘到深度学习随堂测验1、【判断题】深度学习是机器学习的一个子问题,其主要目的是从数据中自动学习有效的特征表示。更准确地说,在实际过程中为了学习一个好的表示,需要构建具有一定“深度”的模型,并通过学习算法来让模型自动学习出好的特征表示,从而最终提升预测模型的准确率。本题答案:【正确】2、【判断题】深度学习的基本思想。也就是通过堆叠多个层,将上一层的输出作为下一层的输入,逐步实现对输入信息的分级表达,让程序从中自动学习深入、抽象的特征。本题答案:【正确】3、【判断题】深度学习其实是人工神经网络的分支,其本质上就是一个深度神经网络。而神经网络又是来自于对生物神经元的模拟。本题答案:【正确】4、【判断题】深度学习是将原始的数据特征通过多步的特征转换得到一种特征表示,并进一步输入到预测函数以得到最终结果。本题答案:【正确】5、【判断题】目前,深度学习采用的模型主要是神经网络模型,其主要原因是神经网络模型可以使用误差反向传播算法,从而可以比较好地解决贡献度分配问题。本题答案:【正确】从深度学习到数据科学随堂测验1、【判断题】2001年美国统计学教授威廉.s.克利夫兰首次将数据科学作为一个单独的学科,并把数据科学定义为统计学领域扩展到以数据作为现金计算对象相结合的部分,奠定了数据科学的理论基础。本题答案:【正确】2、【判断题】数据科学的研究对象、研究目的和研究方法等等都与已有的计算机科学、信息科学和知识科学有着本质的不同。数据科学的研究的对象是数据,而不是信息,也不是知识。它是通过研究数据来获取对自然、生命和行为的认识,进而获得信息和知识。本题答案:【正确】3、【判断题】数据科学如果作为一门学科,目前所依赖的因素可以有两个:数据的广泛性和多样性,以及数据研究的共性。因此,如果把“数据科学”这个名词拆开来看,数据科学可以包括两个方面的内容:用数据的方法来研究科学及用科学的方法来研究数据。本题答案:【正确】4、【判断题】数据科学家的角色定位是什么?其实数据科学涉及到如何从数据过渡到模型,再过渡到应用程序。因此,数据科学需要具备不同的技能,换句话说也就是数据科学家需要扮演不同的角色,或者说数据科学家是一个多角色的综合体。本题答案:【正确】随堂测验1、【判断题】相比于人工智能、数据科学,机器学习的目标是认识和理解事物主要包括三方面的内容:描述性内容、解释性内容与表因果的内容。本题答案:【错误】2、【判断题】数据科学需要有人类的参与,这与其它两个领域也是有所不同的,也就是说只有人类才能理解结论、观察数据并从结论中获益。本题答案:【正确】3、【判断题】机器学习就是做预测,简单来说就是“给定X以及特定特征,预测Y”。这些预测可以是对未来的预测,也可以是对质量的预测。本题答案:【正确】4、【判断题】机器学习和数据科学间是存在交集的。例如,逻辑回归可以用来研究关系,也可以用来做预测。我们可以将数据科学和机器学习想象成一个“谱”,较容易解释的模型更靠近数据科学一侧,“黑箱”模型则更靠近机器学习一侧。本题答案:【正确】5、【判断题】人工智能和机器学习有很多交集。深度学习就是横跨ML和AI的一个典型例子。深度学习的典型应用是:用数据训练模型,然后让模型作出预测。本题答案:【正确】单元作业单元测验1、【单选题】()的出现很好的应对了统计数据类型的多样性及容量性,减少了大量的工作,高效地完成了对数据的分析。本题答案:【智能化】2、【单选题】()是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。本题答案:【人工智能】3、【单选题】人工智能分为强人工智能和弱人工智能,()认为对人的模拟能够达到很高的界限。人类有可能制造出能真正推理和解决问题的智能机器,并且这样的机器人是有知觉的和有自我意愿的。本题答案:【弱人工智能】4、【单选题】()是通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的。本题答案:【监督学习】5、【单选题】()就是程序或智能体(agent)通过与环境不断地进行交互学习完成从环境到动作的映射,学习的目标就是使累计回报最大化。本题答案:【强化学习】6、【多选题】随着统计数据的不断演绎,如今,统计数据类型包括()等形式。本题答案:【文本#音频#视频#图像】7、【多选题】智能化是指事物在网络、大数据、物联网和人工智能等技术的支持下,所具有的能动地满足人的各种需求的属性,其特点包括()。本题答案:【感知能力#记忆和思维能力#学习能力和自适应能力#行为决策能力】8、【多选题】如今各个角度下的人工智能的研究成果都得到了广泛的应用,对于人工智能的研究主要集中于2个角度:()。本题答案:【机器智能#智能机器】9、【多选题】()是现在主要的机器学习算法。本题答案:【监督学习#非监督学习#强化学习】10、【多选题】数据挖掘的对象包括()。本题答案:【关系型数据库#空间数据#工程数据#文本和多媒体数据】11、【多选题】数据挖掘涉及众多领域,包括()。本题答案:【数据库技术#人工智能#机器学习#神经网络】12、【判断题】机器学习的目的在于对某件事情进行预测或判定,学习的方法在于使用算法来进行解析,学习的对象在于数据。本题答案:【正确】13、【判断题】数据挖掘是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。本题答案:【正确】14、【判断题】大数据挖掘与传统数据挖掘主要存在三个方面的差异:技术背景差异、处理对象差异、挖掘程度差异。本题答案:【正确】15、【判断题】在大数据时代,数据的产生和收集是基础,数据挖掘是关键,即数据挖掘是大数据中最关键、最有价值的工作。大数据挖掘主要包括三个特性:应用性、工程性、分散性。本题答案:【正确】16、【判断题】深度学习是机器学习的一个子问题,其主要目的是从数据中自动学习到有效的特征表示。本题答案:【正确】17、【判断题】数据科学是系统的、跨学科的研究领域,用于从各种不同形式的数据中获取知识和洞察。本题答案:【正确】随堂测验1、【判断题】随着统计的发展,大数据已与各行各业有着紧密联系。智慧城市是信息技术充分应用在城市中各行各业后,对城市信息化高级形态的一种称呼。本题答案:【正确】2、【判断题】交通大数据是指在交通领域产生的数据,数据主要产生在各类交通的运行、监控、服务、各类型交通流量,公交出租车地理位置等。本题答案:【正确】3、【判断题】交通大数据的处理框架,主要分为三个流程:收集管理层、软件应用层、实现应用层。本题答案:【正确】4、【判断题】智能交通系统已经在许多城市中发挥作用,为城市的交通带来便利。智能交通系统大体分为两个部分——静态系统和动态系统。动态系统主要是对环境、道路的静态记录,例如道路通行能力(几车道)、交通信息标志、环境因素、车祸发生率。本题答案:【错误】5、【判断题】环境大数据的一个重要特点是除了信息本身所包含的环境物理量的测量值之外,其信息本身的时间和空间特征,也就是其分布信息也是非常关键的。本题答案:【正确】随堂测验1、【判断题】工业大数据是智能制造与工业互联网的核心,其本质是通过促进数据的自动流动去解决控制业务问题,减少决策过程所带来的不确定性,并尽量克服人工决策的缺点。(对)本题答案:【正确】2、【判断题】一般将工业大数据分为四类,即企业信息化数据、工业物联网数据、内部数据以及外部跨界数据。本题答案:【错误】3、【判断题】工业大数据首先符合大数据的4V特征,除了4V特征之外,相对于其他类型的大数据,工业大数据还具有反映工业逻辑的新特征,这些特征可以归纳为多模态、强关联、高通量等特征。本题答案:【正确】4、【判断题】工业大数据的多模态特征是指工业数据之间的关联并不是数据字段的关联,其本质是物理对象之间和过程的语义关联。本题答案:【错误】5、【判断题】工业大数据的高通量特征是指在嵌入了传感器的智能互联产品已经成为工业互联网时代的重要标志时代,用机器产生的数据来代替人所产生的数据,实现实时的感知,机器所产生的时序数据产生速度快、数据总吞吐量大,并且持续不断所呈现出的特征。本题答案:【正确】随堂测验1、【判断题】教育大数据泛指所有来源于日常教育活动中人类的行为数据,包括教师大数据和学生大数据。学生大数据则包括学习行为大数据,例如,试卷、题目、练习册、教辅、微课。本题答案:【正确】2、【判断题】教育中的大数据和传统数据存在明显的区别所在。传统数据是在阶段性的评估中获得,在学生知情的情况下获得的,通过考试或量表调查等形式会给学生带来很大的压力。大数据的产生则完全是过程性的,在学生不自知的情况下,一定的观测技术与设备辅助采集非常的自然、真实。本题答案:【正确】3、【判断题】大数据可以使教育个性化。例如对于一位同学,如果他能够作对第4题,那么相关类型的题目就不用在继续做了,再做毫无意义。因此,在布置作业上体现出了个性化及高效率。本题答案:【正确】4、【判断题】随着大数据时代的来临,教育大数据深刻改变着教育理念、教育思维方式。新的时代,教育领域充满了大数据,诸如学生、教师的一言一行,学生里的一切事物,都可以转化为数据。本题答案:【正确】5、【判断题】在大数据的驱动下,教育研究将出现不同的态势,从依靠经验评价转向基于数据评价,通过挖掘、分析教育大数据,研究者可以量化学习过程,表征学习状态,发现影响因素,找到干预策略,从更深的层次揭示教育规律。本题答案:【正确】随堂测验1、【判断题】通过长期研究发现,社会网络存在下面4个特点:小世界、无标度、正同配指数、抢的社团结构。本题答案:【正确】2、【判断题】社会网络的出现,将人的行为、关系暴露在网络上,组成了规模巨大的社会网络,使得社会关系显化、可观测、可量化计算。本题答案:【正确】3、【判断题】社会网络大致分为三个方面的分析:个体分析、群体分析和消息传播分析。群体分析主要应用在用户影响力评价上。通过度量用户直接或间接作用域其它用户的能力,对用户的影响力进行评价。本题答案:【错误】4、【判断题】在社会网络中,兴趣爱好的共同点会导致个体自发的聚集形成团体。团体结构作为社会网络拓扑结构的重要方面,对其研究有十分重要的意义。本题答案:【正确】5、【判断题】在群体分析中,有一个基于社会学特殊的概念——结构洞。结构洞就结构洞是两个关系人之间的非重复关系,即如果两个人需要第三方才能建立关系,则这个第三方在这里就是结构洞。本题答案:【正确】单元作业单元测验1、【单选题】随着绿色发展提出和不断深化,环境以及成为城市发展不可忽略的一部分。()的运用有助于促进政府生态环境综合决策科学化、监管精准化、公共服务便民化。本题答案:【环境大数据】2、【单选题】环境大数据的一个重要特点是除了信息本身所包含的环境物理量的测量值之外,其信息本身的()就是其分布信息也是非常关键的。本题答案:【时间与空间特征】3、【单选题】()是智能制造与工业互联网的核心,其本质是通过促进数据的自动流动去解决控制业务问题,减少决策过程所带来的不确定性,并尽量克服人工决策的缺点。本题答案:【工业大数据】4、【单选题】()泛指所有来源于日常教育活动中人类的行为数据,包括教师大数据和学生大数据。本题答案:【教育大数据】5、【单选题】()是基于社交网站的关系,是一群具有相同兴趣或者活动的人创建的互联网联系。本题答案:【社会网络】6、【多选题】交通大数据的处理框架,主要有三个流程()。本题答案:【收集管理层#软件应用层#实现应用层】7、【多选题】智能交通系统已经在许多城市中发挥作,用为城市的交通带来便利。智能交通系统大体分为两个部分:()。本题答案:【静态系统#动态系统】8、【多选题】一般将工业大数据分为三类:()。本题答案:【企业信息化数据#工业物联网数据#外部跨界数据】9、【多选题】工业大数据除了具备大数据的4V特征,相对于其他类型大数据,工业大数据集还具有反映工业逻辑的新特征。这些特征可以归纳为()等特征。本题答案:【多模态#强关联#高通量】10、【多选题】工业大数据的应用较为广泛,主要包括以下()方面的内容。本题答案:【产品故障诊断与预测#加速产业创新#工业污染与环保检测#工业供应链的分析与优化】11、【多选题】大数据对教育的影响主要包括()。本题答案:【使教师或研究者获取真实信息#可以使教育个性化】12、【判断题】对现实社会研究的数据具体来说可以大致分为三个方面:个体分析、群体分析和消息传播分析。本题答案:【正确】13、【判断题】在群体分析中,有一个基于社会学特殊的概念,两个关系人之间的非重复关系,即如果两个人需要第三方才能建立关系,则这个第三方在这里就是结构洞。本题答案:【正确】14、【判断题】一般将工业大数据分为三类,即企业信息化数据、工业物联网数据以及外部跨界数据。本题答案:【正确】15、【判断题】交通大数据的处理框架,主要分为三个流程:收集管理层、软件应用层、实现应用层。本题答案:【正确】随堂测验1、【单选题】()是企业投资者对企业数据资源开发和利用的-种管控制度安排,它包括标准、政策和流程、组织结构、技术架构等制度和机制,确保数据资源的开发和利用符合组织的业务和IT战略。本题答案:【大数据治理】2、【单选题】规范性用于度量()本题答案:【哪些数据未按统一格式存储】3、【单选题】对数据的质量管理还应该是()的,它包括对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列的管理活动。本题答案:【全过程的】4、【单选题】大数据的专家应该涉及什么领域()本题答案:【以上皆是】5、【单选题】大数据以什么为导向?本题答案:【企业自身的业务需求】随堂测验1、【单选题】确定大数据项目主题必须收集的信息有()。本题答案:【以上皆是】2、【判断题】基本业务分析主要由大数据咨询公司承担。本题答案:【正确】3、【判断题】大数据项目的实现方法、使用技术和分析方法基本一致。本题答案:【错误】4、【判断题】不同企业对如何评估大数据项目主题是有所差异的,原因在于他们通过大数据项目获得的效果不同。本题答案:【正确】5、【判断题】评估模型并不是越复杂越好,也绝非越简单越好。本题答案:【正确】随堂测验1、【判断题】Hadoop技术是大数据技术的基石,为分布式系统基础架构,它可以使用户在不了解分布式底层细节的情況下开发分布式程序,充分利用集群的威力进行高速运算和存储。本题答案:【正确】2、【判断题】在数据类型方面,hadoop可以处理各种类型数据,无需区分结构化与非结构化数据,而传统数据库只能处理结构化数据。本题答案:【正确】3、【判断题】Hive是Faccbook设计并开源出的构建在Hadoop之上的一个数据仓库工具。与传统的数据仓库相比,Hive能够处理超大规模的数据且有更好的容错性。它可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。本题答案:【正确】4、【判断题】Hive会将存储在HDFS中的文件组织成类似于传统数据库的方式,并为无模式的数据增加模式信息。除了支持常见的基本数据类型,如整数、浮点数、双精度、字符串外,它还支持list,Map和Struct等复杂的嵌套数据类型。本题答案:【正确】随堂测验1、【判断题】一般来说,大数据采集主要有4种来源,它包括管理信息系统、Web信息系统、物理信息系统、科学实验系统。本题答案:【正确】2、【判断题】UCI机器学习库是一个最著名的数据存储库,存储着与机器学习存储库相关的数据集,像Iris和泰坦尼克这样的流行数据集到最近的贡献,比如空气质量和GPS轨迹。存储库包含超过350个与域名类似的数据集(分类/回归)。本题答案:【正确】3、【判断题】Kaggle是运用数据进行预测建模与机器学习的平台,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。本题答案:【正确】4、【判断题】图像分类数据集最早是手写字的数据集的使用。它是早期最流行的图像识别数据集,使用手写数字。它包括6万个示例和1万个示例的测试集。本题答案:【正确】随堂测验1、【判断题】互金领域是大数据领项目的一个类型,指的是从该领域的数据里看到投资机会,或者从数据中找到新业务,或者运用数据来维护金融安全,又或是通过数据辅助征信风控。本题答案:【正确】2、【判断题】Lighthouse是一个Google开源的自动化工具,主要用于改进网络应用(移动端)的质量。Lighthouse会对各个测试项的结果打分,并给出优化建议,这些打分标准和优化建议可以视为Google的网页最佳实践。本题答案:【正确】3、【判断题】在电商平台中大数据项目的应用比较多的是埋点业务,也即进行用户细分画像、建立信用体系或进行线上各类活动定向推送。本题答案:【正确】4、【判断题】一般来说,大数据项目的构建需要按照以下五个环节来实施,即数据规划、数据治理、数据应用、迭代实施、商业价值。本题答案:【正确】5、【判断题】大数据项目构建的第三个环节是数据治理。数据采集的有效性是数据治理能否高效实现的重要一步,采集之后为了更好、更有效地储存有价值的数据,同时为了方便使用,我们需要对数据进行预处理。而要保证数据质量,我们还需要制定标准,并建立相对自动化的数据质量控制系统。本题答案:【错误】随堂测验1、【判断题】BigQuery是Google推出的在云中分析大数据的服务。BigQuery有助于企业在没有硬件基础设施的情况下分析他们的数据,同时还可以建立应用程序和数据共享的所有服务。本题答案:【正确】2、【判断题】BigQuery不允许用户上传他们的超大量数据,必须建立自己的数据中心才能进行交互式分析。本题答案:【错误】3、【判断题】BigQuery可以降低企业成本。从产品角度来说,BigQuery可以使得企业用户,在不需要投资任何软硬件的情况下,获得实时处理海量数据的能力。本题答案:【正确】4、【判断题】BigQuery数据处理速度快且反馈及时。其处理5个TB数据,15秒即可返回结果。本题答案:【正确】5、【判断题】BigQuery主要有查询(Query),存储(Storage),加载(Load)与输出(Export)这四个功能。本题答案:【正确】随堂测验1、【判断题】NETFLIX是一个较为成功大数据项目案例,它的Cinematchsystem采用协同过滤(Collaborativefiltering)算法,这种算法可以分为基于用户的协同过滤(User-basedCollaborativefiltering)和基于内容的协同过滤(Contentbasedfiltering)。本题答案:【正确】2、【判断题】亚马逊的推荐系统是大数据项目的一个典型案例。通过对会员的消费模式进行分析后,为其推荐可能想购买的商品。据统计亚马逊有35%的销售额来自于其优秀的推荐系统。本题答案:【正确】3、【判断题】亚马逊将自己的推荐系统称为A9,A9算法首先根据商品间的相互关系创建产品矩阵,然后以顾客最新输入的数据为基础,推导顾客的嗜好并推荐商品。本题答案:【正确】4、【判断题】与原有顾客相比,新顾客的购物经历不多,很难获取其喜好,对其使用传统的推荐方式、聚类分析和搜索方式无法达到理想的效果。因此,亚马逊以现有数据为基础开发了商品到商品的协同过滤算法,该算法与顾客数量及商品数量无关。本题答案:【正确】5、【判断题】谷歌的大数据项目最知名的应属它对流感趋势的预测。其预测的基础假定是一旦人们患上流感,就可能会在搜索引擎上输入特定的检索词条以获得与流感相关的信息。通过汇总和分析这些检索词条,就能预测流感将在何时何地爆发。本题答案:【正确】单元测验1、【单选题】规范性用于度量()。本题答案:【哪些数据未按统一格式存储】2、【单选题】1.确定大数据项目主题必须收集的信息有()。本题答案:【以上皆是】3、【单选题】()技术可以在成百上千台计算机上同时处理海量数据,它也是大数据技术的基石。本题答案:【Hadoop】4、【单选题】大数据项目构建时,必须以系统的方法作为指导,并且这种方法要与()相适应。本题答案:【实际情况】5、【单选题】做好数据规划这一阶段的各项工作具体包括()。本题答案:【以上皆是】6、【单选题】数据采集的有效性是数据治理能否高效实现的重要一步,采集之后为了更好、更有效地储存有价值的数据,同时为了方便使用,我们需要对数据进行()。本题答案:【预处理】7、【单选题】对数据的质量管理还应该是()的,它包括对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列的管理活动。本题答案:【全过程的】8、【单选题】大数据的专家应该涉及什么领域()。本题答案:【以上皆是】9、【单选题】大数据以什么为导向?本题答案:【企业自身的业务需求】10、【单选题】()诞生则是为了帮助Hadoop更加便捷地分析和处理海量数据地任务。本题答案:【Hive】11、【多选题】大数据治理是企业投资者对企业数据资源开发和利用的-种管控制度安排,它包括()等制度和机制,确保数据资源的开发和利用符合组织的业务和IT战略。本题答案:【标准、政策#流程#组织结构#技术架构】12、【多选题】一般来说,大数据采集主要有4种来源()。本题答案:【管理信息系统#Web信息系统#物理信息系统#科学实验系统】13、【多选题】通过对已有成功的大数据应用项目或者是成功的大数据产品进行总结和思考,人们才发现这些成功的大数据项目的构建基本上都是按照以下环节来实施()。本题答案:【数据规划#数据治理#数据应用#迭代实施#商业价值】14、【多选题】BigQuery主要有()功能。本题答案:【查询(Query)#存储(Storage)#加载(Load)#输出(Export)】15、【多选题】在大数据项目中,需要()通力合作,来保证大数据项目的顺利开展。本题答案:【咨询公司#大数据TF团队#业务团队和IT团队】16、【多选题】各团队在大数据项目主题选择过程中实现的功能和具体步骤包括()。本题答案:【大数据系统应用案例分析#基本业务分析#内外部数据采集#数据挖掘#总体规划设计】17、【多选题】BigQuery的作用()。本题答案:【降低企业成本#数据处理量大#数据处理速度快且反馈及时】18、【多选题】大数据治理需要(),为数据治理工作的顺利执行提供组织上的保障。本题答案:【强有力的组织架构来支撑,以加强企业对数据治理的掌控#企业数据治理组织架构应该由高层领导牵头#全部业务部门参与#业务部门主导,IT部门执行】19、【多选题】大数据项目备选主题的评估模型应该()。本题答案:【全面考虑各种评估因素#凸显各企业特性】20、【多选题】hadoop有哪些特点()。本题答案:【善于处理非结构化数据#最易于扩充的分布式架构#不擅长存储小文件】21、【判断题】Hive对MapReduce依赖,查询速度有着“先天性不足”,因为在查询的过程中,MapReduce需要扫描整个数据集,而且在作业的处理过程中还需要把大量的数据传输到网络。本题答案:【正确】22、【判断题】Hive的数据组织形式采取的是并行结构。本题答案:【错误】23、【判断题】不同企业对如何评估大数据项目主题是有所差异的,原因在于他们通过大数据项目获得的效果不同。本题答案:【正确】24、【判断题】Hadoop技术的诞生是大数据技术的起点,而Hive的诞生则是为了帮助Hadoop更加便捷地分析和处理海量数据地任务,它是构建在Hadoop之上的数据仓库解决方案。无疑有效的工具是帮助实现大数据项目的必备武器。本题答案:【正确】25、【判断题】所谓战略意图就是需要在相关部门之间达成对大数据项目的一致共识。本题答案:【正确】26、【判断题】BigQuery的推出将有助于企业在没有硬件基础设施的情况下分析他们的数据,同时还可以建立应用程序和数据共享的所有服务本题答案:【正确】27、【判断题】大数据咨询的顾问要做的则是不断挖掘企业数据,就企业数据质量、数据特点以及存在的问题进行前期掌握,并对主题模板进行评估,制定大数据项目总体规划以及提出大数据项目推进方法。本题答案:【正确】28、【判断题】大数据项目和数据仓库一样,搭建好后每年只需要维护即可。本题答案:【错误】29、【判断题】hadoop在数据更新方面是,多次写,一次读,相对于传统数据库的多次读写提高了效率。本题答案:【错误】30、【判断题】hadoop可以处理各种类型数据,无需区分结构化与非结构化数据,而传统数据库只能处理结构化数据。本题答案:【正确】随堂测验1、【判断题】对收集的大数据进行处理、分析、并可视化以得到科学的结论,都需要借助软件工具来高效的实现。本题答案:【正确】2、【判断题】Excel软件具有工作效率高、操作自动化、计算与数据建模轻松等突出优点。本题答案:【正确】3、【判断题】Excel只能针对小规模数据进行分析,但提供了无限的数据处理功能。本题答案:【错误】4、【判断题】Excel在对数据进行处理的具体流程包括:数据录入、数据整理、数据处理、数据统计分析和数据存储。本题答案:【正确】5、【判断题】数据处理的第一个流程是数据录入。Excel中数据录入主要分为两种:手动输入、外部数据文件导入。本题答案:【正确】随堂测验1、【判断题】SPSS作为被广泛使用的统计软件,其特点可以总结为以下五个方面:操作简便、编程方便、功能强大、数据接口兼容性强及针对性强。本题答案:【正确】2、【判断题】SPSS常用的两个主要界面为数据编辑窗口与结果管理窗口。本题答案:【正确】3、【判断题】SPSS软件的数据编辑窗口界面中,主要有4个功能区:菜单栏、工具栏、状态栏及窗口切换标签。本题答案:【正确】4、【判断题】菜单栏是SPSS软件的数据编辑窗口的核心部分,数据的编辑、转换、分析及可视化图像等命令均存于菜单栏中。本题答案:【正确】5、【判断题】经过数据编辑窗口对数据进行处理、分析后,SPSS则弹出结果管理窗口,此窗口显示对数据分析的结果。本题答案:【正确】随堂测验1、【判断题】Anaconda是一个和Python完全独立的程序运行包,提供各种语言的库和底层。本题答案:【正确】2、【判断题】编译器与Anaconda是不同的,它对于Python是必须的,编译器是输入代码、调试运行代码的地方,也就是我们通常所说的集成开发环境IDE。本题答案:【正确】3、【判断题】PyCharm是一种PythonIDE,它带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。本题答案:【正确】4、【判断题】Spyder是一款为了数据科学工作流做了优化的开源Python集成开发环境,它是附在Anaconda软件包管理器发行版中。本题答案:【正确】5、【判断题】Python中常用的标准算术操作符有加、减、乘、除、取整、取余、乘方,需要像其他语言一样,需要先把值赋给变量,再对变量进行计算。本题答案:【错误】随堂测验1、【判断题】MATLAB拥有交互式的程序开发环境,可以不用进行烦琐的程序链接和调试,用户可以很方便地直接在友好的窗口中进行程序的修改,使程序的编写和执行同步进行。本题答案:【正确】2、【判断题】MATLAB提供了丰富的函数库和工具箱,使用户不必进行具体代码的编写,而仅调用简单的函数指令,就可以执行任务操作,解决问题。本题答案:【正确】3、【判断题】MATLAB不能提供丰富的二、三维图形及动画来对计算结果进行可视化显示。本题答案:【错误】4、【判断题】命令窗口是MATLAB中最重要的窗口,也是用户进行MATLAB操作使用最为频繁的窗口,在命令窗口中,用户可以输入各种指令、函数和表达式等,并显示除图形外的一切运行结果。本题答案:【正确】随堂测验1、【判断题】UCINET软件的宗旨则是选择以速度为重,即消耗许多内存的快速算法。本题答案:【正确】2、【判断题】在UCINET的使用过程中,尽管我们是以文本信息为对象进行分析,但是UCINET的数据不是文本文件,需要将文本信息进行转化后,才能进一步分析。本题答案:【正确】3、【判断题】网络密度指的是网络中各个成员之间联系的紧密度,可以通过网络中实际存在的关系数与理论上可能存在的关系数相比得到,成员之间的联系越多,该网络的密度越大。本题答案:【正确】4、【判断题】某点A的度数中心度就是与点A直接相连的其他点的总个数,是绝对数形式的表现,或者以绝对中心度与该群体中点的最大连接数之比(相对数)表示,该指标反映的是交流能力。本题答案:【正确】5、【判断题】接近中心度是该点与群体中所有其他点的最近距离之和,是绝对数的表示方法,而绝对接近中心度与全体中最小的接近中心度的比值,是相对数的表现形式。该指标反映的是依赖性。本题答案:【正确】单元作业单元测验1、【单选题】SPSS软件具有完整的数据输入、编辑、统计分析、报表、图形制作等功能,能够完成统计数据分析的整个流程,充分体现了软件()的特点。本题答案:【功能强大】2、【单选题】Python中主要有四种数字数据类型,分别是整型、浮点型、布尔型和()。本题答案:【复数型】3、【单选题】UCINET软件的宗旨则是选择以速度为重,即消耗许多内存的快速算法。具体有两个原因:一个原因是(),另一个原因是科学技术的不断进步。本题答案:【分析数据的及时性】4、【单选题】在UCINET的使用过程中,尽管我们是以文本信息为对象进行分析,但是UCINET的数据不是文本文件,需要将文本信息进行转化为(),才能进一步分析。本题答案:【以矩阵形式存储的数据类型】5、【单选题】网络密度指的是网络中各个成员之间联系的紧密度,可以通过网络中实际存在的关系数与理论上可能存在的关系数相比得到,成员之间的联系越多,该网络的密度越大。本题答案:【网络密度】6、【单选题】接近中心度是该点与群体中所有其他点的最近距离之和,是绝对数的表示方法,而绝对接近中心度与全体中最小的接近中心度的比值,是相对数的表现形式。该指标反映的是()。本题答案:【依赖性】7、【单选题】()指的是经过点Y并且连接这两点的路径数与这两点之间的路径总数之比。该指标反映的是控制能力。本题答案:【中间中心度】8、【多选题】Excel软件具有()等优点。本题答案:【工作效率高#操作自动化#计算与数据建模轻松】9、【多选题】Excel软件使用过程中有()等缺陷。本题答案:【数据处理量小#数据处理功能有限#无法进行多用户管理】10、【多选题】数据处理的第一个流程是数据录入。Excel中数据录入主要分为两种:()。本题答案:【手动输入#外部数据文件导入】11、【多选题】Python中常用的逻辑操作符有()。本题答案:【and#or#not】12、【多选题】MATLAB的主要优点体现在()。本题答案:【拥有交互式的程序开发环境#运用符合人们思维习惯和数学表达方式的程序语言设计#提供了丰富的函数库和工具箱#提供丰富的二、三维图形及动画来对计算结果进行可视化显示】13、【多选题】Ucinet的核心技术包括()。本题答案:【凝聚子群分析#网络中心性分析#网络密度分析】14、【多选题】Ucinet软件核心的技术
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工地加工砖合同协议书
- 筹建商铺协议书
- 酒类运营合同协议书范本
- 拆除旧厂房合同协议书
- 员工股份分红合同协议书
- 平安普惠合同协议书
- 协议书代替劳动合同
- 新开路合同协议书
- 单位用人合同协议书模板
- 酒店与员工合同协议书
- GB/T 19363.1-2008翻译服务规范第1部分:笔译
- GB 7099-2003糕点、面包卫生标准
- 《产后抑郁患者护理研究6000字【论文】》
- GB 21550-2008聚氯乙烯人造革有害物质限量
- CMMI-决策分析和决定过程
- 2023年高考重庆理科数学试卷和答案(word完美解析版)
- 小型盖板预制施工方案及工艺方法
- DB63-T 164-2021草地地面鼠害防治技术规范
- 抖音生活服务服务商合作手册-抖音
- 涉密人员保密审查表
- Unit2Lesson3GettingToTheTop课件-高中英语北师大版(2019)选择性必修第一册
评论
0/150
提交评论