大数据分析与开发附有答案_第1页
大数据分析与开发附有答案_第2页
大数据分析与开发附有答案_第3页
大数据分析与开发附有答案_第4页
大数据分析与开发附有答案_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据分析与开发[复制]1.DataFrame是一个()的数据类型[单选题]*A.字符型B.表格型(正确答案)C.数据型D文件型2.ETL使用过程中,()较全量抽取应用更广,因而如何捕获变化的数据是增量抽取的关键[单选题]*A.增量抽取(正确答案)B.完整抽取C.模型抽取D.都不对3.目前在Kettle中有两种脚本文件,transformation和()。[单选题]*A.txtB.job(正确答案)C.transD.Hadoop4.()网络爬虫是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化的网页的爬虫。[单选题]*A.增量式(正确答案)B.聚焦C.普通D.日志5.Response是指()[单选题]*A.爬取B.响应(正确答案)C.采集D.抽取6.人工智能是对()思维过程的模拟与思维能力的模仿[单选题]*A.人脑(正确答案)B.神经C.事务D.软件7.Requests是用()语言编写,基于urllib,采用Apache2Licensed开源协议的HTTP库。[单选题]*A.JavaB.Python(正确答案)C.CD.C++8.xml包是用来做()提取的[单选题]*A.html(正确答案)B.xpathC.普通D.日志9.cursor=db.cursor含义为()。[单选题]*A获取数据B.获取游标(正确答案)C.检查数据D获取数据库10.(1.0分)Kettle工程存储方式有两种:一种是以()存储,一种是以资源库方式存储。[单选题]*A.JSON文件B.文本文件C.XML形试(正确答案)D.localhost11.(1.0分)()是目前所有格式中压缩率最高的格式。[单选题]*A.JPEG(联合图片专家组)(正确答案)B.BMP格式C.GIF格式D.PNG格式12.(1.0分)在实际开发流程中,常常根据需要把数据抽取、数据转换和数据加载看作是一个()。[单选题]*A模式进行B.整体进行(正确答案)C.存储进行D.引警进行13.(1.0分)Weke是一款费的,非商业化的,基于()环境下开源的机器学习以及数据挖软件,同时也是数据分析师喜爱的工具。[单选题]*A.JAVA(正确答案)B.PythonC.RD.Html14.(1.0分)在使用Selector对象的时候要先使用()或者ss选择器选中页面中要提取的数据,然后进行提取.[单选题]*A.htmlB.xpath(正确答案)C.xmlD.检查15.(1.0分)()又称阴阳图、棒线、红黑线或蜡烛线,常用于展示股票交易数据[单选题]*A词云图B.柱状图C.条图D.K线图(正确答案)16.(1.0分)在MySql数据库中创建数据表可以使用命令()来完成。[单选题]*A.createdatabasesB.WWWC.createtable(正确答案)D.Downloader17.(1.0分)importjson表示()。[单选题]*A.Python中导入JSON库(正确答案)B.Python中导入XML库C.Python中导入读取库D.都不对18.(1.0分)()牵涉统计学的概念,首先要对数据进行分组,然后统计每个分组内数据元的数量.[单选题]*A.小提琴图B.线图C.直方图(正确答案)D.折线图19.(1.0分)在pandas库有两个最基本的数据类型,分别是Series和()。[单选题]*A.DataB.FrameC.DataFloorD.DataFrame(正确答案)20.(1.0分)在数据管理以及数据仓库管理中最重要的部分就是()。[单选题]*A.数据映射(正确答案)B.数据转换C.数据加载D.数据读取21.(1.0分)Response对象用于描述一个HTTP响应,由()产生。[单选题]*A.ItemPipelineB.SpiderC.Downloader(正确答案)D.C++22.(1.0分)pandas中语句print(df.dtypes)表示使用df.dtypes方法来查看每列的()。[单选题]*A.数据量B.数据值C.数据类型(正确答案)D.都不是23.(1.0分)Response是指()。[单选题]*A爬取B.响应(正确答案)C.采集D抽取24.(1.0分)()是率先将大数据从商业概念上升至国家战略的国家。[单选题]*A.美国(正确答案)B.德国C.韩国D.日本25.(1.0分)Scrapy简单易用、灵活并且以拓展、并且是()[单选题]*A.网页端B.文档端C.流式数据D.跨平台的(正确答案)26.(1.0分)网页请求的方式一般分为两种:GET和()[单选题]*A.HTTPB.WWVC.PULLD.POST(正确答案)27.(1.0分)Kettle是一款国外开源的()工具[单选题]*A.数据开发B.ETL(正确答案)C.文本D.文件28.(1.0分)()以特殊高亮的形式显示访客热衷的页面区域和访客所在的地理区域的图示[单选题]*A.气泡图B.散点图C.K线图D.热力图(正确答案)29.(1.0分)Scheduler也叫作(),它从引警接受Request并将他们入队,以便之后引警请求它们时提供给引警[单选题]*A.调度器(正确答案)B.结构器C.优化器D.单一器30.(1.0分)当Spider要爬取某URL地址的页面时,首先用该URL构造一个(),提交给Engine[单选题]*A.Request对象(正确答案)B.搜索对象C.爬虫对象D.存储对象31.(1.0分)()又叫做存储模式,它是数据在数据库系统中的内部表示,同时也是数据库最低一级的逻辑描述[单选题]*A.内模式(正确答案)B.外模式C.软件模式D.行模式32.(1.0分)Scribe是()公司的产品[单选题]*AFacebook(正确答案)B.IBMC.引擎D联想33.(1.0分)云计算是一种按使用量付费的()[单选题]*A模式(正确答案)B.软件C.硬件D都不是34.(1.0分)()将数据源中的表或视图的数据原封不动的从数据库中抽取出来,并转换成自己的ETL工具可以识别的格式[单选题]*A全量抽取(正确答案)B增量抽取C完整抽取D.都不对35.(1.0分)云计算机是计算机()资源的虚拟化[单选题]*A.资源池B.系统C.软件D.硬件(正确答案)36.(1.0分)在具体的数据抽取工具中,可以使用来(来抽取数据库中的数据[单选题]*A.Kettle(正确答案)B.Mysqlc.记事本D都不对37.(1.0分)信息可视化将数据信息和知识转换为一种(),在信息可视化中充分利用了人们对可视模式快速识别度自然能力。[单选题]*A关系形式B网络形式C.数据形式D.视觉形式(正确答案)38.38(1.0分)xls格式的文件主要是指()[单选题]*A.模型B.文档C.MicrosoftExcel工作表(正确答案)D.图片39.(1.0分)使用Kettle还可以抽取在网络传输中常用的json文件,只是需要自行设置json文件的()[单选题]*A内容B.输入字段(正确答案)C.数据D.模型40.(1.0分)ModestMaps是一个可视化的()。[单选题]*A数据地图工具(正确答案)B.程序C.代码片段D.引擎41.(1.0分)在DataFrame中()表示对数据值进行累加[单选题]*A.cumsum(正确答案)B.reindexC.appendD.idxmax42.(1.0分)()表示Python中的一个内置函数,它能够将两个长度相同的列表合成一个关系对[单选题]*A.list()B.lip()C.zip()(正确答案)D.Downloader43.(1.0分)数字永远是枯燥的,而()却充满了生动性。[单选题]*A信息B数据C.文本D.图形图像(正确答案)44.(1.0分)关系数据库采用()作为数据的组织方式,自关系数据库诞生以来,它的发展十分迅猛,目前已成为占据主导地位的数据库管理系统[单选题]*A.外模型B.关系模型(正确答案)C.存储模型D.引擎45.(1.0分)ItemPipeline也叫作(),它的主要责任是负责处理由蜘蛛从网页中抽取的数据[单选题]*A请求响应B.数据管道(正确答案)C.对等管道D.都不是46.46(1.0分)在Kettle中的GetdataformXML的“内容”选项中的“循环读取路径”中输入:/feed/entry/content/m:properties,该路径是XML语法中的(),用于读取网页数据中的节点内容[单选题]*A.Xpath节点B.Xpath数据C.Xpath查询(正确答案)D.都不是47.(1.0分)Hadoop本质上起源于()的集群系统[单选题]*A.baiduB.Google(正确答案)C.ibmD.华为48.(1.0分)Flume是()提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统[单选题]*A.IBMB.SpiderC.ClouderaD.联想(正确答案)49.(1.0分)MySql中showdatabases含义是()[单选题]*A.运行数据库B.执行数据库C.查看数据库(正确答案)D.都不是50.(1.0分)()是描述数据的数据,是数据仓库的重要构件,是数据仓库的导航图,在数据源取、数据合库应用开发、业务分析以及数据仓库服务等过程中都发挥着重要的作用。[单选题]*A.主数据B.元数据(正确答案)C.干净的数据D.技术数据51.(1.0分)任意打开一个网页,鼠标右键单击,从弹出的快捷菜单中选择(),即可查看到该网页结构的相应代码[单选题]*A.运行B.打开C.执行D.检查(正确答案)52.(1.0分)语句read(表示要读取)[单选题]*A.文件的部分内容B.文件的代码C.文件的编码格式D.文件的全部内容(正确答案)53.(1.0分)DBMS根据数据模型对数据进行存储和管理,常用的数据模型主要包括有:层次模型、网状模型和()[单选题]*A.关系模型(正确答案)B.网络模型C.事件模型D.内模型54.(1.0分)在pandas中语句index为每个数据值创建了自定义的()[单选题]*A.名称B.定义C.索引(正确答案)D.行模式55.(1.0ScrapyEngine分)也叫作Scrapy(),它是爬虫工作的核心,负责控制数据流在系统中所有组件中的流动,并在相应动作发生时触发事件。[单选题]*A.界面B.发器C.操作器D.引擎(正确答案)56.(1.0分)HDFS是一个()系统[单选题]*A.分布式文件系统(正确答案)B.开放式文件系统C.大规模式文件系统D.小型文件系统57.(1.0分)HTTP协议采取的是()模型,该协议永远都是客户端发起请求,服务器回应响应[单选题]*A.请求响应(正确答案)B.应答C.对等D.都不是58.(1.0分)MySql创建数据库的命令是()。[单选题]*A.create(正确答案)B.quitC.showD.use59.(1.0分)pandas中处理csv文件的方法主要为read_csv0和()[单选题]*A.csv()B.tocsv()C.to_csv()(正确答案)D.都不对60.(1.0分)Python是一种()的解释型计算机程序设计语言[单选题]*A.面向对象(正确答案)B.结构化C.复杂D.单一61.(1.0分)爬虫的目地在于将目标()下载至本地,以便进行后续的数据分析[单选题]*A.网页数据(正确答案)B.文栏数据C.流式数据D.日志数据62.(1.0分)大数据可视化的实施是一系列数据的()过程[单选题]*A.执行B.实现C.运行D.转换(正确答案)63.(1.0分)下面哪一个不属于ETL的过程?()。[单选题]*A.提取B.转换C.加载D.读取(正确答案)64.(1.0分)在Python中的JSON库dumps0表示()[单选题]*A.解码B.递归执行C.编码(正确答案)D.都不是65.(1.0分)程序的()是不执行的语句,是用来注释给用户或者程序员自己阅读的[单选题]*A.注释语句(正确答案)B.搜索语句C.爬虫语句D.联想语句66.(1.0分)Hadoop适合处理()[单选题]*A.常见数据B.集成技术C.大规模数据(正确答案)D.小规模数据67.(1.0分)在pandas中()表示查找重复数据[单选题]*A.duplicated(正确答案)B.cleanedC.dropnaD.都不对68.(1.0分)ApacheStorm是()[单选题]*A.存储架构B.流处理框架(正确答案)C.内存框架D.以上都不是69.(1.0分)在Kettle中的“执行结果”中的()中查看该程序的运行结果[单选题]*A."运行这个转换"B."步骤度量"C."Previewdata"(正确答案)D."字段选择"70.(1.0分)使用plt.figure()函数可以创建一个()区域[单选题]*A.全局绘图(正确答案)B.局部绘图C.环形D.获取数据库71.(1.0分)下面哪些不是数据仓库的特点?()。[单选题]*A集成性B面向题C.为数据挖掘做准备D容易实现(正确答案)72.(1.0分)()是指从数据源中抽取对企业有用的或感兴趣的数据的过程,它的实质是将数据从各种原始的业务系统中读取出来,它是大数据工作开展的前提。[单选题]*A.数据准备B.数据读取C.数据抽取(正确答案)D.数据打印73.(1.0分)在DataFrame中()表示丢弃不需要的数据值[单选题]*A.drop(正确答案)B.reindexC.appendD.sort_index74.(1.0分)Mysql服务器一般默认为()[单选题]*A.hostB.SpiderC.DownloaderD.localhost(正确答案)75.(1.0分)在pandas中()表示清除所有缺失值。[单选题]*A.cleaned(正确答案)B.dropnaC.isnullD.fillna76.(1.0分)在pandas中如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论