




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、5、大数据具有以下特征数据采集与处理-题库带答案1、 ( )是指对客观事件记录的符号,是对客观事物的性质、状态及相互关系等进行记载 的物理符号或这些物理符号的组合。2、在数据表中,表的“列”称为( )3、在数据表中,表的“行”称为( )4、数据表是由行(记录)和列(字段)构成,因此也称( )6、数据的获取途径有( )7、产品自有数据就是自身产品销售过程中产生的数据。 8、调查问卷是以问题的形式系统的记载调查内容的一种印件。 9、互联网数据分布在网页的不同位置,我们很难采集下来。 10、Excel 是按照数据结构来组织,存储和管理数据的仓库。 11、商务数据指用户在电子商务网站购买商品的过程中,
2、网站记录用户行为的大量数据。 12、商务数据包括( )13、商品数据一般包括( )14、采集交易数据主要是为了通过数据分析评估客户价值,将潜在客户变为价值客户。 15、评价数据主要以图片的形式出现。 16、新闻网站有( ) 17、社交网站有 ( )18、商务数据可用于多种行业( ) A、 B、 A、 B、 20、商务数据不同帮助企业和个人共享客户信息。 21、商务数据的来源包括( )22、B2B 是企业对企业之间通过互联网进行产品、服务及信息的交换。 23、B2C 是个人对企业开展的电子商务活动。 24、下列常用的 B2C 平台有( )常见的 C2C 平台有( )里巴巴咸鱼ay26、社交电商指
3、基于社交关系、利用互联网社交媒介实现电子商务中的流量获取、商品推广和交易等其中一个或多个环节,产生间接或直接交易行为的在线经营活动。27、抖音属于社交内容电商。28、社交分享电商主要包括( )29、O2O 电商模式是线上(Online)引流线下(Offline)消费模式。30、O2O 数据主要有O2O 电商平台数据和展销平台组成。 31、数据采集又称数据获取,是利用设备或技术手段从现实环境及网络获取数据并放入系部进行使用。32、大多数互联网页编写都是用 HTML 语言。33、电子商务数据主要归类为( )34、配置一种采集任务可以采集多个数据源。35、防采集措施有( )36、常见的采集方法包括
4、web 爬虫采集和 API 接口采集。 37、Web 爬虫主要分为通用网络爬虫和聚焦网络爬虫。 38、通用网络爬虫基本工作流程包含( ) 39、调用网站自身提供的应用程序编程接口,可以实现网络数据采集。 40、数据的存储方式有( ) 41、数据采集工具分为编程类和可视化采集工具两类。 42、数据采集工具可以针对某个主题从微博爬取相关信息。 43、数据采集工具不能爬取学术信息。 44、常见的爬虫语言有( ) 45、Python 是一款服务器端解释性开源非编译脚本语言。 46、数据采集器是进行数据采集的机器或者工具。 47、数据采集器建立的任务也称之为规则。 48、数据采集器采集不同字段时,建立一
5、种规则就可以了。 49、数据采集器不能采集以下哪种数据( ) 50、哪种不是数据采集器51、简易采集模式是利用系统内置模板进行数据采集的模式。 52、简易采集可根据不同的参数进行不同程度的自定义采集。 53、简易采集模板所有用户都可以使用。 54、单页采集只能采集列表数据。 56、单网页采集主要是采集一个网页中的数据。 57、列表详情页数据采集比单网页数据采集复杂。 58、列表详情页需要从每个商品的标题进入到商品的详情页。 59、采集列表详情页数据不需要循环步骤。 情页;启动本地采集;62、如果想使用云服务集群进行采集,可以选择启动云采集;63、数据导出可以导出的文件类型为( )64、文本循环
6、是通过输入关键字采集跟关键字相关的数据。 65、URL 循环是通过使用多个 URL 地址进行数据采集。 66、循环采集包括( ) 或68、分页循环采集是指把一页数据分成多页进行采集。69、网址中有多个页面需要采集叫分页循环采集。 70、点击页面上的 “下一页” 按钮翻页,是最常见的翻页方式。 71、需要登录时就不能进行采集。 e;74、采集器无法识别验证码。;76、Cookie 登录的方式不需要输入账号和密码,直接打开网页就是登录状态。77、Cookie 登录中Cookie 长期存在,所以是登录采集中,最方便的采集方式。 或据或80、ajax 即、异步更新的一种脚本技术。延时加载;81、aja
7、x 可以通过在后台与服务器进行少量数据交换,可以重新加载整个网页。 82、使用 ajax 技术的网页,点击网页中某个按钮或下拉页面,网址一般不发生改变,网址 栏不出现加载状态,但网页局部有新的数据加载出来,有所变化。83、Ajax 技术包括( )84、Ajax 点击可以对一个按钮进行多次点击。 85、如果设置了 ajax 技术的网页,在采集设置时,没有勾选 ajax 加载,则不能进行采集。 86、Ajax 滚动包括( ) 88、XPath 语言,也称为 HTML 路径语言。 ;Path;91、HTML 称为超文本标记语言。 ;93、节点有多种类型,分别是( )94、节点关系是指节点与节点之间的
8、关系,通过包含与被包含关系区分。 路径表达式; ;择/; /.;/.; ; 符合限制的元素,使用中括号“ ”表示。位置;属性;内容; t108、哪些行业需要用到数据采集( )109、使用采集器采集需要大量的专业知识。110、个人进行数据采集是,主要用于( ) 111、在公安经侦领域通过对网络敏感信息监控比对管理,帮助公安经济侦查工作的开展和提供数据层面的支持。112、商务数据采集多用于采购分析、市场分析、项目运行和论文编写。113、数据的质量因素包括 可信性和可解释性准确性 ;完整性;一致性;时效性;相关性;114、数据的质量问题从采集的角度划分,可分为( )115、数据的质量问题从应用的角度
9、划分,可分为( )116、数据的质量问题从用户使用的角度划分,可分为( )117、准确性是指数据是否正确的,数据存储在数据库中的值是否对应于真实世界的值。 118、某用户在使用支付宝绑定银行卡时,网站要求验证用户的真实姓名和身份证号码。这 时要求采集的数据必须有( )119、数据质量完整性是指信息具有一个实体描述的所有必需的部分 120、空值是指缺失或不知道具体的值,可能是一条记录中的某个属性缺失,也可能是整条 121、数据质量的数据一致性是指在数据库中,不同表中存储和使用的同一数据应当是等价 的,表示数据有相等的值和相同的含义。122、数据质量的数据相关性是指数据与特定的应用和领域有关。 1
10、23、数据质量的时效性是指有些数据会随时间而变化的 124、数据质量的可信性由三个因素决定:数据来源的权威性、数据的规范性、数据产生的 125、数据质量的可解释性,也称为可读性,是指数据被人理解的难易程度 126、数据处理的 4 大流程步骤中的一个大体流向图,就是( ) 127、由于操作员重复录入,并发处理等不规范的操作,导致产生不完整,不准确的,无效 的数据也可以用在数据分析里。128、数据的缺失值是指现有数据集中某个或某些属性的值时不完整的。 129、处理空缺值的基本方法有 6 种,包括忽略元组、人工填写空缺值、使用全局常量替换 性的中心度量填充空缺值、使用与给定元组属同一类的所有样本的平
11、均值来填充空缺值、使用最可能的值填充空缺值。130、若一条记录中有多个属性值被遗漏了,则可将该记录排除在数据挖掘之外。 131、噪声数据是指一个测量变量中的随机错误或偏差 132、噪声数据也可以用于数据挖掘进行分析。 133、孤立点的是不符合数据模型的数据。 134、孤立点并不真实存在,是人们无意中弄出的偏差比较大的数据。 135、处理噪声数据可以使用( )方法。 数据源。137、数据集成的方法有( )138、数据仓库是数据集成最常用的方法 139、数据仓库来集成数据时需要处理的问题包括( ) 140、实体识别,它所解决的问题是如何匹配多个信息源在现实世界中的实体事物 141、数据规约就是为了
12、压缩数据量,帮助从原有庞大数据集中获得一个精简的数据集合, 并使这一精简数据集保持原有数据集的完整性。142、数据规约的策略有( )143、主成分分析也称主分量分析 ,旨在利用降维的思想,把多指标转化为少数几个综合指标使用简易模式采集任意网站数据144、属性子集选择,主要用于检测并删除不相关、弱相关或冗余的属性。目的是找出最小 属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布145、数量规约中有参数的方法一般使用( )146、数量规约中无参数的方法一般使用( ) 148、数据变换的方法有很多种,包括光滑、属性构造、聚集、数据规范化、数据离散化、 概念分层等149、数据规范化包括
13、( )要求:叙述采集步骤或使用采集器采集数据截图 152、安装 kettle,必须先安装 jdk (java 的运行环境)。 153、安装 jdk 之后需要配置环境变量才能使用。 155、 ( )是转换里的基本组成部分。它是一个图形化的组件,可以通过配置步骤的参 数,使得它完成相应的功能。156、Kettle 中的( )定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。158、Excel 的数据可分为结构化的表格数据和非结构化的表格数据。 159、Excel 是一种( ) 160、Excel 文件在 kettle 中可使用( )步骤,进行 excel 的输入输出 162、“Excel 输
14、出”步骤,仅能输出 Excel 97 版本的文件。 163、JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。 164、JSON 核心概念包括( )166、JsonPath 表达式有两种表示方法,分别是( )167、XML 指可扩展标记语言(EXtensible Markup Language) , XML 被设计用来传输和存 语言。169、数据库分为关系型数据库和非关系型数据库。 MySQL接参数与Oracle 的连接参数是完全相同的。 171、连接名称是设定一个在作业或转换范围内唯一的名称。 172、数据库连接步骤中在列表里可以
15、选择可用的访问方式有( )173、数据库连接时,一般连接参数包括( )174、数据清理,就是试图检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,去 175、Kettle 只能用单一的清洗步骤清洗工作,所以比较麻烦。 176、常用的转换步骤一般在( )177、字符串做剪切的功能,该步骤需要在剪切字符串版面添加需要剪切的( )A、 字符串字段(输入流字段)B、 输出字段(输出流字段)178、字符串替换(Replace in string)步骤对字符串做查找替换。 179、字符串操作功能包括( )180、能使用正则表达式的是( )181、拆分字段成多行(Split filed to rows)
16、可将一行记录拆分成多行记录,新的记录 里有一个新的字段,由拆分后的子字符串填充。182、拆分字段(Split Fields)根据分隔符将输入的一个字段拆分成多个字段。 183、合并字段(Concat Fields)将多个字段用分隔符连接起来输出到一个新的字段。 184、字段选择(Select values)可以对输入流的字段做选择、删除、重命名等操作,还 可以更改字段的数据类型和精度等。185、字段选择(Select values)有( ) 3 个选项卡。186、计算器步骤是一个函数集合来创建新的字段,还可以设置字段是否移除(临时字段) 187、流查询在查询前把数据都加载到内存中,并且只能进行
17、等值查询。 188、过滤记录让数据流从一路到两路。 189、重复数据产生原因有( )190、不完全重复数据,客观上表示现实世界中的同一实体,但由于表达方式不同或拼写错 误等原因,导致数据存在了多条重复记录。 序的,因为它是通过比较相邻记录 194、一个作业包括一个或多个作业项,这些作业项以某种顺序来执行。 195、作业的组成包括( )196、作业项结果有两个作用,一是决定作业的执行路径,二是向下一个作业项传递一个结 197、作业跳是作业项之间的连接线,定义了作业的执行路径。 行结果是唯一的。 200、作业中的变量代表一个任意长度的字符串值。 201、变量的格式是$变量名或者%变量名%。 202
18、、数据的质量因素包括 可信性和可解释性准确性 ;完整性;一致性;时效性;相关性;203、数据的质量问题从采集的角度划分,可分为( )204、数据的质量问题从应用的角度划分,可分为( )205、数据的质量问题从用户使用的角度划分,可分为( )206、准确性是指数据是否正确的,数据存储在数据库中的值是否对应于真实世界的值。 207、某用户在使用支付宝绑定银行卡时,网站要求验证用户的真实姓名和身份证号码。这 时要求采集的数据必须有( )208、数据质量完整性是指信息具有一个实体描述的所有必需的部分 209、空值是指缺失或不知道具体的值,可能是一条记录中的某个属性缺失,也可能是整条 210、数据质量的
19、数据一致性是指在数据库中,不同表中存储和使用的同一数据应当是等价 的,表示数据有相等的值和相同的含义。211、数据质量的数据相关性是指数据与特定的应用和领域有关。 212、数据质量的时效性是指有些数据会随时间而变化的 213、数据质量的可信性由三个因素决定:数据来源的权威性、数据的规范性、数据产生的 214、数据质量的可解释性,也称为可读性,是指数据被人理解的难易程度 215、数据处理的 4 大流程步骤中的一个大体流向图,就是( ) 216、由于操作员重复录入,并发处理等不规范的操作,导致产生不完整,不准确的,无效 的数据也可以用在数据分析里。217、数据的缺失值是指现有数据集中某个或某些属性
20、的值时不完整的。 218、处理空缺值的基本方法有 6 种,包括忽略元组、人工填写空缺值、使用全局常量替换 性的中心度量填充空缺值、使用与给定元组属同一类的所有样本的平均值来填充空缺值、使用最可能的值填充空缺值。219、若一条记录中有多个属性值被遗漏了,则可将该记录排除在数据挖掘之外。 220、噪声数据是指一个测量变量中的随机错误或偏差 221、噪声数据也可以用于数据挖掘进行分析。 222、孤立点的是不符合数据模型的数据。 223、孤立点并不真实存在,是人们无意中弄出的偏差比较大的数据。 224、处理噪声数据可以使用( )方法。 数据源。226、数据集成的方法有( )227、数据仓库是数据集成最
21、常用的方法 228、数据仓库来集成数据时需要处理的问题包括( ) 229、实体识别,它所解决的问题是如何匹配多个信息源在现实世界中的实体事物 230、数据规约就是为了压缩数据量,帮助从原有庞大数据集中获得一个精简的数据集合, 并使这一精简数据集保持原有数据集的完整性。231、数据规约的策略有( )232、主成分分析也称主分量分析 ,旨在利用降维的思想,把多指标转化为少数几个综合指标 233、属性子集选择,主要用于检测并删除不相关、弱相关或冗余的属性。目的是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布234、数量规约中有参数的方法一般使用( )235、数量规约中无参数
22、的方法一般使用( )可 237、数据变换的方法有很多种,包括光滑、属性构造、聚集、数据规范化、数据离散化、 概念分层等238、数据规范化包括( ) 240、安装 kettle,必须先安装 jdk (java 的运行环境)。 241、安装 jdk 之后需要配置环境变量才能使用。 ETLKettle 243、 ( )是转换里的基本组成部分。它是一个图形化的组件,可以通过配置步骤的参 数,使得它完成相应的功能。244、Kettle 中的( )定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。246、Excel 的数据可分为结构化的表格数据和非结构化的表格数据。247、Excel 是一种( )2
23、48、Excel 文件在 kettle 中可使用( )步骤,进行 excel 的输入输出250、“Excel 输出”步骤,仅能输出 Excel 97 版本的文件。251、JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。252、JSON 核心概念包括( )n254、JsonPath 表达式有两种表示方法,分别是( ) 255、XML 指可扩展标记语言(EXtensible Markup Language) , XML 被设计用来传输和存 ageXML语言。257、数据库分为关系型数据库和非关系型数据库。258、MySQL 数据的连接
24、参数与Oracle 的连接参数是完全相同的。259、连接名称是设定一个在作业或转换范围内唯一的名称。260、数据库连接步骤中在列表里可以选择可用的访问方式有( )261、数据库连接时,一般连接参数包括( )262、数据清理,就是试图检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,去 263、Kettle 只能用单一的清洗步骤清洗工作,所以比较麻烦。 264、常用的转换步骤一般在( )265、字符串做剪切的功能,该步骤需要在剪切字符串版面添加需要剪切的( )A、 字符串字段(输入流字段)B、 输出字段(输出流字段)266、字符串替换(Replace in string)步骤对字符串做查找替换。 267、字符串操作功能包括( )268、能使用正则表达式的是( )2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 航空器飞行器航空器飞行器航空器结构与振动分析考核试卷
- 职业中介服务礼仪与形象塑造考核试卷
- 外贸英语函电与单证课件
- 探索地理奥秘
- 拉萨师范高等专科学校《基础护理学基本技能2》2023-2024学年第二学期期末试卷
- 秦皇岛市山海关区2025届六年级下学期小升初招生数学试卷含解析
- 南阳职业学院《临床诊断与基本技能学(1)》2023-2024学年第二学期期末试卷
- 江苏省无锡市长泾片2025届下学期初三物理试题第二次模拟考试试卷含解析
- 通化市柳河县2025届四年级数学第二学期期末综合测试试题含解析
- 克孜勒苏职业技术学院《大学德语Ⅰ》2023-2024学年第一学期期末试卷
- 保险学(第五版)课件 魏华林 第9、10章 再保险、保险经营导论
- 田忌赛马何捷教学设计
- 人工智能原理与技术智慧树知到课后章节答案2023年下同济大学
- 某高速公路岩土工程勘察报告
- SL631-637-2012-水利水电工程单元工程施工质量验收评定标准
- 项目管理课件
- 人教版七年级生物下册《血流的管道-血管》评课稿
- 装配式建筑施工技术PPT(高职)完整全套教学课件
- 涉诈风险账户审查表
- 门诊办运用PDCA提高门诊预约挂号率品管圈成果汇报
- 市场开拓委托合同书
评论
0/150
提交评论