《统计与数据分析基础》数据采集_第1页
《统计与数据分析基础》数据采集_第2页
《统计与数据分析基础》数据采集_第3页
《统计与数据分析基础》数据采集_第4页
《统计与数据分析基础》数据采集_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据采集《统计与数据分析基础》&人民邮电出版社02目录/Contents2.12.22.32.4数据的类型与来源数据采集的流程与方法常用数据采集工具推荐课堂实训——使用八爪鱼采集招聘数据2.1.1数据的类型图数据的类型2.1.2数据的来源一手数据也称原始数据,是指通过直接调查或科学实验等方式直接获取的数据。具体而言,采取实验观察、问卷调查、抽样调查等方法可以获取一手数据,如图2-2所示。1.一手数据图一手数据的获取方法2.1.2数据的来源二手数据即他人通过调查或实验取得的数据,如从统计年鉴中获取的居民消费价格指数、从房地产管理部门数据库获取的房价数据等。2.二手数据根据渠道的不同,数据的来源还有内部数据和外部数据之分。内部数据主要包括组织或个人在生产或生活中形成的各种数据;外部数据则是非组织或个人直接产生的数据。专家点拨目录/Contents2.12.22.32.4数据的类型与来源数据采集的流程与方法常用数据采集工具推荐课堂实训——使用八爪鱼采集招聘数据2.2.1数据采集的流程在采集数据之前,应该清楚需要采集什么样的数据和采集数据的目的,这样才能根据需求和分析对象开展数据采集工作,其基本流程如图2-3所示。图数据采集的基本流程2.2.2数据采集的方法1.问卷调查(1)问卷内容不能过多,题目应当简洁明了,让受访对象感觉可以不用花费过多时间就能完成调查任务。(3)问题的答案选项不能过多,一般应以多项式或等级式的方式显示,方便受访对象填写。(2)问题设计应紧扣受访对象的行为、态度和基本信息等方面。一些敏感信息可以通过物质刺激的方式获取,如要求受访对象填写手机号码一栏,可以不用强制填写,但如果填写,会将优惠券以短信形式发送到手机上以供使用。2.2.2数据采集的方法就线上采集而言,首先应充分利用线上平台现有的下载功能直接下载数据;如果不具备该功能,则可考虑通过复制粘贴的方式采集到需要的数据对象;如果复制操作也无法实现,则考虑使用各种数据爬取工具爬取数据。就目前而言,由于互联网科技的不断发展,大数据应用越来越广泛,因此线上采集数据的方式显得更加可行和高效。2.下载、复制与爬取目录/Contents2.12.22.32.4数据的类型与来源数据采集的流程与方法常用数据采集工具推荐课堂实训——使用八爪鱼采集招聘数据2.3.1生意参谋登录到淘宝、天猫等阿里巴巴电商平台后,单击上方导航栏中的“千牛卖家中心”超链接,然后在显示的页面左侧单击“数据中心”栏中的“生意参谋”超链接,如图2-5所示,即可进入生意参谋数据分析与采集平台,单击该平台导航栏中的不同功能选项卡,则可进入到对应的功能板块。1.基本功能概述图生意参谋入口2.3.1生意参谋生意参谋中的数据可以通过复制粘贴的方式采集到Excel中,其操作非常简单,只需设置需要显示的数据内容,然后拖曳鼠标复制数据,然后在Excel中进行粘贴即可。2.数据采集方法图采集行业数据1TOP1:采集行业数据2.3.1生意参谋图采集行业数据22.3.1生意参谋TOP2:粘贴数据2.3.2京东商智京东商智可以对店铺的流量、商品、交易、服务、供应链和客户等数据进行全方位分析。1.基本功能概述概览实时图

京东商智首页的核心指标区域2.3.2京东商智实时流量商品1.基本功能概述图

京东商智的搜索关键词分析界面2.3.2京东商智交易服务供应链客户行业1.基本功能概述图

京东商智的交易分析界面2.3.2京东商智竞争1.基本功能概述图

京东商智的行业分析界面2.3.2京东商智2.数据采集方法图

通过下载方式采集数据与生意参谋相比,京东商智在采集数据方面更加人性化,当需要采集数据时,只需在相应的功能板块中设置需要采集的日期后,单击界面右上角的

按钮,即可根据向导提示将数据保存下来,如图2-16所示。2.3.3店侦探1.基本功能概述监控中心关键词分析监控店铺分析此功能主要用于添加并管理监控的店铺和商品。例如,要添加监控店铺时,首先需要注册并登录店侦探网站,单击左侧导航栏中的“监控中心”功能下的“店铺管理”超链接,然后单击右侧的”添加监控店铺”

按钮,此时将打开添加监控店铺的对话框,在其中的文本框中输入或复制竞争店铺的某一款商品的网址,然后依次单击“预览店铺”和“添加监控”按钮即可添加该竞店单击店侦探顶部导航栏中的“全网展示词”超链接,在显示的页面中输入需要分析的关键词,如“新款”,单击“搜索”按钮即可显示淘宝和天猫的关键词综合搜索排名情况单击店侦探左侧导航栏中的“监控店铺分析”功能,在展开的目录中即可分析竞店的各种数据,包括竞店整体状况分析、销售分析、流量来源分析、活动分析、宝贝分析等。使用方法为:单击某个分析超链接,展开其下的子目录,然后单击对应的超链接即可。2.3.3店侦探2.数据采集方法在店侦探中,可以利用“导出数据”按钮或“导出”按钮将当前界面中的数据采集到计算机中,方法为:单击“导出数据”按钮或“导出”按钮,自动启动已有的下载软件,设置文件下载后的保存名称和保存位置即可。采集到的数据将保存在Excel表格中,需要时便可打开该表格进行处理和分析。2.3.4八爪鱼采集器八爪鱼采集器内置了大量的采集模板,模板中已经设置好采集任务和采集内容,启用模板就能快速完成数据采集工作。1.模板采集【实验室】采集京东商品搜索数据TOP1:登录八爪鱼采集器TOP2:新建模板任务2.3.4八爪鱼采集器TOP4:选择采集模板TOP3:选择网站模板2.3.4八爪鱼采集器TOP5:所选模板详情2.3.4八爪鱼采集器TOP6:设置任务的基本信息和配置参数TOP7:选择采集方式2.3.4八爪鱼采集器TOP8:显示采集过程TOP9:数据采集完成2.3.4八爪鱼采集器TOP10:选择导出方式TOP11:设置保存位置和名称2.3.4八爪鱼采集器TOP12:导出数据TOP13:采集到的数据2.3.4八爪鱼采集器2.自动识别【实验室】通过自动识别采集租房数据TOP1:自定义采集任务2.3.4八爪鱼采集器TOP2:新建任务TOP3:自动识别网页数据2.3.4八爪鱼采集器TOP4:完成识别TOP5:页面滚动设置2.3.4八爪鱼采集器TOP6:设置翻页采集数据TOP7:删除字段2.3.4八爪鱼采集器TOP8:修改字段名称TOP9:删除数据2.3.4八爪鱼采集器TOP10:调整字段排列顺序TOP11:生成采集设置2.3.4八爪鱼采集器TOP12:开始采集数据TOP13:本地采集2.3.4八爪鱼采集器TOP14:停止采集TOP15:确认停止采集数据2.3.4八爪鱼采集器TOP16:导出数据TOP17:去掉重复数据TOP18:选择导出方式TOP19:设置保存位置和名称2.3.4八爪鱼采集器TOP20:采集到的数据2.3.4八爪鱼采集器3.手动采集如果需要采集数据的网页既没有模板,也无法识别,则可以通过手动采集的方式采集数据。其方法为:新建采集任务,取消自动识别数据的状态,手动采集需要的各个字段,设置字段名称和位置,然后采集数据并导出到Excel中即可,其流程如图2-53所示。图

手动采集数据的流程2.3.5火车采集器1.普通网址采集【实验室】采集豆瓣图书数据TOP1:登录火车采集器TOP2:新建采集任务TOP3:复制网址2.3.5火车采集器TOP4:审查元素TOP5:查看代码TOP6:继续查看代码TOP7:设置过滤条件TOP8:采集测试2.3.5火车采集器TOP9:继续设置过滤条件TOP10:再次测试TOP11:修改字段名称TOP12:继续修改字段名称2.3.5火车采集器TOP13:添加字段TOP14:复制代码TOP15:粘贴代码2.3.5火车采集器TOP16:设置前后字符串TOP17:设置代码TOP18:继续设置代码2.3.5火车采集器TOP19:测试成功TOP20:设置保存参数TOP21:打开文本文件模板TOP22:设置模板内容2.3.5火车采集器TOP23:设置文件保存位置TOP24:保存采集任务TOP26:查看采集到的数据TOP25:开始采集数据2.3.5火车采集器2.批量网址采集TOP1:批量网址设置向导TOP3:设置参数变化规则TOP2:复制网址TOP4:保存任务目录/Contents2.12.22.32.4数据的类型与来源数据采集的流程与方法常用数据采集工具推荐课堂实训——使用八爪鱼采集招聘数据2.4.1实训目标及思路本次实训将在BOSS直聘网站中采集与“室内设计师”相关的招聘信息,需要采集到公司名称、成立时间、法人代表、招聘职位、月薪等数据。采集时将涉及到详情页内容的采集,具体操作思路如图2-84所示。2.4.2操作方法TOP1:复制网址TOP2:新建任务2.4.2操作方法TOP3:建立任务TOP4:取消自动识别2.4.2操作方法TOP5:选择网页元素TOP6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论