《跨境电商B2B数据运营》课件-第2章 跨境电商数据的采集与预处理_第1页
《跨境电商B2B数据运营》课件-第2章 跨境电商数据的采集与预处理_第2页
《跨境电商B2B数据运营》课件-第2章 跨境电商数据的采集与预处理_第3页
《跨境电商B2B数据运营》课件-第2章 跨境电商数据的采集与预处理_第4页
《跨境电商B2B数据运营》课件-第2章 跨境电商数据的采集与预处理_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1.跨境电商数据的采集2.跨境电商数据的预处理第2章

跨境电商数据的采集与预处理第2章

跨境电商数据的采集与预处理1.跨境电商数据的采集跨境电商数据采集是指由预先设计的采集平台与系统程序自动采集跨境电商平台上的数据的过程。跨境电商大数据伴随消费者和企业的行为实时产生,广泛分布于跨境电商平台、社交媒体、智能终端、企业内部系统和其他第三方服务平台上。其类型多种多样,既包含客户交易信息、客户基本信息、企业的产品信息与交易信息,也包括客户评论信息、行为信息、社交信息和地理位置信息等。跨境电商数据的采集--概念第2章合法性及时性准确性有效性跨境电商数据的采集--原则第2章0100制订采集任务明确数据采集的指标范围和时间范围,确定数据采集的渠道、途径或部门。1确定采集方法及工具包括明确数据分析所涉及的关键指标,确定对应的数据类型,并据此选择合适的采集方法及工具。2跨境电商数据的采集--流程第2章采集数据明确数据采集渠道及采集方法后,根据具体需求和分析目标进行数据采集。3导出及保存数据数据采集如果是人工采集需要选择合适的格式导出和存放数据。40100跨境电商数据的采集--流程第2章采集竞争对手数据,可在电商平台采集一些公开数据。电子商务平台的网站日访问时间、访问次数、停留时间、访客来源等数据。通过对这些日志信息进行采集、分析,可以挖掘电子商务企业业务平台日志数据中的潜在价值。每个电商平台都有自己的数据库,在数据库中记录志中记录了访客IP地址、 着访客在平台上的注册时间、用户名、联系方式、地址等访客信息以及订单的交易时间、交易数量、交易金额等交易信息。通过数据库采集数据可以获取真实、直接的一手数据源。如果网站没有统计每天的咨询客户数、订单数等指标的功能,就只有通过日报表、周报表、月报表等工作报表进行相应的数据采集。网页数据采集网站日志采集数据库采集报表采集跨境电商数据的采集--来源第2章数据采集渠道来源渠道示例数据类型内部数据跨境电子商务平台、店铺后台阿里国际站、敦煌DHgate环球资源等跨境电商平台;数据分析、数据参谋等后台店铺数据工具、市场数据、产品数据运营数据、客户数据外部数据政府部门、行业协会、媒体国家级各地统计局、各类行业协会、报纸及新闻媒体等行业数据电商专业网站研究机构、数据网站雨果网、艾瑞咨询、阿里研究院等行业数据、产品数据客户数据指数工具、搜索引擎谷歌、谷歌趋势、百度指数等行业数据、产品数据客户数据、、、跨境电商数据的采集--来源第2章人工采集自动采集报表采集数据采集的方法跨境电商数据的采集--方法第2章报表采集自动采集人工采集是指运营者从各种跨境电商平台上通过“复制粘贴”的方式采集数据,一般平台的前台数据可以通过这种方式获取。跨境电商数据的采集--方法第2章自动采集报表采集跨境电商数据的采集--方法第2章采集竞争对手的竞品信息数据时,可以进入竞品详情页,人工采集方式获取竞品的标题、关键词、主图、款式、价格、评价等详细信息,复制到表格中进行整理和对比分析人工采集自动采集报表采集是指通过下载数据报表完成数据采集,主要用于下载店铺后台数据或独立站点数据采集。如速卖通店铺可以通过后台工具生意参谋实现数据报表的采集,如店铺的订单数据、流量数据、销售数据等。跨境电商数据的采集--方法第2章人工采集报表采集自动抓取是指使用网络爬虫工具或编写采集程序自动抓取平台数据,属于技术性的数据采集方式。自动抓取适用于数据量极大、重复性高的采集任务。常见的有使用网络采集器来实现数据的自动抓取。跨境电商数据的采集--方法第2章人工采集报表采集火车采集器(/)可以灵活迅速地抓取网页上散乱分布的数据信息,并通过一系列的分析处理,准确挖掘出所需数据。其采集原理是基于web结构的源代码提取,适用于几乎所有网页以及网页中能够看到的所有内容跨境电商数据的采集--方法第2章后裔采集器(/)优势在于具备强大数据搜集功能的同时,操作简单,无需编程基础。不仅能够进行数据的自动化采集,而且在采集过程中还可以对数据进行清洗。在数据源头即可实现多种内容的过滤。同时支持Windows、Mac和Linux全操作系统的采集器。人工采集报表采集跨境电商数据的采集--方法第2章人工采集报表采集跨境电商数据的采集--方法第2章芒果店长是一款多平台多网店集成化运营ERP平台,专业服务于跨境电商卖家一站式网店运营管理服务。为国内电商卖家提供深度打通电商平台、物流仓储与商家,通过电商大数据和云技术,提供优质货源、物流对接、仓库管理以及智能化网店运营等多维度服务。同时,与全球30余家主流电商平台实现无缝对接,支持300多家物流公司API接口,服务了超30万的跨境商家,日处理订单超350万+。八爪鱼采集器是一款通用的网页数据采集器,能够采集网页上所能看到或网页源码中有的文本信息。具有本地采集和云采集两种功能。使用本地采集即单机采集,可以实现绝大多数网页数据的爬取,并在采集过程中对数据进行初步清洗。云采集支持关机后通过云服务器运行采集任务,实现定时采集,实时监控,数据自动去重并入库,增量采集,自动识别验证码,API接口多元化导出数据以及修改参数。同时利用云端多节点并发运行,采集速度将远超于本地采集(单机采集),多IP在任务启动时自动切换还可避免网站的IP封锁,实现采集数据的最大化。人工采集报表采集跨境电商数据的采集--方法第2章User-Agent:

BaiduspiderDisallow: /爬虫权限申明大多数网站都有一个名为robots.txt的文档,用于判断是否可以禁止访客获取数据。对于没有设定robots.txt的网站,可以通过网络爬虫获取没有加密口令的数据,也就是该网站所有页面数据都可以爬取。以淘宝网为例,浏览器访问https:///robots.txt,淘宝网之前是允许了百度蜘蛛爬取其网站目录,而对于没有指定的用户,则是全部禁止爬取,代码如下:User-agent:*Disallow:

/*?*跨境电商数据的采集--方法第2章跨境电商数据的采集--方法第2章1.跨境电商数据的采集2.跨境电商数据的预处理第2章

跨境电商数据的采集与预处理第2章

跨境电商数据的采集与预处理2.跨境电商数据的预处理跨境电商数据的预处理--数据的类型第2章2结构化程度结构化数据半结构化数据非结构化数据3被描述对象与时间的关系时间序列界面型数据面板数据1来源一手数据二手数据4变量值是否连续连续型数据离散型数据5采用计量尺度定性(品质)数据定量(数值)数据数据的类型选择数据子集选中需要做数据分析的列。当数据的列比较多时,可以使用隐藏功能把不需求分析的列隐藏起来。选中要分析的数据范围,利用Excel的“删除重复项”功能删除重复项。删除重复项缺失值处理在Excel中选中某一列,查看右下角显示的统计数目,通过和其他列的项目做对比可得知该列是否有缺失。数据进行拆分从而实现命名的一致化。一致化处理指数据要有统一的规范命名,可以对利用Excel的“函数”功能计算数据的平均值或者求和,从而对数据进行排序。数据排序下拉菜单所列出的数据类型中,可以查看是否有异常的数值。异常值查看处理通过Excel的“筛选”功能来查看数据是否有错误。在“筛选”跨境电商数据的预处理--数据的处理第2章表示为空值或错误标识

符(#DIV/0!),为保证数据的完整性,

可以通过统计学方法查找缺失数据并对其进行清洗。重复数据的处理,

一般有条件格式法、高级筛选法、函数法、数据透视表法等多种处理方法。对异常数

据的处理,

首先需要查

找和识别数

据异常的原因,才能够准

确处理。常用数据清洗方法缺失数据通常跨境电商数据的预处理--数据的处理第2章重复数据处理异常数据处理观测对象个别信息记录不完全观测对象所有信息均缺失跨境电商数据的预处理--数据的处理第2章或者某个数据在多个变量上都有缺失,数据集中且缺失数据仅占全部数据很小比例直接删除加权调整将本赋予给缺失数据的权数分摊到已获取的数据身上,前提是已获得数据与缺失数据之间没有显著差异将有缺失数据的记录保留用样本统计数据代替缺失数据用一个统计模型计算出来的数据代替缺失数据异常数据处理直接删除包括实体重复和字段重复缺失数据处理跨境电商数据的预处理--数据的处理第2章重复数据处理缺失数据处理回溯数据源数据真实,不修改但需密切关注数据错误,修改根据经验判定是否修改如需修改,参考数据不完整的处理方法无法回溯根源与同属性数据间差异明显跨境电商数据的预处理--数据的处理第2章数据不一致:同一主体不同表述。回溯数据源,进行字段合并。数据转化:定性数据转化为定量数据。数据标准化,数据的代数运算,数据的离散化。跨境电商数据的预处理--数据的处理第2章跨境电商数据的预处理--数据的处理第2章跨境电商B2B数据运营--

缺失数据处理

--第一步,按“Ctrl+A”组合键全选数据表单元格区域,再按“Ctrl+G”组合键,打开“定位”对话框,单击“定位条件”按钮。第二步,在弹出“定位条件”对话框中,单击“空值”单选按钮,然后单击“确定”按钮。即自动定位到表格中的空值单元格。跨境电商数据的预处理--数据的处理第2章跨境电商B2B数据运营--

缺失数据处理

--跨境电商数据的预处理--数据的处理第2章跨境电商B2B数据运营--

重复数据处理

--(1)条件格式法打开数据表格文件,第一步,选中表格中的A列数据,即SKUID,在“开始”选项卡下的“样式”组中单击“条件格式”下拉按钮,选择“突出显示单元格规则”>“重复值”选项。跨境电商数据的预处理--数据的处理第2章跨境电商B2B数据运营--

重复数据处理

--(1)条件格式法第二步,

在弹出的“

重复值”

对话框中,

在“

设置为”

下拉列表框中选择“

浅红填充色深红色文本”。跨境电商数据的预处理--数据的处理第2章跨境电商B2B数据运营--

重复数据处理

--(1)条件格式法突出显示重复的SKU编号第三步,单击“确定”按钮,即可标记所有重复的SKU编号。跨境电商数据的预处理--数据的处理第2章跨境电商B2B数据运营--

重复数据处理

--(1)条件格式法第四步,选中重复的SKU编号其中一行,比如19行,按住键盘上“Ctrl”键的同时单击选中重复的SKU编号其中一行26行,单击鼠标右键,在弹出菜单中选择“删除”,即可将重复数据进行清理。(2)高级筛选法第一步,选择任一数据单元格,

在“数据”选项卡下的“排序和筛选”组中单击“高级”按钮,弹出“高级筛选”对话框;跨境电商B2B数据运营--

重复数据处理

--跨境电商数据的预处理--数据的处理第2章跨境电商B2B数据运营--

重复数据处理

--(2)高级筛选法第二步,完成上一步操作后,此时系统会自动选中所有数据区域,勾选“选择不重复的记录”复选框,然后单击“确定”按钮。即可筛选出所有不重复的记录,重复记录被自动隐藏。跨境电商数据的预处理--数据的处理第2章(3)函数法在“SKUID”列右侧插入列,

可命名为“重复标记”,在B2单元格中输入公式“=COUNTIF($A$2:A2,A2)”,利用填充柄向下填充公式,即可得出相应的SKU编号出现了几次。跨境电商数据的预处理--数据的处理第2章跨境电商B2B数据运营--

重复数据处理

--1.跨境电商数据的采集2.跨境电商数据的预处理第2章

跨境电商数据的采集与预处理第2章

跨境电商数据的采集与预处理案例情景CASE沃金公司长期经营女装服饰类产品,主营产品为外贸婚纱礼服类,近期外贸婚纱礼服类产品市场低迷,月销售额连续下滑,为拓展公司业务,改善经营业绩,市场部决定在近期增加产品种类,计划在“女式运动卫衣”“女式休闲套装”“女式休闲风衣”三类商品中选择一种,选择依据主要是商品近一年的用户关注度高,目标客户群体基数大。要求数据分析人员针对该分析需求撰写数据采集与整理方案。案例情景第2章一、任务分析对“女式运动卫衣”“女式休闲套装”“女式休闲风衣”三类商品进行分析,分析依据为商品的用户关注度和目标用户群体基数。该商品店铺在国际站平台开设,在国际站平台中用户关注度数据可参考产品人气榜和关键词人气榜等数据,目标用户群体基数可参照访客榜等,这些指标可以通过速卖通后台【数据分析】工具获取,也可以通过谷歌趋势进行产品搜索热度和趋势进行分析。案例情景第2章开始采集数据数据采集整理方案1采集数据3制订采集任务明确数据分析目标确定数据指标类型确定采集渠道及方法2二、数据采集流程回顾案例情景第2章背景介绍数据分析指标数据分析目标渠道及方法三、数据采集整理方案构成案例情景第2章背景介绍背景介绍主要是让项目参与人员了解该数据项目的来龙去脉,明确分析的环境和所处情况。通常是描述运营过程中出现的具体问题。数据分析目标数据分析的目标是解决相对应的业务问题,因此,要对运营部门出现的问题分析问题产生的原因。三、数据采集整理方案构成案例情景第2章数据来源渠道及数据采集工具明确所需数据、数据采集渠道,并据此选择合适的采集方法及工具。三、数据采集整理方案构成数据分析指标根据总体分析目标和任务需求,确定数据采集的指标类型和具体指标。包括明确数据分析所涉及的关键指标,确定对应的数据类型。案例情景第2章步骤1,介绍任务背景根据案例,本次任务是由于近期外贸婚纱礼服类产品市场低迷,月销售额连续下滑,公司决定拓展业务,增加产品种类。步骤2,明确数据分析目标根据市场部的业务需求,可以确定本次数据分析任务的目标为:

分析“

女式运动卫衣”“女式休闲套装”“女式休闲风衣”三类商品的用户基数及用户关注度。案例情景第2章步骤3,数据指标确定在数据分析中用户关注度和用户基数不属于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论