版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据分析与应用跨境电商教材编写团队Crossbordere-commerceCORSSBORDERE-COMMERCERESEARCHANDANALYSISCrossbordere-commerce跨境电商数据采集、清洗及处理OverviewofCrossborderE-commerceDataAnalysis项目二E-commerce跨境电商数据采集、清洗及处理知识目标掌握跨境电商数据采集的相关知识。熟悉跨境电商数据清洗的相关知识。掌握跨境电商数据处理的相关知识。技能目标能够利用数据分析工具Excel完成跨境电商数据的采集工作。能够利用数据分析工具Excel完成跨境电商数据清洗的相关工作。能够利用数据分析工具Excel完成跨境电商数据处理的相关工作。素质目标通过对跨境电商市场数据的分析,培养学生的数据化思维能力。在分组完成实训任务过程中,培养学生的团队合作意识以及精益求精的职业素养。DSR采集机器人某跨境电商卖家,在大促活动之后,DSR评分(DetailSellerRating,店铺动态评分)经常处于低于行业水平的边缘。卖家需要把商品ID和对应的商品DSR分值抓取到Excel表中,以供分析哪些商品在售卖中出现了问题,及时调整销售策略,从而帮助提升店铺DSR评分。尽管市场上有商品DSR评价批量查询工具,但逐条输入商品ID再将信息复制粘贴到表中,仍然耗时费力。情景案例DSR采集机器人,可以自动查询商品ID并将与之对应的商品DSR分值批量录入本地Excel表中。方便查询店铺商品不同区间的描述评分,同时按照店铺物流评分升序排列。每次跨境电商活动结束后,运营团队的3个人都在查询商品DSR分值。然而使用采集机器人分配到1台电脑上,为公司节省了人力。使用DSR采集机器人进行商品DSR分值查询,准确率高,不会遗漏任何商品DSR分值。案例分析人工智能技术在跨境电商数据分析行业的应用越来越多,虽然采集机器可以代替=人们做很多工作,但对于跨境电商数据分析从业人员而言,掌握基本的跨境电商数据采集、清洗和处理技术也是十分有必要的。DSR采集机器人Crossbordere-commerce跨境电商数据采集Crossbordere-commercedatacollection跨境电商数据采集的定义跨境电商数据采集概述跨境电商数据采集也称为跨境电商数据获取,是指利用采集工具或者系统程序获取跨境电商平台数据的过程。用户与企业在利用跨境电子商务网站进行交易时,网站记录下大量的商务数据,不仅包含基于用户的浏览信息、消费信息、行为信息、评论信息、社交信息与地理位置信息等,还包含企业的商品信息以及交易信息。企业通过数据可以看到用户从哪里来,如何实现产品的高转化率,投放广告的效率等。跨境电商数据采集的原则跨境电商数据采集概述在进行数据采集时尽可能获取跨境电商的最新数据,只有将最新数据与往期数据进行比对,才能及时发现当前存在的问题,从而预测未来的变化趋势。及时性数据采集时确保所采集的数据准确无误,从而避免数据分析时出现较大的偏差。在数据分析过程中,一旦前期数据出现误差,会导致后续分析出现偏差。准确性数据采集过程中,需要注意数值期限的有效性。有效性数据采集过程中注意采集的合法性。合法性01020304跨境电商数据采集渠道跨境电商数据采集渠道与工具跨境电商数据采集渠道是数据有效性、准确性、可靠性的保证。常见的数据采集渠道可分为内部数据渠道和外部数据渠道两类。内部数据渠道是指获取自身运营过程中所产生的数据。外部数据渠道是指能够获取行业及竞争对手数据的数据渠道。常用的数据采集渠道如表:数据采集渠道类型采集数据类型典型代表企业或网站跨境电商平台行业数据速卖通、亚马逊等政府部门、机构协会、媒体行业数据国家及各级统计局、各类协会、电视台、报纸、杂志等权威的数据网站行业数据、产品数据艾瑞网、易观分析等跨境电商独立站、跨境电商店铺后台产品数据、市场数据、运营数据、人群数据等速卖通、亚马逊的后台,生意参谋、BusinessReports、Shopify等。跨境电商指数相关工具行业数据、人群数据GoogleTrends、GoogleAnalytics、百度指数等跨境电商数据采集工具选择跨境电商数据采集渠道与工具市面上的跨境电商数据采集工具在功能、用途、使用难易程度上虽有相同,但也各有差异,选择合适的跨境电商数据采集工具要从以下3方面进行考虑:卖家根据自身情况的不同,应当选择不同的数据采集工具。使用范围由数据采集工具所采集到的数据并不是真实的运营数据,而是对实际数据进行计算转化后得到的数据,数据类型有所差异,在选择该类数据采集工具时需要识别数据类型。数据类型需要根据采集需求选择对应的工具。功能需求跨境电商数据采集方法的种类跨境电商数据采集方法根据采集的需求不同,跨境电商数据采集的方法也有所不同。在跨境电商运营领域中,数据采集的方法可以分为以下4类。数据库数据采集数据库数据采集是指通过数据库采集系统直接与企业业务后台服务器结合,将企业业务后台每时每刻产生的大量业务记录写入数据库最后由特定的处理系统进行数据分析。系统日志数据采集系统日志中会记录企业业务平台日志数据。通过对这些信息进行采集、分析,可以挖掘出跨境电商企业业务平台数据中的潜在价值。互联网数据采集互联网数据分布于网页不同的位置,需要将互联网数据采集后导入本地文件,然后进行统一处理。调查问卷调查问卷是以问题形式系统记载调查内容的一种方式。跨境电商数据采集方法的种类跨境电商数据采集方法根据采集的需求不同,跨境电商数据采集的方法也有所不同。在跨境电商运营领域中,数据采集的方法可以分为以下4类。数据库数据采集数据库数据采集是指通过数据库采集系统直接与企业业务后台服务器结合,将企业业务后台每时每刻产生的大量业务记录写入数据库最后由特定的处理系统进行数据分析。系统日志数据采集系统日志中会记录企业业务平台日志数据。通过对这些信息进行采集、分析,可以挖掘出跨境电商企业业务平台数据中的潜在价值。互联网数据采集互联网数据分布于网页不同的位置,需要将互联网数据采集后导入本地文件,然后进行统一处理。调查问卷调查问卷是以问题形式系统记载调查内容的一种方式。跨境电商数据采集实例跨境电商数据采集方法为了能更好地理解如何利用数据采集工具实现数据采集,下面利用八爪鱼采集器实操演示爬取亚马逊平台上的一些商品评论信息。步骤1步骤2步骤3步骤4步骤5新建采集任务进行自定义任务的相关设置系统自动识别务调整或优化采集规则完成采集并导出数据任务小结通过该任务的学习,学生能够了解跨境电商数据采集的定义、掌握跨境电商数据采集的渠道与工具,并熟悉跨境电商数据采集的方法,为后续的学习做准备。任务评价评价内容自我评价(30分)同学互评(30分)教师评价(40分)分值平均分分值平均分分值平均分跨境电商数据采集的定义101010跨境电商数据采集的渠道与工具101010跨境电商数据采集的方法101020跨境电商数据采集评价表拓展实训以八爪鱼数据采集器为采集工具,采集某跨境电商网站上的一些商品评论信息。Crossbordere-commerce跨境电商数据清洗Crossbordere-commercedatacleaning跨境电商数据清洗的定义跨境电商数据清洗概述跨境电商数据清洗是指减少跨境电商数据文件中“脏数据”对数据分析和挖掘结果的影响,需要采用一些有效的措施对采集的跨境电商原始数据进行预处理。也可以说,是在跨境电商数据集中发现不准确、不完整或者不合理的数据,并对这些数据进行修补或移除以提高数据质量的过程。跨境电商数据清洗概述跨境电商数据清洗的方式跨境电商数据清洗原理是指利用有关技术,如数理统计、数据挖掘或预定义的清理规则,将“脏数据”转化为满足数据质量要求的数据。01清洗不必要的重复数据数据库中属性值相同的记录被认为是重复记录,通过判断记录间的属性值是否相同来检测记录是否重复,并将重复的记录合并为一条记录(即合并/清除)。02填充残失数据缺失值需要手动填入(即手动清洗)。某些缺失值可以从本数据源或者其他数据源中推导出来,可以用平均值、最大值、最小值或更为复杂的概率估计代替缺失值,从而达到清洗的目的。03检验逻辑错误数据用统计分析的方法识别可能的逻辑错误值或者异常值,如偏差分析、识别不遵守分布或者回归方程的值,或使用不同属性间的约束、外部的数据来检测和清洗数据。跨境电商数据清洗概述跨境电商数据清洗的流程跨境电商数据清洗的流程主要包括以下7步选择子集列名重命名删除重复项缺失值处理一致化处理数据排序异常值查看处理跨境电商数据清洗基本操作重复数据的处理要对源数据中的重复数据进行处理,需要先查找出是否存在重复的数据,如果存在,需要先将其找出来,然后再删除。数据透视表法数据透视表法是通过统计出现的频次大于等于2的数据的方式来统计重复项的方法。函数法函数法是指利用COUNTIF(range,criteria)函数对区域中满足单个指定条件的单元格进行计数。高级筛选法高级筛选法是利用Excel中“数据”选项卡中的高级筛选方式来删除重复记录。条件格式法条件格式法是利用Excel中“开始”选项卡的条件格式来找出重复数据。查找重复数据01040203跨境电商数据清洗基本操作重复数据的处理要对源数据中的重复数据进行处理,需要先查找出是否存在重复的数据,如果存在,需要先将其找出来,然后再删除。通过菜单操作删除重复项通过排序删除重复项通过筛选删除重复项删除数据跨境电商数据清洗基本操作缺失数据处理除重复数据外,还经常会遇到缺失数据的问题。如果缺失值过多,说明数据收集过程中存在着严重的问题。可以接受的标准是缺失值在10%以下。具体的处理操作步骤如下:查找缺失值的方式:利用定位输入。相关知识处理缺失值的4种方式用一个样本统计量的值代替缺失值。最典型的做法就是使用该变量的样本平均值代替缺失值。方式11用一个统计模型计算出来的值代替缺失值。常使用的模型有回归模型、判别模型等。方式22将有缺失值的记录删除,不过可能会导致样本量的减少。方式33将有缺失值的记录保留,仅在相应的分析中做出必要的排除。当调查的样本量比较大,缺失值的数量又不是很多,而且变量之间也不存在高度相关的情况下,采用这个方法处理缺失值比较可行。方式44任务小结通过该任务的学习,学生能够了解跨境电商数据清洗的基本定义,掌握跨境电商清洗的基本操作,为后续的学习做准备。任务评价评价内容自我评价(30分)同学互评(30分)教师评价(40分)分值平均分分值平均分分值平均分跨境电商数据清洗的定义151520跨境电商数据清洗的基本操作151520跨境电商数据清洗评价表拓展实训以某跨境电商类网店的商品交易数据为数据源请扫描下方二维码获取数据包,包含店铺中近期的交易数据,运用Excel工具,从缺失值、重复值、错误值三个方面对数据进行清洗。跨境电商商品交易数据Crossbordere-commerce跨境电商数据处理Crossbordere-commercedataprocessing跨境电商数据处理概述跨境电商数据处理的定义跨境电商数据处理是指对收集到的数据进行加工、整理,形成合适的数据分析样式,这是数据分析前必不可少的阶段。跨境电商数据处理的基本目的就是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对解决问题有价值的数据。一般来说,跨境电商数据处理是指从存储的数据中,提取、筛选出有用的数据。跨境电商数据处理数据清洗数据转化数据提取数据计算跨境电商数据处理概述数据计算Excel是最基本、最常用的跨境电商数据处理工具,通过Excel进行数据处理包括排序、筛选、数据透视表等。除此之外,跨境电商数据分析的工具还有Python、BI、SQL等,每种工具都有其优劣势,应根据实际情况来选择分析工具。跨境电商数据处理方法跨境电商数据处理的工具简单计算简单计算就是字段通过加减乘除简单的算术运算就能计算出来。在Excel中,加减乘除的运算符就是键盘中的“+、-、*、/”符号。函数计算SUM函数AVERAGE函数COUNT函数MAX函数和MIN函数SUMIF函数COUNTIF函数IF函数VLOOKUP函数RANK函数ABS函数跨境电商数据处理方法数据分组步骤1:准备一个分组对应表,用来确定分组的范围和标准;步骤2:在B2单元格中输入“=VLOOKUP(A2,$D$1:$E$12,2,1)”,并将公式自动填充到数据区域即可。源数据阈值分组表结果显示跨境电商数据处理方法数据分列过数据分列,可以将一个单元格中的内容分到不同单元格中,快速整理数据。任务小
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 历史展馆设计
- 体育馆设计要点
- 过敏性疾病介绍
- 教育质量稳定提升和改进承诺书6篇
- 图书馆系统介绍
- 企业文件分类工具索引管理模板
- 如何撰写科幻想象的未来世界5篇
- 幼儿园消防安全绘本
- 风湿免疫科类风湿关节炎家庭护理教育
- 参观券设计规范与实操指南
- 2025安徽合肥水务集团有限公司招聘56人笔试历年参考题库附带答案详解
- 劳动工资统计培训
- 无人机植保服务在现代农业推广分析方案
- 2024年广东省航道事务中心所属事业单位招聘笔试真题
- 2025年江苏省公考《申论》(C卷)题及参考答案
- 6建筑工程的消防专项施工设计方案
- 2025年模拟电子技术考试题库及答案1
- 通达信函数大全整理
- 小升初英语衔接存在的问题及其对策优秀获奖科研论文
- 煤矿矿井废水处理设计方案
- 《数字电路逻辑设计》--逻辑函数及其化简练习习题
评论
0/150
提交评论