版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章电子商务数据分析基础1.1电子商务数据分析认知1.2电子商务数据分析流程及常用工具1.3电子商务数据分析维度【章节目标及学习难点】章节目标1.了解电子商务数据分析的相关概念、作用及意义;2.熟悉电子商务数据分析的流程及常用工具;3.了解电子商务数据分析的主要维度。学习难点1.电子商务数据分析的流程;2.电子商务数据分析常用工具的安装使用。【案例导入】抖音全域兴趣电商背后的数据价值抖音电商于2020年6月正式成立,2021年4月提出要做“兴趣电商”,意在抓住消费者刚需以外的潜在需求,并且主动帮助用户发展潜在需求。经过一年的发展,2022年抖音电商宣布同比2021年4月全年购买用户数提升了69%,商品意图搜索行为提升了217%,抖音商城的支付用户数提升了431%,同店铺复购订单数提升了76%。透过这4个用户行为数据,可以看出用户在抖音电商上已经有了更主动和多元的购物需求。为助力更多用户与商户,2022年5月,抖音电商战略再次升级,将“兴趣电商”升级到“全域兴趣电商”阶段。具体来看,通过覆盖用户全场景、全链路购物需求,完整覆盖货找人和人找货的双向消费路径,满足用户多元化的消费需求。【案例导入】拓展思考1.在抖音的全域兴趣电商战略布局里,数据的价值是什么?2.抖音兴趣电商主要是基于精准算法推荐的电商,平台是如何做内容推荐的?第1节电子商务数据分析认知1.1.1电子商务数据分析的相关概念1.1.2电子商务数据分析的作用及意义1.1.3电子商务数据分析师的职业要求1.1.1电子商务数据分析的相关概念1.大数据数据是用符号、字母等方式对客观事物进行直观描述,是表达知识的字符集合,是信息的表现形式。数据(Data)是对客观事物的逻辑归纳1.1.1电子商务数据分析的相关概念大数据(bigdata)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。IBM提出大数据的5V特点:Volume(大量)01Velocity(高速)02Variety(多样)03Value(低价值密度)04Veracity(真实性)041.1.1电子商务数据分析的相关概念2.数据分析数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。其目的是把隐藏在一大批杂乱无章的数据中的信息集中提炼出来,从而找出所研究对象的内在规律1.1.1电子商务数据分析的相关概念3.数据挖掘数据挖掘就是从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。利用数据挖掘进行数据分析常用的方法主要有分类法、聚类分析法、回归分析法、关联规则算法、特征提取法、偏差分析法、Web数据挖掘法等。1.1.1电子商务数据分析的相关概念分类法是一个查找分类器的过程,它通过一些约束条件将数据分配到不同的类中。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等。1.1.1电子商务数据分析的相关概念聚类分析法聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。它可以应用到用户群体的分类、用户背景分析、用户购买趋势预测、市场细分等领域。1.1.1电子商务数据分析的相关概念回归分析法回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种数据分析方法。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。1.1.1电子商务数据分析的相关概念关联规则算法关联规则是从大量数据中挖掘出有价值的数据项之间的相关关系,它反映一个事物与其他事物之间的相互依存性和关联性。它可以应用到营销效果分析中,为产品定位、定价,用户寻求、细分与保持和市场营销决策支持等提供参考依据。1.1.1电子商务数据分析的相关概念特征提取法特征提取是从一组数据中提取出这些数据的特征式,可以降维、去除不相关和冗余的数据。它可以用于用户流失因素的特征提取,获得导致用户流失的一系列原因和主要特征,从而有效地预防用户的流失。1.1.1电子商务数据分析的相关概念偏差分析法偏差分析是探测数据现状、历史记录或标准之间的显著变化和偏离情况的一种分析方法。在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。1.1.1电子商务数据分析的相关概念Web数据挖掘法Web数据挖掘指对Web页面内容及后台交易数据库进行挖掘,从Web文档内容及其描述中的内容信息中获取有用知识的过程。通过对Web的挖掘,可以收集政治、经济、政策、科技、金融、市场、竞争对手、供求、用户等有关的信息,集中分析和处理对企业有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果找出企业管理过程中出现的问题和可能引起的危机,以便识别、分析、评价和管理危机。1.1.1电子商务数据分析的相关概念4.数据质量数据质量指在业务环境下数据符合消费者的使用目的、满足业务场景具体需求的程度。数据质量有一致性、完整性、及时性、准确性、有效性和唯一性六大评价标准。1.1.1电子商务数据分析的相关概念(1)一致性指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。(2)完整性指数据信息是否存在缺失,它是数据质量评价中一项基础的评估标准。(3)及时性指数据从产生到可查看的时间间隔。如果数据分析周期过长,就可能导致分析结论失去借鉴意义。1.1.1电子商务数据分析的相关概念(4)准确性指数据记录的信息是否存在异常或错误。存在问题的数据不仅只是规则上的不一致,更为常见的是数据的乱码。另外有异常的数据也是不符合条件的数据。(5)有效性是指数据值与格式要符合数据定义或业务定义的要求,如某些电话、邮箱的格式。(6)唯一性是指某个数据项或某组数据的值必须是唯一的,如ID类数据。1.1.2电子商务数据分析的作用及意义分析现状:发生了什么现状的含义可以从两点来看,一是已经发生的事情,二是现在所发生的事情。现状分析则主要体现在以下两个方面:(1)通过对现状的分析,了解企业在现阶段的整体经营情况,通过分析企业各项经营指标的完成情况评估企业的运营状态,发现在企业在现阶段的经营中存在的问题。(2)分析现状,可以了解企业在现阶段各项业务的构成,掌握企业各项业务的发展状况,对企业的经营状态有更加深入全面的了解。电子商务数据分析的作用1.1.2电子商务数据分析的作用及意义分析原因:为什么发生通过对现状的分析,可以了解企业的基本运营状况,但是无法得知运营情况具体好在哪里,问题出在哪里,是什么原因造成的。这个时候能就需要进行原因分析来进一步确认导致业务变动的具体原因。1.1.2电子商务数据分析的作用及意义预测未来:将发生什么了解了企业的经营现状和导致业务变动的原因后,还需要对企业未来的发展趋势做出预测。数据分析可以帮助决策者对企业未来的发展趋势进行有效预测,为企业调整经营方向、运营目标和营销策略提供有效的参考和依据,最大程度的规避风险。1.1.2电子商务数据分析的作用及意义助力电子商务企业的收益管理优化市场定位协助创造客户新的需求优化市场营销电子商务数据分析的意义1.1.3电子商务数据分析师的职业要求电子商务数据分析师是专门从事电子商务行业数据搜集、整理、分析,并依据数据对电子商务行业进行研究、评估和预测的专业人员。1.1.3电子商务数据分析师的职业要求1.岗位职责①对复杂任务有自己独到的见解,能充分发挥对数据信息的敏感性,在力所能及的范围内给产品、营销、运营等提供有力和有价值的分析支持,提高运营的效益。②负责监控和跟踪分析业务的核心指标,并对异常波动的情况进行全面的分析和处理。③分析和研究数据与实际业务的关联关系,完善业务分析知识体系。④分析和研究行业竞争情报,实时关注竞争对手动态。1.1.3电子商务数据分析师的职业要求2.基本素质逻辑清晰沟通顺畅坚持不懈态度严谨细致入微1.1.3电子商务数据分析师的职业要求3.职业能力懂业务KTT指标品牌知名度市场占有率推广活动懂设计懂工具懂分析懂管理数据分析师熟悉行业知识、公司业务及流程,具有数据敏感性。有效搭建数据分析框架。针对数据分析结论提出有指导意义的分析建议。掌握数据分析的基本原理掌握有效的数据分析方法掌握数据分析相关的常用工具。运用图表有效表达分析观点第2节电子商务数据分析的流程及常用工具1.2.1电子商务数据分析的流程1.2.2电子商务数据分析的常用工具1.2.1电子商务数据分析的流程电子商务数据分析是基于商业目的对数据进行收集、整理、加工和分析,再提炼有价值信息的过程。最初的数据可能杂乱无章,这就需要通过作图、制表和计算特征量,寻找和揭示隐含在数据中的规律。1、确定分析目的与框架针对数据分析项目,首先要明确数据对象是谁,分析目的是什么,要解决什么业务问题,然后基于商业的理解,整理分析框架和分析思路。1.2.1电子商务数据分析的流程2、数据收集数据收集是按照已定的数据分析框架,有目的地收集和整合相关数据的过程,它是数据分析的基础。
1.2.1电子商务数据分析的流程互联网专业调研机构统计部门公开出版物企业内部数据库内部人员客户调查专家与客户访谈内部渠道外部渠道3、数据处理与集成数据处理与集成指对收集到的数据进行加工、整理,以便开展数据分析,他是数据分析前必不可少的环节。数据清洗数据转换数据提取数据计算1.2.1电子商务数据分析的流程1.2.1电子商务数据分析的流程4、数据分析数据分析指通过分析手段、方法和技巧对准备好的数据进行探索分析,从中发现因果关系、内部联系和业务规律,从而为企业提供决策参考。5、数据可视化数据分析的结果是通过图表等可视化的方式来呈现的。借助数据可视化工具,数据分析师和管理者能直观地表达要呈现的信息、观点和建议。1.2.1电子商务数据分析的流程6、撰写数据分析报告数据分析报告的作用主要是把数据分析的目的、过程、结果及方案完整地呈现出来,以供企业参考。严谨的分析框架准确的图文展示明确的结论、有效的建议或解决方案1.2.1电子商务数据分析的流程2021年上半年****分析报告2021年7月1.2.1电子商务数据分析的流程电子商务数据分析的原则科学性:科学方法的显著特征是数据的收集、分析和解释的客观性。数据统计分析要具有同其他科学方法一样的客观标准。系统性:数据分析不是单个资料的记录、整理或分析活动,而是一个周密策划、精心组织、科学实施,并由一系列工作环节、步骤、活动和成果组成的过程。针对性:不同的数据分析方法,无论是基础的分析方法,还是高级的分析方法,都会有它的适用领域和局限性1.2.1电子商务数据分析的流程实用性:电子商务数据分析是为企业决策服务的,在保证其专业性和科学性的同时也不能忽略其现实意义。趋势性:市场所处的环境是不断变化的,在进行电子商务数据分析时要以一种发展的眼光看待问题,眼光不能局限于当前现状与滞后指标,要充分考虑社会宏观环境、市场变化与先行指标。1.2.2电子商务数据分析的常用工具常用的电子商务数据分析工具包括平台数据分析工具、本地数据分析工具、第三方数据分析工具和网站数据分析工具。第三方数据分析工具网站数据分析工具本地数据分析工具MMAP、Visio、Excel、MySQL……赤兔、生意罗盘……百度统计、阿里指数、CNZZ……平台数据分析工具生意参谋、京东商智1、平台数据分析工具生意参谋是为阿里巴巴商家提供的数据分析工具,支持多端联动,基于全渠道数据融合和全链路数据产品集成,为商家提供数据披露、分析、诊断、建议、优化和预测等一站式数据产品服务。1.2.2电子商务数据分析的常用工具京东商智是为京东商家提供的数据分析工具,支持购物车营销和用户营销等精准营销,帮助商家提升销售质量。1.2.2电子商务数据分析的常用工具2、本地数据分析工具类型工具作用应用数据思路类工具MindManger、Xmind、Visio、FreeManager、数据分析思路的拓展和管理项目分析思路、工作规划、头脑风暴、创意数据存储与提取工具MySQL、Oracle、SQLServer、DB2.Access、Excel、Navicat原始数据或ETL后数据的存储与提取数据项目的起始阶段,用于数据提取和初步处理数据分析与挖掘工具Excel、SPSS、SAS、R、Python通过模型挖掘数据关系和深层数据价值数据项目的核心阶段,用于数据挖掘处理数据可视化工具Excel、PPT、Tableau、Qlik、水晶易表、GoogleChart数据展示数据项目的末期阶段,用于数据信息的展示商业智能(BI)SAP、微软、IBM、Oracle数据综合处理和应用数据工作的整个流程,尤其是智能应用1.2.2电子商务数据分析的常用工具3、第三方数据分析工具飞瓜数据是一款短视频及直播数据查询、运营及广告投放效果监控的专业工具,提供短视频达人查询等数据服务,并提供多维度的抖音、快手达人榜单排名,电商数据,直播推广等服务,帮助用户快速发现流量变化情况,更好地把控视频运营的时机。1.2.2电子商务数据分析的常用工具店侦探是一款专门为淘宝天猫卖家提供方便有效的数据查询、数据分析的卖家工具。通过运用数据分析技术对各个店铺、商品进行深度挖掘,掌控竞争对手店铺的销售数据、引流手段、广告投放、活动推广、买家购买行为,帮助卖家深度了解行业数据,从而给卖家的营销策略提供可靠持续的数据支持。1.2.2电子商务数据分析的常用工具店查查是一款专门为淘宝天猫卖家提供淘宝天猫数据统计、店铺关注、商品价格关注、直通车选词、销量等内容的专业数据分析工具。店查查致力于解决商家看数据难、用数据难和渴求更全面的数据等痛点,它已经成为商家店铺运营不可缺少的运营工具。1.2.2电子商务数据分析的常用工具4、第三方数据分析工具百度统计()是百度推出的一款稳定、免费、专业、安全的数据统计、分析工具,如图所示。网站运营人员通过它可以了解访客是通过哪种渠道进入的网站,在网站浏览了哪些信息,有了这些统计数据,可以帮助网站运营人员改善网民在网站上用户体验,不断提升网站的投资回报率(ROI)。百度统计目前提供的功能主要有流量分析、来源分析、网站分析、转化分析、访客分析、优化分析等多种统计分析服务。1.2.2电子商务数据分析的常用工具CNZZ(后更名为“友盟+”)是目前全球最大的中文互联网数据统计分析服务商,专注于互联网数据监测、统计分析技术研究和产品应用,主要为中小企业网站提供专业、权威、独立的数据统计与分析服务。CNZZ作为第三方推出的一款免费流量统计软件,网站提供的功能与百度统计平台的功能基本相同,主要包括网站概况、流量分析、来源分析、受访分析、访客分析、价值透视及行业监控等。1.2.2电子商务数据分析的常用工具第3节电子商务数据分析维度1.3.1市场数据分析维度1.3.2运营数据分析维度1.3.3产品数据分析维度市场数据分析指为了一定的商业目的,对市场的规模、市场趋势、市场需求、目标用户、竞争态势等相关数据所进行的分析。通过综合分析,使得众多分散的市场信息相互融合,互为补充,辅助电子商务企业进行决策。市场数据分析包括行业数据采集、市场需求调研、产业链分析、细分市场分析、市场生命周期分析、行业竞争分析六项内容1.3.1市场数据分析维度1.3.1市场数据分析维度行业分析;’l行业数据采集根据行业特性确定数据指标筛选范围,做出符合业务要求的数据报表模板;整合该行业数据资源,使用合适的方式采集数据并完成数据报表的制作。市场需求调研产业链分析通过客户行为、行业特性及业务目标要求设计出调研问卷;通过网络调研、深度访谈等方法发放与回收调研问卷;通过EXCEL等数据处理系统工具对回收问卷进行数据清洗,得到可靠样本数据。通过对该行业中供应商、制造商、经销商、客户等环节之间的交互关系分析画出交互示意图;通过前期的市场调研及价值交互关系的分析,给出产业链的合理性评估表。1231.3.1市场数据分析维度行业分析;’l细分市场分析根据细分市场历史数据确定相应的优势细分市场,编制优势细分市场列表;根据产品特点和消费者需求关联目标细分市场,编写关联列表;通过定性与定量的分析方法进行匹配度分析,给出匹配度对应列表。市场生命周期行业竞争分析根据市场历史数据判定出该细分市场所处的生命周期;通过行业资讯、领域专家意见以及历史数据确定该细分市场所处生命周期中的机遇与挑战;根据细分市场所处生命周期给出改善建议。通过网络及纸质等渠道进行同类企业市场信息搜集;进行同类企业与本企业市场相关性与差异性的分析,编写市场差异性分析内容;通过SWOT方法分析自身企业的机遇与挑战,制订SWOT分析图表。456运营数据分析是对企业运营过程中产生的数据进行分析,从中总结运营规律的过程。运营数据分析的结果可以用来指导运营人员调整和优化运营策略。运营数据分析包括客户数据分析、推广数据分析、销售数据分析和物流数据分析。1.3.2运营数据分析维度1.3.2运营数据分析维度用户是企业生存的基础,赢得市场的关键在于赢得用户。充分了解用户属性、兴趣及行为,可以帮助企业更好地进行用户精细化管理及精准营销。用户数据分析可以帮助企业制定更好的战略、构建更好的产品并为用户提供很好的服务。客户数据分析的具体内容如下客户价值评估客户精准营销销售效果跟踪客户行为分析客户画像客户数据收集1.3.2运营数据分析维度客户分析;’l用户数据采集通过客户的访问、浏览、购买、评价等行为数据进行用户数据属性标签收集整理;熟悉运用Excel、CRM、评价分析、舆情监控等客户数据收集分析工具(软件);掌握问卷、调研等数据收集方法收集客户数据,并对数据进行清洗和处理。 用户画像用户行为分析通过客户的购买行为、购买地域、购买金额、购买次数等行为对客户进行特征分析;熟悉地域、性别、年龄等客户基础属性,并进行相关归类分析;借助Excel、CRM等工具对客户特征进行挖掘分析梳理。对客户的评价行为、购买趋势、购买喜好、营销喜好、产品喜好等行为进行分析;根据客户行为数据分析制定不同渠道的内容模式,挖掘出客户接受度高的营销方式。1231.3.2运营数据分析维度客户分析;’l用户价值评估熟悉客户画像、回购率、客单价、地域等用户行为分析的概念和行为价值;了解各业务部门对于客户数据的需求。用户精准营销销售效果跟踪熟悉B2C平台渠道下的(消费者)微博、微信、淘宝、京东等各平台的客户推广营销渠道及推广方法规则;掌握消费者心理,基于推广渠道规则,了解短信、邮件、自媒体、直播等营销渠道。各渠道的客户营销数据总结分析对比,输出各渠道的效果报告,调整不同渠道的客户运营策略;跟踪各渠道的销售效果,投入产出比ROI,给各业务部门提出业务建议,并协助各渠道进行客户营销模式的调整。 456推广数据分析包含确定推广分析目标、进行推广数据分析和推广数据结果展现三个部分,具体内容如下1.3.2运营数据分析维度内容策略分析目标根据推广数据、公司现状、商品维度和外部竞争数据等确定分析目标;根据数据分析目标和公司现有商务推广数据,制定分析原则和分析策略;确定详细的分析步骤及时间规划数据分析对数据进行标准化、归一化操作或对定性数据进行量化操作;对不同人群的推广方式和推广渠道,提出合理的推广建议结果展现对分析出的数据结果进行可视化展现销售数据分析包含确定销售分析目标、进行销售数据分析和销售数据结果展现三个部分,具体内容如下1.3.2运营数据分析维度内容策略分析目标通过评估历史销售数据等进行企业销售目标的定位;制定销售业绩、价格体系、区域布局、产品结构、销售业绩异动等指标;建立多维报表,明确销售任务,得出整体销售分析指标数据分析通过内部报告或数据采集工具获取销售数据,并获取销售反馈信息;对数据进行清洗和整理,以保证数据的有效性和完整性;对整体销售情况进行分析,包括销售额分析、销售量分析和季节性分析等结果展现进行预测,包括总体销售预测、区域销售预测和季节性销售变化预测等;结合业务场景设计可视化方案,对已分析出的销售数据结果进行展现物流数据分析包括物流运费分析、订单时效分析和异常物流分析,具体内容如下1.3.2运营数据分析维度内容策略物流运费分析每个物流公司的物流价格都不一样,要选择便宜又好的,可以货比三家订单时效分析时效性越快的快递物流,签收率也就越高,能在一定程度上影响客户满意率异常物流分析因各种原因未及时签收的客户,是否会进行二次派送甚至三次派送产品数据分析包括产品行业数据分析、产品采购及定价分析、产品运营数据分析、产品用户特征及体验分析、产品仓储数据分析、竞品数据分析,最后通过调研报告形成合理化建议,对产品开发及市场走向进行预测。1.3.3产品数据分析维度产品行业数据指产品在整个市场环境下的相关数据,比如行业产品的搜索指数和交易指数等。在进行产品选择时,既可以选择热门产品以迎合市场大众的消费需求,也可以选择冷门产品以打造自有风格与特色。在精准掌握产品行业情况的基础上,选择适合自己的产品。1.3.3产品数据分析维度产品采购与定价分析在电子商务环境下,消费者可以迅速、准确地了解各个厂家的最新价格,并进行比较。商家为了能够更好地为消费者服务,必须对店铺产品的采购和定价进行分析,在合适的时机采购合适的数量,选择合适的定价策略和方法进行定价,在价格方面提升店铺产品的竞争力。1.3.3产品数据分析维度产品运营数据分析产品运营数据分析包含店铺产品结构分析、产品组合营销分析和产品生命周期。1.3.3产品数据分析维度产品用户特征及体验分析产品用户特征分析是按用户的价值观和生活形态特征对其进行分群,形成具有典型性的细分群组,并且总结提炼出该群组用户的一般特征,赋予不同的人群标签。产品体验分析是通过用户访谈或使用工具软件收集并了解用户体验现状,跟踪和分析用户对产品的反馈,监测产品使用状况,识别用户痛点及发现市场,组织有价值的典型用户参与产品设计,并评估产品价值及用户体验。1.3.3产品数据分析维度产品仓储数据分析在电子商务环境中,仓储指为有形商品提供存放场所并对存放物进行保管、存取与控制的过程,一般指的是库存。通过仓储数据分析不仅可以核对产品数量,还可以了解产品库存的情况,从而判断库存产品结构是否完整,产品数量是否适中,以及库存是否处于健康水平,是否存在经济损失的风险。1.3.3产品数据分析维度竞品数据分析用户对店铺的第一印象多是通过单品产生的,从这个角度来说,电商单品显得尤为重要。通过分析,了解竞品的价格、基本资料、销量、营销活动、商品评价等,找出自身商品与竞品之间的差距,以避开竞品的优势,挖掘自身店铺商品的优势。1.3.3产品数据分析维度第2章电子商务数据指标体系搭建2.1电子商务数据指标体系2.2电子商务数据指标体系搭建方法2.3电子商务数据指标体系搭建【章节目标及学习难点】章节目标1.了解电子商务数据指标体系;2.掌握电子商务数据指标体系的搭建方法;3.熟练运用相关模型进行数据指标的搭建。学习难点1.运用相关模型进行数据指标的搭建。【案例导入】淘宝新灯塔服务指标体系淘宝新灯塔服务指标体系是为帮助商家追求更好的消费服务体验所建立的一套全链路消费者服务体验评估诊断标准。主要由商品体验、物流体验、咨询体验、售后体验、纠纷体验5大维度12项指标构成。侧重于考核商家是否能够给消费者提供基础的服务承接,给消费者更好的购物体验,用于代表“成交好、服务好、口碑好”的金牌卖家打标。其中综合体验得分=商品体验得分×该项权重+物流体验得分×该项权重+咨询体验得分×该项权重+售后体验得分×该项权重+纠纷投诉×该项权重+附加分。【案例导入】淘宝新灯塔服务指标体系为了更好地凸显商家的服务水平和能力,降低商家指标运营的难度,新灯塔已经升级至4.0版本。随着时间的推移,在电子商务交易过程中不管是商家还是消费者都会有新的需求,那么对双方的评价指标体系也会有随之而变,尤其是对于商家而言,严格进行综合评价,规范经营行为,对消费者权益的维护也是提到了新高度。拓展思考1.数据指标体系构建的目的是什么?2.淘宝新灯塔服务指标体系设定的作用是什么?第1节电子商务数据指标体系2.1.1数据指标和数据指标体系2.1.2常见的电子商务数据指标2.1.1数据指标和数据指标体系数据指标是通过对数据进行分析得出的一个汇总结果,是使得业务目标可描述、可度量和可拆解的度量值。它有别于传统意义上的统计指标,其本质就是对业务问题的量化过程,通过数据指标的好坏来客观地反应业务事实。2.1.1数据指标和数据指标体系数据指标体系是把数据指标系统地组织起来,其建设的重要性如下。①对于决策者来说,单一、孤立的数据指标无法准确地描述业务现状,而依据业务逻辑及科学的统计方法将不同层级、不同维度的指标串联起来的数据指标体系可以完整地描述业务运行状况,帮助决策者制定“北极星”指标以及更好地统筹决策。2.1.1数据指标和数据指标体系②对于一线业务人员来说,如果没有数据指标体系,仅凭他们业务经验制定的业务策略,将无法有效指导运营,会限制业务发展。③对于数据分析师来说,有了一个完善的数据指标体系,工作日常的取数、报表工作会大大减少,分析师就会有更多时间做探索性分析以及深层次的数据挖掘,更好地服务业务。2.1.2常见的电子商务数据指标常见的电子商务数据指标常见的电子商务数据指标由总体运营指标、流量类指标、销售类指标、用户价值类指标、商品类目指标、市场营销活动指标、风控类指标和市场竞争类指标组成。不同类别指标对应电商运营的不同环节,如流量指标对应的是网站运营环节,销售类、用户价值类和市场营销活动类指标对应的是电商销售环节。2.1.2常见的电子商务数据指标2.1.2常见的电子商务数据指标2.1.2常见的电子商务数据指标2.1.2常见的电子商务数据指标第2节电子商务数据指标体系搭建方法2.2.1OSM业务框架分析模型2.2.2UJM用户旅程分析模型2.2.3AARRR用户生命周期分析模型2.2.4MECE分析模型2.2.1OSM业务框架分析模型电子商务数据指标体系建设的流程可以总结为:明确业务目标、理清用户生命周期以及行为路径和指标分层治理。在搭建过程中,分别使用OSM业务框架分析模型,UJM用户旅程分析模型、AARRR用户生命周期分析模型和MECE分析模型指导我们构建完整而清晰的数据指标体系。OSM模型模型解析实现方式业务目标业务核心指标业务部门制定行动策略用户生命周期/用户行为路径分析UJM模型/AARRR模型实现评估指标核心业务指标细分MECE模型制定细分指标2.2.1OSM业务框架分析模型OSM模型是数据分析和业务分析领域的基础方法论,可以把业务目标和衡量评估指标对应起来,适用于目标清晰、行动方向明确的场景。OSM模型主要由业务目标(Objective)、业务策略(Strategy)和业务度量(Measurement)三个要素构成,这三个要素都是围绕着业务展开的。业务目标(Objective)业务策略(Strategy).业务度量(Measurement)2.2.1OSM业务框架分析模型实施OSM模型的流程总体分为三个步骤2.2.1OSM业务框架分析模型1、确定业务目标首先业务目标必须符合企业的经营战略然后依据行业特性和商业模式来制定业务目标最后确定北极星指标,即第一关键指标2.2.1OSM业务框架分析模型2、细分业务策略围绕业务目标,细分业务策略,找到达到业务目标的方法。其中业务策略表现的是关键的二级指标。提升产品整体DAU业务策略细分2.2.1OSM业务框架分析模型3、确定衡量指标需要为业务策略设立子指标,即第二步中二级指标下的三级指标,也就是衡量指标。运用衡量指标,我们可以把业务策略进行拆解,分配给团队中不同的人员负责,以此来追踪业务策略的执行情况。2.2.1OSM业务框架分析模型【案例分析】OSM模型案例分析案例背景:你所在的公司是一家快消品公司,面对2023年即将到来的大促期,领导要求线上GMV总量同比去年要提升30%,请制定执行策略。1.业务目标确定案例当中的业务目标非常明确,就是GMV要提升30%,衡量业务目标的指标就是GMV本身。2.2.1OSM业务框架分析模型2.细分业务策略要想提升GMV,需要了解哪些因素会影响GMV,找准切入点。面对GMV这计算指标,可以通过公式法进行拆解:GMV=潜在消费者基数×转化率×客单价。影响GMV的因素由三个不同的部门负责:推广部负责消费基数;运营部负责转化率;商品部负责运营部。这三个因素的提升难度是不同的,在给各个部门分配指标之前,先看一下过去两年的历史数据2.2.1OSM业务框架分析模型指标2022年大促期2021年大促期同比增长率GMV2976566246877020.6%潜在消费基数136578671210725712.8%转化率0.135%0.128%5.5%客单价1611591.3%从历史数据来看,2022年大促期GMV提升了20.6%,主要增长贡献来源于潜在消费者基数的增长,其次是转化率和客单价的提升。2023年的GMV需要提升30%,相对于20.6%来说,大约提升1.5倍,所以,我们就以各维度21年同比增长率的1.5倍作为2023年的指标。2.2.1OSM业务框架分析模型指标2022年大促期2023年增长率目标2023年大促期目标值GMV297656630.9%3894931潜在消费基数1365786719.2%16281668转化率0.135%8.2%0.146%客单价1612.0%165推广部要把潜在消费者基数提升至16281668;运营部要把整体转化率提升至0.146%;商品部要把平均客单价提升至165。2.2.1OSM业务框架分析模型3.确定衡量指标推广部需要分析潜在消费者的来源,按照来源比例分配目标值。渠道来源占比目标值线下门店8%1302533公众号/官方微博15%2442250市场外投46%7489567站内推广31%5047317潜在消费者基数100%162816682.2.1OSM业务框架分析模型运营部需要找出可以提升消费者转化率的因素,并且定义成可以量化的指标,并按照8.2%的同比增幅确定2023年目标值因素指标20年数据21年目标设立新客专享折扣新客折扣率72%66%退出反季清仓专区清仓产品SKU数125135设置显示秒杀秒杀场次1819加入会员优惠券优惠券领取数量102251106邀请新用户送优惠券邀请新用户数量297232162.2.1OSM业务框架分析模型商品部需要找出可以提升客单价的因素,并且定义成可以量化的指标,并按照2%的同比增幅确定2023年目标值因素指标20年数据21年目标设置多件多折消费者平均购买件数1481.51设置商品搭配购搭配购功能使用人数92549440设置不同登记优惠券使用规则高额满减优惠券使用人数16501683高溢价产品明星款商品销量398040602.2.2UJM用户旅程分析模型UJM模型是用户在使用产品过程中的生命旅程,指用户从首次接触直至下单以及享受产品或服务期间,用户与企业产品或者平台互动的全过程。2.2.2UJM用户旅程分析模型【案例分析】电商产品UJM分析用户使用该款产品,大致会经历从各个途径了解该电商平台、通过各个入口逛平台、对商品产生兴趣、进入付费流程、分享和复购阶段等6个阶段。2.2.2UJM用户旅程分析模型阶段了解平台在平台逛产生兴趣付费分享复购用户行为通过各途径了解平台首页流量位搜索商品详情页付费流程分享产生复购目标提升新用户留存提升内容分发效率提升用户对核心内容的消费通过用户交互,提升用户粘性通过用户主动分享,完成裂变拉新促进用户复购,提升用户价值接触点信息流广告、落地页首页流量位、搜索功能、类目页商品详情页、购物车付费流程商品详情页的分享功能,晒单页面推荐功能,再来一单、活动痛点投放用户不精准、落地页信息未有限承接用户对推荐不感兴趣或搜不到感兴趣内容商品详情页描述不清晰、用户中途退出付费流程不友好用户缺少分享动力用户没有复购场景或刺激2.2.3AARRR用户生命周期分析模型AARRR模型下用户生命周期分为获取(Acquisition)、激活(Activation)、留存(Retention)、变现(Revenue)和自传播(Referral)等5个阶段各个阶段关键指标获取曝光量、安装率、激活率、注册转化率、留存率、付费率等激活新老用户占比、DAU/WAU/MAU、日均登录次数、日均使用时长等留存新用户留存率、老用户留存率、活跃用户留存率、日周月留存率、流失率等变现ARPU、ARPPU、付费率(区分新老用户)、客单价、LTV等自传播裂变系数等2.2.3AARRR用户生命周期分析模型【案例分析】小红书不同时期的用户运营策略分析2.2.4MECE分析模型MECE模型(MutuallyExclusiveCollectivelyExhaustive的简称),其中文意思是“相互独立,完全穷尽”,也就是对于一个重大的议题,做到不重叠、不遗漏的分类,而且能够借此有效把握问题的核心,并解决问题的方法。它是制定细分指标的方法论。MECE模型是制定细分指标的方法论,主要目的是为了把一个大的问题进行拆分,从而可以结构化地梳理解决问题的方法。在拆分过程中遵循着两大原则:完整性,在把目标向下分解的时候,不能漏掉任何一项,需要保证目标的完整性;独立性,拆分完成之后的每一项都需要独立,不同项之间不能有交叉产生。例如,客户总成交额GMV可以拆解为付费用户数与平均客单价的乘积2.2.4MECE分析模型MECE模型是制定细分指标的方法论,主要目的是为了把一个大的问题进行拆分,从而可以结构化地梳理解决问题的方法。在拆分过程中遵循着两大原则:完整性,在把目标向下分解的时候,不能漏掉任何一项,需要保证目标的完整性;独立性,拆分完成之后的每一项都需要独立,不同项之间不能有交叉产生。第3节电子商务数据指标体系构建【案例分析】以提升GMV为例,了解指标体系梳理和构建的过程首先,基于OSM模型O(提升GMV),把业务用户的UJM进行拆分。例如,新用户在抖音、小红书等各种流量渠道看到产品的广告后,点击进入活动页面发现有大额的优惠券,于是跳转到应用商店下载了App,打开后注册登录,访问产品列表页、商品详情页确定要购买的商品后,加入购物车进行支付,订单交易成功后,感觉消费体验良好,于是下次主动访问。2.3电子商务数据指标体系构建然后,对UJM确定的关键业务过程,把O进行拆分,即GMV=流量×转化率×客单价。对每个指标可以制定对应的运营策略,例如设定一级指标“成交用户数”的二级指标为“点击UV”、“转化率”、“访购率”等,而二级指标中“点击UV”可进一步拆解细化为“曝光UV”、“点击率”等三级指标,并通过相应的数据指标对活动运营各环节进行监控。最后按照这个方法和步骤,把不同业务部门或业务过程所需要的指标逐一梳理出来后,就初步形成了指标体系。2.3电子商务数据指标体系构建2.3电子商务数据指标体系构建第3章电子商务数据采集3.1电子商务数据采集概述3.2数据采集的渠道及工具3.3WebScraper数据采集【章节目标及学习难点】章节目标1.了解数据采集的原则与流程2.熟悉数据采集渠道与工具3.掌握WebScraper的应用学习难点1.使用WebScraper爬取多页列表数据【案例导入】公民个人信息是如何被爬走的如今很多人都有类似这样的经历“刚和朋友聊天提起某款商品,打开购物App后首页随即出现同类产品的推送广告;刚和家人商量去某地旅游,某旅游App就推送该地最佳旅游攻略…”,这种“聊啥来啥”的现象让人们在接受贴心服务的同时也越发感到疑惑。近几年,在侵犯公民个人信息犯罪案件的办理中,网络爬虫技术逐步走进大众视野。个人信息是互联网企业输出用户画像、制定营销策略以及识别风险的重要依据。随着数据产业的不断发展,个人信息已成为高价值的数据资源,对其的争夺日趋激烈。据统计,目前除了直接通过用户采集数据,另一个主要的数据来源就是使用网络爬虫技术采集公开信息。目前存在的5种利用爬虫技术非法爬取公民个人信息形式,包括制作爬虫软件出售给他人使用以牟利,制作爬虫软件供自己爬取公民个人信息,购买爬虫软件使用权供自己爬取公民个人信息,购买爬虫软件使用权爬取公民个人信息出售牟利,利用职务便利获取用户个人信息并出售牟利。【案例导入】淘宝新灯塔服务指标体系在大数据时代,爬虫技术应用的法律边界在哪儿?实际每家网站都设定了哪些数据、哪些页面能被抓取,哪些不能被抓取的协议文件,即国际互联网界通行的Robots协议。互联网业界提出该协议来限制网络爬取数据的行为。被爬取数据方将写有可爬取信息范围的Robots协议文件放到该网站后,就表示允许数据爬取方可在协议范围内爬取数据。拓展思考1.当前有哪些法律条例保障公民个人信息安全?2.数据采集和爬取的渠道与工具有哪些?第1节电子商务数据采集概述3.1.1数据采集的原则3.1.2数据采集的流程3.1.3数据采集方案制定数据采集也叫数据获取,是指通过在平台源程序中预设工具或程序代码,获取商品状态变化、资金状态变化、流量状态变化、用户行为和信息等数据内容的过程,为后续进行数据分析提供数据准备。数据采集的原则合法性及时性准确性有效性3.1.1数据采集的原则数据采集的步骤确定采集范围及人员分工1
进行数据采集前首先需要根据数据采集目标进行分析,明确数据采集的指标范围和时间范围。接着明确这些数据需要从哪些途径及部门采集,最后确定参与部门和人员配备。建立必要的数据指标规范2
数据指标需对数据进行唯一性标识,并且贯穿之后的数据查询、分析和应用,建立数据指标规范是为了使后续工作有一个可以遵循的原则,也为庞杂的数据分析工作确定了可以识别的唯一标识。3.1.2数据采集的流程数据检查3完整性检查准确性检查规范性检查完成数据采集后对数据进行复查或计算合计数据,将其和历史数据进行比较。同时还要检查字段的完整性,保证核心指标数据完整。在数据采集录入的过程中可能会有个别数据出现录入错误,可以通过平均、求和等操作与原始数据进行比对,如发现比对结果不匹配,则需要检查出相应的错误数据。检查采集的数据中是否存在有多个商品标识编码相同或同一数据出现多个数据指标等。3.1.2数据采集的流程背景介绍数据分析指标数据分析目标渠道及工具数据采集与处理方案背景介绍主要是让项目参与人员了解该数据项目的来龙去脉,明确分析的环境和所处情况。数据分析目标,也就是数据分析人员完成数据分析后对项目运营各部门基于什么样的目的提出建议及调整策略。数据分析指标是为了明确进行此次数据分析所需要的指标类型及具体指标。在数据采集处理方案中注明数据来源及采集工具不仅可以为后续的工作提供工作方向,也可以为后期效果评估及复盘提供理论依据。3.1.3数据采集方案制定第2节数据采集的渠道及工具3.2.1内部数据采集渠道3.2.2外部数据采集渠道3.2.1内部数据采集渠道数据的主要来源渠道包含内部数据和外部数据两大类站点的访客数、浏览量、收藏量,商品的订单数量、订单信息、加购数量内部数据指在电子商务运营过程中站点或店铺自身所产生的数据信息。外部数据主要来自政府部门、行业协会、新闻媒体、出版社等发布的统计数据;还包括行业调查报告、新闻报道、出版物、行业权威网站或数据机构发布的报告、白皮书等3.2.1内部数据采集渠道一、流量数据1、站内免费流量数据各平台站内免费流量的来源有很多,要想收集站内免费流量的数据,首先一定要清楚站内免费流量的结构,哪些是店铺已经做了的引流,哪些是店铺还可以去做的引流。淘系(阿里巴巴、淘宝、天猫)平台的流量结构。2.站内付费流量数据(1)淘系站内付费流量来源直通车、淘宝客是淘宝/天猫平台站内付费流量的来源方式。对于直通车,需要采集的数据指标有:宝贝展现量01点击量02点击率03点击转化率04投入产出比05关键词质量得分063.2.1内部数据采集渠道二、商品数据通过对商品访客数、商品浏览量、有效访问商品数、详情更评价停留时长、详情跳出率、访问收藏转化率、和访问加购转化率等数据进行分析,对表现一般或销量不太乐观的商品进行优化,甚至下架。另外商家需要从流量来源分析中清楚引流的来源效果,从销售分析中总结商品销量变化规律,从客群洞察中获得商品吸引消费者的具体特征,从系统的关联搭配中选择合适的商品进行关联销售,促进销量。3.2.1内部数据采集渠道三、交易数据交易数据最能体现店铺的经营情况,有效收集交易数据对店铺分析意义重大。店铺交易数据分析结果一直是店铺运营及后期决策调整的重要指标。一般来讲,店铺交易数据的分析离不开交易的数量、类目、渠道、金额及转化率等。而主推品交易数据则反映了店铺主推的单品或爆款产品的交易信息数据,其主要包括下单买家数、支付买家数、下单件数、支付件数、下单金额、支付金额、下单支付转化率和支付转化率等几类数据。3.2.1内部数据采集渠道四、客户和物流服务数据(1)客户服务数据客户服务质量影响着消费者的忠诚度。客户服务的目的是让消费者在购买商品的过程中享受到优质的服务体验,提高消费者对店铺的满意度,从而提升商品回购率。(2)物流服务数据物流服务数据一直是商家比较难以把控和收集的数据,只有掌握其数据结构才能分析诊断出店铺产品在物流途中发生的异常。物流服务数据包括创建订单数、发货订单数、揽收订单数、签收订单数等。3.2.1内部数据采集渠道五、市场和竞争数据市场和竞争数据是商家在前期开展市场调研时需要收集的重要数据。商家需要精准收集市场和同行的信息,以制定相应的营销策略。(1)市场行业数据指标市场行业数据主要包括行业概况、产品排行类目、商家排行、产品属性等。(2)竞争店铺运营数据对于竞争店铺,可以从访客数、流量指数、交易指数、各级转化率、搜索人气、收藏人气、加购人气、预售定金指数和上新商品数等核心指标进行监控;商家还需要掌握竞争店铺的商品,明确竞争商品的数据结构,收集流量指数、交易指数、搜索人气、收藏人气和加购人气等关键指标数据,通过这些关键指标分析对比得到本店商品的优势与劣势。3.2.1内部数据采集渠道3.2.2外部数据采集渠道外部数据的采集渠道主要包含政府部门、行业协会、新闻媒体、出版社、行业权威网站或数据机构、电子商务平台等。这些基于互联网的采集渠道,通常使用的采集工具为互联网爬虫工具,具体可分为第三方爬虫软件(如八爪鱼采集器等)、基于浏览器的爬取插件(如WebScraper等)和使用Python自行编写的爬虫程序。网络爬虫是一类批量自动访问网页的工具,核心功能是访问网页。网页中的素材存在于网站所在的服务器上,当这个服务器收到一个访问请求时,它会把对应的素材发送到请求发出的地方,这就是人们通过浏览器可以看到别人服务器上的内容的原因。3.2.2外部数据采集渠道1.WebScraperWebScraper是一个轻量级的Chrome浏览器爬虫插件,用于抓取任意Web页面并使用几行JavaScript代码从中提取结构化数据。它能够加载web页面并实现动态抓取。3.2.2外部数据采集渠道3.2.2外部数据采集渠道缺点说明只支持文本数据抓取图片短视频等多媒体数据无法批量抓取不支持范围抓取默认全量抓取,无法配置抓取范围,若停止抓取,只能待数据加载完毕不支持复杂网页抓取无法抓取复杂交互、酷炫特效的网页导出数据乱序默认使用LocalStorage存储数据,存储数据乱序,需借助Excel工具重排WebScraper主要缺点2.八爪鱼(1)介绍八爪鱼八爪鱼采集器可简单快速地将网页数据转化为结构化数据,存储于Excel或数据库等,并且提供基于云计算的大数据云采集解决方案,实现精准、高效、大规模的数据采集。/edu3.2.2外部数据采集渠道3.2.2外部数据采集渠道特性说明覆盖全球主流电商平台数据淘宝、天猫、京东、苏宁、唯品会、1688.Amazon、eBay等国内外主流电商平台和一些官方/第三方电商数据分析平台涵盖90%以上数据类型及字段商品类目、标题、URL、价格(挂牌价与到手价)、显示销量、库存、评价、图片、发货地、促销活动、所在店铺、店铺等级等。独家云采集,实时采集更新数据支持设置灵活的定时采集策略与多节点高并发采集,能够在极短时间内完成多个数据源大规模更新数据的采集,保障商品价格等电商数据的时效性支持导出为Excel、Json或数据库采集结果可实时导出为Excel、Json或同步到数据库中,便于灵活生成各类报表,帮助客户进行大盘分析、价格监控、店铺监控、活动效果跟踪、库存管理、预算管理、品牌维权等电商运营工作。八爪鱼采集器主要特性3.Python爬虫程序Python爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)缺点说明调度器主要负责调度URL管理器、下载器、解析器之间的协调工作URL管理器包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL网页下载器通过传入一个URL地址来下载网页,将网页转换成一个字符串,网页下载器有urllib2(Python官方基础模块)网页解析器将一个网页字符串进行解析,可以按照我们的要求来提取出我们有用的信息,也可以根据DOM树的解析方式来解析应用程序从网页中提取的有用数据组成的一个应用3.2.2外部数据采集渠道第3节WebScraper数据采集3.3WebScraper数据采集1.安装过程(1)下载插件官方地址“https://www.WebScraper.io”下载WebScraper插件,保存在本地。(2)安装插件首先打开Chrome浏览器,在地址栏中输入“chrome://extensions/”。然后单击Enter键,或者从浏览器【设置】-【更多工具】-【扩展程序】,进入扩展程序加载页面,并打开【开发者模式】。最后把压缩包内的文件直接拖拽到该页面,自动跳转到WebScraper官网,安装成功3.3WebScraper数据采集2.主要功能打开谷歌浏览器,进入开发者工具,单击WebScraper标签栏,其分为三个功能,分别是【Sitemaps】、【Sitemap】和【Createnewsitemap】3.3WebScraper数据采集(1)Createnewsitemap假设要获取知乎上的一个问题的回答,就创建一个Sitemap,并将这个问题所在的地址设置为Sitemap的“StartURL”,然后点击【CreateSitemap】即可创建一个Sitemap3.3WebScraper数据采集(2)SitemapsSitemaps是Sitemap的集合,所有创建过的Sitemap都会在这里显示,选择一个Sitemap进行修改和数据抓取等操作3.3WebScraper数据采集(3)Sitemap一个Sitemap下可以有多个Selector,每个Selector有可以包含子Selector,一个Selector可以只对应一个标题,也可以对应整个区域,此区域可能包含标题、副标题、作者信息、内容等等信息。若选择进入某个Sitemap,可以进行一系列的操作3.3WebScraper数据采集Selectors:查看所有的选择器。Selectorgraph:查看当前sitemap的拓扑结构图,根节点是什么,包含几个选择器,选择器下包含的子选择器。Editmetadata:可以修改sitemap信息,标题和地址。Scrape:开始数据抓取工作。Browse:浏览抓取的数据。ExportSitemap:以JSON格式导出Sitemap。Exportdata:将抓取的数据以CSV格式导出。3.3WebScraper数据采集(4)Addnewselector在“Addnewselector”编辑页面,可以根据要求输入对应的项目内容3.3WebScraper数据采集Id:选择器的ID。Type:要抓取内容的类型,有文本、图片以及元素集等。Selector:选择器。点击select按钮可以选择我们要抓取的内容,点击elementpreview按钮可以预览选择的内容,而点击Datapreview按钮可以预览抓取的数据。Multiple:勾选了这个按钮可以并联相同的内容。Regex:正则表达式。ParentSelectors:父选择器。第4章电子商务数据处理4.1数据处理与预处理4.2电子商务数据清理4.3电子商务数据集成4.4电子商务数据变换4.5电子商务数据规约【章节目标及学习难点】章节目标1.了解数据处理与预处理的主要内容2.了解数据清理、数据集成、数据变换和数据规约的主要内容4.掌握Excel进行缺失、重复数据、分类汇总的处理方法5.掌握PowerQuery进行数据处理的方法6.掌握决策树ID3算法的实际运用学习难点1.决策树ID3算法方法的实际应用【案例导入】数据预处理方法在网络社区数据分析中的应用据统计发现,数据预处理的工作量占据整个数据挖掘工作的60%,由此可见,数据预处理在数据挖掘中扮演着举足轻重的角色。例如,哈啰单车骑行数据在经过数据预处理前,用户编号、单车编号、单车类型是一些冗余的属性,对分析目标而言没有任何意义。骑行时长是对分析目标起关键作用的属性,但该列中有若干个空缺。用户编号城市单车编号单车类型骑行时长MU_00004北京MB_00001经典0.5MU_00234上海MB_00431轻骑1.1MU_00087深圳MB_00876经典1.0MU_00067广州MB_00078轻骑
MU_00065上海MB_00034轻骑1.5MU_09870北京MB_00021经典0.6MU_00864北京MB_00090经典
MU_00984广州MB_00045经典1.5MU_00043深圳MB_00064轻骑0.8MU_00821广州MB_00286轻骑
【案例导入】数据预处理方法在网络社区数据分析中的应用经过预处理后,城市和骑行时长列的数据比较完整,也根据城市名称进行了归类,方便用户快速地得出各城市用户的平均骑行时长。城市骑行时长(时)城市骑行时长(时)北京0.5深圳1.0北京0.6深圳0.8北京0.5广州0.5上海1.1广州1.5上海1.5广州0.5显而易见,若使用预处理前的哈啰单车骑行数据对各城市用户的平均骑行时长进行分析,会导致分析结果存在一些偏差,相反地,使用预处理后的哈啰单车数据进行分析,会得到一个较为准确的分析结果。拓展思考1.数据预处理的目的是什么?2.哈啰单车骑行数据还有哪些有价值的数据指标?第1节数据处理与预处理4.1.1数据处理4.1.2数据预处理数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理的过程大致分为数据的准备、处理和输出3个阶段。在数据准备阶段从各个渠道获取到数据,录入到某个数据处理软件中,这个阶段也可以称为数据的录入阶段。数据录入以后,就要由计算机对数据进行处理。最后输出的是各种文字和数字的表格和报表。4.1.1数据处理数据处理主要包括8个方面:4.1.1数据处理①数据采集:采集所需的信息。②数据转换:把信息转换成机器能够接收的形式。③数据分组:指定编码,按有关信息进行有效的分组。④数据组织:整理数据或用某些方法安排数据,以便进行处理。⑤数据计算:进行各种算术和逻辑运算,以便得到进一步的信息。⑥数据存储:将原始数据或计算的结果保存起来,供以后使用。⑦数据检索:按用户的要求找出有用的信息。⑧数据排序:把数据按一定要求排成次序。数据预处理指在主要的处理以前对数据进行的一些处理。数据预处理有数据清理、数据集成、数据变换、数据归约等方法。4.1.2数据预处理4.1.2数据预处理1、数据质量问题数据质量问题主要表现为非完整性、不一致性、有噪声和冗余性等方面。其中非完整性指数据属性值遗漏或不确定;不一致性指数据的来源和定义标准的不同,导致数据的内涵不一致,例如同一属性的命名、单位、字长却不相同;有噪声是数据中存在异常(偏离期望值;冗余性是数据记录或属性的重复。4.1.2数据预处理问题脏数据描述未经校正的数据输入错误身份证号=“41038119990927”身份证号用字符型来存储,正确的身份证号被错误地输入为“41038119990927”未经约束造成的数据错误出生日期=“1999-14-27”月份大于12,日期错误,可以通过约束来保证其正确性数据冗余不一致客户1为:身份证号姓名=张洁;客户2为:身份证号姓名=张洁客户1和客户2分别存储在不同的表格中,实际上是一个客户,却产生了不同的姓名特殊事件造成的有关信息不准确某一客户有两条交易记录:记录1,购买日期=2023-1-1.购买产品=“A”“B”、单价=1680、数量=2;记录2,购买日期=2023-1-6.购买产品=“A”“B”、单价=-1680、数量=2客户在购买A产品后,又退掉了,因此应该把这两条记录在要分析的数据表中删除,如果用这样的数据做产品关联分析就可能产生错误的结果4.1.2数据预处理2、数据预处理内容数据预处理指对收集的数据进行分类或分组前所做的审核、筛选和排序等必要的处理。4.1.2数据预处理(1)数据审核数据审核的内容主要包括以下四个方面:①准确性审核,主要是从数据的真实性与精确性角度检查资料,其审核的重点是检查调查过程中所发生的误差。②适用性审核,主要是根据数据的用途,检查数据解释说明问题的程度。具体包括数据与调查主题、与目标总体的界定、与调查项目的解释等是否匹配。③及时性审核,主要是检查数据是否按照规定时间报送,如未按规定时间报送,就需要检查未及时报送的原因。④一致性审核,主要是检查数据在不同地区、不同时间段是否一致。4.1.2数据预处理(2)数据筛选数据筛选包括两方面的内容:一是将某些不符合要求的数据或有明显错误的数据予以剔除;二是将符合某种特定条件的数据筛选出来,对不符合特定条件的数据予以剔除。4.1.2数据预处理(3)数据排序数据排序是按照一定顺序将数据排列,以便于研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。除此之外,排序还有助于对数据检查纠错,为重新归类或分组等提供依据。第2节电子商务数据清理4.2.1数据缺失值处理4.2.2重复值处理4.2.3错误值处理4.2电子商务数据清理数据清理是通过填写缺失的值、去除冗余数据、识别或删除离群点、光滑噪声数据和解决不一致数据等方法来清理数据,从而达到数据格式标准化、异常数据清除、错误纠正和重复数据清除的目的。4.2.1数据缺失值处理数据缺失值处理(1)删除对于缺失情况很严重的数据字段(缺失比例在80%以上)或缺失值的数据记录数量相对较少(缺失比例小于20%),一般采用直接删除该数据字段的方式进行处理。但当存在丢失重要数据风险时,不应该将数据丢失,而是通过创建一个新的、相关的,具有布尔值的属性进行替代,比如缺少值用True替代,正常用False替代。4.2.1数据缺失值处理(2)填充填充丢失的数据是最常见的方法。该方法主要用于定性属性,最有效的方式是估计一个值,可以使用以下几种方法:①如果缺失值为数值型数据,数据分布近似正态分布,可以使用均值进行填充。②如果缺失值为数值型数据,数据分布偏态分布时,可以使用中位数进行填充。比如某客户的年收入值缺失,就可以用所有客户的年平均收入来代替。③如果缺失值为字符型数据,则使用众数进行填充。④对于数据中的空值有特殊含义的,可以单独归为一类数据。⑤为模型填充,比如通过回归分析、决策树等方法,将缺失的数据作为目标进行预测,得到最为可能的填充值。4.2.1数据缺失值处理【案例分析】电商企业进货单缺失值处理某电商企业在2023年1月的进货单,其中包含商品名称、来源、类型、单价、数量、总计费用、上次进货量等字段数据,现进行数据分析时发现“上次进货量”字段数据存在缺失,现要求将缺失的数据全部填充为“0”。商品名称来源类型单价数量总计费用上次进货量销售情况无线鼠标中国电子产品251025041蓝牙耳机美国电子产品26751335
0电动牙刷德国电子产品112161792
6电热水壶中国生活用品230492082熨斗中国生活用品120224062垃圾桶中国生活用品158120142时尚T恤中国服装120101200202短裤美国服装569504
8发卡印度服装819152
1钢笔美国学习用品42625224写字本新加坡学习用品271027061修改液中国学习用品1210120234.2.1数据缺失值处理1.选定G列,选择【开始】-【查找和选择】-【定位条件】,打开定位条件功能;设置定位条件为“空值”,单击【确定】4.2.1数据缺失值处理2.直接输入“0”,CTRL+ENTER确定4.2.2重复值处理重复值处理在数据集成的过程中,由于数据输入错误、非标准的缩写、或者不同数据源记录的差异等原因导致数据中可能包含同一实体的重复记录。缺少值是数据的缺乏,而重复记录则是数据的过剩。重复数据删除技术是一种预处理技术,其目标是识别和删除数据集中重复的记录。4.2.2重复值处理【案例分析】电商企业多类型进货产品处理在某电商企业在2023年1月的进货单中,现需要统计进货的产品类型有多少种。下面使用“高级筛选”法和“函数法”分别对产品类型进行数量统计。商品名称来源类型单价数量总计费用上次进货量销售情况无线鼠标中国电子产品251025041蓝牙耳机美国电子产品2675133500电动牙刷德国电子产品11216179206电热水壶中国生活用品230492082熨斗中国生活用品120224062垃圾桶中国生活用品158120142时尚T恤中国服装120101200202短裤美国服装56950408发卡印度服装81915201钢笔美国学习用品42625224写字本新加坡学习用品271027061修改液中国学习用品1210120234.2.2重复值处理1.高级筛选法选择【数据】-【排序筛选】-【高级】功能,直接进入“高级筛选”设置界面。进行高级筛选设置,其中在进行列表区域选择时,一定要从该列的列标题,即第一行开始选择,如果未选择非列标题行,则显示的结果中第一行内容为选择区域的第一行内容,即对结果的准确性造成影响,设置完成后,单击【确定】4.2.2重复值处理2.函数法使用COUNTIF函数识别出重复项,并计算非重复项的数量。在J1单元格输入“类型出现次数”标题,在K1单元格输入“类型数量”标题。选择J2单元格,输入公式“=COUNTIF($C$2:C2,C2)”,单击ENTER。选择J2单元格,使用公式快速方式进行向下填充,得出所有商品类型出现的次数。选择K2单元格,输入公式“=COUNTIF(J2:J13,”1“)”,计算
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年新疆维吾尔自治区社区工作者招聘考试模拟试题及答案解析
- 江西应用科技学院《公司治理学》2025-2026学年期末试卷
- 长春职业技术大学《房屋建筑与装饰工程估价》2025-2026学年期末试卷
- 2026年平顶山市卫东区社区工作者招聘笔试模拟试题及答案解析
- 2026年河北省秦皇岛市社区工作者招聘笔试模拟试题及答案解析
- 2026年酒泉市肃州区社区工作者招聘笔试参考题库及答案解析
- 2026年长沙市天心区社区工作者招聘考试参考试题及答案解析
- 糖尿病饮食管理健康宣教
- 2026年昭通市昭阳区社区工作者招聘考试参考题库及答案解析
- 2026年佳木斯市前进区社区工作者招聘笔试参考题库及答案解析
- 糖尿病合并血管性认知损害的诊疗进展
- 玉米销售框架协议书
- 培训内驱力的课件教学
- 2025年AS9100D-2016航天航空行业质量管理体系全套质量手册及程序文件
- 勘察项目重点、难点分析及解决措施
- 中国急性肾损伤临床实践指南2025年版
- 2025年高考四川物理真题及答案
- 水利工程安全度汛培训课件
- 山东省潍坊市2025年中考数学真题附同步解析答案
- (焊工证)考试模拟题(答案)
- 建筑电气控制技术 第3版 习题及答案 第二章 电气控制的基本环节与规律
评论
0/150
提交评论