电子商务数据化运营课件 第2章 电子商务数据采集与预处理_第1页
电子商务数据化运营课件 第2章 电子商务数据采集与预处理_第2页
电子商务数据化运营课件 第2章 电子商务数据采集与预处理_第3页
电子商务数据化运营课件 第2章 电子商务数据采集与预处理_第4页
电子商务数据化运营课件 第2章 电子商务数据采集与预处理_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

时间:20XX汇报人:XXX第2章电子商务数据采集与预处理学习目标素养目标●培养学生的数据安全意识知识目标●了解电子商务数据采集的概念与原则●熟悉电子商务数据采集的流程●熟悉电子商务数据采集的渠道及工具●掌握电子商务数据预处理的方法近年来,随着电子商务的蓬勃发展,某电商平台凭借其丰富的商品种类、便捷的购物体验和个性化的推荐服务,获得了大量用户的青睐。然而,随着平台用户数量和交易量的不断增加,信息安全与数据采集的问题也日益凸显。平台存储着大量用户的个人信息、交易记录等敏感数据,一旦数据泄露,将给用户带来严重的经济损失。为了应对这一风险,平台采取了多项措施,如加强数据加密、设置访问权限、定期安全审查等。平台为了提供个性化的推荐服务,需要采集用户的浏览记录、购买记录等数据。然而,这些数据涉及用户的个人隐私,如何在采集和使用这些数据的同时保护用户的隐私成了一个重要的问题。该平台采取了以下措施。平台在采集数据时,严格遵守相关法律法规和隐私政策,明确告知用户数据采集的目的和范围,并获得用户的明确同意。同时,平台采用差分隐私、联邦学习等隐私保护技术,对用户数据进行匿名化和去标识化处理,确保用户隐私在数据采集和使用过程中得到保护。经过以上措施的实施,该电商平台在信息安全与数据采集方面取得了显著成效。平台成功防范了多起网络攻击和数据泄露事件,保障了用户的信息安全和个人隐私。思考题:1.结合案例分析该电商平台在信息安全与数据采集方面取得成功的原因。2.关于信息安全与数据采集的问题你还有哪些建议?预习案例目录CONTENT电子商务数据采集电子商务数据预处理2.1电子商务数据采集2.1.1电子商务数据采集的概念与原则1.电子商务数据采集的概念数据采集是指通过特定的方法和手段,对目标对象进行信息收集和记录的过程。在电子商务领域,数据采集扮演着至关重要的角色。电子商务数据采集是指通过预先设计的采集平台与系统程序自动采集电子商务平台上的数据。这些数据伴随着消费者和企业的行为实时产生,广泛分布于电子商务平台、社交媒体、智能终端、企业内部系统和其他第三方服务平台。这些数据的类型多种多样,既包含企业的商品信息与交易信息,也包括消费者基本信息、交易信息、评价信息、行为信息、社交信息和地理位置信息等。电子商务数据采集是电子商务数据化运营中不可或缺的一环,它为后续的数据分析和决策提供了重要的数据支持。2.1.1电子商务数据采集的概念与原则2.电子商务数据采集的原则在电子商务数据采集过程中,为了确保数据的质量、有效性和合规性,需要遵循以下原则。(1)及时性。电子商务数据的价值往往与其时效性密切相关。因此,数据采集必须迅速、高效,确保能够实时或接近实时地获取所需数据。这有助于企业及时了解市场动态、消费者行为和竞争态势,从而做出快速响应和调整。(2)准确性。数据的准确性是电子商务数据采集的基石,对企业的决策至关重要。采集到的数据必须真实、准确,能够客观反映实际情况。这要求企业在数据采集过程中采取科学、规范的方法,避免人为因素对数据造成干扰,以免出现误差或误导性的信息。(3)有效性。有效性指的是采集到的数据能够满足企业的实际需求,具有实际应用价值。因此,在数据采集之前,企业需要明确自身的需求,确保采集的数据与这些需求相匹配。同时,在数据采集过程中,还需要对数据进行适当的处理和分析,以提取有价值的信2.1.1电子商务数据采集的概念与原则(4)合法性。在数据采集过程中,企业必须遵守相关的法律法规,确保数据采集的合法性。不得侵犯用户的隐私权和其他合法权益,这包括尊重用户的隐私权、遵守知识产权法等。企业需要通过合法渠道获取数据,并确保数据的来源和用途符合法律法规的要求。(5)安全性。在数据采集和传输过程中,企业必须采取必要的安全措施,确保数据的安全性和保密性。这包括使用加密技术保护数据的传输过程、设置访问权限、定期备份数据以防止数据丢失等。同时,企业还需要建立完善的数据安全管理制度和应急预案,以应对可能出现的安全风险。2.1.2电子商务数据采集的流程电子商务数据的采集需要遵循一个严谨的流程,如图2-1所示。1.明确采集目标在开始数据采集之前,首先需要确定采集的目标。这通常包括你想要获取的数据类型、时间范围、数据用途等。例如,你可能想要了解用户行为、分析销售趋势、研究竞争对手的定价策略等。明确目标有助于确定后续的数据指标和采集方法。2.筛选数据指标在明确了采集目标后,需要筛选并确定你想要采集的具体数据指标。这些指标应该与你的业务目标密切相关,能够直接或间接地反映业务目标的情况,并能够帮助你快速决策。数据指标繁多,例如,用户行为数据可能包括访问量、转化率、跳出率等;销售数据可能包括销售额、订单量、退货率等。2.1.2电子商务数据采集的流程3.选择采集方法根据筛选出的数据指标,选择合适的数据采集方法。常见的数据采集方法有以下几种。(1)利用应用程序接口(ApplicationProgramInterface,API):如果电商平台或数据源提供了API,可以通过API获取所需数据,API通常提供了稳定、高效的数据获取方式。(2)使用爬虫技术:当API不可用时,可以使用爬虫技术从网页中抓取数据,但需要注意遵守网站的使用条款和法律法规,避免对网站造成过大的压力。(3)与第三方数据提供商合作:有些第三方数据提供商专门收集并整理电子商务数据,你可以购买他们的数据服务。(4)采集自有系统数据:如果你所在的电子商务平台自建了数据库或数据仓库,可以直接从中获取数据。2.1.2电子商务数据采集的流程4.开始采集任务根据选定的采集方法,开始执行数据采集任务。这可能包括编写API调用代码、设置爬虫参数、购买第三方数据服务等。在执行采集任务时,需要注意数据的准确性和完整性,并遵守相关的法律法规和隐私政策。5.数据导出存储将采集到的数据导出为适当的格式并选择适当的存储介质,以便后续的分析和处理。常见的导出格式包括CSV、Excel(如.xls、.xlsm)、JSON等。同时,也需要选择适当的存储介质,如本地硬盘、云等。在导出数据时,需要注意数据的保密性和安全性,避免数据泄露或被非法获取。2.1.3电子商务数据采集的渠道及工具电子商务数据采集具有不同的渠道和工具,只有选择合适的采集渠道和工具,企业才能获取有价值的数据资源,为业务决策提供支持。1.数据采集的渠道电子商务数据采集的渠道多种多样,常见的有电子商务网站、平台、店铺的后台,电子商务平台官方API,政府部门与机构协会,以及权威网站与数据机构。不同的采集渠道提供的数据类型也不同,如表2-1所示。2.1.3电子商务数据采集的渠道及工具2.数据采集的工具针对不同的数据采集渠道,可以选择不同的采集工具。具体选择时,应考虑各种工具的适用范围、可以采集的数据类型,以及该工具的具体功能等因素。举例来说,若你希望深入洞察市场与行业动态,淘宝的生意参谋和京东的京东商智将是你的得力助手。这些工具汇聚了海量的平台数据,为你提供一个真实反映市场与行业状况的全景图。另外,当你需要获取经过深度处理与计算的数据时,指数类工具如百度指数、阿里指数将是你的不错之选,它们能为你提供精确的指数数据。此外,针对特定的功能需求,也有相应的采集工具可供选择,比如客户关系管理软件能全面捕捉客户数据,而八爪鱼采集器、火车采集器等采集工具则擅长从各类网页中抓取你所需的数据。这些工具各具特色,能满足你在不同场景下的数据采集需求。2.1.3电子商务数据采集的渠道及工具(1)生意参谋生意参谋是阿里巴巴集团旗下的一款重要产品,主要服务于淘宝、天猫等电商平台的商家。它是一款功能强大、易于使用的电商数据分析工具,可以帮助商家全面、准确地了解市场和自身经营情况,为决策提供有力支持。生意参谋提供全面、准确的数据分析功能,帮助商家了解自身经营情况和市场趋势。通过对比和分析竞品数据,帮助商家了解竞品的优势和劣势,为产品优化和营销策略制定提供参考。生意参谋深度洞察市场趋势、消费者行为等,帮助商家把握市场机会和潜在风险。基于数据分析结果,生意参谋为商家提供个性化的决策建议和优化方案,助力商家提升经营效率和业绩。用户登录淘宝的管理后台,进入生意参谋页面,选择关注的品类和指标,即可进行数据分析和研究。生意参谋提供了简单易用的页面和直观的操作方式,让商业分析变得简单。图2-2所示即为生意参谋的新建报表页面,用户可以自定义报表的维度、时间和指标等内容。2.1.3电子商务数据采集的渠道及工具2.1.3电子商务数据采集的渠道及工具(2)百度指数百度指数是一个以百度海量网民行为数据为基础的数据分析平台,它可以帮助用户了解某个关键词在百度的搜索规模、一段时间内的涨跌态势以及相关的新闻舆论变化。此外,百度指数还能展示关注这些词的网民的特征、分布以及他们的搜索习惯等。企业可以通过百度指数了解市场需求和竞争态势,为产品策划和市场推广提供有力支持。对投资者来说,百度指数可以帮助他们了解行业发展趋势和投资机会,为投资决策提供数据支持。通过监测关键词的搜索量变化,企业可以评估品牌曝光度和用户对品牌的关注度。在百度指数的搜索框中输入关键词,按【Enter】键即可。百度指数的主要功能模块包括:趋势研究、需求图谱和人群画像。在趋势研究中,用户可以了解关键词的搜索量变化,如图2-3所示。需求图谱基于语义挖掘技术,向用户呈现关键词反映出来的关注焦点和消费欲望,如图2-4所示。关于人群画像,通过输入关键词,用户可以了解搜索关键词的网民的年龄、性别、兴趣分布特点等,如图2-5所示。(请注意,百度指数提供的是相对数据,并不能直接反映实际的搜索量)2.1.3电子商务数据采集的渠道及工具2.1.3电子商务数据采集的渠道及工具2.1.3电子商务数据采集的渠道及工具2.1.3电子商务数据采集的渠道及工具(3)八爪鱼采集器八爪鱼采集器是一款由深圳数阔信息技术有限公司研发的网页采集软件。它具有使用简单、功能强大等诸多优点,并广泛服务于国内企业/单位。八爪鱼采集器模拟人浏览网页的行为,通过简单的页面点选,生成自动化的采集流程,从而将网页数据转化为结构化数据,并将数据存储于Excel或数据库。支持电子商务、媒体阅读、招投标等全行业的互联网数据采集,以及列表页、详情页、搜索页等多种场景的数据采集,还支持文字、链接、图片、视频、音频、HTML源码、JSON格式等多种数据类型的采集。此外,八爪鱼采集器还提供基于云计算的大数据云采集解决方案,实现精准、高效、大规模的数据采集。它通常用于数据挖掘、竞争情报收集、市场研究、数据分析和各种其他用途。在使用八爪鱼采集器时,用户可以通过简单的拖曳、点选和配置来定义爬取规则,无须编写代码。同时,八爪鱼采集器支持对采集的数据进行清洗和处理,包括去重、格式化、筛选和合并等操作,以获得高质量的数据。图2-6所示为八爪鱼采集器的采集模板页面,图2-7所示为采集数据预览页面。2.1.3电子商务数据采集的渠道及工具2.1.3电子商务数据采集的渠道及工具2.1.4AI助力高效获取数据利用AI技术进行高效数据采集已成为现代数据处理领域的重要趋势。AI数据采集是指利用AI技术自动地从各种数据源中采集数据。这些数据源可以包括传感器、社交媒体、移动设备、生物信号等。通过AI技术,企业可以更加高效、准确地从这些数据源中获取有价值的信息。1.AI数据采集的优势(1)自动化处理:AI能够自动化地识别和采集相关数据,处理大量的数据,减少或无须人工干预,提高数据采集的效率。(2)提高数据准确性:AI通过智能算法和模型,能够识别数据中的模式和趋势,提高数据的准确性和可靠性。(3)降低采集成本:相比传统的人工采集方式,AI数据采集能够显著降低采集成本,提高经济效益。2.1.4AI助力高效获取数据2.AI数据采集的方法(1)爬虫抓取。使用网络爬虫程序从互联网上获取数据。例如,使用Python编写爬虫程序,可以从网站上抓取数据,如新闻文章、评论、用户数据等。这种方法适用于需要从互联网上获取大量公开数据的情况。(2)传感器采集。利用传感器设备(如声音传感器、温度传感器等)采集实时数据。这种方法适用于需要采集实时、连续数据的情况,如智能家居、工业自动化等领域。(3)自动化数据提取。利用AI技术开发的自动化数据提取工具可以从各类数据源中提取数据,并将数据转化为结构化格式。这些工具可以显著提高数据采集的效率和准确性,降低人力成本。2.1.4AI助力高效获取数据3.AI数据采集的挑战与应对(1)数据隐私与安全。在采集数据时,需要严格遵守相关法律法规和伦理规范,确保数据的安全性和隐私性。可以采取数据加密、匿名化处理等措施来保护用户隐私。(2)数据质量与准确性。需要确保采集到的数据准确反映实际情况,避免数据偏差和误导。可以采取数据清洗、校验等措施来提高数据质量和准确性。(3)技术更新与迭代。随着AI技术的不断发展,需要不断更新和迭代数据采集方法和算法,以适应新的数据环境和需求。综上所述,利用AI技术进行高效数据采集已成为现代数据处理领域的重要趋势。充分发挥AI技术的优势,可以更加高效、准确地获取有价值的信息,为各个领域的发展提供有力支持。2.1.4AI助力高效获取数据2.2电子商务数据预处理2.2.1电子商务数据集成1.数据集成概述数据集成是指把不同来源(如数据库、数据立方、普通文件等)、格式或特性的数据在逻辑上或物理上有机地集中,存放在一个统一的数据存储介质中(如数据仓库),以便为数据处理与分析工作的顺利进行提供完整的数据基础。PowerQuery是一款功能强大且灵活的数据处理工具,最初作为Excel的一个插件被引入,现在已经成了Excel、PowerBI和其他Microsoft产品中的一部分。PowerQuery可以帮助用户从各种来源导入、转换和扩展数据,使用它可以轻松实现数据集成的操作。在PowerQuery中,数据集成主要有两种常见的方式:追加查询和合并查询。2.2.1电子商务数据集成1.数据集成概述(1)追加查询追加查询在数据库中也称为纵向查询,适用于将多个相同结构字段的数据源进行合并的情况,即将一个查询的结果追加到另一个查询的结果中。使用此种查询方式要确保两个或多个数据源的字段一致,并选择合并方式(默认为直接追加)。例如,从同一平台导出的不同店铺的多份销售数据,数据结构完全一致,这种情况下可以用追加查询的方式对数据进行合并。追加查询的具体操作参见本小节数据集成的应用案例。(2)合并查询合并查询在数据库中也称为横向查询,适用于需要在一个表中同时查看多个数据源信息的情况。合并查询要求两个或多个数据源基于共同字段(也称为关联字段)进行合并。例如,有一个包含客户信息的表和一个包含订单信息的表,客户名称是两个表中的共同字段,这种情况下可以使用合并查询方式将两表合并,以便在一个表中同时查看客户及其订单信息。合并查询的具体操作参见本章章节实训案例。2.2.1电子商务数据集成2.数据集成的应用某洗护用品电商企业有6个店铺,运营人员从电商平台的后台导出了6个店铺本月的销售数据,现需要将6个相同结构字段的表格中的明细数据合成一张表。2.2.2电子商务数据清洗1.数据清洗概述收集来的原始数据中可能会存在很多错误,如缺失值、无效值、错误值和不一致数据等。为了将这些错误的、不精准的数据转换成标准化数据,需要进行数据清洗。数据清洗是对数据进行重新审查和校验的过程,主要是对原始数据中的脏数据进行清洗操作。电子商务数据多是从不同业务系统中抽取而来的,而且包含历史数据,这样就避免不了有的数据是错误数据,有的数据相互冲突,这些数据是不符合数据分析要求的,因此其被称为脏数据。2.2.2电子商务数据清洗在日常的数据分析中,脏数据主要有三大类:不完整数据、含噪声数据和不一致数据。我们要按照一定的规则把这些脏数据洗掉,使其满足数据质量的要求,这就是数据清洗,如图2-20所示。2.2.2电子商务数据清洗针对不同的数据,可能有不同的清洗方法,但无论是何种数据,在整个数据清洗过程中,总是有那么一些步骤和方法是通用的。(1)不完整数据原始数据中可能会出现数据值缺失,即数据集中存在无数据的数据单元格的情况。缺失值在进行数据分析时会影响分析结果,因此需要对其进行必要的处理。处理不完整数据有很多种方法,这里主要介绍两种。方法一:丢弃。这种方法简单明了,直接删除带有缺失值的行记录(整行删除)或者列字段(整列删除),以减少缺失数据记录对总体数据的影响。但丢弃也有其弊端,它意味着会弱化数据特征,当出现以下任意一种场景时都不宜采用丢弃的方法:①原始数据中存在大量的数据缺失情况,且比例较大,例如超过10%,删除这些带有缺失值的数据就意味着将损失过多有用信息;②带有缺失值的数据存在着明显的数据分布规则或特征,例如带有缺失值的数据记录的目标标签主要集中于某一类或几类,导致模型过拟合或分类不准确。2.2.2电子商务数据清洗方法二:补全。相对于丢弃,补全是更加常用的缺失值处理方法,即通过一定的方法将缺失的数据补上,从而形成完整的数据集,这对后续的数据处理、分析和建模至关重要。常用的补全方法有如下几种。①通过其他信息补全,例如通过身份证号码提取出籍贯、出生日期、年龄、性别等。②通过前后数据补全,例如时间序列缺失,可以使用前后的均值填充,缺的数据多了,可以使用平滑处理法。③通过统计数据补全,对于数值型数据,使用均值、加权均值、中位数等数据补全;对于分类型数据,使用众数填补法,即用该类别中出现频率最高的值来补全。④通过模型补全,更多时候我们会基于已有的其他字段,将缺失字段作为目标变量进行预测,从而得到最为可能的补全值。如果带有缺失值的列是数值型变量,采用回归模型补全,如果是分类型变量,则采用分类模型补全。2.2.2电子商务数据清洗(2)含噪声数据含噪声数据是指那些在数据集中存在不合理的错误值,或偏离正常范围的异常值。比如人的身高为-1m、年龄为-1岁、笔记本电脑的重量为1吨等,都属于含噪声数据。在处理含噪声数据时,常用的方法有以下几种。①直接将含噪声数据的记录删除。这种方法虽然简单易行,但缺点也不容忽视,可能造成样本量不足或对变量的原有分布造成影响,从而导致统计模型不稳定。②将错误值或异常值视为缺失值,用缺失值处理方法来处理。需要注意的是,将该异常值作为缺失值处理,需要根据该异常值(缺失值)的特点来进行,针对该异常值(缺失值)是完全随机缺失、随机缺失还是非随机缺失的不同情况进行不同处理。2.2.2电子商务数据清洗在处理含噪声数据时,常用的方法有以下几种。①直接将含噪声数据的记录删除。这种方法虽然简单易行,但缺点也不容忽视,可能造成样本量不足或对变量的原有分布造成影响,从而导致统计模型不稳定。②将错误值或异常值视为缺失值,用缺失值处理方法来处理。需要注意的是,将该异常值作为缺失值处理,需要根据该异常值(缺失值)的特点来进行,针对该异常值(缺失值)是完全随机缺失、随机缺失还是非随机缺失的不同情况进行不同处理。③用平滑数据来修正。常用的数据平滑法有分箱法、回归法和聚类法等。a.分箱法。将数据平均划分到一些箱中,然后通过数据的“近邻”(即周围的数据值)来平滑数据。由于仅考察近邻的值,所以分箱法进行的是局部平滑。b.回归法。使用拟合函数(如回归函数)来平滑数据。线性回归涉及找出拟合两个属性的最佳线,使得一个属性能够预测另一个。多元线性回归是线性回归的扩展,涉及多个属性,将数据拟合到一个多维曲面。利用回归方法获得拟合函数,能够帮助平滑数据并消除含噪声数据。c.聚类法。使用聚类来检测离群点。将相似的样本归为一个集合,集合内极其相似而集合间极不相似,则落在集合之外的样本被直观地视为离群点。2.2.2电子商务数据清洗(3)不一致数据不一致数据是指同一个数据在不同的数据表中表述不一致、标准不一致或命名规则不一致,这样的情况一般是人为命名或数据代码不一致造成的。例如,在不同部门的员工绩效考核表中,有的部门填写了完整的员工编号“2021082503”,有的部门为了简化员工编号,将其填写为“21082503”(缺少编码开头的20)。为了保证数据的一致性,需要对该类数据进行清洗,使其编码规则统一,即对编码开头缺少“20”的数据进行填补。2.2.2电子商务数据清洗2.数据清洗的应用(1)处理不完整数据在本案例的部门数据中,每个部门的部门名称是以合并单元格的形式显示的,数据分析时需将其拆开,取消合并后需将部门名称数据向下填充。(2)处理含噪声数据。在本案例的员工“考核分数”列中存在空值,按照惯例,缺考的应该是0分,因此需要将其填充为0;还有部分考核分数中记录的是“免考”,根据公司的管理制度,免考员工的考核分数应该是80分,因此需将其替换为80;由于部分员工有加分项,因此考核分数超过100分,根据考核规定,当员工考核分数超过100分时,记为100分。(3)处理不一致数据本案例中“员工编号”列的数据不一致,有的员工编号是10位数字,有的员工编号是8位数字,区别在于开头是否包含两个数字“20”。用户可以通过添加前缀和提取功能来处理不一致数据。2.2.3电子商务数据转换1.数据转换概述在数据处理与分析的过程中,由于原来数据构架的不合理,不能满足各方面的要求,因此需要对数据进行转换操作。数据转换就是将数据从一种格式或结构转换为另一种格式或结构的过程,从而构成一个适合数据处理与分析的描述形式,即将数据转换为方便分析的数据。数据转换可以包括一系列活动,例如丰富数据、执行聚合或转换结构等,具体取决于项目的需要。(1)属性构造处理属性构造处理可以利用已有属性构造出新的属性,并将其加入现有属性集合中,以挖掘更深层次的数据信息,提高数据挖掘结果的准确性。例如,根据长、宽属性,可以构造一个新属性——面积。构造合适的属性能够帮助发现遗漏的属性间的相互联系,而这在数据挖掘过程中是十分重要的。(2)规格化处理规格化处理就是将一个属性的取值范围映射到一个特定范围之内,以消除数值型属性因大小不一而造成结果的偏差。规格化处理方法可以帮助消除因属性取值范围不同而影响结果的公正性的情况。2.2.3电子商务数据转换规格化处理方法有很多,下面介绍常用的两种。①最大-最小规格化该方法是指对初始数据进行一种线性转换。例如,假设属性的最大值和最小值分别是86000元和12000元,利用最大-最小规格化方法将“消费金额”属性的值映射到0~1的范围内,则“消费金额”属性的值为82600元时,对应的转换结果如下。(82600-12000)÷(86000-12000)×(1.0-0.0)+0=0.954计算公式的含义为“(待转换属性值-属性最小值)÷(属性最大值-属性最小值)×(映射区间最大值-映射区间最小值)+映射区间最小值”。②零均值规格化该方法是指根据一个属性的均值和方差来对该属性的值进行规格化处理。假定属性“消费金额”的均值和方差分别为52000元和18000元,则“顾客收入”属性的值为65600元时,对应的转换结果如下。(65600-52000)÷18000=0.756计算公式的含义为“(待转换属性值-属性平均值)÷属性方差”。2.2.3电子商务数据转换③透视处理透视是PowerQuery中处理数据行列的一种操作,也可以说是二维表和一维表之间的转换的操作。通常来说,二维表看起来比较方便,利于数据的展示;但是不利于处理与分析数据。因此,为了便于处理与分析数据,通常要把二维表转换成一维表。例如表2-2所示的是适合展示数据的二维表,该表中第1列是商品名称,第2~3列的列标题是渠道名称,表中第2行第2列的数值表示网店海苔的销量,其他数值型数据以此类推。在表2-2中可以清楚地看到各商品对应的各渠道的销量情况。2.2.3电子商务数据转换表2-3所示的是适合存储数据的一维表,该表中具有相同属性的数据被存储在同一列中,其中第1列存储的是商品名称,第2列存储的是渠道,第3列存储的是销量。在表2-3中可以方便地对数据进行处理与分析操作。2.2.3电子商务数据转换2.数据转换的应用在PowerQuery中,透视功能可以实现适合展示数据(二维表)与适合存储数据(一维表)的形式之间的自由转换。数据透视即将一维表转换为二维表。(1)数据透视(2)数据逆透视数据逆透视即将二维表转为一维表。下面讲解如何将上次透视后的结果进行一次逆透视。2.2.4电子商务数据归约1.数据归约概述在大数据时代,用于数据分析的数据量通常比较大。在海量数据的基础上进行复杂的数据分析通常需要很长时间,这使得这种分析不现实或不可行。为了加快数据分析的速度,可以对数据进行归约处理。数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量。数据归约技术可以用来得到数据集的归约表示,它虽然数据量小,但仍大致保持原数据的完整性。这样,在归约后的数据集上进行分析将更有效,并产生与原数据集相同(或几乎相同)的分析结果。在实践中,数据的字段(列)数量可达到数百条,如果我们只需要上百条记录(行)用于分析,就需要进行维归约,以构建可靠的模型。另外,高维度引起的数据超负,会使一些数据挖掘的算法不实用,唯一的方法就是进行维归约。预处理数据集的3个主要维度通常为字段(列)、记录(行)和字段(列)的值。数据归约过程也就对应3个基本方法:字段归约、记录归约和字段值归约。2.2.4电子商务数据归约(1)字段归约字段归约又称特征归约,就是从原有的字段中删除不重要或不相关的字段,或者通过对字段进行重组来减少字段的个数。字段归约的原则是,在保留甚至提高原有判别能力的同时,减少字段的数量。字段归约处理的效果是:分析更少的数据,提高数据挖掘的效率,并获得更高的数据控掘处理精度。(2)记录归约记录归约又称样本归约,就是从数据集中选出一个有代表性的样本的子集。获得数据的子集后,由它来提供整个数据集的一些信息。数据挖掘处理的初始数据集描述了一个极大的总体,而对数据的分析只基于样本的一个子集。确定子集的大小要考虑计算成本、存储资源的需求、估计结果的精度,以及其他一些与算法和数据特性有关的因素。记录归约常用的方法是抽样,即用数据的较小随机样本来表示总体数据。样本归约处理的效果是:减少成本,速度更快,范围更广,有时甚至能获得更高的精度。2.2.4电子商务数据归约(3)字段值归约字段值归约又称特征值归约,就是通过减少字段中的特征值来减少数据量。当某些字段(如“年龄”字段)的取值很多时,会不利于数据分析,因此我们需要对字段值进行归约处理。常用的减少字段值的方法是数据泛化,它是指把较低层次的概念用较高层次的概念来替换。例如,用青年、中年和老年分别代替20~35岁、36~50岁和51~70岁的年龄区间,用省级代替地市级的概念等。需要注意的是,并不是取值很多的字段都需要泛化,若某字段没有概念分层,则该字段不需要泛化。概念分层意味着某字段可以有不同程度的分类,如客户地址“广东省广州市黄埔区”,该地址的省级层次是“广东省”,地市级层次是“广州市",层次(这里指行政级别)越高,取值范围越小。至于泛化的层级,则需要根据分析需求来确定,并不是层级越高就越好。层级太高可能会导致取值范围太小而不利于分析;如果层级过低,则层级又可能未包含有用信息。综上所述,在对数据进行泛化前,需要对所有字段进行分析,如果符合两个条件,即字段的取值很多和字段有概念分层,则可进行泛化处理。2.2.4电子商务数据归约2.数据归约的应用在分析员工考核成绩时,我们通常需要按照具体成绩对考核结果进行分级,如60分以下为“不及格”,60分至70分(不含)为“及格

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论