项目二 商务数据的收集与预处理_第1页
项目二 商务数据的收集与预处理_第2页
项目二 商务数据的收集与预处理_第3页
项目二 商务数据的收集与预处理_第4页
项目二 商务数据的收集与预处理_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

AIGC商务数据分析与应用项目二商务数据的收集与预处理01收集商务数据02预处理商务数据目录/CONTENTAIGC

商务数据分析与应用AI融合创新系列任务一收集商务数据收集商务数据就是根据数据分析的需求收集相关的数据。数据是商务数据分析的基石,只有收集足够多的数据,才能为后续开展数据分析奠定基础。一商务数据收集的原则运营者要确保收集到的数据真实、可靠,能准确反映所描述的商务现象和业务实际情况。运营者可以从以下3个方面来判断数据的准确性:考察数据源的权威性、判断数据源的客观性、确认数据收集方法的科学性。准确性原则收集的数据应与分析的目标和问题紧密相关,能够为解决问题提供有价值的信息。无关的数据不仅会增加数据处理的成本和难度,还可能干扰分析结果。相关性原则数据收集需具备时效性,以真实反映当前的商务状况。商务环境变化迅速,过时的数据可能失去价值,甚至产生误导。此外,不同类型的商务数据有不同的时效性周期。时效性原则数据在不同来源、不同时间段和不同记录之间应保持一致和连贯。一致的数据便于进行整合和对比分析,避免因数据冲突而产生混淆。一致性原则完整性原则包括两个方面:一是全面覆盖要素,即数据应涵盖分析所需的所有方面和维度,不缺失重要信息;二是历史数据与当前数据结合,即不仅要收集当前的数据,还要尽可能收集历史数据。完整性原则运营者在收集数据时,要严格遵守国家相关法律法规,不能通过非法手段获取数据。运营者在收集数据时,要明确数据的来源和归属,对于有明确所有权的数据,要经过数据所有者的授权才能收集和使用。合法性原则二商务数据收集的方法问卷调查法就是运营者通过制定详细周密的问卷,要求被调查者据此进行回答以收集资料的方法。运营者采用问卷调查法收集数据时,需要注意以下事项。(1)设计合理的问卷(2)选择合适的样本,采用有效的发放问卷方式(3)利用工具回收和分析问卷01.问卷调查法访谈调查法就是通过对相关人员进行访问获取数据的方法。访谈调查法有以下3种形式。第一种是由运营者按照预先设计好的固定访谈提纲,逐个询问被访谈者。第二种是访谈提纲只规定几个主要的主题或问题,运营者围绕访谈提纲的主题或问题对被访谈者进行提问,然后根据被访谈者的回答进行适当的追问。第三种是在访谈时,运营者只提一个大致的话题,然后由被访谈者自由发挥。02.访谈调查法焦点小组讨论法就是选择一组具有代表性的参与者(通常6~10人),在主持人的引导下,围绕特定的商务主题进行讨论。主持人需要确保讨论围绕主题来展开,同时鼓励所有参与者积极发言。在讨论过程中,由记录员实时记录参与者的观点、态度及重要互动信息。最后,由研究员对记录内容进行整理与分析,从而发现参与者对讨论主题的观点倾向、存在的争议点,以及潜在的需求和问题。03.焦点小组讨论法二商务数据收集的方法观察法就是观察者通过直接观察或间接观察的方式收集数据。直接观察就是运营者亲临业务现场,通过观看和记录来获取数据。间接观察就是观察者利用一些设备或工具进行观察,从而收集数据。04.观察法实验法就是运营者通过设计和实施实验来收集数据,以验证某种假设或评估某个因素对某个事件的影响。05.实验法企业的业务系统,如客户关系管理系统、企业资源规划系统、销售管理系统、财务系统等,记录了大量与日常运营相关的商务数据。运营者通过系统接口或数据抽取工具可以定期采集数据,为商务分析提供数据支撑。06.采集业务系统数据企业通常拥有自己的数据库,包括关系型数据库、数据仓库等。运营者可以使用数据查询语言从这些数据库中提取所需的商务数据。在查询过程中,运营者需要对不同来源、不同格式的数据进行整合与清洗,以确保数据的一致性和准确性。07.查询与整合数据库二商务数据收集的方法网站、移动应用程序等平台的日志文件记录了用户的行为数据,如页面浏览量、停留时间、点击流、用户操作路径等。运营者通过分析这些日志文件,可以了解用户的使用习惯、行为偏好,以及对产品或服务的兴趣点,从而为商务决策提供有价值的信息。08.分析日志文件专业的市场调研机构通过科学的调研方法和广泛的样本采集,收集和整理了大量关于市场规模、市场份额、消费者行为、行业趋势等方面的数据。企业可以根据自身需求购买相关的市场调研报告或数据库,以获取全面、权威的行业数据和市场信息。09.从市场调研机构购买数据政府部门(如统计局、商务部等)和行业协会会定期发布一些与经济、行业相关的数据和报告,如宏观经济数据、行业统计数据、政策法规文件等。企业可以从政府部门和行业协会的官方网站、出版物或公开渠道获取这些数据,用于分析行业环境和市场趋势。10.从政府部门与行业协会获取数据社交媒体平台、在线论坛、新闻网站等互联网渠道蕴含着丰富的商务数据。运营者在合法合规的前提下,可以借助社交媒体监测工具和网络爬虫技术,收集消费者的意见、反馈、口碑评价、市场热点话题等信息。此外,还可以监测竞争对手的在线活动、商品发布信息、广告宣传等,以便及时了解市场动态和竞争对手的情况。11.监测社交媒体与网络二商务数据收集的方法网店账号后台会记录店铺运营的相关数据,如账号等级、商品的销售数据、浏览数据、交易转化数据、广告推广数据等。运营者要及时关注账号表现,并定期对账号后台中的数据进行收集、整理和归档,以便后期使用。12.通过账号后台收集数据各大电商平台都会提供一些数据分析工具,如淘宝的生意参谋、京东的京东商智等,运营者可充分利用这些工具了解自己店铺的运营状况。此外,在各大电商平台的客户端也会有热销榜、销量榜等榜单信息,这些榜单也是运营者搜集行业销售数据和竞品销售数据的重要渠道。13.使用电商平台数据工具收集数据市场上有一些专门提供数据分析服务的第三方数据工具,如百度指数、新榜、飞瓜数据、蝉妈妈等,这些工具通常会提供与电子商务相关的监测数据、市场规模数据、行业销售数据、竞品销售数据和网民搜索趋势等各类数据,运营者可以运用这些工具来搜集自己需要的数据。14.使用第三方数据工具收集数据网络爬虫是一种按照一定的规则,自动抓取万维网信息的程序或者脚本。具有编程语言能力的运营者可以使用Python、Java、C语言等编程语言编写网络爬虫来采集数据。运营者也可使用专业的网络爬虫工具,如八爪鱼采集器来采集数据。15.使用网络爬虫采集数据三商务数据收集的流程01首先要明确商务数据分析的具体目标,如分析市场趋势以制定营销策略、评估企业财务状况以进行投资决策等。然后将商务数据分析目标细化为具体的数据需求,确定需要收集哪些方面的数据。明确收集需求02针对不同类型和来源的数据,选择合适的收集方法。例如,对于结构化的内部数据,可通过数据库查询工具来收集;对于非结构化的文本数据,可使用网络爬虫或文本挖掘工具进行收集;对于一手数据,可采用问卷调查、访谈法、观察法等方法来收集。设计收集方法03规划数据收集的具体流程和时间安排,包括确定数据收集的频率、样本大小、调查对象等。同时,还要考虑数据收集过程中可能遇到的问题和风险,并明确相应的应对措施。制订收集计划04按照预定的收集方法和计划,开始收集数据。在收集过程中,运营者要确保数据的完整性和准确性,及时记录数据的来源、收集时间、收集人员等信息,以便后续进行数据追溯和管理。执行收集计划05采用合适的方法,如人工录入、传感器识别,将收集到的数据导入存储设备。运营者可以使用数据库、电子表格或数据仓库等工具存储和管理数据,确保数据的安全、完整和易访问。导入与存储数据任务实施使用爬虫软件采集数据八爪鱼采集器是一款简单易用的网页数据采集工具,支持可视化操作,无须编程即可快速抓取网页内容。它具有智能识别、自动翻页、定时采集等功能,支持导出Excel、数据库等多种格式,适用于电商、金融、科研等领域的数据采集需求,能帮助用户高效获取结构化数据,提升工作效率。下面使用八爪鱼采集器采集抖音搜索关键词视频列表数据,具体操作方法如下。AI赋能使用AI工具采集图片数据我们可以借助AI工具来识别图片中的数据,并将其转换为表格形式。下面就以豆包为例,介绍使用AI工具采集图片数据,具体操作方法如下。AIGC

商务数据分析与应用AI融合创新系列任务二预处理商务数据在商务数据分析与决策过程中,数据预处理是至关重要的一环,这直接关系到后续分析的准确性、效率以及模型的性能。预处理商务数据主要包括商务数据的清洗、转换、计算、排序和筛选等。一商务数据的清洗商务数据的清洗是指对原始商务数据进行系统性检查、修正、标准化和整理的过程,确保数据的准确性、完整性和一致性,从而为后续的数据分析与决策提供可靠的数据基础。在进行商务数据清洗时,主要针对以下5类数据实施清洗操作。商务数据的清洗重复数据是指在数据集中完全相同或高度相似的记录多次出现。用户可以采用以下方法识别和清除重复数据:唯一标识符识别法、多字段综合判断法。重复数据缺失数据是指数据集中某些字段的值为空或不存在。用户可以采用以下方法处理缺失数据:删除法、填充法。缺失数据错误数据是指数据不符合实际情况、超出合理范围或数据格式不正确。用户可以采用以下方法处理错误数据:数据验证、数据修正、范围检查。错误数据异常数据指明显偏离正常数据范围的值,可能是极大值、极小值或不符合数据分布规律的值。用户可以采用以下方法处理异常数据:箱形图法、Z-分数法、聚类分析法。异常数据不一致数据指的是同一数据在不同数据源或不同记录中存在不一致的情况。用户可以采用以下方法处理不一致数据:数据比对、确定优先级、数据整合。不一致数据二商务数据的转换数据转换是指将数据从一种形式、格式或结构转换为另一种形式、格式或结构的过程。其目的是使数据更适合于后续的分析、挖掘或决策支持,确保数据能够更好地反映业务实际情况,并满足特定的分析需求。商务数据的转换数据类型转换,就是将数据的类型进行改变,如将文本型数字转换为数值型,或者将日期型数据转换为文本型等。在Excel中,可以使用“分列”功能或函数(如VALUE函数)来实现文本型数字到数值型的转换。数据类型转换数据标准化是指将数据按照一定的标准进行缩放或调整,使其具有相同的尺度或量纲。常见的标准化方法有Min-Max标准化和Z-Score标准化。Min-Max标准化:将数据线性映射到指定的范围,通常是[0,1],其计算公式为。Z-Score标准化:是一种基于数据均值和标准差进行标准化的方法。其计算公式为。数据标准化数据编码转换是将非数值型数据(如文本、分类标签)转换为数值型表示的过程,以满足计算机算法处理和分析的需求。常见的数据编码转换方法如下:独热编码、标签编码、二进制编码、目标编码、频数编码、嵌套编码。数据编码转换二商务数据的转换数据转换是指将数据从一种形式、格式或结构转换为另一种形式、格式或结构的过程。其目的是使数据更适合于后续的分析、挖掘或决策支持,确保数据能够更好地反映业务实际情况,并满足特定的分析需求。商务数据的转换数据聚合是将多个数据记录合并成一个或多个更高级别的数据记录,通常通过汇总函数来实现。在Excel中可以使用数据透视表来方便地进行数据聚合操作。数据聚合数据拆分是将一个数据字段拆分成多个数据字段,以便更细致地分析数据。在Excel中可以使用“分列”功能来实现这一操作。数据拆分数据合并是将多个数据表或数据集根据一定的关联键合并成一个数据表或数据集。在Excel中可以使用查找与引用函数或PowerQuery工具来实现数据的合并操作。数据合并数据离散化是将连续型数据转换为离散型数据,即把连续的数值划分到不同的区间或类别中。在Excel中,可以使用IF函数或查找与引用函数(如VLOOKUP函数)或数据透视表来实现数据离散化。数据离散化三商务数据的计算基础统计计算:通过求和(SUM)、平均值(AVERAGE)、计数(COUNT)、最大值(MAX)或最小值(MIN)等常用函数快速汇总或概括数据特征,适用于销售报表汇总、库存管理等场景。条件计算:利用SUMIFS、AVERAGEIFS、IF等函数,根据特定条件筛选数据并计算,如计算特定地区和年份的销售额、客户等级划分等。比率与百分比计算:通过计算增长率、占比、毛利率等指标衡量相对关系或变化趋势,适用于业绩考核、财务健康度评估等场景。时间序列计算:运用同比、环比、移动平均等方法分析数据随时间的变化规律,适用于销售趋势预测、季节性波动识别等场景。文本与逻辑计算:借助文本拼接、逻辑判断、提取子串等函数处理非结构化数据或生成标记字段,如订单编号生成、错误值标记、库存预警等。数据计算的常见类型在Excel2019操作环境中,综合运用公式与函数、数据透视表及PowerQuery等自动化工具,可构建高效的数据处理流程,显著提升计算与分析效率。计算提效工具四商务数据的排序和筛选数据排序数据排序是根据某一列或多列的值重新排列数据行的顺序。在Excel中,数据排序的常见方法如下。基本排序:选中数据区域,单击“数据”选项卡下的“排序”按钮,打开“排序”对话框,选择排序依据和排序方式。多列排序:在“排序”对话框中添加并设置多个排序条件。自定义排序:通过“自定义序列”设置个性化排序规则。数据筛选数据筛选是根据特定条件隐藏不符合要求的行,仅显示符合条件的数据。在Excel中,数据筛选的常见方法如下。自动筛选:选中标题行,单击“数据”选项卡下的“筛选”按钮,启用筛选功能。单击列标题下拉箭头,可设置筛选条件。高级筛选:适用于复杂条件,如多条件组合或动态范围筛选。在空白区域定义筛选条件,然后单击“数据”选项卡下“排序和筛选”组中的“高级”按钮,选择列表区域和条件区域,即可实现高级筛选。排序与筛选结合应用在实际业务中,排序和筛选常常结合使用。例如,分析销售数据时,可以先按“日期”升序排列,观察销售趋势;然后筛选出“产品类别=手机”的记录,分析手机品类的表现;最后在筛选结果中,按“销售额”降序排列,找出畅销机型。任务实施一、使用AI辅助清洗重复数据利用Excel2019中的“删除重复项”功能可以清除重复的数据,但无法识别具体哪些数据是重复的。此时,我们可以通过添加辅助列来标记重复行数据。下面利用文心一言生成公式来找出完全重复的数据,然后使用Excel2019中的“删除重复值”功能删除重复值,具体操作方法如下。任务实施二、清洗性别不一致数据在“性别”列中,部分记录将“男”误写为“M”、“女”误写为“F”,下面对这些不一致的性别数据进行统一替换,具体操作方法如下。任务实施三、使用AI辅助清洗年龄异常数据在“年龄”列中存在两类异常数据:一是数值异常,如负数、超高龄;二是年龄与职业信息不匹配的情况。下面对这些异常数据进行处理,在处理过程中还会借助AI工具生成校验公式,具体操作方法如下。任务实施四、使用PowerQuery合并商务数据数据合并是将多个数据源整合为统一数据集的关键预处理步骤,直接影响后续分析的完整性和准确性。下面将介绍如何使用PowerQuery工具进行数据的合并。任务实施四、使用PowerQuery合并商务数据数据合并是将多个数据源整合为统一数据集的关键预处理步骤,直接影响后续分析的完整性和准确性。下面将介绍如何使用PowerQuery工具进行数据的合并。任务实施五、使用PowerQuery清洗商务数据下面将介绍如何使用Excel2019中内置的PowerQuery工具,将不规范的数据表格转换为便于数据分析的规范表格,具体操作方法如下。任务实施六、排序与筛选商务数据下面将介绍如何通过排序与筛选商务数据,找到符合条件的数据,具体操作方法如下。任务实施七、使用数据透视表分析商务数据在数据透视表中可以通过多个维度(字段)来组织、分析和展示数据,以便从不同角度深入挖掘数据价值,具体操作方法如下。综合实训转换与多维度分析商品销量报表打开“素材文件\项目二\综合实训\商品销量报表.xlsx”,该文件为多维行列交叉结构的表格,使用PowerQuery将其转换为一维表格,并为转换后的表格创建数据透视表,进行多维度数据分析,包括各季度销量变化分析、不同地区销售情况分析、不同商品的销售情况分析、各地区在不同季度的销售情况分析、各商品在不同地区的销售情况分析、贡献最多销量的核心城市分析、季度销量环比分析等。实训目标1.预处理数据源2.填充“地区”数据3.逆透视列4.拆分列5.各季度销量变化分析6.不同地区销售情况分析7.不同商品的销售情况

分析8.各地区在不同季度的

销售情况分析9.各商品在不同地区的

销售情况分析10.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论