版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国家“211工程”重点建设大学国家“双一流”建设高校农村电子商务导论第七章农村电子商务大数据分析第一节农村电子商务大数据分析概述第二节农村电子商务大数据获取方法及分析工具第三节农村电子商务大数据分析准备第四节农村电子商务大数据分析技术(一)概述(二)因素(三)指标(四)目标和基本原则本章知识框架大数据的定义大数据是规模大到超出传统数据库软件工具处理能力的数据集合,具有海量、快速、多样、低价值密度和真实的特点。大数据的特点大数据的5V特点:大量(Volume)、多样(Variety)、高速(Velocity)、低价值密度(Value)、真实(Veracity)。大数据在农业领域的应用价值大数据可以引导农产品生产和消费,保障农产品销售质量,强化政府对农村电商的市场管理,促进农村电商精细化发展。010203(一)农村电子商务大数据概述农村电子商务大数据的来源图7-1农村电商大数据来源生产环节数据:包括天气、土壤等信息,这些数据可以帮助农民实时掌握农作物生长状况,提升农产品品质。例如,通过物联网传感器收集的土壤湿度数据可用于精准灌溉,提高水资源利用效率。销售环节数据:包括电商平台的交易数据、消费者评价等,这些数据可以帮助企业了解市场需求,优化销售策略。例如,通过分析电商平台的销售数据,企业可以调整产品定价,提高销售量。政府部门数据:如农产品产量、价格等,这些数据可以为农村电商的发展提供决策支持。例如,政府可以通过大数据分析预测农产品市场趋势,指导农民合理安排生产。(二)农村电子商务大数据分析因素1.农产品生产环节因素2.农产品电商销售环节因素
农产品精细化生产因素农产品供求结构因素农产品的生产效率因素网站转化率因素衡量指标因素指标异常变化因素消费者行为习惯因素消费者购买行为因素注重实战经验因素(三)农村电子商务大数据分析指标1.农产品生产大数据分析指标2.农产品电商销售大数据分析指标气象指标土地环境指标平台网站运营指标消费者接受度指标农产品品质分级指标(四)农村电子商务大数据分析的目标和基本原则1.农村电子商务大数据分析的主要目标:以有效的信息技术手段和计算方法,获取、处理和分析农村电商行业所产生的大数据,发现和提取数据的深度价值,为农村电商行业提供高附加值的应用和服务。2.大数据分析的基本特点农村电商大数据处理具有很强的农村电商行业应用需求特性,因此大数据分析必须紧扣农村电商的应用需求。随着时间的积累和农村电商的快速发展,农村电商大数据规模越来越大,超过任何传统数据库系统的处理能力。农村电商大数据处理技术综合性强,任何单一层面的计算技术都难以提供理想的解决方案,需要采用综合性的软硬件技术才能有效处理。农村电商大数据处理时,大多数传统算法都面临失效,需要重新设计模型、方法。(四)农村电子商务大数据分析的目标和基本原则3.农村电商大数据分析的基本原则应用需求为导向领域交叉为桥梁寻求最佳模型、算法降低计算复杂度寻找和采用降低数据尺度的算法分而治之的并行化处理第七章农村电子商务大数据分析第一节农村电子商务大数据分析概述第二节农村电子商务大数据获取方法及分析工具第三节农村电子商务大数据分析准备第四节农村电子商务大数据分析技术(一)工具介绍(二)网络爬虫(三)常用分析工具(一)常用农村电子商务大数据获取工具介绍常用且用户评价较好的大数据采集工具有八爪鱼数据采集器、后羿采集器、集搜客、熊猫采集、网探等。(二)网络爬虫1.爬虫的基本概念网络爬虫(又被称为网络蜘蛛(图7-3)、网络机器人爬虫),是一种模拟浏览器发送网络请求,接收请求响应,按照一定的规则自动抓取互联网信息的程序。网络爬虫的系统框架中,主过程由控制器、解析器和资源库三部分组成。控制器负责给多线程中的各个爬虫线程分配工作任务;解析器负责下载网页,进行页面处理;资源库用来存放下载的网页资源。(二)网络爬虫图7-3爬虫的形象比喻图7-4爬虫的原理图7-5爬虫的框架(二)网络爬虫2.网络爬虫的第三方库及基本流程图7-7爬虫的基本流程(三)农村电子商务大数据常用分析工具1.开源数据工具:基本的功能为数据挖掘分析功能,包括统计分析、线性和非线性建模、经典统计测试、时间序列分析、分类、聚类、分析结果图形展示等功能。常用的分析工具有Hadoop、OpenRefine、R-Programming、RapidMiner、Weka、CKettle等2.数据可视化工具:用于帮助创建精美的信息图表和报告。常用的数据可视化工具有Infogram、Qlik、TableauPublic等。3.情感分析工具:是一个用来收集客户反馈和评论的工具。运用自然语言处理(NLP)对语言进行分析,分辨其正负面意义,然后用仪表板上的图形和图表来可视化结果。常用的情感分析工具有HubSpot’sServiceHub、Semantria、Trackur、SASSentimentAnalysis和HootsuitInsight等。4.数据库:用来存储大数据的工具。常用来存储大数据的数据库工具有Hadoop、Airtable、MariaDB等。第七章农村电子商务大数据分析第一节农村电子商务大数据分析概述第二节农村电子商务大数据获取方法及分析工具第三节农村电子商务大数据分析准备第四节农村电子商务大数据分析技术(一)数据提取(二)数据验证与清洗(三)数据集成(四)数据转换、归约、离散(五)数据分析目标确定(一)数据提取及常见问题主要问题:数据缺失(Incomplete)是属性值为空的情况。如Occupancy=“”。数据噪声(Noisy)是数据值不合常理的情况。如Salary=“-100”。数据不一致(Inconsistent)是数据前后存在矛盾的情况。如Age=“42”vs.Birthday=“01/09/1985”。数据冗余(Redundant)是数据量或者属性数目超出数据分析需要的情况。数据集不均衡(Imbalance)是各个类别的数据量相差悬殊的情况。离群点/异常值(Outliers)是远离数据集中其余部分的数据。数据重复(Duplicate)是在数据集中出现多次的数据。(二)数据验证与清洗1.数据验证:包括描述性统计分析、数据唯一性检查、数据逻辑验证等。描述性统计分析是对数据源最初的认知,包括数据的集中趋势、分散程度以及频数分布等,了解基础信息后才能做进一步的分析。数据逻辑验证。主要包括:数据基本逻辑检查;数据抽样稽核,按照最细粒度;按常识。2.数据清洗:主要处理缺失数据、离群点和重复数据。缺失数据有以下几类:MissingCompletelyatRandom。缺失的概率是随机的。MissingConditionallyatRandom。数据是否缺失取决于另外一个属性。NotMissingatRandom。数据缺失与自身的值有关。对缺失数据的处理方式:删除数据、手工填补、自动填补。(三)数据集成数据集成就是将来自多个数据源的数据整合成一致的数据并存储的过程。集成有助于减少结果数据集的冗余和不一致,有助于提高其后挖掘过程的准确性和速度。实体识别冗余和相关分析协方差分析(四)数据转换、归约、离散化处理在数据转换阶段,对数据进行采样处理、类型转换、归一化。采样是从特定的概率分布中抽取样本点的过程。在类型转换处理前,需先看数据类型。数据类型可以简单划分为数值型和非数值型。对于非数值型,需要进行类别转换,即将非数值型转换为数值型,以方便机器学习算法后续处理。经过类别转换后,所有的数据均转为了数值型。为了消除数据特征之间的量纲影响,需要对特征进行归一化处理,使不同指标之间具有可比性。(五)数据分析目标确定1.正确定义问题2.合理分解问题3.抓住关键问题图7-10抓住关键问题图7-9扑克牌问题分解遵循MECE原则图7-8问题的定义过程第七章农村电子商务大数据分析第一节农村电子商务大数据分析概述第二节农村电子商务大数据获取方法及分析工具第三节农村电子商务大数据分析准备第四节农村电子商务大数据分析技术(一)机器学习算法(二)分类分析(三)回归分析(四)聚类分析(五)分析结果(一)机器学习算法的应用1.监督学习:用于有标签的数据集,通过训练模型来预测新数据的标签。例如,决策树算法可以用于农产品价格预测,帮助农民合理安排生产。2.无监督学习:用于无标签的数据集,通过发现数据中的潜在关系来进行分析。例如,聚类算法可以用于消费者行为分析,帮助企业了解消费者需求,优化产品和服务。3.混合学习:混合学习结合了监督学习和无监督学习的优点,可以更好地处理复杂的数据集。例如,在农产品市场分析中,混合学习可以同时考虑价格、销量、消费者评价等多个因素,提供更准确的市场预测。(二)分类分析分类模型的评估分类模型的评估指标包括准确率、召回率、F1值等,通过这些指标可以评估模型的性能。例如,通过交叉验证可以评估分类模型的稳定性和泛化能力。分类结果的应用分类结果可以用于市场预测、消费者行为分析、农产品质量评估等多个领域。例如,通过对消费者购买行为的分类分析,企业可以制定个性化的营销策略,提高客户满意度。(二)分类分析分类算法的具体应用步骤如下:(1)提取变量特征。从大量的输入变量的重要性特征中提取权重较高的几个特征是分类分析的重点应用之一,也是数据归约和数据降维的重要方式。需要先获取原始数据集并对数据预处理,然后将数据集放到分类算法中进行训练,再从算法模型中提取特征权重信息。(2)处理缺失值。将缺失字段作为目标变量进行预测,从而得到较为可能的补全值。(3)分类分析算法的选取。文本分类时用到较多的是朴素贝叶斯,训练集比较小。训练集比较大,选取何种方法都不会显著影响准确度;若追求省时好操作,选用支持向量机;若重视算法准确度,选择算法精度高的算法;若想得到有关预测结果的概率信息,则使用逻辑回归;若遇到需要清洗的决策规则,则使用决策树。(三)回归分析1.回归分析的概念:回归分析用于研究因变量与自变量之间的关系,通过建立模型来预测因变量的值。例如,线性回归可以用于预测农产品价格与产量之间的关系,帮助企业制定生产计划。2.回归模型的建立:常用的回归模型包括线性回归、逻辑回归、多项式回归等,需要根据数据特点选择合适的模型。例如,对于非线性关系的数据,可以使用多项式回归来建立更准确的模型。3.回归分析常用软件:SAS软件系统、Excel软件、Statistica软件、SPSS软件、R软件。4.回归结果的应用:回归结果可以用于市场预测、生产计划、资源分配等多个领域。例如,通过对农产品市场需求的回归分析,政府可以制定合理的农业补贴政策,促进农村经济发展。(四)聚类分析定义:聚类分析是根据在数据中发现的描述对象及其关系的信息,将数据对象分组,组内的对象相互之间相似(相关),而不同组中的对象不同(不相关)。组内相似性越大,组间差距越大,说明聚类效果越好。聚类效果的好坏依赖于两个因素:衡量距离的方法(DistanceMeasurement);聚类算法(Algorithm),如K-Means聚类分析。农业中的应用:聚类算法在农村电商大数据中的应用主要针对消费者的聚类、农产品的销售市场定位等分析、农业种质资源的改良及聚类等应用。(五)分析结果图形化表示大数据分析结果图形化表示除了使用常用的工具输出外,还有很多库支持,如Pyt
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第2课 认识元件教学设计初中信息技术(信息科技)八年级 第12册滇人版(旧版)
- 第一节 电阻和变阻器教学设计初中物理沪科版2024九年级全一册-沪科版2024
- 高教版2教学设计中职中职专业课经济贸易类73 财经商贸大类
- 绍兴市上虞区道墟镇中学人教版七年级下册历史与社会第七单元第二课 传媒的行程教学设计
- 2026天津师范大学数学与交叉科学学院招聘部分博士层次专业技术岗位人员考试模拟试题及答案解析
- 2026年春季中国南水北调集团综合服务有限公司北京供应链管理分公司招聘9人笔试模拟试题及答案解析
- 2026春季中国石油乌鲁木齐石化分公司高校毕业生招聘6人笔试备考试题及答案解析
- 2026江西吉安市吉州区园投人力资源服务有限公司劳务外包工作人员招聘1人(三)笔试模拟试题及答案解析
- 2026年成都市武侯区公开考核招聘高层次教育人才(21人)考试参考题库及答案解析
- 成都大学附属医院2026年二季度招聘编外工作人员(6人)考试备考试题及答案解析
- 国内外可行性研究现状
- 年产200万吨炼铁高炉车间设计设计
- 《钢质锻件锻造生产能源消耗限额及评价方法》
- 23J916-1:住宅排气道(一)
- 美洋体感音波系统说明
- 心理健康与社会适应
- 2023年04月辽宁锦州市公开招聘引进部分国内重点高校和急需紧缺专业优秀应届毕业生到市直事业单位工作笔试参考题库附答案解析
- APQP问题清单模板
- 历史哲学绪论
- GB/T 16656.44-2008工业自动化系统与集成产品数据表达与交换第44部分:集成通用资源:产品结构配置
- 小说环境描写
评论
0/150
提交评论