版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目五大数据分析与挖掘大数据技术与应用基础目录01大数据分析02大数据挖掘大数据分析01引导案例:利用大数据推动疫情精准防控2020年新冠疫情的爆发给全球人民生命安全带来严重威胁。面对前所未知、突如其来、来势汹汹的疫情天灾,中国果断打响疫情防控阻击战。在这场疫情防控阻击战中大数据技术发挥了功不可没的作用。通过联动大数据、电信运营商、互联网公司、交通部门、公安等部门提供的数据信息,实现涉疫人员地理位置的确定,利用大数据技术分析出涉疫人员的流动轨迹。通过手机信号等包含地理位置和时间戳信息的数据进行分析,绘制出病患的行动轨迹,形成涉人员的历史时段轨迹信息图,利用大数据技术推断出病患密切接触者、疑似病患和相关接触者的行动轨迹,并可以预测出高风险地区和潜在的高风险地区。根据病患的确诊时间先后顺序和密切接触人员等信息定位时空碰撞点,通过大数据技术综合分析涉疫人员的历史时段轨迹信息图,推断出疾病传播路径,从而追溯传染病源头。通过确诊病患和病患密切接触者的活动情况,结合情新增确诊、疑似、死亡、治愈的病例数,借助传播动力学模型、动态感染模型、回归模型等大数据模型和技术,分析展示出发病热力分布图和密切接触者的风险热力分布图,预测疫情的峰值和拐点等相关信息。有关部门可以根据发病热力分布图,对重点区域强化卫生防疫措施,依据风险热力分布图,对可能扩散的区域提前防控,避免二次爆发,同时对疫情发展趋势进行预测,对于政府部门确定复工时间、出台经济措施等都有重要作用。引导案例:利用大数据推动疫情精准防控◎案例解析这个案例展示了我国大数据技术在疫情防控中的重要作用。在进行大数据分析前对数据进行了收集,这个过程可能需要使用到数据清洗、数据转换等技术,以确保数据的质量和一致性。然后利用轨迹分析,分析涉疫人员的流动轨迹,推断出疾病的传播路径。使用了传播动力学模型、动态感染模型、回归模型等预测模型,来预测疫情的峰值和拐点。还使用了机器学习算法来分析数据,发现模式,生成预测。通过大数据分析,让我们更有效地追踪疫情,预测疫情趋势,制定防控策略,从而有效地防止疫情的进一步扩散。一、大数据分析的概述(一)数据分析的概念及目标数据分析是指收集、处理数据并获取数据隐含信息的过程。数据分析主要作用包括:推测或解释数据并确定如何使用数据;检查数据是否合法;给决策制定合理建议;诊断或推断错误原因;预测未来将要发生的事情。大数据分析是指用适当的统计分析方法对采集的大量数据进行分析,并将这些数据加以汇总、理解和消化,提取有用信息和形成结论,以求最大化地开发数据的功能和发挥数据的作用。一、大数据分析的概述(二)数据分析的类型根据数据分析深度,可将数据分析分为三个层次:描述性分析(descriptiveanalysis),预测性(predictiveanalysis)分析和规则性分析(prescriptiveanalysis)。在统计学的领域当中,数据分析可划分为描述性统计分析、探索性数据分析及验证性数据分析三种类型。在人类探索自然的过程中,通常将数据分析方法分为定性数据分析和定量数据分析两大类。按照数据分析的实时性,一般将数据分析分为实时数据分析和离线数据分析依据任务难度和产生价值两个维度分类
分析类型描述分析诊断分析预测分析规范分析依据任务难度和产生价值两个维度分类
描述分析描述分析用来描述事情发生的结果,是通过历史数据来说明发生的事件。它的任务难度和产生的价值都是相对比较低的。(1)诊断分析诊断分析用来分析事情发生的原因,是通过采集的数据说明事件发生的原因。它的任务难度和产生的价值比描述分析高。(2)依据任务难度和产生价值两个维度分类
描述分析描述分析用来描述事情发生的结果,是通过历史数据来说明发生的事件。它的任务难度和产生的价值都是相对比较低的。(1)诊断分析诊断分析用来分析事情发生的原因,是通过采集的数据说明事件发生的原因。它的任务难度和产生的价值比描述分析高。(2)依据任务难度和产生价值两个维度分类预测分析用来预测未来事件的演化趋势和发生的概率,它的任务难度和产生价值相对于描述分析和诊断分析来说更高。通过预测分析,将学习到的知识和规律应用到未来,可以更好的对未来的情况进行判断。(3)规范分析规范分析用来控制事情发生的轨迹,用于决策制定以及提高分析效率。它的任务难度和产生价值是这4个层次中最高的。预测分析(4)依据统计学领域分类
可分为描述性分析、探索性分析和验证性分析。描述性分析用来说明发生的事件;探索性分析致力于找出事物内在的本质结构;验证性分析主要检验已知的特定结构是否按照预期的方式发挥作用。如果分析者没有坚实的理论基础来支撑有关观测变量内部结构的假定,通常先用探索性分析,然后在探索性分析产生结果的基础上用验证分析。依据探索自然的过程分类
可以划分为定性分析和定量分析。定性分析侧重于物理模型的建立和数据意义的阐述;定量分析为信息研究提供数量依据,侧重于数学模型的建立和求解。定性分析和定量分析是相互补充的,定性分析是定量分析的前提,定量分析使定性分析更加科学准确。
定性分析定量分析样本无代表性的小样本有代表性的大样本分析方法非统计方法统计方法优点操作简便结果直观简洁、应用效果好缺点主观性强、应用效果不好操作空难依据数据分析的实时性分类
可以划分为在线数据分析和离线数据分析两种。在线数据分析离线数据分析实时处理用户请求不能实时处理用户请求允许用户随时更改分析的约束和限制条件用户不可随时更改分析的约束、限制条件处理的数据量少处理的数据量大要求数秒内返回准确的分析结果对反馈时间要求不严格一、大数据分析的概述(三)大数据分析的步骤数据获取数据清洗数据分析数据验证数据可视化大数据分析的步骤——数据收集确定数据分析范围数据可以以文件形式进行下载;数据可以通过服务器访问日志查看数据;可以通过交互界面访问,例如phpmyadmin;数据可以通过应用程序接口(API)访问数据;可以通过技术抓取手段采集。大数据分析的步骤——数据清洗数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性,是企业在做数据分析时必不可少的步骤。直接关系到各个分析环节运用以及分析结果的准确性。在实际业务中,数据清洗通常占据整个分析过程的30%-40%的工作量。数据清洗工作主要包含文件类型清洗、内容格式清洗、缺失值清洗、数据去重和其他五个方面数据清洗常用工具Excel、PHP、Python等大数据分析的步骤——数据分析主要依靠的技术有统计分析、数据挖掘、机器学习和可视化分析。统计分析:是利用统计学方法对数据进行描述、推断和预测的过程。数据挖掘:是从大规模数据集中发现隐藏在其中的模式、关联和规律的过程。机器学习:是通过计算机系统自动学习和改进性能的一类算法和技术。可视化分析:可视化分析是利用图表、图形和可视化技术将数据转化为可视化形式,以帮助人们更直观地理解和解释数据。大数据分析的步骤——数据验证(1)数据采集的目的是否明确、数据是否完备和有效、采集信息的渠道和方法是否恰当。(2)数据分析的方法是否合理。(3)数据分析需要的资源能否提供。(4)提供给决策者的信息是否完整可信、是否存在因信息不完整、不准确而导致决策失误。(5)最终分析得到的结果是否与期望值一样、是否能够在产品实现过程中有效运用。二、大数据分析在财务中的应用(一)预测和预算方面(二)风险管理方面(三)财务报表分析方面(四)投资决策方面(五)客户信用评估方面大数据挖掘02引导案例:尿不湿与啤酒超级商业零售连锁巨无霸沃尔玛公司(WalMart)拥有世界上最大的数据仓库系统之一。为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行了购物篮关联规则分析,从而知道顾客经常一起购买的商品有哪些。在沃尔玛庞大的数据仓库里集合了其所有门店的详细原始交易数据,在这些原始交易数据的基础上,沃尔玛利用数据挖掘工具对这些数据进行分析和挖掘。一个令人惊奇和意外的结果出现了:“跟尿不湿一起购买最多的商品竟是啤酒!”这是数据挖掘技术对历史数据进行分析的结果,反映的是数据的内在规律。那么这个结果符合现实情况吗?是否是一个有用的知识?是否有利用价值?为了验证这一结果,沃尔玛派出市场调查人员和分析师对这一结果进行调查分析。经过大量实际调查和分析,他们揭示了一个隐藏在“尿不湿与啤酒”背后的美国消费者的一种行为模式:在美国,到超市去买婴儿尿不湿是一些年轻的父亲下班后的日常工作,而他们中有30%~40%的人同时也会为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫不要忘了下班后为小孩买尿不湿,而丈夫们在买尿不湿后又随手带回了他们喜欢的啤酒。另一种情况是丈夫们在买啤酒时突然记起他们的责任,又去买了尿不湿。既然尿不湿与啤酒一起被购买的机会很多,那么沃尔玛就在他们所有的门店里将尿不湿与啤酒并排摆放在一起,结果是尿不湿与啤酒的销售量双双增长。引导案例:尿不湿与啤酒◎案例解析“啤酒和尿不湿”的故事是数据挖掘中最经典的案例。按照常规思维,尿不湿与啤酒之间没有关联,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,超市是不可能发现数据内这一有价值的规律的。这个经典案例展示了大数据挖掘和大数据分析的潜力。对于海量数据的今天,通过大数据挖掘技术,深入探索和发现更多、更深的客观规律,可以得到过去无法企及的巨大商机和利益。一、大数据挖掘概述(一)数据挖掘的起源大数据时代,数据增长无疑是一个日益凸显的挑战,数据的来源丰富多样,归纳起来主要有三个重要来源。一是用户生成的数据。随着社交媒体、在线购物和移动应用的普及,用户每天都在产生海量的数据。他们的浏览记录、购买行为、评论反馈等,都成为了企业了解市场需求、优化产品服务的重要参考。二是机器生成的数据。在物联网、智能制造等领域,机器设备在运行过程中会产生大量的数据。这些数据不仅记录了设备的运行状态、性能参数,还能揭示生产流程中的潜在问题,为企业提供优化和改进的依据。三是企业内部的数据。这包括企业的运营数据、财务数据、人力资源数据等。这些数据是企业日常运营和管理的核心,通过分析和挖掘这些数据,企业可以深入了解自身的运营状况,发现潜在的风险和机会,为战略决策提供有力支持。面对数据量的飞速增长,传统的处理手段和方法显得力不从心,数据的迅速增加与数据分析方法滞后之间的矛盾越来越突出,人们希望在对已有的数据分析的基础上进行科学研究、商业决策或者企业管理。一、大数据挖掘概述(二)数据挖掘的定义数据挖掘是在大量的数据中自动发现有用信息的过程,这一过程是通过对数据的分析揭示数据之间有意义的联系、趋势和模式。数据挖掘是通过在大量数据的基础上对各种学习算法的训练,得到数据对象间的关系模式,这些模式反映了数据的内在特性,是对数据包含信息的更高层次的抽象。一、大数据挖掘概述(三)数据挖掘的分类1.按挖掘的数据库类型分类2.按挖掘的知识类型分类3.按所用的技能类型分类4.按应用分类一、大数据挖掘概述(四)数据挖掘的过程1.信息收集2.数据集成3.数据规约4.数据清理5.数据变换6.数据挖掘过程7.模式评估8.知识表示一、大数据挖掘概述(五)数据挖掘应用领域数据挖掘技术在学校、金融企业、保险、零售、电信、股市、交通等领域已得到广泛地应用。1.数据挖掘技术在高校中的应用
2.数据挖掘技术在金融企业中的应用
3.数据挖掘技术在保险业中的应用4.数据挖掘技术在零售企业中的应用二、大数据挖掘的主要方法(一)关联规则学习1.定义形式:以X=>Y表示(X、Y为不相交数据项集),例:“面包+黄油=>牛奶”。2.核心度量指标支持度:X和Y同时出现的交易比例(例:1%的交易包含面包、黄油和牛奶)。置信度:含X的交易中同时含Y的比例(例:80%买面包+黄油的客户会买牛奶)。提升度:置信度与Y单独出现概率的比值,反映X与Y的关联程度。二、大数据挖掘的主要方法(一)关联规则学习4.应用领域o零售(市场篮子分析)、Web使用挖掘、生物信息学(基因序列分析)等。5.注意事项o关联规则仅反映数据模式,不代表因果关系(例:“买面包+黄油→买牛奶”不意味着前者导致后者)。二、大数据挖掘的主要方法(二)分类1.定义目标:预测对象的类别标签,基于已标记训练数据构建分类模型,用于未标记数据分类(例:信用卡交易分类为正常/欺诈)。2.主要分类技术(1)
决策树分类
核心结构:由内部节点(特征)、边(决策规则)、叶节点(类别)组成。
关键步骤:
属性选择度量:信息增益、增益率、基尼指数。
树生成:贪心策略递归构建(如ID3/C4.5算法)。
剪枝:预剪枝(生成中)或后剪枝(生成后),防止过拟合。
特点:可处理连续/分类属性、缺失值;解释性强,但易过拟合、对噪声敏感。二、大数据挖掘的主要方法(二)分类2.朴素贝叶斯分类
核心假设:类条件独立性(给定类别时,特征间独立)。
模型训练:学习类别先验概率和类条件概率。
预测方法:计算后验概率,取最大概率类别。
类型:高斯朴素贝叶斯(正态分布特征)、多项式朴素贝叶斯(文本分类)、伯努利朴素贝叶斯(布尔特征)。
特点:简单高效,适合高维稀疏数据;性能可能不及复杂模型,依赖独立性假设。二、大数据挖掘的主要方法(二)分类3.K-近邻(KNN)分类
核心思想:相似数据具有相似属性,基于K个最近邻样本类别预测新样本。
关键要素:
距离度量:欧氏距离、曼哈顿距离、闵可夫斯基距离。
K值选择:小K易过拟合,大K易欠拟合,需通过交叉验证确定。
决策规则:多数投票(分类)或平均(回归)。
特点:简单直观,无需训练过程;计算量大,对高维数据敏感,需归一化。二、大数据挖掘的主要方法(二)分类4.支持向量机(SVM)分类
核心目标:找到最大化类别间隔的超平面。
关键技术:
线性SVM:适用于线性可分数据,依赖支持向量(边界样本)。
核技巧:映射非线性数据至高维空间(如多项式核、高斯核)。
软间隔与正则化:允许噪声/异常值,平衡模型复杂度与错误率。
特点:高维数据表现优秀,抗过拟合;大规模数据训练慢,核函数选择复杂。二、大数据挖掘的主要方法(二)分类5.神经网络分类
核心结构:神经元(节点)与权重连接组成的多层网络(输入层、隐藏层、输出层)。
关键机制:
激活函数:Sigmoid、Tanh、ReLU等。
训练过程:前向传播(计算输出)、反向传播(更新权重,如梯度下降)。
正则化:早停、权重衰减、Dropout等防止过拟合。
特点:强非线性拟合能力,处理复杂数据;训练耗时,解释性差。二、大数据挖掘的主要方法(二)分类5.神经网络分类
核心结构:神经元(节点)与权重连接组成的多层网络(输入层、隐藏层、输出层)。
关键机制:
激活函数:Sigmoid、Tanh、ReLU等。
训练过程:前向传播(计算输出)、反向传播(更新权重,如梯度下降)。
正则化:早停、权重衰减、Dropout等防止过拟合。
特点:强非线性拟合能力,处理复杂数据;训练耗时,解释性差。二、大数据挖掘的主要方法(二)分类6.随机森林分类
核心思想:集成多个决策树,通过投票/平均提升性能。
关键策略:
随机子集选择:自助抽样(有放回)生成训练集。
随机特征选择:每个树节点随机选择特征子集分裂。
完全生长树:无需剪枝,依赖集成降低方差。特点:鲁棒性强,抗过拟合,可评估特征重要性;黑盒模型,解释性较弱。二、大数据挖掘的主要方法(三)聚类聚类是一种将数据对象组织成相似的类别的过程,但这些类别是未预先定义的。换句话说,聚类是根据数据本身的特征进行分类的。目标是将数据点分组,使得同一组内的数据点之间的相似度尽可能高,而不同组内的数据点之间的相似度尽可能低。以下是一些常见的聚类方法:K-均值聚类(K-meansClustering);层次聚类(HierarchicalClustering);DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise);这是一种基于密度的聚类方法;谱聚类(SpectralClustering)二、大数据挖掘的主要方法(四)异常检测异常检测是一种识别不符合预期模式的数据对象的过程,这些对象被称为异常。在许多领域,如信用卡欺诈检测、网络入侵检测等,异常检测都是非常重要的。二、大数据挖掘的主要方法(五)序列挖掘1.核心定义
目标:从有序数据中挖掘时间或顺序模式,关注元素间的时序关系。
数据类型:时间序列数据(如股票价格)、文本数据、DNA序列等。2.常见任务序列匹配序列预测序列聚类序列分类二、大数据挖掘的主要方法(五)序列挖掘3.主要方法基于距离的方法核心:定义序列间的距离/相似度度量。技术:欧氏距离、动态时间规整(DTW)。基于模型的方法核心:假设数据由特定模型生成,学习模型参数。技术:隐马尔可夫模型(HMM)、自回归移动平均模型(ARMA)。基于模式的方法核心:挖掘频繁出现的序列模式。技术:频繁项集挖掘、序列规则挖掘。二、大数据挖掘的主要方法(五)序列挖掘4.应用领域
金融、医疗、生物信息学、网络安全、推荐系统等。以金融领域为例:(1)市场预测模型:ARIMA、神经网络、LSTM;应用于股票价格、汇率趋势预测。(2)欺诈检测逻辑:识别交易序列异常(如本地用户突然发生境外大额交易)。(3)用户行为分析例:通过交易时间序列推断工资日,提供个性化服务。(4)风险管理应用:分析信用历史序列,预测贷款违约风险。(5)投资策略优化例:基于历史投资序列评估策略,调整股票持仓比例。二、大数据挖掘的主要方法(五)预测1.定义
预测:通过数据变量推断未知或未来趋势、行为模式的过程,是数据科学与统计学的核心领域。2.常见预测方法回归分析时间序列分析机器学习二、大数据挖掘的主要方法(五)预测2.常见预测方法1.回归分析o用途:预测数值变量,揭示自变量与因变量的关系。o例:线性回归预测房价(自变量:房屋面积、地理位置)。2.时间序列分析o用途:预测按时间顺序排列的数据趋势。o模型:ARIMA、LSTM;例:股票价格、季度销售额预测。3.机器学习o用途:预测分类或数值变量。o算法:随机森林、支持向量机(SVM)、神经网络;o例:垃圾邮件分类、房价预测。二、大数据挖掘的主要方法(五)预测3.时间序列(1)定义按时间顺序收集的数据点(如股票价格、每日气温、失业率)。(2)两大目标理解数据:分析趋势(上升/下降)、季节性(周期模式)、噪声(随机变化)。预测未来:基于历史数据推断未来数据点(如股市、天气预测)。二、大数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 租房合同怎样代签字(3篇)
- 2025标准个人车辆抵押借款合同协议书
- 2025建筑行业借款合同范本
- 2025年多人合伙人合同范本
- 2025年版个人房屋买卖合同协议书范本
- 2025租赁合同范本模板参考
- 2025年道路运输企业安全生产管理人员上岗证题及答案
- 笛子创意画课件
- 淮安客运上岗证模拟考试题库及答案
- 2025私营企业劳动合同书模板样本
- 成品化粪池施工方案
- 山西省三晋联盟山西名校2024-2025学年高二上学期11月期中联合考试 化学试题
- 藏毛窦的治疗及护理
- 农村集体经济组织内部控制制度
- 药品经营质量管理规范
- 通信工程勘察设计管理办法
- 婴幼儿发展引导员(育婴员)职业技能竞赛理论考试题库(含答案)
- 公安涉警舆情课件
- 品三国论领导艺术智慧树知到期末考试答案2024年
- 2024年安徽省电力行业无人机巡检技能竞赛考试参考题库(含答案)
- 渭南好运旺塑业有限公司农用灌溉设施生产项目环境影响报告
评论
0/150
提交评论