人工智能与商业数据挖掘-思维、方法与案例 课件 第八章 回归分析_第1页
人工智能与商业数据挖掘-思维、方法与案例 课件 第八章 回归分析_第2页
人工智能与商业数据挖掘-思维、方法与案例 课件 第八章 回归分析_第3页
人工智能与商业数据挖掘-思维、方法与案例 课件 第八章 回归分析_第4页
人工智能与商业数据挖掘-思维、方法与案例 课件 第八章 回归分析_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章回归分析目录CATALOGUE01课前导读02回归分析的商业应用场景03简单线性回归04多元线性回归05逻辑回归06岭回归与Lasso回归07回归结果显著性检验08回归分析的诊断与改进09回归分析的Python实现方式01PART课前导读在淘宝、京东等平台,不同店铺服装销量差异显著。有些款式如夏季T恤销量飙升,冬季羽绒服却无人问津;快时尚品牌如GAP、优衣库、UR、MJstyle等通过促销快速售罄,而传统店铺销量低迷。课前导读:什么因素影响了服装的销量?线上服装销量:巨大分化之谜这种销量分化非偶然,而是多因素作用。你是否好奇:季节、促销如何影响销量?消费者习惯和竞争又起何作用?请同学们思考:数据如何揭示这些因素与销量的关系?这对店铺决策有何启发?季节变化直接驱动需求,夏日轻薄衣物销量攀升,冬季保暖服饰水涨船高。课前导读:什么因素影响了服装的销量?季节轮回:无形的大手如某快时尚品牌,夏季促销清凉款销量激增50%;天气变化如热浪可提升短袖销售。季节性需求如无形大手,推动销量波动,店铺需提前调整库存优化收益。限时折扣、满减、赠品等活动激发购买欲,短期内销量激增。课前导读:什么因素影响了服装的销量?促销催化:点燃购买热情据销售促销研究,服装行业促销可提升转化率20%,如某快时尚品牌的闪售活动带动平均订单增长。促销力度与创意决定效果,帮助店铺在淡季逆转销量,带来可观收益。消费者对品牌忠诚、价格敏感导致销量分化;激烈竞争要求优化质量与营销。课前导读:什么因素影响了服装的销量?习惯与竞争:隐形塑造力量如UNIQLO注重性价比,吸引价格敏感群体销量稳增;市场竞争中,社交媒体互动提升忠诚度。新因素如环保意识、网红效应涌现,潜移默化影响份额。收集购买历史、浏览数据,精准洞察因素影响;关键技术是回归分析。课前导读:什么因素影响了服装的销量?数据解谜:回归分析之力通过算法量化季节、促销对销量的具体关系,如麦肯锡报告中线上互动提升销量15%。本章重点学习回归分析,支持商业决策,揭示销量秘密,提升店铺竞争力。本章要点章节阐述了回归分析的定义、原理及商业应用,细讲了简单线性回归、多元线性回归、逻辑回归等算法原理、过程及优缺点,并探讨了模型性能指标、问题诊断与改进方法。01040302主要内容理解回归分析定义、原理、评价指标及过程;熟悉回归分析在销售预测、定价策略、客户细分等商业场景的应用;掌握多种回归算法及性能评价指标,并能用Python实现。学习目标回归分析适用于销售预测、定价策略优化等商业场景,需掌握其算法原理,特别是如何处理自变量与因变量之间的关系;学习时,需关注常见回归算法及其性能评估方法。本章重点理解回归分析在销售预测、定价策略优化等商业场景的应用;深入掌握回归分析算法的原理,如如何处理自变量与因变量之间的线性关系;回归算法性能的评估方法。本章难点02PART回归分析的商业应用场景回归分析是数据挖掘领域的经典算法之一,常用于研究一个或多个自变量(也称为预测因子或解释变量)与因变量(目标变量或响应变量)之间的关系。回归分析的数学模型可以分为:简单一元线性回归(即只有一个自变量)、多元线性回归(包含两个或更多个自变量)及其他非线性回归分析模型,如,多项式回归、逻辑回归等。回归分析定义线性回归适用于连续因变量与线性关系;逻辑回归用于二元分类;多项式回归适用于非线性关系;岭回归和LASSO回归解决共线性和过拟合,适用于多特征回归。线性回归适用性回归分析的基础知识大学生预测销量电商平台利用回归分析挖掘交易数据,精准把握市场动态,建立促销、天气等因素与服装销量的函数关系,预测未来销量并制定营销计划。需求分析电子商务平台利用回归分析研究新款手机发布与配件销量关系,考虑旧款降价幅度、竞品时间差等因素,制定库存管理策略,平衡供需。回归分析在商业领域的应用Pura80系列推出后,Pura70系列降价,清库存。资源分配母婴电商公司用回归分析评估多国市场潜力,收集销售、经济增长、竞争数据建模型,发现小众市场高回报率,调整战略深耕,实现海外拓展成功。风险评估逻辑回归用于金融风险评估,训练模型预测客户违约可能,高风险订单识别,自动评分保障安全;平台根据欺诈案例特征训练模型,实时判断风险并采取措施。回归分析在商业领域的应用03PART简单线性回归模型假设条件(1)线性关系,即因变量与自变量之间存在线性关系。(2)独立性,即不同样本数据的回归误差之间是不相关的。(3)正态性,即误差项服从均值为零的正态分布。(4)同方差性,即误差项的方差恒定,不随自变量的变化而变化。简单线性回归定义简单线性回归也称为一元线性回归,是最基础的回归分析方法,主要用于研究一个自变量和一个因变量之间的线性关系。数学模型表达式y是因变量,x是自变量;

是截距,表示当x=0时因变量的预测值;

是斜率,表示每单位x变化引起y的平均变化量;

表示误差项,其均值为0,方差为常数。定义与数学模型简单的线性回归图通过最小化残差平方和,利用数据点的均值求解简单线性回归模型的参数与;其本质是寻找最佳拟合直线的斜率和截距。最小二乘法求解二维平面数据点的误差形状呈U型,使用SSE衡量总误差;当SSE对参数的偏导数为0时,预测值最接近真实值。残差平方和SSE通过对SSE对参数求偏导并令其为0,可求得参数与的值,分别涉及自变量与因变量的均值,从而完成模型参数的估计。参数求解过程回归系数估计(1)明确对应特征收集大量由自变量与因变量构成的数据对,为回归分析提供坚实的数据基础,确保分析结果的准确性。(2)收集相关数据(3)计算参数值利用公式(8-3)至(8-4)计算得出参数与的值,构建完整的回归分析模型函数表达式,为预测提供工具。明确回归分析模型中的自变量与因变量对应商业场景中的具体特征,确保模型与实际背景相符。计算步骤04PART多元线性回归定义与数学模型

多元线性回归(MultipleLinearRegression)是简单线性回归模型的扩展,用于研究一个因变量(响应变量)与多个自变量(解释变量)之间的线性关系。与简单线性回归不同,它能够分析多个因素对结果的综合影响,并用来预测、解释或优化决策。多元线性回归模型的数学表达式为:

其中,

表示第个

自变量,模型中总共有m个自变量;y表示因变量;

是截距,表示所有自变量为零时因变量y的预测值;

是各自变量对应的回归系数,表示各自变量每变化一个单位对因变量产生的变化量;

表示误差项,其均值为0,方差为常数。多元线性回归模型的适用性建立在以下假设之上。(1)线性关系,即因变量与每个自变量之间存在线性关系。(2)独立性,即不同样本数据的回归误差之间是不相关的。(3)正态性,即误差项服从均值为零的正态分布。(4)同方差性,即误差项的方差恒定,与自变量的取值无关。(5)无共线性,即各自变量之间不存在完全的线性相关性。多元线性回归回归系数估计多元线性回归图与简单线性回归类似,多元线性回归同样采用最小二乘法(OLS),对各自变量的回归系数及截距项进行参数估计,目标也是最小化残差平方和(SSE)。不过,对于多元线性回归的参数估计,OLS的核心目标是找到一个超平面,使所有真实数据点到超平面的欧几几何距离之和尽可能小。例如在二元线性回归模型中,通过OLS拟合得到了红色回归平面,蓝色的真实数据点非常贴近其周围,如左图所示。多元线性回归模型的SSE公式如下:计算步骤(1)明确回归分析模型中的自变量与因变量对应商业场景中的具体特征。(2)收集大量由自变量与因变量y构成的数据对(3)使用公式计算得出参数的值,至此可得到多元线性回归分析模型的函数表达式。05PART逻辑回归定义与数学模型逻辑回归(LogisticRegression)的目标是预测样本的分类标签,尤其适用于分类问题。其基本思想是将线性回归的输出,通过非线性函数(Sigmoid函数)映射到概率空间,用于二分类或多分类任务。逻辑回归在金融、市场营销等领域有广泛应用。例如,在信用风险评估中,常用于评估和预测借款人是否会违约。逻辑回归模型的概率分布图模型参数估计二项逻辑回归的目标是找到最佳回归参数,使模型预测值与实际观测值的差异最小化。对于多分类逻辑回归模型,则是找到组最佳回归参数,同样是使模型预测值与实际观测值的差异最小化。为实现这一目标,通常采用极大似然估计法对回归参数进行估计。初始化参数:在开始优化之前,需初始化所有参数为小的随机值(或零),以打破可能的对称性并确保优化过程能发现有效的参数值。01计算预测值:对于数据集中的每个样本,计算其特征的线性组合,并通过Sigmoid函数(或Softmax函数)预测正类的概率。02计算梯度:针对每个参数,使用链式法则计算损失函数关于该参数的梯度(8-14),该梯度反映了参数对损失函数值的影响方向和程度。03更新参数:根据计算得到的梯度,按照一定的更新规则(如公式8-15所示)对各参数进行迭代更新,学习率控制更新步长。04重复步骤:多次迭代过程,直到满足收敛条件或达到最大迭代次数;在每一次迭代中,都通过计算预测值、梯度及更新参数来优化模型。05梯度下降法的实现步骤06PART岭回归与Lasso回归定义与数学模型岭回归(RidgeRegression)是在线性回归模型中,加入L2正则化项的一种回归方法。L2正则化的目标是对模型的权重参数施加惩罚,使得参数的值变小,从而减少模型的复杂性。岭回归在处理共线性中的作用(1)L2正则化。岭回归通过在损失函数中加入L2正则化项,惩罚回归系数的大小。与普通最小二乘回归相比,岭回归在优化过程中会压缩回归系数,使得它们的绝对值趋向于较小,从而有助于减少特征之间的共线性影响。(2)平滑回归系数。当特征之间存在高度相关时,岭回归会对它们的回归系数进行平滑,避免某些特征系数过大,从而提高模型的稳定性和预测能力。(3)不完全特征选择。岭回归虽然能够减小不重要特征的影响,但不会将它们的系数完全压缩为零。岭回归Lasso回归与变量选择(1)显式特征选择。Lasso回归通过L1正则化能够自动选择特征,压缩不重要的特征的系数为零。这使得Lasso回归特别适用于需要特征选择的场景。(2)在高维数据中的优势。Lasso回归在特征数量远大于样本数量时尤为有效,因为它能够自动将无关的特征排除,从而提高模型的可解释性和泛化能力。定义与数学模型Lasso(LeastAbsoluteShrinkageandSelectionOperator,Lasso)回归是在线性回归中,加入L1正则化的一种回归方法。L1正则化通过对模型的回归参数施加惩罚,促使一些参数的值变为零,从而进行特征选择。Lasso回归在处理共线性中的作用(1)L1正则化。即Lasso回归通过L1正则化,惩罚回归系数的绝对值。(2)特征选择。即在特征之间存在共线性的情况下,Lasso回归会选择性地保留一个相关特征的系数,而将其他相关特征的系数压缩为零。(3)模型稀疏性。即通过将不重要的特征的系数压缩为零,Lasso回归生成一个稀疏模型,这使得模型更易于解释,并且在高维数据中能够自动选择最重要的特征。Lasso回归岭回归与Lasso回归的对比特性岭回归Lasson回归正则化类型L2正则化(回归系数平方和)L1正则化(回归系数绝对值和)特征选择能力不会将任何特征的系数压缩为零将不重要的特征系数压缩为零适用特征间高度相关的情况能有效处理共线性问题,减少系数波动对于共线性较高的特征,Lasso可能会随机选择某个特征结果模型所有特征系数较小,仍保留所有特征生成稀疏模型,选择重要特征并删除不重要特征模型的复杂性保留所有特征,无特征选择功能具有特征选择功能,能够减少模型复杂度岭回归与Lasso回归的差异性07PART回归结果显著性检验模型拟合优度判定系数R2为更加清晰地理解判定系数的含义,首先需要对因变量的变差进行分析。因变量的变差指的是样本中因变量在不同观测值之间的波动。产生因变量变差的主要来源有两个:一是自变量的取值差异对因变量的影响,称为回归差;二是除自变量以外其他因素(例如测量误差等)对因变量的影响,称之为残差。变差分解图模型拟合优度判定系数是模型拟合效果的关键评估指标,但有一个天然缺陷,即不管回归模型中添加多少变量,值永远不会减少。为解决R2这一天然不足,统计学家提出了新的拟合优度度量指标“调整R2”(Adjusted)。该度量指标考虑了模型中自变量的数量,会惩罚那些对因变量没有贡献的自变量,防止在添加更多自变量时导致的值不合理地提高。调整R2指标R2

调整R2反映的内容模型对因变量变异的解释程度对的修正R2,考虑了自变量数量增加自变量的影响只要增加自变量,R2就会增加若增加的自变量无用,调整R2会减少适用场景自变量数量相同或模型比较简单时的不同模型拟合效果对比比较不同数量自变量的模型R2与调整R2的差异对比模型拟合优度均方误差(MSE)回归模型拟合的本质是通过最小化残差平方和(SSE),使样本数据因变量真实值与模型预测值之间的差距尽可能地小。因此,残差平方和(SSE)除以其相应的自由度,即均方误差(MSE),也可以作为模型拟合优度的评估指标。均方误差(MSE)公式如下:线性关系检验线性关系检验旨在确认自变量与因变量之间是否存在线性相关,通过比较回归平方和与残差平方和来实现,若两者比值显著,则表明线性关系成立。回归系数检验显著性检验在确认线性关系后,需对每个自变量进行回归系数检验,以判断其对因变量的显著性影响,不显著的自变量应剔除以避免类型错误。0102置信区间估计概述回归系数置信区间估计通过构建置信区间,揭示了回归系数的可能取值范围,更准确地反映了估计值的精确度,避免了点估计的局限性。置信区间结果解读在置信水平下,若零值不在置信区间内,则拒绝原假设,表明该回归系数对因变量有显著影响;否则,接受原假设,认为影响不显著。置信区间估计08PART回归分析的诊断与改进残差图分为正常线性回归模型、U型非线性模型、异方差性模型,分别对应均匀零线、非均匀零线、自变量增加残差增大。残差图类型残差分析用于检验模型误差项正态性,通过标准化残差分析,期望其服从正态分布,均匀分散在水平带中间。标准化残差图残差分析共线性问题处理剔除相关自变量或采用正则化方法如岭回归、L

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论