人工智能与商业数据挖掘-思维、方法与案例 课件 第七章 关联规则分析_第1页
人工智能与商业数据挖掘-思维、方法与案例 课件 第七章 关联规则分析_第2页
人工智能与商业数据挖掘-思维、方法与案例 课件 第七章 关联规则分析_第3页
人工智能与商业数据挖掘-思维、方法与案例 课件 第七章 关联规则分析_第4页
人工智能与商业数据挖掘-思维、方法与案例 课件 第七章 关联规则分析_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章关联规则分析CATALOGUE目录02关联规则分析的商业应用场景01课前导读03常见的关联规则分析算法04关联规则分析的Python实现方式01PART课前导读20世纪90年代,美国沃尔玛超市通过数据挖掘发现,啤酒与尿布经常一起售出。年轻父亲周五采购尿布时,顺便买啤酒在家看球赛。沃尔玛据此调整货架,将两者关联陈列,提高销售。但现实中啤酒因管制单独放置,故事真实性备受争议。课前导读:啤酒与尿布的故事啤酒与尿布:风马牛不相及的组合?这个“经典”案例是真实发现还是坊间传说?为什么啤酒和尿布会相关?请同学们思考:数据挖掘如何揭示隐藏模式?这对零售决策有何启发?年轻夫妇周末在家照顾孩子,父亲买尿布时顺带啤酒,享受沙发看球时光。课前导读:啤酒与尿布的故事啤酒与尿布的合理解释这一模式源于客户生活习惯,沃尔玛调整货架后销售提升,标志关联规则分析在零售落地。但故事细节如货架调整可能为传说,强调数据揭示意外惊喜的价值。故事多次“据说”,现实中啤酒单独放置,无法验证,成为坊间传说。但思想超越案例:数据驱动决策、关注客户需求、创新营销。课前导读:啤酒与尿布的故事臭名昭著的传说:真实性争议尽管争议,案例传递数据分析优化业务、客户视角思考、打破传统营销。Forbes1998年报道确认类似相关性发现,但细节模糊。传说中的货架现实中的货架启发企业重视数据收集、客户习惯分析、创新策略;关键技术是关联规则分析。课前导读:啤酒与尿布的故事从啤酒尿布到关联规则超越故事,强调数据驱动落地。本章学习关联规则,支持零售等场景挖掘隐藏关系,提升业绩。关联规则流程图(数据输入

模式发现

决策输出)主要内容关联规则分析定义、原理、类型、应用及算法(Apriori、FP-Growth),帮助读者熟悉商业场景,掌握需求驱动的关联规则分析。本章重点关联规则分析适用的商业应用场景;关联规则分析算法的原理;常见的关联规则算法;关联规则性能的评估方法。本章难点关联规则分析适用的商业应用场景;关联规则分析算法的原理;关联规则分析性能评估的方法。学习目标理解关联规则定义、原理、评价及过程;熟悉商业场景;掌握Apriori、FP-Growth算法;实现Python关联规则分析;撰写分类分析报告。本章要点02PART关联规则分析的商业应用场景关联规则分析的基础知识基本概念关联规则分析(AssociationAnalysis或AssociationRuleMining)指的是从大量事务数据中发现有趣的、潜在的、有用的模式。这些模式通常以关联规则的形式表示,揭示了不同项之间的关联关系。常见的关联规则分析算法包含Apriori算法、FP-Growth算法等。学习关联规则分析之前,需要明确几个基本概念:项、项集和事务。项(Item)是数据集中最小的不可分割的单位;项集(Itemset)是由一个或多个项组成的集合事务(Transaction)是一个项集的实例,表示一次完整的购物行为或事件01关联规则分析的基础知识度量指标关联规则指的是一种形如“如果A,则B”关联形式,A和B都是项集,表示当事务中包含A时,同时也包含B的可能性。评估关联规则有效性经常使用支持度(Support)、置信度(Confidence)、提升度(Lift)等三个度量指标。(1)支持度表示同时包含A和B的事务占总事务数的比例,反映了A和B同时出现的频率。一般来说,支持度高的规则通常更具有代表性,更值得关注。对于项集X,它的支持度Support(X)计算方式如下:假设D是一个事务的集合,I是所有项的集合,X是一个项集、即I的一个子集,那么支持度的计算公式为:其中,count(X)表示包含项集X的事务数量,|D|表示事务的总数。02关联规则分析的基础知识度量指标(2)置信度表示在包含A(即前件,Antecedent)的事务中也包含B(后件,Consequent)的比例,反映了A对B的预测准确性。也就是说,置信度越高,规则越可靠,即前件对后件的预测能力越强。因此,置信度可以用来评估规则的预测能力。规则A→B的置信度Confidence(A→B)的计算方式为:其中,Support(A∪B)表示同时包含A和B的事务数量占总事务数量的比例,Support(A)表示包含A的事务数量占总事务数量的比例。(3)提升度用于衡量两个项集之间关联的强度,可以更准确地反映出两个项集之间的相关性。相较于置信度,提升度能更好地排除偶然性的影响。对于项集A和B,它们的提升度计算公式为:其中,Confidence(A→B)表示在包含A的事务中,同时包含B的事务所占的比例,Support(B)表示包含B的所有事务占总事务数的比例。02关联规则分析的基础知识关联规则的类型在关联规则分析中,根据规则的形式和适用场景,可将关联规则分为以下几种主要类型:正向关联规则(ForwardAssociationRule):正向关联规则是最常见的关联规则形式,形如“如果A,则B”。它表示当事务中包含A时,也包含B的可能性较高。正向关联规则在市场营销、商品推荐等领域有着广泛的应用。反向关联规则(BackwardAssociationRule):反向关联规则是相对于正向关联规则而言的,形如“如果B,则A”。它表示当事务中包含B时,也包含A的可能性较高。虽然反向关联规则在实际应用中相对较少,但在某些特定场景下,如逆向物流、故障预测等领域,可能具有潜在的应用价值。值得注意的是,关联规则的挖掘并不局限于这两种类型。根据具体的应用场景和数据特点,还可以挖掘出其他类型的关联规则,如,项集间的关联规则、序列关联规则等。这些不同类型的关联规则,为数据挖掘提供了更加丰富的视角和工具。03关联规则分析在商业领域的应用个性化推荐关联规则分析挖掘用户在不同内容之间的偏好和关联性,生成个性化的内容推荐列表,提高用户的粘性和活跃度。优化营销策略超市通过关联规则分析找出频繁项集和关联规则,筛选出符合自己需求的关联规则,并采取合适的促销策略,如“面包+牛奶”优惠组合。关联规则分析在商业领域的应用案例:亚马逊产品推荐系统在电子商务领域,亚马逊利用关联规则分析优化个性化推荐。通过收集用户购买历史、浏览行为和购物篮数据,采用Apriori算法挖掘频繁项集和规则,例如发现“购买笔记本电脑的用户有70%概率也购买无线鼠标”(支持度0.4、置信度0.7、提升度>1)。平台据此调整推荐策略,在用户查看笔记本时推送鼠标等配件,提升交叉销售。该应用显著提高了转化率和平均订单价值,据亚马逊报告,年销售额增长15%以上,同时增强用户体验,减少库存积压。通过支持度、置信度和提升度筛选规则,确保推荐精准,避免无关干扰。03PART常见的关联规则分析算法Apriori算法概述Apriori算法采用自底向上的策略,通过多次扫描事务数据库来逐步构建频繁项集。它的核心思想是利用“频繁项集的子集也必定是频繁项集”的性质,通过逐步增加项集的大小来寻找所有频繁项集。Apriori算法Apriori算法Apriori算法的局限性生成候选项集算法首先生成所有1项集并筛选频繁项集,随后利用频繁K-1项集生成K项集候选集,并计算支持度,同时采用剪枝操作排除不可能频繁的项集。Apriori算法虽然广泛应用于关联规则挖掘,但当数据集较大时,其多次扫描事务数据库导致计算效率低,且生成候选项集增加了计算复杂度。筛选频繁项集在每次生成候选项集后,算法都会根据支持度阈值筛选出频繁项集;如果某个候选项集的支持度低于阈值,则将其从候选集中删除。生成关联规则在找到所有频繁项集后,算法会根据这些频繁项集生成相应的关联规则,并计算每条规则的置信度,然后筛选出满足置信度阈值的关联规则。重复生成候选项集算法会重复生成候选项集并筛选频繁项集的过程,直至无法再生成新的频繁项集为止,从而确保找到所有频繁项集。Apriori算法的执行流程如下:FP-Growth算法FP-Growth算法概述FP-Growth是一种基于频繁模式树(FrequentPatternTree,简称FP-Tree)的关联规则挖掘算法。它采用了一种被称为“频繁模式增长”的方法,即通过构建FP-Tree来存储事务数据中的频繁项集信息。在构建FP-Tree的过程中,算法会按照项的支持度对项进行排序,并将排序后的项依次插入FP-Tree。FP-Tree中的每个节点都代表了一个频繁项集,而每个路径则代表了一个事务。与Apriori算法相比,FP-Growth算法在处理大型数据集时具有更高的效率。01FP-Growth算法010203挖掘频繁项集构建FP-Tree后,算法递归挖掘频繁项集,从根节点开始,利用条件模式基构建条件FP-Tree并提取频繁项集,过程递归进行,每次挖掘出新频繁项集。生成关联规则根据挖掘出的频繁项集,算法生成关联规则并计算置信度,随后根据置信度阈值筛选出满足要求的关联规则,为决策提供数据支持。构建FP-Tree算法扫描事务数据库,统计项支持度并筛选频繁项,按支持度降序排列后构建FP-Tree,该结构将频繁项集的事务压缩成树形,支持高效挖掘。FP-Growth效率优势:FP-Growth在处理大型数据集时比Apriori更高效,因其扫描事务数据库次数少(仅两次),且构建FP-Tree后无需生成大量候选项集,降低了计算复杂度。其执行流程如下:FP-Growth算法案例:面包篮子面包店销售分析在零售烘焙行业,“TheBreadBasket”面包店利用Apriori和FP-Growth算法进行市场篮子分析。通过分析20,507笔销售交易数据,算法挖掘频繁项集和关联规则,例如“咖啡”与“面包”组合的支持度达0.15、置信度0.85、提升度>1。Apriori逐步生成候选项集筛选规则,而FP-Growth构建FP-Tree高效处理大数据,避免多次扫描。基于这些发现,面包店调整货架布局、推出捆绑促销,提升交叉销售和库存效率。根据ResearchGate研究,此应用显著提高了销售额10%以上,优化营销策略,同时减少计算开销,帮助小企业实现数据驱动决策。。04PART关联规则分析的Python实现方式关联规则分析的Python实现方式0102Apriori算法FP-Growth算法在mlxtend中,使用`mlxtend.frequent_patterns.apriori`函数来实现Apriori算法。示例代码:importpandasaspdfrommlxtend.frequent_patternsimportapriorifrommlxtend.frequent_patternsimportassociation_rules#生成示例交易数据data={'Transaction':[1,2,3,4],'Items':[['A','B'],['B','C'],['A','C'],['A','B','C']]}df=pd.DataFrame(data)#对数据进行独热编码one_hot_encoded=df['Items'].apply(lambdax:pd.Series([1ifiteminxelse0foriteminset(df['Items'].sum())]))one_hot_encoded.columns=sorted(set(df['Items'].sum()))#使用Apriori算法挖掘频繁项集frequent_itemsets=apriori(one_hot_encoded,min_support=0.5,use_colnames=True)#根据频繁项集计算关联规则rules=association_rules(frequent_itemsets,metric="confidence",min_threshold=0.7)在mlxtend中,使用mlxtend.frequent_patterns.fpgrowth函数来实现FP-Growth算法。示例代码:frommlxtend.frequent_patternsimportfpgrowthfrommlxtend.frequent_patternsimportassociation_rules#生成示例交易数据data={'Transaction':[1,2,3,4],'Items':[['A','B'],['B','C'],['A','C'],['A','B','C']]}df=pd.DataFrame(data)#对数据进行独热编码one_hot_encoded=df['Items'

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论