版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主讲教师:戴小廷Ting_fz@163.com商业智能数据与商业决策支持
—步入数据的纷繁世界商业智能概述
—初步了解商业智能商业智能原理
—洞察商业智能核心技术商业智能的敏捷实现
—了解商业智能实现工具理论篇应用篇案例篇(课内实验)—掌握商业智能实现工具(专周实训)—商业智能行业典型应用第3章商业智能原理一、数据仓库的基本原理二、数据仓库系统三、数据仓库的开发与应用四、联机分析处理五、数据挖掘六、数据挖掘的决策支持及应用4第五节数据挖掘5一知识发现与数据挖掘数据挖掘的社会需求国民经济和社会的信息化社会信息化后,社会的运转是软件的运转社会信息化后,社会的历史是数据的历史数据挖掘数据库越来越大有价值的知识可怕的数据苦恼:淹没在数据中;不能制定合适的决策!数据爆炸,知识贫乏数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府POS.人口统计生命周期数据蕴含商机,挖掘决胜千里数据挖掘的发展1989IJCAI会议:数据库中的知识发现讨论专题KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994KDD讨论专题AdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998KDD国际会议(KDD’95-98)JournalofDataMiningandKnowledgeDiscovery(1997)1998ACMSIGKDD,SIGKDD’1999-2002会议,以及SIGKDDExplorations数据挖掘方面更多的国际会议PAKDD,PKDD,SIAM-DataMining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.9基本概念知识发现是指从大量的、不完整的、有噪声的、模糊的和随机的数据集中,提取隐含在其中的、人们事先不知道的,但又是可信的、潜在的和有价值的信息和知识的过程,是从数据集中抽取和精炼新的模式。范围非常广泛:经济、工业、农业、军事、社会数据的形态多样化:数字、符号、图形、图像、声音数据组织各不相同:结构化、半结构化和非结构发现的知识可以表示成各种形式:规则、科学规律、方程或概念网。10
数据库知识发现
目前,关系型数据库技术成熟、应用广泛。因此,数据库知识发现(KnowledgeDiscoveryinDatabasesKDD)的研究非常活跃。
该术语于1989年出现,Fayyad定义为“KDD是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程”
11
不同的术语名称
知识发现是一门来自不同领域的研究者关注的交叉性学科,因此导致了很多不同的术语名称。
知识发现:人工智能和机器学习界。数据挖掘(datamining):
统计界、数据分析、数据库和管理信息系统界知识抽取(informationextraction)、信息发现(informationdiscovery)、智能数据分析(intelligentdataanalysis)、探索式数据分析(exploratorydataanalysis)信息收获(informationharvesting)数据考古(dataarcheology)12KDD过程图13KDD的步骤数据准备数据选择数据预处理(?课堂讨论)数据变换数据挖掘确定挖掘的任务和目的,选择合适的挖掘算法结果的解释和评估评估结果,递归上述过程利用可视化工具,将结果展现给分析员14Mining——挖掘,采掘,采矿......数据挖掘是在数据库中,对数据进行一定的处理,从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含的、事先未知的、但又是潜在有用的信息和知识的过程。其处理对象是大量的日常业务数据,目的是为了从这些数据中抽取一些有价值的知识或信息,提高信息利用率,原始数据是形成知识的源泉。
15
数据挖掘(DM:DataMining.)是KDD过程中的一个特定步骤,是知识发现中的核心工作,主要研究发现知识的各种方法和技术。探测型的数据分析发现信息、发现知识基于人工智能、机器学习、统计学需要算法的支持和机器的环境几个基本概念模型(Model)vs模式(Pattern)数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Generalize)到总体(Population)上去模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的所有点,例如聚类分析模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析算法(Algorithm):一个定义完备(well-defined)的过程,它以数据作为输入并产生模型或模式形式的输出描述型挖掘(Descriptive)vs预测型挖掘(Predictive)描述型挖掘:对数据进行概括,以方便的形式呈现数据的重要特征预测型挖掘:根据观察到的对象特征值来预测它的其他特征值描述型挖掘可以是目的,也可以是手段17二数据挖掘方法和技术归纳学习方法
信息论方法(决策树方法):ID3、ID4、ID5、C4.5、IBLE方法
决策树(DecisionTree)是一种非常成熟的、普遍采用的数据挖掘技术。之所以称为树,是因为其建模过程类似一棵树的成长过程,即从根部开始,到树干,到分枝,再到细枝末节的分叉,最终生长出一片片的树叶。在决策树里,所分析的数据样本先集成为一个树根,然后经过层层分枝,最终形成若干个结点,每个结点代表一个结论。在知识工程领域,决策树是一种简单的知识表示方法,它将事例逐步分类成不同的类别。利用信息论中的互信息,寻找数据库中具有最大信息量的属性字段,建立决策树的节点,再根据该属性字段的不同取值建立树的分支的过程归纳学习方法是在大量的经验数据中归纳抽取出一般的判定规则和模式,是从特殊情况推导出一般规则的学习方法。决策树的一个例子第一步,构造决策树在决策树中,每个叶结点都赋予一个类称号。根节点和内部结点包含属性测试条件,用以分开具有不同特性的记录。为某汽车销售公司的客户是否购买过“高档车”进行分类,购买过类标号为“是”,没有购买过类标号为“否”。≤20万元男25-50岁年龄年收入性别否否是否是<25岁25》>50岁>20万元万元女叶节点根节点内部结点决策树的一个例子(续)第二步,应用决策树进行分类从树的根节点开始,将测试条件用于检验记录,根据测试结果选择适当的分支。当沿着该分支到达另一个内部结点时,使用新的测试条件;当沿着该分支到达一个叶结点时,叶结点的类称号被赋值给该检验记录。例如,为年龄30岁且年收入25万的客户赋予类标号的路径,最终类标号为“是”结点。女>50岁<25岁≤20万元男25-50岁年龄年收入性别否否是否是>20万元万元20归纳学习方法集合论方法:粗糙集方法、关联规则挖掘、覆盖正例排斥反例方法、概念树方法在发现知识的过程中使用集合理论中的一些概念和原理,并涉及大量集合运算。21神经网络方法是模拟生物神经元的基本结构和作用机理提出的一种计算模型。神经网络能够解决线型与非线性分类问题,常用于分类和聚类问题的重要技术支持,在医学诊断、信用卡欺诈识别、手写体数字识别等诸多领域具有广泛的应用前景。仿生物技术22神经网络模型
23激活函数
24神经网络模型引入激活函数可以使神经网络接近任何函数,进而在模型中引入非线性。如果没有激活函数,那么无论神经网络有多少层,最终都是一个线性映射,单纯的线性映射无法解决线性不可分问题,而引入非线性可以让模型解决线性不可分问题,即可以解决非线性分类问题。神经网络的主要缺点就是其知识和结果的不可解释性,没有人知道隐蔽层里的非线性函数到底是如何处理自变量的,神经网络应用中的产出物在很多时候让人们看不清其中的逻辑关系。但是,它的这个缺点并没有影响该技术在数据化运营中的广泛应用,甚至可以这样认为,正是因为其结果具有不可解释性,反而更有可能促使我们发现新的没有认识到的规律和关系。25遗传算法遗传算法从可能潜在的解集的一个种群开始,种群则由经过二进制基因编码的一定数目的个体组成,基因作为遗传算法操作最基本的单位。初代种群产生之后,按照适者生存和优胜劣汰的原理,通过对个体基因复制、交叉、突变等操作产生下一代的解。在每一代,根据问题域中个体的适应度大小选择个体,这个过程将导致种群像自然进化一样的后生代种群比前代更加适应于环境,末代种群中的最优个体经过解码,可以作为问题近似最优解。借鉴生物进化论,遗传算法将要解决的问题模拟成一个生物进化的过程。仿生物技术具体过程:首先,编码。需要对初始种群中的个体基因编码表示成二进制字符串。其次,选择。从当前群体中选择出优良的个体来产生下一代,比例选择实现算法就是所谓的“轮盘赌算法”。第三步,交叉。通过两个个体交换部分基因来构造下一代两条新的染色体。交叉概率通常取0.65~0.9之间。交叉概率通常取0.65~0.9之间。举个交叉前和交叉后的例子:第四步:变异。在繁殖过程,新产生的染色体中的基因会以一定的概率出错,称为变异,变异概率较小,一般在0.001~0.01之间。举个变异前和变异后的例子:遗传算法的优越性能:它的覆盖面大,利于全局择优,避免误入局部最优解。遗传算法同时处理群体中的多个个体易于实现并行化。遗传算法不依赖于问题的具体领域,对问题的种类有很强的鲁棒性。遗传算法不是采用确定性规则,而是采用概率的变迁规则来指导它的搜索方向。具有自组织、自适应和自学习性。遗传算法广泛应用于各种领域,包括:函数优化、组合优化生产调度问题、自动控制、机器人学、图像处理(图像恢复、图像边缘特征提取等)、人工生遗传编程、机器学习等。29二数据挖掘方法和技术公式发现统计分析方法:常用统计方法、相关分析、回归分析、假设检验、聚类分析、判别分析模糊数学方法:模糊模式识别、模糊聚类、模糊分类、模糊关联规则等可视化技术:提取几何图元、绘制、演示和演放在工程和科学数据库中对若干数据项(变量)进行一定的数学运算,求得相应的数学公式。通过对总体样本的样本数据进行分析得出描述和推断该总体信息和知识的方法。系统的复杂性越高,精确化能力就低,模糊性就越强。利用模糊集合理论进行数据挖掘的一类方法。一种图形显示技术,用来提高数据挖掘的效果。30第六节数据挖掘的决策支持及应用31数据挖掘的决策支持分类有六种:关联分析分析对象之间的关联性、相关性,从而挖掘出隐藏在数据间的相互关系时序模式分析类似于关联分析着重于分析数据的前因后果分类分析对于不同分类的数据进行分析,找出他们的规律、特征,是数据挖掘中应用最多的决策支持技术。常用的贝叶斯分类器、决策树、支持向量机和神经网络都属于分类算法。聚类分析是分类的逆过程根据数据特征,进行分类偏差检测预测一数据挖掘的决策支持分类发现商品间的关联规则buy(x,”diapers”)
buy(x,”beers”)二关联规则数据挖掘关联(association)规则是当前数据挖掘研究的主要方法之一,它反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其他事物预测到。关联规则挖掘的基本概念关联(association)规则是指若两个或多个变量的取值间存在某种规律性,即一种事物发生时其它事物也会发生的联系。关联规则反映了一组数据项之间的密切程度或关系。关联可分为简单关联、时序关联和因果关联。关联规则挖掘是寻找隐藏在数据间相关性的过程,即对于给定的一组项目和一个记录集,通过对记录集的分析,得出项目集中的项目之间的相关性。关联规则的几个基本定义项目和项集(Item、Itemset)事务支持度:Support(A=>B)=#AB/#N,表示A和B同时出现的概率期望可信度:Support(A)=#A/#N,表示A出现的概率置信度:Confidence(A=>B)=Support(A=>B)/Support(A)改善度:Lift(A=>B)=Confidence(A=>B)/Support(B)名称描述公式支持度A、B同时出现的频率P(A∩B)期望可信度B出现的频率P(B)置信度A出现的前提下,B出现的频率P(B|A)改善度置信度对期望可信度的比值P(B|A)/P(B)购物篮分析-引发关联规则挖掘的例子问题:“什么商品组或集合顾客多半会在一次购物中同时购买?”购物篮分析:设全域为商店出售的商品的集合(即项目全集),一次购物购买(即事务)的商品为项目全集的子集,若每种商品用一个布尔变量表示该商品的有无,则每个购物篮可用一个布尔向量表示。通过对布尔向量的分析,得到反映商品频繁关联或同时购买的购买模式。这些模式可用关联规则描述。〖例〗购买计算机与购买财务管理软件的关联规则可表示为:computerfinancial_management_softwar [support=2%,confidence=60%]support为支持度,confidence为置信度。该规则表示:在所分析的全部事务中,有2%的事务同时购买计算机和财务管理软件;在购买计算机的顾客中60%也购买财务管理软件。发现具有最小置信度和支持度的全部规则X^YZ支持度(support),s,事务中包含{X&Y&Z}的概率置信度(confidence),c,
事务中包含{X&Y}的条件下,包含Z的条件概率令最小支持度为50%,最小置信度为50%,则有AC(50%,66.6%)CA(50%,100%)顾客购买尿布顾客购买两者顾客购买啤酒关联规则挖掘数据挖掘主要就是对强规则的挖掘。通过设置最小支持度和最小置信度可以了解某些数据之间的关联程度。关联规则挖掘:给定一组Item和记录集合,挖掘出Item间的相关性,使其置信度和支持度分别大于用户给定的最小置信度和最小支持度。关联规则挖掘的过程在关联规则挖掘算法中,把项目的集合称为项集(itemset),包含有k个项目的项集称为k-项集。包含项集的事务数称为项集的出现频率,简称为项集的频率或支持度计数。如果项集的出现频率大于或等于最小支持度s与D中事务总数的乘积,则称该项集满足最小支持度s。如果项集满足最小支持度,则称该项集为频繁项集(frequentitemset)。关联规则的挖掘主要被分解为下面两步:第1步:找出所有的频繁项集,即找出支持度大于或等于给定的最小支持度阈值的所有项集。可以从1到k递归查找k-频繁项集。第2步:由频繁项集产生强关联规则,即找出满足最小支持度和最小置信度的关联规则。对给定的L,如果其非空子集A
L,sup(L)为L的支持度,sup(A)为A的支持度,则产生形式为A
L-A的规则。
案例:某商场记录顾客购买商品的数据共有9条购买记录,所有商品的集合I={耳机,羽毛球拍,旅游鞋,浴巾,跑步机}。
购买记录(TID)购买商品(Itemset)T100{旅游鞋,浴巾,耳机}T200{浴巾,跑步机}T300{浴巾,羽毛球拍}T400{旅游鞋,浴巾,跑步机}T500{旅游鞋,羽毛球拍}T600{浴巾,羽毛球拍}T700{旅游鞋,羽毛球拍}T800{旅游鞋,浴巾,羽毛球拍,耳机}T900{旅游鞋,浴巾,羽毛球拍}(1)假定给定最小支持度为20%,请计算项集{羽毛球拍}、{耳机}、{旅游鞋,跑步机}、{浴巾,羽毛球拍}是否为频繁项集?(2)假定给定最小支持度为20%,最小置信度为60%,则羽毛球拍→浴巾是否是合格的关联规则?
案例的计算support({羽毛球拍})=6/9support({耳机})=2/9support({旅游鞋,跑步机})=1/9support({浴巾,羽毛球拍})=4/9假定给定最小支持度为20%,上述项集哪些是频繁项集?{羽毛球拍}、{耳机}、{浴巾,羽毛球拍}的支持度均大于20%,因此,{羽毛球拍}、{耳机}、{浴巾,羽毛球拍}为频繁项集。假定给定最小支持度为20%,最小置信度为60%,则羽毛球拍→浴巾是否是合格的关联规则?Confidence(羽毛球拍→浴巾)=support({羽毛球拍∪浴巾})/support({羽毛球拍})=(4/9)/(6/9)=66.7%>60%,因此羽毛球拍→浴巾是合格的关联规则。使用关联规则逐层发现算法Apriori发现频繁项集典型的关联规则挖掘算法有逐层发现算法Apriori、无候选项集发现算法FP-Growth和基于集合交集的深度优先搜索Eclat算法。逐层发现算法Apriori发现频繁项集的过程是按照项集的长度由小到大逐级进行的,即首先发现频繁1项集,然后是频繁2项集,……,最后是频繁N项集。购物篮数据中所有项的集合为{A,B,C,D,E},所有购买事务数据库N为下表所示,设项集的最小支持度计数为2,试确定N中的所有频繁项集。购买记录(TID)项集(Items)10A,C,D20B,C,E30A,B,C,E40B,E(1)格结构确定候选项集ABDEACADAEBCBDBECDCENULLABCDEABCABDABEACDACEADEBCDBCEABDECDEABCDABCEABDEACDE
BCDEABCDE(2)基于支持度的剪枝技术发现N中的频繁项集非频繁项集ABDEACADAEBCBDBECDCENULLABCDEABCABDABEACDACEADEBCDBCEBDECDEABCDABCEABDEACDE
BCDEABCDE频繁项集DatabaseTDB1stscanC1L1L2C2C22ndscanC3L33rdscanTidItems10A,C,D20B,C,E30A,B,C,E40B,EItemsetsup{A}2{B}3{C}3{D}1{E}3Itemsetsup{A}2{B}3{C}3{E}3Itemset{A,B}{A,C}{A,E}{B,C}{B,E}{C
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年上海市初三上学期语文一模试题汇编之现代文阅读试题和参考答案
- 《GAT 823.3-2018法庭科学油漆物证的检验方法 第3部分扫描电子显微镜X射线能谱法》专题研究报告
- 2026年深圳中考语文答题速度特训试卷(附答案可下载)
- 2026年大学大二(康复治疗学)传统康复技术应用阶段测试试题及答案
- 2026年大学大二(机械设计)机械零件强度计算综合测试题及答案
- 2026年深圳中考数学基础夯实专项试卷(附答案可下载)
- 课件改编培训班总结报告
- 2026年深圳中考化学压轴题突破试卷(附答案可下载)
- 创新介绍教学
- 保密协议(2026年财务报告保密合同)
- 2026届四川省成都市青羊区树德实验中学物理九年级第一学期期末考试试题含解析
- 高温熔融金属冶炼安全知识培训课
- 林业种苗培育与管理技术规范
- 辽宁中考数学三年(2023-2025)真题分类汇编:专题06 几何与二次函数压轴题 解析版
- 修复征信服务合同范本
- 湖南省5年(2021-2025)高考物理真题分类汇编:专题11 近代物理(原卷版)
- 螺杆泵知识点培训课件
- 2025年及未来5年中国钠基膨润土市场深度评估及行业投资前景咨询报告
- 康复医学科进修汇报
- 工作票 操作票培训课件
- 地方高校数字经济微专业建设的优化与突破
评论
0/150
提交评论