《数据挖掘基础与案例》课件 第1章 绪论_第1页
《数据挖掘基础与案例》课件 第1章 绪论_第2页
《数据挖掘基础与案例》课件 第1章 绪论_第3页
《数据挖掘基础与案例》课件 第1章 绪论_第4页
《数据挖掘基础与案例》课件 第1章 绪论_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章绪论大数据挖掘导论与案例学习目标/Target了解数据挖掘的主要任务了解数据挖掘应用以及能够解决的问题理解数据挖掘的定义和数据挖掘的过程模型目录/Contents0102数据挖掘的概念与流程数据挖掘的主要任务03数据挖掘的应用数据挖掘的概念和流程1.11.1数据挖掘的概念和流程数据挖掘的定义有好多种,下面是常见的三种UsamaM.Fayyad给出的定义:数据库中的知识发现是在大型数据集中识别有效的、新颖的、潜在有用的和最终可理解的模式的非平凡过程。早期,将数据挖掘看作整个知识发现过程的一个步骤,后来两个术语替换使用,即数据挖掘也称为知识发现。技术上的定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道但又潜在有用的信息的过程。商业角度的定义:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘是大数据挖掘和分析的基石。数据挖掘的定义1.1数据挖掘的概念和流程数据挖掘和分析方法决定所获得信息是否有价值。具有普遍性的方法和理论主要包括:可视化分析。直观且简单明了呈现大数据的特点。是大数据分析的最基本要求。数据挖掘算法。各种数据挖掘算法基于不同的数据类型和格式,能够更科学地呈现数据所具备的特点,且能够深入数据内部,快速挖掘出数据中隐藏的价值。预测性分析能力。预测性分析是大数据分析最重要的应用。从大数据中挖掘特点并建立模型,将新数据代入模型预测未来。语义引擎。大数据分析广泛应用于网络数据。语义引擎可从用户的搜索关键词、标签关键词等分析、判断用户需求,实现更好的用户体验和广告匹配。数据质量和数据管理。高质量的数据和有效的数据管理是成功进行大数据挖掘和分析的重要保证。数据挖掘和分析方法1.1数据挖掘的概念和流程CRISP-DM过程模型文档的主要内容有5个部分:概述;CRISP-DM参考模型;CRISP-DM用户指南;CRISP-DM报告;附录。CRISP-DM参考模型中给出一个数据挖掘项目的生命周期由6个阶段组成:商业理解(businessunderstanding)、数据理解(dataunderstanding)、数据准备(datapreparation)、建模(modeling)、评估(evaluation)和部署(deployment)。各阶段间的关系及流程如右图。数据挖掘标准过程模型:CRISP-DM1.1数据挖掘的概念和流程(1)商业理解。从商业角度理解项目目标和需求,然后转换成数据挖掘问题的定义和实现目标的初步规划。具体任务:确定商业目标,评析环境,确定数据挖掘目标,制定项目计划等。(2)数据理解。指由最初的数据收集开始的一系列活动。目的是熟悉数据、鉴别数据质量,发现对数据的真知灼见,探索出令人感兴趣的数据子集并形成对隐藏信息的假设。具体任务包括:收集原始数据,描述数据,探索数据和检验数据质量。(3)数据准备。包括基于最初原始数据构建最终数据集的全部活动。具体任务:选择数据,清洗数据,构造数据,整合数据,格式化数据等。(4)建模。本阶段需要选择和使用各种建模技术,并对模型的参数进行调优。具体任务包括:选择建模技术,生成测试设计,生成模型,评估模型。数据挖掘标准过程模型:CRISP-DM1.1数据挖掘的概念和流程(5)评价。就是对模型进行较为全面的评价,重审构建模型的步骤以确认能正确达到商业目的。具体任务包括评价结果,重审(审视)过程,确定下一步可能采取的措施列表等。(6)部署。部署与具体需求有关,可能很简单,也可以很复杂。大多数情况下,由用户而不是数据分析师来完成部署工作。理解前端需要完成哪些工作,以便充分利用已建好的模型,对用户来说很重要。具体任务包括规划部署,规划监控和维护,生成最终报告,回顾项目。CRISP-DM流程是适用于所有行业的标准方法论,从第2阶段起,每个阶段都依赖于上一阶段的结论,但6个阶段的顺序可以改变。尤其是商业理解和数据理解,数据准备和建模可能经常出现反复循环。决定是否可以进入下一阶段的原则是对达到最初业务目标的判断,如果业务目标未达到,就要考虑是数据不充分,还是算法需要调整等问题。数据挖掘标准过程模型:CRISP-DM数据挖掘的主要任务1.21.2数据挖掘的主要任务一般而言,数据挖掘任务分为描述性任务和预测性任务。描述性任务是探查性的,用于刻画数据中的一般性质,目标是以更易理解的方式概括描述隐藏在数据背后的复杂现象或状态。数据常与类或概念相关联,用汇总的、简洁的、精确的表达方式描述每个类和概念有助于决策,描述方式可以是在数据库上执行SQL查询或输出饼图、条形图、曲线和多维表(如交叉表)等,所描述数据中的潜在联系的模式可能涉及相关、趋势、聚类、轨迹和异常等,例如根据销售交易数据找出产品间的关联以决定促销的产品组合等。预测性任务基于历史数据,对数据中的规律进行归纳从而建立模型,目标是根据一些属性(自变量)的值来预测特定属性(目标变量)的值,例如预估产品在未来一个季度的销售量,判断某信用卡持有人是否存在违约风险等。描述性任务和预测任务1.2.1分类与回归从功能来讲,数据挖掘任务有分类、回归、聚类、关联分析、异常检测等。分类与回归均为预测性建模任务。分类是这样一个过程:它从明确定义的类标号已知的数据集中归纳出区分样本类的概化模型,以便能够使用该模型预测类标号未知的样本的类标号。分类中的类标号(即目标变量的取值)是离散的,对未知样本预测的类是预先定义好的类中的一个。导出的模型可用多种形式表示:决策树、分类规则、神经网络、数学公式等。什么是分类1.2.1分类与回归回归用于目标变量取连续值,且所有自变量属性值都是数值时建立函数模型,以便能够利用该模型预测缺失的或难以获得的目标变量的值。线性回归,利用自变量属性的线性组合来表示目标变量,通过在训练数据集中基于均方误差最小化学习到权值,从而获得线性回归预测模型。如果某属性为分类型的,且属性值间存在序(order)关系,则可通过连续化将其转化为连续值,例如二值属性“身高”的取值“高”“矮”可转化为“1.0”“0.0”,三值属性“高度”的取值“高”“中”“低”可转化为“1.0”“0.5”“0.0”。如果属性值间不存在序关系,假设有k个属性值,则通常转化为k维向量,例如属性“瓜类”的取值“西瓜”“籽瓜”“哈密瓜”可转化为(0,0,1),(0,1,0),(1,0,0)。值得注意的是,若将无序属性连续化,则会不恰当地引入序关系,对后续数据处理如距离计算造成误导。例1.1,例1.2什么是回归1.2.2聚类分析聚类分析在学习过程中无预定义的类标号,它是通过相似性对输入样本自动形成“簇(cluster)”或紧密相关的组群来捕获数据中的自然结构的。聚类的原则是最大化簇内相似性、最小化簇间相似性。对象簇这样形成:相比之下,在同一个簇中的对象之间具有很高的相似性,而不同簇中的对象之间具有很高的相异性。簇是否体现数据中的自然结构,取决于聚类系统所采用的显式或隐式的准则。聚类所形成的每个簇可看成一个对象类,意味着类似的事件组织在一起每个簇可以推导出规则。聚类与分类的不同:聚类没有预先定义好类别。可以使用聚类对无标记类的数据产生数据组群的类标号。例1.3什么是聚类分析1.2.3关联分析关联分析用于发现隐藏在大型数据集中令人感兴趣的联系.所发现的模式表示为关联规则或频繁项集。关联分析也被称为“购物篮分析”。发现关联规则的搜索空间是指数规模的,关联分析的目标是以有效的方法提取最有趣的模式。一个例子:“98%的购买轮胎和汽车配件的顾客也得到汽车服务”,找出该规则对交叉销售和配送服务有价值。关联分析的应用:生物信息学中找出具有相关功能的基因组;医疗诊断中挖掘可能导致某种疾病的因素与该疾病发生与诊断之间的关联关系;网页挖掘中识别用户一起访问的Web页面;地球气候系统中理解不同元素之间的联系等。例1.4什么是关联分析1.2.4异常检测一个数据集中,与绝大多数数据的一般行为或模式显著不同的数据对象被称为异常点,也称为离群点或孤立点。异常也被定义为远离其他观测数据,被疑为不同机制产生的观测数据。在假定数据分布或概率模型的情况下,可以使用统计检验来检测异常点。使用距离度量时,可以将远离任何簇的数据对象视为异常点;基于密度的方法也可以识别局部区域的异常点,尽管从全局统计分析的角度来看,这些局部异常点可能是正常的。异常检测算法的目标是发现真正的异常点。一个好的异常检测算法应该具有高检测率和低误报率。当数据挖掘应用是发现数据对象的一般行为模式时,可能将异常点视为噪声或偏差而丢弃,但在关注数据非一般模式的应用中,异常事件比正常事件更令人感兴趣。例1.5什么是异常检测数据挖掘的应用1.31.3.1数据挖掘在金融行业的应用金融行业使用数据挖掘较早。随着金融领域信息化的迅速发展,银行和金融机构在交易、信贷、投资、储存等服务业务中产生了大量数据。这些数据通常比较完整、可靠、规范,并具有较高的质量,极大地方便了数据挖掘的成功应用。对大量数据进行抽取、转换、分析和模型化处理,提取有价值的信息,有助于企业进行商业决策。汇丰、花旗和瑞士银行等均是数据挖掘技术应用的先行者。数据挖掘可应用于贷款偿还预测、客户信用评价和交叉销售等。金融行业是数据挖掘的先行者1.3.1数据挖掘在金融行业的应用与贷款偿还风险有关的因素:贷款金额、贷款率、贷款期限、借款方的负债率、偿还收入比、收入水平、受教育程度、年龄、职业、居住地区、信用历史等。数据挖掘可帮助金融机构识别影响贷款风险的重要因素和非重要因素。对历史数据建立分类模型预测贷款违约,制定贷款发放政策,将贷款发放给低风险借款者。使用信用评分对贷款申请者打分,产生优质与否的评判。信用评分根据客户的历史信用资料,构建信用评分模型,得到不同等级的信用分数。授信者根据客户的信用分数分析客户按时还款的可能性,决定是否授信以及授信的额度和利率,以便保证还款等业务的安全性。信用评分模型构建:确定业务目标、识别数据源、收集数据、选择数据、数据质量的审核、数据的转换、模型的建立与评估、结果的解释、决策建议和应用部署等。风险控制与信用评分1.3.1数据挖掘在金融行业的应用当客户来银行寻求一项服务时,银行在未来某个时间点上满足客户其他需求的能力是建立在预先存在的关系的基础上。当银行交叉销售处于最佳状态时,银行便与现有客户建立了良好的互信关系。银行交叉销售典型例子:拥有支票或储蓄账户的客户选择该银行的其它金融服务。例如,银行向有支票账户或储蓄账户的客户提供汽车贷款服务。客户向银行寻求汽车贷款,而不是利用经销商融资购买新车。当银行能够满足客户的需求,并提供优于经销商融资的利率时,客户便以较低的个人成本获得融资,而银行也能从中获益。银行有大量客户交易信息,通过关联分析可以找出数据中隐藏的关联关系,预测客户的潜在需求,创造个性化的服务产品,并从各产品中找出关联性较强的产品,对客户进行有针对性的关联营销。还可以进行客户细分、客户价值分析、客户流失预警、新客户开发以及新产品推广,发现具有潜在欺诈性的事件和反洗钱活动等;在证券市场,可以进行股票市场走势预测,潜力股分析,股票价格预测等。交叉销售1.3.2数据挖掘在电信行业的应用数据挖掘在电信行业的应用主题较多,这些主题主要围绕客户生命周期:新客户获取、客户成长、客户成熟、客户衰退和客户离开五个阶段。客户价值是指从企业角度出发,根据客户的消费行为等数据分析客户能够为企业创造哪些价值。不同客户或客户群对企业的价值贡献具有差异性,80%的利润往往来自20%的客户。企业有必要区别对待不同客户或客户群,即采取不同的服务政策与管理策略,优化配置企业有限的资源,以实现高产出。电信客户价值分析包括:客户当前价值分析和客户潜在价值分析。前者通过客户的利润率和ARPU(AverageRevenuePerUser,每客户平均收入)等指标计算当前客户价值得分;后者基于客户的人口统计学属性、客户的通话行为和计帐属性等数据,通过建立数据挖掘模型,计算不同客户或客户群的潜在价值得分。结合当前价值得分和潜在价值得分,得到客户价值得分,可以此衡量客户对电信企业的利润的贡献,也是企业争取客户、保持客户的重要依据。客户价值分析1.3.2数据挖掘在电信行业的应用电信网络中存在大量的设备和数据,如基站、交换机、路由器等设备的运行状态数据,以及网络流量、信号强度、误码率等性能数据。利用数据挖掘对相关数据进行分析和建模,可以发现网络运行中的潜在规律和异常模式,提前预测网络故障的发生。通过对网络流量数据进行时间序列分析,建立流量预测模型,当实际流量与预测流量出现较大偏差时,可能预示着网络存在异常。通过关联规则挖掘,可以发现某些设备故障与特定网络环境、业务流量等因素之间的关联关系,为故障排查和维护提供依据。网络故障预测与维护1.3.3数据挖掘在医疗行业的应用医疗相关行业的数据挖掘应用涉及医院、药企及研发机构、政府部门及保险公司等。医院的临床数据对比、临床决策支持、远程病人数据分析、就诊行为分析以及医院管理决策等。药企及研发机构:药物研发、基因测序和基本药物临床应用分析等。政府部门及保险公司:医疗保险费用分析、实时统计分析以及“新农合”基金数据分析等。以电子病历为核心的临床数据,记录了病人的疾病、诊断及治疗等信息,对这些数据进行分析和挖掘,可辅助医生进行临床科研与临床诊疗。基于数据挖掘建立的疾病早期预警模型,有助于疾病的早期诊断、预警和监护,也有利于医疗机构采取预防和控制措施,减少疾病恶化及并发症的发生。应用主题1.3.3数据挖掘在医疗行业的应用基于患者的病史、症状、体征、检查检验结果、基因数据、生活习惯等多维度数据。运用数据挖掘、统计学方法以及医学知识构建疾病预测模型,对个体未来患特定疾病的可能性及风险程度进行量化评估。该过程主要包括数据收集、数据预处理、模型构建与验证、疾病预测等步骤。最终生成疾病风险评分,帮助医生在疾病早期或未出现明显症状时进行干预。常用算法:决策树、随机森林、神经网络、支持向量机等。疾病预测与风险评估1.3.3数据挖掘在医疗行业的应用明确评估目标(比如是针对整体医疗服务进行评估,还是针对特定科室或病种进行评估)。确定评估指标,比如治愈率、患者满意度、手术并发症发生率等。同时收集各类相关数据(涵盖电子病历、医疗记录、患者反馈等)。通过数据挖掘、统计学等方法,评估医疗机构和医护人员的服务质量和安全性,如对比不同科室、医生的医疗指标,挖掘数据间的关联,判断医疗行为是否符合规范等。该过程主要包括明确评估目标、数据收集、数据预处理、模型构建与评估、质量评估与改进、报告与反馈等步骤。使用分类与预测、聚类分析、关联规则挖掘、时间序列分析等方法。医疗质量评估1.3.4推荐系统推荐系统是一种信息过滤系统,用于预测用户对物品的“评分”或“偏好”,并据此生成物品的推荐列表,为用户提供个性化的信息服务。推荐系统的核心是推荐技术和算法,涵盖分类、回归、聚类、关联规则以及时间序列分析等。推荐系统对用户与某类物品之间的联系建模。比如利用推荐系统来告诉用户他们可能会喜欢的书籍、服装、电影、音乐、新闻等。如果推荐的准确性高,就能吸引更多的用户持续使用相应的服务。推荐系统通过研究用户的兴趣偏好进行个性化计算,发现用户的兴趣点,从而引导用户发现自己的信息需求。一个好的推荐系统不仅能为用户提供个性化的服务,还能和用户建立密切关系,使用户对推荐产生依赖。亚马逊,全球最大的电商平台之一,其成功不仅在于丰富的商品和有竞争力的价格,还在于其卓越的个性化推荐和营销策略。推荐系统已广泛应用于很多行业。应用主题参考文献[1](英)ViktorMayer-Schönberger,KennethCukier著,盛杨燕,周涛译.大数据时代[M].杭州:浙江人民出版社.[2](美)JiaweiHan,MichelineKamberandJianPei.著范明,孟小峰译.数据挖掘:概念与技术(第3版)[M].北京:机械工业出版社,2012.[3](美)EMCEducationServices著.曹逾,刘文苗,李枫林译.数据科学与大数据分析[M].北京:机械工业出版社,2016.[4]

朱扬勇,熊赟.数据学[M].上海:复旦大学出版社,2009.[5]大数据刘鹏主编电子工业出版社2017年1月1日[6]J.W.Tukey.(1962).“TheFutureofDataAnalysis.”TheAnnalsofMathematicalStatistics,33:1-67.[7]U.M.Fayyad,G.Piatetsky-Shapiro,andP.Smyth.(1996).“FromDataMiningtoknowledgeDiscoveryinDatabases:AnOverview.”InAdvancesinKnowledgeDiscoveryandDataMining,1-34.[8]U.M.Fayyad,G.Piatetsky-Shapiro,andP.Smyth.(1996d).Knowledgediscoveryanddatamining:towardsaunifyingframework.InProceedingsofthe2ndInternationalConferenceonKnowledgeDiscoveryandDat

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论