版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章数据挖掘导论1西安邮电大学2一、为什么进行数据挖掘?二、什么是数据挖掘?三、数据挖掘数据对象有哪些?四、数据挖掘发现什么样的知识?五、数据挖掘常用技术有哪些?六、数据挖掘过程七、数据挖掘应用八、数据挖掘隐私权问题九、数据挖掘学习方法本章概要内容西安邮电大学一、为什么进行数据挖掘?网络视频/x/page/d0634ej0puo.html温馨提示:此视频框在点击“上传手机课件”时会进行转换,用手机进行观看时则会变为可点击的视频。此视频框可被拖动移位和修改大小开讲了:大数据如何改变我们生活3西安邮电大学4TED演讲:大数据如何改变商业/x/page/o05522l5hrp.html网络视频/x/page/o05522l5hrp.html温馨提示:此视频框在点击“上传手机课件”时会进行转换,用手机进行观看时则会变为可点击的视频。此视频框可被拖动移位和修改大小西安邮电大学一、为什么进行数据挖掘?5西安邮电大学一、为什么进行数据挖掘?6西安邮电大学一、为什么进行数据挖掘?7西安邮电大学(1)已获得的大量数据往往是数据丰富但信息贫乏的(2)计算设备变得廉价且功能强大(3)没有强大的工具的话,数据量已经超过人类的理解能力(4)数据收集存储的速度越来越快(5)传统技术已经不适用于原始数据(6)数据挖掘有助于科学研究一、为什么进行数据挖掘?8西安邮电大学9为什么要数据挖掘?datarichinformationpoordatatoobigtechnologyneedsIdontknow!ABCD提交西安邮电大学单选题1分二、什么是数据挖掘?10西安邮电大学二、数据挖掘的定义
广义技术角度的定义数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息或知识的非平凡过程。该定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。11西安邮电大学狭义技术角度的定义也有人把数据挖掘视为知识发现过程中的一个基本步骤。例如Fayyad过程模型主要包含以下七个阶段,知识发现过程由这些步骤的迭代序列组成:知识表示数据清理数据集成数据选择数据变换数据挖掘模式评估二、数据挖掘的定义
12西安邮电大学商业角度的定义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘从商业的角度可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。二、数据挖掘的定义
13西安邮电大学数据挖掘与其他科学的关系数据挖掘作为一门新兴的交叉学科,涉及数据库系统、数据仓库、统计学、机器学习、可视化、信息检索和高性能计算等诸多领域。此外,还与神经网络、模式识别、空间数据分析、图像处理、信号处理、概率论、图论和归纳逻辑等等领域关系密切。14西安邮电大学IT热点技术联系15西安邮电大学16数据挖掘特点()针对大量的、不完全的、有噪声的、模糊的、随机的实际应用数据新兴的交叉学科,涉及数据库系统统计学、机器学习、可视化和高性能计算等提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息或知识的非平凡过程大数据是其产业化的表现ABCD提交西安邮电大学多选题1分三、数据挖掘数据对象有哪些?17西安邮电大学三、数据挖掘对象
1.关系数据库数据库中数据的特点如下:数据动态性数据的不完全性噪声数据数据类型不一致异构性数据冗余性数据稀疏性由于数据库中的数据具有以上特点,使其在挖掘过程中难以直接使用,因此在进行数据挖掘以前必须对数据进行预处理。18西安邮电大学三、数据挖掘对象2.数据仓库数据仓库的特点如下:面向主题集成的数据不可更新随时间不断变化高质量的挖掘结果依赖于高质量的数据,数据仓库为数据挖掘准备了良好的数据源,因此,数据仓库是数据挖掘的最佳环境。19西安邮电大学西安邮电大学三、数据挖掘对象3.文本文本是非结构化或半结构化的数据。文本分析包括:关键词或特征提取相似检索文本聚类文本分类20西安邮电大学三、数据挖掘对象4.多媒体数据图像、音频、视频数据是典型的多媒体数据。多媒体数据广泛存在于生活、医学、军事、娱乐等领域,目前,对于多媒体数据的挖掘主要有特征提取、基于内容的相似检索等。21三、数据挖掘对象5.Web数据Web使用模式挖掘:在Web环境中,文档和对象一般都是通过链接来便于用户访问。捕捉用户的存取模式或发现一个Web网站最频繁的访问路径称为Web使用模式挖掘或Web路径挖掘。Web结构挖掘:是挖掘Web的链接结构,并找出关于某一主题的权威网站。Web内容挖掘:是指在大量训练样本的基础上,得到数据对象之间的内在特征,并以此为依据进行有目的的信息筛选,从而获得指定内容的信息。22西安邮电大学三、数据挖掘对象6.复杂类型的数据1)空间数据库如地理信息数据、卫星图像数据、地下管道、下水道、及各类地下建筑分布数据等。对空间数据的挖掘可以为城市规划、生态规划、道路修建提供决策支持。2)时间序列数据主要用于存放与时间相关的数据,它可用来反映随时间变化的即时数据或不同时间发生的不同事件。例如,连续存放即时的股票交易信息、卫星轨道信息等。对时间序列数据的挖掘可以发现事件的发展趋势、演变过程和隐藏特征,这些信息对制定计划、决策和预警是非常有用的。23西安邮电大学24数据挖掘的对象有哪些()数据库、数据仓库文本数据与web数据复杂的空间数据、时间序列数据等多媒体数据ABCD提交西安邮电大学多选题1分四、数据挖掘发现什么样的知识?25西安邮电大学四、数据挖掘发现的知识类型
广义知识关联知识分类知识聚类与孤立点知识预测知识序列模式知识有价值的知识26西安邮电大学广义知识广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质。广义知识就是对大量数据的归纳、概括,提炼出带有普遍性的、概括性的描述统计知识。描述统计是数据挖掘最基本的应用之一,经常和统计图(如直方图,柱形图,折线图,散点图等)配合使用。如当月公司利润总额、比较不同区域的销售量等。广义知识的发现方法和实现技术有很多,如概念描述、多维数据分析、面向属性的归约、概念分层等。四、数据挖掘发现的知识类型
27西安邮电大学四、数据挖掘发现的知识类型
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联知识可分为简单关联规则、多层关联规则、多维关联规则、量化关联规则和基于约束的关联规则。发现关联规则的算法主要有Apriori算法和频繁模式树(FP-树)典型例子是购物篮分析关联知识28西安邮电大学四、数据挖掘发现的知识类型
分类知识是反映同类事物共同性的特征型知识和不同事物之间的差异型特征知识。估值与分类类似,只不过它要预测的不是类别,而是一个连续的数值。典型应用:客户细分。例如,银行根据客户的存款额、信用额和消费金额把客户分成不同的类别,分别办理不同类型的银行卡。算法有决策树分类、贝叶斯分类、人工神经网络法、粗糙集法和遗传算法等。分类知识29西安邮电大学四、数据挖掘发现的知识类型
聚类聚类是根据类内事物的相似性最大、类间事物的相似性最小的原则把数据对象进行聚类或分组。聚类与分类不同,它们的区别如下:第一,分类需要训练数据集,属于有监督的学习;而聚类不需要训练数据集,属于无监督的学习。第二,在进行分类以前,已知道数据的分类情况;而进行聚类以前,对目标数据的分类情况一无所知。常用的聚类方法包括统计分析方法、机器学习方法、神经网络方法等。30西安邮电大学四、数据挖掘发现的知识类型
孤立点分析数据库中可能包含一些数据对象,它们与集合中其它数据的一般行为或模型不一致,这些数据对象称为孤立点。孤立点可以使用统计试验检测。它假定一个数据的分布或概率模型,并使用距离度量,到其它数据对象的距离很远的对象被视为孤立点。基于偏差的方法通过考察一群对象主要特征上的差别识别孤立点,而不是使用统计或距离度量。孤立点分析通常可以作为聚类分析的副产品,根据聚类分析结果,含有对象个数少于设定阈值的聚类中的事物看作是孤立点。31西安邮电大学四、数据挖掘发现的知识类型
预测知识预测是从历史数据找出变化规律,建立模型,并用此模型预测未来数据种类、特征等。用分类预测离散数据用回归分析预测连续数据。典型的回归分析是利用大量的历史数据,建立线性或非线性回归方程。根据回归模型,只要输入自变量的值,就可以求出因变量的值,达到对因变量的预测。32西安邮电大学四、数据挖掘发现的知识类型
时间序列模式时间序列分析是描述行为随时间变化的对象的规律或趋势,并对其建模。包括与时间相关数据的特征、区分、关联、分类或聚类,根据分析的不同特点分为时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。如股票市场的每日波动、动态产品加工过程、科学实验、医学治疗等。33西安邮电大学四、数据挖掘发现的知识类型
有价值(感兴趣)的知识数据挖掘的知识有三个重要问题需要回答:什么样的模式是有价值(感兴趣)的?价值度量挖掘系统能产生所有有价值的模式吗?
算法的完全性问题数据挖掘到的模式是否都是有价值的知识?优化问题34西安邮电大学35下列哪些是数据挖掘发现的知识()超市商品销售中的购物篮商品关联关系春天荒野里植物的分类信息新冠肺炎病毒传播的未来感染人数预测航空公司高价值客户的聚类分析ABCD提交世界上有男人和女人两种性别的人E西安邮电大学多选题1分五、数据挖掘常用技术及分类?36西安邮电大学五、数据挖掘常用技术数据挖掘中常用的十三种技术:统计技术,关联规则,基于历史的分析,遗传算法,聚集检测,连接分析,决策树,神经网络,粗糙集,模糊集,回归分析,差别分析,概念描述等。37西安邮电大学机器学习算法地图38西安邮电大学数据挖掘技术分类1.按数据库类型分类根据数据模型分类,有关系的、事务的、面向对象的、对象-关系的、或数据仓库的数据挖掘系统。根据所处理的数据的特定类型分类,有空间的、时间序列的、文本的、或多媒体的数据挖掘系统,或WWW数据挖掘系统。39西安邮电大学数据挖掘技术分类2.按数据挖掘对象分类对数据库进行挖掘文本数据挖掘多媒体数据挖掘Web数据挖掘40西安邮电大学数据挖掘技术分类3.根据挖掘的知识类型分类概念描述关联分析分类预测聚类分析孤立点分析41西安邮电大学数据挖掘技术分类4.按挖掘方法分类归纳学习类仿生计算类公式发现类统计分析类模糊数学类可视化技术类42西安邮电大学数据挖掘技术分类数据挖掘验证驱动挖掘发现驱动挖掘SQLSQL生成器查询工具OLAP描述预测可视化聚类关联规则顺序关联汇总描述分类统计回归时间序列决策树神经网路43西安邮电大学六、数据挖掘过程44西安邮电大学明确目标搜集数据清洗数据构建模型模型评估应用部署数据挖掘的流程六、数据挖掘过程45西安邮电大学46Fayyad数据挖掘模型西安邮电大学47CRISP-DM模型西安邮电大学明确目标这是数据分析与挖掘的第一步,即明确数据分析的对象、目标、或任务。此环节应该跟业务需求方多次沟通与合作,把握最终要解决的问题。六、数据挖掘过程48西安邮电大学搜集数据
明确企业面临的痛点或工作中需要处理的问题后,下一步就得规划哪些数据可能会影响到这些问题的答案,这一步就称为数据的搜集过程。六、数据挖掘过程49西安邮电大学数据清洗
为确保数据分析或挖掘结果的准确性,往往需要对数据做一些基本的清洗和整理,如数据的一致性检验、缺失值和异常值的处理以及无量纲化处理等。六、数据挖掘过程50西安邮电大学构建模型建模的目的主要是为了预测,例如使用线性回归模型预测产品的销售额;利用决策树模型预测用户是否具有欺诈行为;利用朴素贝叶斯模型预测邮件是否为垃圾邮件。六、数据挖掘过程51西安邮电大学模型评估
通常情况下,在模型搭建好后,并不意味着分析或挖掘任务的结束,还需要对模型的拟合效果做评估,其目的就是不断优化模型,使最终的模型能够更好地反映数据的真实性。六、数据挖掘过程52西安邮电大学应用部署
挖掘出来的模式或规律是给真正的业务方或客户服务的,故需要将这些模式重新部署到系统中。这里的部署就是常说的“上线”,方便业务方或客户直接操作搭建的模型。六、数据挖掘过程53西安邮电大学54国际标准的数据挖掘过程是()Fayyad模型CRISP-DM模型KDD过程模型ABC提交西安邮电大学单选题1分七、数据挖掘应用55西安邮电大学数据挖掘的应用领域领域医疗教育互联网交通餐饮金融房产游戏七、数据挖掘应用56西安邮电大学七、数据挖掘应用数据挖掘应用最集中的领域包括金融、医疗、教育、零售、电商、电信和交通等,而且每个领域都有特定的应用问题和应用背景。以软件工程数据挖掘为例:软件工程数据(软件开发过程中积累的各种数据):可行性分析和需求分析文档、设计文档、使用说明、软件代码和注释、软件版本及其演化数据、测试用例和测试结果、软件开发者之间的通信、用户反馈等。57西安邮电大学七、数据挖掘应用58西安邮电大学应用领域的案例电商领域:借助于交易记录挖出破坏规则的“害群之马”交通领域:为打车平台的乘客订制弹性价格医疗领域:为乔布斯寻找最佳的医疗方案
七、数据挖掘应用59西安邮电大学八、数据挖掘隐私权问题60西安邮电大学八、数据挖掘隐私权问题个人数据隐私权:个人对以数据形式收集和存储在信息系统中的有关自己的资料加以控制和保护的权利。数据挖掘是建立在大量真实数据分析的基础之上的,这就会产生个人数据的隐私保护问题。从数据挖掘的角度来看,隐私既可能带来成功,亦可能带来威胁。滥用隐私不仅破坏企业在客户心目中的良好形象,也会将数据挖掘推入灰暗的前景中,阻碍数据挖掘这一新兴技术的采纳、应用和推广。61西安邮电大学典型案例(1)2018年3月18日曝光的Facebook裙带公司剑桥分析公司(CambridgeAnalyticaAnalytic)数据隐私丑闻事件。剑桥分析公司是美国一家政治数据分析公司,被曝光在未经用户同意的情况下,利用在Facebook上获得的5000万用户的个人隐私数据,来创建档案,并在2016美国总统大选期间针对这些人进行定向宣传,有助推特朗普获胜的嫌疑。该丑闻凸显了Facebook的“DNA”中存在的问题:数据挖掘。谷歌、微软、微博、微信和百度?八、数据挖掘隐私权问题62西安邮电大学典型案例(2)2019年中央广播电视总台3·15晚会曝光众多App,通过不平等、不合理条款强制索取用户隐私权、过度用权。例如社保掌上通App,用户在填写各种资料注册该App后,电脑远程就能截取到用户的几乎所有信息。八、数据挖掘隐私权问题63西安邮电大学奇怪的声音:用隐私换效率?百度董事长李彦宏在2018年3月26日在中国发展高层论坛上表示:中国用户在个人隐私方面没有那么敏感,更加开放,一定程度上愿意用隐私换方便和效率,但百度也会遵守相应法规法则。网友:但我只换来一天几十个骚扰电话!!!八、数据挖掘隐私权问题64西安邮电大学八、数据挖掘隐私权问题数据挖掘者可能从以下几个方面侵犯公民的个人数据隐私权:(1)过度采集个人数据(2)挖掘者超常使用个人数据(3)挖掘者不当或错误分析个人数据(4)挖掘者非法公开个人数据65西安邮电大学八、数据挖掘隐私权问题保护隐私权的对策(1)加强法律法规的建设和监督执行(2)提高保护隐私的技术手段(3)提高用户的隐私数据自我保护意识数据挖掘隐私权的问题是数据挖掘中一个非常重要的问题,它的解决程度直接决定了数据挖掘的未来。66西安邮电大学九、数据挖掘学习方法工作岗位数据挖掘人员工作领域大致可分为三类:(1)数据分析师(2)数据挖掘工程师(3)科学研究方向67西安邮电大学九、数据挖掘学习方法开源数据挖掘工具1.WekaWeka作为一个公开的数据挖掘工作平台,是名气最大的开源机器学习和数据挖掘软件,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。68西安邮电大学九、数据挖掘学习方法开源数据挖掘工具2、RapidMiner该工具是用Java语言编写的,通过基于模板的框架提供先进的分析技术。该款工具最大的好处就是,用户无需写任何代码。它是作为一个服务提供,而不是一款本地软件。该工具在数据挖掘工具榜上位列榜首。69西安邮电大学九、数据挖掘学习方法开源数据挖掘工具3.OrangeOrange
是一个基于组件的数据挖掘和机器学习软件套装,它简单易学并且功能强大拥有快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,绑定了Python以进行脚本开发。70西安邮电大学九、数据挖掘学习方法开源数据挖掘工具4.R用于统计分析和图形化的计算机语言及分析工具,为了保证性能,其核心计算模块是用C、C++和Fortran编写的。同时为了便于使用,它提供了一种脚本语言,即R语言。R语言被广泛应用于数据挖掘,支持一系列分析技术,包括统计检验、预测建模、数据可视化等。71西安邮电大学数据挖掘推荐期刊和会议1、顶级会议(1)SIGMOD:ACMSIGMOD数据管理国际会议(SpecialInterestGrouponManagementOfData.)是由美国计算机协会(ACM)数据管理专业委员会(SIGMOD)发起、在数据库领域具有最高学术地位的国际性学术会议。/(2)VLDB:数据库领域著名国际会议VLDB(即VeryLargeDataBases)/(3)ICDE,http://www.icde2016.fi/(4)数据挖掘KDD:/kdd2015/72西安邮电大学TKDEIEEETransactionsonKnowledgeandDataEngineeringIEEEhttp://dblp.uni-trier.de/db/journals/tkde/TKDDACMTransactionsonKnowledgeDiscoveryfromDataA
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 上海杉达学院《社会工作理论》2025-2026学年期末试卷
- 上海体育大学《温病学》2025-2026学年期末试卷
- 产科并发症的护理和管理方案
- 检验科:血糖监测方案
- 妇产科宫颈癌筛查监测方案
- 2026年成人高考教育学原理单套试卷
- 2026年成人高考高起专语文(文)押题单套试卷
- 企业组织变革与战略人力资源管理要点之研究
- 英语学习中复合句入门详解(主句与从句的核心区别)
- 2026年5月证券从业资格考试证券市场基础知识真题单套试卷
- 08SS523建筑小区塑料排水检查井
- 给水管网施工方案(钢管)
- 干部人事档案目录(样表)
- 《社区概论(第二版)》课件第三章 社区研究方法
- GB/T 24811.1-2009起重机和起重机械钢丝绳选择第1部分:总则
- GB/T 11351-2017铸件重量公差
- 角焊缝构造与计算
- 煤矿初设设计汇报课件
- 幼儿园绘本故事:《神奇雨伞店》 课件
- 企业员工行为礼仪规范
- 3课程设计(实训)报告书
评论
0/150
提交评论