第一章 数据挖掘的基本概念_第1页
第一章 数据挖掘的基本概念_第2页
第一章 数据挖掘的基本概念_第3页
第一章 数据挖掘的基本概念_第4页
第一章 数据挖掘的基本概念_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主讲:王名扬信息学院《数据仓库与数据挖掘》2参考书目

《数据挖掘:概念与技术》韩家炜著(机械)网络资源

中文(推荐)

日文

英文(课程)一引例网站怎么知道读者可能会对这些物品感兴趣?这是因为网站采用了新的技术来了解顾客的潜在需求,比如:网站从顾客的购买清单中发现你与张三具有相似的兴趣爱好和购买习惯,但是有些书张三已经买了,而你却还没买,网站会认定你对这些书可能感兴趣,而对你进行推荐。

网站这种推荐并非漫无边际,而是有一定技术依据的,这种技术就是数据挖掘技术(DM)。例1如果你在当当的购书网站购买过书籍或音像制品,以后再浏览该网站时经常看到类似的提示:“猜您可能会喜欢”,然后就可以在网页的某个位置看到网站推荐的图书的名称及其相关链接。从这个销售数据中可以得出什么结论?某超市Post机上记录如下的销售数据:例2啤酒与尿布的故事顾客购买商品1面包,黄油,尿布,啤酒2咖啡,糖,小甜饼,鲑鱼,啤酒3面包,黄油,咖啡,尿布,啤酒,鸡蛋4面包,黄油,鲑鱼,鸡5鸡蛋,面包,黄油6鲑鱼,尿布,啤酒7面包,茶,糖鸡蛋8咖啡,糖,鸡,鸡蛋9面包,尿布,啤酒,盐10茶,鸡蛋,小甜饼,尿布,啤酒从数据挖掘的角度会得到如下的很强的关联规则:简单分析发现,有6个顾客买了啤酒,而其中5个人买了尿布,或说,5个买了尿布的顾客都买了啤酒。规则1:“买啤酒”“买尿布”。置信度为5/6规则2:“买尿布”“买啤酒”。置信度为5/5结论:“买尿布的顾客很可能会买啤酒”。对决策者的启示:商品的摆放设计和销售策略。二什么是数据挖掘什么是数据挖掘?DataInformationKnowledgeWisdom存在太多数据挖掘的定义,但基本上有这样一种描述结构Tofind/discover/extract/dredge/harvest、、、Interesting/novel/useful/implicit/actable/meaningful、、、Information/knowledge/patterns/trends/rules/anomalies、、、Inmassivedata/largedataset/largedatabase/datawarehouse、、、Data+contextInformation+rulesKnowledge+experience数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。简单的说,数据挖掘就是从大量的数据中发现有用信息的过程。数据挖掘的定义(从数据中发现知识的角度):为什么会出现数据挖掘?时代背景:我们生活在一个网络化时代,通信、计算机和网络技术正改变整个人类社会。网络化时代给我们带来大量的数据:

商务环境(CRM):电子商务的Web数据社交平台数据:facebook、twitter、微博(评论挖掘、商品营销、事件预测等)、人人网等金融:银行卡交易数据科学计算:天气、地理环境等为什么会出现数据挖掘?数据爆炸性增长带来的契机与挑战。。。。视频:《你知道吗?》推荐电影《永无止境》:讲述一位落魄的作家库珀,服用了一种可以迅速提升智力的神奇蓝色药物,然后他将这种高智商用于炒股。库珀是怎么炒股的呢?就是他能在短时间掌握无数公司资料和背景,也就是将世界上已经存在的海量数据(包括公司财报、电视、几十年前的报纸、互联网、小道消息等)挖掘出来,串联起来,甚至将FaceBook、Twitter的海量社交数据挖掘得到普通大众对某种股票的感情倾向,通过海量信息的挖掘、分析,使一切内幕都不是内幕,使一切趋势都在眼前,结果在10天内他就赢得了200万美元,神奇的表现让身边的职业投资者目瞪口呆。13数据爆炸.知识贫乏激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。

目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏知识的手段,导致“数据爆炸.知识贫乏”的尴尬现象。14数据.信息.知识数据仅是人们用各种工具和手段观察外部世界得到的原始材料;信息虽给出数据中有一定意义的东西,但往往和任务无直接联系,不能作为判断、决策和行动的依据;知识是人们作出正确的判断、决策和采取正确行动的依据。15数据的丰富带来了对强有力的数据分析工具的需求!16数据仓库与数据挖掘解决方法:数据仓库技术和数据挖掘技术

数据仓库和联机分析处理技术(存储);数据挖掘:在大量的数据中挖掘感兴趣的知识/规则/规律/模式/约束(分析)。17课程目录第一章数据挖掘的基本概念;第二章

数据仓库的基本概念;第三章联机分析处理;第四章数据预处理;第五章概念描述:特征化与比较;第六章挖掘大型数据库中的关联规则;第七章分类与预测;第八章聚类分析18学习目的:掌握数据仓库和数据挖掘的基本原理,学会用信息分析的方法思考问题。

掌握一些算法的基本思想,以便今后在实践中处理特定问题时使用。第一章数据挖掘的基本概念第一章数据挖掘的基本概念

数据挖掘的定义数据挖掘的功能——可以挖掘什么类型的模式

数据挖掘的典型应用一、数据挖掘的定义数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。简单的说,数据挖掘就是从大量的数据中发现有用的信息。数据挖掘的定义(从数据中发现知识角度):23

这个定义包括以下几层含义:

数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持

特定的问题。数据挖掘的定义:24它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。

在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。

数据挖掘是一门交叉学科:数据挖掘:多学科的汇合数据挖掘数据库技术统计学其它学科信息科学机器学习可视化人工智能科学计算几个相关概念

机器学习:将一些已知的并被成功解决的问题作为范例输入计算机,由计算机通过学习这些范例总结并生成相应的规则,以解决某一类的问题;

知识工程:不同于机器学习,直接给计算机输入已被代码化的规则,由计算机使用这些规则解决问题,如专家系统。20世纪80年代末,出现一个新的术语:数据库中的知识发现(KDD,KnowledgeDiscoveryinDatabase)。

KDD泛指所有从源数据中发掘模式或联系的方法,用以描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析;

并用数据挖掘(DM,DataMining)来描述进行数据挖掘的子过程。几个相关概念28知识发现的过程和步骤

知识发现的主要过程:A.

确定业务对象B.

数据准备C.

数据挖掘D.

结果分析E.

知识的同化29数据挖掘:一个

KDD过程挖掘数据:过程的核心.DataCleaning数据整理DataIntegration数据集成数据库DataWarehouse数据仓库相关任务数据Task-relevantData挑选采掘数据DataMining模式评估PatternEvaluation29知识二、数据挖掘的功能数据挖掘可以挖掘的一些常用模式如下:关联分析(描述);聚类分析(描述);分类(预测);孤立点分析(预测)数据挖掘的功能:数据挖掘的功能:1)关联分析关联规则挖掘:反映一个事件和其他事件之间依赖或关联的知识。广泛的用于购物篮或事务数据分析。例:2)聚类分析聚类分析:最大化类内的相似性和最小化类间的相似性(无监督的学习方法)找出数据集中的共性和差异,并将具有共性的对象聚合在相应的类中。“物以类聚,人以群分”示例:扑克牌的划分(b)(a)(c)(d)图

十六张牌基于不同相似性度量的划分结果3)分类挖掘分类:反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识(有监督的学习方法)通过分析训练集中的数据,为每个类别建立分类分析模型;然后用这个分类分析模型对数据库中的其他记录进行分类。示例:垃圾邮件的识别属于分类问题,所有训练用邮件预先被定义好类标号信息,即训练集中的每封邮件预先被标记为垃圾邮件或合法邮件信息,需要利用已有的训练邮件建立预测模型,然后利用预测模型来对未来未知邮件进行预测。决策树方法得到规则规则的应用例如:信用卡的使用规则1:Ifrefund=noandmaritalstatus=marriedthencheat=no3)分类挖掘聚类与分类的主要区别:

聚类是一种无指导的观察式学习,没有预先定义的类;

而分类问题是有指导的示例式学习,有预先定义的类。聚类分类监督(指导)与否无指导学习(没有预先定义的类)有指导学习(有预先定义的类)是否建立模型或训练否,旨在发现空间实体的属性间的函数关系。是,具有预测功能4)孤立点分析孤立点分析:对差异和极端特例的描述孤立点:事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等;异常检测通过构建正常行为模型(称为特征描述),来检测与特征描述严重偏离的新的模式。应用信用卡欺诈检测移动电话欺诈检测医疗分析(异常)三、数据挖掘的应用电信:客户细分银行:聚类(细分),交叉销售百货公司/超市:购物篮分析

(关联规则)保险:客户细分,交叉销售,流失(原因分析)信用卡:

欺诈探测,细分电子商务:

网站日志分析税务部门:偷漏税行为探测警察机关:犯罪行为分析医学:

医疗保健数据挖掘的应用:英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。。。。。。使直邮的回应率提高了100%电信GUS(英国的日用品零售商店)需要准确的预测未来的商品销售量,降低库存成本。。。。。。通过数据挖掘的方法使库存成本比原来减少了3.8%零售商店美国国内税务局需要提高对纳税人的服务水平。。。。。。合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务税务局汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。。。。。。营销费用减少了30%银行美国国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象。。。。。。发现可能存在欺诈的交易,进行深入调查,节约了大量的调查成本财务部数据挖掘都干了些什么?卓越亚马逊通过数据挖掘我们可以发现最有价值的客户通过数据挖掘我们可以使组合销售更有效率熟食罐头鲑鱼冻肉牛肉鲜货通过数据挖掘我们可以留住那些最有价值的客户通过数据挖掘我们可以用更小的成本发现欺诈现象数据挖掘的热点应用主要热点就目前来看,将来的几个热点包括:—网站的数据挖掘(WebSiteDataMining)—生物信息或基因(Bioinformatics/genomics)的数据挖掘—文本的数据挖掘(TextualMining)。网站的数据挖掘电子商务网站的困难——如何让您的电子商务网站有效益。要想有效益就必须吸引客户,增加能带来效益的客户忠诚度。电子商务业务的竞争比传统的业务竞争更加激烈,原因有很多方面,其中一个因素是客户从一个电子商务网站转换到竞争对手那边,只需点击几下鼠标即可。网站的数据挖掘网站的内容和层次、用词、标题、奖励方案、服务等任何一个地方都有可能成为吸引客户、同时也可能成为失去客户的因素。而同时电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件(Logfiles)和登记表,如何对这些数据进行分析和挖掘,充分了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网站,进而增加其竞争力,几乎变得势在必行。若想在竞争中生存进而获胜,就要比您的竞争对手更了解客户。生物信息(基因信息)的数据挖掘生物信息或基因数据挖掘是近年来新兴起的一个热门领域,在商业上很难讲有多大的价值,但是对于人类却受益匪浅。如,通过基因挖掘,可以得到某种病的人的基因和正常人的基因到底差别多大?哪些基因具有相似的表达模式?哪些化合物(潜在药物)的使用能显著降低这些基因的表达?等等。文本数据挖掘人们很关心的另外一个话题是文本数据挖掘。在现实世界中,可获取的大部分信息是以文本形式存储在文本数据库中的,由来自各种数据源的大量文档组成,如新闻文档、研究论文、书籍、数字图书馆、电子邮件,和Web页面。由于电子形式的文本信息飞速增长,文本挖掘已经成为信息领域的研究热点。文本数据库中存储的数据可能是高度非结构化的,如WWW上的网页;也可能是半结构化的,如e-mail消息和一些XML网页;其他的则是良结构化的,如书籍,包含大量结构化的字段,如标题、作者、出版日期,出版社等,但同时也包含一些非结构化成分,如摘要和内容等。文本数据挖掘数据中的非结构化成分使得对文本数据的挖掘不同于常规的数据挖掘。文本数据挖掘,可以实现对文本的预处理(如过滤)、文档的聚类(话题检测)、文档的自动文摘生成。文档的自动摘要生成:互联网上的文本信息、机构内部的文档及数据库的内容都在成指数级的速度增长,用户在检索信息的时候,可以得到成千上万篇的返回结果,其中许多是与其信息需求无关或关系不大的,如果要剔除这些文档,则必须阅读完全文,这要求用户付出很多劳动,而且效果不好。

自动文摘能够生成简短的关于文档内容的指示性信息,将文档的主要内容呈现给用户,以决定是否要阅读文档的原文,这样能够节省大量的浏览时间。简单地说自动文摘就是利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文。如火如荼的“大数据”几乎在一夜之间,大数据(BigData)变成一个IT行业中最时髦的词汇。实际上,大数据不是什么完完全全的新生事物,Google的搜索服务就是一个典型的大数据运用,根据客户的需求,Google实时从全球海量的数字资产(或数字垃圾)中快速找出最可能的答案,呈现给你,就是一个最典型的大数据服务。如火如荼的“大数据”大数据的特征(4个V:Volume,Variety,Value,Velocity):第一,数据量巨大。从TB级别,跃升到PB级别。第二,数据类型繁多,网络日志、视频、图片、地理位置、科学观测记录、短信、博客等;第三,价值密度低,以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒;第四,处理速度快。“大数据”挖掘可以做什么2014年1月26日,百度地图春节人口迁徙大数据正式上线。人们可以输入城市名称,查询该城市在过去8小时的时间里,春运人口迁入和迁出的情况,查询到该城市人口都迁移到什么城市,也可以查询到该城市的迁入者都是从哪座城市过来的,还可查询到该城市在过去8小时里迁入和迁出的热门线路。百度“迁徙大地图”“大数据”挖掘可以做什么更精准的用户调研;更精准的用户推荐。如:WeatherCo是美国一家能够基于对人们查看天气情况的时间、地点和频次的分析预测消费者行为的机构。该公司积累了超过75年的气象信息,覆盖北美等地区的天气、云量等方面的数据。基于这些大数据,WeatherCo不仅能为用户提供单纯的天气信息,而且可以通过数据挖掘,分析天气会对用户消费产生什么影响。这种对用户消费行为的预判,不仅能让用户感受到一种全新的购物体验,而且还可以吸引那些对广告投放精准度要求较高的广告主。超级营销顾问“大数据”挖掘可以做什么Netflix在美国拥有2700万订阅用户,每天用户在Netflix上产生3000多万个行为,同时用户每天还会给出400多万个评分以及300万次搜索请求。借助这些数据,Netfli

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论