版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章绪论数据挖掘的任务数据挖掘de任务:分类和预测1)定义分类(classification):是找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象的过程。注:导出模型(或函数)是基于对训练数据集(即其类标记已知的数据对象)的分析。2)分类模型的导出方式分类规则(IF-THEN)、决策树、数学公式、神经网络等。3)相关分析(relevanceanalysis)一般情况下,相关分析需要在分类和预测之前进行,它试图识别对于分类和预测无用的属性,且这些属性应被排除。数据挖掘de任务:分类定义给定一批记录----训练集(trainingset)Eachrecordcontainsasetofattributes,oneoftheattributesistheclasslabel(类标号).任务:建立一个模型(model)类标号属性是其他属性值的函数目标:previouslyunseenrecordsshouldbeassignedaclassasaccuratelyaspossible.Atestset(检验集)isusedtodeterminetheaccuracyofthemodel.Usually,thegivendatasetisdividedintotrainingandtestsets,withtrainingsetusedtobuildthemodelandtestsetusedtovalidateit3分类:例子4categoricalcategoricalcontinuousclassTestSetTrainingSetModelLearnClassifier分类:应用1DirectMarketingGoal:Reducecostofmailingbytargetingasetofconsumerslikelytobuyanewcell-phoneproduct.Approach:Usethedataforasimilarproductintroducedbefore.Weknowwhichcustomersdecidedtobuyandwhichdecidedotherwise.This{buy,don’tbuy}decisionformstheclassattribute.Collectvariousdemographic,lifestyle,andcompany-interactionrelatedinformationaboutallsuchcustomers.Typeofbusiness,wheretheystay,howmuchtheyearn,etc.Usethisinformationasinputattributestolearnaclassifiermodel.5分类:应用2FraudDetectionGoal:Predictfraudulentcasesincreditcardtransactions.Approach:Usecreditcardtransactionsandtheinformationonitsaccount-holderasattributes.Whendoesacustomerbuywhatdoeshebuyhowoftenhepaysontime,etcLabelpasttransactionsasfraudorfairtransactions.Thisformstheclassattribute.Learnamodelfortheclassofthetransactions.Usethismodeltodetectfraudbyobservingcreditcardtransactionsonanaccount.6分类:应用3SkySurveyCatalogingGoal:Topredictclass(starorgalaxy)ofskyobjects,especiallyvisuallyfaintones,basedonthetelescopicsurveyimages(fromPalomarObservatory).3000imageswith23,040x23,040pixelsperimage.Approach:Segmenttheimage.Measureimageattributes(features)-40ofthemperobject.Modeltheclassbasedonthesefeatures.SuccessStory:Couldfind16newhighred-shiftquasars,someofthefarthestobjectsthataredifficulttofind!7分类:应用38Attributes:Imagefeatures,Characteristicsoflightwavesreceived,etc.EarlyIntermediateLateDataSize:72millionstars,20milliongalaxiesObjectCatalog:9GBImageDatabase:150GB
Class:StagesofFormationCourtesy:决策树决策树提供了一种展示类似“在什么条件下会得到什么值”这类规则的方法。比如,在贷款申请中,要对申请的风险大小做出判断,为了解决这个问题而建立的一棵决策树,从中我们可以看到决策树的基本组成部分:决策节点、分支和叶子。决策树中最上面的节点称为根节点,是整个决策树的开始。决策树决策树是一个类似树形结构的流程图,每个内部节点表明在一个属性上的测试,树枝描述测试结果,叶子节点指明分类或分类的分布情况。构造决策树的方法采用自上而下递归的方式,如果训练例子集合中的所有例子是同类的,就将其作为一个叶子节点,节点内容为该类别的标记。
否则,根据某种策略确定一个测试属性,并按属性的各种取值把实例集合划分为若干个子集合,使每个子集上的所有实例在该属性上具有相同的属性值。
然后,再依次递归处理各个子集,直到得到满意的分类属性为止。
决策树数据挖掘de任务:聚类分析1)定义聚类(clustering):与分类和预测不同,它主要分析数据对象,而不考虑已知的类标记。一般情况下,训练数据中不提供类标记,因为不知道从何开始。聚类可以用于产生这种标记。2)聚类或分组的原则“最大化类内的相似性、最小化类间的相似性”对象的簇(聚类)的形成办法为:使得在一个簇中的对象具有很高的相似性,而与其它簇中的对象很不相似。所形成的每个簇可以看作一个对象类,由它可以导出规则。聚类(Clustering)
聚类(Clustering)是将物理或抽象的对象集合分成多个组的过程,聚类生成的组称为簇(Cluster),即簇是数据对象的集合。聚类就是要让生成的簇内部的任意两个对象之间具有较高的相似度,而属于不同簇的两个对象间具有较高的相异度。
聚类IntraclusterdistancesareminimizedInterclusterdistancesaremaximized聚类分析从统计学的观点看,聚类分析是对数据建模,从而简化数据的一种方法,作为多元统计分析的主要分支之一,聚类分析已被研究了很多年,主要集中在基于距离和基于相似度的聚类方法。从机器学习的观点看,簇相当于隐藏模式,聚类是搜索簇的无监督学习过程。从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。数据挖掘领域主要研究面向大型数据库、数据仓库的高效和实用的聚类分析算法。聚类分析主要的数据挖掘聚类方法有:划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法等。聚类:定义给定一组具有多个属性的数据点,以及点与点的相似性衡量方法,则聚类即为使同一个簇中的点较与其他簇中的点更相似不同簇中的点比同一个簇中的点的相似性更弱相似性测度:欧几里得距离(对于连续属性)其他针对不同问题的测度方法17聚类:应用1MarketSegmentation:Goal:subdivideamarketintodistinctsubsetsofcustomerswhereanysubsetmayconceivablybeselectedasamarkettargettobereachedwithadistinctmarketingmix.Approach:Collectdifferentattributesofcustomersbasedontheirgeographicalandlifestylerelatedinformation.Findclustersofsimilarcustomers.Measuretheclusteringqualitybyobservingbuyingpatternsofcustomersinsameclustervs.thosefromdifferentclusters.18聚类:应用2DocumentClustering:Goal:Tofindgroupsofdocumentsthataresimilartoeachotherbasedontheimportanttermsappearinginthem.Approach:Toidentifyfrequentlyoccurringtermsineachdocument.Formasimilaritymeasurebasedonthefrequenciesofdifferentterms.Useittocluster.Gain:
InformationRetrievalcanutilizetheclusterstorelateanewdocumentorsearchtermtoclustereddocuments19文档聚类:例ClusteringPoints:3204ArticlesofLosAngelesTimes.SimilarityMeasure:Howmanywordsarecommoninthesedocuments(aftersomewordfiltering).20CategoryTotalArticlesCorrectlyPlacedFinancial555364Foreign341260National27336Metro943746Sports738573Entertainment354278数据挖掘de任务:关联分析:定义用来发现描述数据中强关联特征的模式,所发现的模式通常用蕴涵规则或特征子集的形式表示。由于搜索空间是指数规模的,关联分析的目标是以有效的方式提取最有趣的模式;找出具有相关功能的基因组、识别一起访问的Web页面、理解地球气候系统不同元素之间的联系.RulesDiscovered:
{Diaper}-->{Milk}{Diaper,Milk}-->{Beer}关联规则:定义关联规则(associationrule)Givenasetofrecordseachofwhichcontainsomenumberofitemsfromagivencollection;Producedependencyruleswhichwillpredictoccurrenceofitemsbasedonoccurrencesofotheritems.22RulesDiscovered:
{Milk}-->{Coke}
{Diaper,Milk}-->{Beer}关联规则:应用1MarketingandSalesPromotion:Lettherulediscoveredbe
{Bagels,…}
-->
{PotatoChips}PotatoChips
asconsequent=>Canbeusedtodeterminewhatshouldbedonetoboostitssales.Bagelsintheantecedent=>Canbeusedtoseewhichproductswouldbeaffectedifthestorediscontinuessellingbagels.Bagelsinantecedent
and
Potatochipsinconsequent
=>CanbeusedtoseewhatproductsshouldbesoldwithBagelstopromotesaleofPotatochips!23关联规则:应用2Supermarketshelfmanagement.Goal:Toidentifyitemsthatareboughttogetherbysufficientlymanycustomers.Approach:Processthepoint-of-saledatacollectedwithbarcodescannerstofinddependenciesamongitems.Aclassicrule--Ifacustomerbuysdiaperandmilk,thenheisverylikelytobuybeer.So,don’tbesurprisedifyoufindsix-packsstackednexttodiapers!24异常检测识别特征显著不同于其他数据的观测值应用:检测欺诈网络攻击疾病的不寻常模式生态系统扰动异常检测26异常检测27异常检测任务:识别其特征显著不同于其他数据的观测值这样的观测值称为异常点(anomaly)或离群点(outlier)发现真正的异常点,而避免错误地将正常的对象标注为异常点应用信用卡欺诈检测网络入侵检测28人工神经网络神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的。神经网络常用于两类问题:分类和回归。支持向量机需特别指出的是,在一般情况下,统计学习理论和支持向量机(SVM)比一般的神经网络更有效,而且可将SVM看作是广义化的神经网络。其优点是,具有深厚的数学基础,算法可靠、推广能力强,适用于小样本数据集的知识(或规则)发现。数据挖掘的应用数据库分析和决策支持市场分析和管理针对销售(targetmarketing),顾客关系管理,购物篮分析,交叉销售(crossselling),市场分割(marketsegmentation)风险分析与管理预测,顾客关系,改进保险,质量控制,竞争能力分析欺骗检测与管理其它应用文本挖掘(新闻组,email,文档资料)流数据挖掘(Streamdatamining)Web挖掘.DNA数据分析31市场分析与管理(1)用于分析的数据源在哪?信用卡交易,会员卡,打折优惠卷,顾客投诉电话,(公共)生活时尚研究针对销售(Targetmarketing)找出顾客群,他们具有相同特征:兴趣,收入水平,消费习惯,等.确定顾客随时间变化的购买模式个人帐号到联合帐号的转变:结婚,等.交叉销售分析(Cross-marketanalysis)产品销售之间的关联/相关基于关联信息的预测32市场分析与管理(2)顾客分类(Customerpr
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 启智润心筑根基·策马奋进新学年
- 2026贵州省天然产物研究中心高层次人才引进10人笔试备考试题及答案解析
- 职业规划与建筑设计融合
- 卫生纸护理职位空缺招聘
- 2026江苏盐城市大丰区医疗卫生事业单位校园招聘医药卫生类毕业生23人笔试模拟试题及答案解析
- 2025年山东工业职业学院单招职业适应性测试试题及答案解析
- 2025年阳泉职业技术学院单招综合素质考试题库及答案解析
- 2026新疆金元能矿投资集团有限公司招聘13人笔试备考题库及答案解析
- 2026济南高新区海川中学高中物理教师岗位招聘考试参考试题及答案解析
- 2026贵州贵阳市观山湖区第十五中学招聘临聘教师1人笔试参考题库及答案解析
- 隐私保护培训课件内容
- 2025年湖南省中考历史试卷真题(含答案解析)
- 《陈情表》测试题带答案
- GB/T 42087-2022液压传动系统清洗程序和清洁度检验方法
- 东芝热泵式滚筒洗衣干衣机DGH-117X6D、DGH-117X6DZ产品培训资料
- 小学一年级文明就餐教育
- 男朋友卖身合同协议
- 中国参与国际通信海缆建设和保护相关情况报告(2025年)
- 高校校园安全防控体系的建设策略
- 药物流产本护理查房
- 大学高分子材料科学与工程课件-导电高分子
评论
0/150
提交评论