版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章绪论第1章绪论17八月2023数据挖掘导论2为什么挖掘数据?(商业)大量数据被收集,存储在数据库\数据 仓库中电商购买行为数据网络日志数据生产、制造、库存、销售数据银行卡/信用卡交易数据计算机越来越便宜,功能越来越 强大,逐渐替代人华尔街用自动软件代替股票交易员竞争压力越来越大以便提供更好的客户服务05八月2023数据挖掘导论2为什么挖掘数据?(商业)大17八月2023数据挖掘导论3为什么挖掘数据?(科学)数据以极快的速度收集和存储(GB/hour)卫星数据基因数据天气数据传统的技术难以处理这些原始数据数据挖掘可能帮助科学家对数据进行深入、形象的理解对数据进行深入分析,洞悉数据背后隐藏的东西05八月2023数据挖掘导论3为什么挖掘数据?(科学)数17八月2023数据挖掘导论4为什么要对大数据进行“挖掘”常常有些信息“隐藏”在数据中,并非显而易见的人分析需要数周\数月,才能发现有用的信息许多数据根本未曾分析过TheDataGap05八月2023数据挖掘导论4为什么要对大数据进行“挖掘17八月2023数据挖掘导论5什么是数据挖掘许多不同定义本书定义自动或半自动地对对大数据进行勘察或分析,以发现有用的模式Exploration&analysis,byautomaticorsemi-automaticmeans,oflargequantitiesofdatainordertodiscovermeaningfulpatternsJiaweiHan的定义从大型数据集中提取有趣的(非平凡的,蕴涵的,先前未知的并且是潜在有用的)信息或模式一个类似于JiaweiHan的定义Non-trivialextractionofimplicit,previouslyunknownandpotentiallyusefulinformationfromdata05八月2023数据挖掘导论5什么是数据挖掘许多不同定义17八月2023数据挖掘导论6什么(不)是数据挖掘
WhatisDataMining?CertainnamesaremoreprevalentincertainUSlocations(O’Brien,O’Rurke,O’Reilly…inBostonarea)Grouptogethersimilardocumentsreturnedbysearchengineaccordingtotheircontext(e.g.Amazonrainforest,A,)
WhatisnotDataMining?Lookupphonenumberinphonedirectory(查询)
QueryaWebsearchengineforinformationabout“Amazon”(搜索)05八月2023数据挖掘导论6什么(不)是数据挖掘Wh17八月2023数据挖掘导论7数据挖掘与KDD数据挖掘与知识发现数据挖掘是数据库中知识发现(knowledgediscoveryindatabase,KDD)不可缺少的一部分KDD是将未加工的数据转换为有用信息的整个过程05八月2023数据挖掘导论7数据挖掘与KDD数据挖掘与17八月2023数据挖掘导论8引发数据挖掘的挑战1可伸缩海量数据集越来越普遍数千兆字节(terabytes)为处理海量数据,算法必须是可伸缩的(scalable)可伸缩可能还需要新的数据结构,以有效的方式访问个别记录例如,当要处理的数据不能放进内存时,可能需要非内存算法使用抽样技术或开发并行和分布算法也可以提高可伸缩程度05八月2023数据挖掘导论8引发数据挖掘的挑战1可伸17八月2023数据挖掘导论9挑战2高维性具有数以百计或数以千计属性的数据集生物信息学:涉及数千特征的基因表达数据不同地区温度测量:维度(特征数)的增长正比于测量的次数为低维数据开发的数据分析技术不能很好地处理高维数据某些数据分析算法,随着维度(特征数)的增加,计算复杂性迅速增加05八月2023数据挖掘导论9挑战2高维性17八月2023数据挖掘导论10挑战3异构数据和复杂数据传统的数据分析方法只处理包含相同类型属性的数据集非传统的数据类型的出现需要能够处理异构属性的技术半结构化文本和超链接的Web页面集具有序列和三维结构的DNA数据地球表面不同位置上的时间序列测量值(温度、气压等)的气象数据数据中的联系如时间和空间的自相关性、图的连通性、半结构化文本和XML文档中元素之间的父子联系05八月2023数据挖掘导论10挑战3异构数据和复杂数据17八月2023数据挖掘导论11挑战4数据的所有权与分布式存储数据地理上分布在属于多个机构的资源中需要开发分布式数据挖掘技术分布式数据挖掘算法面临的主要挑战包括(1)如何降低执行分布式计算所需的通信量?(2)如何有效地统一从多个资源得到的数据挖掘结果?(3)如何处理数据安全性问题?05八月2023数据挖掘导论11挑战4数据的所有权与分布17八月2023数据挖掘导论12挑战5非传统的分析传统的统计学方法:假设-检验模式提出一种假设,设计实验来收集数据,然后针对假设分析数据当前的数据分析任务常常需要产生和评估数以千计的假设希望自动地产生和评估假设导致了一些数据挖掘技术的开发数据挖掘所分析的数据集通常不是精心设计的实验的结果代表数据的时机性样本(opportunisticsample)而不是随机样本(randomsample)数据集常常涉及非传统的数据类型和数据分布05八月2023数据挖掘导论12挑战5非传统的分析17八月2023数据挖掘导论13数据挖掘的起源数据挖掘是多学科交叉领域利用了来自如下一些领域的思想:统计学的抽样、估计和假设检验人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论数据库系统提供有效的存储、索引和查询处理支持分布式技术也能帮助处理海量数据最优化、进化计算、信息论、信号处理、可视化和信息检索MachineLearning/Pattern
RecognitionStatistics/
AIDataMiningDatabasesystems05八月2023数据挖掘导论13数据挖掘的起源数据挖掘17八月2023数据挖掘导论14
数据挖掘任务预测vs.描述预测(Prediction)根据其他属性的值,预测特定属性的值描述(Description)导出概括数据中潜在联系的模式05八月2023数据挖掘导论14数据挖掘任务预测vs17八月2023数据挖掘导论15数据挖掘任务分类(Classification)[Predictive]回归(Regression)[Predictive]关联规则发现(AssociationRuleDiscovery)[Descriptive]序列模式发现(SequentialPatternDiscovery)[Descriptive]聚类(Clustering)[Descriptive]异常/偏差检测(Anomaly/DeviationDetection)[Predictive]05八月2023数据挖掘导论15数据挖掘任务分类(Cla17八月2023数据挖掘导论16分类:定义给定一批记录----训练集(trainingset)Eachrecordcontainsasetofattributes,oneoftheattributesistheclasslabel(类标号).任务:建立一个模型(model)类标号属性是其他属性值的函数目标:previouslyunseenrecordsshouldbeassignedaclassasaccuratelyaspossible.Atestset(检验集)isusedtodeterminetheaccuracyofthemodel.Usually,thegivendatasetisdividedintotrainingandtestsets,withtrainingsetusedtobuildthemodelandtestsetusedtovalidateit05八月2023数据挖掘导论16分类:定义给定一批记录-17八月2023数据挖掘导论17分类:例子categoricalcategoricalcontinuousclassTestSetTrainingSetModelLearnClassifier05八月2023数据挖掘导论17分类:例子categor17八月2023数据挖掘导论18分类:应用1DirectMarketingGoal:Reducecostofmailingbytargetingasetofconsumerslikelytobuyanewcell-phoneproduct.Approach:Usethedataforasimilarproductintroducedbefore.Weknowwhichcustomersdecidedtobuyandwhichdecidedotherwise.This{buy,don’tbuy}decisionformstheclassattribute.Collectvariousdemographic,lifestyle,andcompany-interactionrelatedinformationaboutallsuchcustomers.Typeofbusiness,wheretheystay,howmuchtheyearn,etc.Usethisinformationasinputattributestolearnaclassifiermodel.05八月2023数据挖掘导论18分类:应用1Direct17八月2023数据挖掘导论19分类:应用2FraudDetectionGoal:Predictfraudulentcasesincreditcardtransactions.Approach:Usecreditcardtransactionsandtheinformationonitsaccount-holderasattributes.Whendoesacustomerbuy,whatdoeshebuy,howoftenhepaysontime,etcLabelpasttransactionsasfraudorfairtransactions.Thisformstheclassattribute.Learnamodelfortheclassofthetransactions.Usethismodeltodetectfraudbyobservingcreditcardtransactionsonanaccount.05八月2023数据挖掘导论19分类:应用2Fraud17八月2023数据挖掘导论20分类:应用3SkySurveyCatalogingGoal:Topredictclass(starorgalaxy)ofskyobjects,especiallyvisuallyfaintones,basedonthetelescopicsurveyimages(fromPalomarObservatory).3000imageswith23,040x23,040pixelsperimage.Approach:Segmenttheimage.Measureimageattributes(features)-40ofthemperobject.Modeltheclassbasedonthesefeatures.SuccessStory:Couldfind16newhighred-shiftquasars,someofthefarthestobjectsthataredifficulttofind!05八月2023数据挖掘导论20分类:应用3SkySu17八月2023数据挖掘导论21分类:应用3Attributes:Imagefeatures,Characteristicsoflightwavesreceived,etc.EarlyIntermediateLateDataSize:72millionstars,20milliongalaxiesObjectCatalog:9GBImageDatabase:150GB
Class:StagesofFormationCourtesy:05八月2023数据挖掘导论21分类:应用3Attrib17八月2023数据挖掘导论22回归回归(regression)Predictavalueofagivencontinuousvaluedvariablebasedonthevaluesofothervariables,assumingalinearornonlinearmodelofdependency.Greatlystudiedinstatistics,neuralnetworkfields.Examples:Predictingsalesamountsofnewproductbasedonadvertisingexpenditure.Predictingwindvelocitiesasafunctionoftemperature,humidity,airpressure,etc.Timeseriespredictionofstockmarketindices05八月2023数据挖掘导论22回归回归(regress17八月2023数据挖掘导论23关联规则:定义关联规则(associationrule)Givenasetofrecordseachofwhichcontainsomenumberofitemsfromagivencollection;Producedependencyruleswhichwillpredictoccurrenceofitemsbasedonoccurrencesofotheritems.RulesDiscovered:
{Milk}-->{Coke}{Diaper,Milk}-->{Beer}05八月2023数据挖掘导论23关联规则:定义关联规则(17八月2023数据挖掘导论24关联规则:应用1MarketingandSalesPromotion:Lettherulediscoveredbe
{Bagels,…
}
-->
{PotatoChips}PotatoChips
asconsequent=>Canbeusedtodeterminewhatshouldbedonetoboostitssales.Bagelsintheantecedent=>Canbeusedtoseewhichproductswouldbeaffectedifthestorediscontinuessellingbagels.Bagelsinantecedent
and
Potatochipsinconsequent
=>CanbeusedtoseewhatproductsshouldbesoldwithBagelstopromotesaleofPotatochips!05八月2023数据挖掘导论24关联规则:应用1Mark17八月2023数据挖掘导论25关联规则:应用2Supermarketshelfmanagement.Goal:Toidentifyitemsthatareboughttogetherbysufficientlymanycustomers.Approach:Processthepoint-of-saledatacollectedwithbarcodescannerstofinddependenciesamongitems.Aclassicrule--Ifacustomerbuysdiaperandmilk,thenheisverylikelytobuybeer.So,don’tbesurprisedifyoufindsix-packsstackednexttodiapers!05八月2023数据挖掘导论25关联规则:应用2Supe17八月2023数据挖掘导论26聚类:定义Givenasetofdatapoints,eachhavingasetofattributes,andasimilaritymeasureamongthem,findclusterssuchthatDatapointsinoneclusteraremoresimilartooneanother.Datapointsinseparateclustersarelesssimilartooneanother.SimilarityMeasures:EuclideanDistanceifattributesarecontinuous.OtherProblem-specificMeasuresIntraclusterdistancesareminimizedInterclusterdistancesaremaximized05八月2023数据挖掘导论26聚类:定义Given17八月2023数据挖掘导论27聚类:应用1MarketSegmentation:Goal:subdivideamarketintodistinctsubsetsofcustomerswhereanysubsetmayconceivablybeselectedasamarkettargettobereachedwithadistinctmarketingmix.Approach:Collectdifferentattributesofcustomersbasedontheirgeographicalandlifestylerelatedinformation.Findclustersofsimilarcustomers.Measuretheclusteringqualitybyobservingbuyingpatternsofcustomersinsameclustervs.thosefromdifferentclusters.
05八月2023数据挖掘导论27聚类:应用1Marke17八月2023数据挖掘导论28聚类:应用2DocumentClustering:Goal:Tofindgroupsofdocumentsthataresimilartoeachotherbasedontheimportanttermsappearinginthem.Approach:Toidentifyfrequentlyoccurringtermsineachdocument.Formasimilaritymeasurebasedonthefrequenciesofdifferentterms.Useittocluster.Gain:InformationRetrievalcanutilizetheclusterstorelateanewdocumentorsearchtermtoclustereddocuments05八月2023数据挖掘导论28聚类:应用2Docum17八月2023数据挖掘导论29文档聚类:例ClusteringPoints:3204ArticlesofLosAngelesTimes.SimilarityMeasure:Howmanywordsarecommoninthesedocuments(aftersomewordfiltering).05八月2023数据挖掘导论29文档聚类:例Clust17八月2023数据挖掘导论30异常检测任务:识别其特征显著不同于其他数据的观测值这样的观测值称为异常点(anomaly)或离群点(outlier)发现真正的异常点,而避免错误地将正常的对象标注为异常点应用信用卡欺诈检测网络入侵检测05八月2023数据挖掘导论30异常检测任务:识别其特征数据挖掘的应用数据挖掘的应用17八月2023数据挖掘导论32数据挖掘的应用数据库分析和决策支持市场分析和管理针对销售(targetmarketing),顾客关系管理,购物篮分析,交叉销售(crossselling),市场分割(marketsegmentation)风险分析与管理预测,顾客关系,改进保险,质量控制,竞争能力分析欺骗检测与管理其它应用文本挖掘(新闻组,email,文档资料)流数据挖掘(Streamdatamining)Web挖掘.DNA数据分析05八月2023数据挖掘导论32数据挖掘的应用数据库分析17八月2023数据挖掘导论33市场分析与管理(1)用于分析的数据源在哪?信用卡交易,会员卡,打折优惠卷,顾客投诉电话,(公共)生活时尚研究针对销售(Targetmarketing)找出顾客群,他们具有相同特征:兴趣,收入水平,消费习惯,等.确定顾客随时间变化的购买模式个人帐号到联合帐号的转变:结婚,等.交叉销售分析(Cross-marketanalysis)产品销售之间的关联/相关基于关联信息的预测05八月2023数据挖掘导论33市场分析与管理(1)用于17八月2023数据挖掘导论34市场分析与管理(2)顾客分类(Customerprofiling)数据挖掘能够告诉我们什么样的顾客买什么产品(聚类或分类)识别顾客需求对不同的顾客识别最好的产品使用预测发现什么因素影响新顾客提供汇总信息各种多维汇总报告统计的汇总信息(数据的中心趋势和方差)05八月2023数据挖掘导论34市场分析与管理(2)顾客17八月2023数据挖掘导论35法人分析和风险管理财经规划和资产评估现金流分析和预测临时提出的资产评估交叉组合(cross-sectional)和时间序列分析(金融比率(financial-ratio),趋势分析,等.)资源规划:资源与开销的汇总与比较竞争:管理竞争者和市场指导对顾客分类和基于类的定价在高度竞争的市场调整价格策略05八月2023数据挖掘导论35法人分析和风险管理财经规17八月2023数据挖掘导论36欺骗检测和管理(1)应用广泛用于健康照料,零售,信用卡服务,电讯(电话卡欺骗),等.方法使用历史数据建立欺骗行为模型,使用数据挖掘帮助识别类似的实例例汽车保险:检测这样的人,他/她假造事故骗取保险赔偿洗钱:检测可疑的金钱交易(USTreasury'sFinancialCrimesEnforcementNetwork)医疗保险:检测职业病患者,医生和介绍人圈05八月2023数据挖掘导论36欺骗检测和管理(1)应用17八月2023数据挖掘导论37欺骗检测和管理(2)检测不适当的医疗处置澳大利亚健康保险会(AustralianHealthInsuranceCommission)发现许多全面的检查是请求做的,而不是实际需要的(每年节省100万澳元).检测电话欺骗电话呼叫模式:通话距离,通话时间,每天或每周通话次数.分析偏离期望的模式.英国电讯(BritishTelecom)识别频繁内部通话的呼叫者的离散群,特别是移动电话,超过数百万美元的欺骗.零售分析家估计,38%的零售业萎缩是由于不忠诚的雇员造成的.05八月2023数据挖掘导论37欺骗检测和管理(2)检测17八月2023数据挖掘导论38其它应用运动IBMAdvancedScout分析NBA的统计数据(阻挡投篮,助攻,和犯规)获得了对纽约小牛队(NewYorkKnicks)和迈艾米热队(MiamiHeat)的竞争优势天文借助于数据挖掘的帮助,JPL和PalomarObservatory发现了22颗类星体(quasars)InternetWebSurf-AidIBMSurf-Aid将数据挖掘算法用于有关交易的页面的Web访问日志,以发现顾客喜爱的页面,分析Web销售的效果,改进Web站点的组织,等.05八月2023数据挖掘导论38其它应用运动17八月2023数据挖掘导论39数据挖掘界简史1989IJCAIWorkshoponKnowledgeDiscoveryinDatabases(Piatetsky-Shapiro)KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994WorkshopsonKnowledgeDiscoveryinDatabasesAdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 平原人民医院考试题目及答案
- 新疆音乐考试题库及答案
- 心理学视力测试题及答案
- 2026年乌鲁木齐市第126中学招聘模拟试卷含答案详解(新)
- 2026年合肥高新区机关事业单位公开招募就业见习人员86名模拟试卷附完整答案详解【历年真题】
- 2026中国地质调查局局属单位(第二批)补充招聘4人笔试题库含完整答案详解(夺冠系列)
- 第一章单元复习课-人教A版高一上学期物理必修一课件
- 孵化自主可控工业软件应用软件链
- 新型储能材料与dortyucte
- 全球供应链风险管理
- 2026年稀土集团财务部长财务知识竞赛题库含答案
- 地面露天停车场施工方案
- 生产安全标准化作业流程规范
- 2025年心理治疗师(高级)备考题库及答案解析
- 辽宁工程技术大学介绍
- 2025年职业指导师三级理论复习题库及答案
- 工业管道安装施工方案(3篇)
- 疫苗生产质量管理与现场检查指南
- 2025年医保DIP培训测试题及答案
- 2024年西藏察雅县事业单位公开招聘工作人员考试题含答案
- 2024-2025学年甘肃省白银市八年级下学期期末考试数学检测试卷
评论
0/150
提交评论