




已阅读5页,还剩47页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘:引言,谭毅华,Yihua.tan华中科技大学图像识别与人工智能研究所,内容,课程介绍数据挖掘的必要性(Why)数据挖掘的内涵(What)处理的数据(Data)实现的功能(Functionality)主要问题(Issues)系统现状(Systems),教材,范明,孟小峰等译数据挖掘:概念与技术北京:机械工业出版社2001.邵峰晶,于忠清.数据挖掘原理与算法.北京:中国水利水电出版社.2003IanH.Witten,EibeFrank.数据挖掘:实用机器学习技术及Java实现(英文版).北京:机械工业出版社,2003相关网址JiaweiHan:/,时间安排,W5:Tue,引言Fri,国庆假W6:Tue,数据及其加工处理Fri,关联规则分析W7:Tue,分类分析Fri,聚类分析W8:Tue:文本和多媒体挖掘Fri:交作业,考试,1-2节,学习评价及联系方式,评价结果作业30%考试70%联系方式E-Mail:yihua.tanTelel内容,课程介绍数据挖掘的必要性(Why)数据挖掘的内涵(What)处理的数据(Data)实现的功能(Functionality)主要问题(Issues)系统现状(Systems),Motivation:数据挖掘的产生,知识海洋自动数据搜集工具数据库技术,数据仓库全民资源贡献(Web)获取有用知识商业结论科学假设和规律发现获取的方式人工数据仓库数据挖掘,Why:数据挖掘的作用,知识爆炸的苦恼:何处是真谛?如何痛下决断?,数据,决策信息,决策,数据库技术的发展,1960s:数据搜集,数据库建立,IMS和网络DBMS1970s:关系数据模型,关系DBMS实现1980s:关系DBMS,先进数据模型(扩展关系模型,面向对象,推理,etc.),面向应用DBMS(空间,科学,工程,etc.)1990s:数据挖掘,数据仓库,多媒体数据库,Web数据库2000s流数据管理和挖掘数据挖掘及应用网络技术(XML,数据集成),全球信息系统,内容,课程介绍数据挖掘的必要性(Why)数据挖掘的内涵(What)处理的数据(Data)实现的功能(Functionality)主要问题(Issues)系统现状(Systems),内容,课程介绍数据挖掘的必要性(Why)数据挖掘的内涵(What)处理的数据(Data)实现的功能(Functionality)主要问题(Issues)系统现状(Systems),What:什么是数据挖掘,定义从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。从数据中抽取未知的隐含的有用知识。应用自动或半自动的方法,对大规模的数据进行调查和分析发现有意义的模式。别名知识发现商业智能datadredginginformationharvestingdataarcheology,什么是(或不是)数据挖掘,不是数据挖掘的,简单的搜索和查询文件查找电话号码查找网络搜索引擎查询与”华中科技大学“相关的信息专家系统,是数据挖掘的,有加工信息的搜索和查询查询百家姓的人数排名关键字搜索学术文章,返回带有”相关度“信息根据上下文信息”华中科技大学“,将相似网页组织在一起,数据挖掘的过程,数据搜集,数据预处理,DataMining,模式解释和评估,问题定义,数据挖掘步骤,问题定义(和领域知识专家一道)挖掘何种知识?明确要求确定可用算法数据搜集确定需要用到的数据库和数据集数据预处理去噪、缺失值处理、数据类型转换、数据简化等数据挖掘算法(分类、聚类和序列模式发现等)数据特点结果表示:描述性或预测性知识结果解释和评估去除冗余可视化,数据挖掘:多学科的交叉,DataMining,DatabaseTechnology,Statistics,ML/AI,PatternRecognition,Algorithm,OtherDisciplines,Visualization,数据挖掘的多面性,数据面关系型,流式,数据仓库,事务,面向对象,空间数据,时间序列,文本,多媒体,异构数据库,WWW知识面特征,识别,关联,分类,聚类,趋势等.集成功能,多级挖掘技术面数据库技术,数据仓库(OLAP),机器学习,统计学,可视化,模式识别等应用面零售业,电信,银行保险,诈骗分析,生物数据挖掘,股票市场分析,文本挖掘,web挖掘,上网行为分析等.,内容,课程介绍数据挖掘的必要性(Why)数据挖掘的内涵(What)处理的数据(Data)实现的功能(Functionality)主要问题(Issues)系统现状(Systems),数据挖掘处理的数据类型,RelationalDatabaseDatawarehousesTransactionaldatabasesAdvancedDBandinformationrepositoriesObject-orientedandobject-relationaldatabasesSpatialdatabasesTime-seriesdataandtemporaldataTextdatabasesandmultimediadatabasesHeterogeneousandlegacydatabasesWWW,数据仓库,从一个或多个数据源搜集到的信息储存库,存放在一个一致的模式下,通常驻留在单个站点。数据清理数据变换数据集成数据装入定期刷新过程数据汇总组织特定主题:顾客、商品和活动等用多维数据库结构建模适合于OLAP,事务数据库,每个记录代表一个事务:包括事务的唯一标识号和组成该事务的项例:,空间数据库,包含涉及空间的信息地图数据库VLSI集成电路蛋白质分子3D空间排列,时空数据库,数据在空间上分布,并随时间变化changeswithtimeEx:森林火灾,运动目标,飓风和地震,多媒体数据库,图像、视频和音频数据。(image/videoretrieval),Web数据,内容,课程介绍数据挖掘的必要性(Why)数据挖掘的内涵(What)处理的数据(Data)实现的功能(Functionality)主要问题(Issues)系统现状(Systems),数据挖掘分类:知识面,描述性数据挖掘:找出用于人解释的数据描述模式预测式数据挖掘:用一些变量预测其它变量的未知或将来值,描述性,预测式,聚类分析,关联分析,序列分析,回归分析,偏差检测,分类,数据挖掘的功能(1):分类,ClassificationAnalysis基于训练集构建模型(函数)目标:给新的记录尽可能准确地赋以某个类属以测试集描述模型的分类精度Example,分类的典型应用1,天体分类,Early,Intermediate,Late,数据量:7亿2千万星球,2千万星系目标目录:9GB图像数据库:150GB,类别:形成的阶段,属性:图像特征,接受到的光特征,etc.,分类的典型应用2,直接的市场推广目标:减少邮寄费用而探知客户购买新手机的可能性.方法:使用以前此类产品的市场数据.所知道的客户买卖此类产品的信息buy,dontbuy形成了类属性.搜集此类客户的人口统计、生活方式以及公司沟通等相关信息交易类型,生活地,收入等.使用这些信息作为输入属性学习分类模型.,数据挖掘的功能(2):聚类分析,ClusterAnalysis-无监督学习根据其属性相似度,将数据点集分成多个聚类准则:类间距离大,类内距离小相似性测度:欧氏距离,马氏距离及其它和问题相关的距离Example,聚类的典型应用1,细分市场:目标:将市场划分为不同客户子群,任何一个子客户群都可以被不同的市场策略定位为目标客户。方法:根据地域和生活方式等信息,搜集客户的不同属性找出相似客户群聚类通过观察同一类客户人群对不同类客户人群的购物模式度量聚类的效果。,聚类的典型应用2,文档聚类:目标:将同时出现重要词条的相似性文档组合在一起.方法:识别出在每个文档均频繁出现的词条.基于不同词条的出现频率形成相似性测度,据此聚类用处:信息搜索技术使用聚类技术可将新文档和聚类文档关联起来,或者从聚类文档中找出关键词。,聚类的点:ChinaDaily的3204篇文章.相似性测度:多少单词是同时出现的(单词过滤后,the,it).,数据挖掘的功能(3):关联规则,AssociationRuleDiscovery给定一个记录集,每个记录包含多个条目产生依赖规则,基于已发生的条目预测条目的发生主要问题关联vs.偶然性典型的关联规则描述DiaperBeer0.5%,75%(support,confidence)用什么方法从大数据集中挖掘该规则或模式?怎么使用模式完成聚类、分类等其它任务?,关联规则的典型应用,超市货架管理目标:识别出被足够多的消费者同时购买的商品方法:处理从条形码扫描得到的销售数据,寻找商品间的相关性典型的规则-若消费者购买尿布和牛奶,同时可能会购买啤酒因此,不必惊讶于尿布边堆了几十箱啤酒,发现的规则:Milk-CokeDiaper,Milk-Beer,数据挖掘的功能(4):序列分析,SequenceAnalysis给定对象集,每个对象对应一个顺序事件(时间顺序)先买相机,再买SD卡寻找模式,该模式给出了事件发生的顺序约束总结数据序列或事件检测数据随时间的变化检测知识随时间的变化,序列分析的典型应用,网页访问习惯调查访问记录CASE:UserU2008:visitedpage0,page2,page13,page17数据的序列,Page0(90),Page10(2),Page15,Page1,Page17,Page5,60%,20%,40%,100%,100%,数据挖掘的功能(5):偏差检测,Deviation/AnomalyDetection检测明显异于正常行为的事件应用:信用卡诈骗网络入侵,数据挖掘的其它功能,孤立点分析(Outlieranalysis)和数据一般行为不一致的数据点噪声还是异常?对某人是垃圾信息对其它人可能是财宝检测稀有发生的事件回归分析(RegressionAnalysis)基于线性或非线性的相关模型,根据已知的连续变量预测某个连续变量的值在统计学和神经网络中研究广泛而深入.根据广告投入预测新产品的销售量根据温度、湿度和空气压力预测风速,挖掘模式的评价,兴趣度模式易于理解数据检验有效潜在有用新颖的客观的评价支持度置信度主观评价,ICDM06选取的Top-10经典算法,#1:C4.5(61votes)#2:K-Means(60votes)#3:SVM(58votes)#4:Apriori(52votes)#5:EM(48votes)#6:PageRank(46votes)#7:AdaBoost(45votes)#7:kNN(45votes)#7:NaiveBayes(45votes)#10:CART(34votes),内容,课程介绍数据挖掘的必要性(Why)数据挖掘的内涵(What)处理的数据(Data)实现的功能(Functionality)主要问题(Issues)系统现状(Systems),数据挖掘的主要问题,挖掘的方法从不同的数据类型如生物、流数据、网页等挖掘不同类型的知识性能:效率,效果和可扩展性模式评价:模式的兴趣度背景知识的结合处理噪声和不完备数据并行分布式的开放式挖掘方法发现的知识和已有知识的集成:知识融合用户交互数据挖掘查询语言和专业挖掘数据挖掘结果的表达和可视化多级抽象的交互式知识挖掘应用和社会作用专门领域数据挖掘和不可见数据挖掘数据安全、完整和隐私的保护,ABriefHistoryofDataMiningSociety,1989IJCAIWorkshoponKnowledgeDiscoveryinDatabasesKnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994WorkshopsonKnowledgeDiscoveryinDatabasesAdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998InternationalConferencesonKnowledgeDiscoveryinDatabasesandDataMining(KDD95-98)JournalofDataMiningandKnowledgeDiscovery(1997)ACMSIGKDDconferencessince1998andSIGKDDExplorationsMoreconferencesondataminingPAKDD(1997),PKDD(1997),SIAM-DataMining(2001),(IEEE)ICDM(2001),etc.ACMTransactionsonKDDstartingin2007,ConferencesandJournalsonDataMining,KDDConferencesACMSIGKDDInt.Conf.onKnowledgeDiscoveryinDatabasesandDataMining(KDD)SIAMDataMiningConf.(SDM)(IEEE)Int.Conf.onDataMining(ICDM)Conf.onPrinciplesandpracticesofKnowledgeDiscoveryandDataMining(PKDD)Pacific-AsiaConf.onKnowledgeDiscoveryandDataMining(PAKDD),OtherrelatedconferencesACMSIGMODVLDB(IEEE)ICDEWWW,SIGIRICML,CVPR,NIPSJournalsDataMiningandKnowledgeDiscovery(DAMIorDMKD)IEEETrans.OnKnowledgeandDataEng.(TKDE)KDDExplorationsACMTrans.onKDD,内容,课程介绍数据挖掘的必要性(Why)数据挖掘的内涵(What)处理的数据(Data)实现的功能(Functionality)主要问题(Issues)系统现状(Systems),典型的数据挖掘系统,datacleaning,integration,andselection,数据库或数据仓库服务器,数据挖掘引擎,模式评价,用户界面,知识库,数据库,数据仓库,网页,其它数据,数据挖掘系统的软件系统架构,来源:,朱扬勇,数据挖掘软件系统的发展,数据挖掘软件系统的分类,面向工具集的软件此类工具集的特点是提供多种数据挖掘算法包括数据的转换和可视化由于此类工具并非面向特定的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年注册会计师考试《会计》金融工具会计处理案例分析试题卷
- 中级会计税法试题及答案
- 中级会计实务老师试题及答案
- 第一课 不一样的我教学设计-2025-2026学年小学心理健康五年级京教版(心理健康教育)
- 2025年花艺师职业资格考试真题模拟训练(花艺设计风格与流派)
- 2025年护士执业资格考试康复护理学案例分析题库试题
- 2025年中学教师资格考试《综合素质》教育理念辨析练习题及答案点评
- 2025年调酒师职业资格考试-酒水行业未来趋势预测模拟题库
- 2025年摄影师职业资格认证摄影器材操作规范考试在线反馈试题试卷
- 2025年小学教师资格考试《综合素质》教师礼仪与沟通应用试题(含答案)
- 收集整理-小儿推拿常用穴(附每个穴位图)
- 农业投入品管理使用制度范本
- 人教版高中(水平五)《体育与健康》全一册《篮球基本战术-策应战术配合》教学设计
- 应对中国气候挑战:为转型提供融资实现净零未来
- YY/T 0196-2005一次性使用心电电极
- GB/T 24218.3-2010纺织品非织造布试验方法第3部分:断裂强力和断裂伸长率的测定(条样法)
- 系统工程原理 - 国防科技大学信息系统与管理学院
- 华为IPD流程管理全部课件
- 2021年唐山迁安市教师进城考试笔试试题及答案解析
- 三菱变频器d700说明书
- 涉外导游英语口语实训教程整套课件完整版PPT教学教程最全电子讲义教案(最新)
评论
0/150
提交评论