版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库与数据挖掘
DataWarehouseandDataMining数据仓库与数据挖掘
DataWarehouseandD数据仓库与数据挖掘动机:为什么要进行数据挖掘数据挖掘的步骤数据挖掘在什么数据上进行数据挖掘功能和分类一些新的研究方向2数据仓库与数据挖掘动机:为什么要进行数据挖掘2动机:需要是发明之母数据爆炸问题自动的数据收集工具和成熟的数据库技术导致大量数据存放在数据库、数据仓库和其它信息存储器中我们正被数据淹没,但却缺乏知识解决办法:数据仓库与数据挖掘数据仓库与联机分析处理(OLAP)从大型数据库的数据中提取有趣的知识(规则,规律性,模式,限制等)3动机:需要是发明之母数据爆炸问题3什么是数据挖掘数据挖掘(数据库中知识发现)从大型数据库中提取有趣的(非平凡的、蕴涵的、先前未知的且是潜在有用的)
信息或模式其它名称数据库中知识发现(挖掘)(Knowledgediscoveryindatabases,KDD),知识提取(knowledgeextraction),数据/模式分析(data/patternanalysis),数据考古(dataarcheology),数据捕捞(datadredging),信息收获(informationharvesting),商务智能(businessintelligence)等4什么是数据挖掘数据挖掘(数据库中知识发现)4数据挖掘可能的应用数据库分析和决策支持市场分析和管理:针对销售(targetmarketing),顾客关系管理,购物篮分析,交叉销售(crossselling),市场分割(marketsegmentation)风险分析与管理:预测,顾客关系,改进保险,质量控制,竞争能力分析欺骗检测与管理5数据挖掘可能的应用数据库分析和决策支持5数据挖掘可能的应用其它应用文本挖掘(新闻组、email、文档资料)流数据挖掘(Streamdatamining)Web挖掘DNA数据分析6数据挖掘可能的应用其它应用6数据仓库与数据挖掘动机:为什么要进行数据挖掘数据挖掘的步骤数据挖掘在什么数据上进行数据挖掘功能和分类一些新的研究方向7数据仓库与数据挖掘动机:为什么要进行数据挖掘7数据挖掘的过程数据挖掘:KDD的核心数据清理数据集成数据仓库知识任务相关数据选择数据挖掘模式评估8数据挖掘的过程数据挖掘:KDD的核心数据清理数据集成数据仓库数据挖掘的过程数据挖掘:KDD的核心数据挖掘与任务相关的数据知识种类领域知识兴趣度量和阈值表示9数据挖掘的过程数据挖掘:KDD的核心数据挖掘与任务相关的KDD的步骤学习应用领域相关的先验知识和应用的目标创建目标数据集:数据选择数据清理和预处理(可能占全部工作的60%!)数据归约与变换发现有用的特征,维/变量归约,不变量的表示选择数据挖掘函数汇总,分类,回归,关联,聚类10KDD的步骤学习应用领域10KDD的步骤选择挖掘算法数据挖掘:搜索有趣的模式模式评估和知识表示可视化,变换,删除冗余模式,等发现知识的使用11KDD的步骤选择挖掘算法11典型的数据挖掘系统结构知识库图形用户界面模式评估数据挖掘引擎数据库或数据仓库服务器数据库数据仓库过滤数据清洗和集成12典型的数据挖掘系统结构知识库图形用户界面模式评估数据挖掘引擎数据仓库与数据挖掘动机:为什么要进行数据挖掘数据挖掘的步骤数据挖掘在什么数据上进行数据挖掘功能和分类一些新的研究方向13数据仓库与数据挖掘动机:为什么要进行数据挖掘13数据挖掘在什么数据上进行平面文件关系数据库包括面向对象和对象-关系数据库事务(交易)数据库异种数据库和遗产数据库14数据挖掘在什么数据上进行平面文件14数据挖掘在什么数据上进行数据仓库数据源清洗、装载、转换、集成数据仓库查询及分析工具客户15数据挖掘在什么数据上进行数据仓库数据源清洗、装载、数据仓库查数据挖掘在什么数据上进行数据仓库数据源数据挖掘文件数据库数据仓库网页……16数据挖掘在什么数据上进行数据仓库数据挖掘文件数据库数据挖掘在什么数据上进行数据仓库查询/报表分析数据挖掘输出OLAPserverOLAPserver监控管理数据仓库数据集市元数据存储清洗装载转换集成操作型数据库外部数据源Toptier:前端工具Middletier:OLAPserverBottomtier:数据仓库server数据17数据挖掘在什么数据上进行数据仓库查询/报表分析数据挖掘输出O数据挖掘在什么数据上进行多媒体数据库空间数据库18数据挖掘在什么数据上进行多媒体数据库空间数据库18数据挖掘在什么数据上进行时间序列数据库19数据挖掘在什么数据上进行时间序列数据库19数据挖掘在什么数据上进行文本数据库20数据挖掘在什么数据上进行文本数据库20数据仓库与数据挖掘动机:为什么要进行数据挖掘数据挖掘的步骤数据挖掘在什么数据上进行数据挖掘功能和分类一些新的研究方向21数据仓库与数据挖掘动机:为什么要进行数据挖掘21数据挖掘的功能概念描述:特征和区分概化,汇总,比较数据特征,如干燥和潮湿的地区关联(相关和因果关系)多维和单维关联age(X,“20..29”)^income(X,“20..29K”)buys(X,“PC”)[support=2%,confidence=60%]contains(T,“computer”)
contains(T,“software”)[support=1%,confidence=75%]22数据挖掘的功能概念描述:特征和区分22数据挖掘的功能分类和预测找出描述和识别类或概念的模型(函数),用于将来的预测例如根据气候对国家分类,或根据单位里程的耗油量对汽车分类表示:决策树(decision-tree),分类规则,神经元网络预测:预测某些未知或遗漏的数值23数据挖掘的功能分类和预测23数据挖掘的功能聚类分析类标号(Classlabel)未知:对数据分组,形成新的类。例如,对房屋分类,找出分布模式聚类原则:最大化类内的相似性,最小化类间的相似性24数据挖掘的功能聚类分析24数据挖掘的功能孤立点(Outlier)分析孤立点:一个数据对象,与数据的一般行为不一致孤立点可以被视为例外,但对于欺骗检测和罕见事件分析,它是相当有用的趋势和演变分析趋势和偏离:回归分析序列模式挖掘,周期性分析基于相似的分析其它基于模式或统计的分析25数据挖掘的功能孤立点(Outlier)分析25数据挖掘:多学科交叉数据库机器学习统计分析可视化其它高性能计算信息检索DataMining26数据挖掘:多学科交叉数据库机器学习统计分析可视化其数据挖掘的分类一般功能描述式数据挖掘预测式数据挖掘不同的角度、不同的分类待挖掘的数据库类型待发现的知识类型所用的技术类型所适合的应用类型27数据挖掘的分类一般功能27数据挖掘从不同角度的分类28数据挖掘从不同角度的分类28数据挖掘从不同角度的分类所用技术面向数据库的、数据仓库(OLAP)、机器学习、统计学、可视化、神经网络等适合的应用零售、电讯、银行、欺骗分析、DNA挖掘、股票市场分析、Web挖掘、Web日志分析等29数据挖掘从不同角度的分类所用技术29数据仓库与数据挖掘动机:为什么要进行数据挖掘数据挖掘的步骤数据挖掘在什么数据上进行数据挖掘功能和分类一些新的研究方向30数据仓库与数据挖掘动机:为什么要进行数据挖掘30Web挖掘WebMiningWebUsageMiningAgentBasedApproachDatabaseApproach智能查询信息过滤/分类个性化Web多层次数据库Web查询系统预处理事务标识模式发现模式分析WebStructureMiningWebContentMining31Web挖掘WebMiningWebUsageMininWeb使用挖掘WebUsageMining是在Web数据存储地中应用数据挖掘技术抽取使用模式的方法数据预处理用户使用页面关联、用户分类、用户聚类、…应用个性化站点改进……32Web使用挖掘WebUsageMining是在Web数文本挖掘文本挖掘=数据挖掘(应用于文本存储地)+基本语言学文本预处理(无结构数据结构化)词法/语义分析特征生成BagofWords特征选择频度、TFIDF、共现等数据挖掘文本分类、聚类等分析结果文本文本预处理文本转换特征选择数据挖掘解释33文本挖掘文本挖掘=数据挖掘(应用于文本存储地)+基本语言学文观点、情感挖掘观点挖掘(OpinionMining)是一种从论坛、讨论组、新闻组、博客等用户产生的内容中挖掘其表达观点的技术。文本挖掘与观点挖掘(事实与观点)文本挖掘关注事实,观点挖掘关注用户对事实所持的观点;事实是客观的,观点是主观的;事实只有一个,观点却各不相同。应用商务、网络舆情、……34观点、情感挖掘观点挖掘(OpinionMining)是一种数据流挖掘性质连续性:数据流是连续到达的无序性:系统无法控制数据到达的顺序无界性:数据流原则上是无限大的实时性:要求算法能够实时地反映模式变化35数据流挖掘性质35数据流挖掘性质传统的数据挖掘数据库数据仓库文本文件……36数据流挖掘性质数据库数据仓库文本文件……36数据流挖掘性质传统的数据挖掘数据库数据仓库文本文件……37数据流挖掘性质数据库数据仓库文本文件……37数据流挖掘性质传统的数据挖掘数据库数据仓库文本文件……38数据流挖掘性质数据库数据仓库文本文件……38数据流挖掘性质数据流挖掘?39数据流挖掘性质?39RFID事件流挖掘RadioFrequencyIdentification(RFID)TagReaderRFID数据仓库、RFID事件流分析与挖掘、复杂事件检测40RFID事件流挖掘RadioFrequencyIdent图像分析与挖掘Web图像医学图像41图像分析与挖掘Web图像医学图像41社会网络分析aaaaaaabbbbbbcccccccccccdcddddddddddeeeffffffg节点派系凝聚子群n边及权重42社会网络分析aaaaaaabbbbbbccccccccccc不确定性数据挖掘数据的不确定性原始数据不准确;使用粗粒度数据集合;满足特殊应用目的;处理缺失值;数据集成。不确定性数据管理的框架不确定性数据模型定义预处理与集成存储与索引查询、分析、挖掘结果43不确定性数据挖掘数据的不确定性不确定性数据模型定义预处理与集作业简述数据挖掘的一些主要方法,并根据你的见解,谈谈数据挖掘技术可能的应用(举例)44作业简述数据挖掘的一些主要方法,并根据你的见解,谈谈数据挖掘感谢大家光临!感谢大家光临!数据仓库与数据挖掘
DataWarehouseandDataMining数据仓库与数据挖掘
DataWarehouseandD数据仓库与数据挖掘动机:为什么要进行数据挖掘数据挖掘的步骤数据挖掘在什么数据上进行数据挖掘功能和分类一些新的研究方向47数据仓库与数据挖掘动机:为什么要进行数据挖掘2动机:需要是发明之母数据爆炸问题自动的数据收集工具和成熟的数据库技术导致大量数据存放在数据库、数据仓库和其它信息存储器中我们正被数据淹没,但却缺乏知识解决办法:数据仓库与数据挖掘数据仓库与联机分析处理(OLAP)从大型数据库的数据中提取有趣的知识(规则,规律性,模式,限制等)48动机:需要是发明之母数据爆炸问题3什么是数据挖掘数据挖掘(数据库中知识发现)从大型数据库中提取有趣的(非平凡的、蕴涵的、先前未知的且是潜在有用的)
信息或模式其它名称数据库中知识发现(挖掘)(Knowledgediscoveryindatabases,KDD),知识提取(knowledgeextraction),数据/模式分析(data/patternanalysis),数据考古(dataarcheology),数据捕捞(datadredging),信息收获(informationharvesting),商务智能(businessintelligence)等49什么是数据挖掘数据挖掘(数据库中知识发现)4数据挖掘可能的应用数据库分析和决策支持市场分析和管理:针对销售(targetmarketing),顾客关系管理,购物篮分析,交叉销售(crossselling),市场分割(marketsegmentation)风险分析与管理:预测,顾客关系,改进保险,质量控制,竞争能力分析欺骗检测与管理50数据挖掘可能的应用数据库分析和决策支持5数据挖掘可能的应用其它应用文本挖掘(新闻组、email、文档资料)流数据挖掘(Streamdatamining)Web挖掘DNA数据分析51数据挖掘可能的应用其它应用6数据仓库与数据挖掘动机:为什么要进行数据挖掘数据挖掘的步骤数据挖掘在什么数据上进行数据挖掘功能和分类一些新的研究方向52数据仓库与数据挖掘动机:为什么要进行数据挖掘7数据挖掘的过程数据挖掘:KDD的核心数据清理数据集成数据仓库知识任务相关数据选择数据挖掘模式评估53数据挖掘的过程数据挖掘:KDD的核心数据清理数据集成数据仓库数据挖掘的过程数据挖掘:KDD的核心数据挖掘与任务相关的数据知识种类领域知识兴趣度量和阈值表示54数据挖掘的过程数据挖掘:KDD的核心数据挖掘与任务相关的KDD的步骤学习应用领域相关的先验知识和应用的目标创建目标数据集:数据选择数据清理和预处理(可能占全部工作的60%!)数据归约与变换发现有用的特征,维/变量归约,不变量的表示选择数据挖掘函数汇总,分类,回归,关联,聚类55KDD的步骤学习应用领域10KDD的步骤选择挖掘算法数据挖掘:搜索有趣的模式模式评估和知识表示可视化,变换,删除冗余模式,等发现知识的使用56KDD的步骤选择挖掘算法11典型的数据挖掘系统结构知识库图形用户界面模式评估数据挖掘引擎数据库或数据仓库服务器数据库数据仓库过滤数据清洗和集成57典型的数据挖掘系统结构知识库图形用户界面模式评估数据挖掘引擎数据仓库与数据挖掘动机:为什么要进行数据挖掘数据挖掘的步骤数据挖掘在什么数据上进行数据挖掘功能和分类一些新的研究方向58数据仓库与数据挖掘动机:为什么要进行数据挖掘13数据挖掘在什么数据上进行平面文件关系数据库包括面向对象和对象-关系数据库事务(交易)数据库异种数据库和遗产数据库59数据挖掘在什么数据上进行平面文件14数据挖掘在什么数据上进行数据仓库数据源清洗、装载、转换、集成数据仓库查询及分析工具客户60数据挖掘在什么数据上进行数据仓库数据源清洗、装载、数据仓库查数据挖掘在什么数据上进行数据仓库数据源数据挖掘文件数据库数据仓库网页……61数据挖掘在什么数据上进行数据仓库数据挖掘文件数据库数据挖掘在什么数据上进行数据仓库查询/报表分析数据挖掘输出OLAPserverOLAPserver监控管理数据仓库数据集市元数据存储清洗装载转换集成操作型数据库外部数据源Toptier:前端工具Middletier:OLAPserverBottomtier:数据仓库server数据62数据挖掘在什么数据上进行数据仓库查询/报表分析数据挖掘输出O数据挖掘在什么数据上进行多媒体数据库空间数据库63数据挖掘在什么数据上进行多媒体数据库空间数据库18数据挖掘在什么数据上进行时间序列数据库64数据挖掘在什么数据上进行时间序列数据库19数据挖掘在什么数据上进行文本数据库65数据挖掘在什么数据上进行文本数据库20数据仓库与数据挖掘动机:为什么要进行数据挖掘数据挖掘的步骤数据挖掘在什么数据上进行数据挖掘功能和分类一些新的研究方向66数据仓库与数据挖掘动机:为什么要进行数据挖掘21数据挖掘的功能概念描述:特征和区分概化,汇总,比较数据特征,如干燥和潮湿的地区关联(相关和因果关系)多维和单维关联age(X,“20..29”)^income(X,“20..29K”)buys(X,“PC”)[support=2%,confidence=60%]contains(T,“computer”)
contains(T,“software”)[support=1%,confidence=75%]67数据挖掘的功能概念描述:特征和区分22数据挖掘的功能分类和预测找出描述和识别类或概念的模型(函数),用于将来的预测例如根据气候对国家分类,或根据单位里程的耗油量对汽车分类表示:决策树(decision-tree),分类规则,神经元网络预测:预测某些未知或遗漏的数值68数据挖掘的功能分类和预测23数据挖掘的功能聚类分析类标号(Classlabel)未知:对数据分组,形成新的类。例如,对房屋分类,找出分布模式聚类原则:最大化类内的相似性,最小化类间的相似性69数据挖掘的功能聚类分析24数据挖掘的功能孤立点(Outlier)分析孤立点:一个数据对象,与数据的一般行为不一致孤立点可以被视为例外,但对于欺骗检测和罕见事件分析,它是相当有用的趋势和演变分析趋势和偏离:回归分析序列模式挖掘,周期性分析基于相似的分析其它基于模式或统计的分析70数据挖掘的功能孤立点(Outlier)分析25数据挖掘:多学科交叉数据库机器学习统计分析可视化其它高性能计算信息检索DataMining71数据挖掘:多学科交叉数据库机器学习统计分析可视化其数据挖掘的分类一般功能描述式数据挖掘预测式数据挖掘不同的角度、不同的分类待挖掘的数据库类型待发现的知识类型所用的技术类型所适合的应用类型72数据挖掘的分类一般功能27数据挖掘从不同角度的分类73数据挖掘从不同角度的分类28数据挖掘从不同角度的分类所用技术面向数据库的、数据仓库(OLAP)、机器学习、统计学、可视化、神经网络等适合的应用零售、电讯、银行、欺骗分析、DNA挖掘、股票市场分析、Web挖掘、Web日志分析等74数据挖掘从不同角度的分类所用技术29数据仓库与数据挖掘动机:为什么要进行数据挖掘数据挖掘的步骤数据挖掘在什么数据上进行数据挖掘功能和分类一些新的研究方向75数据仓库与数据挖掘动机:为什么要进行数据挖掘30Web挖掘WebMiningWebUsageMiningAgentBasedApproachDatabaseApproach智能查询信息过滤/分类个性化Web多层次数据库Web查询系统预处理事务标识模式发现模式分析WebStructureMiningWebContentMining76Web挖掘WebMiningWebUsageMininWeb使用挖掘WebUsageMining是在Web数据存储地中应用数据挖掘技术抽取使用模式的方法数据预处理用户使用页面关联、用户分类、用户聚类、…应用个性化站点改进……77Web使用挖掘WebUsageMining是在Web数文本挖掘文本挖掘=数据挖掘(应用于文本存储地)+基本语言学文本预处理(无结构数据结构化)词法/语义分析特征生成BagofWords特征选择频度、TFIDF、共现等数据挖掘文本分类、聚类等分析结果文本文本预处理文本转换特征选择数据挖掘解释78文本挖掘文本挖掘=数据挖掘(应用于文本存储地)+基本语言学文观点、情感挖掘观点挖掘(OpinionMining)是一种从论坛、讨论组、新闻组、博客等用户产生的内容中挖掘其表达观点的技术。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025 高中信息技术数据与计算之数据在社交媒体用户信任网络分析中的应用课件
- 社区春季健康防护课件
- 农业遥感监测技术及应用
- 绿色农产品标准化生产与质量管控体系
- 2026年eVTOL应急救援场景任务规划与调配
- 2026年理财公司 消费金融公司 汽车金融公司纳入列举范围的法律适用
- 2026年智能监测防走失设备与陪伴机器人开发路径
- 2026年电网末端季节性过载地区储能应急保供方案
- 2026年海外仓员工绩效考核与计件工资设计方案
- 2026年热塑性淀粉TPS与淀粉基聚合物共混物改性技术
- 员工自驾车出差报销制度
- 2026年安庆医药高等专科学校单招职业适应性测试题库及参考答案详解(新)
- 2026年安徽审计职业学院单招职业技能测试题库参考答案详解
- 2026年3月广西桂林市七星区专职化社区工作者招聘26人考试参考试题及答案解析
- 义务教育道德与法治课程标准日常修订版(2022年版2025年修订)
- 2026年南京交通职业技术学院单招职业适应性考试题库带答案详解
- 婚礼当天详细流程
- 热工与流体力学基础习题集(答案)
- GB/T 8629-2001纺织品试验用家庭洗涤和干燥程序
- GB/T 33598-2017车用动力电池回收利用拆解规范
- 2023年湖南生物机电职业技术学院单招综合素质考试笔试题库及答案解析
评论
0/150
提交评论