版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章绪论信息爆炸与大数据原始时期农业社会工业社会2原子时代信息时代人类已进入一个崭新的信息时代3信息社会计算机互联网大数据感知智能……数据量呈现出指数增长的态势4大数据的概念520世纪90年代,数据仓库之父BillInmon,经常提及BigData2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念。所以,很多人认为,2011年是大数据元年。大数据的特点数据的体量巨大6大数据的特点数据的体量巨大数据类型繁多7大数据的特点数据的体量巨大数据类型繁多商业价值高,而价值密度却较低8大数据的特点数据的体量巨大数据类型繁多商业价值高,而价值密度却较低数据产生速度快9大数据的概念10数据的体量巨大数据类型繁多商业价值高,而价值密度却较低数据产生速度快处理速度快大数据的特点数据的体量巨大数据类型繁多商业价值高,而价值密度却较低数据产生速度快数据的真实性数据的波动性数据的复杂性11大数据的特点12大数据的特点13大数据的概念14体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。"大数据"的概念远不止大量的数据和处理大量数据的技术,或者所谓的"4个V"之类的简单概念,而是涵盖了人们在大规模数据的基础上可以做的事情,而这些事情在小规模数据的基础上是无法实现的。换句话说,大数据让我们以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力。"大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,"大数据"指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。大量信息带来问题信息过量,难以消化信息真假难以辨识信息安全难以保证信息形式不一致,难以统一处理大量信息带来问题信息不处理就成为“信息垃圾”各行业各领域政府、企业等组织也滋生出信息处理、数据处理的需求提升管理提升服务提升竞争力16商业企业要处理信息大量数据被收集、存储在数据库\数据仓库中Web数据,电子商务商场,实体店银行/信用卡业务数据竞争压力越来越大提供更好的、更为突出的个性化服务(例如CRM)计算机越来越便宜,功能越来越强大17科研院所要处理信息数据以极快的速度收集和存储(GB/hour)卫星上的远程传感器射电望远镜空间扫描产生基因表达数据的微阵列科学仿真(产生以TB计的数据量)数据挖掘可能帮助科学家进行数据的分类和划分生成假设传统的技术难以处理这些海量原始数据18金融机构要处理信息积累了海量的业务数据互联网金融业务银行卡/信用卡交易数据国民经济运行数据通过数据处理和应用,完成电信欺诈预警反洗钱个性化服务19信息处理的理论与技术发展数据库技术与系统可以高效地实现数据的录入、查询、统计等功能但无法发现数据中存在的关系和规则无法根据现有的数据预测未来的发展趋势20随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多;海量数据被收集、存放在大型数据库中,且呈快速增长的趋势;如果不进行处理和利用,则成为“数据坟墓”。信息处理的理论与技术发展专家系统由于专家系统工具过分依赖用户或专家人工地将知识输入知识库中,而且分析结果往往带有偏差和错误,再加上耗时、费用高,故不可行。21专家系统:智能计算机程序系统,管理大量的某领域专家水平的知识与经验,能够利用人类专家的知识和解决问题的方法来处理该领域问题。专家系统是一个具有大量的专门知识与经验的程序系统,应用人工智能技术和计算机技术,根据某领域一个或多个专家提供的知识和经验,进行推理和判断,模拟人类专家的决策过程,以便解决那些需要人类专家处理的复杂问题,简而言之,专家系统是一种模拟人类专家解决领域问题的计算机程序系统。信息处理的理论与技术发展KDD(KnowledgeDiscoveryinDatabase)从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程22数据矿山信息金块数据挖掘工具信息处理的理论与技术发展KDD的发展23基于数据库的知识发现(KDD)一词首次出现在国际人工智能联合大会IJCAI-89Workshop上。19891995第一届KDD国际学术会议(KDD’95)加拿大蒙特利尔召开1997第一本学术刊物《KnowledgeDiscoveryandDataMining》创刊KluwersPublishers出版信息处理的理论与技术发展KDD的内容数据分类数据聚类衰退和预报关联和相关性顺序发现描述和辨别时间序列分析24信息处理的理论与技术发展KDD的过程问题的理解和定义相关数据收集和提取数据探索和清理数据工程算法选择运行数据挖掘算法结果的评价25信息处理的理论与技术发展KDD也会被称为数据挖掘(datamining)知识抽取(informationextraction)信息发现(informationdiscovery)智能数据分析(intelligentdataanalysis)探索式数据分析(exploratorydataanalysis)信息收获(Informationharvesting)数据考古(dataarchaeology)26KDDvs数据挖掘数据挖掘是KDD过程的一个基本步骤包括特定的从数据库中发现模式的挖掘算法KDD过程使用数据挖掘算法根据特定的度量方法和阈值从数据库中提取或识别出知识包括对数据库的预处理、样本划分和数据变换。27商业数据到商业信息的进化
进化阶段商业问题支持技术产品厂家产品特点数据搜集
(60年代)过去五年中我的总收入是多少?计算机、磁带和磁盘IBMCDC提供历史性的、静态的数据信息数据访问
(80年代)在新英格兰的分部去年三月的销售额是多少?关系数据库(RDBMS)结构化查询语言(SQL)ODBCOracleSybaseInformixIBMMicrosoft在记录级提供历史性的、动态数据信息数据仓库决策支持
(90年代)在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?联机分析处理(OLAP)多维数据库数据仓库PilotComshareArborCognosMicrostrategy在各种层次上提供回溯的、动态的数据信息数据挖掘
(正在流行)下个月波士顿的销售会怎么样?为什么?高级算法多处理器计算机海量数据库PilotLockheedIBMSGI其他初创公司提供预测性的信息数据挖掘的发展趋势视频和音频数据挖掘科学和统计数据挖掘数据挖掘的应用探索可伸缩的数据挖掘方法数据挖掘与数据库系统、数据仓库和Web数据库系统的集成数据挖掘语言的标准化可视化数据挖掘复杂数据类型挖掘的方法Web挖掘数据挖掘中的隐私保护与信息安全end30数据挖掘的产生:数据vs信息随着大数据库的建立和海量数据的不断涌现,必然提出对强有力的数据分析工具的迫切需求。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象,也就是现实情况的“数据十分丰富,而信息相当贫乏”。需要从海量数据库和大量繁杂信息中提取有价值的知识,进一步提高信息的利用率挖掘大型数据集:动机常常有些信息“隐藏”在数据中,并非显而易见的人分析需要数周\数月,才能发现有用的信息许多数据根本未曾分析过32TheDataGapKDD、DM出现产生了一个新的研究方向:基于数据库的知识发现KDD(KnowledgeDiscoveryinDatabase),以及相应的数据挖掘DM(DataMining)理论和技术的研究KDD已成为人工智能研究热点目前,关于KDD的研究工作已经被众多领域所关注,如过程控制、信息管理、商业、医疗、金融等领域。作为大规模数据库中先进的数据分析工具,KDD的研究已经成为数据库及人工智能领域研究的一个热点。发展:数据挖掘的发展过程1988ExpertSystems19951990ExpertSystems2004……数据挖掘界简史1989IJCAIWorkshoponKnowledgeDiscoveryinDatabases(Piatetsky-Shapiro)KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994WorkshopsonKnowledgeDiscoveryinDatabasesAdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998InternationalConferencesonKnowledgeDiscoveryinDatabasesandDataMining(KDD
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 老年糖尿病患者的个体化沟通方案
- 油制氢装置操作工风险识别评优考核试卷含答案
- 变压器试验工操作评估测试考核试卷含答案
- 高压试验工岗前决策判断考核试卷含答案
- 胶印版材生产工岗前技术改进考核试卷含答案
- 脂肪醇胺化操作工发展趋势竞赛考核试卷含答案
- 棉花加工工岗前核心管理考核试卷含答案
- 玩具设计师岗前安全综合考核试卷含答案
- 石作文物修复师创新思维能力考核试卷含答案
- 老年神经外科手术麻醉风险评估工具
- 四川省攀枝花市2025-2026学年八年级上学期期末数学检测(含答案)
- 2026年吉林大学附属中学公开招聘教师备考题库(4人)及参考答案详解
- 2026中国电信四川公用信息产业有限责任公司社会成熟人才招聘备考题库参考答案详解
- 2025年大学旅游管理(旅游服务质量管理)试题及答案
- 打捆机培训课件
- 穿越机组装教学课件
- GB/T 26332.3-2015光学和光子学光学薄膜第3部分:环境适应性
- GB/T 17626.4-2008电磁兼容试验和测量技术电快速瞬变脉冲群抗扰度试验
- GB/T 15153.1-1998远动设备及系统第2部分:工作条件第1篇电源和电磁兼容性
- GB 22021-2008国家大地测量基本技术规定
- GA/T 1193-2014人身损害误工期、护理期、营养期评定规范
评论
0/150
提交评论