




已阅读5页,还剩18页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章大数据分析与可视化,商务智能与数据挖掘,高等教育出版社2020/6/6,商务智能与数据挖掘,学习目的,了解大数据时代下数据挖掘的特点了解和掌握常用的大数据挖掘平台掌握大数据可视化的开发工具,商务智能与数据挖掘,高等教育出版社2020/6/6,主要内容,7.1大数据时代的数据挖掘一、大数据时代数据挖掘的特点,大数据挖掘以数据仓库为基础,采用机器学习算法,自动发掘知识。因此大数据挖掘是传统数据挖掘的演化,是传统手工业式数据分析的现代化大工业形式。其主要处理来自三方面的数据一是为满足应用需求所产生的数据。二是应用系统衍生的行为产生的数据,互联网产生的关联数据等。三是运行机器产生的大量日志数据,如网络爬虫爬取的大量非结构化文本数据等。,二、大数据挖掘与传统数据挖掘的区别,传统数据挖掘是在有限的数据中寻找有价值的规律,而大数据挖掘更多的体现了数据的“高维、海量和实时”的特点。传统数据挖掘主要是对数值进行处理,通常无法实现对词语、图片和观察结果等非结构化数据进行处理。而大数据挖掘更多的是处理非结构化和半结构化数据。传统数据挖掘主要通过数据抽样的方法,从假设到验证来分析数据之间的关系。而大数据挖掘则是以全部数据作为样本量,采用机器学习的算法来分析数据之间可能存在的直接和间接的关系,自动发觉知识的过程。,7.2大数据挖掘平台,一、ApacheHadoop,ApacheHadoop是一款支持数据密集型分布式应用的开源软件框架。它可以运行于由相对便宜的服务器构建的大型集群之上。Hadoop是Apache社区根据Google公司发表的MapReduce编程框架和Google文件系统的相关论文再次实现的编程框架。现在普遍认为整个ApacheHadoop“平台”包括Hadoop内核、MapReduce、Hadoop分布式文件系统以及一些相关项目,有ApacheHive和ApacheHBase等等。在大数据处理与挖掘中,核心是HDFS(HadoopDistributedFileSystem,Hadoop分布式文件系统)和MapReduce。,HDFS的关键元素包括:(1)NameNode:存储整个文件系统的目录信息、文件信息及分块信息。(2)DataNode:分布在廉价的计算机上,用于存储Block块文件,Block为文件的小型分块,通常是64M。,图7.1HDFS结构图,MapReduce为HDFS的上一层引擎,该引擎由JobTrackers和TaskTrackers组成。MapReduce是一套从海量数据源提取分析元素最后返回汇总结果集的编程模型。其基本工作原理为:首先将文件分布式地存储到集群中服务器的硬盘,然后从海量数据中提取分析需要的内容。MapReduce和分布式文件系统的设计,使得整个框架能够自动处理节点故障。,图7.2MapReduce处理流程,二、ApacheSparkApacheSpark是一个开源集群运算框架,最初是由加州大学伯克利分校AMPLab所开发,被普遍认为是当前最流行的大数据挖掘平台。Spark使用了分布式内存内运算技术,能在数据尚未写入硬盘前在分布式内存内完成分析与运算。Spark在内存中运行程序的运算速度能比Hadoop的MapReduce运算速度提高100倍。Spark允许用户将数据加载至集群服务器的分布式内存,并多次对其进行快速查询,非常适合用于机器学习中的迭代式算法。,图7.3Hadoop与Spark运行Logistic回归的时间对比,ApacheSpark一般来说,使用Spark需要搭配集群管理员系统和分布式存储系统。Spark支持独立模式(本地Spark服务器集群)、HadoopYARN或ApacheMesos的集群管理模式。在分布式存储方面,Spark可以和HadoopHDFS、Cassandra、OpenStackSwift和AmazonS3等接口配合使用。Spark中专门用于大数据挖掘的库为MLlib,其中实现了最常用的机器学习算法,同时也包括相关的测试和数据生成器。MLlib目前支持四种常见的机器学习算法:二分类、线性回归、聚类以及协同过滤,同时MLlib底层也包括了一个数学优化算法中的梯度下降优化库。,三、MahoutMahout是ApacheLucene社区中的对机器学习感兴趣开发人员开发成立的。扩展机器学习领域的经典算法,以便开发人员能够更加快速有效的创建智能应用程序是Mahout的使命。具体来说,Mahout的核心功能主要包括:(1)协同过滤:TasteCF。Taste为SeanOwen在SourceForge上发起的一个针对协同过滤的开源项目,于2008年被赠予Mahout。(2)聚类算法:包括k-Means、模糊k-Means、Canopy、Dirichlet和Mean-Shift。(3)分类算法:DistributedNaiveBayes和ComplementaryNaiveBayes分类实现。(4)针对进化编程的分布式适用性功能。(5)Matrix和矢量库。,7.3大数据安全与隐私,一、数据采集安全数据的采集环节是指数据的采集和汇聚,安全问题则主要是指数据汇聚过程中的传输安全。一般来说,数据传输的安全主要有以下几点要求:保密性、完整性、防攻击。数据加密技术是数据传输工作中保障数据传输安全的最有效办法。主要可以通过以下技术手段来实现:1.目的端的身份认证。2.数据加密和解密。,图7.5对称加密和非对称加密过程,二、数据存储安全大数据的重点是如何利用数据,即对数据的分析和处理,因此大数据的存储安全十分重要。对于大数据存储安全,主要应做到隐私保护、数据加密以及数据的备份和恢复等。隐私保护目前基于数据存储的隐私保护技术主要可以通过三种方式:(1)数据变换(2)数据加密的隐私保护(3)数据的匿名化处理数据的加密数据的备份和恢复(1)异地备份(2)独立磁盘冗余阵列(RAID)(3)数据镜像,三、数据挖掘安全,2016年,雅虎正式承认泄露5亿用户账户数据事件,时间距泄露事件的发生,已经过去两年。2014年底,来自纽约的罗纳德施瓦兹代表所有美国受到影响的雅虎用户起诉雅虎,要求其对用户信息泄露事件进行赔偿。经FlashPoint证实,有2亿雅虎用户数据在深网出售,这些数据包含了用户的姓名、邮件地址、电话号码以及用户加密和未加密的安全提示问题及答案。出售的用户信息之完整,令人咂舌。如何处理大数据挖掘过程中的隐私保护是当前需要解决的重要问题。,1.集中式环境下隐私保护数据挖掘。集中式环境下多采用传统的数据挖掘方法,隐私保护则多采用数据干扰技术。2.分布式环境下隐私保护数据挖掘。在分布式数据挖掘环境中,数据分布式存储在多个站点上,各数据站点希望在全局数据上进行数据挖掘,却不愿直接将自己持有的数据与其它站点共享。为此,需要设计一些基于安全多方计算的信息交流协议。,四、大数据隐私的法规保障大数据的运作模式是以收集信息为前提的,但大数据对个人生活隐私的影响,在一定程度上影响了个人的生活秩序和社会秩序。加强大数据隐私的法规保障具有十分重要的意义。1.建立综合立法模式。2.明确个人的数据权利。3.提升数据控制者的责任和义务,增强风险防御能力。4.完善“通知-同意”法律规则,7.4大数据可视化,一、大数据可视化概述,大数据可视化的概念和相关技术来源于人们对数据可视化的拓展和探索,即是将数据、模型和分析结果以图表等可观形式呈现出来的过程。可视化,顾名思义,将抽象的事物转化为可观测的实体,计算机科学中将其定义为:利用对数据可视表达的技术,通过人机交互,以增强人对问题和数据的感知。可视化的基本要素可提炼为:表达、交互、感知。相对应地,数据可视化技术的关键问题则在于:如何将数据表达为人眼可观的、认知可理解的图像形式;何种形式的可视化图形更有利于数据表达和人机交互;又怎样帮助人们感知实际问题,理解数据和模型。实现信息的交流和传播是数据可视化的基本任务,而就在本节所讨论的商务智能领域中,数据可视化的最终目标是实现更多信息化支撑的商务决策。因此,不是所有数据都必须可视化,对关键信息的合理表达才是商务智能中成功实现数据可视化的途径。,二、大数据可视化的发展历史及研究现状数据可视化的研究工作可追溯到18世纪,在统计学的基础上,人们利用多元化图形手段开始表现数据结构,当时普遍使用的折线图、柱状图、饼图等形式依然沿用至今,成为简单常用的数据可视化手段。而作为一个正式学科分支被研究学者开始重视,是在上世纪七八十年代,美国国家科学基金提出“数据可视化”的概念,随后的九十年代开始,IEEE每年举办的“可视分析科学与技术”会议(IEEEconferenceonvisualanalyticsscienceandtechnology,IEEEVAST)使数据可视化研究日渐成为重要的热点话题之一。随着信息社会的到来,特别是社交网络和移动互联的兴起与发展,对数据处理和呈现的要求也越来越高,面向大规模、动态、多维、异构的可视化处理技术成为重要的研究方向。技术层面的诸多方法逐渐从数据可视化向大数据可视化演变,旨在将计算机的数据处理挖掘能力与人的认知能力有效联系起来,以获得对大规模数据问题的清楚认识。,三、大数据可视化基础大数据可视化流程及方法大数据可视化技术的设计标准包含正确、易懂和美观的原则。在此基础上,大数据可视化的流程可概括为五个方面:构建问题、确定显示的信息指标、数据处理、图表类型选择、关键信息分析。在开始创建一个大数据可视化项目时,首先,要明确回答可视化目的这一问题,即这个可视化形式和结果将如何帮助决策者。其次,要在明确可视化目的的基础上,确定需要显示的有助于决策者理解的信息指标,同时进行数据处理,并以恰当的图表类型形成最终的可视化图表。最后,要对可视化图表中的关键信息进行分析,并加以修饰和标注,以着重表现该大数据可视化项目所关心的要素,以便决策者一目了然地获取知识和信息。在以上流程中,大数据可视化的理论基础可以归结为原始数据的分析和数据视觉的转化,相关的模型与方法在这两个方面建立起来。,开发工具与编程语言以下为几个主流的大数据可视化工具,主要是帮助用户完成数据视觉的转化,特别是在面向商务智能领域中发挥了巨大的作用。TableauSpotfirePalantirPlotlyProcessing除此之外,编程语言在大数据可视化中拥有更灵活和更强大的能力。RPython,四、商务智能中的大数据可视化技术例如,淘宝的数千万用户每天产生的商品交易数据多达50TB,且呈现出明显的跨媒体特性,文本、图像、视频、标签等形式交织在一起。这一特点催生了大数据可视化的研究和开发。美国电子商务网站eBay联合加州大学合作研究了基于网页点击流数据的可视化分析,使用者可以清晰地看到客户对应聚类的统计信息,将相似模式的客户进行分组,并从图像中解释各因素与客户行为的关联。大数据可视化带来的数据价值,不是任何密密麻麻数字罗列的报表所能企及的。除此之外,在商务智能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025企业电子产品购销合同
- 2025聘用合同书(参考文本适用于返聘人员)
- 2025酒店股权转让合同范本
- 浙江省宁波市镇海中学浙教版高中信息技术教学设计:Photoshop制作贺卡
- 第8课 体验活字印刷说课稿-2023-2024学年小学劳动六年级下册川民版《劳动教育》
- 甘肃公考真题2025
- 财务报表的格式设置与公式定义说课稿-2025-2026学年中职专业课-会计信息化-财经类-财经商贸大类
- 淄博事业单位笔试真题2025
- 五指山事业单位笔试真题2025
- 阿克苏事业单位笔试真题2025
- 浴室工程施工组织设计方案
- 2024年秋九年级化学上册 第3单元 物质构成的奥秘 课题3 元素 第1课时 物质是由元素组成的说课稿 (新版)新人教版
- 微商基础培训课件
- ISO9001:2024版质量手册资料
- 2023-2024年社会工作者之初级社会综合能力考试题库
- 2025年慢性阻塞性肺疾病全球创议GOLD指南修订解读课件
- 民族宗教团日活动
- 新娘化妆相关知识考核试题及答案
- 食品生产监管能力大比武理论考试题及答案
- 二年级家长会课件下载
- 《PLC应用技术(西门子S7-1200)第二版》全套教学课件
评论
0/150
提交评论