大数据知识_第1页
大数据知识_第2页
大数据知识_第3页
大数据知识_第4页
大数据知识_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一 、 搜索“大数据”关键词,查阅有关“大数据”相关资料,写一篇有关“大数据”的认识及其应用的报告。 1、 大数据概念: 大数据 (或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 2、 大数据 简介 : “ 大数据 ” 作为时下最火热的 业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。 早在 1980 年,著名未来学家阿尔文 托夫勒便在 第三次浪潮 一书中,将大数据热情地赞颂为 “ 第三次浪 潮的华彩乐章 ” 。不过,大约从 2009 年开始, “ 大数据 ” 才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出, 互联网 上的数据每年将增长50%,每两年便将翻一番,而目前世界上 90%以上的数据是最近几年才产生 的。此外,数据又并非单纯指人们在 互联网 上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息 。 大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的 “ 加工能力 ” ,通过 “ 加工 ” 实现数据的 “ 增值 ” 。且 中国物联网校企联盟 认为, 物联网 的发展离不开大数据,依靠大数据可以提供足够有利的资源 。 随着 云时代 的来临,大数据( 吸引了越来越多的关注。 著云台 的分析师团队认为,大数据( 常用来形容一个 公司 创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时 间和金钱。大数据分析常和 云计算联系到一起,因为实时的大型数据集分析需要像 百或甚至数千的电脑分配工作。 3、大数据的领域: 大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。 大数据的 4个 “V” ,或者说特点有四个层面: 第一,数据体量巨大。从 升到 第二,数 据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。 第三,价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。 第四,处理速度快。 1秒定律。最后这一点也是和传统的 数据挖掘技术 有着本质的不同。 业界将其归纳为 4个 “V” 4、 大数据技术: 大数据需要特殊的技术,以有效地处理 大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模 并行处理 ( 据库、数据挖掘电网、 分布式文件系统 、 分布式数据库 、 云计算平台 、互联网和可扩展的 存储系统 。 大数据技术分为整体技术和关键技术两个方面。 ( 1)整体技术 数据采集: 具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到 数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。 数据存取: 关系数据库、 基础架构: 云存储、分布式文件存储等。 数据处理: 自然语言处理 (研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机 理解 自然语言,所以自然语言处理又叫做自然语言理解 (也称为计算语言学 (方面它是语言信息处理的一个分支,另一方面它是人工智能 (核心课题之一。 统计分析: 假设检验、显著性检验、差异分析、相关分析、 差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、 归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、 术等等。 数据挖掘: 分类 ( 估计( 预测( 相关性分组或关联规则( or 聚类( 描述和可视化、 复杂数据类型挖掘 (图形图像,视频,音频等 ) 模型预测: 预测模型、机器学习、建模仿真。 结果呈现: 云计算、标签云、关系图等 。 ( 2) 关键技术 大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。 大数据采集技术 : 数据是指通过 频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术;突破高速数据解析、转 换与装载等大数据整合技术;设计质量评估模型,开发数据质量技术。 大数据采集一般分为大数据智能感知层:主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。基础支撑层:提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点攻克分布式虚拟存储技术,大数 据获取、存储、组织、分析和决策操作的可视化接口技术,大数据的网络传输与压缩技术,大数据隐私保护技术等。 大数据预处理技术 : 主要完成对已接收数据的辨析、抽取、清洗等操作。 1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。 2)清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤 “去噪 ”从而提取出有效数据。 大数据存储及管理技术 : 大数据存储与管理要 用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统( 能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术,异构数据的数据融合技术,数据组织技术,研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。 开发新型数据库技术,数据库 分为关系型数据库、非关系型数据库以及数据库缓存系统。其中,非关系型数据库主要指的是 据库,分为:键值数据库、列存数据库、图存数据库以及文档数据库等类型。关系型数据库包含了传统关系数据库系统以及 据库。 开发大数据安全技术。改进数据销毁、透明加解密、分布式访问控制、数据审计等技术;突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。 大数据分析及挖掘技术 : 大数据分析技术。改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对 象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘涉及的技术方法很多,有多种分类法。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源 、多媒体数据库、异质数据库、遗产数据库以及环球网 据挖掘方法分,可粗分为 :机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为 :归纳学习方法 (决策树、规则归纳等 )、基于范例学习、遗传算法等。统计方法中,可细分为 :回归分析 (多元回归、自回归等 )、判别分析 (贝叶斯判别、费歇尔判别、非参数判别等 )、聚类分析 (系统聚类、动态聚类等 )、探索性分析 (主元分析法、相关分析法等 )等。神经网络方法中,可细分为 :前向神经网络 (法等 )、自组织神经网络 (自组织特征映射、竞争学习等 )等。数据库方法主要是多维数据分析或 法,另外还有面向属性的归纳方法。 从挖掘任务和挖掘方法的角度,着重突破: 据可视化无论对于普通用户或是数据分析专家,都是最基本的功能。数据图像化可以让数据自己说话,让用户直观的感受到结果。 像化是将机器语言翻译给人看,而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据,挖掘价值。这些算法一定要能够应付大数据的量,同时还具有很高的处理速度。 测性分析可以让分析师根据图像化分析和数据挖掘的结果 做出一些前瞻性判断。 义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。 据质量与管理是管理的最佳实践,透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。 大数据展现与应用技术 : 大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供依据,从而提高各个领域的运行效率,大大提高整个社会经济的集约化程度。在我国,大数据将重点应用于以下三大领域: 商业智能 、政府决策、公共服务。例如: 商业智能 技术,政府决策技术,电信数据信息处理与挖掘技术,电网数据信息处理与挖掘技术,气象信息分析技术,环境监测技术,警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统),大规模基因序列分析比对技术, 息挖掘技术,多媒体数据并行化处理技术,影视制作渲染技术,其他各种行业的云计算和海量数据处理应用技 术等。 5、大数据的 换算关系 大数据的 最小 基本单位是 顺序给出所有单位: B、 它们按照进率 1024( 2的十次方)来计算: 1 8 1 1,024 1,024 1,048,576 1 1,024 1,048,576 1,024 1,048,576 1 1,024 1,048,576 1,024 1,048,576 1 1,024 1,048,576 1,024 1,048,576 1 1,024 1,048,576 1,024 1,048,576 、大数据的应用: 网络日志, 传感器网络 , 社会网络 ,社会数据(由于数据革命的 社会 ),互联网文本和文件 ;互联网搜索索引 ;呼叫详细记录,天文学,大气科学,基因组学, 生物地球化学 ,生物,和其他复杂和 /或跨学科的科研,军事侦察,医疗记录 ;摄影档案馆视频档案 ;和大规模的电子商务 。 7、大数据 的 应用案例 分析: ( 1) 强了该公司的销售、客户报告、洞察力和合规性。 和相关的信息,帮助 时减少了企业的应用程序、数据和 份成本,更在不到一个月的时间就部署完毕。 解决方案将 数据完整且保持最新,完成报表周期所用的时间只是以前所需时间的零头。可以每周、每日甚至实时生成报告,而从前则是 30 天的周期。 数据集成和 时 踪生物医药销售指标和其他促进销售的信息。 o 示 : “ 离了 种灵活易用、基于 集成服务正帮助公司实现数据的巨大回报,推动本来向下的销售上行,最终提高 润。 ” 新西兰最大的金融机构 署在其雄心勃勃的保险项目中,这个项目是一个商业智能环境,帮助金融机构增加收入、留住更多客户、增加交叉销售的潜在客户并降低风险。 系统提供了一个可信业务和保险客户数据的单一来源,有望交出 240 %以上的投资回报,保单的生命周期收入提高至少一个百分点 。 助力 用客户所说的话,从而将客户放在 超过 120 万客户每月进行三百万的在线交易,庞大的数据集带来了复杂的挑战。但是通过部署 台,避免了在孤岛上作出决策。可基于具有高级报告和可视化的全盘信息,在保密情况下通过强大数据治理作出战略决策。 西兰有限公司的保险负责人 : “在财务不确定性的环境中,更快作出决策所需的财务效率和业务洞察是 经解决的挑战。因为有 我们有更好的定位,对更大透明度的需求作出响应,并将公司的客户保险数据资产转化为业务洞察力。 ” 实现最大回报 知,对于很多企业来说,向数据回报模型的转变不会一蹴而就。管理数据并将其成本降低的短期要求将会是首要焦点,同样还需要打破障碍以了解数据。企业只有这时才可以开始从传统和新兴数据 集获得更多价值。 提供数据集成平台和领导力,为企业提供全程帮助。 ( 2)、 15 012年 5月发布智慧分析洞察 “3 ”动态路线图作为基础。所谓 “3 ” ,指的是在 “ 掌握信息 ” ( 基础上 “ 获取洞察 ” ( 进而采取行动( 优化决策策划能够救业务绩效。除此之外,还需要不断地 “ 学习 ” ( 从每一次业务结果中获得反馈,改善基于信息的决策流程,从而实现 “ 转型 ” ( 基于 “3 ” 动态路线图, 出了 “ 大数据平台 ” 架构。该平台的四大核心能力包括统、流计算( 数据仓库( 信息整合与治理( 如下图所示。 在大数据处理领域, 2012 年 10 月推出了 家集成系统的新成员 是 别为 分别应用于 机事务处理)、 机分析处理)和大数据 分析操作。与此前发布的 统提供内置的专业知识、源于设计的集成,以及在其整个生命周期中的简化体验。 ( 3)、 大数据时代的热潮,微软公司生产了一款数据驱动的软件,主要是为工程建设节约资源提高效率。在这个过程里可以为世界节约 40%的能源。抛开这个软件的前景不看,从微软团队致力于研究开始,可以看他们的目标不仅是为了节约了能源,更加关注智能化运营。通过跟踪取暖器、空调、风扇以及灯光等积累下来的超大量数据,捕捉如何杜绝能源浪费。“ 给我提供一些数据,我就能 做一些改变。如果给我提供所有数据,我就能拯救世界。 ” 微软史密斯这样说。而智能建筑正是他的团队专注的事情。 8、大数据在国内的 应用环境: 国内的企业跟美国比较,有一个很重要的特性就是人口基数的区别,中国消费群体所产生的 , 我们需要的是以数据为中心的 答案取决于如何处理的 数据和数据层次结构。在越来越多的虚拟资源中,将这些模型之间所有类型的数据进行最优拟合是 文详细介绍了每个 优点、选择和选项。 型、物理层次结构模型和架构组件模型。 据存取的模型描述了数据是如何提供给 件的。物理模型描述了数据是如何存储的以及存储的层次图是如何传送到 后,架构模型描述了数据、数据管理服务和 件之间的关系。 也许以极限情况为开始是理解 个企业的数据需求完全可以由关系数据库管理系统 (的条款来表示。这样一个企业可能会直接采用数据库设备或者将专用 的数据库服务器和现有的查询服务连接到 件(查询即服务,或 。这种设计理念之前已经被人们所接受。该设计之所以成功是因为它平衡了上述三个模型之间的关系。 是通过一个单一的架构 系型数据库管理系统)。数据去重和完整性便于管理单一的架构。 通过大数据的例子可以更好地理解为什么这个简单的方法却不能在更大的范围内处理数据。多数的大数据是非关系型的、非交易型的、非结构化的甚至是未更新的数据。由于缺乏数据结构因此将其抽象成一个查询服务并非易事, 由于数据有多个来源和形式因此很少按序存储,并且定义基础数据的完整性和去重过程是有一些规则的。当作为大数据引入到 键是要定义三种模型中的最后一种模型, 两种选择:水平方向和垂直方向。 在水平集成数据模型中,数据收集隐蔽于一套抽象的数据服务器,该服务器有一个或多个接口连接到应用程序上,也提供所有的完整性和数据管理功能。组件虽不能直接访问数据,但作为一种即服务形式,就像他们在简单情况下的企业,其数据的要求是纯粹的 用程序组件基 本上脱离了 管由于上述原因这种方法不能创建简单的 是它至少复制了我们上面提到的简单的 垂直集成的数据模型以更多应用程序特定的方式连接到数据服务上,该方式使得客户关系管理、企业资源规划或动态数据认证的应用程序数据很大程度在服务水平上相互分离,这种分离直接涉及到数据基础设施。在某些情况下,这些应用程序或许有可以直接访问存储 /数据服务的 了提供更多统一的数据完整性和管理,管理服务器可以作为 数据库 特定的方式执行常见的任务,如去重和完整性检查。这种方法更容易适应于遗留应用和数据结构 , 但它在问数据何访方式上会破坏 可能产生数据管理的一致性问题。 毫无疑问水平模型更符合 为它更彻底地从 过,为了使其有效,有必要对非关系型数据库进行抽象定义和处理低效率与抽象有关的流程 水平的 决这个问题最常见的方法是以应用于 式的云构架。 及类似的方法可以分发、管理和访问数据,然后集中查询这一分布式信息的相关结果。实际上, 上述问题的一个解决方案是现代分层存储模式。数据库不是磁盘,而是一组相互

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论