商务智能理论与应用2-大数据_第1页
商务智能理论与应用2-大数据_第2页
商务智能理论与应用2-大数据_第3页
商务智能理论与应用2-大数据_第4页
商务智能理论与应用2-大数据_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据与数据挖掘第二部分分大数数据大数据概概念大数据行行业应用用数据分析析与挖掘掘大数据技技术大数据体体系数据的大大小物理属性性的数据据公斤、公公里、升升等信息属性性的数据据位(Bit)是量度信信息的基基本单位位,只有有0、1两种二进进制状态态。8位(bit)组成一个个字节(1Byte,8bit),能够容容纳一个个英文字字符,而而一个汉汉字需要要两个字字节(2Byte,16bit)的存储空空间。一页书籍籍:10KB一张低分分辨率照照片:100KB一次胸透透视:10MB一张CD光盘:500MB一部高质质量电影影:1GB大数据何为大??—数据度量量1Byte==8bit1KB==1,024Bytes1MB==1,024KB==1,,048,576Bytes1GB==1,024MB==1,,048,576KB==1,,073,741,824Bytes1TB==1,024GB==1,,048,576MB==1,,099,511,627,,776Bytes1PB==1,024TB==1,,048,576GB==1,125,,899,906,842,,624Bytes1EB==1,024PB==1,,152,921,504,,606,846,976Bytes1ZB==1,024EB==1,,180,591,620,,717,411,303,,424Bytes1YB==1,024ZB==1,,208,925,819,,614,629,174,,706,176Bytes练习题3PB==(??))GB假设《红楼梦》含标点87万字(不不含标点点853509字),1GB约等于((?)部部红楼梦梦?1TB约等于((?)部部?美国国会会图书馆馆藏书((151,,785,778册)(2011年4月:收录录数据235TB),1EB==(?)倍倍美国国国会图书书馆存储储的信息息量大数据时时代的到到来主要要有以下下一些原原因硬件成本本的降低低网络带宽宽的提升升云计算的的兴起网络技术术的发展展智能终端端的普及及电子商务务、社交交网络、、电子地地图等的的全面应应用物联网大数据时时代的到到来主要要有以下下一些原原因硬件成本本的降低低网络带宽宽的提升升云计算的的兴起网络技术术的发展展智能终端端的普及及电子商务务、社交交网络、、电子地地图等的的全面应应用物联网大数据时时代的到到来主要要有以下下一些原原因硬件成本本的降低低网络带宽宽的提升升云计算的的兴起网络技术术的发展展智能终端端的普及及电子商务务、社交交网络、、电子地地图等的的全面应应用物联网大数据时时代的到到来主要要有以下下一些原原因硬件成本本的降低低网络带宽宽的提升升云计算的的兴起网络技术术的发展展智能终端端的普及及电子商务务、社交交网络、、电子地地图等的的全面应应用物联网大数据时时代的到到来主要要有以下下一些原原因硬件成本本的降低低网络带宽宽的提升升云计算的的兴起网络技术术的发展展智能终端端的普及及电子商务务、社交交网络、电子地地图等的的全面应应用物联网大数据时时代的到到来主要要有以下下一些原原因硬件成本本的降低低网络带宽宽的提升升云计算的的兴起网络技术术的发展展智能终端端的普及及电子商务务、社交交网络、电子地图图等的全全面应用用物联网大数据时时代的到到来主要要有以下下一些原原因硬件成本本的降低低网络带宽宽的提升升云计算的的兴起网络技术术的发展展智能终端端的普及及电子商务务、社交交网络、、电子地地图等的的全面应应用物联网练习题促进大数数据技术术到来的的主要因因素有那那些?大数据时时代的到到来主要要是由于于网上的的数据量量大规模模增加(()大数据不不仅是网网络业的的未来,,而且是是整个社社会和经经济发展展的未来来。早期的大大规模数数据应用用文本资料料的数字字化将文本资资料转化化成数字字信息存存储,可可进行搜搜索,传传播。亚马逊数数字图书书馆文本资料料的数字字化亚马逊的的数字图图书馆地理方位位的数字字化对地理位位置的数数据化需需要满足足一些前前提条件件:需要要能精确确地测量量相关区区域内的的每一块块地方;;需要一一套标准准的标记记体系;;需要收收集和记记录数据据的工具具。简而而言之,,就是地地理范围围、标准准、工具具或者说说量化、、标准化化、收集集。只有有具备了了这些,,才能把把位置信信息当成成数据来来存储和和分析。。莫里斯航航海图表表UPS的快速定定位系统统UPS快递多效效地利用用了地理理定位数数据。为为了使总总部能及及时了在在车辆的的位置和和预防引引擎故障障,它的的货车上上装有传传感器、、无线适适配器和和GPS。这些设设备方便便了公司司监督管管理员工工并优化化行车线线路。UPS为货车定定制的最最佳行车车路径是是根据过过去的行行车经验验总结而而来的。。设计了了尽量少少左转的的路线,,因为左左转要求求货车在在交叉路路口穿过过去,所所以更容容易出事事故。而而且,货货车往往往需要等等待一会会儿才能能左转,,也会更更耗油,,因此,,减少左左转使得得行车的的安全性性和效率率都得到到了大幅幅提升。。社交网络络的发展展简单地说说,社交交网络是是在互联联网上与与其他人人相联系系的一个个平台。。社交交网络站站点通常常围绕用用户的基基本信息息而运作作,用户户基本信信息是指指有关用用户喜欢欢的事、、不喜欢欢的事、、兴趣、、爱好、、学校、、职业或或任何其其他共同同点的集集合。通通常,这这些站点点提供不不同级别别的隐私私控制。。社交网网络的目目标是,,通过一一个或多多个共同同点将一一些人相相互联系系起来而而建立一一个群组组。国外:Facebook,twitterFacebook2012年拥有大大约6.29亿用户,,他们通通过上千千亿的朋朋友关系系网相互互连接。。这个巨巨大的社社交网络络覆盖了了大约10%的全球总总人口。。国内:新新浪微博博,微信信,人人人网社交网络络的理论论基础1967年,哈佛佛大学的的心理学学教授米米尔格伦伦(1934~1984)创立了六六度分割割理论,,简单地地说:““你和任任何一个个陌生人人之间所所间隔的的人不会会超过六六个,也也就是说说,最多多通过六六个人你你就能够够认识任任何一个个陌生人人。”按按照六度度分隔理理论,每每个个体体的社社交交圈都不不断放大大,最后后成为一一个大型型网络。。这是社社会性网网络(SocialNetworking)的早期期理解。。我国社交交网络的的发展E-mail点对点人与人之之间可以以通过电电子邮件件交流BBS点对面BBS将点对点点形式演演变为点点对面,,降低交交流成本本。实现现了个人人的分散散信息向向可共享享的聚合合信息的的进步。。天涯、、猫扑、、西祠胡胡同等产产品都是是BBS时代的典典型企业业。2006年年以前前,资本本主要关关注BBS及博客形形态的社社交网络络产品,,但是后后期来看看,这类类企业的的发展多多不尽人人意。娱乐化社社交网络络2002年,LinkedIn成立;2003年,运用用丰富的的多媒体体个性化化空间吸吸引注意意力的Myspace成立;2004年,复制制线下真真实人际际关系来来到线上上低成本本管理的的Facebook成立中国国社交网网络产品品相也继继出现,,如2005年成立的的人人网网、2008年成立的的开心网网。微信息社社交网络络时代2009年8月,新浪浪推出微微博产品品,用户户

通过过推介及及自行搜搜索等方方式构建建自己的的朋友圈圈,这种种产品迅迅速聚合合了海量量的用户户群,当当然也吸吸引了众众多业者者(如腾讯、、网易、、盛大)的追随。。这种模模式也再再次将广广义社交交网络推推向投资资人视野野。随着移动动互联网网的发展展,微信信息社交交产品逐逐渐与位位置服务务等移动动特性相相结合,,相继出出现微信信等移动动客户端端产品。。垂直社交交网络应应用时代代垂直社交交网络主主要是与与游戏、、电子商商务等相相结合,,是社交交网络探探究商业业模式的的有利尝尝试。清清科研究究中心预预计,垂垂直社交交将成为为社交网网络未来来发展的的主要方方向。根据“社社交网络络分析之之父”贝贝尔纳多多·哈柏曼((BernardoHuberman)的分析析,社交交网络中中单一主主题出现现的频率率可以用用来预测测很多事事情,比比如好莱莱坞的票票房收入入。他和和一位在在惠普实实验室工工作的同同事开发发了一个个程序,,可以用用来监听听微博的的发布频频率,基基于此,,他们就就能预测测一部电电影的成成败,这这往往比比其他传传统评估估预测方方法还要要准确。。网络搜索索技术的的发展Google大数据的的产生供应链原始材料料供应商商11级批发零零售商1半成品/成品供应应商1核心企业业2级批发零零售商1原始材料料供应商商21级批发零零售商1半成品/成品供应应商22级批发零零售商2……………原始采用用供应商商n1级批发零零售商n半成品/成品供应应商n2级批发零零售商n政府部门门电信、税税务、银银行、工工商、房房产、电电力、自自来水等等多个部部门数据据的集成成综合电商供应商、、客户、、商户、、物流叫车出租车、、客户商旅/票务客户、航航空公司司、旅店店、饭店店等哪些属于于大数据据的研究究范畴大数据热热反映出出人们在在猜测追追寻下一一个大创创新交通数据据?社交数据据?电子商务务数据??供应链数数据?企业经营营管理数数据?数据大不不等于大大数据现有设备备,技术术,方法法所能处处理的不不是大数数据数据挖掘掘,精细细化运营营,精准准广告和和个性化化服务推推广不是是未来大大数据服服务商业业模式的的主要部部分大数据的的特征多样性(Variety)数量巨大大(Volume)速度快(Velocity))价值密度度低(Value))大数据的的描述性性定义多样性数据来源源多样性性—超出一种种服务,,一个公公司,一一个地区区数据种类类多样性性—文字,语语音,图图表,图图片,视视频数据对象象多样性性—个人,商商业,社社会,自自然界大数据的的多样性性越高,,潜在价价值就越越大大数据的的操作定定义数量以TB为基本计计量单位位数据间关关系众多多,结构构复杂,,变化多多端大数据的的体量越越大,潜潜在价值值就越大大大数据的的操作定定义传输速度度快处理的数数据是TB级代替了了GB级,““超大规规模数据据”和““海量数数据”也也有规模模大的特特点,但但大数据据更强调调数据的的快速动动态变化化,形成成流式数数据,数数据流动动的速度度快到难难以用传传统的系系统去处处理。价值密度度低数据量呈呈指数增增长的同同时,隐隐藏在海海量数据据的有用用信息却却没有相相应比例例增长,,反而使使我们获获取有用用信息的的难度加加大。以以视频为为例,连连续的监监控过程程,可能能有用的的数据仅仅有一两两秒传统数据据与大数数据的区区别传统数据据硬件条件件IBMSystem

x3100通过4个DIMM插槽,实实现512MB或1

GB/8GBDDRII667

MHz的内存容容量可挂6个500G外部存储储建立服务务器矩阵阵后容量量可增增加需求:腾讯qq邮箱,腾腾讯宣称称有7亿多注册册账号,,有3亿多活跃跃账号,,平均每每人100G空间

传统数据据传统的数数据采集集来源单单一,且且存储、、管理和和分析数数据量也也相对较较小,大大多采用用关系型型数据库库和并行行数据仓仓库即可可处理。。传统的数数据处理理方法是是以处理理器为中中心,而而大数据据环境下下,需要要采取以以数据为为中心的的模式,,减少数数据移动动带来的的开销。。因此,,传统的的数据处处理方法法,已经经不能适适应大数数据的需需求!传统数据据与大数数据的区区别传统数据据与大数数据的区区别传统数据据处理结构构化数据据结构化数数据,简简单来说说就

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论