本科毕业论文--大数据时代电子商务的挑战与机遇研究_第1页
本科毕业论文--大数据时代电子商务的挑战与机遇研究_第2页
本科毕业论文--大数据时代电子商务的挑战与机遇研究_第3页
本科毕业论文--大数据时代电子商务的挑战与机遇研究_第4页
本科毕业论文--大数据时代电子商务的挑战与机遇研究_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本科生毕业设计(论文)PAGEII目录TOC\o"1-4"\h\z\u摘要 1Abstract II第1章绪论 11.1选题背景与意义 11.2电子商务的发展现状 21.3我国电子商务的发展阶段 31.3.1电子商务的PC互联时代 31.3.2电子商务的移动互联时代 41.3.3电子商务的大数据时代 41.4研究方法与主要研究内容 5第2章电子商务的大数据时代 62.1电子商务大数据时代概述 62.2电子商务大数据时代的特点 82.2.1数据量大 82.2.2数据类型多样 92.2.3数据处理速度快 102.2.4数据价值密度低 102.3电子商务大数据时代的SWOT分析 112.3.1优势分析 112.3.2劣势分析 122.3.3机会分析 122.3.4威胁分析 132.4电子商务大数据时代的发展前景 13第3章电子商务大数据时代面对的问题与挑战 163.1企业对大数据的认知程度 163.2竞争情报系统的数据处理能力 173.3竞争情报体系组织模式 183.4相应的问题解决方案分析 18第4章电子商务大数据时代的机遇 204.1重构精准营销模式 204.2大数据时代电商IT基础设施的变革 224.3大数据处理模式 224.4信息检索服务的强大性 244.5处理能力快速性 254.6数据分析的精准性 254.7信息的安全服务 25第5章阿里巴巴电子商务大数据时代实证分析 275.1阿里大数据信息采集与推送 275.2阿里大数据战略发展历程 285.2.1数据产品战略 285.2.2数据平台战略 285.3阿里大数据战略存在的安全隐患及解决对策 29结束语 30致谢 31参考文献 32 本科生毕业设计(论文)PAGE30第1章绪论1.1选题背景与意义根据IDC机构的定义,“大数据”是指为了更经济、更有效地从高频率、大容量、不同结构类型的数据中获取有价值的信息而设计的新一代架构技术,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展创新。十年之前,电影《天下无贼》中的经典对白“21世纪什么最贵?人才”被人们争相传颂;十年之后,这个问题的答案与时俱进地变为当前市场热点——数据!当然,此数据已非传统意义的数据,而是海量、爆发式增长的“大数据”。作为继云计算、物联网之后IT产业的又一次颠覆性技术浪潮,大数据被人们视为智慧城市的源泉、精准营销的根基,其与传统BI究竟有何区别?未来企业应该如何挖掘海量数据背后的潜在价值?自2009年以来,从IBM、甲骨文到谷歌、亚马逊、Facebook,从IDC、Gartner到麦肯锡、普华永道、埃森哲,从《纽约时报》到《福布斯》、《财富》周刊,从《科学》、《自然》杂志到MIT《斯隆管理评论》——产业巨头的实践探索、连篇累牍的新闻报道,令“大数据”概念深入人心。顾名思义,“大数据”的精髓在于“大”,其不仅说明数据的数量庞大,还意味着数据种类繁多、结构复杂,变化速度飞快。大数据呈现三种特性:Volume(极多的数据量)、Velocity(极快的处理速度)、Variety(极繁的数据种类)。Volume指的是数据量庞大。如今有许多企业已面临单日数据量以数十、数百TB(万亿字节,1TB=1024GB)的速度增加,而近几年累加的总数据量也达到了PB(1000个TB)甚至EB(一百万个TB)等级,这样的数据量令传统的数据库不堪重负。Velocity指企业数据增加的速度越来越快。诸如移动“大数据”成就“智慧营销”产业聚焦EstateFocus、社交网络的广泛应用,使得数据增加的速度比传统的应用程式快了很多,而在数据迅猛增生的背后,处理、分析的能力和速度必须紧跟其后加以完善。Variety则是指数据的多样性、复杂性。一方面,互联网在产生文字资讯的同时,也不断产出与以往不同的数据:照片、视频、微博等;另一方面,IT遍及工作生活的每个角落,各种各样的传感器、监控器也不断产生新的数据,各种机器资讯数据的形式日趋复杂多样,从结构化数据到非结构化数据不断转化,催生了对大数据技术的强烈需求。当前,从搜索引擎、社交网络的普及,到“人手一机”的智能移动终端应用,全球互联网上的信息总量正以每年30%~50%的增速不断爆涨。人们每天在Facebook分享几亿条内容,在Twitter转发15TB信息,在淘宝浏览十亿条店铺、商品,创造上亿的成交、收藏纪录及3000多万条传感器资讯⋯⋯IDC发布的数字宇宙研究报告显示,2011年全球创造的信息数量达到1800EB,如果把这些数据刻录到CD碟片中,这些碟片可环绕地球30圈。而目前这个数字还在以每年50%的速度增长,到2020年,全球每年产生的数字信息将达到40ZB(1ZB=1024EB),估计是地球上所有沙粒数量的57倍。“在大数据时代,信息将呈爆发式增长,而数据价值密度非常低,找到有价值的数据如同大海捞针,通过怎样的产品平台和方式提炼数据价值,是关乎公共事业发展和企业生存的大计,值得大家从战略角度去思索⋯⋯”在2012年百度世界营销分论坛上,百度商业产品与技术执行总监郑子斌关于“大数据”时代的见解,赢得了产业界的广泛认同。1.2电子商务的发展现状随着电子商务的发展,企业开始应用“虚拟购物”手段在众多购物场所开展逼近现实的市场研究,以期借助电脑系统在信息处理方面的优势,用灵活、科学的方法去观察和分析消费行为,加速市场研究过程。根据哈佛商学院研究人员对多种产品销售的分析。“虚拟购物”能获得较为可靠、准确的市场信息,其记录数据与实际购物数据之间的相关系数大多在90%以上。由此看来,“虚拟购物”能够克服传统市场研究手段的缺点,对企业营销大有裨益。但电子商务对营销的影响并不局限在市场研究的范围内。互联网是一个国际性的开放系统,企业一旦涉足其中,就要面对世界各国的潜在顾客即访问者,于是自觉或不觉地成为进行国际营销的国际性企业。这就促使企业特别是以往针对本地市场的中小企业去考虑更为复杂的营销战略问题。根据目前对“在线购物”所进行的研究,企业与顾客在互联网上的交易一般是起源于顾客对企业或产品、服务的寻找,即对互联网上相关企业或产品、服务信息的浏览或访问。这与以往市场交易的起始方向似正相反,从而带来营销及相应经营规则的重大改变:其一,根据顾客的访问信息,企业可以更明确地界定潜在市场。营销的重点,是最大限度地令访问者成为消费者,该项工作也可望因企业在互联网上对多媒体展示内容的巧妙运用而达到很高的成功率;其二,在顾客对企业的访问过程中,双方在互联网上必然产生交互作用,企业因此及时获得顾客对其产品、服务的信息反馈。当这些信息被输入先进的生产经营系统时,就可以用批量处理的效率去提供满足不同顾客需求的产品、服务,实现比批量生产更胜一筹的批量个人化。从一定意义上讲,电子商务的国际化发展,预示着未来企业经营革命的方向。电子商务也对企业管理产生影响。在企业内部管理方面,管理人员以往注重对企业施加充分的控制以完成效率目标。组织结构的设立和办公、生产经营场所的界定,使管理者得以结合等级制进行现场管理控制,控制的主要对象之一,是可以观测到的员工行为。此时企业的经营效率将更多地取决于组织内部的合作沟通情况,而合作沟通又与组织成员之间的信任程度密切相关。类似的情况也出现在企业间及企业外部管理方面。由于外联网的出现,多个企业得以共享国际化、专业化程度高、灵活性强、反应速度快等好处。但是在外联网这种松散的“虚拟”联盟体系中,一个企业很难对其伙伴企业施加那些在合资合作企业和一般战略联盟中行之有效的控制手段,整个外联网运作的成败主要取决于各成员企业之间的相互信任和沟通。然而对于在电子商务方面起步较晚的发展中国家如中国及其企业来说,这一机遇同时也是严峻的挑战。实际上,发达国家的企业在应用电子商务以后,经营过程的资源处理活动相对减少,信息处理活动相对增加;能源应用相对减少,知识应用相对增加。这种向信息、知识密集型经营转换的直接结果,是越来越多的行业出现了类似于“马太效应”的报酬递增竟争机制。从这个角度看,电子商务有可能像过去二三百年间对发端于西方国家的许多重大技术进步的应用那样,在推动人类物质文明进步的同时,也导致发达国家与发展中国家之间在经济发展和企业经营等方面差距的进一步扩大。233671.3我国电子商务的发展阶段1.3.1电子商务的PC互联时代电子商务的起源可以追溯到互联网(Internet)和电子数据交换的出现。前者为电子商务的推广应用奠定了基础;后者是电子商务的初始应用方式,至今仍是电子商务的重要组成部分。60年代末期,美国国防部高级项目管理处建立了联接美国各大学与国防工业合同商之间的电脑网络ARPANE,继而开发了该网络的标准通讯协议TCP/IP。至80年代中期,美国国家科学基金会利用ARPANET的模式形成了自己的电脑网络NSFNE,并逐渐与ARpANET合并。与此同时,诸如Usenet、llTNET,经由各自的电脑系统以共用的交易标准进行商业信息的交换,这就是电子数据交换。70年代中期,美国运输行业制定了Tl)cc交易标准,率先应用这一先进的商务手段。其后美国国家标准局在Tl)CC的基础上制定了ANslX12交易标准,并负责对增值网的合格认证工作,促进了电子数据交换在多个产业部门的应用。近年来,电子数据交换的管道进一步从私人线路和增值网扩展到互联网上。用户急剧增多。据估计,目前全美使用电子数据交换的企业已经超过5万家,到2000年时将达20万家左右,其应用前景由此可见一斑。1993年9月,美国克林顿政府发布规划信息高速公路的行动纲领,将电子商务、远程教学、电子医疗列为三大信息支柱项目,一系列旨在加速信息高速公路建设的公共政策也相继出台,这对推广电子商务的应用有很大的帮助。与此同时,www服务器及相关技术的出现,为企业提供了在互联网上传输内容丰富、栩栩如生的多媒体信息的手段,从而得以在网络上开展内外部经营管理活动,如生产经营管理、人力资源管理、财务管理、营销、咨询服务等。企业界和一般消费者对新一代基于互联网信息技术的逐步接受,也成为电子商务应用的另一种不容忽视的推动力。目前电子商务的内容已经十分广泛,覆盖企业经营的许多个方面。电子商务的一般框架可图示如下:图1电子商务的概念框架1.3.2电子商务的移动互联时代移动互联网是一个全国性的、以宽带IP为技术核心的,可同时提供语音、传真、数据、图像、多媒体等高品质电信服务的新一代开放的电信基础网络。简单地说,移动互联网能让用户在移动中通过移动设备(如手机、iPod等移动终端)随时、随地访问Internet、获取信息,进行商务、娱乐等各种网络服务。终端、网络与应用是移动互联网的3个要素。正是由于中国3G网络的投入运营,iPhone、Android等智能手机终端以及应用平台的出现,才使得移动互联网得以如此迅猛地发展。中国目前约有8.4亿的手机用户、3.02亿的手机网民,新兴且前景光明的移动互联网成为众企业垂涎的蛋糕。诸如新浪微博、街旁、米聊等,甚至是开心网、优酷也都纷纷推出自己的手机客户端。中国社会化媒体几乎都可以从国外找到原型,从Youtube到优酷、土豆,从Twitter到新浪、腾讯微博,以及各种消费点评、问答百科、位置服务等,这些媒体为普通用户提供了极大的互动交流空间。随着中国的互联网产业进入一个持续、快速、稳定的发展时期,丰富多彩的互联网应用已成为国人生活中必不可少的部分。移动互联网应用缤纷多彩,娱乐、商务、信息服务等各种各样应用开始渗入人们的基本生活。手机电视、视频通话、手机音乐下载、手机游戏、手机IM、移动搜索、移动支付等移动数据业务开始带给用户新的体验。1.3.3电子商务的大数据时代大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。业界将其特点归结为4V——Volume(数据体量巨大)、Velocity(数据类型繁多)、Variety(价值密度低)、Veracity(处理速度快)。与传统数据相比较,大数据包含数据交换、互联、质量、安全等数据体系建设以及建设上层数据应用的整个生态圈。在大数据时代浪潮中,时间每过去3分钟,全球将会产生6.12亿封邮件,6000万张照片,将会有18.3万小时的音乐被下载,有76.4个视频在优酷被上传,有14.1万个程序在苹果商店被使用,支付宝上将产生4400万人民币的交易额。这种爆炸性增长的数据量对于企业发展来说,是一笔取之不尽、用之不竭的财富。阿里巴巴、京东商城等众多网络巨头正因为看中了这座金矿,纷纷提出将数据作为未来发展的重要战略之一。2013年,电商的竞争很大程度上就是大数据的竞争,大数据将贯穿整个电商的业务流程,成为公司核心竞争力。目前,大数据在现实世界中已有着非常广泛的分布和应用,包括医疗信息、视频监控、移动设备、智能设备、非传统IT设备、传统IT信息的非传统应用以及特定行业需求等。245431.4研究方法与主要研究内容近年来,伴随着互联网、3S技术(GPS、GIS、RS)、以及智能手机的迅速发展,人文社会科学领域的研究数据获取与处理已经出现了新的趋向。主要包括:利用软件对网络数据进行挖掘;利用GPS或LBS设备,结合GIS或网络日志来采集与分析居民行为数据;利用网络地图对获取的数据进行可视化开发。这些技术可以作为大数据时代城市时空间行为研究数据的重要来源,将有利于扩大研究的范围,并增加研究结果的精确性。网络数据挖掘是计算机科学研究的重要内容,包括内容挖掘、结构挖掘和使用挖掘3种类型。其中,内容挖掘是对网页文本和媒体数据的获取,用于研究用户活动状态和特征;结构挖掘是对网页链接结构进行分析,用于评估网页的资源量;使用挖掘则是通过挖掘网页访问的日志记录,以便提供个性化的产品和服务以此来研究电子商务的大数据时代。30878第2章电子商务的大数据时代近年来,以互联网、物联网、电信网、广电网、无线宽带网为基础的智慧城市建设带来了数据量的爆发式增长,“大数据”像血液一样遍布智慧交通、智慧医疗、智慧生活、智慧营销等城市生活的方方面面,并推动社会职能部门及企业决策者们从“经验治理”向“科学治理”转型。如何挖掘海量数据的潜在价值,为城市治理、市民生活、企业营销提供可靠的决策建议,是智慧城市发展所面临的重要课题,亦是企业在未来市场竞争中抢占先机的关键。2.1电子商务大数据时代概述“大数据”时代(“AgeofBigData”)这一说法的流行得力于全球知名咨询公司麦肯锡的倡导,英国牛津大学教授维克托·迈尔·舍恩伯格更在其《大数据时代:生活、工作和思维的改变》中大声疾呼,断言一个史无前例的大数据时代已经来临!“大数据”(“Bigdata”)显然并不是一个严格的学理性概念,而更多地是一个描述性话语。所谓大数据,也就是大型数据集,一般在10TB规模左右。多个数据集一整合,就会形成PB级,甚至以E、Z等为计量单位的数据量。过去几年全世界产生的数据量甚至超过了历史上4万年来产生的数据量的总和。这种激增的数据量势必突破传统常规软件的信息处理能力极限。大数据的说法正是在与传统数据库的比照中形成的,也注定只能是一个暂时性的权宜说法。随着信息技术的进一步发展,更大的数据集合会不断出现,今日所谓的“大数据”势必相形见绌。IT业界通常将大数据的特征概括为四个“V”:体量(volumes)巨、类别(variety)多、速度(Velocity)快、价值(Value)大。大数据之大首先是指体量大。大数据和传统所说的数据库有所不同。诞生在20世纪70年代的传统数据库是小型的、单一的、孤立的,基于小范围的抽样样本统计。而大数据则要求穷尽一切相关样本,搜集尽可能全面的数据,大数据的数据集拥有的不是支离破碎的割裂数据,不是数据片段,而是完整的数据。数据的海量与数据的完整性使大数据有着传统的数据库无法比拟的信息优势。大数据之大还在于气魄大、境界大。大数据的来源也有别于传统的数据库,显示出了跨领域、跨门类、多类别的整合气魄和越界意识,如果说非结构化数据、半结构化数据一直没有被纳入经典数据库技术SQL的视野,那么大数据的数据则源自多种数据源,是一种综合数据,兼收并蓄了结构化数据、半结构化数据、非结构化数据等各种类别和格式的数据,尤其是包含了大量的视频音频数据。这使其信息占有量和信息复杂度为传统数据库所无法比拟。这些海量数据本身就会凸显以往不为人们注意的事物的多方面的关联性,因此这种数据更能显示出多方面的信息内涵,信息质量更为优化,信息意味更为繁复。大数据与传统数据库的差异还在于它并不是一个整齐排列,有着固定层次结构、划一技术标准、反馈迟滞后延的物态化的实体,而是一个灵活、越界、即时、交互、综合的动态过程,可以在瞬间完成信息分析,形成数据图谱,满足社会各界人士的实时性需求。大数据之大更在于处理信息的手笔大。大数据的要害不在于数据存储技术的升级跃进,大数据的“大”不是指存储和备份的数据大,在根本上它是指处理数据所使用的模式“大”。大数据在今天的时代里俨然成为了一种新的产业资源,通过尽力搜集整理全面数据、完整数据、综合数据并对数据进行深度智能分析和建模,可以显示出各种事物的潜在关联,挖掘出各种以往不为人知的相关性,判断事物发生的概率,预测事物变化的走向,预见某种社会趋势,从而使鱼龙混杂的信息在大数据时代的社会管理、商业营销、产业开发、文化创意、医疗保健等方面更能发挥见微知著的预见性价值,据此各行各业都可以有的放矢地制定新策略,成就新创意,开发新产品,推出新业务。虽然早在1980年著名未来学家阿尔文·托夫勒在其《第三次浪潮》一书中已经提到“大数据”一词。在20世纪90年代,“数据仓库之父”比尔·伊蒙(BillInmon)更明确提出了“大数据”的概念。但在当时“大数据”的说法并没有引起世人的高度关注。最近几年大数据一说不胫而走,显然与信息量的持续攀升、大数据的俯拾即是、云计算的大量运用息息相关。一夜之间,人类俨然进入了一个全新的“大数据”时代。实际上,大数据时代的到来早有征兆。20世纪80、90年代所谓的信息爆炸可谓是今日的大数据潮流的先声。只不过,目前物联网、移动通讯、互联网每时每刻都在不断滋生潮水般的海量数据,人类的信息数据在以几何指数形式激增。根据市场调研公司IDC的报告,全球信息总量每过两年就会增长一倍。据统计,1分钟内,微博网站推特上新发信息超过10万条,脸谱上的浏览量超过600万,苹果应用商店下载次数以万计,淘宝可卖出几万件商品,百度能产生百万次搜索记录。而以往的数字化信息存储和处理能力严重限制了信息的采集、存储量。这些TB级、PB级海量数据的存储、挖掘、处理、分析、利用对于以往时代来说是不可想象的。在过去,存储的主要是模拟数据,报纸、书籍、图片、磁带等媒介是信息存储的主要载体,甚至在2000年的时候,数字存储信息仍只占全球数据量的四分之一;当时,另外四分之三的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上。P23数据处理技术和处理能力的局限使大量在交通、医疗、商业、管理中产生的数据资料都难以得到长期有效的存储。直到MPP、MapReduce、Hadoop平台、云计算等新的数据处理技术诞生后,海量的大数据才被深度挖掘。处理,显示出了前所未有的价值。但大数据潮流的深层根源显然还是利润最大化的商业冲动,大数据产业说到底不过是数字经济、知识经济的最新形态,这也是“大数据”这个为管理咨询公司、经济学家、IT界巨头欢欣鼓舞的概念招人质疑的重要原因。但是商业化潮流既可能导致文化的沙化、社会的急功近利、商业的唯利是图,也会成为文化创新的不竭动力,开启知识创造的新天地和新境界。事实上,正是近年来数字化领域的商业逐利冲动驱使商家不断改换思路,升级设备,实现数字技术创新,提升数字服务水准,开辟新的产业领域,开发新的文化产品,开创了蔚为潮流的大数据产业,也开启了有别于互联网时代的“数字化生存“的新境界。2.2电子商务大数据时代的特点大数据是一个较为抽象的概念,正如信息学领域大多数新兴概念,大数据至今尚无确切、统一的定义。在维基百科中关于大数据的定义为:大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间的数据集。个人认为,这并不是一个精确的定义,因为无法确定常用软件工具的范围,可容忍时间也是个概略的描述。IDC在对大数据作出的定义为:大数据一般会涉及2种或2种以上数据形式。它要收集超过100TB的数据,并且是高速、实时数据流;或者是从小数据开始,但数据每年会增长60%以上。这个定义给出了量化标准,但只强调数据量大,种类多,增长快等数据本身的特征。研究机构Gartner给出了这样的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。这也是一个描述性的定义,在对数据描述的基础上加入了处理此类数据的一些特征,用这些特征来描述大数据。当前,较为统一的认识是大数据有四个基本特征:数据规模大(Volume),数据种类多(Variety),数据要求处理速度快(Velocity),数据价值密度低(Value),即所谓的四V特性。这些特性使得大数据区别于传统的数据概念。大数据的概念与“海量数据”不同,后者只强调数据的量,而大数据不仅用来描述大量的数据,还更进一步指出数据的复杂形式、数据的快速时间特性以及对数据的分析、处理等专业化处理,最终获得有价值信息的能力。2.2.1数据量大大数据聚合在一起的数据量是非常大的,根据IDC的定义至少要有超过100TB的可供分析的数据,数据量大是大数据的基本属性。导致数据规模激增的原因有很多,首先是随着互联网络的广泛应用,使用网络的人、企业、机构增多,数据获取、分享变得相对容易,以前,只有少量的机构可以通过调查、取样的方法获取数据,同时发布数据的机构也很有限,人们难以短期内获取大量的数据,而现在用户可以通过网络非常方便的获取数据,同时用户在有意的分享和无意的点击、浏览都可以快速的提供大量数据;其次是随着各种传感器数据获取能力的大幅提高,使得人们获取的数据越来越接近原始事物本身,描述同一事物的数据量激增。早期的单位化数据,对原始事物进行了一定程度的抽象,数据维度低,数据类型简单,多采用表格的形式来收集、存储、整理,数据的单位、量纲和意义基本统一,存储、处理的只是数值而已,因此数据量有限,增长速度慢而随着应用的发展,数据维度越来越高,描述相同事物所需的数据量越来越大。以当前最为普遍的网络数据为例,早期网络上的数据以文本和一维的音频为主,维度低,单位数据量小。近年来,图像、视频等二维数据大规模涌现,而随着三维扫描设备以及Kinect等动作捕捉设备的普及,数据越来越接近真实的世界,数据的描述能力不断增强,而数据量本身必将以几何级数增长。此外,数据量大还体现在人们处理数据的方法和理念发生了根本的改变。早期,人们对事物的认知受限于获取、分析数据的能力,一直利用采样的方法,以少量的数据来近似的描述事物的全貌,样本的数量可以根据数据获取、处理能力来设定。不管事物多么复杂,通过采样得到部分样本,数据规模变小,就可以利用当时的技术手段来进行数据管理和分析,如何通过正确的采样方法以最小的数据量尽可能分析整体属性成了当时的重要问题。随着技术的发展,样本数目逐渐逼近原始的总体数据,且在某些特定的应用领域,采样数据可能远不能描述整个事物,可能丢掉大量重要细节,甚至可能得到完全相反的结论,因此,当今有直接处理所有数据而不是只考虑采样数据的的趋势。使用所有的数据可以带来更高的精确性,从更多的细节来解释事物属性,同时必然使得要处理数据量显著增多。2.2.2数据类型多样数据类型繁多,复杂多变是大数据的重要特性。以往的数据尽管数量庞大,但通常是事先定义好的结构化数据。结构化数据是将事物向便于人类和计算机存储、处理、查询的方向抽象的结果,结构化在抽象的过程中,忽略一些在特定的应用下可以不考虑的细节,抽取了有用的信息。处理此类结构化数据,只需事先分析好数据的意义以数据间的相关属性,构造表结构来表示数据的属性,数据都以表格的形式保存在数据库中,数据格式统一,以后不管再产生多少数据,只需根据其属性,将数据存储在合适的位置,就可以方便的处理、查询,一般不需要为新增的数据显著的更改数据聚集、处理、查询方法,限制数据处理能力的只是运算速度和存储空间。这种关注结构化信息,强调大众化、标准化的属性使得处理传统数据的复杂程度一般呈线性增长,新增的数据可以通过常规的技术手段处理。而随着互联网络与传感器的飞速发展,非结构化数据大量涌现,非结构化数据没有统一的结构属性,难以用表结构来表示,在记录数据数值的同时还需要存储数据的结构,增加了数据存储、处理的难度。而时下在网络上流动着的数据大部分是非结构化数据,人们上网不只是看看新闻,发送文字邮件,还会上传下载照片、视频、发送微博等非结构化数据,同时,遍及工作、生活中各个角落的传感器也时刻不断的产生各种半结构化、非结构化数据,这些结构复杂,种类多样,同时规模又很大的半结构化、非结构化数据逐渐成为主流数据。如上所述,非结构化数据量已占到数据总量的75%以上,且非结构化数据的增长速度比结构化数据快10倍到50倍。在数据激增的同时,新的数据类型层出不穷,已经很难用一种或几种规定的模式来表征日趋复杂、多样的数据形式,这样的数据已经不能用传统的数据库表格来整齐的排列、表示。大数据正是在这样的背景下产生的,大数据与传统数据处理最大的不同就是重点关注非结构化信息,大数据关注包含大量细节信息的非结构化数据,强调小众化,体验化的特性使得传统的数据处理方式面临巨大的挑战。2.2.3数据处理速度快要求数据的快速处理,是大数据区别于传统海量数据处理的重要特性之一。随着各种传感器和互联网络等信息获取、传播技术的飞速发展普及,数据的产生、发布越来越容易,产生数据的途径增多,个人甚至成为了数据产生的主体之一,数据呈爆炸的形式快速增长,新数据不断涌现,快速增长的数据量要求数据处理的速度也要相应的提升,才能使得大量的数据得到有效的利用,否则不断激增的数据不但不能为解决问题带来优势,反而成了快速解决问题的负担。同时,数据不是静止不动的,而是在互联网络中不断流动,且通常这样的数据的价值是随着时间的推移而迅速降低的,如果数据尚未得到有效的处理,就失去了价值,大量的数据就没有意义。此外,在许多应用中要求能够实时处理新增的大量数据,比如有大量在线交互的电子商务应用,就具有很强的时效性,大数据以数据流的形式产生、快速流动、迅速消失,且数据流量通常不是平稳的,会在某些特定的时段突然激增,数据的涌现特征明显,而用户对于数据的响应时间通常非常敏感,心理学实验证实,从用户体验的角度,瞬间(moment,3秒钟)是可以容忍的最大极限,对于大数据应用而言,很多情况下都必须要在1秒钟或者瞬间内形成结果,否则处理结果就是过时和无效的,这种情况下,大数据要求快速、持续的实时处理。对不断激增的海量数据数据的实时处理要求,是大数据与传统海量数据处理技术的关键差别之一。2.2.4数据价值密度低数据价值密度低是大数据关注的非结构化数据的重要属性。传统的结构化数据,依据特定的应用,对事物进行了相应的抽象,每一条数据都包含该应用需要考量的信息,而大数据为了获取事物的全部细节,不对事物进行抽象、归纳等处理,直接采用原始的数据,保留了数据的原貌,且通常不对数据进行采样,直接采用全体数据,由于减少了采样和抽象,呈现所有数据和全部细节信息,可以分析更多的信息,但也引入了大量没有意义的信息,甚至是错误的信息,因此相对于特定的应用,大数据关注的非结构化数据的价值密度偏低,以当前广泛应用的监控视频为例,在连续不间断监控过程中,大量的视频数据被存储下来,许多数据可能是无用,对于某一特定的应用,比如获取犯罪嫌疑人的体貌特征,有效的视频数据可能仅仅有一两秒,大量不相关的视频信息增加了获取这有效的一两秒数据的难度。但是大数据的数据密度低是指相对于特定的应用,有效的信息相对于数据整体是偏少的,信息有效与否也是相对的,对于某些应用是无效的信息对于另外一些应用则成为最关键的信息,数据的价值也是相对的,有时一条微不足道的细节数据可能造成巨大的影响,比如网络中的一条几十个字符的微博,就可能通过转发而快速扩散,导致相关的信息大量涌现,其价值不可估量。因此为了保证对于新产生的应用有足够的有效信息,通常必须保存所有数据,这样就使得一方面是数据的绝对数量激增,一方面是数据包含有效信息量的比例不断减少,数据价值密度偏低。2.3电子商务大数据时代的SWOT分析2.3.1优势分析1、资源优势对档案馆而言,其最大的优势在于所拥有的资源。首先,档案馆信息资源总量庞大且增长迅速。2008年,全国各级国家档案馆共保存档案1.93亿卷,较上年增加1769万卷,增幅达10%,而到2011年各级国家档案馆馆藏已达3.3亿卷,到2020年各级国家档案馆馆藏将达到6亿多卷。其次,档案馆数据资源种类繁多。在档案馆的数据资源中,既有数字化的纸质档案、接收进馆的电子文件、音视频档案等,也有用户利用信息、服务数据等数据资源。再次,档案馆数据资源价值很高。与其它数据资源等相比,“档案是一种最真实、最可靠、最具权威性与凭证性的原生信息资源”,这就使得数据洪流时代档案的价值与作用更加凸显。2、行业领先首先,各级国家档案馆是集中统一保管党和国家档案的科学文化事业机构,是永久保管档案的基地,是社会各界利用档案史料的中心。作为一种机构性存在与制度性安排,档案馆的公共性、服务性、公平性、永久性等特征,使得档案馆成为人们心目中最系统、最值得信赖的数据资源库。大数据时代,档案馆维护和传承记忆的功能将更加重要,构建一个“基于互联网的,以档案数字资源为主体,以文本、图片、音频、视频等为形式,为中华民族集体记忆的建构和传承提供文献支撑的‘中国记忆’数字将成为档案人新的目标与使命。其次,档案馆在数据处理上具有丰富的经验。考察数据生命周期,涉及到数据生成、采集、传输、处理、分析、应用等阶段,而这也恰恰是档案馆熟悉的业务范畴。因此,档案馆可以通过模拟或借鉴传统档案处理的整套业务规范或流程来指导大数据的处理,“对知识规范性控制的思想和技术方法恰巧在大数据领域有了用武之地”。2.3.2劣势分析1、认识问题作为一个档案大国,几千年档案工作的历史积淀在我国形成了丰富多彩的档案文化,也形成了一套独特的档案思维模式。大数据时代,有可能出现两种认识问题:一是没有大数据意识,即无视大数据时代的来临,采取固守原状的鸵鸟政策,这将使档案馆失去未来的发展机会,甚至会失去存在的意义。二是泛大数据化,即不加鉴别地收集保存数据,从而使档案馆陷入数据沼泽,进而丧失自己的特色,显然这也是档案馆无法承受的。因此,大数据背景下,科学认识大数据的内涵,合理地选择切入点,将是档案馆在大数据时代立足的首要问题,而这或许也是档案馆最难解决的一个问题。2、人才瓶颈在档案事业快速发展的今天,我国的档案人才队伍建设却不尽如人意。一是专业人才不足。以2006年为例,全国各省(除台湾外)、自治区、直辖市各级档案馆中具备博士学位且毕业于档案学专业的工作人员为零,具备硕士学位且毕业于档案学专业的工作人员只有26人,具备学士学位且毕业于档案学专业的工作人员只有1598人。二是信息技术人才的匮乏。“大数据泡沫如果现在存在的话,恐怕并非数据的作用被过分夸大,而主要是由于真正具备资质的数据科学家数量不足导致的。”据统计,到2018年美国将面临150万个掌握大数据应用分析方法的技术经理和分析师缺口,另缺14万至19万具有“深度分析”经验的工作者。从目前来看,大数据成功的案例无不是特定的项目,例如“啤酒与尿布”,因此,现阶段档案馆人员最需要的是懂得用户的需求,因为数据越大,用户的个性需求就越多样,服务切口就越小。毫无疑问,这需要档案人员拥有极强的洞察能力。2.3.3机会分析1、需求旺盛随着信息环境的变化和社会档案意识的觉醒,用户的档案信息需求层面不断加深,需求领域也不断拓展。首先,精品化的信息需求与专业化的知识服务要求。随着社会档案意识的增强,“用户关注的已不再是简单的获取文献,而是如何从繁杂的信息环境中捕获和析取解决所面临问题的信息内容,并将这些信息融化或重组为相应的知识或解决方案”。其次,个性化的信息需求与互动式的信息服务要求。随着用户信息素养的不断提高,档案用户已从信息服务的“被动接受者”转换为“主动选择者”,他们更希望获得一种为自己量身定做的个性化信息服务。同时,用户在获取信息的过程中,希望能与馆员进行人际交流与相互沟通,从而获取文化的熏陶、思想的碰撞及心灵的浸润。2、政策导向2010年国家档案局《数字档案馆建设指南》颁布,提出运用多种技术手段“采集具有重要保存价值的各类数字信息,进行资源整合”、“对数字档案信息进行深度挖掘,开展增值服务”、“开展档案利用访问量统计、分布分析、舆情分析等工作”。2012年杨冬权在全国档案局馆长会议上讲话指出,要在新的起点上进一步推进档案信息化,即从过去以技术为主导向以服务为主导转变,从注重应用信息技术向注重档案内容信息化转变,树立“内容为王”的观念,建设以服务为主导的档案信息化体系。这些政策性文件及讲话,将为大数据在档案馆中的应用带来更多的政策支持,也为大数据时代档案馆的发展带来更多机遇。2.3.4威胁分析1、信息安全大数据时代,数据量之大、数据种类之多、对数据处理速度与时间之快,都对传统的档案馆安全体系造成极大冲击。从基础技术角度而言,当前档案馆广泛应用的关系型数据库(SQL)技术,经过长期实践与完善,在维护数据安全方面已经设置了严格的访问控制和隐私管理工具,而大数据依托的基础技术是非关系型数据库(NoSQL),其在成熟度和可访问性方面都不如传统数据库技术。从核心价值角度而言,大数据的关键在于信息爆炸时代对数据价值的再挖掘。然而,数据分析技术的发展,对国家安全及用户隐私产生了极大威胁,数据持有人可以从历史数据中推测判断出行为人的下一步动作——个人行动轨迹、行为轨迹,甚至思维轨迹。2、用户流失大数据时代,档案馆面临着网络、图书馆及信息服务公司等的竞争,用户流失是不争的事实。以网络为例,网络信息资源的丰富使用户足不出户就可以获取所需的信息,用户对档案馆的稳定性与忠诚度下降。据统计,“超过90%的用户在查找信息时,会首选搜索引擎,搜索已经成为公众获取信息的代名词”。因此,数字化时代,档案馆如何实现“数据化生存”,将是不得不慎重考虑的难题。2.4电子商务大数据时代的发展前景20年后互联网发生的巨大的变化,移动互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域。我们在享受便利的同时,也无偿贡献了自己的“行踪”。现在互联网不但知道对面是一只狗,还知道这只狗喜欢什么食物、几点出去遛弯,几点回窝睡觉。我们不得不接受这个现实,每个人在互联网进入到大数据时代,都将是透明性存在。在物理世界中,许多行为是“人似秋鸿有来信,事如春梦了无痕”。但在互联网上却是“处处行迹处处痕”。任何行为,皆有前兆。要买商品,必先浏览,对比,询价;要搞活动,必先征集、讨论、策划;互联网上恰恰保留了大量的前兆性的数据,通过对这些数据的收集和分析,互联网企业具备了预判物理世界中,人类未来行为的能力。收集分析海量的各种类型的数据,并快速获取影响未来的信息的能力,这就是大数据技术的魅力。事实上大数据的来源非常广泛,天上的卫星、地上汽车、埋在土壤里面的各类传感器,无时无刻不在生成大量的数据。这些数据如果综合利用,产生的社会价值和经济价值将是难以估量的。第一篇报告——《大数据时代即将到来》,之所以用时代这个词作为标题,是因为大数据是历史上首个可以预测人类短期行为的技术。未来的不确定性,是人类产生恐惧的根源之一,也是各类组织最为头痛的问题。大数据技术技术让我们看到解决未来预测问题的一丝曙光。“08年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;而我们提前半年时间从询盘上推断出世界贸易发生变化了。”通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值。统计历史上所有买家、卖家的询价和成交的数据,可以形成询盘指数和成交指数。这两个指数是强相关的。询盘指数是前兆性的,前期询盘指数活跃,就会保证后期一定的成交量。所以当马云观察到询盘指数异乎寻常的下降,自然就可以推测未来成交量的萎缩。这种统计和分析,如果缺少大数据技术的支持,是难以完成的。这次事件,马云提前呼吁、帮助成千上万的中小制造商准备过冬粮,从而赢得了崇高的声誉。推动大数据技术在各行业普及的原动力,来自于企业改善自身经营水平、提升经营效率的需要。长期以来,困扰企业最大的难题就是“如何更加了解他的客户”。索尼公司的创始人出井伸之解释索尼衰落的根本原因时,说了一段发人深省的话:“新一代基于互联网DNA企业的核心能力在于利用新模式和新技术更加贴近消费者、深刻理解需求、高效分析信息并做出预判,所有传统的产品公司都只能沦为这种新型用户平台级公司的附庸,其衰落不是管理能扭转的。互联网的魅力就是‘thepoweroflowend’”。这句话有两层含义。第一,传统企业衰落的根本原因在于难以贴近消费者,难以了解消费者的真正的需求。第二,互联网公司强项恰恰是天然的贴近消费者,了解消费者。传统企业必然嫁接互联网企业的DNA,否则必将沦为互联网企业的附庸。这一轮的变革,事关绝大多数企业的命运。可以看到,用大数据这个视角,可以察企业的兴衰。第一,对大数据不关心,不了解。必步索尼的后尘;第二,拥有大量的数据,并善加运用的公司,必将赢得未来。时代变了,判断企业价值的标准、判断软件价值的标准也变了。我们判断软件价值的标准是它所协助管理的数据的规模和活性。我们判断公司价值的标准是其拥有数据的规模、活性,以及收集、运用数据的能力。围绕数据和最终用户,我们观察到计算机行业的发展有三大趋势:第一应用软件一定会泛互联网化。第二,行业会垂直整合。越靠近终端用户的公司,在产业链上将拥有更大的发言权。第三,数据将成为资产。泛互联网化是收集数据的重要渠道,没有泛互联网化的应用软件,公司就难以获得用户的行为数据;行业垂直整合趋势在数据运用层面,通过搜集大量的用户数据,更贴近用户,更理解用户,为其提供更适当的服务;数据成为资产更强调数据的战略意义。22365第3章电子商务大数据时代面对的问题与挑战大数据作为新兴产业热点,在美国政府“大数据”计划的引导和IBM、甲骨文、EMC等跨国企业的推动下,成为继云计算、物联网之后信息技术领域的又一亮点。据开源分析机构Wikibon预计,2012年全球大数据企业营收为50亿美元,未来5年的市场复合年增长率将达到58%,到2017年将达到500亿美元。IDC则预测大数据技术与服务市场将从2010年的32亿美元攀升至2015年的169亿美元。产业界对大数据的发展前景充满信心,然而从全球总体发展情况来看,大数据当前还处于起步阶段,理论研究快于产业发展,厂商宣传多于实际应用。加快研发大数据关键技术,布局大数据产业链,推动大数据示范应用,对抢占新一轮信息产业发展制高点,具有重要意义。第一次工业革命,英国和法国成为世界的领导者;第二次工业革命,奠定了美国的世界霸主地位;时至今日,面对云计算、物联网、大数据等新技术、新业态、新模式共同支撑的第三次工业革命,中国面临历史性的挑战与机遇。随着国内外产业发展风起云涌,大数据时代的浪潮奔腾而至,上海在相关领域积累了哪些先发优势?在大数据应用及产业化实践方面有怎样的发展思路?上海市经济和信息化委员会主任李耀新所描绘的大数据产业发展蓝图,将为产业界带来重要启发。在大数据时代,数据逐渐成为企业最重要的资产之一,决策行为将日益基于数据分析做出,而不是像过去更多凭借经验和直觉。作为构筑在数据分析和信息处理基础上的竞争情报,它的发展将面临着全新的信息空间所带来的机遇和挑战。230073.1企业对大数据的认知程度大数据时代,企业的生态环境发生了巨大的变化,无处不在的智能终端、随时在线的网络传输、互动频繁的社交网络,使得企业有机会进行大规模的精准化的竞争对手、竞争态势以及消费者行为研究。作为企业智囊团的竞争情报,应该主动地拥抱这种变化,构建基于大数据的竞争情报体系。然而,据Coonect的一份调查报告显示,49%的美国数据聚合部门高层将大数据定义为所有外部和内部的网页数据的聚合,16%的人则定义其为由企业存储和管理的大量的内部数据;7%的人则认为这是和网络相关的数据和内容服务商用来为他们运营服务的数据。尤为致命的是,大多数中小企业认为大数据是Google、Amazon、Facebook、阿里巴巴、京东商城等公司才关心的技术。对大数据认识的不足,无疑会使企业竞争情报工作落后于时代的发展。如果采取无所作为、固守原状的鸵鸟政策,那么企业竞争情报工作将会失去未来的发展机会,甚至会失去存在的意义。在大数据时代下,电子商务的竞争已经成为基于数据的竞争。数据就是电子商务企业的财富和金矿,谁拥有大数据,谁就有制胜的砝码,谁就可能成为大赢家。然而网络上的消费者并不会直接告诉企业其需求,电子商务企业必须去收集、分析、跟踪、对比消费者在互联网上留下的种种“足迹”、评论、图片、视频等。当今极速爆炸的信息量远远超越了大部分企业IT架构和基础设施的承载能力,其实时性要求也大大超越了现有的计算能力。ColumbiaBusinessSchool’sCenteronGlobalBrandLeadership和NYAMA2012年2月份发布的报告中指出:39%的营销业者表示很难收集到可以及时支持个性化营销的用户数据;51%的营销者认为组织内数据共享机制缺乏是应用大数据的最大障碍。此外,挖掘大数据的价值类似沙里淘金,由于大数据价值密度低的特性更加增添了数据收集工作的巨大性和繁重性。拥有大数据是利用大数据的前提条件,若不具备整合大数据收集和使用的能力,企业就很难在广告和多个营销渠道中提供真正个性化和精确的产品和服务推荐,而拥有大数据的企业则能在竞争中脱颖而出,不战而胜。对于中小型电子商务企业来说,拥有大数据的挑战将显得更加的突出和严峻。因此,面对此挑战,电子商务企业首先应该从思想上认识到大数据的价值,高度重视数据的收集工作。其次,企业需要重构其IT架构,加大基础设施的承载能力,租用足够的空间,进一步加强信息化投资和建设,适应大数据时代的要求。3.2竞争情报系统的数据处理能力庞大而复杂的数据考验着竞争情报系统的技术体系和数据处理能力。首先在存储上就是一个非常严重的问题。未来竞争情报系统将会面对TB级的数据集,而传统的数据库部署不能处理TB级别的数据;其次是传统的数据库技术不能对非结构化数据直接进行处理,目前大多数的非结构化数据分析工具也是转换成结构化数据之后再进行处理。这一方面降低了情报分析的时效,另一方面也丢失了非结构化数据隐含的关系,而这些关系很有可能是非常重要的情报。另外,从原始数据到竞争情报的提炼过程,不仅是对IT技术人员的挑战,也是对业内专家的挑战,因为数据间的关联性已不完全都是技术问题,有些关联只有专业人员才能知道,必须在生态学、数学和统计学、社会网络学、社会行为心理学等方面专业人员的帮助和解析下,才能建立起合理的数据结构。也就是说,未来的信息提炼需要IT技术人员和行业专家的共同合作。2010年12月,美国的科学技术顾问委员会、信息技术顾问委员会向奥巴马和国会提交的《规划数字化未来》的专门报告中把数据收集和使用的工作提到了战略的高度。该报告的第一个挑战就是“数据”问题,即:“如何收集、保存、维护、管理、分析、共享正在呈指数级别增长的数据是我们必须面对的一个重要挑战”。据统计,82%的公司正受到处理海量信息的挑战,而且他们花很多时间对其进行研究,89%的公司因超负荷处理数据而失去销售机会。仅仅坐拥大数据并不够,对大数据的分析和挖掘能力已成为企业的核心竞争力。因此,建议电子商务企业着手部署“大数据战略”,引进和培养大数据相关人才,创建基于大数据的研发团队,从技术层面上解决大数据的困难和挑战,提高挖掘潜在商业价值的能力,从而有效地指导企业制订精确的行动纲领和采取高效的行动。3.3竞争情报体系组织模式在大数据时代,数据逐渐成为企业最重要的资产之一,决策行为将日益基于数据分析做出,而不是像过去更多凭借经验和直觉。这意味着,作为构建在数据分析基础之上的竞争情报系统理应成为企业产品开发、运营设置以及商业模式的基础和出发点。然而,目前绝大多数中小型企业都没有专门的竞争情报部门和情报分析专家,即使是在一些大型的企业中,具有竞争情报职能的部门也常常处于分散、被动、辅助的地位。因此,在大数据时代,需要从战略到战术层面开始自我的蜕变和进化,对现有竞争情报系统的构架、组织体系、资源配置和权力结构进行重组,让基于大数据管理与分析的竞争情报职能部门处于企业整体的上游位置,并组织合理的竞争情报系统构架,充分调用各部门的数据资产,实现对大数据的整体把握,为企业提供完整、动态、实时的竞争情报。大数据时代,网络用户在互联网的评论、图片、视频、个人信息、兴趣爱好、交易信息、访问的网站等等均被企业记录在案。企业掌握了大量消费者的行为数据,对大数据进行整合和分析,从而可以发现新的商机,创造新的价值。然而这些数据经常包含消费者的真实信息,如在淘宝网上交易时的真实姓名、家庭住址以及银行账号等重要的真实信息,逐渐引起了我们对个人隐私的担忧。正如美国著名的计算机专家迪博德所言,在信息时代,计算机内的每一个数据、每一个字节,都是构成一个隐私的血肉。信息加总和数据整合,对隐私的穿透力不仅仅是“1+1=2”的,很多时候,是大于2的。因此,针对隐私保护方面的问题,建议电子商务企业和国家从以下三方面着手:(1)电子商务企业应该恪守行业道德,不能将消费者的个人信息进行交易和泄露。(2)企业应该从技术层面上采用先进的隐私保护技术进一步加强用户的隐私保护,解决由于过度开发或者深度营销可能造成的用户隐私侵犯等等问题。(3)随着大数据应用的发展,隐私保护的问题和概念在不断地发展,因此国家应该制定与之相应的隐私保护的法律和法规,确实保护公民的隐私权。131383.4相应的问题解决方案分析大数据时代应以智慧创新理念融合大数据与云计算,在大数据洪流中提升知识价值洞察力,实施高效实时个性化运作,建立有效增值的商业模式,确保应对APT之类的新型安全威胁。电信运营商转型中流量经营已成共识,即以智能管道与聚合平台为基础,以扩大流量规模、提升流量层次及丰富流量内涵作为基本经营方向,并以释放流量价值为基本目标,可见大数据和云计算的深度融合与此流量经营目标十分吻合。实际上已经有一些运营商借助大数据Hadoop云工具管理与分析网络中的用户数据,为日常运维及制定市场战略等提供有效支撑。针对大数据时代的基本特征,加强全方位创新。包括IBM、EMC、HP、Microsoft等在内的IT巨头,纷纷加速收购相关大数据公司进行技术整合,寻找数据洪流大潮中新的立足点。而涉及人工智能、机器学习等新技术的创新应用,已初显效益。将大数据时代全方位创新工作和智慧城市发展紧密结合。借助移动互联网、大数据与云计算的融合、智能运营管道等,建立智能平台,优化配置城市资源,向真正的智慧城市迈进。借助大数据创新处理技术应对APT安全攻击。APT安全攻击的最主要特征为单点隐蔽能力强、攻击空间路径不确定、攻击渠道不确定;同时APT攻击一旦入侵成功则长期潜伏,攻击时间上具有持续性。目前,全流量审计方案具备强大的实时检测能力与事后回溯能力,并可将安全工作人员的分析能力、计算机存储与运算能力组合在一起,是一种较完整的解决方案。第4章电子商务大数据时代的机遇4.1重构精准营销模式在大数据时代到来之前,管理者一般会从哪些平台提取并使用信息数据呢?调查显示,大部分数据来源于政府数据中心和企业的CRM、BI系统,其中囊括了公民基本信息、顾客资料、市场促销、广告活动、展览策划及官方网站中的各类结构化数据。而研究显示,这些信息只能满足企业正常营销管理需求中15%的量能,并不够给出一个重要洞察和发现规律。而其它85%的数据——诸如社交媒体数据、邮件数据、地理位置、音视频等不断增加的信息,数据量更大、逐渐广泛应用、以传感器为主的物联网信息,以及风起云涌的移动3G互联网信息等——都属于大数据所覆盖的非结构性数据,它们更多地以图片、视频等方式呈现。在几年之前,其可能被束之高阁,价值亦无法被有效挖掘。而如今,大数据技术可以进一步提高算法和机器分析性能,也令这些非结构化数据得以充分挖掘和运用。对营销决策数据进行更好的优化。包括沃尔玛、家乐福、麦当劳等知名企业的一些主要门店,均安装了搜集运营数据的装置,用于跟踪客户互动、店内客流和预订情况,研究人员可以对菜单变化、餐厅设计以及顾问意见等如何影响物流和销售额进行建模。这些企业可将这些数据与交易记录结合起来,并利用大数据工具展开分析,从而在销售哪些商品、如何摆放货品以及何时调整售价上给出意见,此类方法已经帮助这些领先零售企业减少了17%的存货,同时增加了高利润率自有品牌商品的比例。与传统信息技术比较:以前的CRM系统只能出示分析报告来回答”发生了什么事”,而如今,一个优秀的大数据系统已可以被用来回答”为什么会发生这种事”,一些关联数据库甚至还可以预言”将要发生什么事”,并最终发展为非常活跃的数据仓库,从而能判断”你(用户)想要什么事发生”。据称,集成整合了Essbase服务技术的Oracle大数据平台,已经能为用户提供面向策略级、未知信息分析预测能力和个性化自助式定制等。对目标对象进行更完整的分析描述。通过获取更丰富的消费者数据,包括网站浏览数据、社交数据和地理追踪数据等,可以绘制出更完整的消费者行为描述。譬如,大数据技术能对客人方方面面的信息进行充分有效管理并深度挖掘。如果某个客人是某酒店的老主顾,那么该大数据系统就会向酒店提供个性化服务,清楚告知酒店经理人这位客人的习惯和喜好,如是否喜欢景观房间、是否吸烟、是否喜欢大床、喜欢什么样的早餐,甚至从事什么工作、有哪些商务需求等等。当客人再次光临时,不用客人自己提出来,酒店大数据系统就会自动提供客人所喜欢的房间和服务等相关信息,大大提升酒店管理效率。利用大数据中的语义搜索功能,系统能理解自然语言的含义,包括理解工作的头衔、技能、行业、教育背景等,除此之外,系统还可以做到智能地处理拼写错误、缩写、标点符号等更多问题,也能识别相同的词在不同语境中的含义,以更好地为营销管理服务。例如销售经理、财务经理、人事经理⋯⋯它们都带有”经理”二字,但显然代表了不同的语义,借用语义搜索技术,可以对目标对象实现智能的区隔判断。实现点对点智能广告模式。对于广告主而言,广告的核心问题在于:如何从海量数据中寻找目标受众,并投放相应的广告信息。众所周知,时下市场上大部分广告并非”点对点”模式,而是”主从”模式。就像单个”老师”(产品)在面对众多满地跑的”学生”(消费者等受众),可想而知即便”老师”再努力,也无法抓住大部分”学生”,相当一部分广告费被白白扔掉。然而随着大数据的发展,产业界乐观地预期:这些钱或许将被一一捡回来。大数据能通过互联网点击流跟踪个体用户的行为,更新其偏爱,并实时模仿其可能的行为,让点对点的RTB(实时竞价广告)成为可能。在美国,通过大数据的帮助,RTB(实时竞价广告)能把炙手可热的目标用户拍卖给广告商。试想一下:在传统电梯情景中,进入一个谢顶的中年人,而电梯视频中放映了洗发水广告,那广告费无疑打了水漂。而如今有了RTB,广告需要盯住的不是满地跑的”学生”,而是那个喜欢看广告的目标客户;广告市场上卖的也不是传统意义上的广告位,而是访问这个广告位的具体用户。在大数据背景下,RTB实时竞价广告如何实现精准营销呢?假设潜在客户在浏览某网页面,某网会向广告交易平台(AdExchange)请求广告,交易平台向所有需求端平台(DSP)发出公告,”某网有访客,要不要向他发广告”,同时DSP请求大数据管理平台(DMP)帮助分析这位访客情况,并根据结果进行出价决策。AdExchange为出价高的DSP匹配相关广告代码,并最终作出广告。而尖端的追踪技术和多种大数据管理平台(DMP)可以将受众以及广告效果数据整合于单一界面上,让广告主轻易撷取关键指标,如转化率、流失率以及各渠道贡献比率等。更好地进行顾问式营销。当某顾客进入店铺后,一个零售商利用大数据技术搜索其数据库,发现这位顾客是本店希望留住的有价值顾客,于是他们通过综合其过去购物历史和Facebook主页信息,来了解花多少钱可以留住这位顾客,进而为所售物品进行合理化定价,并确认零售商可以退让的利润空间,最终针对该顾客给出最佳优惠策略和个性化沟通方式。值得强调的是,以上所述并非仅是概念化场景。如今,美国沃尔玛卖场的收银员在扫描完顾客选购商品后,面前POS机上会显示出一些附加信息,售货员会据此提醒顾客:”我们商场刚进两三种配酒佳料,并正在促销,位于D5货架上,您要购买吗?”这时顾客也许会惊讶地说:”啊?谢谢你,我正想要,刚才一直没找到,现在重新去购买⋯⋯”以上即是沃尔玛在大数据系统支持下实现的”顾问式营销”实例。因为系统早已计算好,如果顾客的购物车中有不少啤酒、红酒和沙拉,那么80%的可能需要买配酒小菜和相关佐料。而提供这一决策分析支持的,就是其位于美国的一个庞大的、通过卫星与全球所有卖场实时连通的企业级数据仓库。4.2大数据时代电商IT基础设施的变革后互联网时代,PC服务器成为电商企业最广泛使用的IT基础设施,随着业务量的发展,电商企业大量使用了PC服务器集群技术和小型机技术,用于满足日益增长的在线业务交易量。同时,企业必须投入大量人/财/物等资源对IT基础设施进行常规性的维护、升级、扩容、更新。1、电子商务中数据仓库系统的发展当前,电子商务的数据大规模存在且持续增长,表现大数据技术与应用为大规模、分布式、异构性,使得电商数据仓库系统发生了显著变化:数据量由TB级升至PB级,并仍在持续爆炸式增长。有关调查显示,2015年最大数据仓库中的数据量将逼近100PB,其增长速度远超摩尔定律;分析需求由常规分析转向深度分析;硬件平台由高端服务器转向由中低端硬件构成的大规模集群平台,并行数据库的规模增大,成本急剧上升。电商数据分析的两大趋势和挑战是:数据量的膨胀;数据深度分析需求的增长。目前仅具备传统数据处理技术和信息分析能力的数据仓库和BI工具难以完成PB级大数据的数据管理和分析工作。2、大数据的IT基础云计算架构云计算是新型分布式网络计算架构,特别适合向各种网络应用提供计算、存储、网络、软件等在线服务,NIST认为这种架构具有5个关键功能、3种服务模式和4种部署式。云计算的特征主要有:按需自助服务(on-demandself-service)、泛在网络访问(broadnetworkaccess)、虚拟池化的资源(resourcepooling)、快速可伸缩性(rapidelasticity)、可度量的服务(measuredservice),这些能力对当前电商的基础IT设施来说,都是必须要满足的要求。4.3大数据处理模式大数据处理模式从传统的数据库集群演进到云计算MapReduce大规模并行处理架构,实现任务的分解处理和结果合并,从而实现对可处理数据规模的无限扩展,大数据处理技术已被认为是继云计算、物联网之后IT产业又一次颠覆性的技术变革。1、数据库集群模式集群是指通过协同工作方式运行同一套应用程序,针对客户端及应用程序提供单一系统映像,使用特定的连接方式,将硬件设备结合起来,构成的松散耦合的计算节点集合,具备以下优势:性能提升、扩展性提升、可靠性提升。数据库集群是将集群技术引入数据库。数据库集群在技术上具备一定的局限性,具体介绍如下:采用PC服务器作为功能节点,系统线缆众多,硬件复杂度过高,实施架设难度较大,可扩展性受限;高速互联设备必须通过主机的PCI插槽与主机相连,而PCI的传输速率无法满足并行数据库集群节点间的数据通信要求;数据库安全性和数据集可扩展性提升空间极小,全面提升速度、数据同步、安全保证、可扩展性4个技术指标是一大难题;随着设备量的增加和应用的复杂化,需要迅速追加投入以解决所引起的兼容性和可靠性等各类问题;并行数据库主要采用shared-nothing结构,在扩展性、容错性、成本、对异构环境的支持能力等方面有所欠缺并相互影响,因此扩展性非常有限,目前尚未有数千节点规模的应用案例。2、MapReduce框架云计算架构由大规模低端服务器组成服务器集群,提供海量存储空间和大规模数据的处理能力,具备可靠性、扩展性以及高可用性,因此中国科学院计算所、中国移动、百度和淘宝、网易等电子商务平台都使用主流云计算平台Hadoop架构进行Web搜索、大数据分析等。MapReduce框架包括:分布式文件系统(HDFS)、并行编程模型MapReduce、并行执行引擎。从HDFS角度来看,Hadoop的节点由存储并提供定位块服务的数据节点(datanode)和管理分布式文件系统命名空间的命名节点(namenode)组成,HDFS主从结构的体系架构设计大大简化了分布式系统架构。其文件系统的设计特点是:元数据集中管理、数据块(64MB)分散存储以保证数据的安全性,数据复制(每份数据至少3个备份)实现高度容错。传统的数据库系统实时响应能力较高,但对于TB级或PB级别的大数据集,数据挖掘的检索速度则急剧下降,但引入HDFS与RDBMS相结合的机制可以充分利用两者的优势,实现高效率的数据挖掘与决策支持。MapReduce由Google设计,用于对集群上的大数据集进行并行计算处理,是非关系型数据管理和分析技术的典型代表。MapReduce将数据处理任务抽象为一系列的map(映射)和reduce(化简)操作对,分别完成数据的过滤和聚集操作,并通过简单的界面进行管理。其计算流程和基本原理简单地说,就是将大数据集分解为成百上千个小数据集,每个(或若干个)数据集分别由集群中的一个节点进行处理并生成中间结果,这些中间结果又由大量的节点进行合并,形成最终结果,如图2所示。图2MapReduce并行计算流程基于MapReduce计算模型编写分布式并行程序的主要编码工作就是实现map和reduce函数,其他的分布式存储、工作调度、负载平衡、容错处理、网络通信等复杂问题均由MapReduce框架负责处理。MapReduce原理简单、技术简洁、数据处理效率高,在系统层面解决了数据库集群难以解决的扩展性、容错性等问题,MapReduce免费开源,基于异构廉价服务器搭建可弹性伸缩的大规模集群,并行、分布式地处理和分析大规模数据,其构建成本远低于数据库集群所采用的并行数据库。几种大数据处理模式的比较分析见表1,可见,MapReduce大数据处理模式具有相对显著的优势。表1大规模数据处理模式的比较分析4.4信息检索服务的强大性在IT基础设施上,淘宝率先引入云计算技术,阿里云成为我国第一家专门从事云计算服务的公司,淘宝的所有交易系统都为自建,通过电商平台集成海量数据,以下主要以淘宝为例,分析引入MapReduce大数据处理模式给电商业务带来的革命性影响。商品的丰富性直接影响电商的竞争力,而海量的商品数目、繁杂的分类体系以及复杂的非结构化的商品属性数据等都需要IT基础设施具备足够的灵活性和强大的检索能力。云平台架构提供的超大规模计算能力和大数据处理能力能够提供强大的个性化信息检索功能,即根据用户的个体差异、个人兴趣和需求特征进行智能海量检索,并高效率返回高查全率和查准率检索结果。另外,还能实现信息推送服务、热点信息推送、信息推荐等新型信息检索服务。云计算的技术优势使得信息检索和服务可以很好地解决长期存在的人类自然语言理解、知识推理等问题,充分发挥深度数据挖掘和知识发现的功能,以迅速准确地分析处理用户信息行为、理解用户自然语言表达并进行相应智能检索,得出符合用户需求的信息和产品,提高用户服务的速度和精准度,最大限度地提升客户满意度。淘宝商品具备数十种属性,还包括视频、图像等多媒体数据,淘宝用户可以通过颜色、价格、品牌等几十种属性在海量数据中进行智能检索和过滤,检索的实时性和准确率很高。2010年淘宝注册用户数达到3。7亿户,在线商品数达到8亿件,最多每天有6000万人访问淘宝网,平均每分钟出售4。8万件商品,实时呈现订单结果。4.5处理能力快速性电商系统必须具备无以伦比的快速弹性处理能力,能够处理突发的访问量、海量订单和客户浏览请求,而且需要根据需求和业务量的上涨不断扩容服务器和增加数据存储设备。基于云计算技术的云存储平台拥有理论上无限的海量存储和超大规模计算等资源,能够存储和处理TB级乃至PB级的海量数据,企业不用安装硬件,就可以廉价、快速地部署应用系统并实现弹性伸缩,以提高资源的管控能力和促进优化利用。这种丰富的IT基础设施和弹性处理能力能够廉价、快捷地输出给中小企业。淘宝和天猫2012年中国互联网时尚消费数据显示,淘宝在线销售的原创商品每日更新超过100万件,由于淘宝的成功营销,2010年、2011年、2012年的11月11日,淘宝单日交易额分别为9.36亿元、52亿元、191亿元,销售额的激增和“双十一”营销的成功,验证了淘宝云计算平台的运转效率及快速的弹性处理能力。4.6数据分析的精准性实时性的海量数据分析越来越成为电商的核心竞争力,大数据的价值关键在于信息分析和利用。云计算可在极短时间内对海量数据和大数据进行收集、存储、分析和处理,极大地提高了企业的信息分析能力,使得电商需要的实时精准的海量数据挖掘和大数据深度分析等成为可能。淘宝每天数以千万计的交易产生大量的交易时间、商品价格、购买数量等交易数据和利益相关方的年龄、职业、地址等个人特征信息,从这些海量数据中,淘宝实时准确地进行各类店铺排名和个性化智能推荐;进行用户行为数据分析,得到电商用户所需的个性化信息与产品,便于开展精准营销;商家根据历史信息和”淘宝指数”进行生产、进销存计划;买家得以获得更符合个性化需求的商品信。4.7信息的安全服务信息安全是电商企业业务可持续的最关键保障。在大数据时代,大数据成为国家和企业的核心资产,大数据蓝海成为未来竞争的制高点。但是,大数据往往更复杂、更敏感,更易成为网络攻击的显著目标,加大了隐私泄露风险,大数据深度分析技术让黑客的攻击更精准。电商系统不可能防止外部数据商挖掘个人信息,各社交网站均不同程度地开放用户所产生的实时数据,外部数据提供商能够通过收集、监测、分析这些数据得出用户的信息体系,常规的安全方案与措施无法满足大数据时代数据非线性增长的需求,用户隐私安全问题将更为显著。例如,能够通过智能手机定位分析精确锁定个人位置。另一方面,大数据处理技术能够全面、及时、精确地监测并获取各类网络异常行为或网络攻击行为的结构化和非结构化数据,实时进行安全分析和预防性分析,以便度量企业安全级别和安全风险,更有针对性地设计、实施信息安全方案,应对安全风险,寻找攻击源,识别钓鱼攻击,防止诈骗和阻止黑客入侵等。云计算技术能够把专业可靠的信息安全方案封装为云服务,为用户提供优质、廉价、全面的安全和备份服务。所有信息资源都托管在云端,由云计算强大的服务器集群和虚拟化技术提供冗余、灾备、数据备份和自动故障恢复等功能,专业的IT管理团队负责维护电商企业数据,提供专业化的信息安全与保密方案。淘宝网构建了系统的安全体系,包括支付安全、信用评价、店铺评分、物流保障、网络安全、风险控制、消费者保障等,并且不断加强自身系统安全、打击各类网络欺诈行为、开展用户安全教育,2012年淘宝安全中心共拦截592万个钓鱼网站,拦截木马1477万次,引导超过2400万名淘宝用户绑定二次验证、淘宝安全中心等安全产品,这些安全举措较为成功地净化了网购环境,保障了电商的规模发展。目前淘宝网的消费投诉率不到1%,低于实体零售商。第5章阿里巴巴电子商务大数据时代实证分析阿里巴巴集团自提出”商业生态圈”概念以来,一直致力于打造一个容纳更多行业在内、层次更为丰富而全面的生态系统,而这一切的基础就是大数据。在去年9月份的网商大会上,马云则将阿里巴巴的未来定位为”平台、金融和数据”三大核心业务。继阿里集团架构调整、组建小微金融服务集团之后,近期阿里以5。86亿美元入股新浪微博,这一系列举措使得阿里生态系统蓝图渐渐明朗,大数据战略方向更加清晰。本文结合大数据时代背景,分析了阿里大数据的信息采集、战略历程以及存在的安全隐患,并且有针对性地提出了发展建议。5.1阿里大数据信息采集与推送大数据时代,数据采集是至关重要的。淘宝网商业智能部首席商业智能官车品觉指

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论