数据魔方研究报告.pptx_第1页
数据魔方研究报告.pptx_第2页
数据魔方研究报告.pptx_第3页
数据魔方研究报告.pptx_第4页
数据魔方研究报告.pptx_第5页
免费预览已结束,剩余9页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据魔方研究报告,淘宝网2010年3月30日在上海正式对外宣布,将首度面向全球开放数据,商家、企业及消费者将在未来分享到其海量原始数据,数据开放将有原则、分层次地进行。并于2011年4月1日正式开放网站所有的交易数据,并将这一计划命名为“数据魔方”。,大数据时代,闫茂芳,制作,内容,概念:数据魔方是淘宝官方出品的一款数据产品。主要提供行业数据分析,店铺数据分析。其中包含了品牌、店铺、产品的排行榜,购买人群的特征分析(年龄、性别、购买时段、地域等等)。排名优化:数据魔方提供了淘词功能,主要用来优化宝贝标题用,通过使用效果更好的关键词来提升搜索排名。实时运作:还可以给卖家提供实时的运营数据支持,店铺的实时成交情况,行业的实时成交情况,是运营活动的得力助手。数据开放方式:一,通过其“数据魔方”平台,商家可以直接获取行业宏观情况、自淘宝数据魔方己品牌的市场状况、消费者行为情况等,但是不能获得竞争对手的数据;二,通过第三方研究机构合作的方式,商家可以直接向研究机构获取服务。,*简介*,功能亮点,淘词分析行业的热词榜,随意查找关键词,诊断宝贝标题,帮助您及时更新关键词,优化标题引流量。自有店铺分析店铺内的成交、转化率等一些整体店铺的数据分析,帮助您了解店铺整体运营情况。行业分析俯瞰行业市场大盘,分析行业内热销宝贝,热卖店铺买家信息等。帮助您做品类管理、定价、定向营销。市场细分从品牌、产品、属性的角度分析热销宝贝,热卖店铺买家信息等。帮助您做更细致深入的市场分析。,数据量,据介绍,淘宝占据中国网络购物75%的市场份额,由此每天产生的数据量达到了7个T,大约等同于7000G的数据容量。这些数据容量当中大部分是由消费者、商家产生的,另外还包括物流公司和内部数据的一些信息等等。,*数据解析*,技术架构运作原理,数据产品的技术架构分为五层(如图所示),分别是数据源、计算层、存储层、查询层和产品层。位于架构顶端的是数据来源层,这里有淘宝主站的用户、店铺、商品和交易等数据库,还有用户的浏览、搜索等行为日志等。这一系列的数据是数据产品最原始的生命力所在。,在数据源层实时产生的数据,通过淘宝自主研发的数据传输组件DataX、DbSync和Timetunnel准实时地传输到一个有1500个节点的Hadoop集群上,这个集群我们称之为“云梯”,是计算层的主要组成部分。在“云梯”上,我们每天有大约40000个作业对1.5PB的原始数据按照产品需求进行不同的MapReduce计算。这一计算过程通常都能在凌晨两点之前完成。相对于前端产品看到的数据,这里的计算结果很可能是一个处于中间状态的结果,这往往是在数据冗余与前端计算之间做了适当平衡的结果。不得不提的是,一些对实效性要求很高的数据,例如针对搜索词的统计数据,我们希望能尽快推送到数据产品前端。这种需求再采用“云梯”来计算效率将是比较低的,为此我们做了流式数据的实时计算平台,称之为“银河”。“银河”也是一个分布式系统,它接收来自TimeTunnel的实时消息,在内存中做实时计算,并把计算结果在尽可能短的时间内刷新到NoSQL存储设备中,供前端产品调用。容易理解,“云梯”或者“银河”并不适合直接向产品提供实时的数据查询服务。这是因为,对于“云梯”来说,它的定位只是做离线计算的,无法支持较高的性能和并发需求;而对于“银河”而言,尽管所有的代码都掌握在我们手中,但要完整地将数据接收、实时计算、存储和查询等功能集成在一个分布式系统中,避免不了分层,最终仍然落到了目前的架构上。为此,我们针对前端产品设计了专门的存储层。在这一层,我们有基于MySQL的分布式关系型数据库集群MyFOX和基于HBase的NoSQL存储集群Prom,在后面的文字中,我将重点介绍这两个集群的实现原理。除此之外,其他第三方的模块也被我们纳入存储层的范畴。存储层异构模块的增多,对前端产品的使用带来了挑战。为此,我们设计了通用的数据中间层glider来屏蔽这个影响。glider以HTTP协议对外提供restful方式的接口。数据产品可以通过一个唯一的URL获取到它想要的数据。以上是淘宝海量数据产品在技术架构方面的一个概括性的介绍,接下来我将重点从四个方面阐述数据魔方设计上的特点。,技术原理,*新旧版对比(操作原理)*,新旧版对比总结,新版改进更为合理。通过细化“市场研究分析”为四个维度,且每个维度都包含多个角度详细的数据分析。帮助卖家能更好地分析当前市场,研究消费规律,能更好地抓住市场和机会,以达到更好地收益效果。,*操作实例*,在选择品牌分析之后,按照选择器直接选择类目和品牌,切换至热销宝贝排行榜即可查看,1.查看”三星“品牌下的热销宝贝排行,2.查看产品”苹果MacBookAir“的买家购买时段分析,如下图,选择产品分析,依照选择器的顺序,选中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论