付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浅析:从LinkedIn看大数据挖掘应重视的四个变量
创事记:能否简要介绍一下LinkedIn?李玥:LinkedIn是一家面向商业客户的社交服务网站,2003年正式开通启动,距今已经10年的历史。2011年5月份,LinkedIn在美国纳斯达克上市。目前市值接近170亿美元。LinkedIn基本上有三个比较主流的商业模式:第一个渠道是人才招聘解决方案,最主要是解决公司招聘和人员求职的供需关系,这部分业务贡献了超过50%的收入;第二是,广告业务,企业可以在LinkedIn网站上瞄准不同人进行广告的精准投放;第三是,高级付费订阅服务,LinkedIn会提供更高级的产品,用户在付费订阅之后,可以利用高级数据提高工作效率。创事记:LinkedIn中国现状是怎样的?李玥:关于中国的策略,我能说的非常非常有限,因为LinkedIn还没有正式进入中国市场。现在我们在中国有超过300万注册用户。LinkedIn非常了解,中国是一个非常非常有潜力的市场。我们在探索到底应该是以怎样的方式进入中国,但是现在没有定论。我们最终的目的是让中国的职业人员能够在职场上更成功,这一点准则不会有任何变化。创事记:LinkedIn的数据分析团队的工作是什么?李玥:这个团队在LinkedIn上市前一年(2010年)开始创建,两年之内团队已经达到50人。这是在LinkedIn里面成长最最快速度的团队,现在我们还在不断的成长当中。我们的责任范围最大的一部分就是支持所有与LinkedIn运营盈利相关的服务。现在LinkedIn有近4000名员工,70%的人是通过我们来提供服务的。我们的团队组成是:一个数据采集的专门团队,一个专门做数据挖掘的团队,在这之上我们还有分析的团队和每个商业渠道挂钩起来,这样会更接近他们的业务。我们跟LinkedIn所有相关的职能部门一起合作,包括销售部门、市场营销部门、产品部门、工程部门,还有运营部门。我们所有的数据挖掘全部是通过一个技术平台做出来的,但是在这之上,会对不同的商业应用、商业需求单独去做处理。创事记:每次商业分析需要处理多大的数据?李玥:一般的数据处理起来,至少要到TB(1TB=1024GB)的水平。比如说,我们做一个预测的模型,基本上要准备的数据达到几个TB,然后再做数据挖掘,最后做出最后的预测。最后的预测可能看起来很简单,比如说是Yes或者是No,但是后台数据采集、数据处理,创建模型是要花费很多很多时间。创事记:LinkedIn如何获取这么多的数据,这些数据都是免费的吗?李玥:很多的数据实际上是LinkedIn本身的数据。我们有自己的用户,他们每天会在上面发布不同的信息,会更改自己的数据。我们也会花钱获取其他数据。根据商业需求不同,我们会跟业界比较知名的数据服务商来合作,比如Gartner。创事记:LinkedIn大数据解决方案采用哪种基础架构?李玥:LinkedIn整个数据分析解决方案里主要有三个非常重要的组成部分,一个是Teradata数据仓库解决方案,它支持很多报表系统,可靠性高;第二个是TeradataAster,Aster有很多已经设置好的函数,可以让分析更简单、更快速,而且让我们做大量分析时,变得更有效率;第三部分就是Hadoop,应用于真正特别巨大的数据处理和存储。我们将这三种产品和平台作为一个整体,在此基础上做出集中的数据结构架构。Teradata为客户提供是企业级解决方案,有专门为大公司设计定制功能,而且在这个系统里起着非常重要的作用。创事记:能否举一个简单的大数据挖掘案例?李玥:在做分析和预测的时候,怎么样的一个过程才能做出对将来最好的预测?我举一个例子。比如说,市场营销过程中你想去给特定的人群发一些消息,说我给可以给你们你一些优惠,让你们去购买某些产品。但你怎么知道有哪些人会更倾向于去接受你的信息,或者说接受你的介绍?那我们就会看,以前发生的事情。了解以前发生的事情,了解为什么这些事情会发生,以及它背后的原因,然后再用这些去解释将来会发生的事情。总体上就是这样一个大的方法。创事记:LinkedIn在做大数据挖掘时会重点参考的变量是什么?李玥:一般性我们看三大块。一块是,所有用户相关的属性。比如说你是男性还是女性,年龄是多少,或者说工作方式是什么,在哪家公司,在哪个行业,在哪个地点。这些数据就是相关信息。这些信息基本上属于一种比较静态的东西,也是所有行业到现在为止,可能最成型的一种数据变量。这一块我们看得最多。然后是用户的行为数据。很多公司逐渐看到这部分数据,但以前并没有太重视。比如说,我决定去买一个投影仪,我可能之前会做很多很多的事情,最后才会决定买它。如果只是看我买它的一条记录,那么它只是一条数据记录,但是之前为什么决定买这个东西,可能会有几千条、几万条不同的信息记录下来。这里边就有很多不同的东西,包括你是不是某一种一系列的行为,才导致最后的购买决定。这一块数据量上要大很多,从分析量上来讲,难度也高很多。但根据我们的经验,这个对你的预测的准确性贡献,其实也增加了很多很多,所以这一块是非常非常重要的。第三块是,与社交网络相关的信息。它对你的预测也会造成非常非常大的影响。举个例子,你在LinkedIn上或者Facebook、微博上,跟你相似的人往往会做出与你接近的决定。一个最原始的理论,物以类聚,人以群分。跟你相连接的这些人,往往他们喜欢的东西,或者他们做过的事情,是你以后可能会去做的。根据以往的经验,你连接的人当中,已经做过这些事情,如果我告诉你他们做过这些事情的话,你会更加的可能也会做这些事情。创事记:还有其他变量么?李玥:这三大变量基本组成了我们看的最多的数据。当然每一个分类里面,又会有很多很多的数据。其实我们会花很多的精力去采集这些数据,然后不断地扩充我们的变量仓库。因为随着数据的增加,预测的准确度也会越来越高。此外,时间序列也是非常重要的。很多时候你做的这件事情离现在有多久,会对你的预测产生
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电动车配件交通工具618宣传及营销方案
- 纺织面料辅料配套双11宣传及营销方案
- 2026年汉服知识普及活动方案策划书
- 冷冻食品定义及储存注意事项
- 2026年土木工程中级职称考试题
- 2026年网页设计师笔试题库
- 2026年通信招聘笔试网络技术题集
- 2026年事业单位招聘笔试仿真题解析
- 2026年中国素食餐饮认证考试预测题
- 单元12教案 无线局域网安全技术
- (已压缩)广东省工程勘察设计服务成本取费导则(2024版)
- 【MOOC】《数据库系统》(重庆大学)期末考试慕课答案
- 内部审计学第三版张建平课后答案
- 旅游投诉相关知识培训课件
- 2025云南文山市教育体育系统选调中学教师21人笔试备考题库及答案解析
- 矿石物流仓储管理方案(3篇)
- 产品封样管理办法
- 河南省安全生产职责清单
- 北京市北方交通大学附属中学2025届物理高一第二学期期末综合测试试题含解析
- 贵州省黔东南苗族侗族自治州从江县下江中学2024-2025学年度七年级下学期期末生物学试卷(文字版含答案)
- 物业防疫消毒管理制度
评论
0/150
提交评论