八个步骤让你的企业数据化-可视化_第1页
八个步骤让你的企业数据化-可视化_第2页
八个步骤让你的企业数据化-可视化_第3页
八个步骤让你的企业数据化-可视化_第4页
八个步骤让你的企业数据化-可视化_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

八个步骤让你的企业“数据化”

什么样的企业可以称得上是大数据企业呢?恐怕没有人能够给出一个完美的答案。但是,直观地,我们可能觉得Google更像是一个大数据的企业,阿里巴巴也像是一个大数据的企业,而中国银行似乎不太像一个大数据的企业,尽管它每天也一样浸泡在海量的数据中。除了具有处理大量数据的能力外,之所以Google和阿里巴巴更像大数据的企业,是因为他们有深入的数据分析工具,利用数据分析的结果直接指导决策,而且经常推出基于数据分析的创新型应用,这还不包括类似于AlphaGo这样的奇葩。

本文节选自《为数据而生:大数据创新实践》作者:周涛这是我第三次以文字的形式谈论如何成为一个大数据企业。一是很早以前在“科学网”上写的一篇博客,二是为一本名为CodeHalos的书写的序言。这个版本可以看作是上两个版本的补充和扩充,同时也是本书一些重点内容的重述(为了保证本文的独立性,可以不依赖本书直接阅读,少量书中给出过的文献和注释在本文中重复出现了)。然而遗憾的是,并没有一条放之四海皆准的通往大数据企业的康庄大道,更没有点石成金之术可以让一个企业快速Google化。这篇结束语只是提出一些看得见摸得着的建议,藏在这些建议背后的大数据理念,或许更加重要。最后,数据管理平台的建设要量体裁衣,强调鲁棒性和可扩展性,没有必要一开始就投入大量经费。因为硬件成本的下降也很快,不用想太多半年甚至一年以后的事情,只要架构设计合理,到需要的时候扩充硬件是容易的。◆

◆Step4.建立海量数据的深入分析能力要想建立针对多元异构、跨域关联的海量数据,通过深度分析挖掘获取价值的能力,主要要培养两个方面的能力。第一,非结构化数据的分析处理能力。包括文本、音频、图像、视频、网络和轨迹等数据。受过传统商务智能和统计学训练的人,对于处理结构化数据非常在行,但是处理非结构化数据往往比较头痛——比如分布好做抽样,网络怎么进行抽样?所以,对于常见的,特别是和企业自身业务有密切关系的非结构化数据,一定要有一支队伍能够挖掘其间价值,甚至将其转化为结构化的数据。第二,大数据下的机器学习的能力。绝大部分我们可以想象到的应用问题,其本质都是分类或者预测问题,包括个性化推荐、精分营销、员工绩效管理、银行信用卡征信、小微企业贷款、生产线控制、精准广告和网点选择,等等。解决这些问题最有力的武器就是机器学习!特别是在大数据环境下,很多高阶的核函数慢得不行,大量的学习都必须采用线性学习器;而且数据非常多,很多时候都是在强噪音环境下寻找弱信号,单一分类器往往效果一般,必须要做集成学习。举个例子,在Netflix举办的百万美元电影个性化推荐大赛中,我们做过一些很优美的单模型,但是比起在比赛中最后获胜的集成学习模型,至少从精度上来说是弱爆了!有的读者要问了,高性能存储计算难道不重要吗?不得有一些懂Hadoop,懂Spark的技术高手吗?要不要在CPU阵列里面加几块GPU甚至可编程逻辑阵列呢?这个也重要,但是企业如果实力足够,可以采用成熟的解决方案,国际上顶尖的大数据服务商,例如IBM、HP和Intel都有不错的方案。但是我说的上述两点,是给企业培养人才和能力,而且至今也没有特别好的成熟的解决方案,所以更重要。最后,企业怎么建立这样的能力呢?首要办法是能够招聘到一流的大数据人才——多花点钱和股票。第二选择是以显示度项目为牵引,通过外部合作,培养自己的数据分析团队,既解决问题,又学习能力。企业做这类的合作,不要老想着一次性把所有东西都外包出去,要探索新方式,看看能不能成立联合小组共同进行研发,多投入一些人去学习。有一些供应商,特别是在某些方面有专长,但是还不属于国际一流的供应商,在发展过程中是能够接受企业这种要求的。◆

◆Step5.建设外部数据的战略储备企业走到这一步,就有点现代大数据企业的理念了,因为它不再仅仅局限于自己业务的数据了,开始看外面的世界了——很多大数据的重大创新,都是来源于把数据放在产生数据的业务体系之外去应用。举个例子,一个服装企业要解决设计生产的规划问题,仅仅看自己的销售记录还不够,要不要看看淘包、天猫和京东上服装的整体销售,了解什么款式、什么颜色、什么价位的服装在哪个地区最受欢迎呢?这就需要外部数据了!事实上,外部数据对于市场拓展、趋势分析、竞品分析、人才招聘、用户画像和产品推荐等意义重大,而网站、论坛、社交媒体和电商平台上聚集了很多有重要价值的公开数据,这些数据中的大部分可以通过分布式深网爬虫技术直接高效采集。所以,企业要有意识地开始建立自己的外部数据战略储备,不要“数”到用时方恨少。一方面,企业可以自建具备采集、清洗、存储和索引等功能的自动化系统,自动积累外部数据;另一方面,企业可以通过和数据供应商合作,得到一些亟需的数据。◆

◆Step6.建立数据的外部创新能力

企业很容易局限在自己的业务中不能自拔。所以,让企业理解外面的数据能够帮助解决自己业务遇到的问题比较容易,因为企业主和员工们每天都在想怎么解决这些问题,反过来,让他们去思考自己业务的数据能不能在其他地方产生重大价值,帮到其他企业,他们就没有那么敏感了。其实,这些创新性的想法往往能够带来新的巨大价值。比如,Google利用自身搜索业务产生的数据,进行电价和传染病流行情况的预测,取得了巨大成功。事实上,企业通过智能终端、传感网络、物流记录、网点记录和电子商务平台,等等,获得的第一手数据,很多都可以用于支持在跨领域交叉销售、环境保护、健康管理、智慧城市、精准广告和房地价预测等方面的创新型应用。把握住这些机会,就能够放大企业当前业务的价值,带来持久可观的收益。◆

◆Step7.推动自身数据的开放与共享伟大的企业懂得如何把最聪明的人集合起来,为自己服务。企业有了大量数据和一定的分析能力后,不能故步自封,而要充分借助社会的力量,尽最大可能发挥数据潜藏的价值。Netflix曾经公开了包含50多万用户和17770部电影的在线评分数据,并悬赏100万美元奖励能够将Netflix现有评分预测准确度提高10%的团队。现在的Netflix已经不再是一家电影在线租赁公司,而是国际一流的大数据企业了。除了法律上因为安全和隐私不能开放共享的数据,相当一部分都能够以各种方式开放出来——这种开放会带来更大价值!国际化的如Kaggle(英文平台,),国内如DataCastle(中文平台,),都是很有影响力的大数据创新竞赛平台。举个例子,电子科技大学大数据研究中心曾经在DataCastle上举办过学生成绩预测的比赛,总奖金才50000元,却吸引了915支队伍2000余名参赛者参加比赛,其中200多只队伍来自于“985”和“211”知名高校。这里面最佳解决方案的思路和方法已经被应用于教育大数据定量化管理的产品模块中了。最近现金巴士推出的“微额借贷用户人品预测大赛”更是吸引了1531支参赛队伍。还有一种最近新出的比赛方式,就是企业给出数据集的描述和样本数据,参赛选手设计创新型商业应用,提交产品说明或者商业计划书。企业通过这些数据开放计划,可以学习最先进的算法和最具创新性的数据应用思路,实现自身数据的价值最大化。◆

◆Step8.数据产业的战略投资布局企业有了一定的规模,光靠自己的能力还不够或者还太慢,就可以考虑通过投资的方式迅速形成自己的大数据能力甚至大数据产业布局。这类战略型的投资,有三个可能的出发点:(1)产业集成。从投资方原有优势产业或大数据前景广阔的重点产业入手,进行全产业链布局,集中力量。(2)技术集成。以数据采集、存储、计算、分析和可视化的创新型工具为主要投资对象,提供具有普适性的解决方案。(3)数据集成。以数据流动共享,发挥外部价值为理念,投资一批能够紧密合作、数据互补和可控性强的企业。对于原来没有从事过数据密集型和信息技术密集型行业的企业来说,第二类投资方向的风险特别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论