版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、在我的之前的一些博客中,我提到了生成认知的必要性和重要性, 并提供了一个认知应用的例子。我始终认为认知应用是对于希望通过挖 掘大数据从而改进决策和解决重要问题的公司的关键所在。为了更好的 理解和领会开发这类应用的必要性,考虑在大数据领域正在发生什么, 并且评估我们在商业智能系统上的经验,及它应该如何驱动我们理解认 知应用是十分重要的。由于我认为认知应用是大数据发展的下一个转折(参见最近使用ibmwatson平台建立的这类应用举例),我将要在一系列博客中进一步探讨 这个话题。在这篇博客中,我对于数据分析在过去25年的演变进行了 观察。,特别是当我们来到大数据时代,开发认知应用是必然之举。在 第二
2、篇博客中,我将更为详细地描述这类应用,并且提供一些例子。在 第最后的第三篇博客中,我将讨论投资者对认知应用的兴趣,并描述我 最近对这一领域的创业公司的投资。在这些博客中,我的分析和理解均 基于本人作为三十多年的企业家、量两分析应用创业公司的创始人以及 在这一领域进行了 15年投资的风险投资人的经验。数据分析在过去25年随着过去25年中数据量的大幅增加,针对决策制定的数据理解都 由两个步骤组成:创建数据仓库以及理解数据仓库的内容。数据仓库以及它的前身一企业数据仓库、数据市场等,是构造专业 数据库所必须的基础架构。这些数据可能来自于一个单独的数据源(例 如客户关系管理应用的数据库)或者来自整合过的
3、一系列不同的数据源 (例如将一个客户关系管理应用的数据库和一个包含每个客户的社交媒 体交互数据的数据库整合起来)。这些数据可能是结构化的(例如货币被 描述为每个用户支付的数量)、非结构化的(例如一个客户和一个服务专 员之间以文本形式的交互内容)。专业化数据是那些一旦被抓取,就是 干净的、有标签的、并且自动地或被(比人们认为更频繁地进行)人工描 述的。在过去几年里,我们已经通过大量使用开源软件、云计算、商用硬 件等来降低数据仓库的开销,并进一步改进我们管理更多样、大量和高 速产生的数据的能力。我们已经从只有诸如金融服务的花旗银行以及零 售业的沃尔玛之类的大公司才能负担的、干万美元开销的数据仓库转
4、向 对于中小型企业可以负担得起的数据仓库。最近,低开销的服务提供方, 诸如亚马逊的redshift,谷歌的bigquery ,甚至是微软的azure ,已经把数据仓库 移到云上。最终,数据仓库对于普通企业来说都是可用的。随着数据仓库的崛起,数据分析报告的交付已从打印转向数据化数据理解的第二步涉及到通过数据分析来理解数据仓库的内容。在 商业环境中,这往往是通过报告和关联的可视化来完成,有时候也会使 用更加定制化的可视化和诸如神经网络的机器学习算法(机器学习虽然并不是新概念,但几乎从数据仓库作为数据存储和管理工具出现开始就 被使用)。随着数据仓库被更多的各行各业的公司所采用,我们见证了可以创 建的
5、报告的形式的逐渐改变,报告被展现给分析师和决策者,以及准备 报告的人。在早期(80年代末90年代早期),商务智能报告由技术专员 创建,他们也是通过向数据仓库提供函数和查询来得到报告。这些报告 被封装(例如,它们可以被修改,但是有很大难度,且只能被同一个创 建报告的技术专员所修改),并在计算机打印纸上呈现。后来,尽管这 些报告仍然被封装,它们可以在电脑上通过专门的报告程序来呈现,再 后来,可以呈现在包括智能电话和手持终端运行的网络浏览器上。近年 来,查询创建和报告撰写的任务从技术专员转交给了商业用户。然而, 尽管查询和关联的报告变得更快、更灵活、被更广泛的使用,这些报告 的主要用户商业分析师们,
6、仍然困扰于在大量信息中发现在报告中 存在的最简单的模式。最重要的是,这些用户纠结于基于报告所包含的 信息应该决定采取什么行动(参见图1的例子)。图1关于复杂的数据模式和可视化的一些常见的例子随着更多数据的产生,我们已经可以更有效地管理数据所带来的开销,但是仍然挣扎于进行有效的数据分析受到全球因特网的普及,它所带来的网络连通性的驱动,物联网之 类的新领域产生的前所未见的海量数据,以及基于这些所创建的大量应 用,使得我们被数据所淹没。快速数据和慢数据,简单数据和复杂数据, 所有这些数据都是前所未有的大量。数据的量变的多大了呢?我们已经 从在2014年产生大约5泽字节的非结构化数据到2020年将增加
7、到大 约40泽字节的非结构化(参见图2)。all global data in zettabytes401zb 二 1,126,000,000,000,000,000,000 bytes (approx)355 0 5 0 5 02 2 11图2非结构化数据在2005至2020年的实际和预期增长对比特别是在上一个十年间,随着数据量变得更大,企业的it策略核 变为用很少的资源做更多的事。公司的数据仓库开始面临两大问题。第 -,其中的一些系统不能有效地管理所获取的海量数据,因而数据不能 被应用有效的利用。第二,开销变得不能承受的高,成为数据管理方面 另一大挑战。与此同时,当新t弋的数据管理软件(例
8、如hadoop)被谷歌、雅虎 等重量级科技公司开发出来,一些部分解决方案开始出现。一开始,这些软件在商用硬件上运行,并且很快开源,从而使得企业可以以较低的开销来解决它们的大数据问题。cloudera,hortonworks以及一些其他提供开源软件服务的公司在大数据基础设施领域扮演了重要角色。我将这些解决方案称为部分是因为在管理 数据的同时,这些系统并不包含企业所使用数据仓库系统的那些复杂的、 专用的功能。但是这些新系统擅于构建数据湖泊,适用于多样化的大数 据环境,并旨在通过更低的开销替代或增强某些类型的数据仓库。尽管我们有效管理大数据开销的能力得到了改进,但是我们分析数 据的能力,不计开销的情
9、况下,仍然没有提升。尽管大众媒体宣称从数 据中得来的认知结果将是新的石油(或金子,挑选你喜欢的隐喻),但市 场研究公司idc预测,到2020只有很少一部分采集的数据会被分析。 我们需要分析更多抓取的数据,并从中提取更多的信息。我们正在致力于改进我们分析数据的能力,但是面临着数据专业人员的短缺为了收集和分析更多的数据,同时不放弃报告的生成,我们开始广 泛采用机器学习和其他基于人工智能数据分析技术的自动化的信息抽 取方法。然而,这些方法要求使用一类新的专业人员数据科学家。尽管我们看到数据科学家的数量潮涌般增加,但是我们需要更多,并且, 与正在产生的数据相比我们永远不能提供足够的数据科学家。麦肯锡曾
10、 估计,到2018年,美国将面临(大约14万至19万缺口)人才缺口 ,这 些人拥有可以从收集的数据中提取认知结果的深度分析技能。我们还将 缺少大约150万拥有量化分析技能的、可以基于数据科学家生成的大数 据分析来做出重要商业决策的经理。机器学习改进了我彳i'发现数据中关联性的能力,但做出决策的要求 的时间变短了,而数据产生的速度增加了商业智能是一个出现了近40年的领域。统计分析和机器学习技术 被使用的时间则更长。在这一时期,我们已经提升了我们从数据集中识 别关联性的能力,但是做出决策的时间要求正在变短,而数据产生的速 度不断增加。举例来说,公司的首席金融官们可能有一个月的时间来创 建金
11、融预报,然而一个自动的在线广告平台只有仅仅10毫秒的时间来 决定把d那一个数字广告展现给特定的用户(参见图3)o此夕卜,一个首席 金融官仅需要参考几十亿字节的数据就可以得出决策,而在线广告系统 不得不分析万亿兆字节的数据,大部分的数据还是近实时生成的。1111/21 hrmlns 1 min10 橫殍month weekdayday图3各行业做出决策需要的平均时间示意 在一些应用领域,简单地识别出数据集中的关联性对做出决策来说 已经足够。在其中一些高价值高投资回报的领域,通过数据科学家和其 他专业人员来从大量数据中抽取信息是合理且必要的。计算机安全威胁 检测以及信用卡欺诈检测就是两个这样的领域。在这些领域里,作岀决 策的时间是非常短的,做出错误决定(过度保守)的代价,至少最初并不 是非常高。将一个交易视作欺诈或者将f行为视为安全入侵的代价也 很低(例如持卡人的不便或是对于系统管理员的一些网络取证)。但是, 没有检测到在已建立的行为模式中的异常的代价将会更高。为了跟上大数据的节奏和改善我们对信息的使用,我们需要能快速 而廉价地抽取相关性并将其与行动关联起来的应用考虑到预期的数据科学家和具有量化分析能力的商业用户的短缺, 以及我们迫切的继续挖掘已经收集到的海量数据的需求,我们要能更好 地开发分析应用,使其能够生成认知并关联到
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- (2026年)病历质量管理制度
- 2026年上海市眼病防治中心医护人员招聘笔试参考试题及答案详解
- 2026年西安市第九医院医护人员招聘笔试参考题库及答案详解
- 2026年遵义市第一人民医院医护人员招聘考试参考试题及答案详解
- 2026年江西省肺科医院医护人员招聘笔试备考试题及答案详解
- 2026年招商银行(南昌分行)人员招聘笔试参考试题及答案详解
- 2026年山西中医学院附属医院医护人员招聘笔试备考题库及答案详解
- 2026年北京中医医院平谷医院医护人员招聘考试备考题库及答案详解
- 2026年沈阳医学院附属第二医院医护人员招聘考试参考试题及答案详解
- 2026年贵州医科大学第三附属医院(平桥院区)医护人员招聘笔试参考题库及答案详解
- 列车脱轨的应急处理课件
- 2025年陕西省榆林市神木县小升初数学试卷
- (正式版)DB32∕T 5153-2025 《高速公路光伏发电工程设计规范》
- 水利工程施工专业课件
- 河南地理文化课件
- 电子商务专业英语(附全套音频第3版)-习题答案
- 《高空作业安全培训》课件
- 师道尊严:教师礼仪与形象塑造课件
- 暖通空调系统设计手册
- 天津市小升初试题及答案
- 《山东省建设工程消防验收技术导则》
评论
0/150
提交评论