大数据的机遇与挑战

上传人：1*** IP属地：湖南上传时间：2024-07-24 格式：PPT 页数：78 大小：26.95MB 积分：4.8 举报 版权申诉

已阅读5页，还剩73页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据的机遇与挑战

—从分析与处理角度目录第一部分大数据：机遇与挑战第二部分大数据分析与处理中的关键科学问题第三部分关于若干大数据科学问题的研究第四部分结语大数据：机遇与挑战大数据需要大智慧大数据是需要新的处理思维和技术的信息资产。BigDataneedsBigjudgement!大数据与大数据时代背景：信息技术革命与经济社会活动的交融大数据（数量巨大、种类繁多、增长极快、价值稀疏的复杂数据）；拥有大数据是时代特征、解读大数据是时代任务、应用大数据是时代机遇科学观测、实验过程的记录（理想的小世界）

经济社会活动的碎片化再现（真实的大世界）大价值！解读各自领域的大数据正成为各行各业的基本科学活动（人类基因组

解读DNA数据是生命医学的基本科学活动）。(LaneyDouglas,Gartner.June,2012）

(Shah,etal,HarvardBusinessReview,2012)大数据：机遇与挑战发展大数据技术是国家战略重要性：社会媒体、人口流动、居住交通数据交通流、医疗、商业、环境、劳动力等数据医疗、医保、健康、影像等大数据环境、气象、交通、社会发展等大数据突发事件预测、关键人群监测城市智慧管理环境治理医疗诊断方案大数据技术：有关如何收集、整理（存储）、解读和应用大数据的理论与方法大数据技术是解决众多国家重大现实需求问题的共性基础大数据：机遇与挑战大数据技术是一个国家创新能力的核心要素及核心竞争力指标：它能帮助人们从大数据中发现新知识，创造新价值，形成新理念，因而是认知世界与改造世界的能力（即国家创新驱动发展的一种能力）大数据具有重大的科学社会经济价值价值：大数据：机遇与挑战“大”是一个相对的概念反映真实世界的数据（碎片）其量己达到可以从一定程度上反映其真实面貌的程度。大数据的“大”（量变

质变）

数据量+计算能力为什么突然变得如此有用？大数据：机遇与挑战在大数据技术中，分析与处理是核心核心：数据是基础、平台是支撑、分析是核心、效益是根本领域科学问题一：大数据资源管理与公共政策领域科学问题二：大数据高效获取、存储、调用与处理的信息技术领域科学问题三大数据分析与处理的统计学与计算基础领域科学问题四大数据工程（结合领域的大数据应用)数据获取与数据管理数据存储与处理数据分析与理解结合领域的大数据应用大数据技术需要多学科综合研究数据价值(MITTechnologyReview,2015)大数据：机遇与挑战统计（电商、语音识别等）查询（google翻译、风险、信用评估等）比对（电商等）排序（网页排序、推荐系统等）融合（互联网＋）预处理（对齐、配准、标准化等）发展趋势预测（负荷预测等）共性结构发现（电力客户细分等）模式识别（设备故障诊断等）关联性（设备交叉故障等）关键要素分析（售电量影响因素分析等）优化与控制（电力调度等）处理分析大数据：机遇与挑战聚焦大数据分析与处理具有紧迫性据IDC统计数据显示，中国目前拥有的数据量占全球的14%（己收集），但数据利用率不到0.4%，大量的数据“沉睡”在各个角落，未发挥应有作用。大数据大分析大垃圾大价值公众要的是答案、不是数据！大数据：机遇与挑战

传统统计vs大数据方法挑战：目的目的推断抽样（独立同分布）n→∞（估计分布、极限定理）经典统计方法推断大数据分析方法传统的统计方法预期的大数据方法直接分析（数据量巨大、计算能力超强使变得可能）大数据（自然产生，不满足独立同分布）基础在哪？算法是什么？合理性在哪？大数据：机遇与挑战分析目标的改变数据特征的改变中小规模、固定尺寸、非时变、单一结构、集中存储超大规模、分布存储或数据源、流数据、超高维、异构等；寻找统计规律，因果分析为主关联性分析，支持智能决策样本等于母体？相关性能替代因果性？查询将替代推断？大数据可代替理论？BigData

orBigMistake？---Financialtimes,2014---Science,2014认识论上的困惑（从数据到模式、从模式到知识、从知识到决策每一个阶段都需要猜想、假设和理论的支撑）！

认识论上的困惑挑战一：方法论上的冲击分析基础被破坏（统计学基础、计算理论基础、逻辑基础等）计算模式受拷问（异构环境下的多粒度分布并行计算）处理算法不可用（必须采用新计算模式，形成新方法论）真伪更加难以判定（基础不牢，地动山摇！）大数据：机遇与挑战独立同分布被破坏大数定理和中心极限定理的条件（样本数>>维数）—D.Lazer,etal.,TheParableofGoogleFlu:TrapsinBigDataAnalysis,Science,2014GoogleFluTrends:大量误报流感爆发规模。(Estimatinghigh100outof108weeks)P值检验的基础被破坏StaticallyHypothesisInferenceTesting(SHIT!).对于一大类问题应用，P=0.01导致11%的误报率；

而P=0.05导致29%的误报率！—R.Nuzzo,StatisticalErrors,Nature,2014

方法论上的冲击挑战二：大数据：机遇与挑战谣言比真理多、科学内涵的探讨少、局部有进展（偏重架构、应用与实践方面探索），但缺少对科学问题的系统研究。核心基础和共性技术尚未建立起来。国内外处于同一水平。以压缩感知为代表的处理高维数据的稀疏性理论与方法（L1,L1/2,SCAD）以卷积神经网络为代表的深度学习算法(尤其对于图像大数据)以经验级联贝叶斯(EHB)与正则化贝叶斯方法为代表的结构发现方法与推理方法以hadoop、spark、Petuum为代表的分布式计算架构与编程模型以排序与搜索、排序学习、参数服务器等为基础的互联网应用实现全球首部稀疏微波成像验证性原理样机深度网络

对于上述挑战性问题，近年来科学界与产业界都开展了广泛的探索与实践，取得一批令人振奋的结果。

动态：大数据：机遇与挑战

聚焦大数据分析与处理的核心基础与共性关键技术研究，力求在分析基础、处理算法、真伪性判定、结合典型领域的示范应用等方面取得突破，为各行各业大数据应用提供科学支撑和共性技术支撑。

国家应有大数据重大战略对策建议：大数据：机遇与挑战切入好：大数据技术涉及方方面面，但分析与处理是核心。经过近几年的“期望膨胀期”之后的冷思考，对其中科学问题有了更准确的把握，对研究方法有了初步尝试有了开展研究的基础。大数据：机遇与挑战机遇多：数据分析与处理是中国人擅长领域，有优良传统和较深厚的积累，尤其是通过近年来的反复研讨与实践，对解决大数据分析中关键科学问题有了一些新的解决思路，再加之，国家重视、产业倒逼都是难得机遇，为该领域的突破带来了可能

有了取得突破的可能。大数据技术发展难得机遇“在大数据科学平台、干细胞与再生医学等满足国家重大需求的领域方向、我国可能实现重大科技突破的领域以及世界可能发生重大科技事件的领域加快或加强重大科技布局”。——认为大数据科学平台是满足国家重大需求的领域方向和我国可能实现重大科技突破的领域。良好积累，有取得突破、占据领先的可能中央重视，有体制优势产业倒逼，有创新驱动的原始驱动力大数据：机遇与挑战正当时：“研究大数据、投资大数据”已是当下蜂踴而至、热情至高的价值取向与选择。谁为如此高涨的大众热情负责？解决大数据发展基础与共性技术问题，引导大数据产业健康可持续发展是国家责任。我们科学家应有的承担学界期盼为此共同努力！目录第一部分大数据及其面临的挑战第二部分大数据分析与处理中的关键科学问题第三部分关于若干大数据科学问题的研究第四部分结语大数据关键科学问题（挑战的进一步分析）方法论上的冲击分析基础被破坏（统计学基础、计算理论基础、逻辑等）计算模式受拷问（异构环境下的多粒度分布并行计算）处理算法不可用（必须采用新计算模式，形成新方法论）真伪性更加难以判定（基础不牢，地动山摇！）挑战一挑战二挑战三分析基础被破坏计算模式需革新决策应用缺基础挑战一（分析基础被破坏）统计学基础被破坏(Nature,2014)计算理论必须重建对大数据计算如何定义可解？对大数据计算如何区别难和易？对大数据如何度量计算复杂性?

(时间十存储十通讯十能耗?)

基于线性的相关性不再能完全刻画随机变量之间的相关；破坏表示基底的无关性假设破坏建模f(x,y,z)中对x,y,z的独立性假设！数据可能随时间变化（）,具有了生命周期且活性发生变化，分析结果（如聚类Cluster()）对t具有某种稳定性吗？目标一科学问题一大数据分析与处理的统计学与计算基础

在大数据分析与处理的统计学与计算基础方面取得突破性进展，建立起若干新的理论，推动形成数据科学的基础理论体系。以线性回归为例,中对于高维未必总是成立（原因：高维时

难保证

与X中某些分量不相关；或者在线性相关的意义下，所选变量X无法完全刻画响应）

变量选择与预测失效！破坏p/n->0的假设（典型例子：DNA的维度p=30亿碱基对，样本个数n=病人数，显然p/n为很大的数，并不趋于0！）

大数定律和中心极限定理不再成立！大数据关键科学问题（科学问题一）挑战二（计算模式需革新）环境：单一结构（CPU，MIC）

混合结构（CPU＋GPU＋MIC共存协作计算）程序：串行程序设计

MPI并行

多粒度异构分布并行模式1：计算密集型

数据密集型

混合型（计算密集型＋数据密集型）模式2：传统并行

分布式并行计算模式更新传统算法失效分布式计算可行吗？解什么时候可组装？流数据如何高效处理？随机计算高效吗？

异构并行可靠吗？（大数据基础算法）基于Hadoop的处理可行吗？所出现的几个算法并没有理论上的可行性支持！X1X2X3……Xn随机机制D1DkDm….….聚合机制目标二科学问题二大数据分析与处理的新型计算模式与高效算法

提出适应异构计算环境下多粒度分布并行计算模式的系列高效算法（大数据算法），形成大数据处理的领先核心技术。大数据关键科学问题（科学问题二）目标三科学问题三挑战三（决策应用缺基础）面向典型领域的基于大数据的科学发现及其方法论依据

在国家重大需求的若干典型领域，形成大数据分析与处理的行业核心技术，促进相应领域科学发现新模式的形成，推动各行各业利用大数据的能力与水平。大数据行业应用需求旺盛，但缺乏有效的共性技术支撑与理论指导；基于大数据的科学发现（所谓的第四范式）仍缺乏有效的方法论支撑与理论基础；基于大数据的科学发现真伪性判定更加困难决策分析少基础（FinancialTimes，14）以查询、简单模型为基础的大数据决策方式其逻辑基础何在？如何评价其有效性、可靠性？行业应用缺支撑大数据关键科学问题（科学问题三）大数据关键科学问题：内涵如何从大数据中获取知识、支撑决策、赢得价值？支持大数据分析与处理的统计学基础与计算基础；大数据分析与处理的新型计算模式与高效算法；面向典型领域的基于大数据的科学发现及其方法论依据。数据科学问题（1个中心3个问题）数据表示与数据建模

分析理论与分析方法

计算模式与计算方法

决策分析与真伪评价

主要研究大数据的高效表示及相应的计算建模方法论：主要研究内容1：大数据表示与大数据建模大数据的表示理论与方法（新型编码、基于特征的表示、隐结构表示、异构数据的统一表示）大数据抽样理论（对样本总体的推断、数据的集约表示、支持分布随机处理的抽样理论）稀疏建模的理论与方法（高阶、非线性稀疏性理论与方法）高维数据建模的理论与方法（降维、高维统计推断等）高不确定性数据的建模（统计、概率、逻辑、认知模型等）1大数据关键科学问题：内涵

主要研究大数据分析的统计学、计算理论基础与共性分析方法等：主要研究内容2：大数据分析理论与大数据分析方法大数据分析的统计学新理论（相关性问题、伪相关问题、超高维问题、内生性问题、稳定性问题等）大数据计算的复杂性理论（重建可解性理论、复杂性理论、设计可行近似算法等）大数据机器学习与数据挖掘新方法（针对流数据、分布式数据、超高维数据、高度不确定性数据的基础算法，等）大数据可视分析方法（高维特征提取、几何空间化方法等）2大数据关键科学问题:内涵

主要研究分布式环境下的大数据分析与处理的新型计算模式与基础算法：主要研究内容3：大数据计算模式与大数据计算方法分布实时计算问题(分布并行的计算架构与编程新模型、分布式计算的可行性理论、大数据算法设计等)现代超算问题(异构计算环境下的计算优化、多粒度分布式并行环境下的新编程模型、大数据超算算法等)非结构化信息处理(异构数据的统一表示与分析方法、基于认知的非结构化信息处理方法等)多源异构信息融合(多模态异构数据的融合表示与推理、多母体数据的统计推断、跨领域迁移学习等)3大数据关键科学问题:内涵

结合典型领域，验证并展示所发展的新理论与新方法的有效性，形成相应领域基于数据科学发现的方法论：主要研究内容4：大数据决策分析与结果真伪评价基于大数据分析决策的逻辑基础大数据科学发现的可证实性方法与验证方法典型领域的基于大数据的科学发现：4社会安全（基于多源数据融合的群体监测与事件发现）医疗健康（医疗影像数据分析处理、医保与体检数据分析）电力调控（市场环境下电网运营、运行、调度策略）高铁安全（高铁运行监控、安全态势评估等）大数据关键科学问题:内涵解决若干统计学基础、计算理论基础方面的关键问题；提出一批新概念、新理论和新方法，形成数据科学基础理论体系。创立大数据算法设计方法学，提出大数据分析与处理的系列基础算法，形成具有独立自主知识产权的核心技术族。

选择2－3个国家重大需求牵引的典型领域，提出大数据问题解决系统方案并在应用上取得突破，形成领域相关的科学发现新模式与行业应用核心技术。大数据分析基础大数据处理算法大数据应用示范大数据关键科学问题（期望突破）提出大数据相关性新度量;提出并发展稀疏性超高维统计推断和检验新理论;建立伪相关判定准则和基于内生性的超高维统计建模理论;提出流数据、分布数据情形下的可解性与难解性理论及方法。在异构分布式计算模式下，系统建立聚类、分类、回归、相关性分析、大规模线性代数问题求解等大数据处理基础算法。

在国家安全、医疗健康、电力调控、高铁安全等国家重大需求领域，应用大数据技术取得突破性成果，形成领域相关的科学发现新模式与行业应用核心技术。

大数据分析基础大数据处理算法大数据应用示范大数据关键科学问题（期望突破）目录第一部分大数据及其面临的挑战第二部分大数据分析与处理中的关键科学问题第三部分关于若干大数据科学问题的研究第四部分结语关于若干大数据科学问题的研究大数据分析与处理是传统统计学分析、智能信息处理（机器学习、数据挖掘）、数据库技术的延伸和发展。在这些领域，国内己经形成了一批优势的研究群体，并取得一批国际领先/先进水平的研究成果。马志明院士徐宗本院士鄂维南院士李国杰院士高文院士李未院士关于若干大数据科学问题的探索西安交大课题组的研究超高维问题：稀疏建模理论与方法大数据算法问题：方法论与分布式计算非结构化信息处理问题：视觉模拟算法关于超高维问题大数据超高维问题大数据超高维问题：“决策要素（）伴随大数据规模(n)呈现更高量级”所引起的解的不适定性与经典统计推断失效问题。经典统计学：n>>p;高维问题：p>>n;

大数据高维问题：p=O(exp(n)),n->∞.线性模型:数据：基本科学问题如何补足信息使问题可解?高维统计推断超高维数据的低维特征表示

研究热点：利用稀疏性先验（压缩感知、低秩分解、高阶与非线性稀疏）关于高维问题的研究（稀疏性先验）（典则）稀疏性：信息表示的普遍属性。意指：一个观测中感兴趣的信息单元在整个单元中仅占少数部分的性质。通常用表示向量x的非零元素个数刻画。稀疏信号稀疏图像稀疏SAR场景(线性)变换稀疏性：信息表示中更为普遍的属性，指在某个线性变换A下，Ax具有典则稀疏性。(用来刻画)关于高维问题的研究（稀疏性先验）社交网络语义分析结构稀疏性：以某种结构方式所呈现的稀疏性。主要用于刻画属性间的相依关系，是处理多视角、多通道信息融合的重要工具之一。结构稀疏度量：组间稀疏(q范数)，组内合作(p范数)特征提取基因序列分析[Jenatton2010]关于高维问题的研究（稀疏性先验）关于高维问题的研究（稀疏性先验）非线性稀疏性:线性变换（表示）稀疏性向非线性的推广，即在某个非线性变换T下，T(x)具有稀疏性（用

刻画）。稀疏神经元响应(Barlow,1979;Roland,1993)响应稀疏性非线性变换稀疏压缩感知图像处理特征提取机器学习

地震信号处理……稀疏信息处理：涉及具有稀疏性的信息源的信息处理。稀疏性问题：一个与大量疑似要素相关但本质上仅由少量要素决定的问题。稀疏性问题模型:关于高维问题的研究（稀疏性问题）特殊情形信息获取模型L0框架L1框架（S.Mallat(1993),J.A.Tropp&D.Needell(2007,2009)等）挑战与问题

只在很严格的条件下才有L1/L0

等价性（Donoho,2006）；L1框架不能保证在最少采样下完全重构信号；L1理论对于正规化约束（）问题失效.（Donoho(1994,2006),R.Tibshirani(1996),Candes,Tao&Romberg(2006)等）L1范数是L0范数的凸包络关于高维问题的研究（解决思路）稀疏性问题传统解决思路基于Banach几何启示及Lq/L0的等价性研究（相位图方法），徐宗本等提出了L1/2正则化框架（Xu,Proc.ICM，2010）。L1/2框架sparsestsparsenotsparsenotsparse？NP

problemnon-smoothconvexsmoothandconvexhardtosolve

Banach几何启示

相位图研究sufficientlysparsenon-convex关于高维问题的研究（创新思路）如果q=1/2,F是α-Lipschitz连续，.则的解满足:其中，是由下述阈值函数所定义的对角非线性阈值算子：表示定理（Xu,et.al.,L1/2Regularization:

Athresholdingrepresentationtheoryandafastsolver.

IEEETNNLS,2012）.解的表示理论：一个问题的的解是否具有解析表达形式？关于高维问题的研究（L1/2正则化理论）对固定的，记。则问题的解满足：或或

择一性直接推出问题的解之稀疏度

与正则化参数的如下基本关系:其中表示向量的第

个最大分量

问题的解是有限的定理Xu,et.al.,L1/2Regularization:Athresholdingrepresentationtheoryandafastsolver.

IEEETNNLS,2012.解的择一性理论：解的阈值截断性质，阈值等于多少？关于高维问题的研究（L1/2正则化理论）RIP(Candesetal.,2005,2006,2007):Coherence(Donohoetal.,2001,2003):定理.对于任意的

k-稀疏信号x*：1)

若

则(P1)精确恢复x*;(Candes&Tao,2008)2)

若

则(P1)精确恢复x*;(Lietal.,2011)3)

若

则(P1)精确恢复x*;(Caietal.,2012)4)

若

则(Pq)精确恢复x*;(Wangetal.,2010)5)

若

则(P1)精确恢复x*;(Donoho&Elad,2003)6)

若

则(P1/2)有限步精确恢复x*;(Zengetal.,2014)重构理论重构理论：在什么样的条件下通过松弛模型可完全重构原稀疏信号？关于高维问题的研究（L1/2正则化理论）RIP(Candesetal.,2005,2006,2007):Coherence(Donohoetal.,2001,2003):采样数理论：至少需要多少采样可保证完全重构原始稀疏信号？定理.假定信号维数为N,则重建k-稀疏信号所需的测量数M满足：1)对于确定性矩阵：;(DeVore,2007)2)

对于高斯(Rademacher,亚高斯)随机矩阵:

;

(Baraniuketal.,2008)3)

对于Fourier(Hadamard)变换子矩阵：;

(Donoho&Tanner,2009;Dossal,Peyre&Fadili,2010)采样数理论关于高维问题的研究（L1/2正则化理论）

将通常的正则化参数选择问题（连续问题）划归到了稀疏度指定问题（离散问题）。这一化简有重要意义。对于k稀疏问题，给出了最优的正则化参数设置策略；然而很多学习问题本身就是一个k-稀疏问题。

步骤1(求解k稀疏问题)：对于确定的稀疏度k，通过下述迭代过程求解问题的k-稀疏解：步骤2(求问题的最优解)：将原问题

分解成若干个k-稀疏问题，重复步骤1；获得一组k-稀疏解，比较得出最优解。Half型算法意义和价值关于高维问题的研究（L1/2正则化理论）Half算法收敛性理论算法收敛性：重构算法是否收敛？收敛到哪？有多快？1)如果Fα-Lipschitz连续，,则

Half型算法收敛;2)如果，

则Half算法收敛到L1/2的局部极小点；3）在某些进一步条件下，Half算法的收敛

是最终线性的。

(J.S.Zeng,S.B.Lin,Y.Wang,Z.B.Xu,L1/2regularization:ConvergenceAnalysis,IEEETSP,2014.)关于高维问题的研究（L1/2正则化理论）

：0，1元素矩阵，提取图像块中已知像素点；：例子图像块集合图像填充：

主要任务是通过数学模型和计算机算法，将图像中的缺失部分（由于污损、划痕、图像编辑、文字等造成的缺损）自动填充完整.（Xu&Sun,IEEETIP,2010）稀疏正则化模型关于高维问题的研究（应用举例）(a)蓝色区域为待填充区域；(b)填充完整图像(a)(b)(a)(b)关于高维问题的研究（

L1/2理论应用到图像填充）视频监控问题:从视频中提取背景与目标，以利于视频传输与目标分析。+TransmissionReconstructionwithB-TseparationformCompressivemeasurements关于高维问题的研究（

L1/2理论应用到视频监控）

Model

关于高维问题的研究（

L1/2理论应用到视频监控）传统SAR成像过程：新的基于L1/2正则化理论的稀疏SAR成像模型（ES-SAR）：雷达观测SAR成像原始场景二维成像X*ES-SAR:CS-SAR:L1L1/2可重建区域回波数据Y关于高维问题的研究（L1/2理论应用到SAR成像）RDA新方法RDARadarsat满采样数据成像结果（场景大小2048*2756）：完全与传统SAR一样用于大场景成像，且有明显的抑制旁瓣作用新方法RDA：4s原CS方法：>2天新方法：415s关于高维问题的研究（L1/2理论应用到SAR成像）实际数据验证距离多普勒算法50%采样下ES-SAR成像关于高维问题的研究（L1/2理论应用到SAR成像）港口盐田开展全球首次稀疏微波成像机载原理性系统验证实验；设计并实现全球首部稀疏微波成像验证性原理样机。关于高维问题的研究（L1/2理论应用到SAR成像）机载平台（海南试飞）70%采样下ES-SAR成像70%采样下ES-SAR成像关于高维问题的研究（L1/2理论应用到SAR成像）关于大数据算法设计问题

大数据算法设计问题大数据算法：通过数据分解与变量分组实现计算过程的分解与组装，并可在分布式计算环境下实现、能支持大数据分析与处理的算法。基本科学问题大数据算法设计与分析方法学分布式计算的可行性理论流数据分析与处理算法分布数据（网络数据）高效处理算法超高复杂性数据的分析、挖掘与学习大数据分析与挖掘基础算法热点问题：TheBigDataBootstrap.Kleineret.al.2012ICML

X1X2X3……Xn随机机制D1DkDm….….聚合机制通过数据分解与变量分组实现计算过程的分解与组装，并可在分布式计算环境下实现的算法能处理的数据集具有大数据的典型特征之一：海量、异构、分布／多源、流数据、超高维、高不确定性等具有较低的复杂性(在大数据意义下：时间复杂性+存储复杂性+通讯复杂性)算法具有某些独特性质，如:高度容错、解的可拼接／可组装性等

大数据算法设计问题(定义)BigDataData1Data2Data3Data4Data5Datam分解Map1Map2Map3Map4Map5MapmShuffle，sortData1Data2Datak…………Reduce1Reduce2Reducek组装数据模型大数据模型

大数据算法设计问题(定义)

大数据算法设计问题(设计方法)传统的RERM方法:Model:Theory:(Regressionfunction)basedonthefactthehypothesiserror:

大数据算法设计问题(可行性理论)基于分布式的大数据回归:将大数据集D随机拆分成m个子集，让m台机器分别对Di进行回归，将所得结果进行平均，以此获得D的回归估计。基本问题：基于分布式的处理可行吗？基于Hadoop的回归算法：Step1Step2新的方法论：使用随机抽样不等同于估计假设条件误差。(Randomsamplinginequalityquantifiesthefactthatadifferentiablefunctioncannotattainitslargevaluesanywhereifit

人人文库> 全部分类> 图纸下载 > 毕业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据的机遇与挑战

文档简介

温馨提示

最新文档

评论

大数据的机遇与挑战

文档简介

温馨提示

最新文档

评论

相关文档