




已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第 3 l卷第 2期 2 0 1 4年 2月 统计研究 st a t i s t i c a l re s e ar c h vo i 3 1 no 2 fe b 2 0 1 4 大数据 时代下数据分析理念 的辨析 朱建平 章贵 军 刘 晓葳 内容提要 本文在剖析了国内外大数据研究和应用现状的基础上 提 出了 大数据时代 的定 义 并从统计学 的 角度界定 了 大 数据 概念 同时 根据 大数据 的特点 本文重新 审视 了在大数 据时代统 计研究工 作过程 及统计 思 维所面临 的挑战 明确了统计工作和统计研究转变的基本思路 关键词 大数据时代 大数据 统计学 数据分析 中 图分 类 号 c 8 1 文献 标 识 码 a 文 章 编 号 1 0 0 2 4 5 6 5 2 0 1 4 0 2一o 0 1 0 0 8 cl a r i t y o f a phi l o s o ph y o f da t a ana l y s i s dur i ng t he ag e o f bi g da t a z h u j i a n p i n g z h a n g gu ij u n l i u xi a o w e i ab s t r a c t thi s p a p e r s e t s f o r t h h a e k g r o u nd o f t h e a g e o f b i g da t a a n d pr o p o s e s t h e de fini t i o n o f bi g d a t a b a s e d o n ba ck g r o un d o f t h e a g e o f b i g da t a a f t e r e x p l i c i t l y a n a l y z i ng s o me s t ud i e s a n d a pp l i c a t i o ns o f bi g da t a a t ho me a n d a br o a d me a n wh i l e ba s e d o n t h e c ha r a c t e r i s t i e s o f b i g d a t a t h i s p a p e r r e e x a mi ne s t h e e ha l l e ng e s o f s t a t i s t i c a l r e s e a r c h a n d i d e o l o g y wi l l f a c e du r i n g t he a g e o f b i g da t a fu r t h e r mo r e we p o i n t o u t t h e b a s i c t hi n ki n g o f t h e t r a n s i t i o n o f s t a t i s t i c a l wo r k a n d s t a t i s t i c a l r e s e a r c h ke y wor ds the ag e o f bi g da t a bi g da t a s t a t i s t i c s da t a an a l y s i s 一 引 百 2 0世纪 5 0年 代一场 波 澜 壮 阔 的信 息 公开 运 动 在美 国拉开序幕 各种信息方便 了人们的生活和工 作 从而 信息 公开 为数 据 的可获 得性提 供 了依据 2 0 世纪 6 0年代计算机硬件技术的迅速发展 促使全世 界数 据 处理 和存储 不仅 越来 越快 越来 越方 便 还越 来 越便 宜 为数据 积 累提 供 了便 利 2 0世 纪 7 0年代 最小 数 据集 的大 规模 出现 使得 各 行 各 业 的最 小 数 据集 越 来越 多 为数据 结构 的多 元化 提供 了条 件 2 0 世纪 8 0年代前期 数据在不同信息管理系统之间的 共 享使 数据 接 口的 标 准化 越 来 越 得 到 强 调 为数 据 的共享 和交 流提 供 了捷 径 2 0世 纪 8 0年 代 后期 互 联 网 概 念 的 兴 起 普 适 计 算 u b i q u i t o u s c o m p u t i n g 理论 的实现 以及传感 器对信 息 自动 采 集 传递和计算成为现实 为数据爆炸式增长提供了 平 台 2 0世纪 9 0年代 由于数据驱动 数据 呈指数 增长 美国企业界 学术界也不断对此现象及其意义 进行探讨 为大数据 概念的广泛传 播提供 了途径 进 入 2 1世 纪 以来 世 界上 许多 国家 开始关 注 大数 据 的发展和应用 在此期间大数据分析和应用的学 者 和专 家发起 了关 于 大数 据 研 究 和 应 用 的 深入 探 讨 例 如 v i k o r ma y e r s c h 6 n b e r g e r和 k e n n e t h c u k i e r 所 著的 大数 据 时 代 等 对 大数 据 促 进 人 们 生 活 工 作 与思 维 的变革 奠定 了基 础 近 年来 对 大数 据 的 研 究和 应 用 不仅 引 起 了我 国 自然科学 和人 文 社 会科 学 界 的广 泛 重 视 也 受 到 我国中央政府 的高度关注 十二五 国家战略性 新兴产业发展规划 明确提出支持海量数据存储 处理技术的研发与产业化 物联 网 十二五 发展 规划 提出将信息处理技术列为四项关键技术创新 工程 之一 这些 是大 数 据 产 业 的重 要 组 成 部 分 我 国国家 统计 局 统 计 科学 研 究 所 于 2 0 1 2年 8月 就 召 开 了大 数据应 用研 究 座 谈 会 提 出了 在 大数 据 时 代 运用现代 信息技 术建立 统计 云架 构 的研 究 目标 2 0 1 2年 1 1 月 国家 统计 局总 统 计 师鲜 祖 德 在会 见 美 本文获国家社 会科学 基金项 目重大项 目 1 3 z d 1 4 8 和国家 社会科学基金项 目 1 1 b t j 0 0 1 资助 本 文为 大 数据背 景下统计 调 查 与数据分析 研讨会特邀报告 第 3 1卷第 2期 朱建平等 大数据时代下数 据分析理念的辨析 国华裔大数据专家学者时 明确提出国家统计局十 分重视大数据在统计 中的应用 并成立 了专 门的课 题 组着 手研 究 如何通 过对 大数 据 的处理 推进 统计 方 法制度 改 革 改 进 政 府 统 计 工作 1 0月 2 8 日至 2 9 日 第 十七 次全 国统 计科 学 讨 论会 在 浙江 省 杭 州 市召开 其 主题 是 大 数据 背 景 下 的 统 计 从 目前来 看 我 国大 数据 的理 论研究 和 应用研 究 刚刚起 步 学 术 界 企业 界及政 府 部 门对 该领 域 的重 视 程 度 前所 未 有 毫无疑问 由于计算机处理技术发生着 日新月 异的变 化 人们处 理 大 规 模 复 杂数 据 的能 力 日益增 强 从 大规模 数据 中提 取 有 价值 信 息 的能 力 1 3益提 高 人们将会迅速进入大数据时代 数据时代 不仅 会 带来 人类 自然科 学 技术 和人 文社会 科 学 的发 展 变 革 还会 给 人们 的生 活 和 工作 方 式 带 来 焕 然 一新 的 变化 统计学是一 门古老的学科 已经有三百多年的 历 史 在 自然 科学 和 人 文 社会 科 学 的发 展 中起 到 了 举足轻重的作用 统计学又是一 门生命力及其旺盛 的学科 他海纳百川又博采众长 随着各门具体学科 的发展不 断 壮大 毫 不例外 大 数据 时代 的到 来 给 统计学科带来了发展壮大机会的 同时 也使得统计 学 科面 临着 重大 的挑 战 怎样 深刻地 认识 和把 握这 一 发展 契机 怎样 更好 地理 解和 应对 这一 重大 挑战 这就迫使我们需要 澄清大数据的概念 明确大数据 的特征 重新 审视 统计 的工 作过 程 提 出新 的统 计思 想理 念 二 大数据概念 的界定 目前 关于大数据的定义众说纷纭 对大数据的 理解取决于定义者的态度和学科背景 比较有代表 性 的定 义主要 有 以下几 种 维 基 百科 给 出 的定 义 是 大 数据 指 的是 所 涉及 的资料规模巨大到无法透过 目前主流软件工具 在 合理时问内达到撷取 管理 处理 并整理成 为帮助 企业经营决策更积极 目的的资讯 大数据科学家 j o h n r a u s e r 提 出一个简单 的定 义是 大数据指任何超过了一 台计算机处理 能力 的 数据 美国咨询公司麦肯锡 的报告是这样定义 的 大 数据是指无法在一定时间内用传统数据库软件工具 对其进行抓取 管理和处理的数据集合 g a r t n e r 公司的 me r v a d r i a n 2 0 1 1 认为 大数据 超出了常用硬件环境和软件工具在可接受的时间内 为其用户收集 管理和处理数据的能力 i d c i n t e r n a t i o n a l da t a c o r p o r a t i o n 2 0 1 1 对 大 数据概念 的描述为 大数据是一个看起来似乎来路 不 明的大 的动 态过 程 但 是 实际上 大数 据并 不是 一 个新 生事 物 虽然 它 确 确 实实 正 在 走 向 主流 并 引 起 广泛的注意 大数据并不是一个实体 而是一个横跨 很 多 i t边 界 的动态 活动 还有 一 些 学 者 如 格 雷 布 林 克 g r o b e l i n k m 2 0 1 2 f o r r e s t e r 的分析师布赖恩 霍普金斯 b r i a n h o p k i n s 鲍 里 斯 埃 韦尔 松 b o r i s e v e l s o n 2 0 1 2 和 o r a c l e 甲骨文 的刘念真 2 0 l 3 等虽 未给出大 数据 的具 体 定 义 但 是他 们 概 括 了大 数 据 的 特 点 儿 格 雷布林 克 2 0 1 2 认 为 大 数 据 具 有 三 个特点 即多样性 v a r i e t y 大量性 v o l u m e 高速 性 v e l o c i t y 又 称 3 v 特 点 布 赖 恩 霍 普 金 斯 b r i a n h o p k i n s 鲍 里斯 埃 韦 尔 松 b o r i s e v e l s o n 2 0 1 2 认为 除 了格雷布林克 给出的三个 特性外 大数 据还 具有 易 变 性 v a r i a b i l i t y 的特 点 即 4 v 特 点 刘念 真则 认 为大数 据 除 了 g r o b e l i n k m 给 出 的特 点 外 还 具 有 真 实 性 v e r a c i t y 和 价 值 性 v a l u e 即五 v特点 上述 关 于 大 数 据 概 念 的表 达 方 式 虽 然各 不 相 同 但从各种专业的角度描述 出了对大数据的理解 总 的来 说 我们 可 以从两 个 角度来理 解 大数据 如果 把 大数据 看成是形容词 它描述 的是大数据时代 数据的特点 如果把 大数据 看成是名词 它体现 的是数据科学研究的对象 大数据是信息科技高速 发展 的产 物 如 果要 全面 深入 理解 大数据 的概 念 必 须理解大数据产生 的时代背景 然后根据大数据时 代背 景理解 大数 据 概念 一 大数 据 时代 背景介 绍 格 雷 布林 克 g r o b e l i n k m 在 纽 约 时报 2 0 1 2 年 2月的一篇专栏 中称 大数据时代 已经降 临 在商业 经济及其他领域中 管理者决策越来越依靠 数据分 析 而不 是依 靠经 验 和 直觉 大 数据 概 念之所 以被 炒得 如 火 如荼 是 因 为大 数 据 时 代 已经 到来 如果说 1 9世 纪 以蒸 汽 机 为 主导 的产 业 革命 时 代终结 了传统的手工劳动为主 的生产方式 并从而 推动了人类社会生产力的变革 那么 2 0世纪以计算 1 2 统计研究 2 0 1 4年 2月 机 为主导 的技 术革 命 则 方 便 了人 们 的生 活 并 推 动 人类 生 活方式 发 生 翻 天 覆地 的变 化 我 们认 为 随 着计算机互联 网 移动互联 网 物联 网 车联 网的大 众化和博客 论坛 微信 等网络交流方式 的 日益红 火 数据资料的增长正发生着 秒新分异 的变化 大数据时代已经到来毋庸 置疑 据不完 全统计统 计 一 天之 中 互联 网产生 的全部 数 据可 以刻满 1 6 8亿张 d v d 国际数据公司 i d c 的研究结果 表 明 2 0 0 8年全球 产生 的数 据 量为 0 4 9 z b 1 0 2 4 e b 1 zb 1 0 2 4p b 1 eb 1 0 2 4tb 1 p b 1 0 2 4gb 1 t b 2 0 0 9年 的 数 据 量 为 0 8 z b 2 0 1 0年 增 长 为 1 2 z b 2 0 1 1 年 的数 量 高 达 1 8 2 z b 相 当 于 全 球 每 人产生 2 0 0 g b以上的数据 而到 2 0 1 2年为止 人类 生产的所有印刷材料 的数据量是 2 0 0 p b 全人类历 史上所有语言资料积累的数据量大约是 5 e b 哈 佛 大学 社会 学教 授 加 里 金说 大 数据 这 是 一 场革 命 庞 大 的数据 资源 使得各 个 领域 开始 了量化 进程 无论学术界 商界还是政府 所有领域都将开始这种 进程 在大数据时代 因为等同于数据 的知识 随处 可寻 对数据的处理和分析才显得难能可贵 因此 在大数据时代 能从纷繁芜杂的数据 中提取有价值 的知识才是创造价值的源泉 我们可以这样来定义大数据时代 大数据时代 是建立在通过互联 网 物联 网等现代网络渠道广泛 大量数据资源收集基础上 的数据存储 价值提炼 智 能处理和展示的信息时代 在这个时代 人们几乎 能够从任何数据 中获得可转换为推动人们生活方式 变化的有价值的知识 大数据时代的基本特征主要 体现 在 以下几 个方 面 1 社会 性 在 大 数 据 时代 从 社 会 角 度 看 世 界范围的计算机联网使越来越多的领域 以数据流通 取代产品流通 将生产演变成服务 将工业劳动演变 成信息劳动 信息劳动的产品不需要离开它的原始 占有者就能够被买卖和交换 这类产品能够通过计 算机网络大量复制和分配而不需要额外增加费用 其价值增加是通过知识而不是手工 劳动来实现的 实 现这一 价值 的 主要工 具就 是计 算机 软件 2 广泛 性 在大 数据 时 代 随着 互 联 网技 术 的 迅速 崛起 与普 及 计 算 机技 术 不 仅 促 进 自然 科 学 和 人文 社会 科学 各个 领 域 的发 展 而 且 全 面融 人 了人 们的社会生活中 人们 在不 同领域采集到的数据量 之 大 达 到 了前 所 未有 的程 度 同 时 数 据 的产 生 存储和处理方式发生了革命性的变化 人们 的工作 和生活基本上都可以用数字化表示 在一定程度上 改变了人们的工作 和生活方式 3 公开性 大数据时代展示 了从信息公开运 动到数据技术演化 的多维画卷 在大数据时代会有 越来越多的数据被开放 被交叉使用 在这个过程 中 虽然考虑对于用户隐私的保护 但是大数据必然 产生于一个开放的 公共的网络环境之中 这种公 开性和公共性的实现取决于若干个网络开放平 台或 云计算服务 以及一系列受到法律支持或社会公认的 数据标 准 和规范 4 动态性 人们借助计算机通过互联 网进 入 大数据时代 充分体 现了大数据是基 于互联 网的及 时动 态数 据 而 不是 历 史 的或严 格控 制 环 境 下 产 生 的内容 由于数据资料可 以随时随地产生 因此 不 仅数据资料的收集具有动态性 而且数据存储技术 数据 处理 技术 也 随时 更 新 即处 理 数据 的工 具 也 具 有动 态性 二 大数 据 的定义 我们认为大数据定义之所 以众说纷纭 主要是 因为大数 据所 涉及 的 内容太 大 大家 看 它 的 角度 不一样 于是出现了仁者见仁 智者见智 的局面 根 据大数据的历史沿革和大数据所处 的时代背景 我 们 就可 以进一 步充 分 了解大 数据 的 内涵 在大数据时代 数据引领人们生活 引导商业变 革和技术创新 从大数据的时代 背景来看 我们可 以把大数据作为研究对象 从数据本身和处理数据 的技术两个方面理解大数据 这样理解大数据 就有 狭 义和 广义 之分 狭 义 的 大数 据 是 指 数 据 的结 构形 式 和规 模 是从数 据 的字面 意义 理解 广 义 的大数据 不仅包括数据的结构形式和数据的规模 还包 括处 理 数据 的技 术 狭义角度的大数据 是指计量起始单位至少是 p b e b或 z b的数据规模 其不仅包括结构化数据 还包括半结构化数据和非结构化数据 我们应该从 横 向和纵向两个维度解读大数据 横 向是指数据的 规模 从这个角度来讲 大数据等 同于海量数据 指 大数据包含 的数据规模巨大 纵向是指数据的结构 形 式 从 这 个 角 度 来 说 大 数 据 不 仅 包 含 结 构 化 数 据 更 多 的是指 半结 构化 的数 据和 非结 构化 数据 指 大数据包含 的数据形式多样 大数据时代 由于有 9 0 的信息和 知识在 结 构化 数 据世界 之外 因 第 3 l卷第 2期 朱建平等 大数据时代下数据分析理念的辨析 l 3 此 人们通常认为大数据 的分析对象为半结构化 的 数据 和非 结构化 数 据 此外 大数据时代 的战略意义不仅在于掌握庞 大的数据信息 而且在于如何处理数据 这就需要 从数据处理技术 的角度理解大数据 广义角度的大数据 不仅包含大数据结构形式 和规模 还泛指大数据的处理技术 大数据 的处理 技术是指能够从不断更新增长 有价值信息转瞬 即 逝的大数据中抓取有价值信息的能力 在大数据时 代 传统针对小数据处理的技术可能不再适用 这 样 就 产生 了专 门针 对大 数据 的处 理技 术 大 数据 的 处理技术也衍生为大数据 的代名词 这就意味着 广义 的大 数据不 仅 包 括 数 据 的结 构 形 式 和 规 模 还 包括 处理 数据 的技 术 此 时 大 数 据 不仅 是 指 数 据 本身 还指处理数据的能力 不管从 广 义 的角度 还是 从狭 义 的角度来 看 大 数据的核心是数据 而数据是统计研究的对象 从大 数据中寻找有价值的信息关键在于对数据进行正确 的统计分析 因此 鉴定 大数据 应该在现有数据 处理技术水平的基础上引入统计学的思想 从统计学科与计算机科学 的性质出发 我们可 以这样来定义 大数据 大数据指那些超过传统数 据系统处理能力 超越经典统计思想研究范围 不借 用 网络无 法用 主流 软件工 具 及技术 进行 单机 分 析的 复杂数据的集合 对于这一数据集合 在一定的条件 下和合理的时间内 我们可 以通过现代计算机技术 和创新统计方法 有 目的地进行设计 获取 管理 分 析 揭示隐藏在其中的有价值的模式和知识 根据大数据的概念和其 时代属性 我们认为大 数据的基本特征主要体现在以下四个方面 1 大量 性 是 指 大 数 据 的 数 据 量 巨大 在 大 数据时代 高度发达 的网络技术和承载数据资料 的 个人电脑 手机 平板 电脑等网络工具 的普及 数据 资料 的来 源范 围在 不 断 拓 展 人 类 获 得 数据 资 料 在 不断更改数据 的计 量单位 数据的计量单 位从从 p b到 e b到 z b 反 映 了数 据 量增 长质 的飞跃 据统 计 截 止 2 0 1 2年底 全球 智 能手 机用 户 l 3亿 仅 智 能手机每月产生的数据量就有 5 0 0 mb 每个月移动 数据 流量 有 1 3 e b之 巨 2 多样性 是指数据类型繁多 大数据不仅包 括 以文本 资 料为 主的结 构化 数据 还包 括 网络 日志 音频 视频 图片 地理位置等半结构或非结构化 的 数据 资料 多样 化 的数据产 生 的原 因主要 有两 个方 面 一是 由于非结构化数据资料的广泛存在 二是 挖掘价值信息的需要 传统的数据处理对象是结构 式的 我们从数据的大小多少来感受对象的特征 但 这远远不够具体 很多时候 我们希望了解得更多 除了了解对象的数量特征外 我们还希望了解对象 的颜色 形状 位 置 甚 至是 人物 心理 活动 等等 这些 是传统的数据很难描述的 为了满足人们对数据分 析深层次的需要 由于大数据时代对音频 视频或图 片等数 据 资料处 理 技术 不 再 是 难 题 于 是半 结构 化 数据和非结构化数据也成为数据处理的对象 3 价值性 指大 数据价 值 巨大 但 价值 密度 低 大数据中存在反映人们生产活动 商业活动和心 理 活动 各方 面极 具 价值 的信 息 但 由于 大 数据 规 模 巨大 数据在不断更新变化 这些有价值的信息可能 转瞬即逝 一般来 讲 价值密度 的高低与数据规模 的大小 成反 比 以视 频 数 据 为 例 一 部 1小 时 的视 频 在连续不问断的监控中 有用数据信息出现时间 可 能仅有 1 秒 这 就 表明 大数据 不 仅是禁 止 的 更 是流动的 因此 在大数据时代 对数据的接收和处 理思想都需要转变 如何通过强 大的机器算 法更迅 速地完成数据 的价值 提纯 成为 目前大数据背景 下亟待 解决 的难题 4 高速性 指数据处理时效性高 因为大数据 有价值信息存在时间短 要求能迅速有效地 提取大 量 复杂 数据 中 的有 价值 信 息 根 据 i d c的 数字 宇 宙 的报告 预计到2 0 2 0年 全球数据使用量将达到 3 5 2 z b 在如此海量 的数据面前 处理数据 的效率 关乎智能型企业的生死存亡 三 如何理解大数据和分 析大数据 维 克 多 v i k o r ma y e r s c h 6 n b e r g e r 在 其 大 数据 时代 一 书 中并 未 直 接 给 出 大数 据 的定 义 他 认 为 在大数据时代 传统的数据分析思想应做三大转变 一 是转变抽样思想 在大数据时代 样本就是总体 要分析与某事物相关的所有数据 而不是依 靠少量 数 据样 本 二 是转 变数 据测 量 的思想 要乐 于接 受数 据的纷繁芜杂 不再追求精确的数据 三是不再探求 难 以捉 摸 的 因果 关 系 转 而 关 注 事物 的 相关 关 系 毫无疑问 上述三个转变均与统计研究工作 息息相关 从统计研究工作角度理解维克多的三个 转 变会 更深 刻 更 全 面 1 4 统计研究 2 0 1 4年 2月 一 转 变抽 样调 查工 作思 想 传统的统计学观点认为数据处理特点是通过局 部样本进行统计推断 从而了解 总体 的规律性 囿 于数据 收集 和处 理能力 的 限制 因此 传统 的统计 研 究工作 总 是 希 望 通 过 尽 可 能 少 的 数 据 来 了解 总 体 在这 种背 景下 于是 产 生 了各 式各 样 的抽 样 调 查技 术 尽管 如此 由 于各 种 抽 样 调查 工 作 是 在 事 先设 定 目的前 提下 展 开 工 作 不 管 多 完美 的抽 样 技 术 抽到的只是总体 中的一部分 样本都只是对总体 片 面的 部 分 的反 映 传 统 的统 计 学 观点 是 建 立 在 数据 收集 和处 理能 力 受 到 限 制 的 基础 上 的 在 大 数 据 时代数 据 资料 收集 和数据 处理 能力 对统计 分 析工 作的影响越来越小 大数据时代 我们面对 的数据 样 本就 是过 去资料 的 总和 样 本 就是 总体 通 过 对所 有 与事 物相 关 的数据 进行分 析 既有 利于 了解 总体 又有 利于 了解局 部 总 的来 讲 传 统 的统计 抽 样 调 查 方法 有 以下几 个方 面 的不 足 可 以在大数 据时 代得 到 改进 1 抽样框不稳定 随机取样 困难 传统的抽样 调 查方 案在 实施 时经 常碰 到导 致抽样 框 不稳定 的 问 题 一方 面 随着 网 络 信息 技 术 的迅 速 发展 人 们 获 得 信息 的途 径越 来越 便捷 人 们更换 工作 外 出学 习 和旅 游 的机 会 和次 数 也 越来 越 多 这 导 致 人 口流 动 性 加 快 于是表 现在 对 某 小 区居 民 收 入水 平 调 查 过 程 中 经常 会 出现 户 主 更 换 或 空 房 的情 况 另 一 方 面 是经营状况不稳定 有些经营者抓住市场机会使 企业 规模 日益 壮大 有 些 经 营 者 经 营 不 力导 致 企 业 破 产倒 闭 这 就 出现 了在对企 业经 营状 况调 查 中 抽 样框 中有 的企 业实 际找 不 到 实 际 有 的 企业 抽 样 框 中没 有 的情况 2 事先设定调查 目的 会限制调查 的内容和范 围 传统抽样调查工作往往是先确定调查 目的 然 后再 根据 目的和经 费 确定调 查 的方法 和样本 量 的大 小 这样 做 的 问题 是受 调 查 目的 限 制 调 查范 围有 限 即调查会有侧重点 从而不能全面反映总体 3 样本量有限 抽样结果经不起细分 传统抽 样 调查 是在 特定 目的 和一 定 经 费 控 制 下进 行 的 往 往 调 查样本 量有 限 如果进 一步 对细 分 内容调 查 往 往 由于样本 量 太小 而不具 代表 性 随机 采样结 果 经 不起 细分 一 旦 细分 随机 采样 结果 的错误 率就 会 大 大增加 如 以对 某地 企业 调查 情 况 为例 在 完成 调查工 作后 想具 体 了解 当地小 型服 装企 业生 产经 营 状况 可能 抽到 的样 本 中满 足 条件 的企 业 凤 毛麟 角 或根本没有这样的企业 在大数据时代 对数据处 理 的技 术 不再是 问 题 我 们 可 以对 任 何 规 模 的 数据 进行 分析 处理 可 以做到 既全 面把握 总体 又 能 了解 局部 情况 4 纠偏 成 本 高 可 塑 性 弱 正 如 前 文 所 述 传 统统计抽样过程中 抽样框不稳定的情况经常存在 一 旦抽样 框 出现偏 误 调 查 结 果 可 能 与历 史 结 果 或 预 计结 果大 相径庭 另 外 如 果想 了解 与事 先调查 目 的不一致 的方面 或者想 了解 目标总体的细分结果 在 传统 的抽样 调查 思 路 中 解 决 问题 的方 法 一 般 是 重 新设计 调 查方 案 一 切重 来 在大 数据 时代 信息 瞬息万变 待重新调整调查方案 得到的调查结果可 能 已经 没有 价值 二 转 变对 数据 精确性 的 要求 传 统 的统计 研究 工作要 求 获得 的数据 一般 具有 完整性 精 确 性 或 准 确 性 可 比性 与 一 致 性 等性 质 在数据结构单一 数据规模小的小数据时代 由 于收集 的数据资料有限以及数据处理技术落后 分 析数 据 的 目的是希 望尽可 能用 有 限的数 据全 面准 确 地反 映总体 那 么 在 小 数据 时代 对 数 据 精 确 性要 求相 对于 其他 要求 是 最 严 格 的 在 大 数 据 时代 由 于数 据来 源广 泛和 数 据 处 理技 术 的不 断 进 步 数 据 的不精确 性是 允许 的 我 们 应 该 接 受纷 繁 芜 杂 的各 类 数 据 不 应 一 味 追 求 数 据 的 精 确 性 以 免 因 小 失 大 1 大数 据 时 代 数 据 规 模 大 数 据 不 精 确 性 在 所难免 盲 目追求数据 的精确性不 可取 在小数据 时 代 无 论是 测量数 据还 是调 查数 据 都可 能 因为人 为 因素 或 自然不可 控 因素导 致搜 集到 的这些 数 据是 不精确的 在大数据时代 数据来源渠道多 数据量 多 我 们在 获得关 于反 映总 体精 确数据 信息 的 同时 不 可避 免地 会获 得 不 精 确性 数 据 另外 我们 必须 看 到不 精确 数据 的有 益方 面 不 精 确 数 据 并 不 一 定 妨 碍 我们认 识 总体 有 可 能 帮 助我 们 从 另 一 个 方 向 更好地 认识 总体 2 大数据时代 数据不精确性不仅不会破坏总 体信息 还有利于了解总体 大数据时代 越来越多 的数据提供越来越多的信息 也会让人们越来越 了 解总体的真实情况 例如 假设某 人的身高是 1米 8 在小数据时代 由于各种原因仅能测量两次 一次 是 1米 8 一 次是 1米 6 那 么 很 可 能 认 为该 人 身 体 第 3 l卷第 2期 朱建平等 大数据时代下数据分析理念的辨析 1 5 身高为两次测量 的平均值 即 1米 7 在 大数据 时 代 这个人的身高测了 1 0万次 其中有 1 0次是 1米 6 其他情况测得数据均 为 l米 8 那么很 可能认 为 这个人的身高就是 1 米 8 1米 6作为异常值剔除 似乎 大数据时代 越来越多的数据在帮助我们了解 总体时有点大数定律的感觉 大数定律告诉我们 随 着样本数量的增加 样本平均数越来越接近总体 但 大数据告诉我们的总体信息要 比大数定理更 真实 大数据时代 由于样本就是总体 大数据告诉我们总 体 的真实情况 3 大数据时代 允许 不精 确性是针对大数据 而不是统一标准 大数据的不精确性 是偶然产生 的 而不是为了不精确性而制造不精确 并且 在专 门性的分析领域 仍需千方百计防止不精确性发生 譬如 为了精细管理公司业务 对公司财务分析就应 该越精确越好 三 转 变数 据关 系分 析的重 点 传统统计分析工作一般在处理数据时 会预先 假定事物之间存在某 种因果关系 然后在此因果关 系假定的基础上构建模型并验证预先假定 的因果关 系 在 大数 据时 代 由于数 据规 模 巨大 数据结 构 复 杂 以及数 据 变量错 综 复杂 预设 因果 关 系 以及 分 析 因果关系相对复杂 于是 在大数据时代 分析数据 不再探求难以琢磨 的因果关系 转而关注事物的相 关关系 需要注意的是 大数据时代事物之间大数 据的相关分 析与传统统计学相关分 析并 不完全相 同 主要 表 现在 以下几 个方 面 1 分析 思 路 不 同 用 传 统 统 计 方 法 分 析 问题 时 往往是先假设某种关系存在 然后根据假设有针 对性 地计 算 变 量 之 间 的相 关 关 系 这 是 一 个 先 假 设 后关系 的分析思路 传统的关 系计算思路适用 于 小数据 在大数 据 时代 不仅 数据 量庞 大 变 量数 目往 往也 难 以计 数 先假 设 后 关 系 的 思 路 不 切 实际 大数据关系分析往往是直接计算现象之间的 相依性 是既关联又关系 另外 与传统统计分析不 同的是 在小数据时代 数据量小且 变量数 目少 构 造回归方程和估计 回归方程 比较容易 于是 人们 在分析现象之间的相关关系时 往往会建立回归方 程探 求现 象之 间 的因果 关 系 2 关系形式不同 在小数据时代 由于计算机 存储和计算能力不 足 大部分相关关系仅限于寻求 线性关系 大数 据时代 现象的关系很 复杂 不 仅 可能是 线性 关 系 更 可 能 是非 线 性 函数关 系 更 一 般 的情 况是 可 能知 道现象 之 间相依 的程 度 但 并 不清楚关系的形式 目前 针对结构化的海量数据 不管函数关系如何 r e s h e f 2 0 1 1 认 为 最大信息相 关 系数 t h e m a x i m a l i n f o r ma t i o n c o e f f i c i e n t mi c 均 可度量变量之间的相关程度 但有些情 况可能 连函数关系都没有 譬 如半结构化数据变量和非结 构化 数据 变量 之 间可 能 存 在某 种 关 联 关 系 但 没法 知道 变量 之 间关 系 的形式 因此 度 量相 关程度 的方 法还有待完善 3 关 系 目的 不 同 传 统 统 计 研 究 变 量 之 间 的 相关 关系 往往 具有 两 个 目的 一 是 为 了弄 清 楚 变 量 之 间的亲 疏程 度 再 则 是 为 了探 求 变量 之 间 有 无 因 果关系 是否可以建立回归方程 然后在 回归方程的 基础上对因变量进行预测 一个普遍的逻辑思路并 且在 计算 上可 行 的是 变 量 间 的 相关 关 系是 一 种最 普遍的关系 因果关系是特殊的相关关系 相关关系 往往能取代因果关系 即有因果关系必有相关关系 但有相关关系不一定能找到因果关系 所以传统的 统计 学往 往在相 关关 系 基础 上寻找 因果关 系 在 大 数据时代 统计研究 的 目的就是寻找变量或现象之 间的相关关系 然后根据变量或现象之间的相关关 系进 行 由此及 彼 由表 及里 的关 联 预 测 大 数 据 时 代一般不做原因分析 一方面是因为数据结构和数 据关系错综复杂 很难在变量间建立 函数关系并在 此基 础上 探讨 因果 关 系 寻 找 因 果关 系 的时 间 成本 高 昂 另一 方面 是大 数据 具有 价值 密度低 数据 处理 快的特点 大数据处理的是流式数据 由于数据规模 的不断变化 变量间的因果关系具有时效性 往往存 在 此 一时 彼 一 时 的 情 况 探 寻 因果 关 系往 往 有 点得不 偿 失 四 大 数据 对统 计 学科和 统计 研 究 工作 的影 响 对于统计学科的发展而言 大数据时代带来 的 不仅是 变革 更 多 的 是统 计 学 发 展 壮 大 的机 会 大 数据将使传统统计学作为研究具体问题的方法科学 发生改变 改变统计研究的工作程序 改变统计学研 究具体科学的深度和广度 然而 大数据并 不会改 变传统统计学的性质 因此 对统计学而言 大数据 带来的是 挑战 和机遇 同时 也将壮 大统 计学 的生 命 力 1 6 统计研究 2 0 1 4年 2月 一 大 数据 拓展 了统计 学 的研 究对 象 大数据对每个领域都会造成影响 统计学也不 例外 统计学的研究对象是指统计研究所要认识的 客体 统计学的研究对象是客观事物的数量特征和 数 量关 系 数 量 性 是 统 计 学 研 究 对 象 的 基 本 特 点 但 传统 的 统计 学 认 为 数 据 是 来 自试 验 或 调 查 的数 值 同时又认 为 并不 是 任 何 一 种 数量 都 可 以作 为统 计对象 在大数据时代 不仅任何一种 以结构数据 度量 的数量 可 以作 为 统计 研 究 对 象 而 且 不 能 用 数 量 关 系衡 量 的 如 文本 图片 视 频 声 音 动 画 地理 位置 等半结 构 或非结 构 数据都 可 以作 为统计 研究 的 对象 从某种意义上来说 大数据拓展 了统计研究 的对 象 也 扩展 了统 计研 究工 作 的范畴 二 大数据 影 响统计 计算 的规 范 传统统计学 根据一定的数据计算规范 如用平 均数 方差 相对数等反映客观事物量的特征 量的 界限 量的关系等等 并且可以根据具体计算规范计 算具体数值 然而 由于半结构化数据 和非结构化 数据并不能根据计算规范计算平均数 方差 相对数 等数值 显然 在大数据时代直接利用计算规范计 算平均数 方差 相对数等指标将遇到挑战 三 大数 据影 响统计 研 究工作 过 程 统计 学是 关 于数据 搜集 整理 归纳和 分析 的方 法论 科学 这些 工 作构 成 了统 计 学 科学 体 系 的核 心 内容 根据统计学 的核心 内容 统计研究的全过程 包括 统计 设计 收集 数据 整 理与 分析 和统计 资料 的 积 累 开 发与 应用 等 四个基 本环节 在大数 据 时代 网络资料异常丰富 数据不再是通过试 验或调查抽 样 的方 式获得 的 统 计 工作 面对 的数 据 就 是 总体 数 据 即样 本就 是 总体 在这 种情况 下 传统 的数 据收 集方法不再可行 针对大数据 的数据收集往往通过 传感器 自动采集数据 数据 资料不再需要设计和人 工 收集 大 数据 时代 统计 研究 的过 程 只包括 数据 整理 与 分 析 和 数 据 的积 累 开 发 与 应 用 两 个 基 本 环 节 1 数据 整理 与 分析 统 计 数据 的整 理 一 般指 对 统计 数 据 进 行 汇 总 包括确 定 总体 的处理 方法 和确 定汇 总哪些 指标 两 个 方面 具体而言 有统计资料 的审核 资料 的分组和 汇总 编制统计表或绘制统计图 统计数据资料的积 累 保管和公布等 四个步骤 在针对大数据的整理 过 程 中 由于数 据资料 巨 大 数 据类 型复 杂 以及要求 数据处理速度快等特点 对数据 的分组和汇总 编制 统计表或绘制统计图常常无法实施 统计资料的整 理往往只有资料的审核和资料的储存两个环节 但 大数据的审核和储存不同于传统统计意义上的资料 审核和资料保存 1 数据的审核 传统的数据审核是为了检查 原始数据的完整性与准确性 而大数据 的审核往往 是在 兼顾 数据 处理 速 度 和 预测 的准 确 性 前 提下 确 定要 处 理 的 数 据 规 模 即确 定 数 据 量 的 级 别 p a t h e l l a n d认为处理海量数据不可避免地导致部分信 息 的损 失 另外 大 数 据 本 身 是 杂乱 无 章 的 是 有 噪音 的 混 杂 的 内部 相 关 的 和不 稳 定 的 尽 管 如 此 有 噪音 的数据 也 因 为其 能 发 现 隐 藏 的关 系模 式 和知 识 而 t l 4 样本 更有 价值 因此 反 映研 究 对 象的数据可能是正确的 也有可能是错误的 但不管 哪一 种 都是 大数据 的一部 分 只要是 法规 条件 允许 下 所有数据都是有价值的 一般不作删除或替换 2 数据的储存 传统 的数据保存是将经过审 核 分组汇总和编制统计 图表 的统计资料作为重要 的资料积累和保管起来 大数据的储存一般是为了 控 制存 储成 本 按 照法 规计 划制 定存储 数 据 的规模 2 数据 的积 累 开发 与应 用 1 数据的积累 传统 的统计工作根据事先确 定 的研 究 目的对 数 据 进 行 分 类 汇 总 然 后 保 存 数 据 便 于 e t 后分 析和查 询 对大 数据 而言 有 价值 的 信息往往是在对数据进行处理之后发现的 并不是 在事 先 目的前提 下处 理 数据 发 现 的 v i k t o r认 为 大 数据的混乱应该是一种标准途径 而不应该竭力避 免 大数 据 的复杂性 是 客观存 在 的 在 大数 据 积 累 的过程 中 不 要轻 易地 做 出简单 的处理 一 方 面是 因为大数据规模庞大 结构复杂 很难对其进行简单 的分类整理 另一方面是对大数据的简单整理 如排 序 分 类 删除 可能 造成 新 的混乱 破坏 了原有数 据 的真 实性 并 因而损失 原 有数据 中有 价值 的信 息 2 数据的开发 传统数据 由于样本量小 解 决 问题 目的性 强 数 据价 值往 往存 在时 效性 特点 即 数据价值会 随着使用 次数的增 加或时 间流逝而降 低 而大数据具有 流动性 会随着时间的 日积月 累 而不断 壮大 往往具有不 断推 陈出新 重塑价值 的可能 数据价值具 有 再 生性 在 大数据时代 数据就像一个神奇的钻石矿 其价值被挖掘之后还 能 源源 不断产 生新 的价 值 可 以说 在大数 据 时代 第 3 l 卷 第 2期 朱 建平等 大数据时代下数据分析理念的辨析 1 7 数据不但不会贬值 过时 而且还会 不断增值 为 了 更全 面 深入 地 了解 研 究对象 往 往需要 对 数据进 行 整合 即将部分数据合并 整合的数据因为对研究对 象反映更全面 常常会发现新问题 创造新价值 从 这个角度来说 整合的数据价值往往大于部分价值 因此 分析 研究 大 数 据 应 怀 有谦 卑 的心 理 不 用 担 心数据量的庞大 并且要有整合大数据的勇气 3 数据的应用 传统数据应用 的 目的通常是 为了解释现象和预测未来 即探寻相关关系和因果 关系 然后在相关关系和因果关系的基础 上进行预 测 在大数据时代 建立在相关关系方法基础上 的 预 测是 大 数 据 的 核 心 由 于 大 数 据 具 有 价 值 性 特 点 这就表明在大数据时代商业竞争的环境里 要求 对 大数据 的处理 迅 速 及 时 这 里 需 要 提及 的是 由 于数 据量 庞 大 结 构 复 杂 在 数 据 的 应 用过 程 中 对 数据 结 果解 释 可 视化 就 显 得尤 为 重要 a g r a w a l d 等认 为 大数据 时代 数 据分 析结 果可 视化 很有必 要 有助于解释分析结果 美 国计算机学会 的数 字 图书馆中第一篇使用 大数据 的文章是迈克尔 考 克斯和大卫 埃尔斯沃思在第八届美 国电气和电子 工程 师协 会 i e e e 关 于 可视 化 的会 议 论 文集 中 发 表 的 为外 存模 型 可 视化 而应 用控 制 程 序请 求 页 面 调度 他们在该文的篇首提到 可视化对计算机 系 统提出了一个有趣 的挑 战 通 常情况下数据集相 当 大 耗尽 了主 存储 器 本 地 磁 盘 甚 至 是 远 程磁 盘 的 存储容量 虽然如此 但我们依 然要 关注数据 的 可视化 因为它是连接数据和心灵最便捷的桥梁 五 小结 大 数据 从 狭 义 的 角度 来 讲 不仅 是 指 数 据规 模 巨大 还指数据结构复杂 从广义角度来讲 大数据 还指处理大规模复杂数据的技术 由于在大数据时 代数据意味着信息 所 有有价值 的信息都源 自对数 据 的处理 大数据 时代 数 据 对 个 人 或 家庭 而 言 意 味着 良机 对 厂商 而言 数据 意味 着商 机 对 国家 而 言 数据意味着发展契机 对统计工作 者而言 这种改 变不 仅意 味 着拓 宽 了统 计 研 究 的 范 畴 丰 富 了统 计 研究的内容 增强了统计学的生命力 还意味着统计 工作 及统 计研 究 的 四个 转变 1 转变统计研究过程 传 统的统计研究过程 包括统计设计 收集数据 整理与分析和统计资料的 积累 开发与应用等四个基本环节 大数据时代 由 于数据规模 巨大 数据结构复杂等特点 以及整理数 据可能损坏原有数据中有价值信息 针对大数据的 统计研究过程仅包括数据整理 与分析和数据 的积 累 开 发与 应用 两个 基本 环节 进一 步 的分析 表 明 大数据整理与分析过程仅指数据储存工作 总的说 来 大数据统计研究过程包括数据储存和数据 的积 累 开 发与 应用 两 个环节 2 转 变统 计研 究方 法 传 统 的统 计 研 究方 法 如建立 回归方程 估计模型参数 检验参数估计结果 等 因为大数据的特点而无法实施 对大数据的统计 分析 是 以相 关关 系 为基础 展 开的 但针 对大数 据 的 相关关系分析不同于传统的相关关 系的分析 传统 的相 关分 析基 本是 线 性 相 关 分析 大数 据 研 究 的 相 关关 系分 析 的不
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年兴化养老护理考试题库及答案
- 市政景观边坡施工方案
- 2025年鸟类自然知识题库及答案
- DB37-T4936-2025 贝类中重金属镉的污染评价与风险评估技术规范-
- 2025年标准中考政治试卷及答案
- 广州话方言考试题及答案
- 土建施工员继续教育考试题及答案-知识题库
- 二年级美术《吊饰》教学设计
- 桥头安全管理培训课程
- 护栏施工安全技术保证措施
- 围墙新建及改造工程施工组织设计(技术标)
- 房屋建筑学民用建筑构造概论
- 政策议程多源流模型分析
- 蓝点网络分账解决方案
- GB/T 22315-2008金属材料弹性模量和泊松比试验方法
- GB/T 17980.37-2000农药田间药效试验准则(一)杀线虫剂防治胞囊线虫病
- 血管活性药物(ICU)课件
- 旅游饭店服务技能大赛客房服务比赛规则和评分标准
- “手电筒”模型-高考数学解题方法
- GB∕T 2980-2018 工程机械轮胎规格、尺寸、气压与负荷
- TTAF 068-2020 移动智能终端及应用软件用户个人信息保护实施指南 第8部分:隐私政策
评论
0/150
提交评论