传统统计数据和大数据探究精品资料_第1页
传统统计数据和大数据探究精品资料_第2页
传统统计数据和大数据探究精品资料_第3页
传统统计数据和大数据探究精品资料_第4页
传统统计数据和大数据探究精品资料_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、传1统统允计攵据1大数,据探究电信快报杂志2016年第9期摘要:从传统统计数据与大数据之间的演变历史、数据特征等方面展开讨论厘清两者之间存在的千丝万缕但又千差万别的联系提出传统统计数据是大数据的简单形式和初期阶段大数据是传统统计数据的复杂演化形态的论断指出两者在数据分析思维方式上存在巨大差异并对数据质量管理内涵、全周期数据质量保证等问题提出不同的解决思路和方案关键词:传统统计数据大数据数据分析数据质量0引-_:言传统统计数据的内涵在于揭示数字勻匕 冃后信息与现实世界的关系大数据是指巨量数据是无法在可承受的时间范围内用常规软件工具/、进行捕捉、管理和处理的数据集合从传统统计数据到大数据的持续演变

2、导致在理论层面大数据内涵复杂并与传统统计数据在信息界限上概念模糊从传统统计数据到大数据不仅是量的积累更是质的飞跃厘清传统统计数据与大数据之间的内涵JlA亠 辩证关系是有效利用数据的基础和关键1传统统计数据向大数据演变的动力信息技术的进步为传统统计数据向大数据演变提供了物质和技术基础随着互联网的日益发展每一一一次网络存储技术的进步都使信息的生产、存储、传输成本大幅度降低而流通的范围、深度、速度则显著提升Jim(Gray的新摩尔疋理认为每18个月全球新增信息量是计算机有史以来全部信息量的总和新摩尔疋律以信息量的维度确疋了数据化演变信息的节奏这种趋势导致的基本形态就是数据信息空刖丰富大数据成为了研究

3、和利用热占八、信息需求多样化与个性化是传统统计数据向大数据演变的基本动力数据最终是为信息需求服务的用户信息价值最大化才是数据应用的关键所在在数据化趋势下随着人们认知实践与需求状态的变化数据一一一方面从满足基本特疋信息需求到利用复杂的数据属性解析出多样化信息需求转变另一一一方面从被动满足简单需求到主动发掘复杂有效需求并探知用户个性化信息需求转变这两方面成为传统统计数据项大数据内涵演变的基本动力相应地数据内涵也从朴素的信息直/、实业务逻辑向满足复杂需求的数据化逻辑迁移随着信息技术的发展和用户需求的变化信息效率价值的实时化及数据泛滥造成数据噪声增强和有效信息稀缺现象大数据应运而生。传统统计数据是大数

4、据的简单形式和初期阶段大数据是传统统计数据的复杂演化形态2传统统计数据与大数据的数据特征差异数据量增多是人们区别传统统计数据与大数据的第一一一个认识传统统计数据数据量小以MB、GB、TB等为存储单位大数据数据量大一一一般以PB、EB、ZB等为存储单位但这两者之间特征区别并不仅仅是体量还包括数据类型、研究对象的范围、信息视角等方面2.1传统统计数据与大数据的数据类型对比传统统计数据是一一一种结构化的标准数据其/、数据类型单一一一主要以结构化、体量小、标准化、价值密度高及周期化数值为特征数据产生和变化的速度慢其/、数据特占八、是朴素直/、实、简单有限、准确性高及被动有用性大数据统计范畴扩大、数据类

5、型复杂其/、中包括:a)非结构化非标准数据如动态实时时序数据b)半结构化数据和非结构化数据如文本、图像、视频等c)现有的结构化数据如传统统计数据其/、数据模型具/、有复杂多维的特征统计结果多是非精确多种相关性趋势数据大数据具/、有4个V基本特征即Volume(体量浩大)、Variety(模态繁多)、Velocity(生成快速)和Vaue(价值巨大但密度很低),且具/、有来源多样、实时、多元的信息化特占八、这些特占八、导致数据在产生、获取、存储、传输和计算过程中因体量大、快速多变易产生冲突和不一一一致人工很难检测和修复2.2传统统计数据与大数据的研究对象范围不同传统统计数据的研究对象是宏观视角下

6、有限的随机样本数据随着信息化的发展实践中产生大量冗余沉淀数据这一一一时期经过清洗的全样本数据是数据挖掘的研究对象而大数据面对的则是原生态全样本数据也就是所谓的总体数据从随机样本数据到经过清洗的全样本数据再到原生态总体数据数据内涵总体信息视角从宏观向中观和微观扩散研究对象范围向宽度和深度两个方向不断扩展不断深入系统微观的多维度个体感知信息能力和价值也不断提升这种转变来自技术和需求的驱动新型数据处理技术及需求获取能力成为演变的关键因素3大数据相对传统统计数据分析方式的变革数据中蕴含的宝贵价值成为人们存储和处理数据的驱动力数据分析是实现数据价值的必要途径由于传统统计数据与大数据在体量、结构、内涵等方

7、面有着本质的区别所遵循的数据分析理论基础、分析思路、相关技术也不同3.1传统统计数据与大数据数据分析的理论基础对传一统统计数据进行数据分析的一理论基础一是分一布理.论.,-以.概.率.盘保.证.,-即根.据.样.本-去.推.断.总.体特征-,-其逻辑关系是.分布理论-概率保U证一总.体.推.断.分-析一过.程.是.假.设.验.证._基.础一丄的.定一性.定-量一二再一定一性一对一大数一据一进.行-数据分析是以全体数据为基础,一以数据信息相关为一保证-,-其-逻辑关系是“实际一分布E总体-特征S概一率一判一断一”,可以一不受一任何假一设一的一限一制一去一寻一找关一系发现一规律,-分析过程是_定量

8、S定性-及一发-现一二总一结一_重一要一数一量一特一征_和-关一系一基一础一丄的一定一量一回一应一1传一统统计数据与大数据数据的一分析思一路传一统一统一计-数一据-价-值一的一实一现一路一径一为-数一据-到一信一息一再一到一知一识一和一智一慧一传一统一统一计一数一据一分一析一着一力一于一经一典严一密封闭系统的一精确性和一因果一关系的一探一索,-找一到-事-物一属-性一之一间一的一因一果一关系-比较容-易-实I现对于开放一复杂的巨一系统亠传一统的因一果一分析难-以一奏-效一,-因-为-系-统一中一各-个_组-成一部-分_之一间一相一互一有一影-响一亠可-能-互一为因一果-亠因一果一关一系一隐-藏

9、-在一整-个系统中因果关系一本质上是种相互纠缠的相关性一O大数据一数据分-析无法检一验一逻辑丄的一因果关.系一,-不-能.致.力.丄丄找.真.正-的.原.因.Sr在.大-数一据.时-代一一书.丄指.出-了-大一数一据.时.代.处.理.数一据一理.念一的-三一大.转.变.:要.全.体.不-要一抽.样一,-要.效一率.不-要.绝一对-精一确.,-要一盘关一不-要.因果1因此一,一大一数据分析一逻辑体一现为走_数据直接到价-值二的捷径大-数据数据分析-关一注事物一相一关一性一认一知一分一析,一所一谓一相一关一性一是一指一两一个或一两一X以上变量的取值之间存在某种规律性一,-即对数一量一巨一大一的一数

10、一据一进_行-统一计-性_的一搜一索一比一较一聚一类一、分一类一等一分一析一归纳一相一关一分一析的一目一的一是一找一出一数据集里隐藏的相互关系网丄关一联网一般用支一持一度一可一信一度一兴一趣一度一等一参一数一反一映一相一关一性一传一统一统一计一数一据一与一大一数一据一的一数一据一分一析一处一理一技一术一进一行一数一据-分一析一需-要-相一应一的一数一据-分一析一处一理一技一术一以一及一技一术一人员一的一全一力参-与一数-据一分一析一领-域面一临一的丄要一矛一盾一是一快速一增一长一的一数一据一信一息一需一求一与一有一限一统一计-资-源-和-滞一后-数-据-处一理一能-力_的一矛-盾-信-息-技一

11、术_应一用-成一本一的一低一廉-化和-性一能-效一率-的一聚-变一成一为一数一据-需求和质量要求快速增长的基本动力O传统统计数据的分析和处理遵循一一一般的关系数据库的数据分析和处理技术技术人员经过一一一疋的训练即可胜任对大数据进行分析和处理需考虑以下技术因素:a)数据清洗大数据价值密度低、冗余数据增多、垃圾数据泛滥大数据清洗需要专业和细致数据不能清洗过细否则会增加数据清洗复杂度甚至有可能过滤掉有用信息数据也不能清洗过粗要保证数据筛选的效果b)以MapReduce拿(一一一种编程模型)和Hadloop(Apache基金会所开发的分布式系统基础架构)为代表的非关系型数据库的非关系型数据分析技术因其

12、/、具/、有良好的横向扩展性在大数据分析处理中得到广泛应用c)要深入分析数据数据分析人员既要熟悉数据分析技术和工具/、又要具/、备相关领域的专业知识4传统统计数据与大数据的数据质量内涵高质量数据是进行数据分析的刖提和基础是数据发挥效能的保证传统统计数据数据质量以有限信息逻辑的因果性、确疋性、清晰且高度的结构化为主要特征主要关注数据自身本源的质量问题例如准确性、宀 完整性和客观性。质量标准至少应该包括指标解释(含义、范围、口径)、数据特征、调查方法、统计误差、获取时间、频率及渠道等方面的内容大数据以既疋边界内总体数据系统相关性的随机、自身的不确疋性以及总体的非结构化为特征由于数据质量问题在大数据

13、环境下会被不断放大因此大数据主要关注数据可信与溯源等非数据本源性质量问题即数据资源产生后在传输、存储和应用过程中产生的突显问题下面重占从流程和管理两方面分析传统统计数据和大数据所面临的数据质量的挑战及应对措施4.1从流程视角看数据质量保证从流程的角度(即从数据生命周期角度)来看可以将数据生产过程分为数据采集、数据存储和数据使用-三个阶段-三个阶段对传统统计数据和大数据的质量保证提出了不同的要求1)数据采集过程中数据质量保证问题数据采集阶段是整个数据生命周期的开始这个阶段的数据质量对后续阶段的数据质量有着直接的、决疋性的影响传统统计数据数据量小通过编写简单的匹配程序甚至是人工查找即可实现多数据源中不一一一致数据的检测和疋位。大数据由于数据来源复杂数据之间存在着冲突、不一一一致或相互矛盾的现象因此需要在数据获取阶段保证数据疋义的一一一致性及元数据疋义的统一一一性以保证数据质量2)数据存储过程中数据质量保证问题数据存储是实现高水平数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论