2020年大数据对统计学的挑战和机遇论文_第1页
2020年大数据对统计学的挑战和机遇论文_第2页
2020年大数据对统计学的挑战和机遇论文_第3页
2020年大数据对统计学的挑战和机遇论文_第4页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据对统计学的挑战和机遇论文大数据给统计学提供了机遇、挑战和紧迫感。本文阐述着大数据的环境利用大数据的目的和大数据带来的整个变革; 介绍着有关大数据的研究动向 ; 探讨着大数据包含的信息,大数据的准备处理、抽样和分析方法。一些人们在不断地制造和收集着数据,相信着这些数据也许会对人有用。当然, 也有人们不再继续呆在实验室里考核着研究,仅仅依靠着强大的网络数据来进行研究。 而人们也在很被动着积累着数据。随着互联网这样的大时代到来,各种方法也涌现出来。各式各样的数据如滔滔江水连绵不绝的涌现出来。 现如今数据这样的大体系也在悄悄进行着变化。 统计学又面临着新的机遇和挑战, 这当然需要在方法论上有所突

2、破和改变。大数据是一个大样本和高维变量的数据集合。 针对这样的问题,用于统计学上来说就是采用抽样减少样本量,最后达到需要的精度。关于这样的问题,急需要变量选择、降维、压缩、分解。广义的说,大数据涵盖了许多种领域,像多源、混合的数据,自然科学、人文社会、经济学、网络、通讯、商业和娱乐各样的领域。这其中大数据涉及了各种数据类型,包括文本和语言、录像和图像、时空网络与图形。大数据的目的就是将数据转化为知识,探索着数据将会产生的机制。并且大数据有着记录保存自然和社会现状的作用。现在的人收集着许多大量的数据。 虽然还不是那样的了解。 但是依然相信需要保存现在这个 _ 发展的整个过程,满心期待在今后的岁月

3、长河中不断地分析和解释着。大数据将形成自然和人文社会的历史长河,不仅用于当今时代的研究。甚至对于转基因食品对子孙后代的影响来继续深究问题, 为未来的人留下先今的历史材料。( 一) 数据的预处理。大数据的预处理包含数据清洗、不完全数据填补、数据纠偏和矫正。 统计机构的数据是经过严格的抽样设计所得到的 1 。有着代表性和系统误差小的优势。互联网的数据速度更快、量大、项目繁琐,但是难以避免一些这样的问题。将统计机构的数据作为标准来对互联网进行校正。 从而将互联网数据作为补充资源对统计机构的数据进行随时随地的更新。 这或许是解决问题的一个思路。(二) 大数据环境的抽样。大数据的抽样方法有待研究。不管锅

4、有多大。只要可以充分的均匀搅拌。知道其中的滋味就可以了。针对大数据流环境,需要探索从源源不断的数据流中抽取可以满足统计目的和精度的样本 2 。需要研究新的抽样方法。可以有适应性、序贯性以及动态的抽样方法。尽力数据流的缓冲区,记录着数据所发生的一切变化。利用其他各种抽样技术。 比如滚雪球这样的方法, 从种子开始逐步扩大着样本。从各种随机种子出发。 不断加入新鲜的种子,了解当代网络性质和结构。( 三) 大数据的分析和整合。针对大数据的高维问题,需要研究降维和分解的方法。 探讨压缩大数据的方法, 直接对压缩的数据进行传输、运算和操作。除了常规的统计分析方法,包括高维矩阵、降维方法、变量选择之外,需要

5、研究大数据的实时分析、数据流算法。( 四) 数据不需要保存,只是需要扫描一遍数据的数据流算法。只是考虑计算机内存和外存的数据传送问题。 分布数据和并行计算的方法。针对多种不同数据库的环境,利用关系数据库技术,根据关键字将很多小数据库连接成一个大数据。 并且,在这些大的数据库中还可以分解出许多的小数据库。 组合出不同的东西, 更可以做出许多有创意的东西。在大数据环境,很多的数据集不再有标识个体的关键字,传统的关键数据库连接方法不再适用。 探索不必经过整合多数据库, 直接利用局部数据进行推断结果传播的方法。 利用统计性质信息损失地分解和压缩大数据。( 四) 网络图模型。网络图模型用图的结构描述高维

6、变量之间的相互关系,包括贝叶斯网络、无向图概率模型、因果网络等。网络模型是处理和分析高维大数据和多源数据库的有效工具。 目前已经有丰富的图模型的软件系统。 网络图模型可以用于分解大数据集合, 处理多源数据库,来进行计算。它还可以引入隐变量简化复杂的关联联系。最终确定并能区分该目标节点的原因与结果。结论:一个新生事物的出现会导致传统观念和技术的革命。数码照相机的出现导致传统相片胶卷和影像业的己近消亡。模型不再重要,当年统计学最得意的回归预测方法将被淘汰。大数据的到来将对传统的统计方法进行考验。 统计学会不会像科学哲学那样,只佩戴着_光环,而不再主导和引领人们分析和利用大数据资源。大数据充满了许多的随机性。现在看到的大数据也给统计学带来了机遇。现在其他学科和行业的涌入大数据的热潮,如果统计学不抓紧参与的话,将面临着被边缘化的危险。 分布式的大数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论