版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据新闻与信息可视化数据分析之基础统计第五章目录CONTENT01.
新闻中的数据应用与统计逻辑02.数据分析软件的种类与设置03.单变量描述04.多变量分析新闻中的数据应用与统计逻辑1.1新闻报道为何需要数据分析1.2数据分析的基本逻辑:统计推论与假设检验1.3数据分析的注意事项第一节当今新闻传播的学生与从业者都亟需掌握一定的数据分析知识。只有通过系统而科学的数据分析,我们才能够从海量数据中发掘独特的意义与全新的叙事角度,揭示数据中隐含的社会现实,最终形成兼具数据逻辑与新闻价值的报道。
1.1新闻报道为何需要数据分析数据反映了网络社会中普遍的联系状态,通过分析数据记者得以理解更复杂的因果机制。数据可以帮助新闻记者用全新的视角或手法来阐述的复杂问题或经典议题。尤其当报道中涉及的议题含有对普通读者来说较为抽象的概念时,数据可视化呈现可使读者理解起来更加轻松。数据新闻不止于解释,更可为读者提供具有现实意义的帮助和指导。
1.2数据分析的基本逻辑:统计推论与假设检验统计学的一个重要目标,就是通过研究一个相对较小体量的“局部数据”(即样本),来了解总体的情况。这时候,我们需要统计推论(statistical
inference)帮助我们通过有限的样本信息,来判断样本中观察到的模式在总体中依然成立的可能性。
我们可以通过平均数这个基本的统计模型来理解统计推论的逻辑。中心极限定律是一个经典的统计学理论,其指出任何从任一分布总体中随机抽取出n个样本,当抽取的样本数量n足够多时,样本的平均数分布将趋近正态分布。
图
正态分布的曲线
1.2数据分析的基本逻辑:统计推论与假设检验推论所得的范围称为置信区间(confidenceinterval),将95%或99%这个百分比称为置信水平(levelofconfidence)。置信区间为我们推测真实统计值可能出现的范围。
在量化社会科学研究中,研究者通经常“假设验证”方法进行推论。当研究者获得样本后,会对其数据进行分析,得到一些解释数据关系的统计值。我们当然想知道在样本中观察到的关系在真实总体中是否成立。这就涉及到假设验证的方法。
在推论统计中,我们可以通过比较P值与显著性水平α,来对统计显著性进行判断。1.2数据分析的基本逻辑:统计推论与假设检验关于p值1.
P值反映了一种统计分析的显著性程度。P值间接指向零假设成立的概率。2.
P值越小,我们就越有把握拒绝零假设,接受研究假设。较小的P值,意味着更高的统计显著性。3.
P值需要与事先设定的α比对。当P<α的时候,意味着具有“统计上显著性”的结果。4.
P值所比照的α值并不是客观标准,而是社会研究者在长期实践中约定俗成的一些标准。
5.
以P值为核心的假设验证体系存在局限和问题
追问样本来源明确分析层级数据分析的分组与合并(辛普森悖论)排除干扰变量避免太过复杂的模型1.3
数据分析的注意事项数据分析软件的种类与设置2.1主要数据分析软件2.2R语言的安装与基本设置2.3安装R语言功能包第二节在社会科学领域,最为常见的专业数据分析软件有SPSS、STATA、SAS、R语言和Python等等
。近年来,R语言和Python语言为代表的编程语言渐渐成为主流的分析工具。以下是二者的特色对比。2.1主要数据分析软件面对多元技术空间与复杂的数据形态,研究者很难依靠某一种工具或一套固定的技术方法来应对所有的数据分析工作。很多时候我们需要协同使用多种工具来完成一个任务。在长期的实践中,我们需要发展出一个具有个人特色的工具箱以及一整套工作流程去应对复杂的数据分析任务。
R语言Python语言运行速度较慢较快语法规则较为简洁但一致性低简洁、可读性与一致性高数据抓取能力较差较强社会统计更强较弱机器学习各有所长各有所长可视化能力更强较强应用行业学术研究、金融互联网研发、商业部门主流包/库dplyr/ggplot2/data.tableNumpy/Pandas/Matplotlib/Scikit-learn安装好R和RStudio首先选择一个连接速度良好的CRAN镜像设置一个工作目录
2.2
R语言的安装与基本设置R语言为开源程序,可在官方站免费下载。CRAN(TheComprehensiveRArchiveNetwork)网站为各种R相关资源的官方网站,用户可以在上面找到相关的下载资源和教程。R语言界面比较简单,可以考虑使用IDE。RStudio是一款广受好评的R语言开发环境。
图
Rstudio的用户界面使用R语言进行数据分析时,我们会用到很多功能包(Packages)。在R语言中,绝大多数的分析和功能实现需要通过函数来实现。R的功能包就是一系列特定函数的集合。换言之,R功能包就是一些实现相关功能的工具箱。
安装ggplot2包
install.packages("ggplot2")启动ggplot2包
library(ggplot2)呼出ggplot2包的介绍
help(ggplot2)呼出geom_bar这个函数的使用说明
help(geom_bar)2.3
安装R语言功能包
每次启动RStudio的时候会自动加载,如base,datasets,graphics,stats包。
在R用户中非常受欢迎,例如优秀的作图功能包ggplot2,高效的数据处理包dplyr,综合统计应用包Hmsic,文本分析工具tm等等。
单变量描述3.1数据描述的基本知识3.2数据描述的软件操作3.3通过图形描述数据第三节频数与百分比集中趋势:平均数、中位数、众数平均数计算离散趋势:方差与标准差3.1数据描述的基本知识图
正偏分布(上图)与负偏分布(下图)Excel操作筛选排序利用函数计算:频数与百分比/集中趋势/离散趋势数据透视表R语言操作载入数据:read.csv()检视数据筛选数据:subset()排序:order()3.2数据描述的软件操作
R语言操作统计频数与百分比:table(),prop.table()平均数:mean()中位数:median()标准差:sd()分组数据统计函数:aggregate()3.2数据描述的软件操作
表R语言中常用的操作符号(operators)ggplot2操作基本语法:ggplot(data=,aes(x=,y=))+geom_xxx()柱状图/条形图:
geom_bar()直方图:geom_histogram()箱线图:geom_boxplot()3.3通过图形描述数据图
样本来源(城市/农村)与拥有小汽车情况的堆积柱状图(比例)图
基于样本来源和性别进行分面的身高直方图图
区分男女性别的身高分布直方图图
箱线图中线条所代表的统计值多变量分析4.1交叉分析与卡方检验4.2均值比较:t检验与方差分析4.3相关分析4.4回归分析第四节交叉分析可用于分析两个类别型变量之间的关系。在数据分析时,我们经常需要处理类别变量。类别型变量只描述对象的类型分别,类和类之间并不存在算数关系,所以计算类别变量的平均数或方差是没有意义的。因而,分析两个类别变量仍然要着眼其频数。具体而言,我们需要将变量中的类别组合成不同条件,在统计落入各种条件的个案频数,以此来观察两个变量之间的关系。卡方计算公式:创建交叉表格:table()函数计算卡方值:chisq.test()函数4.1交叉分析与卡方检验
表不同舱位乘客的幸存情况(括号中为理论值)当分析一个类别变量与一个数值型变量之间的关系时,则需要使用均值比较的策略。t检验只适用于含有两个类别的分类变量(如性别或城市/农村户籍人口)的均值比较,而方差分析适用于含有两个或以上类别的分类变量的均值比较。R语言操作
T检验:t.test()
方差分析:anova()4.2均值比较:t检验与方差分析
图比较男女年收入平均数的t检验结果图方差分析结果相关分析(correlation)用以计算两个数值型变量关联强度的统计方法。两个数值型变量都可以在区间内连续波动,因而我们可以计算出一个统计值来衡量两个变量协同变化的程度。这里我们介绍一种最常用的相关分析方法皮尔逊相关系数(Pearson’scorrelationcoefficients)。R语言函数:cor.test()4.3相关分析表皮尔逊相关系数表明的相关性强度回归是分析若干自变量如何“影响”另一个因变量的统计方法。回归分析还能够明确自变量对因变量的解释力以及自变量间相对影响力的大小。包含很多种类型。这里介绍其最常见的形式:多元线性回归模型(multiplelinearregressionmodel)。首先,介绍回归的最简单形式——简单线性回归(simplelinearregression)。简单线性回归旨在用一个数值型自变量去预测另一个数值型因变量。将一个变量定为自变量(X),将另一变量定为因变量(Y),自变量X对因变量Y产生影响。回归分析预测因变量yY的公式如下:最小二乘法(ordinaryleastsquares)是一种常用的回归估计方法,可以找到所产生残差平方和(sumofsquaredresiduals)最小的一条直线作为回归线,并计算出其具体的系数。R语言函数:lm()4.4
回归分析
回归分析结果返回很多信息:残差的分布(residuals)回归系数(regression
coeffients)回归系数对应的标准误差、t检验和P值模型拟合指标(MultipleR-squared/AdjustedR-squared)模型显著性指标(F-statistic)4.4
回归分析
图用身高预测体重的简单线性回归结果多元线性回归用若干自变量预测一个因变量。这些自变量既可以是数值型变量,也可以是分类变量。
我们将自变量计作x1,x2,x3,…,xn,将因变量计作y,则因变量与自变量满足如下线性关系:解析多元回归根据回归分析估计的参数,写出回归方程解读回归系数区分回归系数与标准化回归系数解读回归中的虚拟变量的系数解读回归分析的模型拟合程度指标4.4回归分析
图身高、出生年份与体重的三维散点图回归分析的注意事项对多元线性回归要求因变量为数值型变量,自变量要存在充分的变化量。要警惕数据中的离群值,它
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- KRASG12C-IN-18-生命科学试剂-MCE
- 2026年arp协议测试题及答案
- 2026年数学单位米测试题及答案
- 2026年职业天赋潜能测试题及答案
- 2026年位置与方向 二 测试题及答案
- 2026年激励反馈测试题及答案
- 2026年辉瑞财务英语测试题及答案
- 2026年撒哈拉的沙漠测试题及答案
- 职高方程题目及答案高一
- 医疗机构药事管理制度
- 风险预警及处置工作制度
- 2026年春教科版(新教材)小学科学三年级下册第三单元《只有一个地球》知识点清单
- 涉密地理信息保密制度
- 2025-2026统编版三年级语文下册第二单元素养达标(B卷)(含答案)
- 《JBT 8521.2-2025编织吊索 安全性 第2部分:一般用途合成纤维圆形吊装带》专题研究报告
- GB/T 45915-2025动力锂电池运输安全及多式联运技术要求
- 2025年营运证考试测试题及答案
- 广联达软件购买协议书
- 2026年辐射安全培训职业健康试卷
- 2025商业航天员等级评定规范框架
- 《中国人身保险业经验生命表(2025)》
评论
0/150
提交评论