版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、主讲人:毛新述数据分类数据收集数据分析1.对现象进行计量的结果 2.不是指单个的数字,而是由多个数据构成的数据集 3.不仅仅是指数字,它可以是数字的,也可以是文字的 2022-5-6数据数据的分类的分类按计量尺度定类数据定序数据定量数据按时间状况截面数据混合数据按收集方法观察数据试验数据时序数据1.1.定类数据定类数据/ /分类数据分类数据(categorical data)(categorical data) 只能归于某一类别的非数字型数据对事物进行分类的结果,数据表现为类别,用文字来表述例如,亏损和非亏损、国有和民营2.2.定序数据定序数据/ /顺序数据顺序数据(rank data)(ra
2、nk data) 只能归于某一有序类别的非数字型数据对事物类别顺序的测度,数据表现为类别,用文字来表述例如,信息披露:优秀、良好、合格、不合格等3.3.定量数据定量数据/ /数值型数据数值型数据(metric data)(metric data) 按数字尺度测量的观察值结果表现为具体的数值,对事物的精确测度例如:公司的资产、ROA定量数据可进一步区分为定距数据定距数据和定比数据定比数据定量数据 定距数据,表现为数值,可进行加、减运算,如温度 定比数据,表现为数值,可进行加、减、乘和除运算,时间、重量和长度都是定比数据主要的区别 定距数据中的“0”是人为给定的,不具有实际意义,比如温度为0并不表
3、示没有温度 定比数据中的“0”是实际意义上的真实零点比如说,一个公司的ROA为0的含义是什么?1989年,美国通用汽车公司的销售收入为127亿美元,福特汽车公司为96.9亿美元?如何基于不同的计量尺度来进行描述定类数据定序数据定距数据定比数据从某数据库中调出的A公司的资产项目的数据如下,则A公司的资产总计为多少?货币资金货币资金应收账款应收账款存货存货固定资产固定资产无形资产无形资产资产总计资产总计100200300400.?按计量尺度区分数据类型的意义 1.不同的数据需要采用不同的统计方法来处理 定类数据:计算频数和频率,列联分析和卡方检验 定序数据:中位数和分位数,等级相关分析 2.高层次
4、计量尺度的数据可以很容易转换为低层次计量尺度的数据 比如根据ROA是否小于0,将上市公司划分为2组等 3.高层次计量尺度的数据包含更多的数学特性,所运用的统计方法越多。 4.适用于低层次计量尺度数据的方法也使用高层次计量尺度的数据,反之则不能成立1.1.观测数据观测数据(observational data)(observational data) 通过调查或观测而收集到的数据在没有对事物人为控制的条件下而得到的有关社会经济现象的统计数据几乎都是观测数据2.2.试验数据试验数据(experimental data)(experimental data) 在试验中控制试验对象而收集到的数据比如,
5、卡尼曼实验中对测试者风险态度的数据等自然科学领域的数据大多数都为试验数据,社会科学中的使用也逐步增多1.截面数据(cross-sectional data)(cross-sectional data) 在相同或近似相同的时间点上收集的数据描述现象在某一时刻的变化情况比如,2010年我国沪深两市上市公司的净利润2.时间序列数据(time series data) (time series data) 在不同时间上收集到的数据描述现象随时间变化的情况比如,1994-2003万科的每股收益3.混合横截面数据(pooled cross-sectional data) (pooled cross-sec
6、tional data) 由不同期间的横截面数据混合而成的数据。横截面数据的重要特征 通常我们可以假定,它们是从样本背后的总体通过随机抽样(random sampling)而得到的。 改变观测值(observation)的排列顺序,对分析不会有任何影响。 WAGE1.dta中1976年526个工人的横截面数据股票代码股票代码会计年度会计年度每股收益每股净资产每股经营现金流000002000002200320030.38853.3681-1.0591000876000876200320030.39444.3807-0.1485600837600837200320030.40612.07780.2
7、97时间序列数据是由一个或几个变量不同时期的观测值所构成。如股票价格,GDP等。时间序列数据包括不同的数据频率(data frequency),最常见的频率包括年、季、月、周、天、小时、分钟等。 时间序列数据有一个关键的特征,观测数据在时间上不独立(时间相依)。同横截面数据的排序不同,观测值的顺序在时间序列分析中则非常重要。股票代码股票代码会计年度会计年度每股收益滞后1期每股收益000002000002199419940.7425.000002000002199519950.51160.7425000002000002199619960.47210.5116000002000002199719
8、970.4150.4721000002000002199819980.40750.415000002000002199919990.420.4075000002000002200020000.47740.42000002000002200120010.59230.4774000002000002200220020.60610.5923000002000002200320030.38850.6061混合横截面数据,由不同期间的横截面数据混合而成的数据。混合横截面数据既具有横截面数据的特点,又具有时间序列数据特点的数据。混合横截面数据的分析同横截面数据的分析非常类似。然而,通常可以从混合横截面数据
9、中获取更多的信息,即变量之间的关系如何随时间的变化而变化。这对政策的效果的分析将非常有用。混合横截面数据存在两种排列格式。会计年度股票代码每股收益每股净资产每股经营现金流200220020000020000020.60615.3580.2042200220020008760008760.38483.6360.4655200320030000020000020.38853.3681-1.0591200320030008760008760.39444.3807-0.1485200320036008376008370.40612.07780.297代码EPS2002EPS2002EPS2003EPS
10、2003BV2002BV2002BV2003BV2003OCF2002OCF2002OCF2003OCF20030000020000020.60610.38855.3583.36810.2042-1.05910008760008760.38480.39443.6364.38070.4655-0.14856008376008370.31140.40613.3282.07780.19890.297 从数据库里调出来的数据结构最多的混合横截面数据结构1,如色诺芬、国泰安。也有少量的数据结构为混合横截面数据结构2,如巨灵。通常,对混合横截面数据结构1的处理更加方便。Stata中的reshaperesh
11、ape命令可以实现两种数据结构的自由转换*打开reshape命令演示数据reshape wide r jqr, i(dm nd) j(m)reshape long面板数据,也译为纵列数据,是指由横截面数据集中每个数据的一个时间序列组成。对100家上市公司连续收集10年的数据。面板数据有别于混合横截面数据的关键特征是,同一横截面数据的数据单位(个人或公司等)都被跟踪了一段特定的时期。和横截面数据一样,对面板数据中的横截面的数据的排序无关紧要。股票代码会计年度每股收益每股净资产每股经营现金流000002000002200220020.60615.3580.204200000200000220032
12、0030.38853.3681-1.0591000876000876200220020.38483.6360.4655000876000876200320030.39444.3807-0.1485600837600837200220020.31143.3280.1989600837600837200320030.40612.07780.297横截面数据通常不能反映变量各期之间的相依性,通常只适合对静态关系进行模型化;时间序列数据可以对变量之间的动态相依进行模型化;面板数据可以实现对静态关系和动态关系的模型化比如通过横截面数据可以对盈余对市场回报的影响进行模型化通过时间序列数据可以对股市发展对市
13、场回报的影响进行模型化通过面板数据可以同时对盈余和股市发展对产生的影响进行模型化。数据取得的几种方式一、通过数据库获得档案数据(archival study)二、通过调查问卷获取数据三、通过实验法获取数据四、通过模拟(simulation)获取数据常用的数据库有哪些? 美国 CRSP、COMPUSTAT和I/B/E/S等数据库 中国 国泰安数据库(CSMAR) 巨灵数据库(genius) 锐思数据库(resset) 聚源数据库(Juyuan) 万德数据库(wind) 色诺芬数据库(ccer) 国际 Bloomberg Datastream这种方法的优势在于可以通过设计各种问题,直接向被调查对象
14、寻找答案 Graham,Harvey和Rajgopal(2005)通过对美国401位财务经理进行问卷调查,并对其中20位进行深度访谈,以寻找影响盈余报告和自愿性披露的关键因素。问卷调查在我国实证会计研究中也得到了广泛的应用但一定程度上也被滥用 问卷发放的随意性,而不是通过科学的设计来随机获取样本 被调查者对研究有效性的影响非常大问卷构建 封面信 指导语 问题和答案 问题按其形式分:开放式和封闭式 问题按其内容分:特征、行为和态度问卷设计要点 简明清楚 设计问卷不能带有倾向性 不提有可能难以真实回答的问题 不能把未经确认的事当做前提假设量表 总加量表 区分两类(同意、不同意),然后加总量化 李克
15、特表 区分为两类以上(非常同意、同意、不知道、不同意、非常不同意),然后加总量化 语义差异量表 两端为一对意义相反的形容词,中间分为7个等级 7,6,5,4,3,2,1;或+3,+2,+1,0,-1,-2,-3问卷设计后的预回答问卷的回收率(70%)专家调查问卷专家调查问卷这种方法以经济学、心理学、社会学等诸多学科的理论为基础,调查参与人在实验控制的场景中如何对会计问题作出判断、决策或采取行动。它的优势在于可以操纵自变量的变化,观察到这种变化对因变量的影响,从而更能得出因果关系的推论(罗炜,2005)。在实验中,通常需要将同意参加实验的对象随机划分处理组(treatment group)和控制
16、组(control group),以观察到外生变化对行为和结果的影响。邀请符合条件的对象参加是否同意参加?是否随机分配从研究中删除划分为处理组划分为控制组社会实验研究中的随机分配程序这对理解统计和计量经济学的方法,以及一些统计量的属性非常有帮助。Help simulate总体和样本 什么是总体和样本? 什么时候需要抽样? 如何从总体中获取样本?参数和统计量1.1.总体总体(population)(population)所研究的全部个体(数据) 的集合,其中的每一个元素也称为个体分为有限总体和无限总体有限总体的范围能够明确确定,且元素的数目是有限的无限总体所包括的元素是无限的,不可数的2.2.样
17、本样本 (sample)(sample)从总体中抽取的一部分元素的集合构成样本的元素的数目称为样本容量或样本量 (sample size)2022-5-6.研究我国上市公司的业绩变化.研究某上市公司的业绩变化当个体足够大时,通常需要通过抽样设计来抽取一定数量的个体作为样本 研究我国所有企业的资本结构问题? 研究我国所有上市公司的资本结构问题?从总体中抽样的基本步骤包括: 界定研究总体,被抽样的元素集合,如全部上市公司 抽样单位(sampling unit)与抽样框(sampling flame) 抽样单位指抽样阶段中供抽样的元素,例如先从全部上市公司的行业作为样本,然后从该行业中企业中抽样 抽
18、样框是指从中抽取样本的抽样单位清单,如行业清单和企业清单 确定样本规模 样本所含个体数目 通过不同的抽样方法从总体中抽取样本 简单随机抽样、分层随机抽样、整群抽样、系统抽样和多阶段抽样等抽样过程中总体包含的所有个体都具有同等的和独立的机会被选中。是一种最简单的获取有代表性样本的方法从全部学生中随机抽取1名学生回答问题sample 1,count从全部学生中随机抽取2%的学生回答问题sample 2类似地可以全部上市公司中随机抽取一定的公司作为样本分层随机抽样过程分两步,先将总体按其特征和研究要求分为不同的集合“层”,然后从每一“层”内进行抽样先全部学生分为男和女两层,然后从中分别随机抽取1名学生回答问题sample 1,count by(gender)先将全部上市公司按行业分层,然后从每个行业中随机抽取一定的公司作为样本sample 20,count by(hy)是将一组被调查者视作一个抽样单位而不是个体的抽样方法。比如调查某个地区的上市公司情况sample2 50 if age40, c(hre
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- NPI流程及标准文件清单模板
- 建筑工程工商合同范本
- 工程施工合同分账协议
- Unit6SectionAa-e课件人教版英语七年级上册()-1
- 房地中介劳动合同范本
- 报关委托协议合同范本
- 客户代理服务合同范本
- 奶茶店合作的合同范本
- 家居贸易采购合同范本
- 工作服务清洗合同范本
- 2025新疆智慧口岸建设白皮书
- 2025岚图汽车社会招聘(公共基础知识)测试题附答案
- 2026年安全员考试题库300道附完整答案【必刷】
- 医疗纠纷预防与处理流程
- 2025福建德化闽投抽水蓄能有限公司招聘15人模拟试卷附答案
- 销售行业合同范本
- 2026年民用无人机操控员执照(CAAC)考试复习重点题库标准卷
- 英语试卷+答案黑龙江省哈三中2025-2026学年上学期高二学年12月月考(12.11-12.12)
- 运输企业消防安全责任制
- 安徽金轩科技有限公司 年产60万吨硫磺制酸项目环境影响报告书
- 厦深铁路福建段某标段工程投标施工组织设计
评论
0/150
提交评论