已阅读5页,还剩22页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三讲数据管理 字符变量的处理 字符变量转换为数值变量数值变量转换为字符变量字符变量的分解重要的字符处理函数 字符变量转换为数值变量1 从文本文档中读入的数值变量可能以字符变量的方式存储变量中可能包含了特殊符号 如金额 逗号 斜线 百分比 破折号 等 字符变量转换为数值变量2 数值观测偶尔误存为字符观测 destring例 destringyeardatesizelev replaceignore 例 destringcode gen code2 ignore 字符变量转换为数值变量3 如果没有特殊符号 real 例 gencode2 real code 字符变量转换为数值变量4 数值观测全部存为字符观测 encode例 encodecode gen code2 该命令自动产生 数字 文字对应表 命令labelbook查看 数值变量转换为字符变量1 命令 tostring例 tostringyearmonthday replace例 tostringyear gen year2 数值变量转换为字符变量2 函数 string 例 genyear2 string year 字符变量的分解与合成 分解命令 splitxxx parse x 例 splitdate parse 合成 例 gena b c例 di Iam ateacher 重要的字符处理函数 求助 helpfunction最重要 substr 例 genyear substr date 1 4 注意 每个英文字母占一位 但每个中文字符占两位字符匹配函数 strmatch 例 gena strmatch ind C 变量创建的技巧 n与 N虚拟变量的产生交互项的产生egen命令 n与 N n 样本序号变量 是一个变量 内容为1 2 3 n N 样本数指标 是一个单值 内容为样本数 n是一个永远存在 但却不能list出来的特殊变量 n的取值会随样本排序的变化而变化 产生滞后项 genlagsales sales n 1 产生前导项 genlagsales sales n 1 产生最后一项 genmsales sales N 差分 gendsales sales sales n 1 增长率 gengsales sales sales n 1 sales n 1 表示是否为第一 最后一项 if n 1 if N 1 时间序列 面板数据的滞后项 差分 增长率tssetcodeyeargenlagsales l salesgendsales d salesgengsales d sales l sales其他 f salesl2 salesf2 salesd2 sales 分组进行 bysortind gena nbysortind keepif n 1bysortind keepif N 1 虚拟变量的产生 使用 generate 和 replace 产生虚拟变量genhsize 1ifsize 1000000 size replacehsize 0ifsize 1000000基于类别变量生成虚拟变量tabrace gen dum xii racexii race prefix dum xii race prefix dum noomit因子变量默认对照组 regwagei race设置对照组 regwageib3 race 等分样本 group num 例 geng inc group 5 条件函数 cond s a b c 例 genx cond age 50 1 0 交互项的产生 基本方法 generate例 genjh state size因子变量的应用 i c helpfvvarlist regroastatelevsizeregroastatelevsizec lev c size regroastatec lev c size regroastatelevi state c levsize regroai state c levsize regroastatelevnsizec lev i nsize egen命令 egen与gen的差异gens1 sum sales 累加egens2 sum sales 总体加总gena1 b c 2egena2 rmean bc 产生各种统计参数egenm median sales sd mean min max count bysortind egenm median sales egenm meidan sales by ind 资料的合并与追加 横向合并 merge例 merge1 1codeyearusingx例 merge1 mcodeusingx例 mergem 1codeusingx纵向追加 append例 appendusingx 分位数 命令pctile 产生分位数 不能与by连用例 pctilex size nq 10 例 pctilex size nq 10 gen y 命令xtile 产生所属组别 不能与by连用例 xtilex size nq 10 函数pctile 与xtile 可以与by或bysort连用例 bysortyear egenx pctile size nq 10 例 bysortyear egenx xtile size nq 10 离群值的处理 离群值的查找 adjacent缩尾处理 winsorizing winsor截尾处理 truncating 例 pctileroa percentile 199 dropifroar r2 时间序列数据 声明时间序列 tsset检查是否有断点 tsreport report填充缺漏的日期 tsfill追加样本 tsappend add 日期变量的处理 helpdates and times 面板数据 面板数据的声明 xtset重复值的查验与删除查验 duplicatesreportcodeyear删除 duplicatesdropcodeyear force面板资料的基本描述 xtdesxtpattern统计公司数目 panelscode产生连续的公司代码 egen group code 处理为平行面板 xtbalance例 xtbalance range 20002008 例 xtbalance range 20002008 miss sizelevroa 练习 把字符变量 日期date 分解为数值变量 年year 月month 日day根据年 月 日 年 月或年 季 生成日期变量生成新的证监会行业分类变量 制造业以前2个代码标识 其他行业以第1个代码标识计算样本中的公司家数留下每一年中每一行业的最大的一家公司生成行业中位数调整的ROAbysortcsrc w egenroa c median roa 生成以3年ROA标准差度量的经营风险变量根据最终控制人性质生产国有产权虚拟变
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年保险人代理资格考试题
- 合同制人员从事基层公共服务工作考试真题及答案
- CIE历年真题及答案
- 2022年咨询实务考试真题答案
- 2025年银行从业资格证考试真题试卷
- 危化品安全风险预警真题2025考核资料
- 2025年安全员B证考试试题(原创题)附答案详解
- 2011年湖南省公务员考试《申论》真题 含答案解析
- 《计算机应用基础》复习题答案和解析
- 2025年护士资格考试历年真题汇编试卷
- 2025年国有企业管理专员岗位招聘面试参考题库及参考答案
- 抖音直播培训方案
- 2025宁夏回族自治区大学生乡村医生专项计划招聘工作人员13人考试笔试模拟试题及答案解析
- 学校食堂满意度测评及管理方案
- 【生】植物的生殖和发育 课件-2025-2026学年新教材北师大版八年级上册生物
- 2025云南楚雄州元谋县国有资产投资管理有限公司及所属子公司合同制员工招聘13人考试笔试备考试题及答案解析
- 糖尿病宣教-带着甜蜜去生活文档
- 小学语文教师素养大赛知识素养试题
- 2025年辐射安全与防护考试考核题库(附答案)
- 椭圆及其标准方程(第二课时)+课件-2025-2026学年高二上学期数学人教A版选择性必修第一册
- 北京市海淀区2025-2026学年高三上学期期中地理试题 含解析
评论
0/150
提交评论