




已阅读5页,还剩22页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三讲数据管理 字符变量的处理 字符变量转换为数值变量数值变量转换为字符变量字符变量的分解重要的字符处理函数 字符变量转换为数值变量1 从文本文档中读入的数值变量可能以字符变量的方式存储变量中可能包含了特殊符号 如金额 逗号 斜线 百分比 破折号 等 字符变量转换为数值变量2 数值观测偶尔误存为字符观测 destring例 destringyeardatesizelev replaceignore 例 destringcode gen code2 ignore 字符变量转换为数值变量3 如果没有特殊符号 real 例 gencode2 real code 字符变量转换为数值变量4 数值观测全部存为字符观测 encode例 encodecode gen code2 该命令自动产生 数字 文字对应表 命令labelbook查看 数值变量转换为字符变量1 命令 tostring例 tostringyearmonthday replace例 tostringyear gen year2 数值变量转换为字符变量2 函数 string 例 genyear2 string year 字符变量的分解与合成 分解命令 splitxxx parse x 例 splitdate parse 合成 例 gena b c例 di Iam ateacher 重要的字符处理函数 求助 helpfunction最重要 substr 例 genyear substr date 1 4 注意 每个英文字母占一位 但每个中文字符占两位字符匹配函数 strmatch 例 gena strmatch ind C 变量创建的技巧 n与 N虚拟变量的产生交互项的产生egen命令 n与 N n 样本序号变量 是一个变量 内容为1 2 3 n N 样本数指标 是一个单值 内容为样本数 n是一个永远存在 但却不能list出来的特殊变量 n的取值会随样本排序的变化而变化 产生滞后项 genlagsales sales n 1 产生前导项 genlagsales sales n 1 产生最后一项 genmsales sales N 差分 gendsales sales sales n 1 增长率 gengsales sales sales n 1 sales n 1 表示是否为第一 最后一项 if n 1 if N 1 时间序列 面板数据的滞后项 差分 增长率tssetcodeyeargenlagsales l salesgendsales d salesgengsales d sales l sales其他 f salesl2 salesf2 salesd2 sales 分组进行 bysortind gena nbysortind keepif n 1bysortind keepif N 1 虚拟变量的产生 使用 generate 和 replace 产生虚拟变量genhsize 1ifsize 1000000 size replacehsize 0ifsize 1000000基于类别变量生成虚拟变量tabrace gen dum xii racexii race prefix dum xii race prefix dum noomit因子变量默认对照组 regwagei race设置对照组 regwageib3 race 等分样本 group num 例 geng inc group 5 条件函数 cond s a b c 例 genx cond age 50 1 0 交互项的产生 基本方法 generate例 genjh state size因子变量的应用 i c helpfvvarlist regroastatelevsizeregroastatelevsizec lev c size regroastatec lev c size regroastatelevi state c levsize regroai state c levsize regroastatelevnsizec lev i nsize egen命令 egen与gen的差异gens1 sum sales 累加egens2 sum sales 总体加总gena1 b c 2egena2 rmean bc 产生各种统计参数egenm median sales sd mean min max count bysortind egenm median sales egenm meidan sales by ind 资料的合并与追加 横向合并 merge例 merge1 1codeyearusingx例 merge1 mcodeusingx例 mergem 1codeusingx纵向追加 append例 appendusingx 分位数 命令pctile 产生分位数 不能与by连用例 pctilex size nq 10 例 pctilex size nq 10 gen y 命令xtile 产生所属组别 不能与by连用例 xtilex size nq 10 函数pctile 与xtile 可以与by或bysort连用例 bysortyear egenx pctile size nq 10 例 bysortyear egenx xtile size nq 10 离群值的处理 离群值的查找 adjacent缩尾处理 winsorizing winsor截尾处理 truncating 例 pctileroa percentile 199 dropifroar r2 时间序列数据 声明时间序列 tsset检查是否有断点 tsreport report填充缺漏的日期 tsfill追加样本 tsappend add 日期变量的处理 helpdates and times 面板数据 面板数据的声明 xtset重复值的查验与删除查验 duplicatesreportcodeyear删除 duplicatesdropcodeyear force面板资料的基本描述 xtdesxtpattern统计公司数目 panelscode产生连续的公司代码 egen group code 处理为平行面板 xtbalance例 xtbalance range 20002008 例 xtbalance range 20002008 miss sizelevroa 练习 把字符变量 日期date 分解为数值变量 年year 月month 日day根据年 月 日 年 月或年 季 生成日期变量生成新的证监会行业分类变量 制造业以前2个代码标识 其他行业以第1个代码标识计算样本中的公司家数留下每一年中每一行业的最大的一家公司生成行业中位数调整的ROAbysortcsrc w egenroa c median roa 生成以3年ROA标准差度量的经营风险变量根据最终控制人性质生产国有产权虚拟变
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023六年级数学上册 一 长方体和正方体第1课时 长方体和正方体的认识 2长方体和正方体的展开图说课稿 苏教版
- 学前教育机构师资队伍建设与管理中的教师激励机制研究
- 2025年新能源企业数字化转型与智能制造技术应用报告
- 金融数据治理:2025年合规风险与解决方案深度剖析
- 1.4 有理数的加法和减法教学设计初中数学湘教版2012七年级上册-湘教版2012
- 4.1 家的意味 说课稿-统编版道德与法治七年级上册
- 2025年中国高纯度蔓越莓提取物行业市场分析及投资价值评估前景预测报告
- 1.1 探索勾股定理(第2课时)教学设计 2024--2025学年北师大版数学八年级上册
- 2025年中国干墙化合物和干墙泥行业市场分析及投资价值评估前景预测报告
- 第七单元加与减(二)(教学设计)-一年级上册数学北师大版
- 2025年吉安县公安局面向社会公开招聘留置看护男勤务辅警29人笔试备考试题及答案解析
- 黑素细胞基因编辑-洞察及研究
- 男衬衫领的缝制工艺
- 学校教室卫生检查标准及执行细则
- 2025年新疆警察笔试题及答案
- 《燕麦片营养调查》课件
- 诗经·卫风·淇奥课件
- 爱吃糖的大狮子
- 手术操作分类代码国家临床版3.0
- 家用药箱会整理(课件)人教版劳动六年级上册
- 脊髓损伤神经学分类国际标准
评论
0/150
提交评论