26年老年论文写作数据提取步骤课件_第1页
26年老年论文写作数据提取步骤课件_第2页
26年老年论文写作数据提取步骤课件_第3页
26年老年论文写作数据提取步骤课件_第4页
26年老年论文写作数据提取步骤课件_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

26年老年论文写作数据提取步骤课件演讲人目录01.1明确研究问题与核心变量锚定07.1提取数据的标准化整理03.3伦理合规与工具准备05.2核心变量提取与编码02.2数据源合法性与适配性筛选04.1原始数据导入与初步清洗06.3提取结果的多维度一致性核验08.2老年数据的合规存储作为一名从事老年学研究十余年、累计指导超过50篇老年方向本硕博学位论文、参与多项国家级老龄研究项目的研究者,我发现近八成新手作者在老年论文写作环节的核心问题,都出在数据提取阶段:要么变量提取错配研究问题,要么数据质量把控不严导致结论偏差,甚至因为伦理不合规导致论文直接被拒。不同于一般主题的论文写作,老年研究的研究对象异质性强、数据缺失率高、伦理要求更严格,对数据提取的规范性要求远高于平均水平。基于此,我结合近年学界对老年研究数据规范的最新要求,整理出老年论文写作中数据提取的完整步骤,供同行和青年研究者参考。整个提取流程分为三个逐层推进的核心阶段,各阶段环环相扣,缺一不可。1数据提取前期筹备阶段:锚定方向,做好前置校验我始终认为,数据提取不是从拿到数据源才开始的,而是从确定研究问题的那一刻就已经启动。前期筹备不到位,后续操作再规范也很难产出可靠的数据,我就见过不少学生拿到数据就直接提取,做到一半才发现数据源不匹配研究问题,最终只能推翻重来,浪费了数月时间。011明确研究问题与核心变量锚定1明确研究问题与核心变量锚定锚定核心变量是数据提取的第一步,也是最关键的一步,所有提取操作都要围绕研究问题展开。1.1拆解研究问题的核心维度拿到确定的研究问题后,第一步要拆解出研究涉及的所有变量类型,区分核心解释变量、被解释变量、中介调节变量、控制变量,明确每一类变量的测量要求。比如研究“数字融入对城市低龄老年人再就业意愿的影响”,核心解释变量是数字融入,被解释变量是再就业意愿,中介变量可能是社会网络支持,控制变量需要覆盖个体人口学特征、家庭特征、地区经济特征,所有变量都要明确界定,不能模糊处理。1.2匹配变量与数据源题项的对应关系拆解完变量后,要逐一对应到现有数据源的具体题项,尤其要注意不同年份、不同数据库的题项编码差异。我前年带的一个硕士研究生,做老年抑郁的影响因素研究,直接套用了往届学生2018年CHARLS数据的变量编码,没有注意到2020年CHARLS数据库中抑郁量表题项的编码顺序已经调整,反向计分题的位置发生了变化,直到跑完回归结果和既有研究完全相反才发现问题,整整耽误了一个月的进度。因此,我要求所有学生在这一步必须逐一核对题项表述和编码,不能直接照搬已有研究的对应关系。022数据源合法性与适配性筛选2数据源合法性与适配性筛选老年论文常用的数据分为一手调研数据和公开二手数据两类,不同数据的筛选逻辑各有侧重,但核心要求都是适配研究问题、符合学术规范。2.1不同类型数据源的适配性判断如果是一手调研数据,要提前确认抽样框是否覆盖研究对象,比如研究高龄农村失能老人的养老负担,抽样框就不能只覆盖城镇社区,也不能只抽低龄健康老人,样本代表性从一开始就要把控。如果是二手数据,要优先选择国内权威公开数据库,比如中国健康与养老追踪调查(CHARLS)、中国家庭追踪调查(CFPS)、中国老龄科学研究中心的老龄调查数据等,这类数据已经过前期质量校验,可靠性远高于非公开的小样本零散数据。我去年评审一篇外校硕士论文,作者研究农村老年人互助养老参与,为了方便直接用了某课题组针对城市社区老年志愿服务做的小样本数据,农村老年人占比不到12%,总样本量不足80,最终结论完全不具备推广性,这就是数据源筛选阶段就出了错。2.2数据源质量的预校验确定数据源后,要提前做三项基础校验:一是样本量是否满足统计检验要求,一般来说,多元回归分析每个核心变量至少需要30个以上样本,子样本分析也不能低于这个标准;二是核心变量的缺失率,老年研究中核心变量缺失率超过20%就要谨慎选择,过高的缺失率会导致结果偏差;三是有没有明显的样本选择偏差,比如研究退休老人的养老金待遇,不能只抽机关事业单位退休人员,遗漏企业退休和城乡居民养老保险参保人员。033伦理合规与工具准备3伦理合规与工具准备老年群体是弱势群体,数据提取的伦理要求远高于其他研究方向,这一点必须放在前面落实。3.1伦理要求预审核如果是一手数据,必须提前获得伦理委员会审查批准,调研前要获得受访者的知情同意,对于认知能力不足的高龄老人,还要获得监护人的知情同意。如果是二手数据,要严格遵守数据源的使用协议,公开数据必须完成注册申请获得授权,不能私自转发未公开的原始数据。我早年做田野调研的时候,曾经遇到过一位82岁的高龄受访者,担心自己的癌症病史信息泄露被子女反对,要求撤回数据,从那之后我不管做什么研究,提取数据前都会先做匿名化预设计,所有个人身份信息都用编号代替,这不仅是学术规范,更是对研究对象的基本尊重。3.2提取工具预调试根据数据类型提前调试好提取工具,常用的工具包括Stata、R、SPSS、Python等,提前做好格式兼容调试,比如不同版本的Statadta格式不兼容,提前转换好格式,避免导入后数据乱码。如果是处理访谈转录的质性研究数据,要提前设置好编码规则,调试好质性分析软件,避免提取过程中打乱原始转录内容。完成前期筹备阶段的所有工作,我们就进入了数据提取的核心操作环节,这一环节的规范性直接决定了后续数据分析结果的可靠性,我结合多年实践经验,将核心操作拆解为三个逐层推进的步骤。2核心操作阶段:分步规范提取,做好多轮核验041原始数据导入与初步清洗1原始数据导入与初步清洗原始数据的初步处理是提取核心变量的基础,这一步要最大限度保留有效信息,同时剔除无效数据。1.1原始数据导入校验导入数据后第一时间核对样本量和变量数量,和数据源公布的信息比对,确认没有遗漏模块。我见过不少学生下载公开数据的时候,只下载了个人模块,遗漏了家庭模块,做家庭养老支持研究的时候才发现缺了子女特征数据,还要重新下载导入,耽误了不少时间。1.2缺失值识别与标记老年研究中缺失值非常常见,比如高龄老人认知能力不足无法完成量表题,或者收入、患病史这类隐私问题受访者不愿回答,不能直接批量删除所有含缺失值的样本,要区分随机缺失和非随机缺失,逐一标记缺失原因,后续再选择合适的插补方法,批量删除会导致样本偏差,影响结论的可靠性。1.3异常值初步筛查异常值是老年论文数据中非常常见的问题,多来自录入错误,比如年龄填成150岁,月收入填成100万,这类明显不符合逻辑的异常值要先标记,核对原始数据后修正,无法修正的再剔除,不能直接忽略异常值,不然会严重回归的估计结果。052核心变量提取与编码2核心变量提取与编码完成初步清洗后,就可以按照前期锚定的变量对应关系提取核心变量,不同类型的变量提取要求不同。2.1单维度变量的直接提取对于年龄、性别、户籍、婚姻状况这类单维度变量,直接对应提取即可,分组要符合学界通用标准,比如老年群体分组一般为低龄老年(60-69岁)、中龄老年(70-79岁)、高龄老年(80岁及以上),不要随意调整分组标准,避免结论无法和已有研究比对。2.2多维度构念的合成提取对于数字融入、生命质量、抑郁水平这类多维度构念,需要多个题项合成,合成前首先要处理反向计分题,合成后要做信度检验,一般来说Cronbach’sα系数大于0.7才符合要求。我之前有个学生做数字融入对老年幸福感的影响,合成变量的时候忘了处理三道反向计分题,最终得出数字融入显著降低老年幸福感的错误结论,直到答辩的时候才发现问题,非常可惜,所以我现在要求所有学生合成变量后,必须逐一核对计分方向,再做信度检验。2.3子样本分层提取如果研究涉及异质性分析,要按照研究设计分层提取子样本,比如研究城乡差异、不同年龄组差异,就按照分组变量提取对应的子样本,提取后要确认每个子样本的样本量满足统计检验要求,样本量过小的子样本不能做显著性检验,要提前说明局限性。063提取结果的多维度一致性核验3提取结果的多维度一致性核验提取完所有变量后,不能直接进入下一步,必须做三次一致性核验,排除逻辑错误。3.1变量逻辑一致性核验逐一核对变量之间的逻辑关系,比如一位80岁的老年人,婚姻状况填了未婚,但是又有“配偶照料支持”的记录,这就是明显的逻辑矛盾,要核对原始数据修正,无法修正的做缺失处理;再比如子女数填了0,但是又有“子女每月提供经济支持”的记录,这类矛盾必须提前处理,不然会影响后续分析。3.2跨年度面板数据匹配一致性核验如果使用多轮追踪的面板数据,要逐一核对同一个体ID的跨年度信息一致性,比如年龄,两年追踪年龄增长应该在1-3岁之间,如果出现增长10岁或者负增长的情况,说明ID匹配错误,要重新匹配。我做CHARLS面板数据的时候,每年都会花至少一天时间核对ID匹配,就是为了避免这类错误。3.3提取结果的复现核验提取完成后,按照你的步骤重新操作一遍,确认结果一致,如果是团队合作,可以让另一个成员按照你的步骤重新提取,确保提取过程可复现,这是当前学界对学术研究的基本要求,也能及时发现提取过程中的疏漏。核心提取与核验完成后,并不意味着数据提取工作的结束,针对老年研究数据的特殊性,我们还需要完成标准化整理与合规归档,为后续论文写作的数据分析环节打好基础。071提取数据的标准化整理1.1变量编码注释标准化所有提取出来的变量都要添加清晰的注释,明确每个编码代表的含义,比如“1=农业户口,2=非农业户口”,不要只把注释记在自己脑子里,时间长了很容易遗忘,也方便审稿人核对你的数据处理过程。1.2数据分层存储原始数据、清洗后数据、提取后的核心变量数据要分开存储,绝对不能修改覆盖原始数据,原始数据是所有工作的基础,必须保留完整的原始版本,避免后续需要核对的时候找不到原始信息。1.3提取过程文档化把整个提取过程的每一步操作都记录下来,包括你怎么处理缺失值、怎么合成变量、怎么剔除异常值,所有决策都要留下文字记录,我自己现在写论文都坚持写步骤日志,早年我吃过没有记录的亏,几年后重新修改论文的时候,完全不记得当时为什么这么处理数据,还要重新做一遍提取,浪费了大量时间,所以这个习惯我一直保持到现在。082老年数据的合规存储2.1敏感信息脱密处理不管是一手还是二手数据,所有可识别个人身份的敏感信息,比如姓名、身份证号、具体住址、具体工作单位,都要删除,哪怕是公开数据库中没有脱敏的信息,提取后也要自己做脱密处理,严格保护受访者隐私。2.2存储安全管理数据要做好多重备份,本地硬盘备份加机构授权的云存储备份,不要存在未经授权的公共云盘,避免数据泄露或者丢失。2.3共享合规要求如果需要和同行合作共享数据,严格遵守原始数据源的授权协议,公开数据库的原始数据不能转给没有获得授权的研究者,一手调研数据共享也要提前获得受访者的同意,不能违规共享。总结综上,老年论文写作中的数据提取,是一个从研究问题锚定到最终合规输出的全流程系统性工作,而非很多新

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论