SPSS中异常值检验的几种方法介绍.doc

上传人：灯*** IP属地：河北上传时间：2019-11-30 格式：DOC 页数：34 大小：3.50MB 积分：12 举报 版权申诉

已阅读5页，还剩29页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

SPSS中异常值检验的几种方法介绍方法具体如下所示：离群值（箱图探索）.值与框的上下边界的距离在1.5倍框的长度到3倍框的长度之间的个案。框的长度是内距。极端值（箱图）.值距离框的上下边界超过3倍框的长度的个案。框的长度是内距在回归模型诊断里面，一般称预测值与实际值的偏差为残差,残差有几种表示方法:标准化残差, 学生化残差等等，按照需要取一种残差，再按照某种标准取一个阀值来限定异常点，只要那个点的残差大于阀值，就可以认为它是异常点。SPSS14之后新功能 SPSS Data Validation能帮助您轻松地探察多个异常值，以便您可以进一步检验并确定是否把这些观测包括在您的分析中。SPSS Data Validation异常探察程序能够基于与数据集中相似观测的偏离探察异常值，并给出偏离的原因。它使您可以通过创建新变量来标识异常值。标签：市场研究研究方法经营分析分类：经营分析 2009-11-24 18:59 这段时间太忙了，一直没有静下心来。积攒了几个朋友的问题，现在来回答或介绍一些，今天先谈谈时间序列(Time-Series Forecasting)的预测问题！预测：是对尚未发生或目前还不明确的事物进行预先的估计和推测，是在现时对事物将要发生的结果进行探讨和研究，简单地说就是指从已知事件测定未知事件。为什么要预测呢，因为预测可以帮助了解事物发展的未来状况后，人们可以在目前为它的到来做好准备，通过预测可以了解目前的决策所可能带来的后果，并通过对后果的分析来确定目前的决策，力争使目前的决策获得最佳的未来结果。我们进行预测的总的原则是：认识事物的发展变化规律，利用规律的必然性，是进行科学预测所应遵循的总的原则。这个总原则实际上就是事物发展的1-“惯性”原则事物变化发展的延续性；2-“类推”原则事物发展的类似性；3-“相关”原则事物的变化发展是相互联系的；4-“概率”原则事物发展的推断预测结果能以较大概率出现，则结果成立、可用；时间序列预测主要包括三种基本方法：1-内生时间序列预测技术；2-外生时间序列预测技术；3-主观时间序列预测技术；当然今天我们主要讨论内生时间序列预测技术也就是只关注时间序列的下的预测问题！从数据分析的角度来考虑，我们需要研究：1. 序列是否在固定水平上下变动？ 2. 此水平是否也在变动？ 3. 是否有某种上升或下降的趋势呢？ 4. 是否存在有季节性的模式？ 5. 是否季节性的模式也在变更呢？ 6. 是否存在周期性规律和模式？时间序列有一明显的特性就是记忆性(memory)，记忆性系指时间数列中的任一观测值的表现皆受到过去观测值影响。时间序列主要考虑的因素是：长期趋势(Long-term trend) 1. 时间序列可能相当稳定或随时间呈现某种趋势。 2. 时间序列趋势一般为线性的(linear)，二次方程式的 (quadratic)或指数函数(exponential function)。季节性变动(Seasonal variation) 1. 按时间变动，呈现重复性行为的序列。 2. 季节性变动通常和日期或气候有关。 3. 季节性变动通常和年周期有关。周期性变动(Cyclical variation)1. 相对于季节性变动，时间序列可能经历“周期性变动”。 2. 周期性变动通常是因为经济变动。随机影响(Random effects)预测技术主要包括两大类：指数平滑方法（Exponential smoothing models）：描述时间序列数据的变化规律和行为，不去试图解释和理解这种变化的原因。例如：您可能发现在过去的一年里，三月和九月都会出现销售的高峰，您可能希望继续保持这样，尽管您不知道为什么。 ARIMA模型：描述时间序列数据的变化规律和行为，它允许模型中包含趋势变动、季节变动、循环变动和随机波动等综合因素影响。具有较高的预测精度，可以把握过去数据变动模式，有助于解释预测变动规律，回答为什么这样标签：市场研究研究方法经营分析分类：经营分析 2009-12-02 15:35 本想早点完成这个时间序列的主题，但最近一直非常多的事情，又耽搁了这么长时间。朋友们问的问题没有收尾总是不好，抓紧时间完成吧。因为，后天要参加中国电信集团的一个EDA论坛，要仔细准备发言稿！在交流的过程中，发现大家都对预测问题非常关注，尤其是数据挖掘领域，有时候分类问题与预测问题在表达上区分不开，有时候分类就是预测，比如通过判别分析、C5.0规则或Logistics回归进行监督类建模，得到的结论说该客户是什么类别等级，似乎也可以说是预测；当然，如果能够预测该消费者什么时候流失，也就是进行了分类；这样说吧，其实有时候并不需要严格区分分类和预测，关键是时间点。从这也可以看出，预测问题内涵和外延是非常宽泛的，但研究者心中要有数，这决定了你得到的结果该如何应用。前面的博文提到，如果我们考虑时间序列预测包含有预测和干扰变量如何解决的问题。从方法角度讲，过去没有统计分析软件要完成预测可以说是困难的，现在有了软件工具就方便多了。从技术角度讲：预测模型如果能够排除因为异常原因造成的时间点事件和时间段时间，就好了。例如某天停电没有开业，或者某一段时间比如发生甲型H1NI一周没有营业收入，这些事件必须能够告诉模型未来不会再发生了；当然，我们也要把未来会重复发生的干扰因素纳入模型，例如：我们学校某天要开运动会，小卖部的可乐销量一定提高，或者我们学校7-8月份放暑假，销量一定减少，像这样的时间点和时间段事件未来会重复出现，我们如果能够告诉模型，那么预测会更准确。当然如果我们建立的模型能够预测未来，并能够将未来可预见的事件，包括时间点和时间段干扰纳入预测是非常好的事情啦！甚至，我们应该能够把预测模型中的，预测未来周期内的不可预见的时间点和时间段随时干预预测结果，这就需要考虑如何将预测模型导入生产经营分析系统了。下面的数据延续前两篇的案例，只是增加了自变量，（因为手头这个案例没有干预因素变量）在我们增加了5个自变量后，采用预测建模方法，选择专家建模器，但限制只在ARIMA模型中选择。确定后，得到分析结果，我们现在来看一下与原来的模型有什么不同。从预测值看，比前一模型有了改进，至少这时候的模型捕捉了历史数据中的下降峰值，这可以认为是当前比较适合的拟合值了。如果我们观察预测结果，可以发现模型选择了两个预测变量。注意：使用专家建模器时，只有在自变量与因变量之间具有统计显著性关系时才会包括自变量。如果选择ARIMA模型，“变量”选项卡上指定的所有自变量（预测变量）都包括在该模型中，这点与使用专家建模器相反；当确定了最终选择的预测模型和方法后，我们就可以预测未来了，当然你要指定预测未来的时间点，这里我们时间包括年、季度和月份；假定我们预测未来半年的销售收入。我们分别设定：预测值输出，95%置信度的上下限。注意：SPSS中文环境有个小Bug，必须改一下名字！在选项中，选择你的预测时间，预测期将根据你事先定义的数据时间格式填写。（后面的模型为了让大家看清楚，实际上我预测了一年的数据，也就是2010年的4个季度的12个月）。自变量的选择问题，在预测未来半年的销售收入中，ARIMA模型可以把其它预测变量纳入考虑，但如何确定未来这些预测变量的值呢？主要方法可以考虑：1）选择最末期数据；2）选择近三期数据的平均；3）选择近三期的移动平均这里我们选近三期移动平均作为预测自变量数值。上面就是预测结果！于此同时，SPSS活动数据集中也存储了预测值！最后，我们要解决时间序列预测的检验和统计问题！说实在话，我比较关注偏好商业应用，就是看得见就做得到！从上面的分析，我们基本上就知道了哪种预测模型更好，也就不去较真只有专业统计学者才关心的统计和检验问题，把这些交给统计专家或学术研究吧！（如果你是写学术论文，就必须强调这一点了！）实际上我们可以通过软件得到各种统计检验指标和统计检验图表！最后我们看一眼统计检验指标结果：大家可以把我们前面做的结果进行相互比较，或许你能够看出哪些指标更好，哪些指标该如何评测了！我看出来了，比如：Sig值越大越好，平稳得R方也是越大越好吧！ Sig.列给出了 Ljung-Box 统计量的显著性值，该检验是对模型中残差错误的随机检验；表示指定的模型是否正确。显著性值小于0.05 表示残差误差不是随机的，则意味着所观测的序列中存在模型无法解释的结构。平稳的R方：显示固定的R平方值。此统计量是序列中由模型解释的总变异所占比例的估计值。该值越高（最大值为 1.0），则模型拟合会越好。检查模型残差的自相关函数 (ACF) 和偏自相关函数 (PACF) 的值比只查看拟合优度统计量能更多地从量化角度来了解模型。合理指定的时间模型将捕获所有非随机的变异，其中包括季节性、趋势、循环周期以及其他重要的因素。如果是这种情况，则任何误差都不会随着时间的推移与其自身相关联（自关联）。这两个自相关函数中的显著结构都可以表明基础模型不完整。如果你一定要理解RMSE或者MAE等统计检验量，只好找来教科书好好学习了！我想，等我要写教科书的时候，一定会告诉大家如何检验这些统计量，并给出各种计算公式！但我的学生或读者大部分是文科或企业经营分析人员，讲这些东西他们都会跑了！大家不要忘了，SPSS时间序列预测模块还包含模型应用，也就是可以把预测模型转存为XML模型文件，以后预测的时候就可以不用原始数据了！我记得早期SPSS公司推出时间序列预测模型软件DecisionTime & What-if，非常好用，而且还可以进行更为细致的分析，甚至结果输出都是自动报告！当然，我找机会用PASW Modeler 13操作一次上述时间序列预测建模过程，也就是数据挖掘工具中的时间序列预测方法，会更方便、更简单、更好部署！备注：PASW Modeler 13就是SPSS公司的Clementine 13.0版本！博易智讯的马博士说：SPSS公司已经把SPSS软件改名叫PASW Statistics，Clementine叫PASW Modeler。自变量的选择问题，在预测未来半年的销售收入中，ARIMA模型可以把其它预测变量纳入考虑，但如何确定未来这些预测变量的值呢？主要方法可以考虑：1）选择最末期数据；2）选择近三期数据的平均；3）选择近三期的移动平均这里我们选近三期移动平均作为预测自变量数值。请问沈浩老师，以上这一段话怎么操作啊？在哪里选择这3种方法来确定未来的自变量的值啊？我试过手工输入未来的自变量值，可以做出预测，但是我想模型应该可以自动生成这些未来自变量的值，我找了很久都没有找着，请赐教！非常感谢！另外，有一个问题我一直没有想得很明白，想请教一下。多元回归分析做的预测和时间序列分析做的预测，使用条件和最大的区别是什么啊？如果数据是按时间走的，是不是就不适合用多元回归分析做预测呢？如果您能回复，我将感到万分荣幸。SPSS软件里面自变量取值一般是0-1；真实的干扰需要采用Clementine软件就有这个自动添加方式了，抱歉我没有说清楚！2）时间序列数据，自变量是相关的，当然不适合简单的线性回归分析！如何设计KPI指标关键绩效指标标签： KPI 商业智能研究方法分类： Dashboard仪表盘 2010-07-18 23:15 KPI：关键绩效指标，今年来企业一直关注这个问题，甚至有些公司，比如电信行业员工整天都围绕着KPI指标，什么是KPI呢？关键绩效指标即以定量的指标衡量经营活动的量化结果，一般由客观计算公式得出，并侧重考察当期绩效，最终成果以及对经营成果有直接控制力的工作；关键绩效指标设定的原则应该依据“平衡计分卡”进行设定，根据企业整体绩效目标及战略，层层分解，平衡考虑制定企业各层级的关键绩效指标。关键绩效指标已经成为商业智能领域的重要体系和方法论，如何从技术上实现KPI指标设计，以及如何采用信息化手段能够呈现绩效指标，并实施管理和监控，成为构建商业智能系统和经营分析系统的关键内容；设计关键绩效指标的关键因素主要包括：一致性：保持与战略和目标一致；所属性：应归属个人或各团队拥有，并对其结果负责；预测性： KPI是衡量企业价值的推动者，期望绩效的领先绩效指标；行动性： KPI具有及时行动数据，用户可及时采取干预，提供绩效；数量少：让用户集中在几个重要价值的指标任务上；简单性：不要涉及复杂的指数，导致用户难直接施加影响；平衡性： KPI之间保持平衡并相互支持，不仅仅对局部优化流程；触发变化：能触发一系列变化，尤其是高管进行监控；标准化：基于标准化定义、规则和计算方法，实现数据和仪表盘整合；背景驱动：KPI将绩效置于一定背景下，通过对象和阶段进行衡量；激励性：薪酬与KPI关联，在稳定期可提升影响力；相关性：进行定期评估及时更新；设计关键绩效指标的SMART原则是：根据经验，在设计关键业绩指标的时候必须遵循SMART原则，这五个字母分别代表一个具体的含义： S:业绩考核指标必须是具体和明确的，指标设计应当细化到具体内容，符合企业和团队主导业绩目标，保证明确的导向性。 M:业绩考核指标应当是容易衡量的，工作业绩成果应体现为可以量化的指标。 A:业绩考核指标应当是可以达到的，在保证一定挑战性的基础上，指标应当是员工在现有资源下经过努力可以实现的目标。 R:指业绩考核指标应当具有相关性，必须和企业的战略目标、部门的职能及岗位职责紧密联系。 T:业绩考核指标应当是有明确的时间要求，关注工作完成的效率。有关样本量代表性问题的解释大部分从事调查研究的朋友，都会碰到“多大样本量”才用代表性问题，其实这个问题不光研究人员会困惑，企业也非常困惑。那到底应该如何选择样本量呢？其实今天沈老师不是要回答这个问题，而是帮助你：如何解释这样一个样本量是恰当或合适的，既满足统计要求，也能考虑费用和可操作性！1. 样本量的确定是费用与精度的函数，取决于研究的精度和费用，特别是实践中费用考虑的更多！ 2. 抽样调查，特别是随机抽样，样本有代表性，往往比普查更有效率，甚至精度更高，这里我们主要计算和讨论抽样误差，非抽样误差是人为因素，考质量控制； 3. 样本量的确定有赖于随机抽样，或者说主要是针对随机抽样，需要统计推断下的计算样本量，如果是非概率抽样，理论上没有计算和控制样本量的问题； 4. 如果研究只要40-50个样本，感觉上应该是非概率抽样（依赖被访者选择方式） 5. 即使是非概率抽样，我们很多时候也采用概率和统计分析及推断思想来进行数据分析和下结论！只是这种方法没有完善的理论支持，或者说有可能因为研究者的主观判断失误造成偏差； 6. 无论是概率抽样还是非概率抽样，样本量越大当然效果越好，结论越稳定（理论上说） 7. 40-50个样本在统计上属于小样本，t-检验，如果样本大于60或理想120以上，t分布就是正态分布了，所以40个样本在统计上是最小推断总体的样本，换句话说40-50个样本是介于小样本和正态分布大样本的临界样本量；如果不严格的话40个样本就可以比较总体之间的统计差异了； 8. 所以，一般来讲，针对一个研究对象和人群，要进行比较最少40个样本，比如男女差异，应该各拥有40人（80人），或者说你们进行配额样本的时候要保证统计比较的类别至少有40个样本； 9. 那么40个样本有代表性吗？当然越多越好，越有代表性 10. 但如果调查对象非常一致，没有差异，只要问一个人就行了，所以要考虑研究对象的差异性，如果差异大，当然样本量要大，如果没有差异，同质性较高样本量就少； 11. 总体的大小对样本量的选择没有影响，调查研究一般必须在研究前明确总体是谁，大总体没有影响（上万人），中等总体有点影响（5000人），小总体有很大影响（千百个人）；总体是你要推断的人群； 12. 再者要考虑研究对象在总体中拥有的比例（比如要找艾滋病人），如果比例非常低的话，需要大样本才能找到；但往往商业研究就采用非概率抽样了，比如滚雪球抽样，专家判断抽样，配额抽样等； 13. 另外，选择40个人，如果是经过我们主观判断的，有一种说法：叫条件概率，也就是我们越了解研究目的和对象，我们就越能够做出正确判断；比如P（A|B），也就是说我们越了解B事件发生的概率，那么A发生的概率就越确定；就像我们在Google中搜东西，你的关键词=B越准确，得到的结果A就越是你想要的东西； 14. 当然，如果你的主观判断错了，就会犯更大的错误 15. 还有就是希望得到的精度；如果得到的结果是70%加减10%误差我们可以接受，但如果是总体本身就不到8%，那8%加减10%，尾巴比头都大显然不行，当然到底如何确定精度，是研究前你们与客户要明确的，事先研究设计确定的，不能事后来说； 16. 记住：有时候我们研究本身不需要那么高的精度 17. 整个研究设计过程的质量控制可以更有效提升研究品质 18. 研究测试的技术（接近自然科学仪器测量）可获得更好研究品质 19. 根据精确的抽样，需要采用精确的统计分析，否则也达不到效果 20. 任何研究都不会完美，都是权衡和保守的过程，总的来讲保守不犯错 21. 如果研究有实验设计和研究设计，所以实验设计，包括所谓双盲实验、正交设计、拉丁方格等，确定样本分组是非常精细的，有助于研究品质；但设计缺陷会造成降低品质； 22. 处置组和对照组的设计，主要应用在传播效果、广告效果研究上，需要有设计原则 23. 实验设计也强调对其它影响因素的控制，也就是X对Y的影响，要控制住Z的干扰，更能提高研究品质 24. 被访者的参与度（你的激励方式）也重要，一分钱一分货；我们是花钱买信息 25. 任何理由都是可解释的，但这里主要是要用术语，越专业越说行话，别人更相信，所以解释样本量的科学性，有时候要用科学，也就是理论； 26. 因为有理论，显得有水平，因为有水平就有话语权，就有执行力！所以权威部门的设计或出面，客户就相信了！ 27. 研究过程，不断修正，比如追加样本也是解决问题的办法 28. 连续性研究，也会解决或减少对样本量的需求 29. 广告效果研究经常采用rolling data的方式，因为广告效果有延迟效应，每周50个样本，4周一个分析，就是200样本，第五周分析前4周，第六周分析2-5周数据，进行比较和检验，这是常有方法；如何在Excel里实现一张图显示多系列直方图我们在分析的时候，经常需要设计模拟器，特别是在结合分析和离散选择模型中，通过模拟分析市场份额进行测算！当然，有时候我们特别希望根据不同的选择显示不同的数据结果，特别是图表结果！例如：下面是在模拟某个汽车品牌市场竞争环境的效用值分析用到的方法，通过选择不同的属性，可以在统一视图下看到各个属性的水平效用值！首先我们假设有这样一个结合分析需求（Conjoint Analysis）：通过市场调查和结合分析得到某个类别的特定效用值：现在我们需要采用直方图（条形图）方式给出效用值图，但是如果能够整合在一起，用一张图表述就非常方便啦！有没有解决方法呢？其实，只要我们把这组数据进行重新排列和组合，让后利用Vlookup函数，就可以方便实现！首先，我们把数据重新组合排列：注意：因为不同属性的水平不同，也就意味着不同直方图系列长度不一，我们需要恰当分配和布局然后，在蓝色单元格里分别写Vlookup函数语句红色单元格，主要目的是把0值转换成空格，=IF(单元格=0,该单元格) 接下来，针对红色单元格，画直方图，Lable用前半部分，数值取后半部分，图标用最后一列！（这要求大家在画图的时候，能够细致调整具体内部和格式）最后，大家设计一个单选按钮选择，从视图窗体工具栏（单选按钮），将单选按钮的链接单元格设定为A1，上图左上角黑色的位置！这样就可以得到统一视图下的选择图了！数据可视化的艺术用图表吸引目光（四）Excel金字塔图数据可视化的艺术用图表吸引目光（四）Excel金字塔图标签：数据可视化 Excel 单元格格式金字塔图表 2010-05-22 19:59 这次介绍一个Excel 的小技巧，关于单元格格式中【数字】这一项的设定。请看上图所示的金字塔图，有没有发现问题？比如下图按照常规的作图方式，图中突出的两个地方的数字应该是“-9508”和“-15000”。但是在表示人口数量的时候使用负数显然是不合适的。因此我们可以想个办法将Excel中的图标转换成y轴左右都是正数的形式。调查数据的加权处理技术很多人在进行统计分析和市场研究的时候，都涉及到对数据进行加权的问题，这是一个搞数据分析和从事市场研究的人都会碰到的问题，需要大家正确理解并解释，并采用合理的操作技术和处理方法。什么是加权呢？简单地说，就是要“让一些人变得比另一些人更重要！”要能够比较好的理解加权，首先你要了解抽样设计，特别是设计权数：每个样本单位所代表的被调查总体的单位数。设计权数由抽样设计决定,用Wd表示。设计权数Wd=1/入样概率；入样概率：在抽样设计中，如果一个样本的入样概率=1/50，那么该样本的设计权数=50。也就是说，这个样本代表了总体中的50个单位。关于自加权抽样设计：如果所用样本的设计权数是相等的，那么这样的抽样设计是自加权的。也就是说，总体中的每个单元被抽中的可能性相等，具有等可能性、具有相等的入样概率。如果是自加权的，在总体均值、比例估计时不用考虑设计权数，对总量的估计只要扩大样本。满足自加权的抽样设计：等概率抽样、简单随机抽样、系统抽样、分层抽样各层大小成比例，每层内简单随机抽样、多阶段抽样最后阶段等概率，其它阶段与单位大小成比例概率抽样。不等概率抽样往往不满足自加权，对于不等概率抽样，正确使用设计权数就尤为重要了！下面我们看看如何进行加权处理！加权：通过对总体中的各个样本设置不同的数值系数(即加权因子-权重)，使样本呈现希望的相对重要性程度；基本加权等于：设计加权=某个变量或指标的期望比例/该变量或指标的实际比例；什么情况下要进行加权？情景1：我们在抽样调查得到的样本结构与总体人口统计结构状况不相符，我们可以通过加权来消除/还原这种结构差异，达到纠偏的目的；例如，在城市和农村各调查300样本，城市与农村人口比例“城市:农村=1:2”(假设)，在分析时我们希望将城市和农场看作一个整体，这时候我们就可以赋予农村样本一个2倍于城市样本的权重；情景2：除了人口统计结构，有时候我们在调查样本的某些变量或指标上样本的代表性可能也会相对总体的实际状况过高/过低，此时，需要加权进行调整；这类不匹配大多是我们“故意”而为(通过“追加”样本实现)，比如在配额抽样的时候，设置配额要求某类被访者对某产品的使用者必须达到50%，但实际情况是总体市场中实际使用者仅有10%；有时，则是“非情愿”的出现，比如设置了能反映总体的配额比例，但实际操作却出现了比例偏高/偏低；情景3：在样本组配额实验设计中，进行不同子总体对比检验，也会通过加权来调整不同组间的样本属性不相匹配的情形(通常设有相同的配额，但执行有可能会出现差异)；通常，加权对结果产生的差异很小，更多的是对结果从准确度上进行修饰；情景4：所测试样本出现了较多的缺失值，需要加权来纠正结果；对于面向特定客户的专项研究，在调查前基本都协议有要完成的样本量，故这种情形较少；加权方法：采用因子加权：对满足特定变量或指标的所有样本赋予一个权重，通常用于提高样本中具有某种特性的被访者的重要性；例如，研究一种香烟的口味是否需要改变，那么不同程度吸食者的观点也应该有不同的重要性对待：例如：重度吸食者=3，经常吸食者=2，偶尔/不抽烟=1，记住：实际应用时候，如果“经常/偶尔”的基数足够大，往往单独分析，不进行加权处理；采用目标加权：对某一特定样本组赋权，以达到们预期的特定目标；例如：我们想要：品牌A的20%使用者 = 品牌B的50%使用者；或者品牌A的20%使用者 = 使用品牌A的80%非使用者；采用轮廓加权：多因素加权，因子/目标加权不同(一维的)，轮廓加权应用于对调查样本相互关系不明确的多个属性加权；面对多个需要赋权的属性，轮廓加权过程应该同时进行，以尽可能少的对变量产生扭曲；我们应该知道，无论加权的动机是什么，但操作过程是一样的：1. 依不同属性变量/指标将样本分为多个组(加权组)，然后根据所希望各个组代表的个体规模赋予不同的权重；即明确分析子集/样本组，通常，经常以人口结构变量、地域变量作为分类指标；明确各个分析子集/样本组中个体的代表性强弱(权重)； 2. 加权是在数据收集结束后采取的数据“纠偏”行为，但一定要清醒的知道：配额设置不合适、FW执行差或其他错误而造成的“不好”的原始数据收集，即使加权也一定是“无效的”； 3. “提前避免错误/失误发生，总好过事后的任何补救！”事后加权案例：例如：我们为了研究，得到某小公司职员吸烟习惯的信息，进行了一项调查。从N=78个人的目录中抽出了一个n=25人的简单随机样本。在调查的设计阶段，并没有可用于分层的辅助信息。在收集关于吸烟习惯的信息的同时，还收集了每个回答者的年龄和性别情况。总共有nr=15个人作出了回答。由此得到样本数据的下列分布：假设我们估计知道某公司约有16个男性职员和62个女性职员，而且男女的吸烟比例不同。经过加权后我们得到该公司吸烟的比例估计在53%；我们总是希望调查所得的估计值与已知的男性和女性数量比例相一致，当我们认为一个人是否吸烟与他的性别之间可能存在相关性，因此他们认为，使用事后分层能够提高估计的精度。然而实际上，如果在调查的设计阶段就已经获得这些信息的话，

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

SPSS中异常值检验的几种方法介绍.doc

文档简介

温馨提示

最新文档

评论

SPSS中异常值检验的几种方法介绍.doc

文档简介

温馨提示

最新文档

评论

相关文档