




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目九调查数据分析方法与预测技术通过本章的学习,使得学生了解:调查数据分析方法;了解和掌握预测技术;通过各种不同的数据分析方法,学生需要针对具体实例具体分析。【学习目标】
【知识结构图】
假设某水泥厂大量连续生产100公斤装水泥,一昼夜产量为14400袋,平均每分钟产量10袋。现每隔144分钟抽取一分钟的产量(10袋为一群),一昼夜共抽取100袋水泥,观察结果如下:试根据表中的数据,计算样本平均数的抽样平均误差,并以95%的概率估计每包水泥重量的区间范围。
【情景写实】
市场调查的抽样抽样方法与程序抽样控制总体和样本容量的确定抽样误差的测定市场调查的抽样技术抽样调查的概念抽样调查的优点抽样误差与非抽样误差抽样调查的基本要求关于普查
市场调查的抽样抽样调查是按照一定的规则从总体中抽取一部分个体单位作为样本,通过对样本的调查研究所获得的信息资料,来推断总体的信息资料的方法;因而抽样调查也称作抽样推断。抽样调查的概念抽样调查采取以部分推断总体的方式,减少了市场调查的工作量,简化了市场调查工作;抽样调查具有如下一些优点:费用低速度快应用范围广准确度高抽样调查的优点市场普查概述
市场普查是指对与市场有关总体的每一个单位进行逐一的、普遍的、全面的调查。市场普查可以获得全面的、准确的信息资料。适用于不经常进行调查领域的信息资料收集。市场普查的局限性
耗费时间长,资料的时效性差费用昂贵,耗费大量人、财、物市场普查简单随机抽样分群随机抽样分层随机抽样系统抽样
随机抽样调查简单随机抽样的概念简单随机抽样的方法简单随机抽样的估计简单随机抽样的样本容量估计简单随机抽样简单随机抽样又称单纯随机抽样,是所有随机抽样方法中最简单的一种方法。它按照随机的原则从调查总体中不加任何分类、排序、分组等先行工作,直接地抽取调查样本单位。各单位被抽到的机会完全均等,相互独立,排除了抽样过程中各种主观因素的干扰。简单随机抽样的概念抽签法随机数字表法(利用随机数字表进行随机抽样)(例如抽奖,网络抽奖,商场赠品抽奖)简单随机抽样的方法平均数的估计
总体平均数的估计区间
重复抽样时抽样平均数的误差估计
不重复抽样时抽样平均数的误差估计百分比的估计
总体百分比的区间估计
重复抽样条件下百分比平均数误差的估计
不重复抽样条件下百分比平均数误差的估计
简单随机抽样的估计
其中t为可信度,可根据置信水平查表获得。当可信水平为68.27%时,t=1;当可信水平为95%时,t=1.96;当可信水平为95.54%时,t=2;当可信水平为99.73%时,t=3;当可信水平为99.994%时,t=4;当可信水平为99.999%时,t=5。总体平均数的估计区间重复抽样时抽样平均数的误差估计不重复抽样时抽样平均数的误差估计
其中t为可信度,可根据置信水平查表获得。当可信水平为68.27%时,t=1;当可信水平为95%时,t=1.96;当可信水平为95.54%时,t=2;当可信水平为99.73%时,t=3;当可信水平为99.994%时,t=4;当可信水平为99.999%时,t=5。假设总体分为N1和N2两种表现,其中P=N1/NQ=N2/N,其中P+Q=1对于样本来说有n1和n2,其中p=n1/n总体百分比的区间估计重复抽样百分比平均数误差的估计不重复抽样百分比平均数误差的估计估计平均数情形下样本容量估计
重复抽样
不重复抽样估计百分比情形下样本容量估计
重复抽样
不重复抽样简单随机抽样样本容量的估计重复抽样估计平均数情形下样本容量估计(1)不重复抽样估计平均数情形下样本容量估计(2)
n是抽取的样本数,N是总体数重复抽样估计百分比情形下样本容量估计(1)不重复抽样估计百分比情形下样本容量估计(2)整群抽样就是将总体各单位分成若干群,然后从其中随机抽取部分群,对中选的群进行全面调查的抽样组织方式。在总体单位数很大时,如果直接从总体中抽取总体单位,有时是很困难的,比如从一个大城市中的所有大学生中抽样了解大学生的基本情况,这个城市的大学生人数有几十万之众,直接抽取样本单位有许多困难。如果按整群抽样,以班级为抽样单位,从全部学校的所有班级中抽出部分班级,调查抽中的班级,就方便多了。整群抽样设总体的全部N个单位被划分为R群,每群含有M个单位。现在从总体R群中随机抽出r群组成样本,对所选的群中的所有单位进行全面调查。群的平均数是:样本平均是:组间方差:样本平均数的抽样平均误差是:假设某水泥厂大量连续生产100公斤装水泥,一昼夜产量为14400袋,平均每分钟产量10袋。现每隔144分钟抽取一分钟的产量(10袋为一群),一昼夜共抽取100袋水泥,观察结果如下:试根据表中的数据,计算样本平均数的抽样平均误差,并以95%(置信水平)的概率估计每包水泥重量的区间范围。解:按题意,每分钟产量为一群,总体被分为R=14400/10=1440群,
r=1440/144=10。样本平均
(公斤)当可信水平为95%时,t=1.96类型抽样也称分层抽样,它是按一定标志对总体各单位进行分类,然后分别从每一类中按随机原则抽取一定的单位构成样本。类型抽样的前提是对总体的结构有着一定的了解,为了充分利用这些信息,提高估计的精确性,对总体按确定标志进行分类,保证抽出的样本与总体尽可能保持相似的结构。例如,抽样调查一个城市居民收入分配状况,如果历史资料反映了该城市居民的贫富结构:高收入者、中等收入者与低收入者的比例结构,我们可以按此结构分类分别从高收入者、中等收入者与低收入者中按一定的比例抽取样本。这样就可以避免样本全来自某一收入阶层所产生的系统偏差。类型抽样设总体由N个单位组成,按对总体的认识,把总体分为k组,使得:采用比例抽样方式,我们从每一类Ni抽取ni
时要求两者间保持合适的比例,也就是保持各组样本单位数与总体同组单位数之比,等于样本容量与总体单位数之比,即:假设某农场种植小麦1200亩,根据其地理条件划分为甲、乙、丙三类,按5%的比例总共抽取60亩进行调查,结果如表所示。试以95%的概率估计农场平均亩产量的区间范围。分群抽样是先将市场调查的总体划分为若干个群体,然后以简单随机抽样的方法选取部分群体作为调查样本,对群体内各个单位进行调查的一种随机抽样方法。分群抽样适用于调查总体单位分布较分散并且无法确定分层标准的大总体。当调查总体相当大时,可以进行逐级分群,一直进行到单个群体的数目足够小时为止,然后从所有的群中随机抽取一定的群作为调查对象实施调查。分群抽样对总体推断的准确性较差。因而往往与其它方法相结合使用。分群抽样概述分群抽样样本群的平均数分群抽样样本总体的平均数群平均数的群间方差分群抽样样本平均数的误差分群抽样总体平均数的估计区间分群抽样的数学估计其中为被抽取的第i群的样本数量,为第i群中的第j个样本单位。为第i群样本的平均数分群抽样样本群的平均数
为被抽取的群的数量,为样本总体平均数分群抽样样本总体的平均数群平均数的群间方差分群抽样样本平均数的误差在给定的自信水平下,分群抽样的总体平均数的估计可以由下式得到分群抽样总体平均数的估计区间分层比例抽样分层最佳抽样分层最低成本抽样分层随机抽样先将总体按照相似性原则分为若干层,然后根据各层在总体中所占的比重从层中抽取相应的样本组成研究样本。分层抽样可以避免样本差异过大导致的抽样分布不准确。分层比例抽样分层最佳抽样又称做非比例抽样。它是根据各层的样本标准差的大小,又考虑到各层在总体中所占比例的差异,而调整各层样本数目的抽样方法。分层最佳抽样可以降低样本分布的不准确性。分层最佳抽样分层最低成本抽样既考虑到抽样的统计效果,又考虑到抽样的经济性。分层最低成本抽样系统抽样又称机械抽样或等距抽样。它是先将总体各单位按照某一标志排列,然后根据一定的抽样距离从总体中抽取样本;或者将总体划分为若干类型,然后在各类型中根据一定的抽样距离抽取样本的一种抽样方法。系统抽样既可以属于随机抽样,也可以属于非随机抽样,其关键在于第一个样本的抽取方式。系统抽样任意抽样法判断抽样法配额抽样法
非随机抽样调查配额抽样法是在分层基础上进行的。配额抽样根据其抽样方法可以分为
独立控制配额抽样
交叉控制配额抽样配额抽样法的基本步骤
选择控制特性作为分层标准分层确定各层样本额配额指派配额抽样法分别按照收入水平、年龄与性别进行的独立控制配额抽样的样本分布独立控制配额抽样收入水平年龄性别高10050以上50男50中7025-50100女150低3025以下50----合计200合计200合计200以年龄、性别与收入水平作为交叉控制因素进行配额抽样的样本配额分布交叉控制配额抽样抽样误差
指总体的位置特性与从样本收集到的数据之间的差异,这是由于样本不能完全代表总体所带来的,抽样误差是抽样调查所固有的;抽样误差可以进行计算与控制,因而也称做可控误差。非抽样误差指在选择样本和调查过程中所产生的误差。抽样误差与非抽样误差正确确定抽样方法,是抽出来的样本具有充分的代表性。恰当地确定样本的单位数目;样本单位数的大小取决于调查的精确度要求、抽样调查方法、调查费用预算以及调查时间等因素的综合作用;一般而言,样本容量越大抽样误差越小,但费用也越多,时间也越长。加强抽样调查组织,提高工作质量。抽样调查的基本要求一、基本思想和概念假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为假设成立。
任务二假设检验
1、提出检验假设又称无效假设,符号是H0;备择假设的符号是H1。
H0:样本与总体或样本与样本间的差异是由抽样误差引起的;
H1:样本与总体或样本与样本间存在本质差异;
预先设定的检验水准为0.05;当检验假设为真,但被错误地拒绝的概率,记作α,通常取α=0.05或α=0.01。
二、基本步骤
2、选定统计方法,由样本观察值按相应的公式计算出统计量的大小,如X2值、t值等。根据资料的类型和特点,可分别选用Z检验,T检验,秩和检验和卡方检验等。
3、根据统计量的大小及其分布确定检验假设成立的可能性P的大小并判断结果。若P>α,结论为按α所取水准不显著,不拒绝H0,即认为差别很可能是由于抽样误差造成的,在统计上不成立;如果P≤α,结论为按所取α水准显著,拒绝H0,接受H1,则认为此差别不大可能仅由抽样误差所致,很可能是实验因素不同造成的,故在统计上成立。P值的大小一般可通过查阅相应的界值表得到。
1、做假设检验之前,应注意资料本身是否有可比性。
2、当差别有统计学意义时应注意这样的差别在实际应用中有无意义。
3、根据资料类型和特点选用正确的假设检验方法。
4、根据专业及经验确定是选用单侧检验还是双侧检验。
三、注意问题
1、多元回归分析(RegressionAnalysis)2、因子分析(FactorAnalysis)3、主成份分析(PrincipalComponentAnalysis)4、聚类分析(ClusterAnalysis)与判别分析(DiscriminantAnalysis)5、联合分析(ConjointAnalysis)6、对应分析(CorrespondenceAnalysis)7、决策树(DecisionTree)8、多维偏好分析
任务三多变量数据分析方法
生命曲线预测法比一般直线趋势有着更广泛的应用,因为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 低碳出行理念在2025年新能源汽车试题及答案
- 安全工程师考试工作流程试题及答案
- 小学教师反思与教学改革试题及答案
- 大学化学跨界合作的成功案例试题及答案
- 小学教师教学反思的实际案例试题及答案
- 学前班数学考试卷及答案
- 安全工程师考试的应试技巧分享试题及答案
- 幼儿园趣味数学练习试题及答案
- 专项练习2025年商务英语考试试题及答案
- 农业电商风险评估与控制试题及答案
- 2025年上半年泰州经济开发区专业招商人员和国企业工作人员招聘易考易错模拟试题(共500题)试卷后附参考答案
- 辽宁协作校2024-2025学年度高三第二次模拟考生物试题(含答案)
- 植保无人机课件
- 居间保密合同协议
- 2025年六五环境日生态环保常识及法律知识有奖竞答题库及答案(共90题)
- 2025届江苏省南京、淮安市高考数学试题三模试卷
- DB51-T 3267-2025 公路应急抢通保通技术规程
- 湖北省武汉市2025中考模拟数学试卷(共五套附答案)
- 铁路运输可持续发展路径-深度研究
- 上海自由贸易试验区及临港新片区数据出境“负面清单”新规解读
- 第16课《有为有不为》公开课一等奖创新教学设计
评论
0/150
提交评论