统计与概率题及答案_第1页
统计与概率题及答案_第2页
统计与概率题及答案_第3页
统计与概率题及答案_第4页
统计与概率题及答案_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计与概率题及答案某公司人力资源部门为了解员工薪资结构与工作满意度的关系,随机抽取了50名正式员工的月收入数据(单位:元),具体如下:7800,8200,8500,8500,8800,9000,9200,9200,9200,9500,9500,9800,9800,10000,10000,10000,10200,10200,10500,10500,10500,10800,10800,11000,11000,11000,11200,11200,11500,11500,11500,11800,11800,12000,12000,12000,12200,12200,12500,12500,12500,12800,12800,13000,13000,13000,13200,13200,13500,13500请完成以下统计分析:(1)计算该样本的均值、中位数、众数;(2)计算样本方差和标准差(保留两位小数);(3)描述数据的分布特征(集中趋势、离散程度、偏态)。解答(1)均值、中位数、众数计算-均值(Mean):均值是所有数据的算术平均数。计算公式为:\[\bar{x}=\frac{\sum_{i=1}^{n}x_i}{n}\]其中,\(n=50\),数据总和为:\(7800+8200+2×8500+8800+9000+3×9200+2×9500+2×9800+3×10000+2×10200+3×10500+2×10800+3×11000+2×11200+3×11500+2×11800+3×12000+2×12200+3×12500+2×12800+3×13000+2×13200+2×13500\)逐项计算得总和为:\(548,500\)(具体计算可通过分组求和简化:如9200出现3次,贡献\(3×9200=27,600\),依此类推)。因此,均值为:\(\bar{x}=548500/50=10,970\)元。-中位数(Median):中位数是将数据从小到大排列后位于中间位置的数值。由于样本量\(n=50\)为偶数,中位数是第25和26个数的平均值。数据已排序,第25个数是10,800(从第1到第24个数为:7800,8200,8500,8500,8800,9000,9200,9200,9200,9500,9500,9800,9800,10000,10000,10000,10200,10200,10500,10500,10500,10800,10800,第24个数是10,800?需重新核对排序。实际排序后前25个数应为:前24个数到第24位是10,500(3个10,500占第20-22位,接着是10,800第23、24位,11,000第25、26位)。正确排序后,第25个数是11,000,第26个数也是11,000,因此中位数为\((11000+11000)/2=11,000\)元。-众数(Mode):众数是数据中出现次数最多的数值。观察数据,10,000元出现3次,10,500元3次,11,000元3次,11,500元3次,12,000元3次,12,500元3次,13,000元3次。但实际原始数据中,9200出现3次(第7-9位),10,000出现3次(第14-16位),10,500出现3次(第19-21位),11,000出现3次(第24-26位),11,500出现3次(第29-31位),12,000出现3次(第34-36位),12,500出现3次(第39-41位),13,000出现3次(第44-46位)。因此,数据存在多个众数(多峰分布),但通常取出现次数最多且数值集中的,这里所有3次出现的数均为众数,可记为10,000、10,500、11,000等(实际题目中可能存在笔误,假设原始数据中某数值出现次数更多,如11,000出现4次,则众数为11,000。此处按原始数据修正:原题数据中11,000出现3次,12,000出现3次,因此严格来说是多众数,但实际统计中可简化为“无明显单一众数”)。(2)样本方差和标准差样本方差(SampleVariance)计算公式为:\[s^2=\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1}\]样本标准差(SampleStandardDeviation)为方差的平方根。首先计算每个数据与均值(10,970)的差的平方,再求和。以部分数据为例:-7800与均值差:\(7800-10970=-3170\),平方为\(3170^2=10,048,900\)-8200与均值差:\(-2770\),平方为\(7,672,900\)-8500与均值差:\(-2470\),平方为\(6,100,900\)(出现2次,总贡献\(2×6,100,900=12,201,800\))-8800与均值差:\(-2170\),平方为\(4,708,900\)-9000与均值差:\(-1970\),平方为\(3,880,900\)-9200与均值差:\(-1770\),平方为\(3,132,900\)(出现3次,总贡献\(3×3,132,900=9,398,700\))-9500与均值差:\(-1470\),平方为\(2,160,900\)(出现2次,总贡献\(4,321,800\))-9800与均值差:\(-1170\),平方为\(1,368,900\)(出现2次,总贡献\(2,737,800\))-10000与均值差:\(-970\),平方为\(940,900\)(出现3次,总贡献\(2,822,700\))-10200与均值差:\(-770\),平方为\(592,900\)(出现2次,总贡献\(1,185,800\))-10500与均值差:\(-470\),平方为\(220,900\)(出现3次,总贡献\(662,700\))-10800与均值差:\(-170\),平方为\(28,900\)(出现2次,总贡献\(57,800\))-11000与均值差:\(30\),平方为\(900\)(出现3次,总贡献\(2,700\))-11200与均值差:\(230\),平方为\(52,900\)(出现2次,总贡献\(105,800\))-11500与均值差:\(530\),平方为\(280,900\)(出现3次,总贡献\(842,700\))-11800与均值差:\(830\),平方为\(688,900\)(出现2次,总贡献\(1,377,800\))-12000与均值差:\(1030\),平方为\(1,060,900\)(出现3次,总贡献\(3,182,700\))-12200与均值差:\(1230\),平方为\(1,512,900\)(出现2次,总贡献\(3,025,800\))-12500与均值差:\(1530\),平方为\(2,340,900\)(出现3次,总贡献\(7,022,700\))-12800与均值差:\(1830\),平方为\(3,348,900\)(出现2次,总贡献\(6,697,800\))-13000与均值差:\(2030\),平方为\(4,120,900\)(出现3次,总贡献\(12,362,700\))-13200与均值差:\(2230\),平方为\(4,972,900\)(出现2次,总贡献\(9,945,800\))-13500与均值差:\(2530\),平方为\(6,400,900\)(出现2次,总贡献\(12,801,800\))将所有贡献相加,得到平方和为:\(10,048,900+7,672,900+12,201,800+4,708,900+3,880,900+9,398,700+4,321,800+2,737,800+2,822,700+1,185,800+662,700+57,800+2,700+105,800+842,700+1,377,800+3,182,700+3,025,800+7,022,700+6,697,800+12,362,700+9,945,800+12,801,800=142,443,000\)(近似值,实际需精确计算)。样本方差为:\(s^2=142,443,000/(50-1)≈2,906,999.99≈2,907,000.00\)(元²)。样本标准差为:\(s=\sqrt{2,907,000}≈1,705.00\)元(保留两位小数)。(3)数据分布特征分析-集中趋势:均值为10,970元,中位数为11,000元,两者接近,说明数据分布相对对称,没有显著的极端值拉低或拉高均值。众数为多个3次出现的数值(如10,000、11,000、12,000等),反映数据在多个区间有集中趋势,可能与不同职级或工龄的员工收入分布有关。-离散程度:标准差约为1,705元,说明员工收入的波动范围较大(约在均值±3个标准差内,即10,970±5,115元,覆盖7800-16,085元,与实际数据范围7800-13,500元基本一致)。方差为2,907,000元²,进一步验证了数据的离散程度较高。-偏态:由于均值(10,970)略小于中位数(11,000),数据呈现轻微左偏(负偏态),即左侧(低收入端)有少数较小值(如7800、8200),但整体偏态不明显,分布接近对称。---某城市自来水公司为检测水质安全,采用一种新型细菌检测试剂。已知该试剂对实际含菌的水样检测为阳性的概率(真阳性率)为95%,对实际不含菌的水样检测为阴性的概率(真阴性率)为98%。根据历史数据,该城市自来水含菌的概率为0.5%(即千分之五)。现随机抽取一份水样,检测结果为阳性,求该水样实际含菌的概率(保留四位小数)。解答本题需应用贝叶斯定理(Bayes'Theorem),计算在检测为阳性(事件A)的条件下,水样实际含菌(事件B)的后验概率\(P(B|A)\)。定义事件:-\(B\):水样实际含菌,\(P(B)=0.005\)(先验概率);-\(\bar{B}\):水样实际不含菌,\(P(\bar{B})=1-0.005=0.995\);-\(A\):检测结果为阳性;-\(P(A|B)=0.95\)(真阳性率);-\(P(A|\bar{B})=1-0.98=0.02\)(假阳性率)。根据全概率公式,检测为阳性的总概率\(P(A)\)为:\[P(A)=P(A|B)P(B)+P(A|\bar{B})P(\bar{B})\]代入数据:\[P(A)=0.95×0.005+0.02×0.995=0.00475+0.0199=0.02465\]根据贝叶斯定理,后验概率为:\[P(B|A)=\frac{P(A|B)P(B)}{P(A)}=\frac{0.95×0.005}{0.02465}=\frac{0.00475}{0.02465}≈0.1927\]因此,检测结果为阳性时,水样实际含菌的概率约为19.27%。---某品牌手机电池标称续航时间为12小时(均值)。为验证该标称值,质检部门从生产线随机抽取36块电池,测得平均续航时间为11.8小时,样本标准差为0.6小时。假设电池续航时间服从正态分布,显著性水平\(\alpha=0.05\),检验该品牌电池的实际平均续航时间是否低于标称值。解答本题为单样本均值的单侧t检验(总体方差未知,样本量\(n=36\)为大样本,也可用z检验近似)。步骤1:设定假设原假设\(H_0\):\(\mu=12\)(实际平均续航时间等于标称值);备择假设\(H_1\):\(\mu<12\)(实际平均续航时间低于标称值)。步骤2:确定检验统计量由于总体方差未知,使用t统计量(大样本时t分布近似正态分布):\[t=\frac{\bar{x}-\mu_0}{s/\sqrt{n}}\]其中,\(\bar{x}=11.8\),\(\mu_0=12\),\(s=0.6\),\(n=36\)。步骤3:计算检验统计量\[t=\frac{11.8-12}{0.6/\sqrt{36}}=\frac{-0.2}{0.6/6}=\frac{-0.2}{0.1}=-2\]步骤4:确定临界值或p值显著性水平\(\alpha=0.05\),单侧检验,自由度\(df=n-1=35\)。查t分布表,临界值\(t_{0.05,35}≈-1.690\)(单侧左尾)。步骤5:决策计算得到的t统计量为-2,小于临界值-1.690,落在拒绝域内。因此拒绝原假设,认为该品牌电池的实际平均续航时间显著低于标称值。---某电商平台为分析广告投入对销售额的影响,收集了过去12个月的广告投入(\(x\),单位:万元)和对应月销售额(\(y\),单位:百万元)数据,如下表:|广告投入\(x\)|2|3|4|5|6|7|8|9|10|11|12|13||--------------|---|---|---|---|---|---|---|---|----|----|----|----||销售额\(y\)|5|7|8|10|12|13|15|16|18|20|21|23|(1)计算广告投入与销售额的相关系数,判断线性相关程度;(2)建立销售额对广告投入的一元线性回归方程;(3)预测当广告投入为15万元时,销售额的估计值。解答(1)相关系数计算相关系数\(r\)的计算公式为:\[r=\frac{n\sumxy-(\sumx)(\sumy)}{\sqrt{[n\sumx^2-(\sumx)^2][n\sumy^2-(\sumy)^2]}}\]首先计算所需统计量:-\(n=12\)-\(\sumx=2+3+4+5+6+7+8+9+10+11+12+13=90\)-\(\sumy=5+7+8+10+12+13+15+16+18+20+21+23=168\)-\(\sumxy=2×5+3×7+4×8+5×10+6×12+7×13+8×15+9×16+10×18+11×20+12×21+13×23=10+21+32+50+72+91+120+144+180+220+252+299=1,581\)-\(\sumx^2=2^2+3^2+…+13^2=4+9+16+25+36+49+64+81+100+121+144+169=819\)-\(\sumy^2=5^2+7^2+…+23^2=25+49+64+100+144+169+225+256+324+400+441+529=2,736\)代入公式:分子:\(12×1581-90×168=18,972-15,120=3,852\)分母:\(\sqrt{[12×819-90^2][12×2736-168^2]}=\sqrt{[9,828-8,100][32,832-28,224]}=\sqrt{1,728×4,608}=\sqrt{7,962,624}=2,822.4\)因此,\(r=3,852/2,822.4≈0.999\)(接近1),说明广告投入与销售额高度正线性相关。(2)一元线性回归方程回归方程形式为\(\hat{y}=a+bx\),其中斜率\(b\)和截距\(a\)的计算公式为:\[b=\frac{n\sumxy-(\sumx)(\sumy)}{n\sumx^2-(\sumx)^2},\quada=\bar{y}-b\bar{x}\]计算\(b\):\[b=\frac{3,852}{1,728}≈2.23\)(精确计算:\(3,852÷1,728=2.23\))计算\(\bar{x}=90/12=7.5\),\(\bar{y}=168/12=14\),则:\[a=14-2.23×7.5=14-16.725=-2.725\]因此,回归方程为:\(\hat{y}=-2.725+2.23x\)。(3)销售额预测当广告投入\(x=15\)万元时,代入回归方程:\[\hat{y}=-2.725+2.23×15=-2.725+33.45=30.725\]因此,广告投入为15万元时,销售额估计值约为30.73百万元(即3,073万元)。---某超市为优化库存管理,记录了过去100天的某种商品日销量(单位:件),数据如下:|日销量|0-10|11-20|21-30|31-40|41-50||--------|------|-------|-------|-------|-------||天数|5|20|35|30|10|(1)计算日销量的均值和中位数;(2)估计日销量的方差(用组中值计算);(3)若日销量服从正态分布\(N(\mu,\sigma^2)\),求日销量超过40件的概率。解答(1)均值和中位数计算-均值:用组中值计算,各组中值分别为5,15,25,35,45。均值\(\bar{x}=\frac{\sumf_ix_i}{\sumf_i}\),其中\(f_i\)为各组天数,\(x_i\)为组中值。计算得:\(\bar{x}=(5×5+20×15+35×25+30×35+10×45)/100=(25+300+875+1,050+450)/100=2,700/100=27\)件。-中位数:中位数位置为\(n/2=50\),累计天数到前两组为5+20=25,前三组为25+35=60,因此中位数在第三组(21-30)。中位数计算公式为:\[M_e=L+\frac{\frac

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论