统计与概率题及答案_第1页
统计与概率题及答案_第2页
统计与概率题及答案_第3页
统计与概率题及答案_第4页
统计与概率题及答案_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计与概率题及答案1.某城市出租车公司共有1200辆运营车辆,其中新能源车型占35%。公司质检部随机不放回地抽取60辆进行续航测试。(1)设X为样本中新能源车的数量,求X的分布列、期望与方差。(2)若实测样本中新能源车平均续航为412km,标准差38km;传统燃油车平均续航368km,标准差25km。试在显著性水平α=0.05下检验“两类车真实平均续航相等”的原假设。(3)据以往数据,新能源车续航服从N(μ,σ²),σ=35km。现希望估计μ使估计误差不超过5km且置信水平0.99,求所需最小样本量。(4)若续航实际服从指数分布Exp(λ),λ>0,求P(X>400)的极大似然估计及其渐近方差。【答案与解析】(1)总体新能源比例p=0.35,样本量n=60,不放回抽样但总体容量N=1200≫n,可用二项分布近似:X~B(n=60,p=0.35),分布列P(X=k)=C_{60}^{k}0.35^{k}0.65^{60-k},k=0,1,…,60。期望E[X]=np=21,方差Var(X)=np(1−p)=13.65。(2)设两独立样本均值差D=412−368=44km。方差合并用样本方差:s₁²=38²=1444,s₂²=25²=625,n₁=21,n₂=39。检验统计量t=\frac{D}{\sqrt{s₁²/n₁+s₂²/n₂}}=\frac{44}{\sqrt{1444/21+625/39}}≈5.87。自由度用Welch–Satterthwaite:ν=\frac{(s₁²/n₁+s₂²/n₂)²}{(s₁²/n₁)²/(n₁−1)+(s₂²/n₂)²/(n₂−1)}≈35.4。双侧p值<0.001,拒绝原假设,认为两类车平均续航显著不同。(3)正态总体均值区间估计长度2z_{α/2}σ/√n≤10km,z_{0.005}=2.576,σ=35,解得n≥\left(\frac{2.576×35}{5}\right)²≈326.6,故至少327辆。(4)指数分布Exp(λ)的MLE为\hat{λ}=1/\bar{X},其中\bar{X}为样本均值。P(X>400)=e^{-400λ},代入MLE得\hat{P}=e^{-400/\bar{X}}。由Delta方法,g(λ)=e^{-400λ},g'(λ)=−400e^{-400λ},渐近方差Var(\hat{P})≈[g'(λ)]²·Var(\hat{λ})=160000e^{-800λ}·λ²/n。用\hat{λ}代λ即得估计方差。2.某电商平台每日订单量N服从泊松分布Poi(λ)。历史数据显示λ存在周日效应:λ_t=λ₀exp(β·I_{t∈Sunday}),λ₀>0,β∈ℝ,I为示性变量。现收集连续84天数据,得周日12天,非周日72天,总订单3780单,其中周日720单。(1)写出λ₀,β的似然函数,并求其极大似然估计。(2)构造β=0的似然比检验,显著性水平0.05。(3)若λ₀的先验为Gamma(α=2,θ=100),β的先验为N(0,4),求β的后验均值(给出积分表达式即可)。(4)设每日利润Y|N=n~N(μn,σ²n),μ=3.2元,σ=0.8元,求明日利润期望与方差。【答案与解析】(1)似然L(λ₀,β)=\prod_{t=1}^{84}\frac{[λ₀e^{βI_t}]^{n_t}e^{-λ₀e^{βI_t}}}{n_t!}。取对数后分离周日与非周日:ℓ=−λ₀(72+12e^β)+720β+(3780−720)lnλ₀+const。对λ₀,β求导并令0:\hat{λ}₀=\frac{3060}{72}=42.5,e^{\hat{β}}=\frac{720/12}{3060/72}=\frac{60}{42.5}≈1.4118,\hat{β}=ln1.4118≈0.344。(2)零假设H₀:β=0,约束模型λ_t≡λ₀,MLE\tilde{λ}₀=3780/84=45。似然比统计量Λ=2[ℓ(\hat{λ}₀,\hat{β})−ℓ(\tilde{λ}₀,0)]=2[−42.5×72−60×12+720\hat{β}+3060ln42.5+720ln60+3780ln84−(−45×84+3780ln45)]≈15.28。χ²₁临界值3.84,15.28>3.84,拒绝H₀,周日效应显著。(3)后验π(β|Data)∝L(λ₀,β)·π(λ₀)·π(β)∝e^{720β−λ₀(72+12e^β)}λ₀^{3060+1}e^{-λ₀/100}e^{-β²/8}。对λ₀积分得π(β|Data)∝\frac{e^{720β−β²/8}}{(72+12e^β)^{3062}},后验均值E[β|Data]=\intβπ(β|Data)dβ/\intπ(β|Data)dβ。(4)由重期望公式:E[Y]=E[E[Y|N]]=E[μN]=μλ_t。Var(Y)=E[Var(Y|N)]+Var(E[Y|N])=σ²E[N]+μ²Var(N)=σ²λ_t+μ²λ_t=λ_t(σ²+μ²)。明日若为周日,λ_t=λ₀e^{\hat{β}}≈60,E[Y]=3.2×60=192元,Var(Y)=60(0.8²+3.2²)=60×10.88=652.8元²。3.设随机向量(X,Y)的联合密度f(x,y)=k(x+y),0≤x≤1,0≤y≤1。(1)求常数k及边缘密度f_X(x)。(2)计算Cov(X,Y)与相关系数ρ。(3)求条件期望E[Y|X=x]。(4)设Z=X+Y,求Z的密度f_Z(z),并计算P(Z>1.5)。【答案与解析】(1)由归一化\int_0^1\int_0^1k(x+y)dxdy=k\int_0^1(x+0.5)dx=k(0.5+0.5)=k=1,故k=1。f_X(x)=\int_0^1(x+y)dy=x+0.5,0≤x≤1。(2)先求矩:E[X]=\int_0^1x(x+0.5)dx=7/12,E[X²]=\int_0^1x²(x+0.5)dx=5/12,Var(X)=5/12−(7/12)²=11/144。由对称性E[Y]=7/12,Var(Y)=11/144。E[XY]=\int_0^1\int_0^1xy(x+y)dxdy=\int_0^1\int_0^1(x²y+xy²)dxdy=\int_0^1(y/3+y²/2)dy=1/6+1/6=1/3。Cov(X,Y)=1/3−(7/12)²=1/3−49/144=−1/144。ρ=\frac{Cov}{\sqrt{Var(X)Var(Y)}}=\frac{-1/144}{11/144}=−1/11≈−0.0909。(3)条件密度f_{Y|X}(y|x)=\frac{x+y}{x+0.5},0≤y≤1。E[Y|X=x]=\int_0^1y\frac{x+y}{x+0.5}dy=\frac{1}{x+0.5}\left(x\frac{1}{2}+\frac{1}{3}\right)=\frac{3x+2}{6x+3}。(4)Z=X+Y支撑[0,2]。对0≤z≤1:f_Z(z)=\int_0^zf(x,z−x)dx=\int_0^zzdx=z²。对1<z≤2:f_Z(z)=\int_{z−1}^1(x+z−x)dx=\int_{z−1}^1zdx=z(2−z)。故f_Z(z)=\begin{cases}z²,&0≤z≤1,\\z(2−z),&1<z≤2.\end{cases}P(Z>1.5)=\int_{1.5}^2z(2−z)dz=\left[z²−z³/3\right]_{1.5}^2=(4−8/3)−(2.25−3.375/3)=4/3−1.125=0.2083̄。4.某校高三8个班,每班随机抽10名学生进行数学测验。记X_{ij}为第i班第j生成绩,建立随机效应模型:X_{ij}=μ+a_i+ε_{ij},a_i~N(0,σ_a²),ε_{ij}~N(0,σ_e²),且相互独立。观测得总平均\bar{x}=102.4,班间平方和SSA=738.5,误差平方和SSE=1836.8。(1)求σ_a²,σ_e²的ANOVA估计。(2)构造μ的95%置信区间。(3)检验H₀:σ_a²=0的精确F检验,并给出p值范围。(4)若欲预测第4班平均成绩,求最佳线性无偏预测(BLUP)。【答案与解析】(1)方差分析表:因子A自由度df_A=7,MSA=738.5/7≈105.5;误差自由度df_E=72,MSE=1836.8/72≈25.51。由矩估计:\hat{σ}_e²=MSE=25.51,\hat{σ}_a²=(MSA−MSE)/n₀=(105.5−25.51)/10=7.999≈8.00。(2)标准误SE(\bar{x})=\sqrt{\frac{MSA}{ab}}=\sqrt{105.5/80}≈1.149。t_{0.025,7}=2.365,CI:102.4±2.365×1.149→[99.7,105.1]。(3)F=MSA/MSE=105.5/25.51≈4.13,服从F_{7,72}。查表得F_{0.95}=2.18,4.13>2.18,p∈(0.001,0.01),拒绝H₀,班间差异显著。(4)BLUP为收缩估计:\tilde{a}_4=\frac{n\hat{σ}_a²}{n\hat{σ}_a²+\hat{σ}_e²}(\bar{x}_{4·}−μ),需用μ的估计\hat{μ}=102.4代换,\tilde{a}_4=\frac{10×8}{10×8+25.51}(\bar{x}_{4·}−102.4)≈0.758(\bar{x}_{4·}−102.4)。故预测第4班平均\hat{X}_{4·}=102.4+\tilde{a}_4=0.242×102.4+0.758×\bar{x}_{4·}。5.某可靠性试验观测15台设备寿命T_i(单位:kh),得数据:1.22,2.05,1.78,0.93,1.55,2.31,1.67,1.03,1.89,2.12,1.45,1.26,1.74,1.98,1.81。假设T~Weibull(α,β),密度f(t)=αβt^{β−1}exp(−αt^β),t>0。(1)写出α,β的对数似然方程。(2)用Newton–Raphson求β的MLE(迭代两步,初值β₀=2)。(3)求可靠度R(t)=P(T>t)在t=1.5kh的MLE及95%渐近置信区间。(4)若仅记录前12个失效时间,后3台在2.31kh仍正常,求修正似然及β的MLE方程。【答案与解析】(1)对数似然ℓ(α,β)=nlnα+nlnβ+(β−1)∑lnt_i−α∑t_i^β。令导数0:\frac{∂ℓ}{∂α}=n/α−∑t_i^β=0⇒\hat{α}=n/∑t_i^β,\frac{∂ℓ}{∂β}=n/β+∑lnt_i−α∑t_i^βlnt_i=0。代入α得关于β的方程:\frac{n}{β}+∑lnt_i−\frac{n∑t_i^βlnt_i}{∑t_i^β}=0。(2)记S₀=∑t_i^{β₀}=∑t_i²=42.37,S₁=∑t_i²lnt_i=22.84,S₂=∑lnt_i=6.708。函数值g(β₀)=n/β₀+S₂−nS₁/S₀=7.5+6.708−15×22.84/42.37≈0.615。导数g'(β)=−n/β²−n\frac{S₀(∑t_i^βln²t_i)−S₁²}{S₀²},计算∑t_i²ln²t_i=13.05,g'(β₀)=−3.75−15×(42.37×13.05−22.84²)/42.37²≈−5.82。Newton步长Δ=−g/g'=0.615/5.82≈0.106,β₁=2.106。第二步类似得β₂≈2.113(收敛快)。(3)\hat{β}=2.113,\hat{α}=15/∑t_i^{2.113}=15/45.02≈0.333。可靠度\hat{R}(1.5)=exp(−\hat{α}×1.5^{\hat{β}})=exp(−0.333×2.315)≈0.463。渐近方差用Delta方法:令g(α,β)=exp(−αt^β),梯度∇g=(−t^βR,−αt^βlntR)。Fisher信息阵需数值求,得SE(\hat{R})≈0.063,95%CI:0.463±1.96×0.063→[0.34,0.59]。(4)后3台为右删失,似然乘积中对应项为生存函数:L(α,β)=∏_{i=1}^{12}f(t_i)×[S(2.31)]³=α^{12}β^{12}(∏t_i)^{β−1}exp(−α∑_{i=1}^{12}t_i^β−3α×2.31^β)。对β的方程改为\frac{12}{β}+∑_{i=1}^{12}lnt_i−α\left(∑_{i=1}^{12}t_i^βlnt_i+3×2.31^βln2.31\right)=0,α的估计\hat{α}=12/\left(∑_{i=1}^{12}t_i^β+3×2.31^β\right)。代入得单变量方程可用数值求解,β̂略小于完整样本值。6.某游戏公司测试新关卡难度,招募200名玩家,记录首次通关所需尝试次数Y。观测频数如下:Y=1:38,2:51,3:44,4:32,5:18,6:10,7:7。(1)设Y−1~Geom(p),即P(Y=k)=p(1−p)^{k−1},k≥1,求p的MLE及期望尝试次数。(2)用Pearsonχ²检验上述几何分布拟合优度,α=0.05。(3)若改用负二项NB(r,p)描述,r已知为3,求p的MLE。(4)基于AIC比较几何与负二项模型,给出选择结论。【答案与解析】(1)几何分布均值E[Y]=1/p,样本均值\bar{y}=(1×38+2×51+…+7×7)/200=490/200=2.45。由矩法或MLE:\hat{p}=1/\bar{y}=0.408。期望尝试次数2.45次。(2)理论概率\hat{p}_k=0.408×0.592^{k−1},k=1,…,7,k≥8合并。期望频数e_k=200×\hat{p}_k,得e=(81.6,48.3,28.6,16.9,10.0,5.9,9.7)。χ²=∑(o−e)²/e≈11.4,df=7−1−1=5,临界值11.07。11.4>11.07,p≈0.044,在0.05水平拒绝,拟合不佳。(3)负二项Y~NB(r=3,p),P(Y=k)=C_{k−1}^{2}p³(1−p)^{k−3},k≥3。需重排数据,令Z=Y−3≥0,Z~NB2形式。对数似然ℓ(p)=const+200×3lnp+(∑y_i−600)ln(1−p)。∑y_i=490,\hat{p}=3×200/490≈1.224超出(0,1),说明r=3过大。实际应取r未知,但题设固定,故重新参数化用mean–size关系:E[Y]=r/p=2.45⇒\hat{p}=3/2.45≈1.224无效,提示NB(r=3)不适用。(4)几何模型参数k=1,AIC=−2ℓ+2k=2×200×ln(0.408×0.592^{\bar{y}−1})+2≈565.8。NB模型因\hat{p}>1无法计算,故几何虽被χ²拒绝,但仍是可用简化模型;建议增大r或改用其他分布。7.某气象站记录连续30年日降水量,定义极端事件为日降水>35mm。每年极端日数N_i如下:5,8,4,7,6,9,3,5,6,7,4,8,5,6,7,5,9,4,6,8,5,7,6,5,4,6,7,5,6,8。(1)设N_i~Poi(λ),求λ的MLE及90%置信区间。(2)用Kolmogorov–Smirnov检验Poisson假设,α=0.10。(3)若采用零膨胀泊松ZIP(π,λ),即P(N=0)=π+(1−π)e^{-λ},P(N=k)=(1−π)e^{-λ}λ^k/k!,k≥1,求π,λ的EM算法E步表达式。(4)基于AIC比较Poisson与ZIP,给出选择。【答案与解析】(1)\hat{λ}=\bar{n}=180/30=6。近似正态CI:λ±z_{0.05}\sqrt{λ/n}=6±1.645×\sqrt{6/30}→[5.27,6.73]。(2)经验cdf与Poisson(6)理论cdf最大差值D=0.122,K–S临界值0.10下n=30为0.214,0.122<0.214,不拒绝Poisson。(3)ZIP模型引入潜变量Z_i∈{0,1},Z_i=1表示“零膨胀”状态。E步:w_i=P(Z_i=1|N_i=0,θ^{(t)})=\frac{π^{(t)}}{π^{(t)}+(1−π^{(t)})e^{-λ^{(t)}}},对N_i>0则w_i=0。Q函数:Q(θ|θ^{(t)})=∑_{i:n_i=0}[w_ilnπ+(1−w_i)(ln(1−π)−λ)]+∑_{i:n_i>0}[ln(1−π)+n_ilnλ−λ−lnn_i!]。(4)拟合ZIP得\hat{π}=0.033,\hat{λ}=6.19,对数似然ℓ_{ZIP}=−74.2,参数k=2,AIC=152.4;Poissonℓ=−75.1,k=1,AIC=152.2。AIC差异0.2,极小,按简约原则选Poisson。8.某证券价格S_t服从几何布朗运动dS_t=μS_tdt+σS_tdW_t,S₀=100,μ=0.08,σ=0.25(年单位)。(1)求S_t的分布及P(S₁>110)。(2)计算欧式看涨期权价格CwithstrikeK=105,maturityT=1,r=0.03(Black–Scholes)。(3)用蒙特卡洛10万次模拟估计C,给出标准误。(4)若波动率σ未知,观测一年日对数收益252点,得样本标准差s=0.271,求σ的95%置信区间,并讨论对期权价格的敏感度。【答案与解析】(1)lnS_t~N(lnS₀+(μ−σ²/2)t,σ²t),lnS₁~N(4.605+0.04875,0.0625)=N(4.65375,0.0625)。P(S₁>110)=P(lnS₁>ln110)=1−Φ\left(\frac{4.700−4.65375}{0.25}\right)=1−Φ(0.185)=0.426。(2)Black–Scholes公式:d₁=\frac{ln(S₀/K)+(r+σ²/2)T}{σ\sqrt{T}}=\frac{−0.04879+0.03125}{0.25}=−0.0702,d₂=d₁−σ\sqrt{T}=−0.3202。N(d₁)=0.472,N(d₂)=0.374,C=S₀N(d₁)−Ke^{-rT}N(d₂)=100×0.472−105×0.9704×0.374≈47.2−38.1=9.1元。(3)模拟S_T=S₀exp((r−σ²/2)T+σ\sqrt{T}Z_i),Z_i~N(0,1)。payoff=max(S_T−K,0),均值\hat{C}=9.15,样本标准差sd=14.2,标准误SE=sd/\sqrt{10^5}=0.045,95%模拟CI:9.15±1.96×0.045→[9.06,9.24],与理论接近。(4)对数收益σ估计\hat{σ}=s×\sqrt{252}/\sqrt{252}=s=0.271,但年化需×\sqrt{1},故\hat{σ}=0.271。χ²置信区间:\frac{(n−1)s²}{χ²_{0.975}}≤σ²≤\frac{(n−1)s²}{χ²_{0.025}},df=251,χ²_{0.025}=214.7,χ²_{0.975}=290.9,σ∈[0.271×\sqrt{251/290.9},0.271×\sqrt{251/214.7}]→[0.252,0.293]。期权Vega=S₀\sqrt{T}φ(d₁)=100×0.397≈39.7,σ从0.25升至0.29,价格增约0.04×39.7≈1.59元,相对变化17%,敏感度较高。9.某基因关联研究检测6个SNP位点,病例–对照各500人。列联表给出每个位点等位基因计数:SNP1:(A:420/380),(B:580/620);SNP2:(A:510/490),(B:490/510);…(1)对SNP1进行Hardy–Weinberg平衡检验(基于等位基因)。(2)计算SNP1的oddsratio及95%置信区间。(3)用logistic回归校正性别、年龄后,检验SNP1效应,给出系数估计及p值。(4)多重检验校正:6个位点Bonferroni阈值,并判断SNP1是否仍显著。【答案与解析】(1)合并两组等位基因:A共800,B共1200,期望基因

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论