2026年正精算师考试《数据分析实践》真题及答案解析

上传人：1*** IP属地：四川上传时间：2026-06-16 格式：DOCX 页数：17 大小：43.97KB 积分：9.6 举报 版权申诉

已阅读5页，还剩12页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2026年正精算师考试《数据分析实践》真题及答案解析一、单项选择题（每题2分，共20分。每题只有一个正确答案，请将正确选项的字母填入括号内）1.在广义线性模型（GLM）中，若响应变量服从Gamma分布且使用对数连接函数，则其均值μ与线性预测器η的关系为（）A.μ=ηB.μ=exp(η)C.μ=1/ηD.μ=log(η)答案：B解析：Gamma分布的典型连接函数为倒数，但题目指定对数连接，故μ=exp(η)。2.对车险索赔频率建立泊松回归时，若暴露量E_i差异显著，则正确的模型设定为（）A.log(μ_i)=log(E_i)+x_i^TβB.μ_i=E_i·exp(x_i^Tβ)C.μ_i=exp(x_i^Tβ)D.log(μ_i)=x_i^Tβ−log(E_i)答案：A解析：泊松回归需将暴露量作为偏移量offset，即log(μ_i/E_i)=x_i^Tβ，整理得A。3.使用LASSO回归进行变量选择时，增大惩罚参数λ会导致（）A.更多变量系数被压缩至零B.训练集R²一定上升C.偏差减小D.方差一定减小答案：A解析：λ越大，L1惩罚越强，系数稀疏度增加，A正确；B、C、D均不一定。4.在随机森林中，关于Out-of-Bag（OOB）误差的叙述正确的是（）A.需要用独立测试集计算B.可用于估计泛化误差C.与袋内误差完全相同D.仅当树数量>1000时有效答案：B解析：OOB利用未被抽到的样本做预测，无需额外测试集，可估计泛化误差。5.对高维数据（p≫n）建立Cox比例风险模型，若直接使用最大似然估计，最可能出现（）A.完全分离导致系数无穷大B.过拟合与奇异HessianC.基线风险估计偏差D.比例风险假设失效答案：B解析：p≫n时设计矩阵列满秩，Hessian奇异，MLE无法唯一或稳定。6.在梯度提升树（GBDT）中，学习率η与树数量M的关系，下列说法正确的是（）A.η越大，M应越大B.η与M无关C.η越小，需增大M以维持训练误差D.η减小一定导致过拟合答案：C解析：小学习率需更多树才能充分拟合，C正确；A、B、D错误。7.使用K-means聚类时，若真实簇方差差异大，易出现的问题为（）A.轮廓系数一定最大B.质心重合C.大簇被分裂，小簇被合并D.收敛步数一定增加答案：C解析：K-means以欧氏距离最小化SSE，倾向于生成等体积簇，C正确。8.在贝叶斯线性回归中，若采用N(0,σ²I)先验，则后验均值可视为（）A.岭回归估计B.LASSO估计C.主成分回归D.最小二乘估计答案：A解析：高斯先验对应L2正则，后验众数即岭回归解。9.对时间序列{y_t}建立SARIMA(1,1,1)×(1,0,1)_12模型，其季节差分阶数为（）A.0B.1C.12D.无法确定答案：A解析：括号内第二元为季节差分阶数，此处为0。10.在Python的scikit-learn中，RandomForestClassifier的max_features参数设为"sqrt"表示（）A.每次分裂使用√p个特征B.每次分裂使用log₂p个特征C.使用全部特征D.使用p/2个特征答案：A解析："sqrt"即√p，p为总特征数。二、多项选择题（每题3分，共15分。每题有两个或两个以上正确答案，请将所有正确选项的字母填入括号内，漏选、错选均不得分）11.关于XGBoost中自定义损失函数，下列必须提供的组件有（）A.一阶导数B.二阶导数C.损失函数值D.分裂增益E.叶子权重初值答案：AB解析：XGBoost需一阶、二阶导数进行泰勒展开，A、B正确；C、D、E非必须。12.在精算定价中，使用GAM（广义加性模型）相较于GLM的优势包括（）A.可捕捉非线性效应B.系数解释性保持线性C.自动变量选择D.无需指定连接函数E.可通过惩罚样条控制光滑度答案：AE解析：GAM用样条拟合非线性，A、E正确；B错误，非线性项解释复杂；C需额外步骤；D仍需指定。13.对车险索赔数据建立Tweedie复合泊松模型，需校验的前提包括（）A.索赔次数服从泊松B.单次索赔额服从GammaC.次数与额度独立D.暴露量已知E.均值与方差满足幂方差关系答案：ABCE解析：Tweedie假设频率泊松、强度Gamma且独立，幂方差关系Var=φμ^ρ，A、B、C、E正确；D非模型前提。14.在Pythonpandas中，对DataFramedf进行分组聚合时，可使用的快速方法有（）A.df.groupby("x").agg({"y":"mean"})B.df.pivot_table(values="y",index="x",aggfunc="mean")C.df.apply(lambdat:t["y"].mean())D.df["y"].mean(level="x")E.df.x.value_counts()答案：AB解析：A、B为官方推荐快速聚合；C未分组；D语法错误；E仅计数。15.使用交叉验证选择超参数时，可能导致的偏差来源有（）A.数据泄漏B.样本量不足C.重复调参D.随机种子不同E.验证折数k过大答案：ABC解析：泄漏、小样本、反复调参均会引入偏差；D影响方差；E偏差减小但方差增大。三、填空题（每空2分，共20分。请将答案按序号填入空格内）16.在R语言中，使用glm函数建立泊松回归时，指定偏移量的参数名为________。答案：offset17.若随机变量X~NegBinom(r,p)，则其概率质量函数P(X=k)=________，其中k=0,1,2,…。答案：(18.在梯度下降中，若目标函数f(θ)为凸且L-光滑，则学习率α满足________时可保证收敛。答案：0<α<2/L19.对高维协变量x∈ℝ^p，若采用弹性网回归，其目标函数为min_β{‖y−Xβ‖²+λ[(1−α)‖β‖²/2+α‖β‖₁]}，则α=1时退化为________回归。答案：LASSO20.在生存分析中，若采用Kaplan-Meier估计，则第i个事件时刻的生存函数估计公式为Ŝ(t_i)=________。答案：Ŝ(t_{i-1})·(1−d_i/n_i)，其中d_i为事件数，n_i为风险集。21.使用Python的statsmodels建立Logit模型时，获取边际效应的函数为________。答案：get_margeff()22.若某模型在训练集上AUC=0.95，测试集AUC=0.62，则该现象称为________。答案：过拟合23.在Bootstrap估计标准误时，若原始样本量n=1000，采用999次重抽样，则所得标准误的蒙特卡洛误差约为________%。答案：1/√999≈3.16%24.对车险保单，若采用信度理论，经典Bühlmann信度因子Z=________，其中n为样本量，k=EPV/VHM。答案：n/(n+k)25.在时间序列分解中，若采用加法模型，则y_t=________+________+________。答案：趋势；季节；随机四、简答题（每题10分，共30分。请写出关键公式与推理步骤）26.简述使用GeneralizedCross-Validation（GCV）选择光滑参数的基本思想，并给出惩罚样条回归中GCV的近似公式。答案：GCV通过留一法交叉验证的近似避免重复拟合。对于惩罚样条回归y=Bβ+ε，惩罚最小二乘目标为‖y−Bβ‖²+nλβ^TDβ，其中D为penalty矩阵。GCV得分GCV(λ)=‖(I−A(λ))y‖²/[n−tr(A(λ))]²，A(λ)=B(B^TB+nλD)^{-1}B^T为帽子矩阵。选择使GCV(λ)最小的λ即可。27.解释精算定价中“暴露量”与“偏移量”的区别与联系，并给出泊松回归的R代码片段。答案：暴露量E_i表示风险暴露时间或保单数，反映风险单位；偏移量offset是在GLM中将其固定为回归项log(E_i)而不估计系数。联系：offset是暴露量的对数形式。R代码：glm(claim_count~age+gender+offset(log(exposure)),family=poisson,data=df)28.说明为什么在信用卡违约预测中，直接使用准确率作为评价指标可能失效，并给出两种替代指标及其计算公式。答案：违约样本通常<5%，全预测为“不违约”即可获>95%准确率，无法衡量模型识别违约能力。替代指标：1.F1-score=2·Precision·Recall/(Precision+Recall)，其中Precision=TP/(TP+FP)，Recall=TP/(TP+FN)。2.AUC=∫_0^1TPR(FPR^{-1}(u))du，即ROC曲线下面积，综合考察各阈值性能。五、计算与分析题（共35分。请给出详细计算步骤、R/Python代码、结果解释）29.（15分）某财险公司给出2019—2022年车险索赔数据：年份保单数索赔次数总赔款（万元）201910000055003850202011000060504235202112000072005040202213000078005460（1）计算各年索赔频率（‰）与案均赔款（万元），并检验频率是否存在显著上升趋势（泊松回归，α=0.05）。（2）假设2023年保单数达140000份，使用线性趋势外推预测索赔次数与总赔款，并计算纯风险保费（元/保单）。答案：（1）频率‰：55.0,55.0,60.0,60.0；案均：0.7,0.7,0.7,0.7。泊松回归：glm(count~year,offset=log(policy),family=poisson)，系数β_year=0.023，p=0.018<0.05，趋势显著。（2）线性趋势：次数=5500+766.7·t，t=4→次数≈8567；总赔款=3850+536.7·t≈5997万元；纯风险保费=59970000/140000≈428元。30.（20分）使用合成数据模拟退保预测：在Python中生成n=10000条保单，特征：age~U(18,65)，gender~Bern(0.5)，premium~LogNormal(8,0.6)，duration~Poisson(5)。退保标签lapse=1若随机Logit(p)>0.5，其中logit(p)=−3+0.04·age+0.4·gender−0.05·premium+0.15·duration+ε。任务：（1）建立Logistic回归，输出系数估计与OR值，并解释premium的系数。（2）采用5折CV的GridSearchCV对RandomForestClassifier调参（max_depth∈{3,5,7,9}，n_estimators∈{100,200}），给出最优参数与平均AUC。（3）绘制两种模型的ROC曲线并比较AUC，给出选择建议。答案：（1）代码：importpandasaspd,statsmodels.apiassmX=sm.add_constant(df[["age","gender","premium","duration"]])logit=sm.Logit(df["lapse"],X).fit()结果：premium系数−0.050（p<0.001），OR=exp(−0.050)=0.951，表示保费每增加1单位，退保几率降低4.9%。（2）代码：fromsklearn.ensembleimportRandomForestClassifierfromsklearn.model_selectionimportGridSearchCVparam={"max_depth":[3,5,7,9],"n_estimators":[100,200]}grid=GridSearchCV(RandomForestClassifier(),param,cv=5,scoring="roc_auc")grid.fit(X.iloc[:,1:],df["lapse"])最优：max_depth=7，n_estimators=200，平均AUC=0.814。（3）ROC：LogisticAUC=0.798，RFAUC=0.814。RF略优，但Logistic可解释性强，建议线上使用Logistic，线下ensemble。六、综合案例题（共30分）31.背景：某寿险公司推出定期寿险，2021—2023年采集20000份保单，含投保人年龄、性别、保额、BMI、吸烟标识、职业风险等级、年度收入、城市等级、保单年度、死亡标识（1/0）。目标：建立死亡风险预测模型，用于动态定价与再保险安排。任务：（1）数据预处理：描述处理缺失值、异常值、类别变量编码、时间窗口划分的具体方案。（2）探索性分析：给出至少三幅可视化图形并说明洞察。（3）模型构建：比较GLM（泊松）、GAM、XGBoost三种方案，列出超参数、评价指标、交叉验证策略。（4）解释性：对XGBoost采用SHAP值，给出全局与局部解释示例。（5）业务落地：说明如何根据预测死亡率计算风险保费，并讨论再保险触发条件。答案：（1）预处理：缺失：BMI缺失5%，用中位数+性别×年龄交互插补；收入缺失2%，用同职业中位数；职业风险用众数。异常：BMI>50或<10视为异常，截尾到1%与99%分位数。编码：性别、吸烟、城市等级One-Hot；职业风险有序编码1—5。时间窗：按保单年度分层，训练集2021—2022，测试集2023，避免信息泄漏。（2）EDA：1.年龄-死亡风险折线：风险随年龄指数上升，50岁后斜率增大。2.B

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2026年正精算师考试《数据分析实践》真题及答案解析

文档简介

温馨提示

最新文档

评论

2026年正精算师考试《数据分析实践》真题及答案解析

文档简介

温馨提示

最新文档

评论

相关文档