版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026统计与编程试题及答案1.单选题(每题2分,共20分)1.1在R语言中,若向量x<c(1,2,3,NA,5),则sum(x,na.rm=TRUE)的返回值是A.11 B.NA C.10 D.9答案:C解析:na.rm=TRUE表示先剔除缺失值,剩余元素1+2+3+5=10。1.2某电商2026年1月订单量服从λ=1200的泊松分布,若用正态近似计算P(X≤1250),所需连续性修正后的标准化统计量为A.(1250.5−1200)/√1200 B.(1250−1200)/1200 C.(1250−1200)/√1200 D.(1249.5−1200)/√1200答案:A解析:泊松近似正态时,均值与方差均为λ,连续性修正需加0.5。1.3Python代码片段importnumpyasnpa=np.arange(12).reshape(3,4)b=a.sum(axis=0)print(b.shape)输出为A.(3,) B.(4,) C.(12,) D.(3,4)答案:B解析:axis=0对行求和,3行4列矩阵按列求和后得到长度为4的向量。1.4在SQL中,下列语句能正确返回“每个品类销售额占比”的是A.SELECTcategory,SUM(sales)/SUM(sales)OVER()FROMtGROUPBYcategory;B.SELECTcategory,sales/SUM(sales)FROMt;C.SELECTcategory,sales/(SELECTSUM(sales)FROMt)FROMtGROUPBYcategory;D.SELECTcategory,RATIO_TO_REPORT(sales)FROMt;答案:A解析:窗口函数SUM(sales)OVER()计算全局总和,再按品类分组即可得占比。1.5对线性回归y=Xβ+ε,若设计矩阵X列满秩,则β的最小二乘估计方差协方差矩阵为A.σ²(XᵀX)⁻¹ B.σ²X⁻¹ C.σ²I D.σ²XᵀX答案:A解析:经典结论,Var(β̂)=σ²(XᵀX)⁻¹。1.6在Git中,将当前分支dev的修改暂存并切换到main,最合适的序列是A.gitstash;gitcheckoutmainB.gitcommit;gitcheckoutmainC.gitpush;gitcheckoutmainD.gitmerge;gitcheckoutmain答案:A解析:stash可保存工作区与暂存区改动,checkout切换分支无冲突。1.7若随机变量T服从自由度为n的t分布,则E(T²)等于A.n/(n−2) B.1 C.0 D.n答案:A解析:t分布方差为n/(n−2),而E(T)=0,故E(T²)=Var(T)=n/(n−2)。1.8在PyTorch中,张量x.requires_grad_(True)后执行y=x**2;z=y.mean();z.backward(),则x.grad等于A.2x B.2x/n C.x D.0答案:B解析:链式法则,dz/dx=2x/n,其中n为x元素个数,mean()导致除以n。1.9对时间序列{y_t}建立ARIMA(1,1,1)模型,(1−ϕB)(1−B)y_t=(1+θB)ε_t,其特征方程1−ϕλ=0的根的模大于1,说明A.模型非平稳 B.模型平稳 C.差分阶数不足 D.移动平均部分可逆答案:B解析:AR部分特征根在单位圆外,表明差分后序列平稳。1.10在Excel365中,动态数组公式=UNIQUE(A1:A100,,FALSE)的第二个参数FALSE表示A.按行返回唯一值 B.按列返回唯一值 C.返回整行唯一 D.返回整列唯一答案:B解析:第二参数为FALSE表示按列比较,返回列方向唯一值。2.多选题(每题3分,共15分,多选少选均不得分)2.1下列哪些方法可以减弱线性回归中的多重共线性A.岭回归 B.Lasso C.主成分回归 D.增加样本量 E.方差膨胀因子筛选变量答案:ABCE解析:增加样本量无法降低变量间线性相关性,其余均可。2.2关于Python装饰器,说法正确的是A.本质上是高阶函数 B.使用@符号语法糖 C.一定返回原函数对象 D.可叠加多个 E.可带参数答案:ABDE解析:装饰器可返回新函数,不一定返回原函数对象。2.3在假设检验中,增大样本量会导致A.第一类错误概率α不变 B.第二类错误概率β减小 C.检验功效1−β增大 D.p值一定减小 E.置信区间变宽答案:ABC解析:α由研究者预设不变;β减小、功效增大;p值趋势减小但非“一定”;样本增大置信区间变窄。2.4使用K-means聚类时,可能遇到A.簇形状假设为球形 B.对异常值敏感 C.需要预设簇数k D.对特征量纲敏感 E.保证全局最优答案:ABCD解析:K-means迭代算法仅得局部最优。2.5关于随机森林,下列正确的是A.可自然处理缺失值 B.可评估变量重要性 C.树之间独立同分布 D.能降低过拟合风险 E.对异常值不敏感答案:BDE解析:传统实现需先处理缺失;树之间bootstrap样本相关;随机森林通过平均降低方差,抗异常值。3.填空题(每空2分,共20分)3.1在R语言data.table包中,按id分组求val最大行所在整行的语法为DT[,.SD[which.max(val)],by=id]答案:.SD[which.max(val)]3.2若X~N(μ,σ²),则其矩生成函数M_X(t)=exp(μt+½σ²t²)答案:exp(μt+½σ²t²)3.3Python列表推导式生成九九乘法表二维列表的代码为[[i*jforjinrange(1,10)]foriinrange(1,10)]答案:[[i*jforjinrange(1,10)]foriinrange(1,10)]3.4在Linuxshell中,将file.csv按第二列数值降序排序并取前10行的命令sort-t,-k2,2nrfile.csv|head-n10答案:sort-t,-k2,2nrfile.csv|head-n103.5若logistic回归系数β̂=0.8,则优势比OR=e^0.8≈2.2255答案:2.22553.6在PostgreSQL中,实现“累计和”窗口函数的表达式为SUM(amount)OVER(ORDERBYdateROWSUNBOUNDEDPRECEDING)答案:SUM(amount)OVER(ORDERBYdateROWSUNBOUNDEDPRECEDING)3.7当卷积神经网络使用same填充且步长为1时,输出特征图尺寸等于输入尺寸答案:等于输入尺寸3.8若随机变量U~Uniform(0,1),则−ln(U)服从参数为1的指数分布答案:指数分布3.9在Excel中,计算一列几何平均数的数组公式为=GEOMEAN(A1:A100)答案:=GEOMEAN(A1:A100)3.10对稀疏矩阵存储,CSR格式中的indptr数组长度为行数+1答案:行数+14.综合题(共45分)4.1数据清洗与可视化(10分)某CSV文件sales.csv包含字段date、store_id、product_id、units、revenue,其中存在以下质量问题:1.date列混合格式“2026/3/15”与“15-Mar-2026”;2.store_id含前导零,被Excel解析为数值后丢失;3.少量revenue为负。要求:(1)用Pythonpandas写出清洗代码,统一日期格式为%Y-%m-%d,store_id补零至4位,剔除revenue≤0的行;(2)用seaborn画出各门店月度营收折线图,其中门店数>50,需分面展示。答案与解析:```pythonimportpandasaspdimportseabornassnsimportmatplotlib.pyplotasplt读取df=pd.read_csv('sales.csv',dtype={'store_id':str})统一日期df['date']=pd.to_datetime(df['date'],errors='coerce')补零df['store_id']=df['store_id'].str.zfill(4)清洗df=df[df['revenue']>0].dropna(subset=['date'])加年月df['year_month']=df['date'].dt.to_period('M')聚合month_rev=df.groupby(['year_month','store_id'])['revenue'].sum().reset_index()绘图g=sns.FacetGrid(month_rev,col='store_id',col_wrap=10,sharey=False,height=2)g.map(plt.plot,'year_month','revenue',marker='.')plt.show()```解析:to_datetime自动识别多种格式;str.zfill保证前导零;分面图避免线条重叠。4.2统计建模(10分)研究人员收集2026年第二季度的日度气温T与冰淇淋销量S,拟建立多项式回归S=β₀+β₁T+β₂T²+ε,但担心异方差。(1)写出R代码,使用Breusch-Pagan检验判断是否存在异方差;(2)若存在,采用加权最小二乘(WLS)估计,权重为拟合值平方的倒数,给出代码。答案:```r拟合OLSmodel<lm(S~poly(T,2),data=df)BP检验library(lmtest)bptest(model)若p值<0.05则异方差w<1/fitted(model)^2model_wls<lm(S~poly(T,2),data=df,weights=w)summary(model_wls)```解析:poly(T,2)生成正交多项式避免多重共线;weights参数实现WLS。4.3机器学习(10分)训练集含特征矩阵X_train(20000×100),标签y_train为二分类。采用PythonLightGBM,需在验证集上搜索最优树深度max_depth∈{3,5,7,9}与学习率eta∈{0.01,0.05,0.1},评估指标AUC。要求使用BayesSearchCV,限定迭代30次,给出完整代码并输出最优参数与验证AUC。答案:```pythonfromlightgbmimportLGBMClassifierfromskoptimportBayesSearchCVfromsklearn.model_selectionimportStratifiedKFoldfromsklearn.metricsimportroc_auc_scorelgb=LGBMClassifier(n_estimators=300,objective='binary',verbose=-1)cv=StratifiedKFold(n_splits=5,shuffle=True,random_state=42)search_spaces={'max_depth':(3,9),'learning_rate':(0.01,0.1)}bayes=BayesSearchCV(lgb,search_spaces,n_iter=30,scoring='roc_auc',cv=cv,random_state=0)bayes.fit(X_train,y_train)print("bestparams:",bayes.best_params_)print("bestAUC:",bayes.best_score_)```解析:BayesSearchCV基于高斯过程代理模型,迭代次数少而精;StratifiedKFold保证类别比例。4.4算法设计(10分)给定长度为n的整数数组a,允许最多k次交换相邻元素,求可获得的字典序最小序列。设计O(nlogn)算法并给出Python实现。答案:```pythonimportheapqdefmin_lex_with_k(a,k):n=len(a)res=[]使用最小堆维护当前窗口h=[]foriinrange(n):heapq.heappush(h,(a[i],i))当堆顶元素下标满足可移动到当前首位whilehandh[0][1]<=ik:heapq.heappop(h)选出最小val,pos=heapq.heappop(h)res.append(val)剩余k减少移动步数k-=(posi)删除已用元素,后续元素前移a.pop(pos)重新插入堆中剩余元素h=[(v,j)forj,vinenumerate(a[i:])]heapq.heapify(h)returnres优化版:使用线段树或树状数组求区间最小值下标,真O(nlogn)以下给出树状数组解法框架classFenwick:def__init__(self,n):self.n=nself.bit=[0]*(n+1)defupdate(self,idx,delta=1):whileidx<=self.n:self.bit[idx]+=deltaidx+=idx&-idxdefquery(self,idx):s=0whileidx:s+=self.bit[idx]idx-=idx&-idxreturns完整优化代码略,核心思想:离散化后树状数组维护可用位置,RMQ求区间最小值。```解析:暴力堆解法易写但最坏O(n²);树状数组+线段树可降至O(nlogn)。4.5分布式计算(5分)用PySpark计算大型CSV文件的各列缺失率,并输出JSON格式结果。文件存储于HDFS路径/data/2026/big.csv,首行为列名。答案:```pythonfrompyspark.sqlimportSparkSessionfrompyspark.sql.functionsimportcol,sum,countimportjsonspark=SparkSession.builder.appName("missing_rate").getOrCreate()df=spark.read.option("header","true").csv("hdfs:///data/2026/big.csv")total=df.count()miss=df.select([(sum(col(c).isNull().cast("int"))/total).alias(c)forcindf.columns])result=miss.first().asDict()print(json.dumps(result,ensure_ascii=False,indent=2))spark.stop()```解析:sum(isNull)/total直接得缺失率;collect_as_dict即可序列化JSON。5.编程实战(附加题,满分10分,计入总分)5.1实现一个线程安全的单例模式Logger类,支持日志级别DEBUG/INFO/WARN/ERROR,日志写入文件并轮转,每天一个文件,保留30天。语言不限,给出完整源码。答案:```pythonimportloggingimportosfromlogging.handlersimportTimedRotatingFileHandlerfromthreadingimportLockclassLogger:_instance=None_lock=Lock()def__new__(cls,args,*kwargs):ifnotcls._instance:withcls._lock:ifnotcls._instance:cls._instance=super().__new__(cls)returncls._instan
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- CCAA - 2017年09月环境管理体系基础答案及解析 - 详解版(80题)
- 吸入技术教学课件
- 安徽省合肥琥珀集团2025-2026届九年级上学期期末质量调研语文试题(含答案)
- 企业员工培训与技能发展计划目标制度
- CCAA - 认证基础 认通基摸底考试一答案及解析 - 详解版(62题)
- 老年终末期患者跌倒预防的健康教育策略
- 老年终末期尿失禁的护理干预方案实施策略
- 2025年西安莲湖辅警招聘真题及答案
- 数控铣工岗前竞争分析考核试卷含答案
- 我国上市公司治理结构与自愿性信息披露:基于实证视角的深度剖析
- 2026届大湾区普通高中毕业年级联合上学期模拟考试(一)语文试题(含答案)(含解析)
- (2025年)军队文职考试面试真题及答案
- 新版-八年级上册数学期末复习计算题15天冲刺练习(含答案)
- 2025智慧城市低空应用人工智能安全白皮书
- 云南师大附中2026届高三月考试卷(七)地理
- 2024年风电、光伏项目前期及建设手续办理流程汇编
- 通信管道施工质量控制方案
- 仁爱科普版(2024)八年级上册英语Unit1~Unit6单元话题作文练习题(含答案+范文)
- 不良资产合作战略框架协议文本
- 先进班级介绍
- 2025年浙江省辅警考试真题及答案
评论
0/150
提交评论