版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年河南信息统计职业学院单招职业技能考试题库及答案一、单项选择题(每题2分,共40分)1.在Excel2021中,若A1:A1000存放的是每日销售额,要求用一条公式返回最近7天销售额的环比增长率,下列写法最严谨的是A.=(SUM(OFFSET(A1,COUNT(A:A)-7,0,7,1))-SUM(OFFSET(A1,COUNT(A:A)-14,0,7,1)))/SUM(OFFSET(A1,COUNT(A:A)-14,0,7,1))B.=(SUM(INDEX(A:A,COUNT(A:A)-6):INDEX(A:A,COUNT(A:A)))-SUM(INDEX(A:A,COUNT(A:A)-13):INDEX(A:A,COUNT(A:A)-7)))/SUM(INDEX(A:A,COUNT(A:A)-13):INDEX(A:A,COUNT(A:A)-7))C.=(SUM(A994:A1000)-SUM(A987:A993))/SUM(A987:A993)D.=(SUM(INDIRECT("A"&COUNT(A:A)-6&":A"&COUNT(A:A)))-SUM(INDIRECT("A"&COUNT(A:A)-13&":A"&COUNT(A:A)-7)))/SUM(INDIRECT("A"&COUNT(A:A)-13&":A"&COUNT(A:A)-7))答案:B解析:OFFSET和INDIRECT均为易失函数,大数据量下重算耗时;硬编码行号在追加数据后失效;INDEX返回区域引用,非易失且高效,故B最优。2.在MySQL8.0中,现有表sale(order_id,sku,qty,price,order_date),要求计算2025年12月每款sku的毛利率,已知成本表cost(sku,cost_price),下列SQL正确的是A.SELECTs.sku,(SUM(s.qtys.price)-SUM(s.qtyc.cost_price))/SUM(s.qty*s.price)FROMsalesJOINcostcONs.sku=c.skuWHEREs.order_dateBETWEEN'2025-12-01'AND'2025-12-31'GROUPBYs.sku;B.SELECTs.sku,(SUM(s.qtys.price)-SUM(s.qtyc.cost_price))/NULLIF(SUM(s.qty*s.price),0)FROMsalesLEFTJOINcostcONs.sku=c.skuWHEREYEAR(s.order_date)=2025ANDMONTH(s.order_date)=12GROUPBYs.sku;C.SELECTsku,(SUM(qtyprice)-SUM(qtycost_price))/SUM(qty*price)FROMsaleNATURALJOINcostWHEREorder_dateLIKE'2025-12%'GROUPBYsku;D.SELECTs.sku,(SUM(s.qtys.price)-SUM(s.qtyc.cost_price))/SUM(s.qty*c.cost_price)FROMsalesJOINcostcUSING(sku)WHEREDATE_FORMAT(s.order_date,'%Y-%m')='2025-12'GROUPBYs.sku;答案:B解析:LEFTJOIN防止cost表缺sku导致漏算;NULLIF防除零;YEAR+MONTH可命中索引;NATURALJOIN依赖列名一致,不稳健;D分母用成本而非售价,逻辑错。3.在Python3.11中,用pandas读取1.8GBCSV文件,需只加载2025年11月之后的数据,最快方案是A.pd.read_csv('sale.csv').query("order_date>='2025-11-01'")B.pd.read_csv('sale.csv',parse_dates=['order_date'],dtype={'sku':'category'}).loc[lambdadf:df.order_date>='2025-11-01']C.pd.read_csv('sale.csv',usecols=['order_date','sku','qty','price'],parse_dates=['order_date']).query("order_date>='2025-11-01'")D.pd.read_csv('sale.csv',iterator=True,chunksize=100000).apply(lambdax:x[x.order_date>='2025-11-01']).concat()答案:C解析:A、B全量加载内存占用高;D迭代拼接代码冗且慢;C通过usecols减少I/O与内存,再query过滤,实测最快。4.在PowerBI中,要计算“客户首次购买日期”度量值,最佳DAX表达式为A.FIRSTDATE(Sales[order_date])B.MIN(Sales[order_date])C.CALCULATE(MIN(Sales[order_date]),ALLEXCEPT(Sales,Sales[customer_id]))D.MINX(Sales,Sales[order_date])答案:C解析:ALLEXCEPT保留customer_id筛选,确保每个客户独立计算首购日;A、B、D均受当前筛选上下文影响,无法逐客户返回。5.关于HiveSQL中的分桶表,下列说法正确的是A.分桶字段必须出现在WHERE子句才能触发桶过滤B.分桶数建议设置成与reduce数相等,避免小文件C.分桶表不能与普通表做JOIND.分桶字段可以不在表字段中,只要指定CLUSTEREDBY即可答案:B解析:桶数=reduce数可消除额外shuffle;A错,桶过滤靠JOINON字段;C错,MapJoin支持;D错,CLUSTEREDBY字段必须在表中。6.在Linux服务器上,MySQL8.0的datadir占用磁盘99%,需快速定位最大库,下列命令组合正确的是A.du-sh/var/lib/mysql/*|sort-hr|headB.lsof/var/lib/mysql|awk'{print$7}'|sort-nrC.mysql-e"SELECTtable_schema,SUM(data_length+index_length)/1024/1024ASGBFROMinformation_schema.tablesGROUPBYtable_schemaORDERBYGBDESC;"D.df-h/var/lib/mysql&&find/var/lib/mysql-typef-size+500M答案:C解析:C直接通过元数据汇总,秒级返回;A需遍历文件,慢且含日志;B看打开文件,无关大小;D仅列单文件,无法汇总库级。7.在Excel中,要生成一列1~1000的不重复随机整数,最佳做法是A.=RANDBETWEEN(1,1000)并向下填充,然后删除重复B.在A1输入=RAND(),向下填充1000行,在B1:B1000输入=RANK.EQ(A1,A:A),然后复制B列数值C.使用“数据→分析工具库→随机数生成”选择“整数”,范围1~1000,输出1000个D.=SEQUENCE(1000,1,1,1)然后=SORTBY(SEQUENCE(1000),RANDARRAY(1000))答案:D解析:D一次性生成顺序数再随机排序,无重复且动态数组公式简洁;A可能重复;B需辅助列;C需加载项,且不能自动刷新。8.在统计学中,若样本量n=50,样本均值=128,标准差=15,则总体均值的95%置信区间为A.128±1.96×15/√50B.128±2.009×15/√50C.128±2.009×15D.128±1.96×15答案:B解析:n<30才用t分布,但题目未给总体正态,n=50可近似正态,严格用t0.025,49=2.009;A用z值,略粗略;C、D标准误漏除√n。9.在Python中,用scikit-learn对含分类变量数据集做标准化+独热+建模,正确管道是A.make_pipeline(StandardScaler(),OneHotEncoder(),LogisticRegression())B.make_column_transformer((StandardScaler(),num_cols),(OneHotEncoder(),cat_cols))>>make_pipeline(ct,LogisticRegression())C.make_pipeline(ColumnTransformer([(StandardScaler(),num_cols),(OneHotEncoder(),cat_cols)]),LogisticRegression())D.make_pipeline(StandardScaler(),ColumnTransformer(…),LogisticRegression())答案:C解析:ColumnTransformer需放在管道第一步,先分列处理再合并矩阵;A、D顺序错;B语法混用>>非法。10.在会计恒等式“资产=负债+所有者权益”中,企业用银行存款偿还应付账款,会导致A.资产减少,负债减少,所有者权益不变B.资产减少,负债不变,所有者权益减少C.资产内部一增一减,总额不变D.负债减少,所有者权益增加,资产不变答案:A解析:银行存款(资产)与应付账款(负债)同时减少,权益不变,恒等式仍成立。11.下列关于增值税一般纳税人“差额征税”说法正确的是A.旅游服务可按差额计税,可全额开专票B.建筑服务简易计税可按差额C.劳务派遣可按差额,但向员工支付工资部分不得开专票D.金融商品转让按卖出价扣除买入价差额计税,可开专票答案:C解析:劳务派遣差额征税,仅管理费部分可开专票,工资社保部分开普票;A旅游差额计税不得开专票;B简易计税不得差额;D金融商品转让不得开专票。12.在数据仓库中,缓慢变化维类型2的做法是A.直接更新原行B.增加新行并标记版本号与时间戳C.增加字段保存旧值D.将变化历史存入另外一张表答案:B解析:SCD2新增行保留历史,用代理键+时间区间区分版本;A为SCD1;C为SCD3;D为扩展做法但非Kimball经典SCD2。13.在ExcelPowerQuery中,将“2025/12/3115:08:12”转为“202512”最佳步骤是A.更改类型为日期,然后自定义列=Date.ToText([日期],"yyyyMM")B.更改类型为文本,然后文本.Middle(1,6)C.添加自定义列=DateTime.ToText(DateTime.Date([Column1]),"yyyyMM")D.拆分列按空格,再取左侧6位答案:C解析:先取日期部分再转文本,避免时间干扰;A直接转日期会丢时间;B、D逻辑混乱。14.在统计学里,若两变量相关系数r=0.85,则决定系数R²为A.0.85B.0.7225C.0.15D.无法确定答案:B解析:R²=r²=0.85²=0.7225,表示因变量变异中72.25%可由自变量解释。15.在Python中,对datetime列df['dt']提取“月初”日期,向量化写法是A.df['dt'].apply(lambdax:x.replace(day=1))B.df['dt']-pd.offsets.Day(df['dt'].dt.day-1)C.df['dt'].dt.to_period('M').dt.start_timeD.df['dt'].map(lambdax:datetime(x.year,x.month,1))答案:C解析:C利用to_period转月份周期再取start_time,纯向量化;A、D用apply/map慢;B需广播,可读性差。16.在会计中,下列项目应计入“其他综合收益”的是A.固定资产处置利得B.可供出售金融资产公允价值变动C.收到的政府补助D.权益法下被投资单位净利润答案:B解析:可供出售金融资产FVOCI变动入其他综合收益;A入资产处置损益;C入递延收益或当期损益;D入投资收益。17.在Hive中,设置hive.exec.dynamic.partition.mode=nonstrict的作用是A.允许所有分区列动态生成,无需指定静态分区B.关闭动态分区功能C.提高小文件合并效率D.启用桶排序答案:A解析:nonstrict模式下,DML可完全不指定静态分区,全动态;strict至少一列静态。18.在Excel中,要返回某列最后非空单元格值,公式为A.=LOOKUP(2,1/(A:A<>""),A:A)B.=INDEX(A:A,COUNTA(A:A))C.=OFFSET(A1,COUNTA(A:A)-1,0)D.=VLOOKUP(9E+307,A:A,1)答案:A解析:LOOKUP(2,1/(条件))经典技巧,可跳过中间空单元;B、C遇空值计数错位;D仅对数值列有效。19.在Python中,用pandas将df按列‘city’分组,计算每组销售额‘amount’的累计占比,正确代码是A.df['pct']=df.groupby('city')['amount'].apply(lambdax:x/x.sum())B.df['pct']=df.groupby('city')['amount'].transform(lambdax:x.cumsum()/x.sum())C.df['pct']=df['amount'].cumsum()/df['amount'].sum()D.df.groupby('city')['amount'].pct_change()答案:B解析:transform保留原索引,cumsum后除以组总和得累计占比;A得组内占比非累计;C全局累计;D为环比。20.在统计学中,若样本比例p̂=0.4,n=200,则99%置信区间用A.0.4±2.576×√(0.4×0.6/200)B.0.4±2.33×√(0.4×0.6/200)C.0.4±1.96×√(0.4×0.6/200)D.0.4±0.01答案:A解析:99%对应z=2.576;B为98%;C为95%;D无意义。二、多项选择题(每题3分,共30分,多选少选均不得分)21.下列Excel函数中,返回数组且无需Ctrl+Shift+Enter的函数有A.FILTERB.UNIQUEC.SORTD.XLOOKUP答案:ABC解析:365动态数组函数直接回车溢出;XLOOKUP单值返回,非数组。22.在Pythonpandas中,可用来检测异常值的统计方法有A.Z-scoreB.IQRC.DBSCAND.Cook距离答案:ABC解析:Cook距离用于回归影响点,非单变量异常;A、B、C均可。23.关于增值税发票“备注栏”必须填写内容,下列有A.建筑服务需注明项目名称、地址B.销售不动产需注明房产权属证书号码C.货物运输需注明车号、起运地D.差额征税开票需注明“差额征税”字样答案:ACD解析:不动产发票未强制在备注栏写证号,应在税收分类编码体现;其余为总局公告明确。24.在数据治理中,属于“数据质量”维度指标的有A.准确性B.完整性C.一致性D.及时性答案:ABCD解析:DAMA框架六大维度含及时性。25.在ExcelPowerPivot中,可创建的关系类型有A.一对一B.一对多C.多对多D.多对一答案:BCD解析:PowerPivot支持多对多通过桥表;一对一实际退化为双向一对多。26.下列关于Python列表生成式说法正确的是A.[x**2forxinrange(5)ifx%2==0]结果长度为3B.可嵌套循环:[m+nformin'AB'fornin'XY']C.可使用walrus运算符:[(y:=x+1)forxinrange(3)]D.比map+lambda慢答案:ABC解析:实测列表生成式比map+lambda略快,D错。27.在统计学假设检验中,属于非参数检验的有A.Mann-WhitneyUB.Kruskal-WallisC.Wilcoxon符号秩D.卡方拟合优度答案:ABCD解析:均不依赖总体分布假设。28.在Linux中,可查看CPUtop5进程的命令组合有A.psaux|head-5B.psaux--sort=-%cpu|head-6C.top-b-n1|head-12|tail-5D.htop-n-5答案:BC解析:A仅列前5行,非最高CPU;Dhtop无-n参数;B、C正确。29.在会计中,影响“经营活动现金流量”的有A.支付职工薪酬B.收到税费返还C.购买固定资产D.支付短期借款利息答案:ABD解析:C属投资活动;其余为经营。30.在HiveSQL优化中,可触发MapJoin的条件有A.小表<25MBB.hive.auto.convert.join=trueC.使用/+MAPJOIN(b)/提示D.桶表JOIN且桶数相等答案:ABC解析:D为SMBJoin,需额外设置。三、判断题(每题1分,共10分,正确打“√”,错误打“×”)31.在Excel中,SUMIFS函数的条件区与求和区必须大小一致。答案:√32.Python的datetime.strptime是线程安全的。答案:×解析:strptime内部使用全局状态,非线程安全。33.增值税小规模纳税人可自愿使用增值税发票管理系统开具专票。答案:√解析:2022年起全行业小规模可自开专票。34.在统计学中,中心极限定理要求总体必须服从正态分布。答案:×35.MySQL的InnoDB聚簇索引叶节点存储整行数据。答案:√36.在PowerBI中,度量值必须依赖DAX,不能用M语言。答案:√37.Python的glob模块支持通配符**,可递归子目录。答案:√38.在会计中,公允价值层次第一层次指不可观察输入值。答案:×解析:第一层次为活跃市场报价,可观察。39.Hive的ORC格式支持ACID事务,但需设置事务属性为true。答案:√40.Excel的XLOOKUP函数默认精确匹配。答案:√四、填空题(每空2分,共20分)41.在Python中,将字符串s='2025-12-31'转为datetime对象,语句为________。答案:pd.to_datetime(s)或datetime.strptime(s,'%Y-%m-%d')42.在Excel中,公式=TEXTJOIN(",",TRUE,A1:A100)的第二个参数TRUE表示________。答案:忽略空单元格43.增值税电子专票版式文件扩展名为________。答案:OFD44.在统计学中,若随机变量X~N(μ,σ²),则Z=(X-μ)/σ服从________分布。答案:标准正态N(0,1)45.MySQL中,查看慢查询是否开启的命令:SHOWVARIABLESLIKE'________';答案:slow_query_log46.在DAX中,计算年初至今累计销售额的度量值函数缩写为________。答案:TOTALYTD47.在Linux中,将文件file.csv按,分割并取第2列,命令:cut-d,-f2file.csv>________.txt答案:out或任意名称48.在会计恒等式扩展式中,收入-费用=________。答案:利润49.在Hive中,设置本地模式运行的参数:SEThive.exec.mode.local.auto=________;答案:true50.在Pythonpandas中,将分类变量转为数值编码,方法:df['cat']=df['cat'].astype('________').codes答案:category五、简答题(每题10分,共30分)51.简述在Excel中利用PowerQuery实现“全外连接”两表并处理null的步骤。答案:1.数据→获取数据→自工作簿,分别加载表A、表B;2.在PowerQuery编辑器中,选择“合并查询→合并为新查询”;3.选择两表连接字段,连接种类选“完全外部”;4.展开所需列,对null值替换:转换→替换值,填null→0或“未知”;5.关闭并加载至新工作表。52.写出Pythonpandas代码:对df列‘amount’用IQR法剔除异常值并返回清洗后df。答案:Q1=df['amount'].quantile(0.25)Q3=df['amount'].quantile(0.75)IQR=Q3-Q1lower=Q1-1.5*IQRupper=Q3+1.5*IQRdf_clean=df[(df['amount']>=lower)&(df['amount']<=upper)]53.说明小规模纳税人月销售额≤10万元免征增值税的会计处理及报表列示。答案:实现销售时正常确认收入与应交增值税—应交增值税(销项),月末达免税条件,将销项税额转入“其他收益—减免税款”,利润表列示为其他收益,现金流量表列示为“收到的税费返还”。六、综合应用题(共30分)54.某电商公司2025年12月订单表order(order_id,user_id,order_date,amount),用户首次来源表source(user_id,first_source),需用MySQL统计自然月内各来源的“当月新增用户”的次月留存率,请写出完整SQL并解释。答案:WITHnew_decAS(SELECTo.user_id,s.first_sourceFROMorderoJOINsourcesUSING(user_id)WHEREDATE_FORMAT(o.order_date,'%Y-%m')='2025-12'GROUPBYo.user_id),retain_janAS(SELECTDISTINCTuser_idFROMorderWHEREDATE_FORMAT(order_date,'%Y-%m')='2026-01')SELECTfirst_source,COUNT(*)ASnew_cnt,COUNT(r.user_id)ASretain_cnt,ROUND(COUNT(r.user_id)/COUNT(*),4)ASretain_rateFROMnew_decnLEFTJOINretain_janrUSING(user_id)GROUPBYfirst_source;解析:1.new_dec子查询找出12月下单且首次来源用户,去重确保“新增”;2.retain_jan子查询找出2026年1月有下单的用户;3.左连接后按来源分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大秦医院面试题及答案
- C语言基础选择测试题含多知识点考察及答案
- 感控护士院感防控知识试题及答案
- 新疆成人考试真题及答案
- 成都三基试题题库附答案
- 市事业单位招聘考试公共基础知识试题题库附答案详解
- 输血三基考试试题及答案
- 三级医院护士招聘面试题含答案
- 嵌入式开发面试题及答案
- 河南专升本试题及答案
- 起重设备安全使用指导方案
- 江苏省扬州市区2025-2026学年五年级上学期数学期末试题一(有答案)
- 干部履历表(中共中央组织部2015年制)
- GB/T 5657-2013离心泵技术条件(Ⅲ类)
- GB/T 3518-2008鳞片石墨
- GB/T 17622-2008带电作业用绝缘手套
- GB/T 1041-2008塑料压缩性能的测定
- 400份食物频率调查问卷F表
- 滑坡地质灾害治理施工
- 实验动物从业人员上岗证考试题库(含近年真题、典型题)
- 可口可乐-供应链管理
评论
0/150
提交评论