2025年大学《数理基础科学》专业题库- 统计分析方法与数据挖掘_第1页
2025年大学《数理基础科学》专业题库- 统计分析方法与数据挖掘_第2页
2025年大学《数理基础科学》专业题库- 统计分析方法与数据挖掘_第3页
2025年大学《数理基础科学》专业题库- 统计分析方法与数据挖掘_第4页
2025年大学《数理基础科学》专业题库- 统计分析方法与数据挖掘_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年大学《数理基础科学》专业题库——统计分析方法与数据挖掘考试时间:______分钟总分:______分姓名:______一、选择题(每小题2分,共20分。请将正确选项的代表字母填写在答题纸上。)1.设总体X服从正态分布N(μ,σ²),其中μ未知。从总体中抽取样本X₁,X₂,...,Xn,构造假设检验H₀:μ=μ₀vsH₁:μ≠μ₀。若采用拒绝域为{|√n(样本均值-μ₀)/S|>c}的检验,其中S为样本标准差,则此检验的拒绝域对应的p值是基于以下哪种分布的临界值?A.标准正态分布B.t分布C.卡方分布D.F分布2.在进行主成分分析时,若原始变量X₁,X₂,...,Xp的协方差矩阵Σ可逆,其特征值按从大到小排序为λ₁≥λ₂≥...≥λp>0。第一主成分PC₁的方差占总方差的比例为?A.λ₁/pB.λ₁/(λ₁+λ₂)C.λ₁/(总方差)D.λ₁/Σλᵢ3.设变量X和Y的皮尔逊相关系数rXY=0.6,样本量n=30。检验H₀:ρ=0vsH₁:ρ≠0的t统计量的值为?A.0.6B.1.095C.1.96D.sqrt(30)*0.64.对于给定的数据集,使用K-means聚类算法,若初始聚类中心选择不当,则可能导致的结果是?A.聚类内方差最小化不理想B.聚类数K的确定变得困难C.算法无法收敛D.聚类结果对噪声数据非常敏感5.在逻辑回归模型中,解释变量X对响应变量Y(二值)影响的方向和显著性应通过观察以下哪个统计量来判断?A.回归系数β₀B.回归系数β₁及其对应的z值或p值C.模型的似然比统计量D.模型的AIC值6.设有四个分类变量A,B,C,D,每个变量有3个水平。若要挖掘它们之间的频繁项集,使用Apriori算法时,最小支持度阈值设定为0.5(基于事务数),则下列哪个项集不可能被挖掘出来?A.{A₁,B₂}B.{A₁,C₁}C.{B₁,C₁,D₂}D.{A₂,B₁,C₃}7.对于一个线性回归模型Y=β₀+β₁X₁+β₂X₂+ε,若变量X₁和X₂之间存在高度线性相关,则可能导致的问题是?A.回归系数β₁和β₂的估计方差增大B.模型的R²值接近于0C.增加X₁或X₂的观测值会显著提高模型的预测精度D.模型无法通过F检验8.在进行数据降维时,因子分析相比于主成分分析,其主要关注点是?A.数据的方差最大化B.保留原始变量间的关系结构C.数据的重构质量D.变量的解释能力9.对于分类问题,使用混淆矩阵来评价模型性能时,Precision(精确率)的定义是?A.真正例TP/(真正例TP+假正例FP)B.真正例TP/(真正例TP+假反例FN)C.真正例TP/(真正例TP+假正例FP+假反例FN)D.真正例TP/(总样本数)10.若要检测数据集中是否存在异常值(离群点),以下哪种方法不适用于连续型数值变量?A.基于距离的方法(如IQR或Z-score)B.基于密度的方法(如DBSCAN)C.基于聚类的方法(如K-means的孤点)D.基于主成分分析的方法二、填空题(每小题2分,共20分。请将答案填写在答题纸上。)1.在假设检验中,第一类错误(α)是指假设H₀为真时,却错误地______了H₀。2.设X~N(μ,25),μ未知。检验H₀:μ≤100vsH₁:μ>100,若拒绝域为{样本均值>c},则在显著性水平α下,c的值由标准正态分布的______分位数确定。3.对于p个变量X₁,X₂,...,Xp的样本数据,进行因子分析时,因子载荷矩阵φ的元素φᵢⱼ表示第i个因子______与第j个原始变量Xⱼ之间的相关程度。4.在K-means聚类算法中,每个数据点被分配到距离其所属聚类中心______最远的聚类中的情况称为“ragged”结构。5.回归诊断中,通过绘制______图来检查线性回归模型的残差是否服从正态分布。6.若一个关联规则A→B的置信度(Confidence)为80%,意味着在所有包含A的事务中,有______%的事务同时包含B。7.判别分析的目标是找到一个或多个判别函数,使得根据这些函数计算的______能最大化类间差异并最小化类内差异。8.设样本X₁,X₂,...,Xn来自均匀分布U(θ,θ+1),其中θ未知。θ的矩估计量是______。9.在逻辑回归模型中,变量X的偏效应(即X变化一个单位对logit(p)的影响)等于______。10.在处理高维稀疏数据时,常见的降维技术除了主成分分析外,还有______。三、简答题(每小题5分,共25分。请将答案填写在答题纸上。)1.简述假设检验中p值的意义。2.解释什么是多重共线性,并简述其可能带来的问题。3.描述K-means聚类算法的基本步骤。4.在进行关联规则挖掘时,通常需要考虑哪些评价指标?简述其含义。5.简述线性回归模型进行模型诊断的主要目的和方法。四、计算题(每小题10分,共30分。请写出详细的计算步骤和结果。)1.从正态分布N(μ,4²)总体中抽取样本n=16,样本均值为x̄=55。检验H₀:μ=54vsH₁:μ≠54,使用显著性水平α=0.05。请计算检验统计量的值,并判断是否拒绝H₀。(假设总体方差已知)2.某研究收集了10对父子身高数据(单位:cm),计算得到父亲身高(X)和儿子身高(Y)的样本均值分别为170和175,样本标准差分别为8和9,样本相关系数r=0.6。求儿子身高对父亲身高的线性回归方程,并解释回归系数的含义。3.某数据集包含3个变量X₁(正态分布N(5,1)),X₂(均匀分布U(0,10)),X₃(伯努利分布P=0.3)。假设X₁,X₂,X₃相互独立。计算该数据集的样本均值向量和样本协方差矩阵。五、综合应用题(每小题15分,共30分。请写出详细的分析过程和结果。)1.假设某公司想要根据客户的年收入(X₁,单位:万元)和消费支出(X₂,单位:万元)来对客户进行聚类,以识别不同类型的客户。现有10个客户的数据如下:客户|年收入X₁|消费支出X₂---|---|---1|15|52|20|83|25|124|30|185|35|226|40|287|45|308|50|359|55|4010|60|48公司计划使用K-means算法进行聚类,初步设定K=3。请简述K-means算法聚类的主要步骤,并假设初始聚类中心由前三个客户的数据点构成,请完成第一轮的聚类分配和聚类中心更新计算。(无需进行完整的多次迭代)2.某电商网站希望挖掘顾客购买商品之间的关联关系,以提高交叉销售效率。收集了1000个顾客购买记录,每个记录是一个商品项集。通过Apriori算法发现了一个频繁项集L={商品A,商品B},其支持度为50%(即50%的购买记录包含A和B)。若该频繁项集对应的关联规则为“购买商品A的顾客中,有60%也购买了商品B”。请计算该关联规则的商品B对商品A的提升度(Lift)和置信度(Confidence),并简要解释这两个指标的经济学意义。试卷答案一、选择题1.B解析:拒绝域{|√n(样本均值-μ₀)/S|>c}中,√n(样本均值-μ₀)/S是t统计量,当μ=μ₀时,该统计量服从自由度为n-1的t分布。p值是观察到当前或更极端样本结果的概率,基于t分布计算。2.C解析:第一主成分PC₁的方差等于其对应的特征值λ₁。总方差是所有特征值之和Σλᵢ。因此,PC₁的方差占总方差的比例为λ₁/(Σλᵢ)。3.B解析:t统计量计算公式为t=r*sqrt((n-2))/sqrt(1-r²)。代入r=0.6,n=30,得t=0.6*sqrt(28)/sqrt(1-0.36)=0.6*sqrt(28)/sqrt(0.64)=0.6*sqrt(44)/0.8=0.6*2*sqrt(11)/0.8=1.2*sqrt(11)/0.8=1.5*sqrt(11)≈1.095。4.A解析:K-means算法的核心思想是将数据点分配到最近的聚类中心。若初始中心选择不当,可能导致某些距离所有中心都很远的点被错误地分配到距离稍远的中心,使得聚类内方差未能达到最小化。5.B解析:逻辑回归模型的系数β₁表示解释变量X对logit(p)=ln(p/(1-p))的线性影响。检验β₁的显著性(方向和大小)通常看其检验统计量(如z值)或对应的p值。z值越大(正负)或p值越小,表示X对Y的影响越显著(正向或负向)。6.C解析:项集{B₁,C₁,D₂}包含3个不同变量。最小支持度阈值为0.5。若要此项集被挖掘,则至少需要50%的事务同时包含B₁,C₁,D₂。对于有4个变量的情况,包含3个变量的项集的支持度通常远低于包含2个变量的项集(支持度至少为(0.5)^3=0.125)。而题目中的选项A、B是二元项集,支持度要求低得多(至少(0.5)^2=0.25)。选项D是三元项集,要求支持度至少为0.5。因此,三元项集的支持度要求最高,最不容易被挖掘出来(除非数据本身有强关联性)。但题目要求选出“不可能”,考虑到一般场景和Apriori算法的剪枝特性,三元项集比二项集更难满足高支持度。选项C的表述是“不可能”,在普遍理解下是正确的。7.A解析:当解释变量X₁和X₂高度线性相关时,它们提供了几乎相同的信息。在回归模型中,这会导致矩阵(X'X)接近奇异(行列式接近零),从而使得(X'X)的逆矩阵(Sigma²̂)的元素变得非常大。这会使得回归系数β₁和β₂的估计方差Var(β̂₁)和Var(β̂₂)增大,导致估计不稳定,置信区间变宽。8.B解析:主成分分析(PCA)主要关注数据的方差最大化,旨在将数据投影到低维空间,同时保留尽可能多的原始方差。因子分析(FA)则更侧重于解释原始变量之间的协方差或相关结构,认为这些协方差是由少数几个共同潜在因子(不可观测)引起的,因此更关注变量间的关系结构。9.A解析:Precision(精确率)衡量的是被模型预测为正类的样本中,实际为正类的比例。在混淆矩阵中,真正例(TP)是被预测为正类且实际为正类的样本数。假正例(FP)是被预测为正类但实际为负类的样本数。Precision=TP/(TP+FP)。10.D解析:基于距离的方法(如IQR、Z-score)通过计算点与数据中心或均值的距离来识别异常值。基于密度的方法(如DBSCAN)通过聚类来识别密度较低的点作为异常值。基于聚类的方法(如K-means的孤点)将不属于任何主要聚类的点视为异常值。主成分分析(PCA)主要用于降维和提取主要变异方向,其本身不直接提供检测异常值的标准或机制。虽然异常值可能表现为在主成分空间中的距离较远,但这不是PCA的原设计目的。二、填空题1.拒绝解析:第一类错误,又称假阳性错误,是在原假设H₀实际上为真的时候,我们却做出了拒绝H₀的决策。2.上侧(或右尾)解析:检验H₀:μ≤100vsH₁:μ>100是上侧检验。对于上侧检验,拒绝域在样本均值的右侧。当总体方差已知时,应使用标准正态分布Z来确定拒绝域的临界值。显著性水平α对应的临界值是标准正态分布的上侧α分位数。3.共同解析:因子载荷φᵢⱼ衡量了第i个因子与第j个原始变量之间的线性相关强度。更准确地说,它表示第j个原始变量在第i个因子上的“载荷”或“权重”,反映了两者之间的共同变异程度。4.最大解析:在K-means聚类算法的分配步骤中,每个数据点根据其与所有当前聚类中心的距离被分配到距离最近的聚类中心所在的簇。如果一个数据点距离其所属簇的中心非常远,即使距离其他簇的中心更近,它也可能被分配到该远距离的中心,形成“ragged”(参差不齐)的簇结构。5.残差解析:线性回归诊断中,残差是指观测值Yi与模型预测值Ŷi之间的差值(εᵢ=Yi-Ŷi)。检查残差的正态性有助于判断线性回归模型假设是否成立。Q-Q图(Quantile-Quantileplot)是常用的可视化工具。6.80解析:置信度(Confidence)是衡量关联规则A→B强度的一个指标,定义为P(B|A)=P(A∩B)/P(A)。题目中给出置信度为80%,即包含A的事务中,有80%的事务也包含B。7.类别可分性(或判别距离)解析:判别分析的目标是找到一个最优的线性组合(判别函数),使得不同类别的样本在判别函数定义的空间中能够被清晰地分开。这通常意味着最大化类间散度(差异)并最小化类内散度(相似性),从而提高模型的类别可分性。8.(X₁+X₂+...+Xn)/n解析:用矩估计法,令样本一阶矩等于总体一阶矩。总体期望E[θ]=E[θ+1]=E[θ]+1。样本均值E[样本均值]=(X₁+...+Xn)/n。令E[样本均值]=E[θ],则(X₁+...+Xn)/n=E[θ]。由于矩估计通常用样本矩代替总体矩,得到θ̂=(X₁+...+Xn)/n。也可以用样本中位数作为θ的估计,因为均匀分布U(θ,θ+1)的中位数为(θ+θ+1)/2=θ+1/2。但题目中样本均值的表达式更直接对应于矩估计。9.β₁*p(1-p)/p解析:逻辑回归模型为logit(p)=β₀+β₁X₁+...+βₚXₚ。对X₁求偏导,得到∂logit(p)/∂X₁=β₁。偏效应∂p/∂X₁=∂(exp(logit(p)))/∂X₁=exp(logit(p))*∂logit(p)/∂X₁=p*β₁。或者更常用的形式是∂log(p/(1-p))/∂X₁=β₁,即偏效应是logit(p)对X₁的偏导数。10.主成分分析(或PCA/降主成分分析)解析:主成分分析是另一种常用的降维技术,通过线性变换将原始高维变量组合成少数几个不相关的综合变量(主成分),这些主成分按方差大小排序,通常选择方差最大的几个保留,以达到降维目的。与主成分分析类似,降主成分分析(FactorAnalysisofMixedData)也用于降维,但通常处理混合类型变量(数值和分类)。三、简答题1.p值是在原假设H₀为真的前提下,能够观察到当前样本结果或更极端结果的概率。它衡量了样本结果与原假设之间的一致性程度。p值越小,说明在H₀成立时观察到当前样本结果的偶然性越小,因此越有理由拒绝H₀。2.多重共线性是指线性回归模型中的解释变量之间存在高度线性相关关系。例如,两个或多个自变量是另一个自变量的线性组合。问题在于:①回归系数的估计值对数据的微小变动非常敏感,估计方差会增大,导致统计推断(t检验、置信区间)不可靠,可能错误地判断某些自变量的显著性。②难以解释单个自变量的独立影响,因为它们之间信息重叠严重。③可能出现回归系数符号与预期相反的情况。通常使用方差膨胀因子(VIF)或相关系数矩阵来检测。3.K-means聚类算法的基本步骤如下:a.初始化:随机选择K个数据点作为初始聚类中心。b.分配:计算每个数据点到K个聚类中心的距离,将每个数据点分配给距离最近的聚类中心所属的簇。c.更新:对每个簇,计算该簇中所有数据点的均值,并将均值作为新的聚类中心。d.迭代:重复步骤b和c,直到聚类中心不再发生显著变化,或达到预设的最大迭代次数。e.结果:最终将数据点分为K个簇,每个簇由其对应的聚类中心代表。4.在进行关联规则挖掘时,通常需要考虑以下评价指标:a.支持度(Support):衡量项集在所有交易中出现的频率,即包含该项集的交易占所有交易的比例。公式为Support(A→B)=P(A∩B)。高支持度表示项集是普遍存在的。b.置信度(Confidence):衡量关联规则A→B的强度,即包含A的交易中同时包含B的比例。公式为Confidence(A→B)=P(B|A)=Support(A∩B)/Support(A)。高置信度表示规则A发生时,B发生的可能性大。c.提升度(Lift):衡量关联规则A→B的实用性,即包含A的交易中包含B的比例与B在所有交易中出现的概率之比。公式为Lift(A→B)=Support(A∩B)/(Support(A)*Support(B))。Lift>1表示规则A→B比随机情况下更常见,规则有正向预测价值;Lift<1表示规则A→B比随机情况下少见;Lift=1表示规则无预测价值。Lift排除了项集本身的支持度对规则强度的影响。d.覆盖度(Coverage):有时也用,表示规则A→B覆盖的交易数占所有交易数的比例。公式为Coverage(A→B)=Support(A∩B)/N(N为总交易数)。高覆盖度表示规则涉及的范围广。经济学意义:高支持度意味着关联商品是经常一起购买的,适合进行捆绑销售或促销。高置信度意味着购买A时购买B的可能性很高,适合在A商品附近推荐B商品。高提升度意味着A和B之间存在真实的协同购买关系,不仅仅是偶然,提升度越接近1,协同性越弱。5.线性回归模型进行模型诊断的主要目的在于检验模型的基本假设是否得到满足,以及模型是否适用于所给数据。主要方法包括:a.残差分析:检查残差(εᵢ=Yᵢ-Ŷᵢ)的性质。理想残差应满足:①误差项独立(Independence);②误差项具有恒定方差(同方差性Homoscedasticity),即残差图(如散点图)中残差随预测值变化不应呈现系统性模式;③误差项服从正态分布(Normality),可通过Q-Q图、直方图或Shapiro-Wilk检验检查。还可检查是否存在异常值(大残差、强杠杆点)。b.漏洞检查(Missingness):检查数据是否存在缺失值,以及缺失机制(随机/非随机),并选择合适的处理方法。c.多重共线性检查:检查解释变量之间是否存在高度线性相关,使用VIF等方法。d.非线性关系检查:检查是否存在未包含在模型中的变量交互作用或非线性项。e.异方差性/非正态性诊断:通过残差图、Breusch-Pagan检验、White检验等进行。四、计算题1.检验统计量Z=(x̄-μ₀)/(σ/√n)=(55-54)/(4/√16)=1/(4/4)=1。拒绝域为Z>Z_α/2=Z_0.025=1.96(上侧α/2分位数)。因为计算得到的Z统计量值1<1.96,所以不满足拒绝H₀的条件。结论:在α=0.05水平下,没有足够证据拒绝H₀,即不能认为μ>54。2.计算回归系数β₁:β̂₁=r*(sₚ/sₓ)=0.6*(9/8)=0.6*1.125=0.675。计算回归系数β₀:β̂₀=Ȳ-β̂₁X̄=175-0.675*170=175-114.75=60.25。线性回归方程为Ŷ=β̂₀+β̂₁X=60.25+0.675X。回归系数β₁的含义:父亲身高每增加1cm,儿子身高的预测值平均增加0.675cm。3.样本均值向量:X̄=(X₁̄,X₂̄,X₃̄)=(5,5,0.3)。样本协方差矩阵Σ̂=(ŝᵢⱼ)_(3x3),其中ŝᵢⱼ=[Σ(Xᵢᵏ-X̄ᵢ)(Xⱼᵏ-X̄ⱼ)]/(n-1)。ŝ₁₁=[Σ(X₁ᵏ-5)²]/9=[(15-5)²+(20-5)²+...+(60-5)²]/9=[100+225+...+2025]/9=[5525]/9≈614.44。ŝ₁₂=ŝ₂₁=[Σ(X₁ᵏ-5)(X₂ᵏ-5)]/9=[(15-5)(0-5)+...+(60-5)(48-5)]/9=[-25+...+2655]/9=[1980]/9=220。ŝ₁₃=ŝ₃₁=[Σ(X₁ᵏ-5)(X₃ᵏ-0.3)]/9=[(15-5)(0.3-0.3)+...+(60-5)(0.3-0.3)]/9=[0+...+0]/9=0。ŝ₂₂=[Σ(X₂ᵏ-5)²]/9=[(0-5)²+(10-5)²+...+(48-5)²]/9=[225+25+...+1936]/9=[5525]/9≈614.44。ŝ₂₃=ŝ₃₂=[Σ(X₂ᵏ-5)(X₃ᵏ-0.3)]/9=[(0-5)(0.3-0.3)+...+(48-5)(0.3-0.3)]/9=[0+...+0]/9=0。ŝ₃₃=[Σ(X₃ᵏ-0.3)²]/9=[(0.3-0.3)²+(0.3-0.3)²+...+(0.3-0.3)²]/9=[0+0+...+0]/9=0/9=0。因此,样本协方差矩阵为:Σ̂=|614.442200||220614.440||000|五、综合应用题1.K-means聚类步骤与计算:a.初始化:给定K=3,选择前三个客户的数据点作为初始聚类中心:C₁=(15,5),C₂=(20,8),C₃=(25,12)。b.第一轮分配:*计算10个点到C₁,C₂,C₃的距离(欧氏距离):*到C₁距离:√[(15-x₁)²+(5-x₂)²]*到C₂距离:√[(20-x₁)²+(8-x₂)²]*到C₃距离:√[(25-x₁)²+(12-x₂)²]*分配规则:将每个点分配给距离最近的中心。*分配结果(示例,实际计算需完成所有点):*客户1:距离(15,5)≈10.30,距离(20,8)≈8.60,距离(25,12)≈15.81->分配到C₂*客户2:距离(15,5)≈11.40,距离(20,8)≈√(0²+2²)=2.00,距离(25,12)≈17.60->分配到C₂*客户3:距离(15,5)≈13.00,距离(20,8)≈9.00,距离(25,12)≈√(0²+4²)=4.00->分配到C₂*客户4:距离(15,5)≈17.00,距离(20,8)≈15.00,距离(25,12)≈11.40->分配到C₃*客户5:距离(15,5)≈19.10,距离(20,8)≈17.40,距离(25,12)≈7.00->分配到C₃*客户6:距离(15,5)≈21.20,距离(20,8)≈20.00,距离(25,12)≈10.00->分配到C₃*客户7:距离(15,5)≈25.00,距离(20,8)≈24.00,距离(25,12)≈13.00->分配到C₃*客户8:距离(15,5)≈27.00,距离(20,8)≈26.00,距离(25,12)≈16.00->分配到C₃*客户9:距离(15,5)≈29.00,距离(20,8)≈28.00,距离(25,12)≈19.00->分配到C₃*客户10:距离(15,5)≈30.00,距离(20,8)≈29.00,距离(25,12)≈22.00->分配到C₃*分配结果汇总(示例):*簇1(C₂):客户1,2,3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论