版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
📘机器学习习题·详细解答第1章机器学习概述1.机器学习的发展历史上有哪些主要事件?1950年图灵测试提出,奠定智能标准;1956年达特茅斯会议提出“人工智能”概念;1969年Minsky与Papert出版《Perceptrons》指出单层感知机局限;1982年Hopfield网络引入能量函数;1986年Rumelhart等推广反向传播算法,使多层网络训练成为可能;1995年Vapnik提出支持向量机(SVM),成为统计学习里程碑;1997年IBM深蓝战胜国际象棋冠军;2006年Hinton提出深度信念网络预训练,开启深度学习;2012年AlexNet在ImageNet夺冠,GPU加速深度学习爆发;2016年AlphaGo战胜李世石,强化学习结合深度网络震惊世界;2018年BERT预训练模型刷新NLP纪录;2022年ChatGPT引发大语言模型浪潮。2.机器学习有哪些主要的流派?它们分别有什么贡献?①符号主义:以决策树、归纳逻辑为代表,贡献在于可解释性强,能产生显式规则(如ID3、C4.5)。②连接主义:以神经网络为核心,贡献是自动特征提取、端到端学习,催生了深度学习。③统计学习:以SVM、核方法为代表,提供严谨的泛化理论和优化方法(VC维、结构风险最小化)。④贝叶斯学派:利用先验知识进行不确定性推理,贡献如朴素贝叶斯、贝叶斯网络、高斯过程。⑤进化计算与群体智能:如遗传算法、粒子群,贡献在优化和自动设计。⑥强化学习:通过与环境交互学习策略,贡献在序列决策、博弈(AlphaGo、机器人控制)。各流派相互融合,共同推动机器学习发展。3.简述机器学习与人工智能的关系。人工智能是研究使机器模拟人类智能的广泛领域,机器学习是人工智能的一个核心子领域,专注于让计算机从数据中自动学习模式和规律。早期人工智能依赖符号逻辑和专家系统,但泛化能力有限;机器学习(尤其是深度学习)使得计算机视觉、自然语言处理等任务取得突破,如今绝大多数人工智能应用背后都依赖机器学习模型。可以说机器学习是实现现代人工智能最重要的途径。4.简述机器学习与数据挖掘的关系。数据挖掘是从大量数据中提取隐含的、未知的、有潜在价值的知识的过程,而机器学习提供实现这一过程的算法技术。二者目标高度重叠:机器学习模型(分类、聚类、关联规则)是数据挖掘的核心工具;数据挖掘中的预处理、特征工程、评估方法也为机器学习服务。数据挖掘更强调知识的可解释性,机器学习更关注预测精度。在实际应用中,两者常被互换使用,但数据挖掘还包含数据库、可视化等环节。5.机器学习有哪些常见的应用领域?举例说明其应用。①计算机视觉:人脸识别(手机解锁)、物体检测(自动驾驶)、医学图像分析(癌症筛查)。②自然语言处理:机器翻译(GoogleTranslate)、情感分析(舆情监控)、聊天机器人。③推荐系统:电商(Amazon商品推荐)、视频(抖音、Netflix)。④金融风控:信用评分、反欺诈(异常交易检测)。⑤医疗健康:疾病预测、药物研发。⑥工业制造:缺陷检测、预测性维护。⑦智慧农业:作物产量预测、病虫害识别。⑧游戏博弈:AlphaGo、Dota2AI。⑨自动驾驶:环境感知、路径规划。⑩科学计算:蛋白质结构预测(AlphaFold2)。6.机器学习能解决哪些问题?解决每一类问题常用的方法有哪些?举例说明其应用。①分类问题:预测离散类别。常用方法:逻辑回归、决策树、SVM、神经网络、朴素贝叶斯。应用:垃圾邮件分类(二分类)、手写数字识别(多分类)。②回归问题:预测连续值。常用方法:线性回归、岭回归、决策树回归、支持向量回归(SVR)、神经网络。应用:房价预测、股票价格预测。③聚类问题:无监督分组。常用方法:K-means、DBSCAN、层次聚类、高斯混合模型。应用:用户分群、图像分割。④降维问题:减少特征维度。常用方法:PCA、t-SNE、自编码器。应用:高维数据可视化、特征压缩。⑤关联规则挖掘:发现物品间共现关系。常用方法:Apriori、FP-growth。应用:购物篮分析(啤酒与尿布)。⑥序列预测:时间序列或顺序数据。常用方法:RNN、LSTM、Transformer。应用:股票预测、文本生成。⑦强化学习:序贯决策问题。常用方法:Q-learning、DQN、PPO。应用:机器人控制、游戏AI。7.举例说明机器学习的流程,并举例说明各步骤的操作方法。以“电商客户流失预测”为例:①业务理解:明确目标是预测高流失风险客户。②数据收集:提取近一年用户日志、订单记录、客服交互数据。③数据清洗:处理缺失值(用中位数填充)、剔除异常订单金额。④特征工程:构造最近一次购买间隔、平均客单价、投诉次数、登录频率;对类别变量做one-hot编码。⑤特征选择:基于随机森林重要性或互信息筛选top20特征。⑥模型选择与训练:比较逻辑回归、XGBoost、LightGBM,用网格搜索调参。⑦模型评估:采用5折交叉验证,以AUC、召回率(对流失客户)为主要指标。⑧模型部署:将最佳模型封装为API,集成到CRM系统,每周预测并推送名单。⑨监控与维护:监控预测分布变化,每月重新训练,保持模型时效性。8.讨论数据数量和质量对机器学习的影响。数据数量:通常更多数据能提升模型泛化能力,尤其对复杂模型(深度学习)至关重要。但若数据量过少,模型易过拟合。数据质量:噪声、缺失值、不一致标签会严重降低模型性能。例如错误标注的图像会导致分类器学习错误模式;数据偏差(如采样偏差)会使模型在真实场景失效。数据清洗、增强、平衡采样是保证质量的关键。高质量的小数据有时比低质量的大数据更有价值。因此,机器学习项目应同时注重数据量扩充和质量控制。9.讨论深度学习的发展对机器学习的意义。深度学习通过多层神经网络自动从原始数据中学习层次化特征,极大减少手工特征工程,使机器学习在图像、语音、文本等领域的性能大幅提升。它推动了端到端学习范式,让模型可以直接从原始像素、音频波形中学习。同时,深度学习促进了硬件(GPU、TPU)的进步,以及开源框架(TensorFlow、PyTorch)的普及。它的成功也带动了机器学习在其他科学领域的应用(如AlphaFold2)。但深度学习也带来可解释性差、数据需求大等问题,促使机器学习社区探索更多方向(如自监督学习、小样本学习)。10.讨论目前机器学习应用中存在的主要问题。①可解释性不足:深度模型作为黑箱,在医疗、金融等高信任领域难以被接受。②数据偏见与公平性:训练数据可能包含社会偏见,导致模型歧视(如种族、性别)。③鲁棒性脆弱:对抗样本可轻易欺骗模型。④数据分布漂移:训练与部署环境不同,模型性能下降。⑤数据隐私与安全:模型可能泄露训练数据隐私。⑥能耗问题:训练大模型消耗大量能源。⑦模型复杂度与部署成本矛盾:边缘设备难以承载大模型。⑧缺乏常识与因果推理:当前模型主要基于相关性,难以实现真正智能。针对这些问题,研究界正在探索可解释AI、联邦学习、对抗训练、因果推断等方向。11.依据机器学习的发展过程讨论其未来的发展方向。从早期的符号学习、统计学习到深度学习,再到当前的大模型,未来趋势包括:①自监督学习与基础模型:利用海量无标签数据学习通用表示(如GPT、BERT)。②可解释性与因果机器学习:使模型不仅相关而且能推理因果。③小样本与零样本学习:减少对大规模标注的依赖。④多模态学习:融合文本、图像、语音等多种信息。⑤强化学习与真实世界交互:机器人、自动驾驶需要更高效的在线学习。⑥联邦学习与隐私计算:在不共享数据的情况下联合建模。⑦神经符号系统:结合神经网络与符号推理,增强逻辑能力。⑧绿色AI:降低训练和推理能耗。⑨与科学领域深度融合(AIforScience)。
第2章数据预处理与特征工程1.什么是标准差、方差和协方差?它们反映了数据的什么内容?方差是每个样本与均值差的平方的平均值,即σ²=(1/n)∑(xᵢ-μ)²,衡量数据的离散程度(波动大小)。标准差是方差的平方根,与原数据同量纲,更直观描述数据围绕均值的散布。协方差衡量两个变量之间的线性关系方向及强度:Cov(X,Y)=(1/n)∑(xᵢ-μₓ)(yᵢ-μᵧ)。若协方差为正,表示X增大时Y也倾向于增大;为负则反向。协方差绝对值越大,线性相关性越强。但协方差受量纲影响,通常用相关系数标准化。2.如何利用均值和标准差判断数据的异常值?常用方法是基于正态分布的3σ原则:如果数据近似正态分布,那么大约99.7%的数据落在均值±3倍标准差范围内,超出该范围的点视为异常值。另一种是Z-score方法:计算每个点的Z-score=(x-μ)/σ,若|Z|>3(有时用2.5或3.5),则标记为异常。该方法对单变量有效,但要求数据分布大致对称且无重尾。对于偏态分布,可使用修改的Z-score(基于中位数和MAD)。实际中还需结合业务背景判断。3.何为正则化?其功能是什么?正则化是在损失函数中加入模型参数的惩罚项,以限制模型复杂度,防止过拟合。常用形式:L1正则化(Lasso)惩罚参数绝对值之和,可使部分参数为零,产生稀疏解,用于特征选择;L2正则化(Ridge)惩罚参数平方和,使参数值变小但不为零,平滑权重,提升泛化。功能:降低模型方差,提高在测试集上的表现,同时可能改善优化问题的适定性。在神经网络中,正则化还包括Dropout、早停等。4.常见的概率分布有哪些?①离散型:伯努利分布(单次二项)、二项分布(n次独立伯努利)、多项分布、泊松分布(计数事件)、几何分布(首次成功次数)、超几何分布(不放回抽样)。②连续型:均匀分布、正态分布(高斯分布)、指数分布(生存分析)、伽马分布、贝塔分布(概率的先验)、威布尔分布、对数正态分布。③多元分布:多元正态分布、狄利克雷分布(多项分布的共轭先验)。不同分布用于不同数据建模,如泊松适合计数数据,指数适合时间间隔。5.损失函数的含义和作用是什么?损失函数(LossFunction)度量模型预测值f(x)与真实值y之间的不一致程度,通常为非负函数。在训练中,通过最小化损失函数来更新模型参数。常见损失:回归问题用均方误差MSE=(1/n)∑(yᵢ-ŷᵢ)²,平均绝对误差MAE;分类问题用交叉熵损失(对数损失),Hingeloss(SVM),指数损失(AdaBoost)。损失函数不仅驱动模型学习,还影响模型鲁棒性和优化难度。6.训练误差如何度量和减少?训练误差是模型在训练集上的平均损失,度量方式与损失函数一致。减少训练误差的方法:增加模型复杂度(如增加神经网络层数/节点数、决策树深度)、引入更多特征、减少正则化强度、训练更长时间(早停之前)、使用集成学习(Boosting)。但过度追求训练误差小易导致过拟合,因此需要验证集监测泛化误差。7.如何理解L0、L1和L2正则化?L0范数指向量中非零元素的个数,L0正则化直接约束非零参数数量,可实现特征选择,但组合优化NP难,实际少用。L1正则化(Lasso)是L0的最优凸近似,惩罚绝对值之和,由于在零点不可导,能产生稀疏解,将不相关特征权重压缩为零。L2正则化(Ridge)惩罚平方和,使权重整体变小但不为零,保留所有特征,对多重共线性有稳定作用。L1与L2结合称为弹性网络。8.什么是交叉验证?常用的交叉验证方法有哪些?交叉验证是一种评估模型泛化性能的统计学方法,通过将数据集划分为互补子集,多次训练验证,避免单次划分的偶然性。常用方法:①k折交叉验证:将数据等分k份,轮流用k-1份训练,1份验证,取k次结果平均。k常取5或10。②留一法(LOOCV):每个样本单独作验证集,适合小样本。③分层k折:保证每折中类别比例与原数据集一致,用于分类任务。④重复随机子抽样:多次随机划分训练/验证集,取平均。⑤时间序列交叉验证:按时间顺序滚动验证。9.如何评价一个算法的性能?评价需根据任务类型选择指标:①分类:准确率、精确率、召回率、F1-score、ROC-AUC、PR-AUC、混淆矩阵。多类常用宏平均/微平均。②回归:均方误差MSE、均方根误差RMSE、平均绝对误差MAE、R²决定系数。③聚类:轮廓系数、Calinski-Harabasz指数、调整兰德指数(有真值)。④排序:NDCG、MAP。⑤时间与资源消耗:训练/推理时间、内存占用。同时需考虑模型稳定性、可解释性,并通过交叉验证、A/B测试最终确认。10.数据降维有哪些常用的方法?①线性方法:主成分分析(PCA)、线性判别分析(LDA)、因子分析、多维缩放(MDS)。②非线性方法:核主成分分析(KPCA)、t分布随机邻域嵌入(t-SNE)、均匀流形近似与投影(UMAP)、局部线性嵌入(LLE)、拉普拉斯特征映射(LE)、自编码器(Autoencoder)。降维目的:可视化、去噪、压缩、加速模型训练、避免维数灾难。11.举例解释PCA。PCA通过正交变换将原始特征转换为一组线性不相关的新特征(主成分),第一主成分具有最大方差,后续主成分依次递减。例如有100维人脸像素数据,通过PCA得到前50个主成分保留了95%的方差,可用于人脸识别降维。具体步骤:数据中心化、计算协方差矩阵、特征值分解、取前k个最大特征值对应的特征向量组成投影矩阵。PCA可消除特征间的相关性,常用于数据预处理。12.LDA的基本思想是什么?举例说明其应用。LDA(线性判别分析)是有监督降维方法,旨在找到一个投影方向,使得类内离散度(同类样本方差)尽可能小,类间离散度(各类别均值距离)尽可能大,即最大化广义瑞利商。应用:人脸识别(Fisherfaces),将高维像素投影到低维判别空间(C-1维,C为类别数),然后分类。例如在面部识别中,不同人脸的类内差异(光照、表情)被压制,类间差异(身份)被放大,提升识别准确率。13.举例说明LLE的应用。LLE(局部线性嵌入)是一种非线性降维方法,假设每个点可由其邻域点线性重构,并保持该重构关系在低维空间中不变。应用:手写数字数据集MNIST,用LLE将784维降到2维,可以观察到不同数字在二维空间中形成流形结构,0、6、9等相似数字距离较近,用于可视化高维流形结构。也可用于图像聚类、异常检测的前处理。14.LE的功能是什么?LE(拉普拉斯特征映射)通过构建近邻图,计算图的拉普拉斯矩阵,求解广义特征值问题,得到低维嵌入表示,使原空间中邻近的点在低维空间中也接近。功能:数据可视化、半监督学习、谱聚类的基础。例如对高维基因表达数据,LE降维后能揭示细胞亚型结构。15.为什么要考虑特征提取?原始数据往往包含冗余、噪声和高维特征,直接建模可能导致过拟合、计算量大、难以解释。特征提取通过变换或组合原始特征生成更有信息量的新特征,实现:①降维,减少计算成本;②去除噪声,提升泛化;③发现更具物理意义的表示(如PCA提取主成分);④增强可解释性;⑤满足某些算法对独立性的要求。因此特征提取是机器学习流程的关键步骤。16.特征构造有哪些常用的方法?①统计特征:均值、标准差、偏度、峰度、分位数。②时间特征:滞后值、滑动窗口统计、差分、季节性成分。③交叉特征:特征乘积、相加、比值(如A/B)。④多项式特征:原始特征的幂次组合(如x₁²,x₁x₂)。⑤分箱/离散化:连续值分段成类别。⑥文本特征:TF-IDF、词向量、主题模型。⑦图像特征:SIFT、HOG、深度特征。⑧领域特定特征:RFM(最近一次消费、频率、金额)。⑨特征哈希:将高维类别特征压缩为低维。⑩嵌入特征:通过神经网络(如Word2vec)学习。17.特征提取有哪些常用的方法?举例说明其应用。①PCA:提取主成分,用于降噪、压缩(如人脸识别)。②LDA:提取判别成分,用于分类前降维。③ICA(独立成分分析):提取独立源信号,用于盲源分离(如鸡尾酒会问题)。④自编码器:深度学习提取非线性特征,用于异常检测。⑤潜在语义分析(LSA):对文档-词矩阵SVD分解,提取主题特征。⑥t-SNE/UMAP:提取2D/3D特征用于可视化。例如,用预训练CNN提取图像深度特征,再用于小数据集分类。18.线性回归的过程是什么?举例说明其应用。线性回归假设因变量y与自变量X存在线性关系:y=Xβ+ε。过程:①收集数据(X,y);②定义损失函数为均方误差MSE;③求解参数β使损失最小,可用最小二乘法得解析解β=(XᵀX)⁻¹Xᵀy,或梯度下降迭代求解;④模型评估(R²,残差分析)。应用:预测房价,特征包括房屋面积、卧室数、位置评分等,通过历史数据训练回归模型,预测新房屋价格。19.逻辑回归为什么可以预测新样本的类别?举例说明其应用。逻辑回归虽名为“回归”,但用于分类。它通过sigmoid函数σ(z)=1/(1+e⁻ᶻ)将线性组合z=wX+b映射到[0,1]区间,输出视为正类概率p(y=1|X)。设置阈值(通常0.5),若p≥0.5则判为正类,否则负类。训练时用极大似然估计(最小化交叉熵损失)。应用:信用评分中,根据用户收入、负债、历史还款记录预测违约概率,若概率大于0.3(根据业务调整)则拒贷。20.举例说明QDA的功能。QDA(二次判别分析)假设每类的特征服从多元高斯分布,且各类可拥有不同的协方差矩阵,因此决策边界是二次的。相比LDA(假设相同协方差),QDA更灵活,适合各类别散布结构差异较大的情况。应用:语音识别中,不同音素(如元音和辅音)的声学特征协方差差异大,QDA能更好区分;在手写数字识别中,某些数字(如“1”和“7”)特征分布形态不同,QDA可提高准确率。21.在机器学习流程的每个阶段,可视化起到什么作用?举例说明。①数据探索阶段:用散点图发现离群点、用直方图观察分布、用箱线图对比特征。②特征工程阶段:相关性热图帮助筛选特征;特征与目标变量的关系图(如偏依赖图)指导特征构造。③模型选择阶段:学习曲线(训练/验证误差随样本量变化)判断过拟合;验证曲线(参数调优)显示参数影响。④模型评估阶段:混淆矩阵可视化分类性能;ROC曲线比较多个模型;残差图检查回归假设。⑤模型部署后:用控制图监控预测漂移。例如,用t-SNE可视化深度特征,可观察类别是否可分,从而决定是否增加网络复杂度。22.为什么可视化分析可以视为一种机器学习方法?可视化分析通过图形展示数据内在结构、模式和异常,帮助人脑理解数据,从而直接产生规则或指导建模。它与自动机器学习形成互补:交互式可视化支持人在回路,快速迭代特征选择、模型诊断。例如,通过平行坐标图发现高维分类规律,可手动设计特征;利用聚类结果的二维投影调整算法参数。因此可视化不仅是展示工具,也是探索性建模的重要组成部分,可视为一种辅助机器学习的方法。23.结合实例讨论可视化分析与其他机器学习方法的结合。以训练深度神经网络为例:训练过程中,用TensorBoard可视化损失曲线和梯度分布,可及时发现梯度消失或爆炸,调整学习率或网络结构。另外,用t-SNE将最后一层特征降至2维,可视化各类别样本的分离情况,若混叠严重,考虑增加类别权重或改进网络。在信贷风控中,用shap力图展示XGBoost对每个样本的预测解释,结合特征分布箱线图,发现异常拒贷案例。这些结合提升了模型的可解释性和调试效率。
第3章分类与集成学习1.分类解决什么问题?分类是监督学习的核心任务,旨在根据输入特征将样本划分到预定义的类别中。典型问题包括:二分类(是/否)、多分类(手写数字0-9)、多标签分类(一篇文章可同时属于多个主题)。分类算法输出离散标签或概率分布,广泛用于垃圾邮件检测、图像识别、医疗诊断、客户流失预测等。2.常用的分类算法有哪些?举例说明其应用。①逻辑回归:用于广告点击率预测(在线广告)。②决策树:用于银行信用评估(可解释规则)。③随机森林:用于生物信息学(基因分类)。④支持向量机(SVM):用于文本分类(新闻分类)。⑤K近邻(KNN):用于推荐系统中的兴趣点推荐。⑥朴素贝叶斯:用于垃圾邮件过滤。⑦神经网络(CNN/RNN):用于图像分类、语音识别。⑧XGBoost/LightGBM:广泛用于数据挖掘比赛、金融风控。例如,XGBoost在电信客户流失预测中常取得最优性能。3.简述决策树的生成过程。决策树生成采用递归分治策略:从根节点开始,选择最优划分特征(如信息增益最大、基尼系数最小),将数据集分割为子集;对每个子节点重复上述过程,直到满足停止条件(如节点样本数小于阈值、纯度已高或无可用特征)。最终形成一颗树,每个叶节点对应一个类别(分类树)或数值(回归树)。算法需防止过拟合,通常结合剪枝。4.总结常用的决策树算法C5.0、CART等的划分度量指标。ID3使用信息增益(基于熵);C4.5使用信息增益率,克服信息增益对多值特征的偏向;C5.0在C4.5基础上引入Boosting、更高效内存;CART分类树采用基尼系数(Giniimpurity),回归树采用均方误差(MSE)。信息增益率=增益/分裂信息,基尼系数=1-∑p²,值越小纯度越高。5.举例说明连续属性离散化的几种方法。①等宽法:将年龄分为[0,10),[10,20),…(区间宽度相等),但可能样本不均。②等频法:按样本数量均分,每个区间包含相同数量样本,如按收入分位点。③聚类法:用K-means对数值聚类,每个簇作为一个离散值(如将消费金额聚为低、中、高三档)。④基于熵的方法:如使用信息熵增益最大化,递归划分最佳分裂点(类似于决策树分裂连续属性)。例如对“温度”特征,通过计算每个分裂点前后信息增益,选择最佳阈值离散化。6.什么是过拟合问题?如何判断是否过拟合?过拟合指模型在训练数据上表现极好(如损失几乎为零),但在未见过的测试数据上表现差,泛化能力弱。原因:模型过于复杂,学到了数据中的噪声和细节。判断方法:①训练误差持续下降,而验证误差先降后升(出现拐点)。②模型权重过大或决策树过深。③学习曲线中训练集和验证集之间的差距随着样本量增加而扩大。④在测试集上性能显著低于训练集。7.如何防止过拟合?①增加训练数据(数据增强)。②降低模型复杂度:减少网络层数、限制决策树深度、剪枝。③正则化:L1/L2、Dropout、EarlyStopping。④集成学习:Bagging(随机森林)降低方差。⑤特征选择,减少冗余特征。⑥数据清洗,去除异常噪声。⑦交叉验证调整超参数。⑧在神经网络中使用BatchNormalization也有轻微正则效果。8.在决策树的训练过程中,如何通过剪枝防止过拟合?举例说明。剪枝分为预剪枝和后剪枝。预剪枝:在树生成过程中提前停止分裂,例如限制最大深度(max_depth=5)、最小节点样本数(min_samples_split=20)。后剪枝:先充分生长树,然后自底向上评估,若将某子树替换为叶节点能提升验证集精度,则剪掉。例如CART采用代价复杂度剪枝,生成一系列不同α的子树,用交叉验证选择最佳子树。实例:在鸢尾花数据集上,预剪枝限制深度为3,防止对噪声过拟合。9.决策树的学习质量如何评价?①预测性能:使用测试集上的准确率、精确率/召回率、F1、AUC(分类);MSE、R²(回归)。②模型复杂度:树的深度、叶子节点数、节点分裂数,复杂度低通常泛化更好。③可解释性:规则是否简洁易懂。④稳定性:在不同训练子集上树的波动性。⑤通过交叉验证综合评估,避免单次划分的偶然性。10.ROC曲线如何绘制?它的主要功能是什么?ROC曲线以假阳性率(FPR,即1-特异性)为横轴,真阳性率(TPR,即召回率)为纵轴,通过改变分类阈值(如概率阈值)得到一系列点并连线。绘制步骤:①对测试集预测概率排序;②从高到低依次将每个样本阈值作为分类界限,计算TPR和FPR;③连接各点成曲线。功能:直观比较分类器性能,曲线越靠近左上角性能越好;还可通过曲线形状分析模型是否平衡敏感性与特异性,常用于医疗、风控领域。11.AUC与ROC曲线的关系是什么?AUC(AreaUnderCurve)是ROC曲线下的面积,通常介于0.5到1之间。AUC量化了模型的平均性能:AUC越大,模型将正类排在负类前面的能力越强,即区分正负样本的能力越好。AUC=1表示完美分类器;AUC=0.5相当于随机猜测。AUC不依赖于分类阈值,因此常作为模型选择的指标,尤其当类别不平衡时比准确率更鲁棒。12.举例说明k折交叉验证法的应用。在模型调参时,将数据集分为5折(k=5),依次用4折训练1折验证,计算5次验证指标的平均值。例如,用网格搜索寻找SVM的最优C和gamma,每次参数组合都进行5折交叉验证,选择平均准确率最高的参数。这样可以避免过拟合到单一验证集,更准确评估泛化能力。在Kaggle比赛中,常使用5折或10折交叉验证来验证模型稳定性。13.集成学习的基本原理是什么?举例说明集成学习的应用。集成学习通过构建并结合多个基学习器来完成学习任务,通常能获得比单一学习器更优的泛化性能。原理:基学习器应“好而不同”,即准确率>0.5且存在多样性。集成方法主要分三类:Bagging(并行,降低方差,如随机森林)、Boosting(串行,降低偏差,如AdaBoost、GBDT)、Stacking(结合多个模型输出作为元特征)。应用:随机森林用于基因表达数据分类,准确率高于单决策树;XGBoost在购物者意图预测比赛中夺冠;Stacking常作为竞赛上分利器。14.讨论GBDT算法、XGBoost算法的步骤以及应用。GBDT(梯度提升决策树)迭代训练回归树:初始化模型为常数;每一轮计算当前损失函数的负梯度(伪残差);用回归树拟合伪残差;更新模型(加上学习率×新树)。XGBoost是对GBDT的优化:①损失函数二阶泰勒展开,更精确;②加入正则项(叶子节点数、L2平滑)控制复杂度;③列采样、近似分位数加速;④支持并行(特征块存储);⑤处理缺失值自动学习方向。应用:GBDT广泛应用于搜索排序、金融风控;XGBoost在Kaggle、KDD杯等竞赛中占主导,例如预测客户购买意向、广告点击率。15.以随机森林为例,讨论集成学习能否提高分类模型的性能。随机森林通过Bagging(自助采样)构建多棵决策树,每棵树在随机选取的特征子集上分裂,最终投票或平均。实验表明,随机森林通常优于单棵决策树,因为:①降低了模型方差,对噪声和异常值更鲁棒;②随机特征选择使树之间相关性降低,集成效果更好;③能处理高维数据,并给出特征重要性。例如在UCI“手写数字”数据上,随机森林比CART准确率提升约3%-5%,证明了集成学习的有效性。16.举例说明本章介绍的几种决策树算法在实际分类项目中的应用。以银行信贷审批为例:使用CART决策树构建初始信用评分卡,规则如“收入<5万且负债率>0.4则拒绝”,易于解释。为进一步提高准确率,用随机森林集成模型,对高风险客户二次筛选。同时用XGBoost挖掘非线性特征,预测违约概率,将概率作为评分卡补充。在医疗诊断中,C5.0算法用于乳腺癌检测,基于细胞核特征生成诊断规则,辅助医生决策。
第4章聚类分析1.聚类分析的目的是什么?将无标签数据划分为若干个簇,使得同一簇内样本尽可能相似(距离小),不同簇样本尽可能差异大。用于探索数据内在结构、数据压缩、异常检测、作为监督学习的预处理等。2.讨论聚类与分类的关系。分类是有监督学习,需要事先定义类别标签;聚类是无监督学习,自动发现类别。两者可结合:聚类结果可辅助人工标注(半监督),分类模型可对聚类结果进行评估。许多聚类算法(如K-means)可用于分类问题的特征工程。3.聚类分析常见的应用领域有哪些?市场细分(客户分群)、图像分割、基因表达数据分析、文本主题聚类、社交网络社区发现、异常检测(识别离群点)、推荐系统(用户兴趣分组)。4.常见的聚类算法有哪些?这些算法分别适用于什么场合?①K-means:适用于大型、凸形簇、各向同性的数据。②层次聚类:适用于小样本、需要层次结构的场景。③DBSCAN:适用于任意形状、含噪声的数据,且不需预知簇数。④谱聚类:适用于非凸簇、图结构数据。⑤高斯混合模型(GMM):适用于软聚类、各向异性的簇。⑥均值漂移:适用于密度峰值检测,不需指定簇数。5.评价聚类算法的好坏可以从哪些方面入手?①内部指标:轮廓系数(-1~1)、Davies-Bouldin指数(越小越好)、Calinski-Harabasz指数(越大越好),无需真实标签。②外部指标:调整兰德指数(ARI)、互信息(NMI)、纯度,需已知真实类别。③稳定性:多次运行结果的一致程度。④可扩展性:处理大数据的能力。⑤可解释性:簇中心的含义。6.在聚类分析中,样本之间的距离常用的计算方法有哪些?连续数据:欧氏距离(最常用)、曼哈顿距离、切比雪夫距离、马氏距离(考虑协方差)。文本数据:余弦相似度(夹角余弦)。分类数据:汉明距离、简单匹配系数。混合数据:Gower距离。集合数据:Jaccard距离、Dice系数。需根据数据类型和分布选择合适的度量。7.简要说明基于划分的聚类算法的基本原理。给定簇数k,先初始化k个中心点,然后迭代:①计算每个样本到各中心的距离,划分到最近中心;②重新计算每个簇的中心(如均值)。重复直至中心变化小于阈值或达到最大迭代。代表:K-means、K-medoids、K-modes。目标是使簇内平方误差和(SSE)最小。8.k均值算法的簇数量k如何确定?常用方法:①肘部法则:绘制不同k对应的SSE(误差平方和),选择SSE下降变缓的拐点。②轮廓系数:计算不同k的平均轮廓系数,选择最大值的k。③Gap统计量:比较真实数据与均匀分布数据的SSE差异。④结合业务理解:如用户分群希望分为高、中、低三档。⑤层次聚类树状图辅助观察。9.讨论k个初始簇中心位置对k均值算法的影响。初始中心选择不当可能导致:①收敛到局部最优,而非全局最优;②不同初始点产生不同聚类结果;③某些簇初始为空;④收敛速度慢。改进:①多次随机初始化,选SSE最小的结果;②K-means++,使初始中心尽量分散,提高稳定性;③先用层次聚类确定初始中心。10.举例讨论k均值算法的应用。电商用户分群:使用RFM特征(最近消费间隔、频率、金额),标准化后输入K-means(k=4),得到四类用户:高价值忠诚用户、潜力用户、即将流失用户、低活跃用户。针对不同群体采取不同营销策略,提升转化率。应用时需注意特征标准化,防止量纲影响。11.k-medoids算法和k-prototypes算法对k均值算法做了哪些改进?k-medoids(如PAM)选用簇内实际样本点(medoid)作为中心,对噪声和异常值鲁棒,但计算复杂度更高。k-prototypes结合K-means和K-modes,能同时处理数值和分类数据,代价函数是数值距离(欧氏)与分类差异(汉明)的加权和。改进:扩展了K-means的应用范围。12.简述DBSCAN算法的思想。DBSCAN基于密度:定义邻域半径ε和最少点数MinPts。核心点:在ε邻域内至少包含MinPts个点。由核心点出发,将其邻域内的点加入同一簇,并递归地扩展密度相连的点。最终形成任意形状的簇,未归入任何簇的点视为噪声。优点:自动发现簇数,识别离群点。13.讨论DBSCAN算法的几个参数如何选择。ε可通过k距离图(计算每个点到第k近邻的距离,排序后取拐点对应的距离)确定,k通常取MinPts。MinPts一般设为数据维度的2倍或经验值(如10)。密度不均时,可设置全局参数或使用OPTICS。参数选择对结果影响大,需结合业务调整。14.举例说明DBSCAN算法的应用。地理空间数据挖掘:根据GPS轨迹点聚类,识别城市热点区域(商圈、景点)。DBSCAN能处理不规则形状,自动过滤稀疏噪声点。例如对某市出租车上下客点聚类,发现实际热门区域,为城市规划提供依据。15.简述OPTICS算法的原理以及适用场合。OPTICS不显式生成聚类,而是生成增广簇排序,通过可达距离图反映不同密度的聚类结构。它避免了DBSCAN需指定全局ε的弱点,适用于密度分布不均匀、多尺度数据。用户可从可达距离图中“提取”任意密度的簇。常用于空间数据、复杂分布数据集。16.简述基于层次的聚类的思想。通过构建树状结构(树状图)来表示数据间的层次关系。凝聚型(AGNES):自底向上,初始每个样本为一个簇,每次合并最近的两个簇,直至所有样本合为一簇。分裂型(DIANA):自顶向下,初始所有样本为一个簇,逐步分裂。层次聚类可产生嵌套簇,便于不同粒度分析。17.常见的基于层次的聚类算法有哪些?分别阐述其思想。①AGNES(凝聚):依据簇间距离度量(单链、全链、平均链)合并最近簇。单链使用最小距离,易产生链状;全链使用最大距离,倾向紧凑簇;平均链使用平均距离,折中。②DIANA(分裂):将最不一致的点分离出来。③BIRCH:利用CF树逐步凝聚,适合大规模数据。④CURE:选择多个代表点描述簇,提高对非球形状的鲁棒性。18.凝聚型基于层次的聚类算法有何优点?结合案例讨论其应用。优点:①无需预设簇数,可从树状图任意层次切分;②可产生层次信息,便于多粒度分析;③对距离度量敏感,可嵌入领域知识。案例:在生物学中,用AGNES对基因表达谱进行层次聚类,构建基因树,识别共表达模块,发现功能相关的基因群。19.讨论基于Kohonen神经网络模型的聚类算法的基本思想,并举例说明其应用。SOM(自组织映射)通过竞争学习,将高维输入映射到低维(通常是2D)离散网格,保持拓扑有序性。每个网格节点对应一个权重向量,训练时寻找最佳匹配单元(BMU),更新其邻域权重。应用:色彩量化(将真彩色图像映射到256色)、基因表达数据可视化(将基因按表达模式映射到二维平面,相似基因邻近)。20.举例讨论聚类算法与其他算法的组合应用。先聚类后分类:对客户行为数据进行K-means聚类,将得到的簇标签作为新特征加入分类模型,预测客户流失,提升了准确率。或使用谱聚类进行图像分割,再对每个区域提取特征进行目标识别。在异常检测中,先用DBSCAN识别离群点,再训练孤立森林进一步验证。
第5章文本分析1.常见的文本数据有哪些来源?网页(HTML)、新闻文章、科学文献、社交媒体(微博、Twitter)、电子邮件、聊天记录、用户评论(电商、影评)、法律文档、病历文本、古籍等。这些来源格式各异,需要爬取和解析。2.文本分析的过程由哪几个环节组成?这些环节分别负责哪些工作?①文本获取(爬虫、数据库读取)。②预处理:清洗(去标签、特殊符号)、分词、去停用词、词干提取/词形还原。③特征提取:将文本转为数值向量,如词袋、TF-IDF、词嵌入。④建模:分类、聚类、主题建模、情感分析等。⑤评估与应用:根据任务评估指标(准确率、主题一致性)并部署。每个环节影响最终效果。3.什么是文本的特征?文本的特征是指从文本中提取的可量化信息,用于机器学习模型。可以是词级别的(词频、词性)、短语级别的(n-gram)、句法结构(依存关系)、语义特征(词向量、主题分布)、外部知识(实体链接)。特征需能区分不同文本。4.提取文本特征有哪些常用的方法?结合例子讨论这些方法的应用。①词袋模型(Bag-of-Words):统计词频,简单但丢失语义。②TF-IDF:衡量词在文档中的重要性,用于文本分类、信息检索。③Word2Vec/Glove:将词映射为稠密向量,捕捉语义相似性,用于文档表示(平均向量)。④BERT等预训练模型:提取上下文动态词向量,用于问答、情感分析。⑤主题模型(LDA):提取文档-主题分布,用于文档聚类。例如情感分类中,使用BERT微调优于TF-IDF+逻辑回归。5.TF-IDF适合提取什么样的文本特征?在使用过程中应注意哪些问题?TF-IDF适合提取对文档有区分度的关键词特征,即词在文档中出现频次高(TF高),但在整个语料中出现频次低(IDF高)的词。注意问题:①需预处理分词、去停用词;②对短文档效果有限;③考虑平滑(避免分母为零);④通常取对数或归一化;⑤TF-IDF假设词独立性,无法捕捉语义。6.VSM的作用以及常用计算方法是什么?VSM(向量空间模型)将文档表示为多维空间中的向量,维度对应特征词,权重常用TF-IDF。通过计算向量间夹角余弦(余弦相似度)衡量文档相似度,用于信息检索、文档聚类、推荐系统。例如搜索引擎中,用户查询转为向量,与文档库计算余弦相似度排序。7.分析文本分词的基本思想,并举例说明。将连续文本切分成有意义的词汇序列。基本思想:基于词典(最大匹配法)、基于统计(HMM、CRF)、基于深度学习(BiLSTM+CRF、BERT分词)。例如“我爱北京天安门”,正向最大匹配(词典最长词匹配)得“我/爱/北京/天安门”。中文分词是文本分析的基础。8.文本分词有哪些常用的算法?举例说明这些算法的应用。①基于词典:正向/逆向最大匹配、双向匹配,用于快速简单场景。②基于统计:HMM(隐含马尔可夫)、CRF(条件随机场),需标注语料训练,用于新闻分词。③基于深度学习:BiLSTM-CRF,效果好但需大量标注。④现有工具:jieba(结合词典和HMM)、THULAC、LTP、HanLP。应用:搜索引擎索引建立、情感分析预处理。9.命名实体识别的基本算法有哪些?举例说明其应用。①规则与词典:基于地名词典、模式匹配(如正则识别日期),适用于专业领域。②传统机器学习:CRF,需特征工程,如词性、上下文。③深度学习:BiLSTM-CRF、BERT+softmax,自动提取特征。应用:从新闻中识别人名、地名、机构名,构建知识图谱;医疗文本中识别药物、疾病名称。10.什么是词义消歧?说明常用的词义消歧方法的基本思想。词义消歧是指根据上下文确定多义词的具体含义。方法:①基于词典(Lesk算法):计算上下文与词典释义的重叠度。②监督学习:构建分类器,特征为上下文词。③无监督聚类:将同一词的上下文聚类,每个簇对应一个义项。④基于知识图谱:利用WordNet等语义关系。例如“苹果”在“苹果手机”中指品牌,在“苹果好吃”中指水果。11.举例说明常用句法分析方法的思想与应用。①短语结构分析(成分分析):将句子组织成短语层次树,如“(S(NP我)(VP爱(NP北京)))”。②依存句法分析:标注词与词之间的依存关系(主谓、动宾)。应用:机器翻译中调整语序;情感分析中抽取评价对象与观点词(如“屏幕清晰”中“屏幕”与“清晰”的依存关系)。12.语义分析的难点在何处?举例说明。难点:①指代消解(“他”指谁);②隐喻与幽默(“这台电脑是砖头”);③常识推理(“他用笔写字”笔是工具);④多义词歧义;⑤隐含情感。例如“这部电影太有意思了,看到一半我就睡着了”实为讽刺,机器需理解反讽。13.文本分类常用在什么领域?举例说明。①垃圾邮件过滤(二分类)。②新闻主题分类(体育、财经、娱乐等)。③情感分析(正面/负面/中性)。④意图识别(客服问答中用户意图分类)。⑤法律文书分类(案件类型)。⑥医学文献分类(疾病、药物)。14.如何为一篇比较长的新闻生成摘要?抽取式摘要:抽取原文中的关键句组成摘要,常用TextRank(基于句子图排序)、基于BERT的句子相似度聚类。生成式摘要:使用序列到序模型(如BART、PEGASUS)理解全文后生成新句子,通常需要大量训练数据。实际应用中常抽取重要句子再改写,确保流畅性和信息完整。15.问答系统的基本原理是什么?其中的核心问题如何解决?问答系统分检索式和生成式。检索式:对问题解析,从知识库或文档库中检索相关段落,提取答案(阅读理解)。生成式:用Seq2Seq模型生成答案。核心问题:①问题理解(意图识别、实体链接);②段落检索(用BM25、密集向量检索);③答案抽取/生成(BERT预测答案起止位置)。当前主流基于预训练模型(如DPR+Reader)解决。16.举例说明如何分析电商评论、论坛帖子、微博用户帖子中用户的情感。①情感词典方法:使用知网Hownet、SentiWordNet等计算文本中正面词与负面词个数,加权得分。②机器学习方法:提取TF-IDF特征,用朴素贝叶斯或SVM分类。③深度学习方法:用LSTM或BERT微调,进行多分类(积极/消极/中性),并进一步提取方面级情感(如对手机屏幕、电池分别分析)。例如对某手机评论“屏幕清晰,但电池续航短”可抽取出屏幕正面、电池负面。17.讨论如何从事件报道中抽取相关的信息。采用信息抽取技术:①命名实体识别(人物、地点、时间、组织)。②关系抽取(如“任职于”、“收购”)。③事件抽取:识别触发词(如“袭击”、“举办”)及论元(参与者、时间、地点)。常用方法:基于预训练模型(BERT)进行序列标注和分类,结合远程监督构建训练数据。例如从爆炸新闻中抽取事件类型、伤亡人数、地点、袭击者等信息。
第6章人工神经网络1.简述感知机的基本原理。感知机是最简单的神经网络模型,用于二分类。输入特征与权重线性组合后,通过阶跃函数(如符号函数)输出+1或-1。训练时,对于每个误分类样本,通过梯度下降更新权重:w←w+η·y·x,其中η为学习率,y为真实标签(±1)。感知机只能处理线性可分问题,且收敛性由Novikoff定理保证。2.讨论BP神经网络的学习过程。BP(反向传播)神经网络包含输入层、隐藏层和输出层,采用有监督学习。过程:①前向传播:输入信号逐层计算,得到输出值;②计算损失(如均方误差);③反向传播:利用链式法则计算损失对各层权重、偏置的梯度;④梯度下降更新参数,使损失减小。反复迭代直至收敛。BP算法可学习非线性映射,但易陷入局部极小,且对初始值敏感。3.BP神经网络有哪些常见应用?举例说明某一具体应用。常见应用包括:函数逼近、模式识别、图像压缩、时间序列预测、故障诊断等。例如手写数字识别(MNIST):输入28×28像素,构建一个包含两个隐藏层的BP网络,输出层10个神经元对应0-9,通过大量样本训练后,识别准确率可达98%以上。4.神经网络的激活函数有哪些?它们对神经网络的性能有何影响?常见激活函数:①Sigmoid:输出(0,1),但易饱和导致梯度消失;②Tanh:输出(-1,1),零中心,但仍有饱和区;③ReLU:max(0,x),非饱和、计算快,但可能导致神经元死亡(DeadReLU);④LeakyReLU:为负值赋予小斜率,缓解死亡;⑤ELU:负值指数饱和,抗噪声;⑥Softmax:用于多分类输出概率。激活函数影响网络的表达能力、梯度流动性、收敛速度及最终性能。例如ReLU家族在深层网络中表现优异。5.在BP神经网络训练过程中应如何避免陷入局部极小值区域?①使用随机梯度下降(SGD)及动量法,有助于跳出局部极小;②调整学习率(如学习率衰减、Adam自适应);③多次随机初始化,选取最优结果;④使用模拟退火、遗传算法等全局优化方法;⑤增加网络容量(如更多神经元)可改变损失曲面;⑥预训练(如逐层贪婪训练)使初始点靠近全局最优区域;⑦使用批量归一化、Dropout等正则化技术也能改善优化。6.在BP神经网络的训练过程中学习步长、隐层个数、隐层神经元个数等参数如何调整?①学习步长(学习率):通常从0.01开始尝试,若损失震荡则减小,若收敛慢则增大;也可采用自适应学习率方法(Adam、RMSprop)。②隐层个数:先从1-2层开始,根据任务复杂度逐步增加;可用交叉验证选择使验证误差最小的层数。③隐层神经元个数:经验公式如输入维度的2倍、或介于输入输出之间,常用试错法,从少到多观察过拟合情况,选取拐点值。自动化方法包括网格搜索、随机搜索、贝叶斯优化。7.RBF网络的基本原理是什么?RBF(径向基函数)网络通常为三层前馈网络:输入层、单隐藏层(径向基神经元)、线性输出层。隐藏层使用径向基函数(如高斯函数)对输入进行非线性变换,函数中心通过聚类(如K-means)确定,宽度(σ)可预设或学习;输出层对隐藏层输出线性加权求和。训练分两步:首先无监督确定中心与宽度,然后有监督学习输出权重(最小二乘法)。RBF网络具有最佳逼近能力,训练速度快。8.RBF网络为什么可以缓解局部极小值问题?RBF网络的隐藏层基函数中心一旦确定(通常通过无监督聚类),输出层权重求解是线性优化问题,有全局最优解(最小二乘闭式解),避免了BP中因非线性优化导致的局部极小。即使后续微调中心,也通常采用梯度下降,但由于初始中心已较好,陷入局部极小的概率降低。9.与决策树比较,神经网络适合处理什么类型的数据和问题?神经网络适合处理高维、非结构化数据(如图像、音频、文本),能自动提取层次化特征;对特征之间复杂交互关系建模能力强;适合大规模数据,尤其在深度学习中表现优异。决策树适合处理表格数据、特征含义清晰、样本量适中的问题,可解释性强,能处理混合类型特征,且对数据预处理要求低。两者选择取决于任务需求:神经网络在图像语音等领域占优,决策树在金融风控、医疗规则提取等场景常见。10.如何避免神经网络的分类过拟合?①增加训练数据(数据增强:旋转、裁剪、加噪)。②正则化:L1/L2权重衰减。③Dropout:训练时随机丢弃神经元。④早停(EarlyStopping):监控验证误差,当验证误差不再下降时停止训练。⑤批量归一化(BatchNormalization):轻微正则效果。⑥简化网络结构(减少层数/神经元)。⑦集成学习:训练多个网络投票。⑧对抗训练增加鲁棒性。11.如何避免神经网络的梯度消失问题?①使用非饱和激活函数如ReLU、LeakyReLU、ELU,代替Sigmoid/Tanh。②合理的权重初始化,如He初始化(针对ReLU)、Xavier初始化。③批量归一化,使各层输入保持稳定分布。④使用残差连接(ResNet),允许梯度直通。⑤采用LSTM/GRU(循环网络中)。⑥预训练加微调。⑦使用梯度裁剪(对梯度爆炸也有用)。⑧简化网络深度,或使用DenseNet等结构。12.为什么要对模型的输入数据进行归一化?①消除特征量纲影响,使不同尺度特征对模型贡献均衡,避免数值大的特征主导梯度。②加速梯度下降收敛,使损失函数更接近圆形,梯度下降更直接指向最小值。③对于基于距离的算法(如KNN、SVM、神经网络),归一化可防止某些特征距离计算权重过大。④某些激活函数(如Sigmoid)在输入过大时饱和,归一化使其落在线性区。常用方法:Min-Max归一化、Z-score标准化。13.讨论不同激活函数对网络性能的影响。Sigmoid:易饱和导致梯度消失,输出非零中心,收敛慢。Tanh:零中心,比Sigmoid好,但仍有饱和问题。ReLU:非饱和、稀疏性、计算快,但可能导致神经元死亡(负向梯度为0)。LeakyReLU/PReLU:解决死亡问题,小斜率保留负向信息。ELU:负向指数饱和,抗噪声,但计算稍复杂。Swish(SiLU):自动门控,在深层网络上表现可能优于ReLU。激活函数选择影响网络表达能力、训练速度、最终性能,需结合任务和网络结构实验。14.如何加快神经网络训练过程中梯度下降的速度?①使用自适应优化器(Adam、RMSprop)自动调整学习率。②采用动量(Momentum)加速收敛。③学习率预热(Warmup)与衰减策略。④批量归一化,稳定分布。⑤使用更大的批量(但需调整学习率)。⑥并行计算(多GPU、分布式)。⑦减少计算精度(混合精度训练)。⑧数据预处理(归一化、白化)。⑨简化网络结构(如使用深度可分离卷积)。⑩提前终止不必要的计算。第7章贝叶斯学习1.贝叶斯定理的适用条件是什么?贝叶斯定理适用于存在先验知识且可通过观测数据更新概率的场景。具体条件:①需要已知先验概率P(类别)或可估计;②需要已知类条件概率密度P(特征|类别)或可建模(如高斯分布);③特征间通常需满足独立性假设(朴素贝叶斯)或依赖关系已知(贝叶斯网络)。在实际应用中,若先验不合理或条件概率估计不准,则后验偏差。2.举例说明贝叶斯定理的应用。经典应用:垃圾邮件分类。假设已知垃圾邮件中词“优惠”出现的概率P(“优惠”|垃圾)=0.4,正常邮件中P(“优惠”|正常)=0.01;垃圾邮件先验P(垃圾)=0.2。现有一封邮件包含“优惠”,计算后验P(垃圾|“优惠”)=(0.4*0.2)/(0.4*0.2+0.01*0.8)=0.909,故判为垃圾邮件。医疗诊断:根据症状推断疾病概率,同样利用贝叶斯公式。3.在贝叶斯定理的应用过程中,先验概率如何计算?先验概率通常从训练数据中估计:P(类别)=该类样本数/总样本数。若无数据,可根据领域知识设定(如专家经验)或使用无信息先验(均匀分布、Jeffreys先验)。在贝叶斯网络中,先验也可能通过参数学习得到。若数据量小,先验影响大;数据量大时,后验逐渐主导。4.与决策树、神经网络分类方法比较,贝叶斯定理用于分类有什么不同?贝叶斯分类基于概率模型,显式使用先验和条件概率,对小样本、数据稀疏场景有效,且可解释性强(可观察各特征对后验的贡献)。决策树通过划分特征空间形成规则,易于理解,但可能不稳定。神经网络通过多层非线性变换学习特征,擅长复杂模式,但黑箱、需大数据。贝叶斯分类假设较强(如朴素贝叶斯独立性),但计算简单;而决策树和神经网络对特征交互建模更灵活。5.贝叶斯网络解决了贝叶斯定理的什么问题?贝叶斯定理直接应用需要知道所有特征联合概率,朴素贝叶斯则强制特征独立,但现实中特征往往存在依赖。贝叶斯网络通过有向无环图(DAG)表示变量间的条件依赖关系,利用概率图模型分解联合概率,减少了参数数量,能够建模复杂依赖,同时保持可解释性。它解决了朴素贝叶斯过度简化的独立性假设问题。6.如何构建贝叶斯网络?构建分为结构学习和参数学习。①结构学习:从数据中学习网络拓扑,常用基于评分搜索的方法(如K2算法、BIC评分)或基于约束的方法(条件独立性检验)。也可由专家指定结构。②参数学习:给定结构,利用数据估计每个节点的条件概率表(CPT)。对于离散变量用最大似然估计(加平滑);连续变量常用线性高斯模型。最后得到完整的贝叶斯网络。7.结合实例,讨论贝叶斯网络的推理过程。例:医疗诊断网络,节点包括“吸烟”、“肺癌”、“咳嗽”、“X光阳性”。已知某人咳嗽且X光阳性(证据),求患肺癌的概率。推理算法利用贝叶斯网络的条件独立性,通过变量消元或团树传播,计算P(肺癌|咳嗽=是,X光=阳性)。首先将证据代入,利用网络结构分解联合概率,再边缘化无关变量,最终得到后验概率。这称为后验概率查询。8.贝叶斯网络应用过程中要注意什么问题?①结构学习可能过拟合,需结合先验或验证集。②离散化连续变量会丢失信息,可用参数化分布(如高斯贝叶斯网络)。③网络复杂时推理精确计算可能NP难,需采用近似推理(如吉布斯采样、变分推断)。④数据稀疏可能导致条件概率估计不可靠,需平滑(如拉普拉斯平滑)。⑤网络的可解释性依赖图结构的合理性,需验证因果方向是否符合常识。9.贝叶斯网络适用于解决什么问题?①不确定性推理与诊断(医疗、故障诊断)。②预测与分类(如文本分类、信用评估)。③因果分析(推断干预效果)。④风险分析与决策支持(如金融风险建模)。⑤生物信息学(基因调控网络)。⑥推荐系统(利用用户-物品依赖)。⑦系统可靠性分析。总之,任何需要处理不确定性和依赖关系的场景都可应用。10.贝叶斯网络如何应用于中文分词?将中文分词视为序列标注问题(每个字标记为B(词首)、M(词中)、E(词尾)、S(单字词))。贝叶斯网络可以建模相邻标记的转移概率(如HMM是朴素贝叶斯网络的动态版本),以及当前字与标记的发射概率。更复杂的贝叶斯网络可引入上下文特征(如前一个字、后一个字)。通过维特比算法求解最大后验概率的标记序列,实现分词。实际上,许多中文分词工具基于CRF,其思想类似,但CRF是条件随机场,属于无向图模型。
第8章支持向量机1.作为一种分类算法,SVM的基本原理是什么?SVM(支持向量机)的基本原理是寻找一个超平面将不同类别的样本分开,并最大化该超平面到最近样本点(支持向量)的间隔(margin)。对于线性可分数据,优化问题为min||w||²/2s.t.yᵢ(w·xᵢ+b)≥1。引入松弛变量可处理线性不可分(软间隔SVM)。对于非线性问题,通过核函数将数据映射到高维特征空间,使数据在高维线性可分。最终决策函数由少数支持向量决定,具有稀疏性。2.SVM适合解决什么问题?SVM适合中小规模、高维、非线性分类问题,尤其在样本量适中、特征维度高(如文本分类)时表现优异。也用于回归(SVR)和异常检测(单类SVM)。优点:泛化能力强,对局部噪声鲁棒;缺点:大规模数据训练慢,核函数和参数选择敏感,对缺失数据敏感。3.SVM常用在哪些领域?①文本分类(如新闻分类、垃圾邮件过滤)。②图像识别(手写数字、人脸检测)。③生物信息学(蛋白质分类、基因表达分析)。④金融风控(信用评分、欺诈检测)。⑤手写识别(邮政数字识别)。⑥语音识别(作为后端分类器)。⑦工业缺陷检测。⑧药物发现(化合物活性预测)。4.SVM常用的核函数有哪些?①线性核:K(xᵢ,xⱼ)=xᵢ·xⱼ,适用于线性可分或特征维度高、样本量大的情况。②多项式核:K(xᵢ,xⱼ)=(γxᵢ·xⱼ+r)^d,可拟合复杂边界,但参数多,易过拟合。③高斯径向基核(RBF):K(xᵢ,xⱼ)=exp(-γ||xᵢ-xⱼ||²),最常用,适应性强,但γ敏感。④Sigmoid核:K(xᵢ,xⱼ)=tanh(γxᵢ·xⱼ+r),类似神经网络。实际应用中常首选RBF。5.核函数的选择对SVM的性能有何影响?核函数决定了特征映射后的空间和模型复杂度。线性核适合线性数据,计算快;RBF核能处理非线性,但γ过大易过拟合(决策边界复杂),γ过小易欠拟合(接近线性)。多项式核的阶数越高,模型越复杂,可能过拟合且计算量增大。核函数需与数据分布匹配,通常通过交叉验证选择最佳核函数及参数(C、γ、d)。6.在使用SVM的过程中会遇到哪些主要问题?如何解决?①大规模数据训练慢:可用线性SVM(如LIBLINEAR)、随机梯度下降、或者使用近似核方法(如随机傅里叶特征)。②多分类:可采用一对一(OvO)、一对多(OvR)或DAGSVM。③参数敏感:使用网格搜索+交叉验证选择C和γ。④内存占用大:使用核矩阵近似或在线学习。⑤类别不平衡:调整惩罚权重(class_weight)、使用不同C或采样。⑥缺失值:需要填充或删除。7.举例说明SVM的应用过程。以垃圾邮件分类为例:①收集邮件数据集,提取特征(如词频TF-IDF向量,维度可能上万)。②数据预处理:归一化。③选择RBF核,使用交叉验证(如5折)在训练集上搜索最优参数C和γ(例如C=10,γ=0.01)。④用最优参数在整个训练集上训练SVM模型。⑤在测试集上评估准确率、召回率等。⑥部署模型,对新邮件预测概率或类别。SVM由于其高维处理能力,在文本分类中效果好。
第9章分布式机器学习1.分布式机器学习框架用在什么场合?当数据量或模型规模超出单机处理能力时,需要分布式机器学习。例如:①训练数据达到TB级,无法单机存储;②模型参数巨大(如深度神经网络上亿参数),单GPU显存不足;③需要快速训练,通过并行缩短时间;④数据天然分布在多个节点(如物联网数据)。典型框架:TensorFlow分布式、PyTorch分布式、SparkMLlib、Horovod、参数服务器等。2.讨论分布式计算的常用方法。(拓展题)常用方法:①数据并行:每个节点持有完整模型副本,处理不同数据分片,定期同步梯度(同步或异步)。②模型并行:将模型切分到不同节点(如神经网络不同层分布在多卡),适合模型过大放不下。③混合并行:结合数据并行和模型并行。④参数服务器:一个或多个节点存储全局参数,工作节点计算梯度并更新。⑤All-Reduce:通过环状通信同步梯度,避免中心瓶颈。⑥联邦学习:在数据不共享情况下分布式训练,保护隐私。3.简述MapReduce框架的基本原理。MapReduce是分布式计算模型,包含两个阶段:Map和Reduce。Map阶段:输入数据被切分成若干分片,每个分片由一个Map任务处理,输出键值对。Reduce阶段:对Map输出的键值对按key分组,每个Reduce任务对一组key进行聚合计算(如求和、求平均)。整个过程中,计算向数据移动,具有容错性和高可扩展性。典型实现如Hadoop。4.MapReduce调度执行过程由哪些环节组成?这些环节分别处理什么工作?①输入分片:将大文件切分成固定大小块(如128MB),每个块对应一个Map任务。②Map任务:读取分片,执行用户定义的map函数,输出中间键值对,并写入本地磁盘。③Shuffle&Sort:Map输出按key排序、分区,通过网络传输到Reduce节点,Reduce节点拉取数据并合并排序。④Reduce任务:对每个key调用reduce函数,进行聚合计算,输出最终结果写入分布式文件系统。整个流程由JobTracker(或ResourceManager)协调。5.为什么Hadoop架构不能处理实时的数据分析工作?(拓展题)Hadoop基于MapReduce模型,设计目标是批量离线处理,具有高吞吐量,但延迟高。原因:①MapReduce中间结果需要落盘(磁盘I/O),每个阶段都需读写磁盘,导致高延迟。②作业启动和调度开销大(秒级)。③缺乏流式计算能力,不能连续处理数据。因此不适合需要秒级响应的实时分析(如实时推荐、监控)。后续SparkStreaming、Flink等基于内存计算解决了部分实时性。6.举例说明MapReduce的应用。经典应用:海量网页倒排索引构建。Map阶段:每个Map处理一批网页,输出(词,文档ID)键值对。Reduce阶段:对同一词的所有文档ID进行合并,形成(词,文档ID列表)。最终得到每个词出现在哪些文档中的索引,供搜索引擎使用。另一个例子:分布式排序(TeraSort),利用MapReduce的分区特性对大规模数据排序。7.与Hadoop相比,Spark处理大数据的速度为什么显著提升?(拓展题)Spark基于内存计算,设计了弹性分布式数据集(RDD),可以缓存中间结果到内存,避免频繁磁盘I/O。同时,Spark支持DAG(有向无环图)执行,能够优化任务调度,减少不必要的shuffle。对于迭代算法(如机器学习),Spark比Hadoop快10-100倍。此外,Spark提供丰富的算子,支持流处理、SQL、图计算等,生态完善。8.结合实例,讨论MapReduce在并行决策树算法中的应用。以随机森林为例,可用MapReduce并行训练多棵决策树。Map阶段:每个Map任务从原始数据中自助采样生成一个子集,基于该子集训练一棵决策树。Reduce阶段:收集所有树的模型,输出随机森林模型(用于投票)。Planet平台就是这样实现大规模决策树并行训练的。另一种方式是在单棵决策树构建时并行计算各特征分裂点信息增益,也可用MapReduce。9.结合实例,讨论并行k均值算法的计算过程。并行K-means:将数据集划分为多个分片,分布在不同的节点上。每次迭代:①各节点根据当前全局簇中心,计算本节点样本到各中心的距离,更新局部计数(每个簇的样本数、特征和)。②使用Reduce操作将各节点的局部统计量累加,得到新的簇中心(全局平均值)。③新的簇中心广播给所有节点,进入下一轮迭代。典型实现如SparkMLlib中的K-means,利用RDD进行分布式计算,迭代直至收敛。10.查找资料,讨论如何对关联算法Apriori进行并行化改造。(拓展题)Apriori并行化可采用MapReduce:①Map阶段:每个节点扫描数据分片,生成局部候选1项集并计数。②Reduce阶段:汇总全局支持度,得到频繁1项集。③后续迭代中,利用频繁(k-1)项集生成候选k项集,分发到各节点,Map任务统计局部支持度,Reduce合并得到全局支持度。此过程需多次MapReduce作业。为提高效率,可采用SON算法(先在各节点找局部频繁项集,再合并验证)。FP-growth也可并行化(PFP算法),通过分组投影构建局部FP树。11.对于大样本数据,如何对多元线性回归模型进行并行化改造?多元线性回归可采用数据并行:将数据分片到多个节点,每个节点计算局部梯度(或局部正规方程信息)。①若用梯度下降:各节点计算梯度后,通过All-Reduce平均梯度,再更新参数。②若用正规方程:各节点计算局部XᵀX和Xᵀy,然后Reduce全局累加,最后在驱动节点求解闭式解。SparkMLlib中线性回归基于随机梯度下降,支持分布式训练。对于极大特征维度,可结合模型并行。
第9章推荐系统1.推荐系统的功能是什么?推荐系统旨在从海量物品中为用户筛选出可能感兴趣的物品,解决信息过载问题,提升用户体验和平台转化率。功能包括个性化推荐(如电商首页猜你喜欢)、相关推荐(如商品详情页的“买了还买”)、热门推荐、广告定向投放等。2.简述推荐系统的结构组成。通常分为三层:①数据层:收集用户特征(画像)、物品特征(属性)、用户行为日志(点击、购买、评分)。②召回层:从全量物品中快速筛选出候选集(如几百个),常用方法有协同过滤、向量检索、热门召回等。③排序层:对候选物品进行精准排序,常用模型有逻辑回归、FM、GBDT+LR、深度模型(DeepFM、DIN)。④重排层:根据多样性、新鲜度、业务规则等调整顺序,最终生成推荐列表。此外还包括在线/离线实验评估模块。3.推荐系统常用于哪些领域?举例说明。①电商(淘宝、亚马逊):商品推荐。②视频(抖音、YouTube):短视频、电影推荐。③音乐(网易云音乐、Spotify):歌单推荐。④新闻(今日头条、GoogleNews):个性化新闻推送。⑤社交(Facebook、微博):好友推荐、可能认识的人。⑥本地生活(美团、大众点评):餐厅推荐。⑦招聘(LinkedIn、智联):职位推荐。⑧广告(GoogleAds):精准广告投放。4.推荐系统常用哪些方法?这些方法分别适用于什么场合?①基于内容的推荐:适用于新物品冷启动、用户兴趣稳定,利用物品属性推荐相似物品。②协同过滤:适用于用户行为丰富场景,分UserCF(社交属性强)、ItemCF(适用于物品相对稳定如电商)。③矩阵分解(SVD、ALS):适用于隐式反馈、评分预测,可处理稀疏性。④深度学习(DNN、Wide&Deep、DeepFM):适用于大规模多特征融合。⑤关联规则(Apriori):适用于购物篮分析,发现组合购买。⑥图神经网络(GNN):适用于社交推荐、知识图谱增强。⑦混合推荐:结合多种方法,取长补短。5.基于内容的推荐的基本思想是什么?基于内容的推荐根据用户历史交互过的物品属性,构建用户兴趣画像,然后推荐与画像相似的物品。例如,用户喜欢过动作片(如《速度与激情》),则推荐其他动作片(如《碟中谍》)。关键步骤:①物品表示:提取物品属性(文本、类别、标签)构建特征向量;②用户画像:将用户历史交互物品的特征向量聚合(如平均、加权);③相似度计算:计算候选物品与用户画像的相似度(如余弦相似度),按相似度排序推荐。6.举例说明基于内容的推荐的应用过程。以新闻推荐为例:①对新闻文章进行分词、TF-IDF提取关键词,得到文章向量。②用户浏览了几篇关于“机器学习”和“人工智能”的文章,则用户画像向量由这些文章向量平均得到。③新入库一篇名为“深度学习入门”的文章,计算其向量与用户画像的余弦相似度为0.85。④相似度超过阈值,将该新闻推荐给用户。整个过程无需其他用户数据,适合新用户或新物品冷启。7.如何为用户和物品建模?用户模型:①统计特征:年龄、性别、地域、职业。②行为特征:历史点击序列、收藏、购买、评分、浏览时长。③兴趣标签:从历史物品中提取的类别、主题分布。④嵌入向量:通过模型学习用户表征(如矩阵分解得到的用户隐向量)。物品模型:①属性特征:类别、价格、品牌、标签、发布时间。②内容特征:文本(TF-IDF、BERT)、图像(CNN特征)。③统计特征:历史点击率、购买量。④嵌入向量:协同过滤中的物品隐向量。8.如何计算推荐过程中用户和物品之间的相关性?①内积:用户隐向量与物品隐向量点积(矩阵分解)。②余弦相似度:适用于基于内容或协同过滤的相似度计算。③神经网络打分:将用户特征和物品特征拼接输入MLP,输出点击率。④树模型(如GBDT)预测用户对物品的偏好。⑤基于距离度量:欧氏距离。⑥对于关联规则,置信度表示相关性。⑦多路召回中的相关性分数可加权融合。9.基于协同过滤的推荐的基本思想是什么?协同过滤基于“用户-物品”交互矩阵,利用用户或物品之间的相似性进行推荐。UserCF:找到与目标用户兴趣相似的其他用户,把那些用户喜欢的且目标用户未交互的物品推荐给目标用户。ItemCF:找到与目标用户历史喜欢的物品相似的物品,推荐相似物品。相似性计算通常基于共现关系,如Jaccard相似度、余弦相似度(基于评分向量)。10.基于协同过滤的推荐适用于什么场合?适用于用户行为数据丰富(如点击、购买、评分)的场合,尤其当物品或用户数量相对稳定时。UserCF适合用户个性化兴趣较弱、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电梯厂商指导方案范本
- 小院设计防雨方案范本
- 工地残渣处理方案范本
- 卫生间台面一体施工方案
- 需要施工方案
- 餐饮对口招商方案模板范本
- 单元内水管维修方案范本
- 工会奖励评定方案范本
- 湖北省龙泉中学宜昌一中荆州中学三校2024学年高二6月考试英语试题含解析
- 肝炎患者病情监测指南
- 自来水厂安全生产题库及答案解析
- 高空作业车安全操作规程
- 2024云南省委党校研究生招生考试真题(附答案)
- 诺如病毒考试题及答案
- DB45∕T 2479-2022 一般固体废物填埋场水文地质工程地质勘察规范
- 岗位安全责任清单意义
- 2025年焊工(技师)考试练习题库(附答案)
- 学术自由与责任共担:导师制度与研究生培养制的深度探讨
- 法拍司辅内部管理制度
- 道路损坏修缮协议书模板
- 2025年上海市各区高三二模语文试题汇编《现代文一》含答案
评论
0/150
提交评论