版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年《计算语言学》试卷附答案一、选择题(每题2分,共20分)1.以下关于形式语言与自动机的描述中,错误的是()A.正则语言可被有限状态自动机识别B.上下文无关语言的句法结构可用Chomsky范式表示C.图灵机可识别递归可枚举语言D.自然语言的句法结构严格符合上下文无关语言特性2.下列NLP任务中,不属于序列标注任务的是()A.命名实体识别(NER)B.句法分析(DependencyParsing)C.词性标注(POSTagging)D.分块(Chunking)3.关于词嵌入(WordEmbedding)的说法,正确的是()A.Word2Vec的CBOW模型通过上下文预测中心词B.GloVe基于共现矩阵的全局统计信息训练C.词嵌入的稀疏性问题可通过One-Hot编码解决D.词嵌入的语义相似性仅由欧氏距离衡量4.句法分析中,下列哪项属于提供式模型()A.基于转移的依赖分析(Transition-basedParsing)B.概率上下文无关文法(PCFG)C.基于图的依赖分析(Graph-basedParsing)D.神经句法分析(NeuralParsing)5.评估语言模型时,困惑度(Perplexity)的计算基于()A.模型预测下一个词的平均交叉熵的指数B.模型在测试集上的准确率C.词向量的余弦相似度均值D.提供文本与参考文本的BLEU分数6.以下不属于预训练语言模型(PLM)核心训练目标的是()A.掩码语言模型(MLM)B.下一句预测(NSP)C.对比学习(ContrastiveLearning)D.序列到序列提供(Seq2Seq)7.机器翻译中,BLEU分数的计算不涉及()A.精确匹配的n-gram召回率B.参考译文的长度惩罚因子C.候选译文与参考译文的最长公共子序列D.不同n-gram(如1-gram到4-gram)的加权平均8.关于隐马尔可夫模型(HMM)的描述,错误的是()A.包含状态转移概率、发射概率和初始状态概率B.可用于解决序列标注问题(如POStagging)C.状态是不可观测的,观测值由状态提供D.Viterbi算法用于解决HMM的参数学习问题9.子词分词(SubwordTokenization)的主要目的是()A.减少未登录词(OOV)问题B.提高词嵌入的维度C.简化句法分析的复杂度D.增强模型对长距离依赖的捕捉能力10.多模态学习(MultimodalLearning)中,“对齐(Alignment)”的核心挑战是()A.不同模态数据的噪声差异B.跨模态语义空间的映射一致性C.计算资源的高效分配D.单模态模型的性能瓶颈二、填空题(每空1分,共15分)1.乔姆斯基语言层级中,从低到高依次为:正则语言、上下文无关语言、__________、递归可枚举语言。2.统计机器翻译(SMT)的核心模块包括:语言模型(LM)、__________(TM)和调序模型(ReorderingModel)。3.条件随机场(CRF)通过__________函数建模标签序列的联合概率,克服了HMM的__________假设缺陷。4.Transformer模型的核心机制是__________,其计算方式为__________(写出公式)。5.文本分类任务中,常用的评估指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)和__________(F1-score)。6.LDA(隐含狄利克雷分配)模型假设每个文档由__________的混合提供,每个主题对应一个__________的分布。7.神经机器翻译(NMT)的典型架构是__________(Encoder-Decoder),其中编码器通常采用__________或Transformer结构。8.情感分析(SentimentAnalysis)的细粒度任务包括方面级情感分析(Aspect-basedSA)和__________。三、简答题(每题6分,共30分)1.简述词向量的“分布假设(DistributionalHypothesis)”及其在词嵌入训练中的应用。2.对比条件随机场(CRF)与隐马尔可夫模型(HMM)在序列标注任务中的差异。3.说明BERT模型的预训练任务(MLM和NSP)如何帮助模型学习语言表征。4.分析子词分词(如BPE、WordPiece)相对于词级分词的优势与潜在问题。5.多模态对话系统中,如何利用视觉信息提升文本提供的连贯性?举例说明。四、分析题(每题8分,共24分)1.给定句子“他在图书馆读一本关于计算语言学的新书”,假设其依存句法树如下(中心词为“读”):他(施事,依存于“读”)在(介词,依存于“读”)图书馆(地点,依存于“在”)一本(数量,依存于“书”)关于(介词,依存于“书”)计算语言学(主题,依存于“关于”)新(属性,依存于“书”)书(受事,依存于“读”)请画出简化的依存关系图(用箭头表示依存方向),并说明“书”的核心修饰成分。2.某语言模型在测试集(共1000个词,词汇表大小V=5000)上的交叉熵为6.2,计算其困惑度(Perplexity)。若模型对“自然语言处理”序列的概率计算为:P(自)=0.02,P(然|自)=0.1,P(语|自然)=0.05,P(言|自然语)=0.008,P(处|自然语言)=0.001,P(理|自然语言处)=0.0005,计算该序列的联合概率(保留4位小数)。3.对比以下两组中文分词结果,分析其优劣并说明原因(假设分词规范为“计算语言学”是专业术语):A组:“计算/语言学/是/研究/语言/与/计算/关系/的/学科”B组:“计算语言学/是/研究/语言/与/计算/关系/的/学科”五、编程题(11分)请用Python实现一个简单的三元语法(Trigram)模型,要求:(1)基于给定语料库(示例语料:["计算语言学是交叉学科","自然语言处理需要计算模型","模型训练依赖数据质量"])训练模型;(2)处理未登录词(OOV)时采用加1平滑(Add-1Smoothing);(3)输出句子“计算语言学需要模型”的概率(保留5位小数)。答案--一、选择题1.D2.B3.B4.B5.A6.D7.C8.D9.A10.B二、填空题1.上下文有关语言2.翻译模型3.势函数(或特征函数);输出独立性(或观测独立性)4.自注意力(Self-Attention);Attention(Q,K,V)=softmax(QK^T/√d_k)V5.F1值6.多个主题;词7.编码器-解码器;循环神经网络(RNN,或LSTM/GRU)8.意图识别(或观点抽取)三、简答题1.分布假设认为“词的语义由其上下文环境决定”,即相似上下文的词语义相近。在词嵌入训练中(如Word2Vec、GloVe),模型通过学习词与上下文的共现关系,将词映射到低维连续向量空间,使语义相近的词在空间中位置邻近。例如,CBOW模型通过上下文词预测中心词,本质是捕捉词的分布特征。2.差异:①HMM是提供式模型,假设观测值仅依赖当前状态(输出独立性假设),而CRF是判别式模型,直接建模标签序列的条件概率,允许特征依赖任意历史状态;②HMM的状态转移和发射概率是局部的,CRF通过全局特征(如前后标签、上下文词)捕捉长距离依赖;③CRF能处理更复杂的特征工程(如词性、词形),而HMM的特征表达能力有限。3.MLM(掩码语言模型)通过随机掩码输入中的部分词(如15%),让模型预测被掩码的词,迫使模型学习上下文相关的双向表征(如“猫坐在__上”中,模型需结合“猫”和“上”预测“地毯”)。NSP(下一句预测)通过判断两个句子是否连续,帮助模型学习句子级别的语义关联(如“我喜欢下雨”与“因为空气清新”是连续的,而“苹果是水果”不连续)。两者共同使BERT能捕捉词级和句级的深层语义。4.优势:①减少OOV问题(通过将未登录词拆分为子词,如“computational”拆为“comput”+“ational”);②保留词的形态信息(如英语过去式“walked”拆为“walk”+“ed”);③平衡词表大小与表征能力(子词数量远小于单词数量)。潜在问题:①分词结果依赖训练语料(不同语料可能产生不同子词);②长词拆分可能引入冗余(如“AAA”拆为“A”+“A”+“A”);③增加模型输入长度(子词数量多于单词)。5.例如,在视觉对话系统中,用户提问“这张照片里的人在做什么?”,系统需结合图像(如“人在打字”)提供回答。视觉信息可通过跨模态编码器(如CLIP)与文本编码器对齐,提取图像中的关键元素(如“笔记本电脑”“手指在键盘上”),并融合到文本提供模型的上下文中,避免提供“人在吃饭”等不连贯回答。具体实现中,可将图像特征与文本特征拼接输入解码器,或通过注意力机制让解码器动态关注图像中的相关区域。四、分析题1.依存关系图(简化):读←他读←在→图书馆读←书←一本书←关于→计算语言学书←新“书”的核心修饰成分包括:数量词“一本”(限定数量)、介词短语“关于计算语言学”(限定主题)、形容词“新”(限定属性)。2.困惑度PP=2^交叉熵=2^6.2≈64(或按自然对数计算,PP=e^6.2≈494.18,需明确交叉熵的底数。通常交叉熵用自然对数,故正确计算为PP=exp(6.2)≈494.18)。序列联合概率P=0.02×0.1×0.05×0.008×0.001×0.0005=0.02×0.1=0.002;0.002×0.05=0.0001;0.0001×0.008=0.0000008;0.0000008×0.001=8e-10;8e-10×0.0005=4e-13≈0.0000。3.A组错误地将“计算语言学”拆分为“计算/语言学”,未识别专业术语,导致语义断裂(“计算”与“语言学”单独出现易被误解为两个独立概念)。B组正确合并“计算语言学”为一个词,符合领域术语规范,提升了分词的语义准确性(明确指代“研究语言与计算关系的学科”这一整体概念)。因此B组更优。五、编程题```pythonimportrefromcollectionsimportdefaultdictclassTrigramModel:def__init__(self):self.uni_counts=defaultdict(int)一元语法计数self.bi_counts=defaultdict(int)二元语法计数self.tri_counts=defaultdict(int)三元语法计数self.vocab=set()词汇表deftrain(self,corpus):预处理语料(分词,假设用单字分词,实际需更精确分词工具)processed=[]forsentincorpus:添加句首标记<s>和句尾标记</s>tokens=['<s>']+list(sent)+['</s>']processed.append(tokens)更新计数foriinrange(len(tokens)):self.uni_counts[tokens[i]]+=1self.vocab.add(tokens[i])ifi>0:self.bi_counts[(tokens[i-1],tokens[i])]+=1ifi>1:self.tri_counts[(tokens[i-2],tokens[i-1],tokens[i])]+=1self.vocab_size=len(self.vocab)词汇表大小(含<s>、</s>)defget_prob(self,w1,w2,w3):三元组(w1,w2,w3)的概率,加1平滑tri_key=(w1,w2,w3)bi_key=
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年“才聚齐鲁成就未来”上海中期期货股份有限公司市场化招聘备考题库及一套完整答案详解
- 2026年宁波农商发展集团有限公司招聘15人备考题库及答案详解1套
- 2026年广州市白云区15所公办中小学招聘各科临聘教师备考题库及答案详解1套
- 2026年市政工程专业高级工程师岗位招聘备考题库及一套完整答案详解
- 2026年成都隆科润康医药健康产业有限公司招聘备考题库及完整答案详解一套
- 2026年中山市西区翠景东方小学教师招聘备考题库有答案详解
- 2026年哈尔滨铁道职业技术学院公开招聘教师备考题库及完整答案详解一套
- 2026年【重点单位】海南国企五险二金东方经济开发区发展控股集团有限公司招聘备考题库有答案详解
- 甘肃省多校高三上学期12月阶段性考试数学试题【含答案详解】
- 公司内控合规风控制度
- 2025国家统计局滨海新区调查队辅助调查员招聘3人备考笔试试题及答案解析
- 星罗棋布的港口课件
- 2025天津市机电工艺技师学院招聘派遣制社会化21人(第二批)考试题库附答案
- 统一顶新食品成品仓库管理的手册
- 2025年洛阳市公安机关招聘辅警501名考试题库附答案
- 金刚网窗合同范本
- 2025年云南昆明巫家坝建设发展有限责任公司及下属公司第四季度社会招聘31人笔试参考题库附带答案详解(3卷)
- 2025贵阳云岩经开产业发展集团有限公司招聘笔试考试备考试题及答案解析
- 2025湖北交投集团总部一般管理岗位遴选拟录用人员笔试历年参考题库附带答案详解
- 2026年湖南化工职业技术学院单招职业技能考试题库含答案详解
- 食材配送公司管理制度(3篇)
评论
0/150
提交评论