东北大学软件工程硕士--信息检索复习题及答案.doc_第1页
东北大学软件工程硕士--信息检索复习题及答案.doc_第2页
东北大学软件工程硕士--信息检索复习题及答案.doc_第3页
东北大学软件工程硕士--信息检索复习题及答案.doc_第4页
东北大学软件工程硕士--信息检索复习题及答案.doc_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息检索复习要点2010第一讲 网页采集1. 网页采集器的基本原理简答题网页采集器一般称为“网路蜘蛛”,也叫网页机器人。网络蜘蛛把互联网比喻成一个蜘蛛网,那么网络蜘蛛就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从一个网页开始,读取网页的内容,保存下来,找到在网页中的链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去。2. 网页采集器的设计综合题3. 网络运营者对网页采集器的态度是什么?简答题网站数据被网页采集器采集后,进入搜索引擎数据库,可扩大网站访问量、提高网站知名度。因此,网站运营者欢迎网页采集器,并为其提供便利。网页采集器需要大量抓取网页,不同于一般的访问,如果控制不好,则会引起网站服务器负担过重。因此,网站运营者希望网页采集器不要影响网站的正常运转,并通过各种方法于网页采集器进行交流,规范网页采集器的行为。第二讲 分析处理4. 网页分析处理的必要性简答题答:分析处理帮助得到更加准确的查询结果,重复的利用时间和资源。5. 分词歧义的处理方法简答题目前,对汉语分词方法的研究主要有三个方面:1) 基于规则的分词方法:这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大”的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。常用的方法:最小匹配算法,正向(逆向)最大匹配法,逐字匹配算法,神经网络法、联想一回塑法,基于 N-最短路径分词算法,以及可以相互组合。例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法等。目前机械式分词占主流地位的是正向最大匹配法和逆向最大匹配法。2) 基于统计的分词方法:基于统计的方法是基于(两个或多个)汉字同时出现的概率,通过对语料库(经过处理的大量领域文本的集合)中的文本进行有监督或无监督的学习。可以获取该类文本的某些整体特征或规律。如果能够充分地利用这些统计现象、规律。就可以构造基于语料库的统计学信息抽取算法统计的分析方法多种多样。近来研究的热点主要集中于由随机过程发展而来的理论和方法,其中最重要的是应用隐马尔科夫模型(HMM)进行自然语言处理的方法。隐马尔科夫模型在语音识别领域已经取得很好的成效,在信息抽取领域的应用也正在不断的尝试和推广中。3) 基于理解的分词方法:又称之为知识分词。知识分词是一种理想的分词方法,但这类分词方案的算法复杂度高,其有效性与可行性尚需在实际工作中得到进一步的验证。知识分词利用有关词、句子等的句法和语义信息或者从大量语料中找出汉字组词的结合特点来进行评价,以期找到最贴近于原句语义的分词结果。6. 分词软件的设计综合题1) 分词是将连续的字序列按照一定的规范重新组合成词序列的过程,中文分词与 其他分词不同,比如:英文中单词之间是以空格作为自然分界符;中文只是字、句、段有明显的分界符;词没有一个形式上分界符;从字串到词串,是一个降低不确定性的过程。2) 利用找到歧义字段、建立歧义字段库解决分词歧义问题。3) 利用正向最大匹配法(流程图)、逆向最大匹配法(流程图)及最大概率分词法进行分词。l 正向最大匹配法(流程图 见 PPT)l 逆向最大匹配法:1) 将文章分成句子(通过标点符号来实现);2) 循环的读入每一个句子S,设句子中的字数为n;3) 设置一个最大词长度,就是我们要截取的词的最大长度 max4) 从句子中取n-max 到 n 的字符串 subword,去字典中查找是否有这个词。如果有就走(5),没有就走(6);5) 记住 subword,从 n-max 付值给 n,继续执行(4),直到 n=0.6) 将 max-1,再执行(4)。l 最大概率分词法:列出可能的拆分结果,查表,结果大的,为最终结果。基本细想:1) 一个待切分的汉字串可能包含多种分词结果2) 将其中概率最大的那个作为该字串的分词结果分词算法:1) 对一个待分词的字串 S,按照从左到右的顺序取出全部候选词w1, w2 , ,wi, , wn ;2) 到词典中查出每个候选词 的概率值P(wi) ,并记录每个候选词的全部左邻词;3) 按照公式1计算每个候选词的累计概率,同时比较得到每个候选词的最佳左邻词;4) 如果当前词wn是字串S的尾词,且累计概率P (wn)最大,则wn 就是S的终点词;5) 从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即为S的分词结果。7. 计算准确率、召回率和F值计算题答:准确率 P(Precision):结果中的正确样例数与结果中全部样例总数的比值。 召回率 R(Recall):结果中的正确样例数与实际存在的正确样例数的比值。 F 值:准确率和召回率的加权平均,一般用 F1。 (注意:让求的是 F1 还是 F 其它,然后带入相应的值值。)举例:用户利用某信息检索系统在资料库中检索与和服相关的文章。系统返回给用户篇文章:日本和服简介、和服的穿着方法、在日本试穿和服、新款和服特价销售、青岛东和服装厂简介。已知资料库中共有篇文章,其中有篇与和服有关的。请计算此次检索的准确率、召回率和F1值。答:结果中正确的样例数为:4结果集中的总样例数为:5P 准确率 = 4/5*100%=80%实际存在的正确的样例数为 8R 召回率 = 4/8*100%=50%F1=(2*80%*50%)/(80%+50%)=(2*4/5*1/2)/(4/5+1/2)=(4/5)/(13/10)=8/13第三讲 信息检索模型8. 信息检索系统的基本模式简答题从互联网上进行网页采集,然后将采集上来的网页进行分析处理,建立索引库,用户的查询与索引匹配,返回检索结果给用户。(最好将 PPT 上的图画出来,然后再详细解释)9. 布尔模型的原理简答题1) 布尔模型信息检索模型是最简单的信息检索模型,是基于集合理论和布尔代数的一种简单的检索模型。2) 文献表示为不带权重的标引词的集合。3) 查询表示为标引词的布尔表达式,用逻辑符“and”、“or”、“not”来组织关键词表达式。4) 联系机制为:布尔表达式转换为集合表达式,即布尔算子and 、or、not替换为交、并、补。5) 在结果集合里的文本是相关的,其他是不相关的。10. 利用布尔模型(集合论)的搜索引擎的实现综合题布尔模型信息检索模型是最简单的信息检索模型,是基于集合理论和布尔代数的一种简单的检索模型。文献表示为不带权重的标引词的集合;查询表示为标引词的布尔表达式,用逻辑符“and”、“or”、“not”来组织关键词表达式。联系机制为:布尔表达式转换为集合表达式,即布尔算子and 、or、not替换为交、并、补。在结果集合里的文本是相关的,其他是不相关的D(文献表示)表示为不带权重的标引词的集合,或者说,二值的标引词权重 wi,j=0 或者 wi,j=1Q(查询)表示为标引词的布尔表达式用 and、or、not 连接标引词构成查询F(联系机制)布尔表达式转换为集合表达式布尔算字 and、or、not 替换交、并、补R(排序)对于每个标引词ki,得到一个文本的集合 Dki=dj|wi,j 在结果集合里的文本是相关的,其他是不相关的。11. 向量空间模型的原理简答题将文献表示为带权重的标引词的集合,权重表示该索引词与该文本的相关程度。将用户的查询也表示为带权重的标引词的集合,权重表示标引词与用户需求的相关程度。将文本与用户的查询的相似度转化为向量(t 维空间的向量)之间的计算,可以采用向量内积或向量夹角余弦方式进行计算。查询被当作为假想的文本。1) 向量模型用检索项的向量空间来表示用户的查询要求和数据库文档信息。查询结果是根据向量空间的相似性而排列的。2) 向量空间模型可方便地产生有效的查询结果,能提供相关文档的文摘,并对查询结果进行分类,为用户提供准确的信息。3) 向量空间模型的基本思想是以向量来表示文本:(W1,W2,W3Wn),其中 Wi 为第 i 个特征项的权重,那么选取什么作为特征项呢,一般可以选择字、词或词组。4) 要将文本表示为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量的维数来表示文本。12. 计算用向量表示的网页的相似度计算题注意:权值的值实际上是由 tf*Idf 算出来的,如果题目中未给出相应的值,则可以通过tf*Idf 算出来,具体算法见13题。13. 计算特征项权重(tf*idf方法)计算题公式: tf*log(N/df)其中 n 为文献的个数;tf 为该词在当前文献中出现的次数;df 为出现该词的文献的个数。例题详见 PPT 3 建模 P32。14. 利用向量空间模型的搜索引擎的实现综合题1) 概念、定义及用户需求:向量空间模型是基于线性代数的一种信息检索模型,它用检查项的向量空间来表示用户的查询要求和数据库文档信息,查询结果是根据向量空间的相似性而排列的。向量空间模型可方便地产生有效的查询结果,能提供相关文档的文摘,并对查询结果进行分类,为用户提供准确的信息。2) 基本思想、算法和数学推导向量空间模型的基本思想是以向量来表示文本:(W1,W2,W3Wn),其中 Wi 为第 i 个特征项的权重,那么选取什么作为特征项呢,一般可以选择字、词或词组。要将文本表示为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量的维数来表示文本。D(文献表示)文本表示为带权重的标引词的集合,dj=w1,j, w2,j, , wt,j权重表示该标引词与该文本的相关程度Q(查询)查询也表示为带权重的标引词的集合, q=w1,q, w2,q, , wt,q权重表示标引词与用户需求的相关程度F(联系机制)文本和查询有同样的表示( t维空间的向量)查询被当作为假想的文本R(排序)用向量夹角的余弦计算dj和q的相似度可能遇到的技术难点有两个方面:特征项权重、降维3) 可能遇到的技术难点:特征项权重、降维索引过程首先要从文献中抽取重要词,把它们映射到特征项集中,进行权重计算。由于文献中不同词汇的出现频率随文章的内容和作者的习惯而不同,因此,最初的索引系统都是从应用词频开始的。实际应用中显得有些粗糙,比如:为什么中频词好?两个阈值怎么选取?等等,但是,这些思想为信息检索系统中项的选取奠定了基础。4) 改良方案简单地把所有的词汇都作为文献的特征项,检索效果并不很好,不同的词汇对文献的表示作用不同。一般说来,常用词在所有文献中都有着较高的频率,区分度低;罕用词在文献集中的出现次数较少,难以确定它们的统计规律,相关度低;而中等频率的词汇常常与文献所表示的主题相关,区分度较高,表示能力最强,最有价值。有价值的特征项应具备以下特征:相关度(与文献内容有关,以便在需要时进行索引项的检索)区分度(能将一篇文献与其它文献区分开),通过项频率tf(文献内频率)和反比文献频率idf(inverse document frequency)来度量特征项的价值。5) 用向量空间构造的搜索引擎的应用的展望:第四讲 跨语言信息检索15. 跨语言信息检索的原理简答题跨语言信息检索(CLIR)是指以一种语言的提问式检索出其它语言信息的一种检索方法。一般认为,跨语言信息检索是信息检索与机器翻译相结合的技术.跨语言信息检索是涉及到多种新的概念,是各种技术的有机结合。一般CLIR系统包含以下三个步骤:(1)多语言信息的搜集以及存储;(2)应用NLP、机器翻译等技术实现源语言与目标语言的统一;(3)利用传统的单语检索技术实现查询与文档之间的匹配。其中,步骤(2)是实现CLIR的关键。根据翻译方向的不同;当前的跨语言检索方法大体可以分成以下四种种方式:将源语言表示的查询翻译到目标语言,即查询翻译方法;将目标语言表示的文档翻译到源语言,即文档翻译方法;将查询和文档同时翻译到另一中间语言,即中间语言翻译方法。除此之外,还有基于本体的非翻译方法16. 基于规则的机器翻译方法的原理简答题又称传统的翻译方法,是基于语言规则的理性方法,,强调人对语言知识的理性整理。基于规则的机器翻译方法认为翻译的过程是需要对源语言的分析和源语言意义的表示,然后再生成等价的目标语言的过程。根据翻译过程的不同,规则方法可分为两种主要方法:基于转换的方法的翻译过程包括三个阶段:分析得到一种源语言的抽象表示;把源语言的抽象表示转换为目标语言的抽象表示;由目标语言的抽象表示生成目标语言。基于中间语言的方法在对源语言分析后产生的是中间语言,而目标语言的生成是直接由这种中间语言开始的。17. 基于实例的机器翻译方法的原理简答题基于实例的机器翻译的本质是“以翻译实例为基础,基于相似原理的机器翻译”,其利用的主要知识源是预处理过的双语语料和翻译词典。基于实例的翻译过程通常包括三步:在翻译实例库中搜索匹配片段;确定相应的译文片段;重新组合译文片段以得到最终翻译。18. 基于统计的机器翻译方法的原理简答题是目前非限定领域机器翻译中性能较佳的一种方法。基本思想是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型进行翻译。统计机器翻译的首要任务是为语言的产生构造某种合理的统计模型,并在此统计模型基础上,定义要估计的模型参数,并设计参数估计算法。一般来说需要参考语料进行有监督训练。19. 跨语言信息检索的应用简答题基于Web的搜索引擎是跨语言信息检索的一个重要应用领域,世界上主要的搜索引擎都相继实现了跨语言信息检索的功能。跨语言信息检索还可以应用于数字图书馆和对专业数据库的检索等领域20. 跨语言信息检索的原理是什么?主要技术有哪些?简答题 跨语言信息检索是将及其翻译技术融入到传统信息检索中。主要有基于规则的方法、基于实例的方法和基于统计的方法。21. 跨语言信息检索的构建综合题请仔细阅读参考资料一种新的基于中间语义的跨语言信息检索模型.pdf第五讲 文本分类22. 文本分类的一般过程简答题文本自动分类是指在给定的分类体系下,根据文本的内容用计算机程序确定文本所属类别的过程。一般采用机器学习的方法进行自动文本分类。即:基于训练集的文本自动分类。文本分类的一般过程为:1. 收集训练集和测试集,对文本进行预处理2. 对文本类别进行人工标注3. 对文本进行特征提取4. 训练(学习)5. 评价a) 精确率、召回率、F1宏平均(关于类别的均值),微平均(关于文本的均值)23. 文本分类的常用方法简答题1. Rocchio方法: a) 每一类确定一个中心点(代表元),计算待分类的文档与各类代表元间的距离,并作为判定是否属于该类的判据。b) 构造方法:给定一个类,训练集中所有属于这个类的文档对应向量的分量用正数表示,所有不属于这个类的文档对应向量的分量用负数表示,然后把所有的向量加起来,得到的和向量就是这个类的原型向量。c) 定义两个向量的相似度为这两个向量夹角的余弦,逐一计算训练集中所有文档和原型向量的相似度,然后按一定的算法从中挑选某个相似度作为界d) 给定一篇文档,如果这篇文档与原型向量的相似度比界大,则这篇文档属于这个类,否则这篇文档就不属于这个类。训练文本 Rocchio分类2. K-Nearest Neighbor: 基本思想:在给定新文本后,考虑在训练文本集中与该新文本距离最近(最相似)的K 篇文本的类别做为该文档的候选类别。该文档与K个邻居间的相似度按类别分别求和,减去一个预先得到的截尾阀值,就得到该文档的类别测度。3.4. 决策树方法: 决策树通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。树上的每一个节点说明了对实例的某个属性的测试,并且该节点的每一个后继分支对应于该属性的一个可能值5. 朴素贝叶斯、神经网络。24. 文本分类技术的应用简答题随着科学技术的迅猛发展,特别是随着因特网的快速发展,各种信息情报激增,特别是网上信息浩如烟海,人们可能通过因特网能很快地得到大量的资料,因此如何对所获得资料进行科学有效地管理是摆在人们面前一个不可回避而又很有意义的问题。对资料进行管理一个很常见的方法就是对它们系统地进行分类。用人工对文本材料进行分类具有周期长、费用高、效率低的特点,在信息爆炸的今天很难满足实际需要,因此运用计算机进行自动分类成为了人们的研究方向。文本分类技术可以应用于以下领域:1. 新闻出版按照栏目分类2. 类别政治,体育,军事,3. 网页分类4. 类似于Yahoo的分类5. 个性化新闻6. 智能推荐7. 垃圾邮件过滤8. 类别spam, not-spam25. 文本分类系统的构建综合题请参考资料文本自动分类系统的研究与实现.pdf第六讲 自动文摘26. 自动文摘的分类简答题自动文摘有多种分类方法注意:每种定义的解释请参考课件,答题时可适当对每种定义进行解释1) 按文摘面向的用户:划分通用文摘;偏重文摘。通用文摘和偏重文摘的区别在于是否考虑了用户的兴趣。通用型文摘就是面向所有用户的、文摘内容不带有任何侧重的、全面反映原文内容的文摘。对于一篇长的文章,如果用户只关心某一方面(例如工业) ,这就涉及到了偏重问题。偏重文摘也称为用户聚焦文摘、主题聚焦文摘或查询聚焦文摘。根据需要或者用户的兴趣提供相应的有侧重点的文摘。偏重文摘的结果不仅仅决定于原文的主题,也决定于用户的个性化要求,它能够把焦点放在用户关心的部分,而不是把原文的每个部分平等对待。2) 按文摘处理的文本对象划分:a) 单文档文摘:处理的对象是单篇文摘,它对每篇文章独立生成文摘。b) 多文档文摘:实际上是对单文档文摘的一个扩展,比单文档相比较需要一些新的技术和方法来处理。3) 按文摘的制作方法划分:a) 基于统计的自动文摘;b) 基于理解的自动文摘;c) 信息抽取型自动文摘;d) 基于结构的自动文摘27. 基于统计的自动文摘的原理简答题将文本视为句子的线性序列,将句子视为词

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论