计算机检索技术论文_第1页
计算机检索技术论文_第2页
计算机检索技术论文_第3页
计算机检索技术论文_第4页
计算机检索技术论文_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、河北农业大学计算机检索技术论文姓名:张晓腾专业:计算机科学与技术 1101班学号:2011614530226 指导教师:赵洋摘要问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言 处理技术。本文充分结合了汉语语言的特点以及计算语言学的技术,对问答系统中信息检索 模块进行了深入分析,指出了在实际的使用问答系统的时候,用户的回答质量参差不齐。关键词:问答系统,信息检索,文档质量,语言模型,最大熵独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据 我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的 研究成果。

2、1绪论随着科学技术发展,尤其是信息技术突飞猛进,一方面人们在理论上的信息拥有量不断 膨胀不断丰富,一方面人们对信息的需求也与日俱增,对信息的质量和相关度的要求也越来 越高,现有的检索系统,无论是受限领域的检索还是互联网搜索引擎,一般都是基于关键 字检索。1. 2本文的主要工作及篇章结构本文首先对问答系统的背景和研究现状做出了阐述,然后介绍了中文问答系统的体系结构。从功能和技术两个角度对现有问答系统进行划分,并分析各种系统的特及优 缺点。然后从系统框架、系统资源以及自然语言本身对基于自然语言的中文问答系统进行了 详细的介绍,与传统的搜索引擎做了一个横向的对比。紧接着对问答系统一个核心环节(信 息

3、检索环节)的四个模型进行了分析,通过将文档质量融入到检索模型中对现有的检索模型 做出了改进,最后通过试验验证了这种改进的有效性。本文篇章结构如下:第一章介绍了问答系统的相关背景知识以及研究现状。第二章分析了中文问答系统的体系结构。第三章阐述了基于自然语言处理的中文问答系统的系统结构,还介绍了自然语言处理 第四章分析了四种传统的检索模型以及基于语言模型的检索模型的优缺点。第五章结论2中文问答系统的概述21中文问答系统体系结构中文问答系统除了需要具有一般问答系统的功能处理外,还需要考虑中文的特性,在自 然语言处理中,中文在语法语义语用等诸方面都存在有别于西文的特性,比如分词处理和词 性标注上面。因

4、此,国外的先进技术往往不能直接应用,只有将国外成熟的技术模型与中文 信息处理相结合,才能取得较好的结果。2.2问答系统分类现有问答系统的分类,大致可以分为:聊天机器人、基于知识库的问答系统、问答式检 索系统以及基于自由文本的问答系统。2. 2。1聊天机器人2. 2. 2基于知识库的问答系统2. 2. 3问答式检索系统2. 2. 4基于自由文本的问答系统2 . 3问答系统技术分类目前的问答按技术分为以下几类:基于事实性问题问答技术、基于问答模式匹配的问答 技术和基于自然语言处理的问答技术,分别介绍如下。2. 3. 1基于事实-性问题的问答技术2.3.2基于问答模式匹配的问答技术2.3.3基于自然

5、语言处理的问答技术3基于自然语言处理的中文问答系统概述3. 1系统框架系统主要包括五个部分:问题理解、信息检索、信息处理、答案抽取、问题理解 (QuestionAnalysis);信息检索(Information Retrieval);信息处理(Inforraation Processing);答案抽取(Answer Extraction).3. 2系统资源基于自然语言的问答系统,其实现需要自然语言处理、知识聚类、数据挖掘等技术支撑。在充分利用这些技术的同时,也必须建立相应的系统资源。3. 3自然语言处理.自然语言处理的任务是对语言的字、词、句、篇章的语音形式和书面形式进行输入、输 出、统计、

6、检索、识别、分析、理解和生成。研究的核心问题是语言的自动理解(Language Understanding)和自动生成(Language Generation)。所以,计算语言学理论的任务是描述 和解释自然语言的现象和规律,建立形式化的语言模型,并且提供相应的算法,使其得以在 计算机上实现。自然语言处理的应用目标是使人与计算机之间用自然语言进行交流。具体说 是建立各种处理自然语言的计算机应用软件系统。一般来说,科学研究转化为产品的过程是 从理论研究、应用研究到应用技术。在我国的语言处理领域,人们也一直向往着能从某种语 言理论衍生出相应的处理汉语的应用系统。然而,由于学科发展的局限性和汉语本身的

7、复杂 性。4信息检索41传统的检索模型传统的信息检索,主要是起源于图书的管理学,早期通过人员的手动编制,对每笔资料 定义其索引字(indexterm),用数个最符合文件内容的关键词来代表其整体含义,而用户只 能透过关键词的输入来进书名或文件的检索:时至今日,检索模型主要衍生有几大类:布尔 模型(Boolean Model)、模糊逻辑模型(Fuzzy LogicModel)、向量模(Vector Model)及概率 模型(Probability Model)。42基于语言模型的信息检索1统计语言模型。语言建模技术要解决的问题是,对于一个服从某个未知概率分布P的语言L,如何根据给 定的样本集估计P

8、因此通过语言模型可以决定哪一个词序列的可能性更大或是已知若干个 词,预测下一个词。语言模型首先在语音识别中提出,后来陆续用到光学字符识别、手写字 识别、机器翻译、信息检索等领域。语言模型最常用的是N元模型,如果用变量w代表一个文 本中顺序排列的11个词,即W-wlW2 Wn,则统计语言模型的任务是给出任意词序列w在文本 中出现的概率P(w)。2语言模型中的平滑技术。加1 平滑(Additive smoothing); Good. Turing估计;退化法(Backing-offsmoothingmodel;线性插值法(L inear Interpolated smoothing model)3

9、基于语言模型的以模型的概念。最近几年提出的语言模型检索系统将语音识别领域的语言模型技术引入信息检索领域 来改善检索系统的性能。Ponte和CroR在1998年首先提出基于语言模型的信息检索系统,他 们根据词汇的分布规律为文档集合中的每篇文档构建一元语言模型,查询条件在概念上被理 解为由文档的语言模型通过随机过程生成的语言实例,而文档与查询条件的相关度评价标准 就是由文档语言模型生成查询条件概率的大小,生成概率越大也就是说该文档和查询条件越 相关。Miller等人将检索过程看作是一个隐马尔可夫随机过程,通过将文档语言模型和一般 语言模型平滑处理相结合来计算查询条件和文档的相关度,这个方法在TREC评测中获得很好 的性能。语言模型检索方法因为其比较坚实的数学理论基础,简洁的概念模型和实际评测中 相对于传统的向量空间模型能够获得更好的检索效果等优势因素逐渐引起相关研究人员的5.1结论本文对中文问答系统做出较为全面具体的总结与回顾,特别是在问答系统的关键模块之 一信息检索模块中提出了自己的一些想法。张晓腾二0一二年十月参考文献【1】全球互联网状况统计.http:/www. clickz. com / stats【2】英国莫里(MORD调查公司.htip:/ www. mori. corn /【3】D. Moldovan et a1.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论