信息检索搜索引擎数据采集语音识别自然语言处理论文.doc_第1页
信息检索搜索引擎数据采集语音识别自然语言处理论文.doc_第2页
信息检索搜索引擎数据采集语音识别自然语言处理论文.doc_第3页
信息检索搜索引擎数据采集语音识别自然语言处理论文.doc_第4页
信息检索搜索引擎数据采集语音识别自然语言处理论文.doc_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于自然语言理解的智能检索接口技术的研究及其应用【摘要】 随着互联网信息量的爆炸式增长,当今的时代已经成为了信息的时代,信息检索技术也在逐步趋向成熟,信息检索工具搜索引擎也层出不穷。但是用搜索引擎检索信息并不总是让用户满意,一方面由于任何一个搜索引擎都不可能覆盖互联网上的所有网页,这样就会致使用户检索不到所需要的信息;另一方面由于搜索引擎自身的因素,没能正确准确的理解用户的语意而导致的不满足用户的检索需求;另外,由于搜索引擎用户逐年增加,人群遍及各行各业,年龄从老到幼,他们使用搜索引擎的方法不当引起没能检索到有用信息。所以近年来研究搜索引擎技术的学者越来越多,最终的目的是使搜索引擎使用起来能够更加的方便。作为河北省教育厅2009年度科学研究计划,本课题研究的是基于自然语言的智能检索接口技术的研究以及在高等艺术教育网中的应用,在课题中主要针对自然语言的处理以及利用语音进行输入进行了研究,重点做了以下工作:1)数据采集,主要在网络上采集艺术类网页,并对网页内容进行分析提取,再将网页标题、正文等有用信息存入数据库。在网页采集过程中,使用了在网页中的去噪方法,将网页信息的标题和内容等有用信息提取出来,为后续的检索打下基础。2)利用语音进行检索输入,语.更多还原【Abstract】 With the explosive growth of Internet information, todays era has become the era of the information. Not only information retrieval technology has become gradually maturing, but also the tools of information retrieval-search engine are increasingly. But using search engines to search information do not always make the customer satisfied. On one hand, it can not cover all the pages on the Internet for any search engine. On the other hand, because of the factors of the search engine itself, it ca.更多还原 【关键词】 信息检索; 搜索引擎; 数据采集; 语音识别; 自然语言处理; 【Key words】 Information retrieval; search engine; data acquisition; speech recognition; natural language processing; 【索购全文】Q联系Q:138113721 Q联系Q: 139938848付费即发摘要 4-5 Abstract 5-6 第1章 绪论 9-13 1.1 课题意义和应用前景 9-11 1.2 课题的主要工作 11-12 1.3 章节安排 12-13 第2章 信息检索相关工作综述 13-21 2.1 信息检索概述 13-15 2.1.1 全文检索 13-14 2.1.2 信息检索的评价指标 14-15 2.2 概念检索 15 2.3 搜索引擎 15-17 2.3.1 全文搜索引擎 16 2.3.2 目录搜索引擎 16-17 2.3.3 元搜索引擎 17 2.4 自然语言处理 17-19 2.4.1 基于句模的技术 18-19 2.4.2 问答系统 19 2.5 语音技术概述 19-20 2.6 本章小结 20-21 第3章 智能信息处理的信息采集 21-31 3.1 概述 21-22 3.1.1 网页爬取策略 21 3.1.2 网络爬虫概述 21-22 3.2 工作流程 22-23 3.3 信息的提取 23-25 3.3.1 去噪 23-24 3.3.2 有用信息的提取 24-25 3.4 有用信息的存储 25 3.5 实验结果与分析 25-30 3.5.1 WebLech 简介 25-26 3.5.2 抓取过程 26-28 3.5.3 实验结果比较 28-30 3.6 本章小结 30-31 第4章 搜索引擎中对检索输入的研究 31-41 4.1 所需硬件环境 31 4.2 语音输入的实现 31-33 4.3 实验结果与分析 33-40 4.3.1 微软语音输入法简介 33 4.3.2 实验过程与结果的比较 33-39 4.3.3 实验结果的分析 39-40 4.4 本章小结 40-41 第5章 自然语言处理 41-55 5.1 重定向 41-43 5.1.1 重定向的条件 41 5.1.2 重定向的实现 41-43 5.2 添加增删概念 43-44 5.2.1 添加增删概念的意义 43 5.2.2 添加增删概念的实现原理图 43-44 5.3 数据字典的扩充 44-46 5.3.1 数据的准备 45 5.3.2 扩充的实现 45-46 5.4 疑问句的检索 46-48 5.4.1 问答式提问句的分析 46 5.4.2 疑问

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论