已阅读5页,还剩60页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大学计算机基础 湖南工业大学计算机与通信学院 湖南工业大学计算机公共基础课程系列 第七章信息检索与应用基础 湖南工业大学计算机与通信学院 湖南工业大学 大学计算机基础 学习目标 1 了解信息检索相关的概念 2 掌握信息检索的方法和技术 3 了解常用中外数据库检索系统 4 了解如何利用综合信息资源 重点 难点 3W 1H学习法 什么是信息检索和检索系统 如何利用计算机资源进行信息检索 为什么要学习要信息检索的相关方法和技巧 信息检索的应用和强大功能体现在哪些方面 3W 1H 目录 一种多方互动式学教系统 发明专利 一种多方互动式学教系统 发明专利 一种多方互动式学教系统 发明专利 一种多方互动式学教系统 发明专利 7 1 1问题提出 信息检索的定义What 所谓 信息检索 InformationStorageandRetrieval 它是指将信息按照一定的方式组织和存储起来 并能根据用户的需要找出其中相关信息的过程 信息检索系统 InformationRetrievalSystem 是指根据特定的信息需求而建立起来的一种有关信息搜集 加工 存储和检索的程序化系统 其主要目的是为人们提供信息服务 7 1 2信息检索的发展历程 计算机信息检索的发展过程 第一阶段 第二阶段 第三阶段 脱机批处理检索 联机检索 网络化信息检索 7 1 3信息检索的原理 信息检索的基本原理 信息检索广义上讲包括信息的存储和检索两个方面 信息的存储过程是 将收集到的原始文献进行主题概念分析 根据一定的检索语言抽取出主题词 分类号以及文献的其他特征进行标识或者写出文献的内容摘要 然后再把这些经过 前处理 的数据按一定格式输入到计算机存储起来 信息的检索过程是 用户对检索课题加以分析 明确检索范围 弄清主题概念 并用系统检索语言来表示 然后形成相应的检索标识及检索策略进行检索 7 2信息检索的方法和技巧 7 2 1信息检索的方法 1 布尔逻辑检索即运用布尔逻辑算符对检索词进行逻辑组配 来表达两个概念之间的逻辑关系 布尔逻辑算符主要有 AND OR NOT 如逻辑与 用运算符AND或 连接检索词 例1 查 有关计算机在图书馆中的应用 的文献 检索式 计算机 图书馆 例3 查 玉米但不是甜玉米 方面的文献 检索式 玉米 甜玉米 例2 查 苹果或梨 方面的文献检索式 苹果 梨 2 位置算符检索在检索式中 检索词的相对次序不同 表达的检索意图也不一样 布尔逻辑运算符有时难以表达某些检索课题的确切提问要求 用词间位置算符来限定和组配检索词 可弥补布尔逻辑算符造成误检的不足 位置算符检索就是利用一些特定的位置算符来表达检索词之间的位置关系 有的书上把这种检索称为原文检索 常用的位置算符有 W W N WITH WITHIN nW PRE N NEAR ADJ nN F SAME 下面介绍使用频率较高的几个位置算符 1 W W N WITH WITHIN 功能 两词相邻 按输入时顺序排列 也有数据库允许顺序颠倒 表达式 Education W school或EducationWITHschool检索结果 Educationschool educationschools 2 SAME 功能 两词出现在同一自然句中 其词序与词量不受限制表达式 EducationSAMEschool检索结果 Education和school两词出现在同一句子中即可 3 截词检索截词运算符号有两个 它们在不同系统中表示的含义不同 1 有限截词 即在检索词后后截几个有限的字母 如名词的单复数 动词的词尾变化等 原因 在英语词汇中 一个词可能有多种形态 如词的单 复数形式的不同 英美拼写方法不同 词性不同等 如输入computer 表示有0 2个字母变化 可检出computer和computers 输入stud 表示截断处有0 3个字母变化 可检出study studies tudied studing 2 无限截词 在检索词后加一个 表示该词后可加任意个字符 使用无限截词 所截词根不能太短 否则会输出许多无关文献 造成误检 如 computer 可检出computers computering computered computerization 3 中间截词 在检索词中间加一个或几个 号 主要解决一些英美拼写不同 可简化单复数形式不同的词的输入 如 输入wom n可检出woman women 4 词组检索将一个词组或短语用双引号 括起作为一个独立运算单元 进行严格匹配 以提高检索准确度 如 GlobalPositioningSystem 只检索出规定字段中包含完整词组的记录 5 字段限制检索将检索词限定在某一字段中 检索时 计算机只对限定字段进行运算 以提高检索效果 常用的检索符号有 in 例 限定在某字段中检索 后跟一个字段名 如appleinti ti表示题目字段 表示命中文献中 apple 一词必须在题目中出现 6 括号检索用于改变运算的先后次序 括号内的做优先运算 如比较 GPSORGIS ANDChinaGPSORGISANDChina 总结 在一个复杂的检索式中 不仅可以有多个运算符 也可以使用括号来指定运算的优先顺序 以及体现概念的完整性 7 2 2网络信息检索的常用技术 1 全文信息检索技术 全文检索是指以文档的全部文本信息作为检索对象的一种信息检索技术 目前搜索引擎基本上都采用全文检索技术 搜索引擎 searchengine 是指根据一定的策略 运用特定的计算机程序搜集互联网上的信息 在对信息进行组织和处理后 将信息显示给用户 目前常用的搜索引擎有百度 google等 1 百度搜索2000年1月1日 公司创始人李彦宏 徐勇携120万美元风险投资 从美国硅谷回国 创建了百度公司 现在百度已是全球最大的中文搜索引擎 在浏览器的地址栏中输入 即进入百度搜索 演示 常用的搜索引擎 2 Google搜索引擎Google成立的第一步始于1998年 Google创始人LarryPage和SergeyBrin在斯坦福大学的学生宿舍内共同开发了全新的在线搜索引擎 在浏览器的地址栏中输入 3 其他搜索引擎除上述两种最常用的搜索引擎外 还有其它一些搜索引擎 搜狗 2 多媒体信息检索技术 多媒体信息资源是数字图书馆中独具特色的一类信息资源 既包括数字化的文本信息 图形与图像信息 又包括数字化的视频与音频信息 当词语难以形象和准确地描述视觉或听觉感知时 例如一种东西的式样 颜色或纹理 用户就需要利用媒体呈现的视觉和听觉特性来查询 多媒体信息检索包括 1 图像信息检索 2 音频信息检索 3 视频信息检索 3 超文本和超媒体信息检索技术 超媒体和超文本都以非线性方式组织信息 本质上具有同一性 在超文本中 信息的主要形态是文本和图形 以节点形式存储信息 实现相关节点间的非线性 联想式检索 而超媒体是一种在一条条信息间创建明确关系的方法 它把超文本的含义扩展为包含多媒体对象 而且能够实现音频与视频信号的同步 Internet上的WWW可以实现超文本和超媒体的信息检索 4 智能信息检索技术 数据库系统是储存某个学科大量事实的计算机系统 随着应用的进一步发展 存储的信息量越来越大 因此解决智能检索的问题具有了实际意义 智能信息检索系统应具有如下的功能 1 能理解自然语言 允许用自然语言提出各种问题 2 具有推理能力 能根据存储的事实 演绎出所需的答案 3 系统具有一定的常识性知识来补充学科范围的专业知识 系统根据这些常识 将能演绎出更一般的答案来 当然 实现这些功能要应用人工智能的方法 5 文本聚类技术 文本聚类是进行文本信息检索的重要方法 被广泛应用于网络信息和档案资料的筛选和检索 聚类就是按照事物间的相似性进行区分和分类的过程 国内外的研究者提出了很多聚类算法 这些算法被用于众多应用领域 如模式识别 数据分析 图象处理以及市场研究等 7 2 3网络信息检索的策略与技巧 网络信息检索存在的问题 网络信息检索的技巧 检索策略 什么是检索策略 为实现检索目标而制定的全盘计划或方案 检索策略的概念 未完待续 信息检索策略 本节通过对国内外常用数据库资源的介绍 让大家对各个数据库的收录范围 检索功能 收录核心期刊 检索结果等情况进行有效地分析和评价 因而能够确切地区分其特点和功能 进行有目的地选用 7 3常用数据库检索系统的介绍 7 3 1常用中文检索数据库 1 期刊检索CNKI 中国知识基础设施工程 工程于1995年正式立项 在政府及社会各界多方努力下 经过10年建成了世界上全文信息量规模最大的 CNKI数字图书馆 并全力建设 中国知识资源总库 以 中国知网 为网络出版与知识服务平台 通过产业化运作 为全社会提供最丰富的信息资源和数字化学习平台 可以通过中国知识基础设施工程 CNKI 的网址 演示 图7 4中国期刊全文数据库检索主页 目前有很多电子图书的检索 下面先介绍一种目前最方便 也颇受争议的电子图书 google电子图书 电子图书是指以数字代码方式将图 文 声 像等信息存储在磁 光 电介质上 通过计算机或类似设备使用 并可复制发行的大众传播体 2 电子图书检索 进入google电子图书很容易 它无需任何阅读器 即能在IE上阅读 在IE地址栏上网址 举例 查询关于EXCEL这本书 方法 在搜索栏中输入 excel 然后单击 搜索图书 则搜索出如图所示 选择感兴趣的图书即可 3 中国学位论文文摘检索数据库 CDDB 收录了自1977年恢复高考以来我国自然科学 哲学 经济 管理 语言 文学等领域博士 博士后及硕士研究生论文 其中文摘已达40余万篇 它不但是我国最早建设的全国性学位论文数据库 而且也是我国目前收录学位论文信息最多 最全的数据库 1 中国学位论文全文数据库检索介绍 先登录某图书馆 清华 主页 数据库 中文数据库 万方数据资源系统 学位论文全文 如图所示 2 其他中文学位论文网站 CNKI中国优秀博硕士论文全文数据库 至2005年8月止 累积博硕士学位论文全文文献近25万篇 文摘网上可免费检索 7 3 2三大外文检索数据库 1 EI数据库检索 1 简介美国 工程索引 TheEngineeringIndex 简称EI 创刊于1884年 由美国工程信息公司编辑出版 所报道的文献学科覆盖面广 涉及工程技术领域各个方面 经过100多年的发展 工程索引 已经成为全球工程技术领域最著名的检索系统 同时它也是世界引文分析和文献评价的四大检索工具之一 2 检索方法举例 点击进入某图书馆 如武汉大学图书馆电子资源 如图所示 EI检索 2 SCI数据库检索 SciFinderScholar数据库为CA 化学文摘 的网络版数据库 它收录了访问全世界9500多种主要期刊和50多家合法专利发行机构的专利文献中公布的研究成果 事实上囊括了自20世纪以来所有与化学相关的资料 以及大量生命科学及及其它科学学科方面的信息 学科领域覆盖普通化学 农业科学 医学科学 物理学 地质科学 生物和生命科学 工程科学 材料科学 聚合物科学和食品科学等 SciFinderScholar检索方法与EI类似 3 ISTP 科技会议录索引 科技会议录索引 IndextoScientific TechnicalProceedings 简称ISTP 创刊于1978年 由美国科学情报研究所编辑出版 该索引收录生命科学 物理与化学科学 农业 生物和环境科学 工程技术和应用科学等学科的会议文献 包括一般性会议 座谈会 研究会 讨论会 发表会等 注 4 科学评论索引 IndextoScientificReviews 简称ISR 也是由ISI公司出版的 每年收录200多种综述出版物和3 000多种期刊中的综述类文献 学科范围与SCI基本相同 与前面介绍的EI SCI和ISTP称为四大检索工具 7 4信息资源的综合利用 7 4 1文献信息资源的收集与整理 1 文献资源的类型文献资源是信息资源的主要组成部分 我们通常说的信息检索主要是指文献信息的检索 按照不同的分类标准 将文献信息资源进行以下分类 1 按出版形式分 文献可分为图书 期刊 报纸 科技报告 会议文献 专利文献 标准文献 政府出版物 产品样本 技术档案和学位论文等 二次文献 SecondaryDocument 是指将分散的无组织的一次文献进行搜集 提炼 浓缩 加工 整理 并按一定的科学方法编排 编辑出版的文献 如目录 题录 文摘 索引 各种书目数据库等 一次文献 PrimaryDocument 是指作者以本人在生产与科研或理论探讨中所获得的第一手材料为基本素材撰写的论文 如期刊论文 科技报告 会议论文 专利说明书等 2 按信息资源的加工层次分 三次文献 TertiaryDocument 是对一次文献和二次文献的内容进行综合分析 系统整理 高度浓缩 评述等深加工而形成的文献 如 综述 述评 词典 百科全书 年鉴 指南数据库等 2 文献资源的整理与组织 通过各种方法搜集获得的信息资源通常是无序的 而且有可能混杂着许多陈旧 虚假甚至错误的信息 因此有必要对所搜集的资料进行筛选 鉴别并进行整理与组织 以便更好的利用 文献信息的组织方法 按文献信息的形式特征即按文献的题名 作者 发表或出版时间 地区等特征进行组织 按文献信息的内容特征即按文献的分类 主题等特征组织 3 信息资源的评价与分析 当我们利用检索系统或其他信息源找到一些与研究相关的信息资料 并且经过整理组织归类之后 还是发现并非所有的资料都是适合课题研究的 因此 有必要对文献资料进行去粗取精 去伪存真的工作 从中筛选出高质量 高水平 真正有价值的材料 1 文献信息资源的评价 可靠性 先进性和适用性 可靠性 指资料的技术内容的科学性 真实性 准确性及完整性 一般来说 由著名学者和专家撰写 著名出版社出版 官方与专业机构人员提供 登载在核心期刊上以及引用利用率较高的文献 其可靠性较大 先进性 可以从时间和空间两方面来考虑 表现在时间上 主要指信息内容的新颖性以及文献内容在原有基础上是否有创新或突破 表现在空间上 可以通过信息内容的领先程度和水平来判断 也可从资料的来源 发表的时间等方面来判断 如由科技发达的国家发表 世界著名期刊刊载的等 适用性 是指文献资料对用户的适合程度与范围 即资料是否与所从事的课题相关或密切相关 2 文献信息资源的分析 文献信息分析就是根据特定课题的需要 对搜集到的大量文献信息资料和其他多种有关的信息进行研究 通过一定的方法 系统地提出可供用户使用的分析结果的一项工作 文献信息的分析结果 即可作为文献信息评价的依据 也可以作为一种研究成果 以论文形式发表或研究报告的形式予以公布 4 文献综述的撰写 文献综述既是一种文献信息调研报告 又是学术论文的一种形式 它是通过全面系统的搜集某一特定研究领域的全部或大部分相关文献资料 并经过阅读 理解 分析 比较 归纳的基础上 对该课题的发展过程 发展趋势及存在的问题等 进行全面介绍 综合分析和评论而形成的一种不同于一般论文的文体 先了解什么是文献综述 接下来 了解文献综述的撰写要求 应系统全面查阅与自己研究方向有关的国内外文献 特别不能遗漏那些有代表性 经典的 重要的文献 做到既要大量占有文献 又要有所取舍 突出精华 要对选择好的文献进行仔细消化 通过阅读原始文献 阐述自己研究内容的背景和发展情况 前人的主要研究成果 存在问题 综述某一领域中的最新进展 应该有述有评 要有自己的观点和见解 切忌局限在对前人工作的简单机械罗列 在分析评价前人研究的基础上归纳出几个热点或前沿问题 并提出对未来发展的展望以及今后的研究方向 要注意引用文献的代表性 可靠性和科学性 引用的文献应是能反映主题全貌并且是作者直接阅读过的文献资料 主要参考文献尤其是文中引用过的参考文献不能省略 7 4 2学术论文的写作 1 学术论文的介绍 学术论文是某一学术课题在实验性 理论性或观测性上具有新的科学研究成果或见解的知识和科学记录 或是某种已知原理应用于实际中取得新进展的科学总结 用于学术会议上宣读 交流或讨论 或在学术刊物上发表 或作其他用途的书面文件 什么是学术论文 学术论文的特点 专业性 指研究 探讨的内容是以科学领域里某一专业性问题作为研究对象 在内容上 学术论文是作者运用他们系统的专业知识 去论证或解决专业性很强的学术问题 科学性 科学性是学术论文的生命和价值所在 所谓科
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建行行测试题及答案
- 2025年公文写作与处理竞赛题库(附答案)
- 健康生活常识考试题库及解答
- 电子商务运营策略与实践案例分析题及答案解析
- (2025)汽车驾驶员(技师)考试题库及答案
- 2025年江苏省高考政治试题与参考答案
- 部编版初中语文七年级下册期中练习试卷
- 关于运动员的营养
- 民用航空电子系统抗干扰设计规范
- 2025年工业智能制造平台服务合同协议
- 2025教师考试试题真题及答案
- 计算与人工智能概论(湖南大学信息科学与工程学院)学习通网课章节测试答案
- 产品经理笔面试经典题型分享-费米问题
- 学校校服选用采购会议记录
- 备考2024年中考数学专题突破(全国通用)专题2-3 八种隐圆类最值问题圆来如此简单(解析版)
- 山东省精神卫生中心招聘试题及解析
- 企业员工廉洁行为规范培训课件
- JT-T 795-2023 事故汽车修复技术规范
- 国家开放大学《数据结构》课程实验报告(实验2-线性表)参考答案
- DBJ50-200-2014建筑桩基础设计与施工验收规范
- 幼儿园财务审计报告范文
评论
0/150
提交评论