搜 索 引 擎.ppt_第1页
搜 索 引 擎.ppt_第2页
搜 索 引 擎.ppt_第3页
搜 索 引 擎.ppt_第4页
搜 索 引 擎.ppt_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网上信息资源搜索 什么是网络信息资源 网络信息资源是指计算机网络上可以利用的各种信息资源的总和 即以数字化形式记录的 以多媒体形式表达的 分布式存储在网络上的计算机存储介质以及各类通信介质上 并通过计算机网络通信方式进行传递的信息内容的集合 网络信息资源的特点 信息量大 传播广泛信息类型多样 内容丰富信息时效性强 动态且不稳定信息分散无序 但关联程度高信息价值差异大 难于管理 网络信息资源的类型 按信息资源的传输协议划分WWW 或称为Web 信息资源FTP信息资源Telnet信息资源UsenetNewsgroup信息资源E mail信息资源 按信息资源的组织形式划分文件超文本 超媒体数据库网站 网络信息资源检索工具 网络信息检索工具是指在Internet上提供信息检索服务的计算机系统 检索对象是存在于Internet信息空间中的各类信息资源 不同类型的信息资源需要使用不同类型的检索工具进行检索 才能快速 高效 准确地找到用户需要的信息 网络信息检索工具一般由信息采集系统 数据库和检索代理软件三部分组成 网络信息检索工具的工作原理 通过数据采集系统人工采集或自动跟踪索引程序广泛收集网上信息资源 经过判断 选择 标引 加工 分类 组织 将有用信息的网址 关键词等资料用数据库管理系统进行组织 生成数据库 创建目录索引及检索界面 用户根据自己的检索要求 按照检索工具的语法在检索界面中输入要求 检索软件对用户的提问进行识别和判断后 代理用户到数据库中进行检索 并对检索结果进行评估 比较等处理 按相关度排序后提交给用户 网络信息检索工具的工作原理 检索工具的信息采集通常包括人工采集和自动采集两种形式自动采集是通过使用一种称为机器人 也叫Robot Spider Crawler等 的网络自动跟踪索引程序来完成信息采集 采集和标引的信息 通过数据库管理系统的组织 生成数据库 作为网络信息检索工具提供检索服务的基础 当用户向检索工具提出检索要求时 由检索软件负责代理用户在数据库中进行检索 并对检索结果进行计算 评估 比较 按检索结果与检索要求的相关程度排序后提供给用户 网络信息检索工具的类型 按检索内容分类 信息检索工具可以分为综合型专业型特殊型百度等通用的搜索引擎属于综合型检索工具 而查询地图的Go2map等就属于特殊型检索工具 按检索的信息资源类型来分 可以分为非Web资源检索工具Web资源检索工具 搜索引擎是Web资源检索工具的总称 泛指网络上提供信息检索服务的工具或系统 目前 越来越多的Web资源搜索引擎同时具备检索非Web资源的功能 成为最常用的网络资源检索工具 信息检索效果的评价指标 用于衡量检索效果的量化指标有 查全率查准率漏检率误检率其中查全率和查准率是两个主要指标 提高检索效果的措施和主要方法 提高检索系统的质量提高用户利用检索系统的能力表达检索目标 用户要具备一定的检索语言知识 能够选取正确的检索关键词 合理使用运算符完整表达检索目标跨库检索 灵活运用各种检索技术 检索方法和检索途径 能够综合运用综合性检索系统和专业性检索系统 实现跨库检索 调整检索策略 制定优化的检索策略 准确地表达检索要求 尝试多次检索并随着背景知识的增加不断调整检索策略 严谨的科学态度 要有严谨的科学态度 认真遵循检索操作步骤 最大限度地发挥检索系统的作用 根据不同检索要求 合理兼顾和调整查全率和查准率 常用搜索引擎 谷歌 hk百度 搜狗 常见搜索引擎功能 Google网页图片地图资讯视频博客 百度网页图片视频新闻贴吧知道MP3 搜狗 网页新闻音乐图片视频地图说吧 搜索引擎常用语法规则 NOT AND OR和括号优先顺序依次为 括号 NOT AND OR 空格作用类似于AND 但有些搜索引擎也有OR的用法 精确查找 图象搜索 目前 图象搜索主要是基于文件名的搜索 不是基于图象内容的 用法 关键词的输入方法同文字搜索 一般不会用太长 太复杂的关键词 包含在文件名中 使用英文作关键词可以搜到许多准确的结果 使用中文 效果较差 但有时Google会自动转换为英文或中文的拼音去搜索 在 高级图象搜索 中可以指定图片文件的类型 JPG或GIF 也可以用 Filetype 指定文件类型 如pandafiletype jpg 地图搜索 地理位置附近的公共设施里程数驾车路线公交路线 使用Filetype搜索文件 格式 关键词 文件名或文件内容 filetype 文件类型注意 filetype要小写 并指定为 搜索网页 如 搜索引擎filetype pptflowerfiletype gif佛山filetype doc目前可搜索的文件格式 DOC PPT XLS RTF PS TXT Lotus文件 PDF格式 一种电子图书格式 可搜索Flash文件 SWF文件搜索到的结果 可点击打开 也可用右键快捷菜单 另存为 保存到本地磁盘 对于Office文档 还可以用HTML方式打开 以避免病毒的袭击 常见错误 常见错误1 错别字经常发生的一种错误是输入的关键词含有错别字 像 星际争吧 以德制国 之类的关键词能搜索到什么有用资料呢 每当你觉得某种内容网上应该有不少 却搜索不到结果时 应该先查一下关键词中是否有错别字 常见错误 常见错误2 关键词太常见搜索引擎对常见词的搜索存在缺陷 因为这些词曝光率太高了 以至于出现在成百万网页中 使得它们事实上不能被用来帮你找到什么有用的内容 比如 搜索 电话 有无数网站提供跟 电话 相关的信息 从网上黄页到电话零售商到个人电话号码都有 所以当搜索结果太多太乱的时候 你应该尝试使用更多的关键词或者减号来搜索 不使用过于通用的词汇来搜索 设计一个类似 上海常用电话 这样特殊的搜索关键词 会给你真正有用的结果 当然 如果你想找的是一串汽车网站或一串MP3网站 那么用 汽车 MP3 搜索就是正确的 常见错误 常见错误3 多义词要小心使用多义词 比如搜索 Java 你要找的信息究竟是太平洋上的一个岛 一种著名的咖啡 还是一种计算机语言 搜索引擎是不能理解辨别多义词的 最好的解决办法是 在搜索之前先问自己这个问题 然后用短语 用多个关键词或者用其他的词语来代替多义词作为搜索关键词 比如用 爪哇印尼 爪哇咖啡 Java语言 分别搜索可以满足不同的需求 常见错误 常见错误4 不会输关键词 想要什么输什么搜索失败的另一个常见原因是类似这样的搜索 现代爱情故事歌词 信息早报在济南的发行情况 铃羊车的各种图案 上海到成都列车时刻表 你错把搜索引擎当成是听话的服务员了 其实搜索引擎是很机械的 当用关键词搜索的时候 它只会把含有这个关键词的网页找出来 根本不管网页上的内容是什么 问题在于 没有一个网页上会含有 现代爱情故事歌词 和 上海到成都列车时刻表 这样的关键词 所以搜索引擎也找不到这样的网页 但是真正含有你想找的内容的网页 应该含有的关键词是 现代爱情故事 歌词 上海 成都 列车 时刻表 所以你应该这样搜索 现代爱情故事歌词 信息早报济南发行情况 铃羊车图案 上海成都列车时刻表 不要用自己心中想的白话去搜索 当搜索结果太少甚至没有的时候 你应该输入更简单的关键词来搜索 猜测你找的网页中可能含有的关键词 然后用那些关键词搜索 常见错误 常见错误5 在错误的地方搜索搜索引擎从抓取网页 解析 索引到提供检索是有一个周期的 各搜索引擎的信息滞后周期从一周到一月不等 所以找最新内容应该去看新闻 用搜索引擎不一定能找到最新内容2001年7月23日这一天 正逢高考发榜 各大搜索引擎竟有超过100万次以上的搜索跟高考查分有关 考生们不知道 也许只能找到一个星期或一个月以前的内容 另外 搜索引擎对动态内容 如 论坛 数据库内容 以及带frame结构的网页检索能力较弱 所以这类信息也不适合用搜索引擎搜索 而是应该去相关的网站寻找 网上电子图书 电子图书 又称为数字图书或eBook 是指以数字代码方式将图 文 声 像等信息存储在磁 光 电介质上 通过计算机或类似设备阅读 并可复制发行的大众传播体 电子图书类型光盘电子图书网络电子图书便携式电子图书 电子图书的下载和阅读 当用户在网络上检索到自己需要的电子图书后 可以在线阅读或下载到本地计算机中阅读 无论用哪种方式阅读 在阅读之前都需要安装相应的阅读软件 不同的电子图书提供商提供的电子图书格式各不相同 阅读软件一般在图书网站的首页提供下载 用户可用常规软件下载方法下载阅读器 然后安装到本地计算机 电子图书常用的阅读器 AcrobatReaderPDF文档的阅读器AcrobatReader可以作为浏览器的插件 使用户能直接在浏览器打开网上的PDF页面文件CAJ浏览器CAJ全文浏览器是中国期刊网的专用全文格式阅读器 它可以阅读中国期刊网的CAJ NH KDH和PDF格式文件 超星阅读器超星阅读器 SSReader 是超星公司拥有自主知识产权的图书阅览器 专门针对数字图书的阅览 下载 打印 版权保护和下载计费而研究开发 国内重要数字图书馆 超星数字图书馆超星数字图书馆的全部资源都是有偿服务的 服务方式有两种 单位购买 读书卡会员制中国数字图书馆http www d 依托中国国家图书馆丰富的馆藏 书生之家数字图书馆由北京书生科技公司创办 是一个全球性的中文书 报 刊网上数字系统 于2000年5月正式开通 网上书店 1 亚马逊网上书店2 当当网上书店3 china pub 网络数据库检索 CNKI数据库资源中国知识基础设施工程 ChinaNationalKnowledgeInfrastructure CNKI 是以实现全社会知识信息资源共享为目标的国家信息重点工程 中国期刊网 也称为知识创新网或中国知网 是CNKI工程的一部分 集期刊论文 专利和报纸信息于一体 用户可通过中国期刊网来使用CNKI的数据库产品 CNKI数据库 中文期刊全文数据库 中文期刊全文数据库 世纪期刊 中国博士学位论文全文数据库 中国优秀硕士学位论文全文数据库 中国重要报纸全文数据库 中国重要会议论文全文数据库 中国工具书网络出版总库 中国引文数据库 中国图书全文数据库 中国年鉴全文数据库等大型数据库 网上数据每日更新 CNKI数据库有网上包库 镜像站点 全文光盘3种用户服务模式 采用IP身份认证方式确认合法用户 高校校园网用户可直接通过学校图书馆提供的镜像网址进入CNKI 其他用户需要购卡使用 网络数据库检索 中国期刊全文数据库该数据库全文收录了我国1994年至今正式出版的重要学术期刊 以学术 技术 政策指导 高等科普及教育类为主 同时收录部分基础教育 大众文化和文艺作品类刊物 内容覆盖自然科学 工程技术 农业 哲学 人文社会科学等各领域 全文文献总量2200多万篇 中国博士学位论文全文数据库该数据库收集了博士论文和优秀硕士论文 网络数据库检索 万方数据资源系统 是北京万方数据股份有限公司开发的一个提供数据库服务的数据资源网站 主要产品收费服务 万方向用户提供包括企业公司及产品库 中国科技成果库 万方数据资源系统等信息资源 自1993年以来 开发了近20种数据库 期刊论文数据库 学位论文数据库 会议论文数据库 专利数据库 成果数据库 法规数据库 标准数据库 企业信息数据库 网络数据库检索 维普资讯系统重庆维普资讯有限公司 自1989年以来 致力于报刊等信息资源开发和应用 维普资讯网是集数据采集 光盘制作发行和网上信息服务于一体的信息资源系统 网上的三个重要数据库是 中文科技期刊全文数据库 中文科技期刊引文数据库 外文科技期刊文摘数据库此外还有中国科技经济新闻库 维普医药信息资源库和维普石油化工信息系统库等多个数据库 维普资讯网的网址是 三大索引SCI EI ISTP 通常说的三大索引是指世界著名的三种文献检索期刊 即 科学引文索引 ScienceCitationIndex 简称SCI 工程索引 EngineeringIndex 简称EI 科技会议录索引 IndextoScientific TechnicalProceedings 简称ISTP SCI SCI简介 科学引文索引 SCI 由美国科学信息所 InstituteforScientificInformationISI 于1961年创办并编辑出版 覆盖数 理 化 工 农 林 医及生物学等广泛的学科领域 其中以生命科学及医学 化学 物理所占比例最大 收录范围是当年国际上的重要期刊 SCI的引文索引具有独特的科学参考价值 EI EI简介EI是 工程索引 的英文简称 1884年创刊 由美国工程信息公司出版 报道的内容几乎覆盖所有工程技术领域 其中 化工 计算机 电子与通信 应用物理 土木工程和机械工程学科所占比例最大 工程索引 收录的信息来自50多个国家及地区 20多种语言的5400多种期刊 1000多种国际会议录 论文集

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论