




已阅读5页,还剩75页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三讲搜索引擎 高凡 1 必须找 哪里找 如何找 2 本讲主要内容 3 1搜索引擎的定义 原理 分类3 2Google及其使用技巧3 3其它搜索引擎 3 3 1 1搜索引擎的定义 搜索引擎是一个提供信息 检索 服务的网站 它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息 搜索引擎常常是用户利用网上资源的第一途径 4 3 1 2搜索引擎原理 从互联网上抓取网页 建立索引数据库 在索引数据库中搜索排序 大多数搜索引擎并不真正搜索互联网 它搜索的实际上是预先整理好的网页索引数据库 搜索引擎也不能真正理解网页上的内容 它只能机械的匹配网页上的文字 5 3 1 3搜索引擎的分类 按检索机制划分按检索内容划分按数据来源划分 6 1 按检索机制划分 全文搜索引擎目录式搜索引擎元搜索引擎 7 全文搜索引擎 从互联网上提取的各个网站的信息而建立的数据库中 检索与用户查询条件匹配的相关记录 然后按一定的排列顺序将结果返回给用户 从搜索结果来源的角度 全文搜索引擎又可细分为两种 一种是拥有自己的检索程序 并自建网页数据库 搜索结果直接从自身的数据库中调用 另一种则是租用其他引擎的数据库 并按自定的格式排列搜索结果 如Lycos引擎 优点 是查询全面 充分 用户能够对各网站的每篇文章中的每个词进行搜索 检索直接 方便 而且可使用布尔逻辑检索 短语检索等高级功能 缺点 繁多而杂乱的感觉 代表性的全文搜索引擎是Google 百度 8 9 10 目录式搜索引擎 通过用户浏览层次类型目录来寻找所需信息 分类一般按主题分类 并辅之以年代 地区等分类 网站多以此方式组织 例如 新浪 分类目录 计算机与互联网 硬件 行情报价 优点 使用户清晰方便地查找到某一大类信息 尤其适合那些希望了解某一范围内信息 并不严格限于查询关键字的用户 缺点 搜索范围较全文搜索引擎要小许多 尤其是当用户选择类型不当时 可能遗漏某些重要的信息源 代表性的目录式搜索引擎是Yahoo 搜狐 新浪网站 11 12 13 14 15 元搜索引擎 同时在其他多个引擎上进行搜索 并将结果返回给用户 没有自己的数据库 利用一个统一的界面 查询其他独立的搜索引擎 优点 快捷 信息覆盖面更加广泛缺点 高级检索功能不完善 检索结果没有经过处理著名的元搜索引擎有InfoSpace Dogpile Vivisimo等 元搜索引擎列表 中文元搜索引擎中具代表性的有北斗 等 图Dogpile界面 16 17 无缝聚合Google 百度 必应 搜狗 有道 搜搜和中搜 18 1 搜魅网 someta 集合了百度 google 搜狗 雅虎多家主流搜索引擎的结果 提供网页 资讯 网址导航等聚合查询 另外 搜魅网突破了元搜索引擎没有自己的蜘蛛的瓶颈 提供了网站查询的功能 2 马虎聚搜 集合了google和百度的搜索结果 提供一些有用的热点排行 3 佐意综合搜索 chinazss 佐意网提供的综合搜索 结合了Google Baidu yahoo 等知名搜索引擎 更细分了不同的搜索类别 4 比比猫 bbmao 综合了百度 谷歌 搜狐 雅虎 搜狗等搜索引擎的搜索结果 并建立了自动分类 是目前最好的一款产品 5 115聚合搜索 一个基于聚类的个性化元搜索引擎 实现搜索定制聚合模块化 给用户良好的搜索体验 同时提供个性化网址导航服务 将信息聚合和网址导航结合在一起 通过新增插件的模块化功能组合 不断加入社会化服务的新元素 从而灵活方便地满足不同用户的个性需求 是一个全方位网罗的多元化和个性化的中文元搜索引擎 6 觅搜 MetaSoo 使用Ajax技术的中文元搜索引擎 可搜索谷歌 百度 雅虎一搜 搜狗 有道等 这是Ajax技术在元搜索引擎中的第一次应用 7 抓虾网聚搜 将百度 Google两家算法各异的搜索巨头的搜索结果 去重 然后呈现到用户面前 方便用户使用 19 20 MetaCrawler1995年由华盛顿大学推出 1997年被InfoSpace购买 支持调用12个独立搜索引擎 提供涵盖近20个主题的目录检索服务 检索特性非常丰富 包括常规检索 高级检索 定制检索 国家或地区的资源检索等检索服务模式 高级检索模式可实现 搜索引擎的选择调用 基于域名 地区或国家的检索结果过滤 最长检索时间设置 每页可显示的和允许每个搜索引擎返回的检索结果数量的设定 设定检索结果排序依据 包括相关度 域名 源搜索引擎 等 以上内容均可作为定制检索的个性化选项并予以保存 检索结果中包括一个以1000为最大值的相关度指标 21 一款理想的元搜索引擎应具备的特点和功能 含盖较多的搜索资源 可随意选择和调用源搜索引擎 具备尽可能多的可选择功能 如资源类型 网站 网页 新闻 软件 FTP MP3 图像等 选择 返回结果数量控制 结果时段选择 过滤功能选择等强大的检索请求处理功能 如支持逻辑匹配检索 短语检索 自然语言检索等 和不同搜索引擎间检索语法规则 字符的转换功能 如对不支持 NEAR 算符的搜索引擎 可自动实现由 NEAR 向 AND 算符的转换等详尽全面的检索结果信息描述 如网页名称 URL 文摘 源搜索引擎 结果与用户检索需求的相关度等 支持多种语言检索 22 2 按检索内容划分 通用型专题型 23 通用型搜索引擎 通用型搜索引擎在采集标引信息资源时不限制资源的主题范围和数据类型 又称为综合型检索工具 如 Google 百度 AltaVista Excite Yahoo等也有这种混合功能 右图是Yahoo的检索界面 既有检索窗口 也有分类浏览目录 24 专题型检索工具 专题型检索工具指那些专门用来检索某一类型信息和数据的检索工具 如查询地图的检索工具 MapBlast 查询图像的检索工具 WebSEEK 等 图G的界面 25 26 27 28 29 3 按数据来源划分 独立搜索引擎拥有独立的采集标引机制和独立的数据库元搜索引擎没有自己的数据库 它利用一个统一的界面 查询其他独立的搜索引擎 30 3 2Google及其使用技巧 由两个斯坦福大学博士生LarryPage与SergeyBrin于1998年9月发明 约搜索30亿张网页 包括35个国家和地区的语言的资源 已占有全球搜索市场的80 Google在中国的搜索市场的市场份额也已突破30 并且增长速度迅猛 在中文搜索市场有举足轻重的作用 31 3 2 1Google检索步骤 确定检索需求构建检索策略点击检索评估检索结果点击浏览保存所需信息 32 3 2 2Google检索技巧 使用正确的方法合理利用 与 或 的搜索 OR搜索中包括或不包括的词 搜索近似词 搜索特定词组 列出相似页面 类似网页利用高级检索使用 更多 功能 33 Google高级检索 34 查找其他类型文件 Google可以支持13种非HTML文件的搜索 除了PDF文档 Google现在还可以搜索MicrosoftOffice doc ppt xls rtf ShockwaveFlash swf PostScript ps 和其它类型文档 新的文档类型只要与用户的搜索相关 就会自动显示在搜索结果中 例如 如果您只想查找PDF或Flash文件 而不要一般网页 只需搜索 关键词filetype pdf关键词filetype swf 35 货币转换要使用我们的内置货币转换器 只需在Google搜索框中键入您需要完成的货币转换 并单击 回车 键或GoogleSearch按钮即可 实例 3 5USD GBP10新加坡元等于多少印度卢比8人民币换成泰国的货币30人民币每公升 美元每加仑 36 37 计算器Google为用户提供了一个内置计算器 只需要在搜索字段中输入算式 按一下回车键或者搜索就可以了 这个计算器可以用来做所有简单的计算 一些复杂的科学计算 单位换算 以及提供各种物理常数 实例 5 2 22 20sqrt 4 一磅 克光速乘以二秒等于多少公里 38 符号功能示例 加3 44 减13 5 乘7 8 除以12 3 的 次方8 2 模 除之后的余数 8 7选组合运算X选Y表示在X个单位中选Y个有多少种选法18选4开 次方计算一个数的n次方根32开5次方sqrt平方根sqrt 9 sin cos etc 三角函数 括号中的数字单位为弧度 tan 45 ln以e为底的对数ln 17 log以10为底的对数log 1 000 阶乘5 百分之20 39 按链接搜索有一些词后面加上冒号对Google具有特殊的含义 其中的一个词是 link 查询link 显示所有指向该网址的网页 例如 link 将找出所有指向Google主页的网页 不能将link 搜索与普通关键词搜索结合使用 指定网域有一些词后面加上冒号对Google有特殊的含义 其中的一个词是 site 要在某个特定的域或站点中进行搜索 可以在Google搜索框中输入 site 40 如何辨别网站的性质 edu教育学术 gov官方政府单位 net网络管理或服务机构 org财团法人或基金会等非官方的一般机构 int国际性组织 com代表商业企业团体与组织中国科学研究机构 41 天气查询用Google查询中国城市地区的天气和天气预报 只需输入您要查询的城市地区名称和一个关键词 天气 气象 tq tianqi tianqi 等 任选其一 就能在搜索结果页面的最上方看到当日及未来二至三天的天气情况 当鼠标移动到天气图标上时 还可以显示对应的天气情况细节 42 金融信息在搜索框中输入股票和基金的名称或代码 可查询最新的股票和基金信息 邮编区号用Google查询邮政编码或长途电话区号 您只需输入关键词 邮编 yb 和 YB 任选其一 区号 qh 和 QH 任选其一 和要查的城市地名或邮政编码或电话区号即可 Google会为您提供相关的所有信息 包括所在地的省市名称 邮政编码及长途电话区号 43 手机号码用Google查询手机电话号码归属地 您只需直接输入要查的号码即可 不需要任何关键词 Google能自动识别以13开头的11位数字为手机号码而返回相关的网站链接 让您即刻便知道答案 定义要查看字词或词组的定义 只需键入 define 接着键入一个空格 然后键入您需要其定义的词 如果Google在网络上找到了该字词或词组的定义 则会检索该信息并在搜索结果的顶部显示它们 通过包含特殊操作符 define 并使该操作符与您需要其定义的字词之间不留空格 还可获得定义的列表 44 Google更多功能 得心 In 手 intitle inurl intext人在旅 图 热门 榜 单 关注 趋势 45 46 47 48 49 50 51 52 53 54 55 56 57 58 国外搜索引擎 AltaVistaAskJeevesExciteMetaCrawler 59 AltaVista DEC公司1995年12月推出 60 AskJeeves 61 Excite 斯坦福大学1993年8月创建 62 63 MetaCrawler http www MetaC 64 65 常用的学术搜索引擎 专注于科学搜索引擎与目录 还包括一些科学杂志以及其他的工具等 提供了一种通过引文链接检索文献的网络学术信息搜索工具 Google学术搜索提供可广泛搜索学术文献的简便方法 专为搜索高度相关的科学信息而设计的搜索引擎 66 67 Scirus由Elsevier开发 是目前互联网上最全面 综合性最强的科技文献门户网站之一 Scirus引擎的信息源主要是两部分 网页和期刊 为科学家们在网络上和专有数据库中快速查找所需的信息打开了一道便捷之门 此外 还可以对网络中所搜索到的结果进行过滤 然后只列出包含有科学信息的成分 目前Scirus可搜索4 5亿个与科学相关的网页 信息来源包括同行评审期刊论文 预印本 报告 科学数据 发明专利及有关网页 大多是网上开放获取资源 如电子打印稿件ArXiv org RePEc MIT开放课程资料等 也含部分商业收费资源 如LexisNexis ScienceDirect等 学科领域以自然科学为主 也有部分社科资源 如经济学 商业 管理 语言文字学 法学 社会与行为科学 心理学 社会学等 SCIRUS简介 68 SCIRUS的特色过滤非科学方面的信息 收录同行评审 peer reviewed 的文章 这在一般搜索引擎中大部份是被忽略掉的 可以搜索特定作者 期刊 出版年等缩小查询范围 可同时查询学科相关的会议 摘要 及专利资料 收录年代 排序及收费Scirus索引的更新频率与收录年限是每月更新 可检索1973 2008年间发表的文献 Scirus检索结果的排序 缺省情况下 Scirus将检索结果按照相关度进行排序 也可以将检索结果按照日期排序 用户可免费浏览所有检索到的互联网主页的信息 Scirus提供的期刊资源可以免费查看题录和文摘 但是 获取全文需要预先注册并支付费用 69 SCIRUS检索方法 基本检索 BasicSearch 界面和高级检索 AdvancedSearch 1 基本检索 BasicSearchAllofthewords 检索结果中必须包括输入的每一个检索词 逻辑关系相当于 AND Anyofthewords 检索结果中可包括一个或多个检索词 相当 OR Exactphrase 检索结果与输入短语严格匹配 相当于引号 的应用 2 高级检索 AdvancedSearchScirus高级检索支持逻辑检索符 逻辑与 逻辑或 逻辑非 70 国内搜
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 17298:2025 EN Biodiversity - Considering biodiversity in the strategy and operations of organizations - Requirements and guidelines
- 2025-2030中国冷链物流自动化分拣设备渗透率提升与投资回报周期测算报告
- 要求承担保管责任的协议书7篇
- 2025呼伦贝尔莫旗消防救援大队招聘消防文员考前自测高频考点模拟试题及答案详解(名校卷)
- 2025年甘肃中医药大学招聘急需紧缺专业硕士研究生模拟试卷有答案详解
- 2025年智能音箱的隐私保护问题
- 2025年上海中期期货股份有限公司社会招聘(2人)考前自测高频考点模拟试题完整答案详解
- 2025冕宁县人民医院考核招聘编制外康复技师6人模拟试卷及完整答案详解
- 2025华远国际陆港集团所属企业校园招聘(山西)模拟试卷及答案详解(夺冠)
- 2025江苏宿迁市泗洪县卫健系统引进高层次人才33名模拟试卷附答案详解(突破训练)
- 学堂在线 工程伦理2.0 章节测试答案
- 子宫肌瘤麻醉管理
- 食用菌种植项目可行性研究报告立项申请报告范文
- 焦炉机械伤害事故及其预防
- 针灸调理养生在心脑血管疾病防治中的应用研究与实践
- 髋关节骨折护理
- 短视频运营合同协议
- 2025年中国文创产品行业市场发展现状及投资前景展望报告
- 6.2《多彩的职业》课件 - 2024-2025学年统编版道德与法治九年级下册
- 急性阑尾炎课件
- 部编版六年级上册语文(全册)教案设计(含教材分析、教学计划及进度)
评论
0/150
提交评论