




已阅读5页,还剩11页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
精品文档 1欢迎下载1欢迎下载 互联网搜索引擎技术及其发展趋势互联网搜索引擎技术及其发展趋势 摘摘 要要 本文首先介绍了互联网搜索引擎的技术原理及其发展状 况 分析了现有的网络支付系统基本构成及功能特点 并对传统的 网络信息安全技术体系进行了研究探讨 关键字关键字 搜索引擎搜索引擎 检索检索 趋势趋势 一 一 引言引言 随着互联网上资源的日趋丰富 面对拥有海量信息的 Internet 环境 为了能快速 高效地寻找到有用信息 搜索引擎应运而生 经 过几年的发展和摸索 越来越贴近人们的需求 搜索引擎的技术也 得到了很大的发展 如今搜索引擎已经是互联网应用中不可缺少的 一部分 在浩如烟海的 Internet 上 特别是其上的 Web World Wide Web 万维网 上 不会搜索 就不会上网 二 搜索引擎的概论二 搜索引擎的概论 一 搜索引擎的定义 一 搜索引擎的定义 搜索引擎是指根据一定的策略 运用特定的计算机程序搜集互 联网上的信息 在对信息进行组织和处理后 并将处理后的信息显 示给用户 是为用户提供检索服务的系统 二 搜索引擎的组成 二 搜索引擎的组成 搜索引擎由搜索器 索引器 检索器和用户接口组成 搜索器的其功能是在互联网中漫游 发现和搜集信息 索引器的功能是理解搜索器所搜索到的信息 从中抽取出索引 项 用于表示文档以及生成文档库的索引表 检索器的功能是根据用户的查询在索引库中快速检索文档 进 精品文档 2欢迎下载2欢迎下载 行相关度评价 对将要输出的结果排序 并能按用户的查询需求合 理反馈信息 用户接口的作用是接纳用户查询 显示查询结果 提供个性化 查询项 三 搜索引擎的分类三 搜索引擎的分类 一 全文索引 一 全文索引 全文搜索引擎引擎是名副其实的搜索引擎 国外代表有 Google 国内则有著名的百度搜索 它们从互联网提取各个网站的 信息 以网页文字为主 建立起数据库 并能检索与用户查询条 件相匹配的记录 按一定的排列顺序返回结果 根据搜索结果来源的不同 全文搜索引擎可分为两类 一类拥 有自己的网页抓取 索引 检索系统 有独立的 蜘蛛 程序 或 爬虫 或 机器人 程序 这三种称法意义相同 能自建网页数 据库 搜索结果直接从自身的数据库中调用 上面提到的 Google 和 百度就属于此类 另一类则是租用其他搜索引擎的数据库 并按自 定的格式排列搜索结果 如 Lycos 搜索引擎 二 目录索引 二 目录索引 目录索引虽然有搜索功能 但严格意义上不能称为真正的搜索 引擎 只是按目录分类的网站链接列表而已 用户完全可以按照分 类目录找到所需要的信息 不依靠关键字进行查询 目录索引中最 具代表性的莫过于大名鼎鼎的 Yahoo 新浪分类目录搜索 三 元搜索引擎 三 元搜索引擎 这类搜索引擎一般都没有自己网络机器人及数据库 它们的搜 索结果是通过调用 控制和优化其它多个独立搜索引擎的搜索结果 并以统一的格式在同一界面集中显示 元搜索引擎虽没有 网络机 精品文档 3欢迎下载3欢迎下载 器人 或 网络蜘蛛 也无独立的索引数据库 但在检索请求提交 检索接口代理和检索结果显示等方面 均有自己研发的特色元搜索 技术 比如 MetaFisher 元搜索引擎 它就调用和整合了 Google Yahoo AlltheWeb 百度和 OpenFind 等多家搜索引擎的数 据 四 垂直搜索引擎 四 垂直搜索引擎 垂直搜索是针对某一个行业的专业搜索引擎 是搜索引擎的细 分和延伸 是对网页库中的某类专门的信息进行一次整合 定向分 字段抽取出需要的数据进行处理后再以某种形式返回给用户 垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息 进行了结构化信息抽取 也就是将网页的非结构化数据抽取成特定 的结构化信息数据 好比网页搜索是以网页为最小单位 基于视觉 的网页块分析是以网页块为最小单位 而垂直搜索是以结构化数据 为最小单位 然后将这些数据存储到数据库 进行进一步的加工处 理 如 去重 分类等 最后分词 索引再以搜索的方式满足用户 的需求 整个过程中 数据由非结构化数据抽取成结构化数据 经过深 度加工处理后以非结构化的方式和结构化的方式返回给用户 垂直搜索引擎的应用方向很多 比如企业库搜索 供求信息搜 索引擎 购物搜索 房产搜索 人才搜索 地图搜索 mp3 搜索 图片搜索 几乎各行各业各类信息都可以进一步细化成各类的垂直 搜索引擎 举个例子来说明会更容易理解 比如购物搜索引擎 整体流程 大致如下 抓取网页后 对网页商品信息进行抽取 抽取出商品名 称 价格 简介 甚至可以进一步将笔记本简介细分成 品牌 型号 CPU 内存 硬盘 显示屏 然后对信息进行清洗 去 重 分类 分析比较 数据挖掘 最后通过分词索引提供用户搜索 精品文档 4欢迎下载4欢迎下载 通过分析挖掘提供市场行情报告 垂直搜索引擎是相对通用搜索引擎的信息量大 查询不准确 深度不够等提出来的新的搜索引擎服务模式 通过针对某一特定领 域 某一特定人群或某一特定需求提供的有一定价值的信息和相关 服务 其特点就是 专 精 深 且具有行业色彩 相比较通用搜 索引擎的海量信息无序化 垂直搜索引擎则显得更加专注 具体和 深入 垂直搜索引擎大体上需要以下技术 一是网页结构化信息抽取技 术或元数据采集技术 二是分词和索引 三是其他信息处理技术 五 其他非主流搜索引擎形式 五 其他非主流搜索引擎形式 其他非主流搜索引擎形式有三种 一是集合式搜索引擎 该搜索引擎类似元搜索引擎 区别在于 它并非同时调用多个搜索引擎进行搜索 而是由用户从提供的若干 搜索引擎中选择 如 HotBot 在 2002 年底推出的搜索引擎 二是门户搜索引擎 AOL Search MSN Search 等虽然提供搜索 服务 但自身既没有分类目录也没有网页数据库 其搜索结果完全 来自其他搜索引擎 三是免费链接列表 一般只简单地滚动链接条目 少部分有简 单的分类目录 不过规模要比 Yahoo 等目录索引小很多 四 搜索引擎的原理四 搜索引擎的原理 全文搜索引擎的 网络机器人 或 网络蜘蛛 是一种网络上 的软件 它遍历 Web 空间 能够扫描一定 IP 地址范围内的网站 并 沿着网络上的链接从一个网页到另一个网页 从一个网站到另一个 网站采集网页资料 它为保证采集的资料最新 还会回访已抓取过 的网页 网络机器人或网络蜘蛛采集的网页 还要有其它程序进行 精品文档 5欢迎下载5欢迎下载 分析 根据一定的相关度算法进行大量的计算建立网页索引 才能 添加到索引数据库中 我们平时看到的全文搜索引擎 实际上只是 一个搜索引擎系统的检索界面 当你输入关键词进行查询时 搜索 引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引 并按一定的排名规则呈现给我们 不同的搜索引擎 网页索引数据 库不同 排名规则也不尽相同 所以 当我们以同一关键词用不同 的搜索引擎查询时 搜索结果也就不尽相同 和全文搜索引擎一样 分类目录的整个工作过程也同样分为收 集信息 分析信息和查询信息三部分 只不过分类目录的收集 分 析信息两部分主要依靠人工完成 分类目录一般都有专门的编辑人 员 负责收集网站的信息 随着收录站点的增多 现在一般都是由 站点管理者递交自己的网站信息给分类目录 然后由分类目录的编 辑人员审核递交的网站 以决定是否收录该站点 如果该站点审核 通过 分类目录的编辑人员还需要分析该站点的内容 并将该站点 放在相应的类别和目录中 所有这些收录的站点同样被存放在一个 索引数据库 中 用户在查询信息时 可以选择按照关键词搜索 也可按分类目录逐层查找 如以关键词搜索 返回的结果跟全文搜 索引擎一样 也是根据信息关联程度排列网站 需要注意的是 分 类目录的关键词查询只能在网站的名称 网址 简介等内容中进行 它的查询结果也只是被收录网站首页的 URL 地址 而不是具体的页 面 分类目录就像一个电话号码薄一样 按照各个网站的性质 把 其网址分门别类排在一起 大类下面套着小类 一直到各个网站的 详细地址 一般还会提供各个网站的内容简介 用户不使用关键词 也可进行查询 只要找到相关目录 就完全可以找到相关的网站 可分为以下三个部分 一是抓取网页 每个独立的搜索引擎都有自己的网页抓取程序 spider Spider 顺着网页中的超链接 连续地抓取网页 被抓 精品文档 6欢迎下载6欢迎下载 取的网页被称之为网页快照 由于互联网中超链接的应用很普遍 理论上 从一定范围的网页出发 就能搜集到绝大多数的网页 二是处理网页 搜索引擎抓到网页后 还要做大量的预处理工 作 才能提供检索服务 其中 最重要的就是提取关键词 建立索 引文件 其他还包括去除重复网页 分词 中文 判断网页类型 分析超链接 计算网页的重要度和丰富度等 三是提供检索服务 用户输入关键词进行检索 搜索引擎从索 引数据库中找到匹配该关键词的网页 为了用户便于判断 除了网 页标题和 URL 外 还会提供一段来自网页的摘要以及其他信息 五 搜索引擎的发展趋势五 搜索引擎的发展趋势 一个好的搜索引擎 不仅数据库容量要大 更新频率 检索速 度要快 支持对多语言的搜索 而且随着数据库容量的不断膨胀 还要能从庞大的资料库中精确地找到正确的资料 一 提高搜索引擎对用户检索提问的理解 一 提高搜索引擎对用户检索提问的理解 为了提高搜索引擎对用户检索提问的理解 就必须有一个好的 检索提问语言 为了克服关键词检索和目录查询的缺点 现在已经 出现了自然语言智能答询 用户可以输入简单的疑问句 比如 如 何能杀死计算机中的病毒 搜索引擎在对提问进行结构和内容的分 析之后 或直接给出提问的答案 或引导用户从几个可选择的问题 中进行再选择 自然语言的优势在于 一是使网络交流更加人性化 二是使查询变得更加方便 直接 有效 就以上面的例子来讲 如 果用关键词查询 多半人会用 病毒 这个词来检索 结果中必然 会包括各类病毒的介绍 病毒是怎样产生的等等许多无用信息 而 用 如何能杀死计算机中的病毒 检索 搜索引擎会将怎样杀死病 毒的信息提供给用户 提高了检索效率 精品文档 7欢迎下载7欢迎下载 二 对检索结果进行处理 二 对检索结果进行处理 对检索结果进行处理分为以下三个方面 一是基于链接评价的搜索引擎 基于链接评价的搜索引擎的优 秀代表是 Google 它独创的 链接评价体系 是基于这样一种认识 一个网页的重要性取决于它被其它网页链接的数量 特别是一些已 经被认定是 重要 的网页的链接数量 这种评价体制与 科技引 文索引 的思路非常相似 但是由于互联网是在一个商业化的环境 中发展起来的 一个网站的被链接数量还与它的商业推广有着密切 的联系 因此这种评价体制在某种程度上缺乏客观性 二是基于访问大众性的搜索引擎 基于访问大众性的搜索引擎 的代表是 direct hit 它的基本理念是多数人选择访问的网站就是 最重要的网站 根据以前成千上万的网络用户在检索结果中实际所 挑选并访问的网站和他们在这些网站上花费的时间来统计确定有关 网站的重要性排名 并以此来确定哪些网站最符合用户的检索要求 因此具有典型的趋众性特点 这种评价体制与基于链接评价的搜索 引擎有着同样的缺点 三是去掉检索结果中附加的多余信息 有调查指出 过多的附 加信息加重了用户的信息负担 为了去掉这些过多的附加信息 可 以采用用户定制 内容过滤等检索技术 三 确定搜索引擎信息搜集范围 三 确定搜索引擎信息搜集范围 搜索引擎以信息搜集范围可分为三个方面 一是垂直主题搜索引擎 网上的信息浩如烟海 网络资源以惊 人的速度的增长 一个搜索引擎很难收集全所有主题的网络信息 即使信息主题收集得比较全面 由于主题范围太宽 很难将各主题 都做得精确而又专业 使得检索结果垃圾太多 这样以来 垂直主 题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了 一系席之地 比如象股票 天气 新闻等类的搜索引擎 具有很高 精品文档 8欢迎下载8欢迎下载 的针对性 用户对查询结果的满意度较高 目前 一些主要的搜索引 擎 都提供了新闻 Mp3 图片 Flash 等的搜索 加强了检索的针 对性 垂直主题有着极大的发展空间 二是非 www 信息的搜索 提供 FTP 等类信息的检索 三是多媒体搜索引擎 多媒体检索主要包括声音 图像的检索 四 提供更优化的检索结果 四 提供更优化的检索结果 以下两种搜索引擎能提供更优化的检索结果 一是纯净搜索引擎 这类搜索引擎没有自己的信息采集系统 利用别人现有的索引数据库 主要关注检索的理念 技术和机制等 二是元搜索引擎 现在出现了许多的搜索引擎 其收集信息的 范围 搜索机制 算法等都不同 用户不得不去学习多个搜索引擎 的用法 每个搜索引擎平均只能涉及到整个 www 资源的 30 50 search engine watch 数据 这样导致同一个搜索请求在不 同搜索引擎中获得的查询结果的重复率不足 34 而每一个搜索引 擎的查准率不到 45 元搜索引擎是将用户提交的检索请求到多个独立的搜索引擎上 去搜索 并将检索结果集中统一处理 以统一的格式提供给用户 因此有搜索引擎之上的搜索引擎之称 它的主要精力放在提高搜索 速度 智能化处理搜索结果 个性搜索功能的设置和用户检索界面 的友好性上 查全率和查准率都比较高 五 搜索引擎的最后一步 五 搜索引擎的最后一步 10 年前我们要查阅资料 请教问题 更多想到的是请教专家 图书管查阅等传统方式 互联网的普及与兴起 搜索引擎的出现 逐渐改变着我们的生活习惯和思维方式 很多问题 Baidu 一下 你就知道 精品文档 9欢迎下载9欢迎下载 搜索引擎 search engine 是一个系统 能从大量信息中找到所 需的信息 提供给用户 互联网出现到现今 信息量可以说成密指 数的增长 大量信息就像 Google 的原本含义一样 1 的后面跟着 100 个 0 这个数比宇宙所有的基本粒子的数量总和还要大 在这 浩如烟海的信息中怎么才能找到自己需要的信息呢 搜索引擎就像 一只神奇的手 从杂乱的信息中抽出一条清晰的检索路径 事物的发展往往遵循着合久必分 分久必合的规律 每一次的 合与分都是代表着更高级更先进 同样搜索引擎从最初的 Archie 可 以用文件名查找整个互联网中 FTP 文件的系统 发展到 Yahoo 早期 一种手工录入的分行业的目录检索 随着搜索技术的发展 元标记 搜索 全文搜索重新又把整个互连网的信息整合起来提供给用户 目前的 Baidu Google 提供的就是一种整个互联网的全文搜索 这 种整合信息的搜索也称为水平搜索 这种水平全文搜索固然可以把 网络中的所有相关信息提供给用 但这种 所有 不代表着是用户 所需的 所有 往往夹杂着许多垃圾信息 问题出现就伴随着去 解决 如果平常使用搜索引擎比较全面 你会发现 Baidu Goolge 都有了 更多 的选项 其中出现了大学搜索 新闻搜索 图书搜 索 图片搜索等等这些专业化 行业化的搜索 也称为垂直搜索 当前垂直搜索正在逐渐走向丰富化 专业化 行业化 将越来越满 足人们的搜索需求 比如很多人在搜索问题时会到百度知道里搜索 因为那里更有针对性 搜索天气会到天气搜索中等等 那么搜索引擎的下一步发展是什么呢 让我们回想一下搜索引 擎的定义 一个系统 能从大量信息中找到所需的信息 提供给用 户 根据技术的不断发展和事物规律畅想一下 垂直搜索发展到一 定程度会出现信息的单一专业化太强 整体信息综合化不好 而人 们需要的不但要有专业信息 同样也要有整体联想信息 随着人工 智能 神经网络 网格计算等搜索技术的发展 我们又将有一个能 精品文档 10欢迎下载10欢迎下载 整合互联网信息 智能的提供用户确实所 需 的信息 而不简单 只是所 要 的信息 因为很多时候搜索时 自己都不知道要什么 再回的现在的搜索引擎 它就像一只神奇的手 从杂乱的信息 中抽出一条清晰的检索路径 这个引擎提供给用户的最后一步是什 么 是一条清晰的检索路径 好的 注意这是一条检索路径 在这 条路径的上的检索和信息提取是什么呢 是我们的阅读和大脑的判 断 也就是做搜索引擎的最后一步是我们的大脑 得到的这条路径 清晰但也并不简短 需要我们进行快速的浏览 得出一个结论 快 速阅读也是搜索引擎中的一部分 随着搜索市场竞争的白热化 搜索引擎不仅开始深挖自己的战 壕 还开始打起了口水战 而山寨搜索引擎在高举着 整合 的大 旗 开始大摇大摆地进入这个本来只有巨头垄断的市场 国人充分 发挥着其无比的想象力 准备让国内的互联网 步入搜索新时代 下面就让我们看看什么是山寨搜索引擎 百 google 度 baigoogledu 最早的山寨搜索引擎 曾经名噪一时 最早确定了山寨搜索引 擎的模式 而且访问量很高 但功能简单 而且让用户需要不停的 两边拖拉才能看到完整的结果 百谷虎 baigoohoo 由于某家新闻媒体的报道 最近声名大振 高举着 山寨 大旗 让国人开始了解什么是山寨搜索引擎 名字极富创意 可惜由于搜 索结果被并排挤在一起 似乎没有什么实际使用价值 六 搜索引擎未来的发展方向 六 搜索引擎未来的发展方向 随着互联网的发展 网上可以搜寻的网页变得愈来愈多 而网 页内容的质素亦变得良莠不齐 没有保证 所以 未来的搜索引擎 精品文档 11欢迎下载11欢迎下载 将会朝着知识型搜索引擎的方向发展 可以为搜寻者提供更准确及 适用的资料 目前 网上的百科全书如雨后春笋般发展起来 另一 方面 近年来亦有不少公司尝试在搜寻方面改进 务求更符合用户 的要求 当中诸如 Copernic Agent 之类的搜寻代理就是其中之一 在台湾 威知资讯 WebGenie 是利用文字探勘 Text Mining 技 术发展搜寻引擎产品的公司 利用人工智能算法 可达成目前搜寻 引擎所缺乏的简易人机互动模式 诸如关联字提示 动态分类字提 示等 算是较另类的搜寻引擎产品 1 1 索关键词提炼索关键词提炼 选择搜索关键词的原则是 首先确定你所要达到的目标 在脑 子里要形成一个比较清晰概念 即我要找的到底是什么 是资料性 的文档 还是某种产品或服务 然后再分析这些信息都有些什么共 性 以及区别于其他同类信息的特性 最后从这些方向性的概念中 提炼出此类信息最具代表性的关键词 如果这一步做好了 往往就 能迅速的定位你要找的东西 而且多数时候你根本不需要用到其他 更复杂的搜索技巧 2 2 细化搜索条件细化搜索条件 你给出的搜索条件越具体 搜索引擎返回的结果也会越精确 比方说你想查找有关电脑冒险游戏方面的资料 输入 game 是无济于 事的 computer game 范围就小一些 当然最好是敲入 computer adventure game 返回的结果会精确得多 此外一些功能词汇和太常用的名词 如对英文中的 and how what web homepage 和中文中的 的 地 和 等等搜索引擎是不支持的 这些词被称为停用词 Stop Words 或过滤词 Filter Words 在搜索时这些词都将 被搜索引擎忽略 3 3 用好搜索逻辑命令用好搜索逻辑命令 精品文档 12欢迎下载12欢迎下载 搜索引擎基本上都支持附加逻辑命令查询 常用的是 号 和 号 或与之相对应的布尔 Boolean 逻辑命令 AND
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电脑使用申请书
- 安全检查表培训目的课件
- 单位青联委员申请书
- 四川省 自贡市第二十八中学校2025-2026学年九年级上学期开学测试语文试题(含答案)(解析版)
- 立案申请监督申请书
- 2025年水产品买卖合同范本
- 疫情期间申请补助申请书
- 2025年度反洗钱阶段考试培训试考试题库(附答案)
- 2025年安全生产考试题库(附答案)
- 2025【合同范本】服装厂加工合同
- 多式联运国际物流项目可行性研究报告
- 《互联网应用新特征》课件+2024--2025学年人教版(2024)初中信息科技七年级全一册
- 蓄水模块专项监理实施细则
- 创业小白实操手册 第2版 课件 6 做原型小验证-课件标准版
- 康复班-高频电疗法课件
- 劳动教育通论1-11章完整版课件
- DL∕T 2559-2022 灯泡贯流式水轮机状态检修评估技术导则
- 《炼油与化工装置机泵 在线监测系统技术规范》
- 租赁车位安装充电桩协议
- JT-T 722-2023 公路桥梁钢结构防腐涂装技术条件
- 法院书记员考试试题
评论
0/150
提交评论