版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 内容提要 提供“普适性的数据分 析与服务”的搜索搜索 引擎引擎才能诠释出物 联网“更深入的智能化” 的内涵。 本章将介绍搜索引擎的 基本概念,体系结构和 相关技术。 第11章介绍了海量信息存储技术和数据中心 物联网对海量数据存储的需求 三种网络存储体系结构 数据中心的基本概念以及典型的数据中心 如何降低数据中心的成本 本章重点介绍搜索引擎的基本概念,包括发展历程,体 系结构(信息采集,索引技术,搜索服务),并针对一 个类Google Web搜索引擎进行简要分析。 内容回顾 12.1 搜索引擎简介搜索引擎简介 12.2 搜索引擎体系结构 12.3 物联网搜索引擎 搜索引擎有哪些?有哪三大模块组
2、成? 本章内容 12.1 搜索引擎简介 Web搜索引擎搜索引擎 一个能够在合理响应时间内,根据用户的查询关键词,返回一个包含 相关信息的结果列表(hits list)服务的综合体。 传统的Web搜索引擎是基于查询关键词的,对于相同的关键词,会 得到相同的查询结果。 常见Web搜索引擎 搜索引擎的发展 搜索引擎的起源可追溯到1992年, 由NCSA维护的“Whats NEW!” 页面。 第一个原始搜索引擎W3Catalog (1993.9) 第一个Web机器人程序“World Wide Web Wanderer”(1993.6 MIT) 里程碑: WebCrawler(1994), Lycos(
3、1994)商用 Google的建立:斯坦福博士生 Larry Page 和 Sergey Brin 创立了 Google 网络爬虫模块网络爬虫模块:主要功能是通过对Web页面的解析,根据Web页面之间 的连接关系抓取这些页面,并储存页面信息交给索引模块处理。 索引模块索引模块:主要完成对于抓取的数据进行预处理建立关键字索引以 便搜索模块输出。 搜索模块搜索模块:对于用户的关键词,根据数据库的索引知识给出合理的 搜索结果。 Web搜索引擎的结构 Web搜索引擎的工作模式 12.1 搜索引擎简介 12.2 搜索引擎体系结构搜索引擎体系结构 12.3 物联网搜索引擎 搜索引擎具有怎样的体系结构和相关
4、技术? 本章内容 Web搜索引擎的3个重要问题 响应时间响应时间:一般来说合理的响应时间在秒这个数量级 关键词搜索关键词搜索:得到合理的匹配结果 搜索结果排序搜索结果排序:如何对海量的结果数据排序 搜索引擎的体系结构搜索引擎的体系结构 信息采集 索引技术 搜索服务 体系结构:信息采集 搜索引擎体系结构 信息采集 索引技术 搜索服务 Web搜索引擎的信息采集模块 主要功能:Web上收集页面信息,即Web机器人 (爬虫)程序 基于超文本传输协议(Hypertext Transfer Protocol, 简称HTTP) 体系结构:信息采集 搜索引擎体系结构 信息采集 索引技术 搜索服务 典型的基于超
5、文本传输协议的网络应答 网络爬虫程序的工作模式 搜索引擎体系结构 信息采集 索引技术 搜索服务 网络爬虫程序网络爬虫程序根据HTTP协议,发送请求,并通 过TCP连接接受服务器的应答。 由于Web搜索引擎需要抓取数以亿计的页面,所以建立 快速分布式的网络爬虫程序才能满足搜索引擎对性 能和服务的要求,其物理实现可能是一组终端。 网络爬虫程序的工作模式 搜索引擎体系结构 信息采集 索引技术 搜索服务 爬虫程序物理设备架构图 网络爬虫程序的基础结构 搜索引擎体系结构 信息采集 索引技术 搜索服务 网络爬虫程序的基础结构 搜索引擎体系结构 信息采集 索引技术 搜索服务 首先网络爬虫程序从URL链接库读
6、取一个或多个URL 作为初始输入并进行域名解析 然后根据域名解析结果(IP)访问Web服务器,建 立TCP连接,发送请求,接受应答,储存接受数据, 并分析提取链接信息(URL)放入URL连接库里。 爬虫程序递归执行该过程直到URL链接库为空。 信息采集优化 搜索引擎体系结构 信息采集 索引技术 搜索服务 网络连接优化策略网络连接优化策略 持久性连接 多进程并发设计 域名系统的缓存策略域名系统的缓存策略:由于网络爬虫程序会频 繁调用域名系统,域名系统缓存可提高爬虫程序性 能。 LRU(Least Recently Used)算法 LFU(Lease Frequently Used)算法 FIFO
7、(First-In, First-Out)算法 网页抓取算法 搜索引擎体系结构 信息采集 索引技术 搜索服务 深度优先算法深度优先算法 在Web收集页面信息时,使用一个或一组预定义 URL地址开始,然后根据页面内容中的超链接深度 抓取页面,直到搜索结束(没有新的URL)。 广度优先算法广度优先算法 在Web收集页面信息时,使用一个或一组预定义 URL地址开始,然后根据页面内容中的超链接广度 抓取页面,抓取下一层的URL直到这一层的URL完 全被抓取,直到搜索结束时返回。 网页抓取算法(续) 搜索引擎体系结构 信息采集 索引技术 搜索服务 基于内容算法基于内容算法 根据关键字、主题文档的相似度和
8、链接文本 (Linked texts)估计链接值,并确定相应搜索策略 的算法。 链接文本是包含对URL链接解释说明和内容摘要的 文字信息。 基于基于HITS的算法的算法 主要思想:在抓取Web页面时,采用Authority/Hub 抓取策略。Authority表示该页面被其他页面所引用 的次数(页面入度值,in-degree value)。Hub表示 其他页面引用该页面的次数(页面出度值,out- degree value)。 网页抓取算法(续2) 搜索引擎体系结构 信息采集 索引技术 搜索服务 PageRank(Google的传奇技术)的传奇技术) 定义PageRank: 我们假设有T1Tn
9、个页面指向页面 A(即 引用)。参数d是一个阻尼因子,其取值区 间属于(0,1),我们通常取值为0.85。C(A)定义为指 向页面A的其他页面的连接数,页面A的PageRank或 PR(A)值可以通过下面的公式得到: 注意:PageRank值是Web页面的概率分布表示,所 以所有Web页面的PageRank值的和是1。 1 1 ()( ) ( )(1)(.) ( )() n n PR TPR T PR Add C TC T 体系结构:索引技术 搜索引擎体系结构 信息采集 索引技术 搜索服务 Web爬虫抓取回来的页面信息,需要放入索引数据库 里。 索引建立的好坏对于搜索引擎有很大的影响,优秀的
10、索引能够显著的提高搜索引擎系统运行的效率及检索 结果的品质。 文本分析技术是建立数据索引信息的支撑技术。 索引建立:预处理 搜索引擎体系结构 信息采集 索引技术 搜索服务 当Web搜索引擎获得数据信息以后,首先需要对数据进 行预处理,如将句子切分成有意义的词汇。由于中 文的特殊性在切分句子时会产生二义性,如何合理的 切分词汇是一个技术难题。 中文分词中文分词完全不同于英文分词,英文行文中,单词间 以空格分隔;而中文只有字/句/段有明显分隔符,唯独 词没有形式上的分隔符存在。 索引建立:倒排文件模型 搜索引擎体系结构 信息采集 索引技术 搜索服务 倒排文件倒排文件(inverted file),
11、是指一个词汇集合W和 一个文档集合D之间对应关系的数据结构。 建立倒排文件索引是建立索引数据库的核心工作。 索引建立:倒排文件模型 搜索引擎体系结构 信息采集 索引技术 搜索服务 索引模块架构 体系结构:搜索服务 搜索引擎体系结构 信息采集 索引技术 搜索服务 搜索服务是Web搜索引擎工作流程的最后一步,根据 用户提交的查询关键字展开搜索,将匹配结果返回给 用户。 搜索服务的好坏直接影响Web搜索引擎的用户满意程 度。 搜索服务:结果显示 搜索引擎体系结构 信息采集 索引技术 搜索服务 接受用户的输入,提交用户搜索请求。 根据搜索结果列表合理的展示给用户。 在保护隐私的前提下,记录用户使用行为
12、的详细信 息,以便提高下次服务的满意度。 搜索服务:网页快照 搜索引擎体系结构 信息采集 索引技术 搜索服务 Web上的数据每时每刻都在变化着,所以随时存在着 检索到的页面信息已经不存在的可能。 Web搜索引擎为了提高服务质量,需要对搜索到的页 面信息进行快照,以便在原来页面信息失效的情况下, 保证用户能够通过快照功能查看页面。 类Google Web搜索引擎的实例分析* 类Google搜索引擎的架构 URL服务器 Web页面抓取器 存储服务器 URL解释器 排序器 Page Rank 搜索器 类Google Web搜索引擎的实例分析* Google数据仓库的结构 类Google Web搜索引
13、擎的实例分析* 查询评估流程查询评估流程 解析查询(Query) 把单词转化成wordID 从每个单词的短桶文档列表开始查找 扫描文档列表直到有一个文档匹配了所有的搜索词语 计算这个文档对应的查询的评分 如果到达短桶的文档列表结尾,从每个单词的全桶(full barrel)文档 列表开始查找,跳到第4 步 如果没有到达任何文档列表的结尾,跳到第4步 根据评分对匹配的文档排序,然后返回评分最高的k个 12.1 搜索引擎简介 12.2 搜索引擎体系结构 12.3 物联网搜索引擎物联网搜索引擎 物联网背景下的搜索引擎应具有哪些新特点? 本章内容 12.3 物联网搜索引擎 物联网时代搜索引擎的新思考物联网时代搜索引擎的新思考 从智能物体角度思考搜索引擎与物体之间的关系,主动识别物体 并提取有用信息。 从用户角度上的多模态信息利用,使查询结果更精确,更智能, 更定制化。 本章小结 内容回顾内容回顾 本章介绍了搜索引擎的发展历程,重点讨论了搜索引擎的体系结构(信息采 集,索引技术,搜索服务),并提出了物联网背景下搜索引擎的新思考。 重点掌握重点掌握 掌握Web搜索
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年人工智能驱动育种体系建设与生物育种关键技术装备研发
- 江西省新余市名校2026年初三下学期期末教学质量监测化学试题含解析
- 2026年硬件首付软件订阅维护计费新型交付模式设计
- 2026年超龄农民工用工健康标准与岗位适配性评估
- 2026年乡镇超市如何应对大型连锁超市下乡竞争的策略
- 2026年累计形成超300项关键技术储备后的6G产业化路径分析
- 2026年光伏组件用玻璃碳足迹核算与减碳技术
- 2026年钨锆钛等高价态掺杂元素在高镍材料中的作用机理
- 京东物流客服团队扩张规划
- 肾病综合征病人的护理
- 2026年湖南商务职业技术学院单招职业技能测试必刷测试卷及答案1套
- 物业强电系统培训
- 水利工程项目法人保证安全生产措施方案
- 《毕业论文》课程教学大纲(本科)
- 陶瓷施釉工岗位设备技术规程
- 再生纤维性能优化-第3篇-洞察与解读
- 安全管理岗面试常见问题及高分解析
- 重大疾病保险科普知识培训课件
- 临床预防呼吸机相关肺炎(VAP)的集束化管理策略
- 2026届新高考语文背诵篇目60篇(注音版)
- 2025陕西事业单位考试e类试题及答案
评论
0/150
提交评论