已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
走进搜索引擎 小组成员 目录 搜索引擎概述 什么是搜索引擎 一种用来在计算机网络 特别是万维网上检索各种文件的计算机程序 与其说搜索引擎是一个查询系统 不如说它是一个用户定义的信息聚合系统 通过用户输入的查词关键 搜索引擎推测用户的查词意图 然后快速的返回相关的查询结果 供用户选择 搜索引擎概述 搜索引擎分类 目录式搜索引擎 人工 跟新不及时 成本高 Yahoo Sohu全文搜索引擎 信息量大 跟新及时 信息过多 google 百度元搜索引擎 没有自己的数据 信息量大 WebCrawler 搜索引擎概述 搜索引擎的主要五大需求 搜索引擎概述 搜索引擎的4大系统 下载 分析 索引 查询 这四个系统相互配合 共同实现了搜索引擎的5大主要需求 分析系统 从细节上看 网页从开始到最后都是网页 而在搜索引擎的内部会有两种不同的形式 一种以网页库的方式存储 一种成为网页对象被存储在索引库中 搜索引擎概述 从整体上看 下载系统 分析系统和索引系统组成了搜索引擎的数据制作部分 被称为 离线部分 查询系统为搜索引擎的数据服务部分 要求快速响应 因此被称为 在线部分 下载系统 首先从万维网的静态结构入手 如果把万维网定义成一个相互连通的连通图 网页为节点 链接 link 为边 那么任意一个网页可以其他网页链接 这种链接称为 反向链接 backlink 这个网页也有可能链接其网页 这种链接称为 正向链接 下载系统 有关爬虫 爬虫也称为 wanderers 漫步者 或者 Robots 机器人 他首先是一组运行在计算机程序中的程序 在搜索引擎中负责抓取实现呢的且公共可访问的Web网页 图片和文档资源 这种抓取的过程为通过下载一个网页 分析其链接 继而漫游到其他链接指向的网页 循环往复 下载系统 爬虫抓取原理 从种子站点开始开始逐层抓取 一般来说 爬虫选择蝴蝶左部的网页 即目录型网页作为种子站点 典型的如和这样门户网站的主页 爬虫在选择处理抓取的 顺序 上通常采用两者策略 1 深度优先策略 2 宽度优先策略 下载系统 爬虫抓取原理 1 深度优先策略 祖先 其他兄弟 5 次子 4 长子 1 长孙 2 其他兄弟 3 下载系统 爬虫抓取原理 2 宽度优先策略 分析系统 分析系统主要完成的工作包括信息抽取 网页消重 中文分词和pagerank计算等 page库 搜索引擎概述 添加文本 添加文本 添加文本 添加文本 文本 文本 文本 文本 文本 文本 文本 文本 添加标题 点击添加文本 点击添加文本 点击添加文本 点击添加文本 点击添
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 三方协议派遣制合同
- 广宁县2025年下半年事业单位招考工作人员(第二批)易考易错模拟试题(共500题)试卷后附参考答案
- 机床摆放协议书模板
- 丈夫离世赔偿协议书
- 广东云浮市城市规划设计院2025年下半年招考聘员易考易错模拟试题(共500题)试卷后附参考答案
- 卤肉店培训合同范本
- 机器试用协议书范本
- 公司结业清算协议书
- 公司安全管理协议书
- 核酸采集协议书范本
- YYT 0657-2017 医用离心机行业标准
- 沪科版九年级物理温度与物态变化检测题(含答案)
- 数据挖掘与机器学习全套教学课件
- (正式版)QBT 5998-2024 宠物尿垫(裤)
- 零售行业新媒体营销策划方案从线上到线下以用户为中心的全渠道营销策略范稿
- 纳米材料在染整加工中应用及其原理培训课件
- 非公司企业改制登记(备案)申请书-样表
- 温湿度计内部校准操作规程
- 农药植保基础培训
- 明火作业证在线考试
- 35千伏集电线路工程专业监理实施细则
评论
0/150
提交评论