




已阅读5页,还剩23页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息资源管理技术 苏新宁 1 课程内容大纲 信息采集技术信息存储与组织信息自动处理信息检索技术信息分析技术信息服务技术 2 信息采集技术 文献信息源及采集数据库资源及信息获取网络资源及采集多媒体信息的采集 3 信息存储与组织 结构化数据组织全文本信息的组织多媒体数据的组织本体数据组织方法XML及元数据 4 信息自动处理 信息特征的提取自动标引理论与技术自动分类与聚类信息自动摘要视频信息的处理数据挖掘基本理论与技术 5 信息检索 传统检索理论与技术搜索引擎技术智能代理分布式检索 跨平台 跨服务器 多文种和跨语言的检索网格检索技术 6 信息服务技术 推送服务个性化服务SDI查新服务虚拟咨询 数字参考 7 信息分析技术 数据仓库技术联机分析处理引文分析法Web计量学各种信息分析方法 8 第一讲信息采集 Web采集技术与方法 9 Web信息采集 WebCrawling 指通过Web页面之间的链接关系 从Web上自动地获取页面信息 并且随着链接不断向整个Web扩展的过程 实现这一过程主要是由Web信息采集器 WebCrawler 来完成的 WebCrawler也常称作WebSpider WebRobot或WebWorm 粗略地说 它主要是指这样一个程序 从一个初始的URL集出发 将这些URL全部放入到一个有序的待采集队列里 而采集器从这个队列里按顺序取出URL 通过Web上的协议 获取URL所指向的页面 然后从这些已获取的页面中提取出新的URL 并将它们继续放入到待采集队列里 然后重复上面的过程 直到采集器根据自己的策略停止采集 对于有些采集器 到此就算完结了 而对于另一些采集器 它还要将采集到的页面数据和相关数据存储 索引并在此基础上对内容进行分析 10 Web信息采集系统的基本结构 11 URL处理器 这个部件主要给待采集的URL排序 并根据一定的策略向协议处理器分配URL 按照采集系统规模的不同URL可以是多个采集队列 也可以是一个URLServer URL处理器主要有三个数据来源 1 初始的种子URL集2 从URL提取器传输过来的URL集 它们是从已经采集到的页面中提取出来的3 页面的Meta 主题以及摘要等信息来自Meta信息获取器 它们主要用来显示从URL提取器中传输过来的URL的重要性 为在这里排序提供依据 12 协议处理器 这个部件处于系统的底层 主要通过各种Web协议来完成数据的采集 基本步骤如下 根据URL抽取目标站点地址和端口号建立网络连接 失败 终止抓取根据URL组装http请求头分析应答头 成功 提取新目标URL从应答头提取日期 长度 页面内容等读取页面内容 13 重复内容检测器 由于存在着大量的镜像页面和内容 还有许多相互联结的网站 许多页面内容是重复的 有人统计重复率达30 如果都取回将极大地浪费了网络的带宽和影响了系统的效率 所以 重复内容检测变成了采集系统 特别是大型采集系统的重要组成部分 14 URL提取器 对于采集到的页面 经过重复内容检测后 需要分析其中的链接 并对链接进行必要的转换 这些任务由URL提取器来完成 具体任务 页面类型判别 页面类型分析 页面应答头 页面URL规范 15 Meta信息获取 主要是完成从已采集页面中提取Meta信息 页面的主题 页面的摘要等 其目的是力图在没有对页面内容语义信息进行理解的情况下 尽可能多地挖掘meta 结构等的语义信息 已确定这些页面是否有用或好坏 给出一个度量 度量的结果传给URL处理器 用于排序 16 语义信息解析器 根据采集策略的不同 有些采集器还有语义信息解析器 这里所说的语义信息解析就是指对文本内容建立简单的索引 由于该过程在一定程度上挖掘了页内容的语义 所以叫做语义信息解析器 17 信息采集数据库 用于存放经过重复内容检测后的页面数据 提取出来的Meta信息 主题和摘要等都要存入数据库 以备其他应用使用 比如 对于Google这样的搜索引擎 这个数据库中的内容将用于建立索引 如果系统有语义信息解析器 则解析出来的内容也存入数据库 18 Web信息采集面临的主要困难 容量问题 巨大的Web信息量使采集器不可能采集到所有的Web页面 也可能没有足够大的空间存放采集到的所有页面 速度问题 页面的采集速度一直是影响采集器性能的重要原因 数据更新问题 为了保持页面是最新的 采集系统不得不对已经采集过的页面进行周期性的更新 但信息爆炸成为巨大障碍 数据异构问题 网络数据的复杂性和不确定性 给系统实现带来很大困难采集实施问题 多线程和并行机制是系统变得非常复杂 这种复杂环境造成系统许多瓶颈 19 信息采集技术及分类 基于整个网络的采集增量式的Web信息采集基于主题的Web信息采集基于个性化的Web信息采集基于Agent的信息采集迁移的信息采集基于元搜索的信息采集 20 基于整个网络的采集 这种信息采集也叫做ScalableWebCrawling 主要是指目标为从一些种子URL扩充到整个Web的信息采集 这种信息采集主要是作为门户站点搜索引擎和大型的Web服务提供商的数据收集部分 由于商业原因 这部分的技术细节很少被公布出来 特点 范围 数量都巨大 并行采集 更新需要周期长 21 增量式的Web信息采集 这种信息采集也称IncrementalWebCrawling 传统上 Web采集器根据自己的需要采集足量的信息后停止采集 当一段时间后这些数据过时了 它会重新采集一遍来代替原有的采集信息 这种采集器称作周期性Web采集器 PeriodicWebCrawler 另外一种方法 对待旧的页面采用增量式更新 也就是说 采集器在需要的时候采集新产生的或者已经发生变化了的页面 而对于没有变化的页面不进行采集 22 基于主题的Web信息采集 这种信息采集器英文表达FocusedCrawler 是指选择性地搜寻那些与预先定义好的主题集相关页面的采集器 特点 有针对性 更新快 节省资源 问题 采全率问题 主题词与关键词的转换与匹配问题 23 基于个性化的Web信息采集 它的目标就是通过用户兴趣制导或与用户交互等灵活手段来采集信息 系统根据实际需要可以直接把采集结果提供给用户 也可以先存储起来等到以后再提供 两种方式获取个性化需求 1 用户手工在系统提供的个性化设置页面里设置2 系统自动获取 通过跟踪用户的浏览习惯和兴趣等 24 基于Agent的信息采集 是指将Agent与信息采集相结合的技术 也称为AgentBasedCrawling 智能Agent特点 自治性 社会能力 反应能力 自发行为以及人类所具有的一些知识 信念 意图和承诺等心智状态 在智能Agent的环境下 智能Agent所固有的特点使面临基于主题和用户个性化的采集时 和传统的方法比起来更方便灵活和适应性强 25 异地的信息采集 这种信息采集器也叫RelocatableWebCrawler在采集时 它并不像其他采集器在本地向Web站点服务器发页面请求 而是将自己上载到它所要采集的服务器中 在当地进行采集 处理 并将采集结果压缩后 回传到本地 优点 节省Web资源问题 可能不能得到被采集站点的信任 26 基于元搜索的信息采集 对用户提交的查询请求通过多个领域或门户搜索引擎搜索 并
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论