讲信息资源管理技术信息采集PPT课件.ppt

上传人：优*** IP属地：广东上传时间：2020-03-18 格式：PPT 页数：28 大小：606KB 积分：35 举报 版权申诉

已阅读5页，还剩23页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

信息资源管理技术苏新宁 1 课程内容大纲信息采集技术信息存储与组织信息自动处理信息检索技术信息分析技术信息服务技术 2 信息采集技术文献信息源及采集数据库资源及信息获取网络资源及采集多媒体信息的采集 3 信息存储与组织结构化数据组织全文本信息的组织多媒体数据的组织本体数据组织方法XML及元数据 4 信息自动处理信息特征的提取自动标引理论与技术自动分类与聚类信息自动摘要视频信息的处理数据挖掘基本理论与技术 5 信息检索传统检索理论与技术搜索引擎技术智能代理分布式检索跨平台跨服务器多文种和跨语言的检索网格检索技术 6 信息服务技术推送服务个性化服务SDI查新服务虚拟咨询数字参考 7 信息分析技术数据仓库技术联机分析处理引文分析法Web计量学各种信息分析方法 8 第一讲信息采集 Web采集技术与方法 9 Web信息采集 WebCrawling 指通过Web页面之间的链接关系从Web上自动地获取页面信息并且随着链接不断向整个Web扩展的过程实现这一过程主要是由Web信息采集器 WebCrawler 来完成的 WebCrawler也常称作WebSpider WebRobot或WebWorm 粗略地说它主要是指这样一个程序从一个初始的URL集出发将这些URL全部放入到一个有序的待采集队列里而采集器从这个队列里按顺序取出URL 通过Web上的协议获取URL所指向的页面然后从这些已获取的页面中提取出新的URL 并将它们继续放入到待采集队列里然后重复上面的过程直到采集器根据自己的策略停止采集对于有些采集器到此就算完结了而对于另一些采集器它还要将采集到的页面数据和相关数据存储索引并在此基础上对内容进行分析 10 Web信息采集系统的基本结构 11 URL处理器这个部件主要给待采集的URL排序并根据一定的策略向协议处理器分配URL 按照采集系统规模的不同URL可以是多个采集队列也可以是一个URLServer URL处理器主要有三个数据来源 1 初始的种子URL集2 从URL提取器传输过来的URL集它们是从已经采集到的页面中提取出来的3 页面的Meta 主题以及摘要等信息来自Meta信息获取器它们主要用来显示从URL提取器中传输过来的URL的重要性为在这里排序提供依据 12 协议处理器这个部件处于系统的底层主要通过各种Web协议来完成数据的采集基本步骤如下根据URL抽取目标站点地址和端口号建立网络连接失败终止抓取根据URL组装http请求头分析应答头成功提取新目标URL从应答头提取日期长度页面内容等读取页面内容 13 重复内容检测器由于存在着大量的镜像页面和内容还有许多相互联结的网站许多页面内容是重复的有人统计重复率达30 如果都取回将极大地浪费了网络的带宽和影响了系统的效率所以重复内容检测变成了采集系统特别是大型采集系统的重要组成部分 14 URL提取器对于采集到的页面经过重复内容检测后需要分析其中的链接并对链接进行必要的转换这些任务由URL提取器来完成具体任务页面类型判别页面类型分析页面应答头页面URL规范 15 Meta信息获取主要是完成从已采集页面中提取Meta信息页面的主题页面的摘要等其目的是力图在没有对页面内容语义信息进行理解的情况下尽可能多地挖掘meta 结构等的语义信息已确定这些页面是否有用或好坏给出一个度量度量的结果传给URL处理器用于排序 16 语义信息解析器根据采集策略的不同有些采集器还有语义信息解析器这里所说的语义信息解析就是指对文本内容建立简单的索引由于该过程在一定程度上挖掘了页内容的语义所以叫做语义信息解析器 17 信息采集数据库用于存放经过重复内容检测后的页面数据提取出来的Meta信息主题和摘要等都要存入数据库以备其他应用使用比如对于Google这样的搜索引擎这个数据库中的内容将用于建立索引如果系统有语义信息解析器则解析出来的内容也存入数据库 18 Web信息采集面临的主要困难容量问题巨大的Web信息量使采集器不可能采集到所有的Web页面也可能没有足够大的空间存放采集到的所有页面速度问题页面的采集速度一直是影响采集器性能的重要原因数据更新问题为了保持页面是最新的采集系统不得不对已经采集过的页面进行周期性的更新但信息爆炸成为巨大障碍数据异构问题网络数据的复杂性和不确定性给系统实现带来很大困难采集实施问题多线程和并行机制是系统变得非常复杂这种复杂环境造成系统许多瓶颈 19 信息采集技术及分类基于整个网络的采集增量式的Web信息采集基于主题的Web信息采集基于个性化的Web信息采集基于Agent的信息采集迁移的信息采集基于元搜索的信息采集 20 基于整个网络的采集这种信息采集也叫做ScalableWebCrawling 主要是指目标为从一些种子URL扩充到整个Web的信息采集这种信息采集主要是作为门户站点搜索引擎和大型的Web服务提供商的数据收集部分由于商业原因这部分的技术细节很少被公布出来特点范围数量都巨大并行采集更新需要周期长 21 增量式的Web信息采集这种信息采集也称IncrementalWebCrawling 传统上 Web采集器根据自己的需要采集足量的信息后停止采集当一段时间后这些数据过时了它会重新采集一遍来代替原有的采集信息这种采集器称作周期性Web采集器 PeriodicWebCrawler 另外一种方法对待旧的页面采用增量式更新也就是说采集器在需要的时候采集新产生的或者已经发生变化了的页面而对于没有变化的页面不进行采集 22 基于主题的Web信息采集这种信息采集器英文表达FocusedCrawler 是指选择性地搜寻那些与预先定义好的主题集相关页面的采集器特点有针对性更新快节省资源问题采全率问题主题词与关键词的转换与匹配问题 23 基于个性化的Web信息采集它的目标就是通过用户兴趣制导或与用户交互等灵活手段来采集信息系统根据实际需要可以直接把采集结果提供给用户也可以先存储起来等到以后再提供两种方式获取个性化需求 1 用户手工在系统提供的个性化设置页面里设置2 系统自动获取通过跟踪用户的浏览习惯和兴趣等 24 基于Agent的信息采集是指将Agent与信息采集相结合的技术也称为AgentBasedCrawling 智能Agent特点自治性社会能力反应能力自发行为以及人类所具有的一些知识信念意图和承诺等心智状态在智能Agent的环境下智能Agent所固有的特点使面临基于主题和用户个性化的采集时和传统的方法比起来更方便灵活和适应性强 25 异地的信息采集这种信息采集器也叫RelocatableWebCrawler在采集时它并不像其他采集器在本地向Web站点服务器发页面请求而是将自己上载到它所要采集的服务器中在当地进行采集处理并将采集结果压缩后回传到本地优点节省Web资源问题可能不能得到被采集站点的信任 26 基于元搜索的信息采集对用户提交的查询请求通过多个领域或门户搜索引擎搜索并

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

讲信息资源管理技术信息采集PPT课件.ppt

文档简介

温馨提示

最新文档

评论

讲信息资源管理技术信息采集PPT课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档