大连理工大学爬虫.ppt

上传人：奇*** IP属地：河北上传时间：2020-03-23 格式：PPT 页数：27 大小：2MB 积分：15 举报 版权申诉

已阅读5页，还剩22页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

网络爬虫刘文飞2014 10 29 网络爬虫又称网络蜘蛛网络机器人网络爬虫是一个自动提取网页的程序它为搜索引擎从万维网上下载网页是搜索引擎的重要组成爬虫一般从一个或若干初始网页的URL开始获得初始网页上的URL 在抓取网页的过程中不断从当前页面上抽取新的URL放入队列直到满足系统的一定停止条件网络爬虫的定义非定向爬虫爬取互联网上任何基于Http协议的内容工具 Larbin Ncrawler Heritrix Nutch 定向爬虫根据网站自身的属性采用特定的爬取策略工具包 HttpClient Java和C 均已携带封装好的类库爬虫分类 HTTP HyperTextTransferProtocol 超文本传输协议万维网协会和Internet工作小组 1999年6月发布了RFC2616 定义了今天普遍使用的HTTP 1 1HTTP协议是用于从WWW服务器传输超文本到本地浏览器的传送协议属于应用层协议由请求和响应构成是一个标准的客户端服务器模型 HTTP协议 HTTP协议通常承载于TCP协议之上有时也承载于TLS或SSL协议层之上这就是所说的HTTPS 默认HTTP端口为80 HTTPS端口为443 HTTP在TCP IP协议栈中的位置 HTTP协议永远都是客户端发起请求服务器回送响应无法推送 HTTP协议是一个无状态的协议同一个客户端的这次请求和上次请求没有对应关系 Cookie Session HTTP的请求响应模型 1 首先客户端与服务器需要建立连接只要单击某个超链接 HTTP的工作就开始了 2 建立连接后客户机向服务器发送请求 3 服务器接收到请求后给予相应的相应信息 4 客户端接受服务器所返回的信息通过浏览器显示在用户显示屏上然后客户端与服务器断开连接 HTTP协议工作流程 HTPP请求由三个部分组成请求行消息报头请求正文 HTTP协议之请求请求行 MethodRequest URIHTTP VersionCRLF例 GET index jspHTTP 1 1 CRLF GET请求获取Request URI所标识的资源POST在Request URI所标识的资源后附加新的数据HEAD请求获取由Request URI所标识的资源的响应消息报头PUT请求服务器存储一个资源并用Request URI作为其标识DELETE请求服务器删除Request URI所标识的资源TRACE请求服务器回送收到的请求信息主要用于测试或诊断CONNECT保留将来使用OPTIONS请求查询服务器的性能或者查询与资源相关的选项和需求 HTTP协议之请求请求行 Accept 浏览器可接受的MIME类型 Accept Charset 浏览器可接受的字符集 Accept Encoding 浏览器能够进行解码的数据编码方式比如gzipAccept Language 浏览器所希望的语言种类Authorization 授权信息Connection 表示是否需要持久连接Content Length 表示请求消息正文的长度 Cookie 这是最重要的请求头信息之一Host 初始URL中的主机和端口Referer 跳转前URLUser Agent 浏览器类型及系统信息 HTTP协议之请求消息报头 HTPP响应由三个部分组成状态行消息报头响应正文 HTTP协议之响应状态行 HTTP VersionStatus CodeReason PhraseCRLF例 HTTP 1 1200OK CRLF 状态代码有三位数字组成第一个数字定义了响应的类别且有五种可能取值 1xx 指示信息表示请求已接收继续处理2xx 成功表示请求已被成功接收理解接受3xx 重定向要完成请求必须进行更进一步的操作4xx 客户端错误请求有语法错误或请求无法实现5xx 服务器端错误服务器未能实现合法的请求 HTTP协议之响应状态行常见状态代码状态描述说明 200OK 客户端请求成功400BadRequest 客户端请求有语法错误不能被服务器所理解401Unauthorized 请求未经授权这个状态代码必须和WWW Authenticate报头域一起使用403Forbidden 服务器收到请求但是拒绝提供服务404NotFound 请求资源不存在 eg 输入了错误的URL500InternalServerError 服务器发生不可预期的错误503ServerUnavailable 服务器当前不能处理客户端的请求一段时间后可能恢复正常 HTTP协议之响应状态行 Location 用于重定向接受者到一个新的位置Server 服务器用来处理请求的软件信息 HTTP协议之响应消息报头 Session机制是一种服务器端保存用户状态的机制服务器使用一种类似于散列表的结构来保存信息比如未登录状态下购物车的实现客户端维护SessionID的方式CookieURL重写表单隐藏字段 HTTP相关知识点 Session Cookies是客户端保存状态的一种方案会话性质的cookie 存放在浏览器内存持久化的cookie 存放在硬盘上Cookies可以记录你的用户ID 密码浏览过的网页停留的时间等信息当你再次来到该网站时网站通过读取Cookies 得知你的相关信息就可以做出相应的动作如在页面显示欢迎你的标语或者让你不用输入ID 密码就直接登录等等 HTTP相关知识点 Cookies HTTP压缩是在Web服务器和浏览器间传输压缩文本内容的方法 HTTP压缩传输能更加有效节约带宽流量 HTTP压缩采用通用的压缩算法如gzip等压缩HTML JavaScript或CSS文件网页压缩情况查询 HTTP相关知识点压缩 JSON即JavaScriptObjectNatation 它是一种轻量级的数据交换格式非常适合于服务器与JavaScript的交互JSON是基于纯文本的数据格式由于JSON天生是为JavaScript准备的因此 JSON的数据格式非常简单可以用JSON传输一个简单的String Number Boolean 也可以传输一个数组或者一个复杂的Object对象 HTTP相关知识点 JSON 爬虫抓取策略网页地址过滤网页更新去重网页解析多线程并发爬取爬虫流程深度优先搜索策略广度优先搜索策略最佳优先搜索策略可能根据主题相似度反向链接数 PR值等策略爬虫抓取策略正则表达式可以过滤非正规的网址无需下载的文件后缀名或特定域名下的网页建立IP规则库如若建立校内搜索引擎则在爬取时将所有非校内IP过滤掉网页地址过滤历史参考策略据页面以往的历史更新数据预测该页面未来何时会发生变化用户体验策略根据用户点击信息优先爬取质量较高关注度高的页面聚类抽样策略无需保存历史信息解决冷启动问题无历史信息的网页网页更新策略 MD5值比较法缺点精确匹配才算重复网页指纹法网页去重策略主要内容抽取TIKA 可抽取HTML PDF MS Image 元数据 XML等Lucene提供工具包抽取HTML 较粗糙容易出错 cx extractor 基于行块分布函数的通用网页正文抽取算法哈工大

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大连理工大学爬虫.ppt

文档简介

温馨提示

最新文档

评论

大连理工大学爬虫.ppt

文档简介

温馨提示

最新文档

评论

相关文档