版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
爬虫开发中遵守的法律与道德数据采集技术与应用内容/contentRobots协议01爬虫开发中的法律和道德约束02总结与思考03Robots协议Robots协议又称爬虫协议,它是国际互联网界通行的道德规范,用于保护网站数据和敏感信息,确保网站用户的个人信息和隐私不受侵犯。为了让网络爬虫了解网站的访问范围,网站管理员通常会在网站的根目录下放置一个符合Robots协议的robots.txt文件,通过这个文件告知网络爬虫在抓取该网站时存在哪些限制,哪些网页是允许被抓取的,哪些网页是禁止被抓取的。Robots协议当网络爬虫访问网站时,应先检查该网站的根目录下是否存在robots.txt文件。若robots.txt文件不存在,则网络爬虫可访问该网站上所有被口令保护的页面;若robots.txt文件存在,则网络爬虫应按照该文件的内容确定访问网站的范围。Robots协议robots.txt文件中的内容有着一套通用的写作规范。下面以豆瓣网站根目录下的robots.txt文件为例,分析robots.txt文件的语法规则。Robots协议User-agent:用于指定网络爬虫的名称。若该选项的值为“*”,则说明robots.txt文件对任何网络爬虫均有效。带有“*”号的User-agent选项只能出现一次。例如,示例的第一条语句User-agent:*。Disallow:用于指定网络爬虫禁止访问的目录。若Disallow选项的内容为空,说明网站的任何内容都是被允许访问的。在robots.txt文件中,至少要有一个包含Disallow选项的语句。例如,Disallow:/subject_search禁止网络爬虫访问目录/subject_search。Robots协议Allow:用于指定网络爬虫允许访问的目录。例如,Allow:/ads.txt表示允许网络爬虫访问目录/ads.txt。Sitemap:用于告知网络爬虫网站地图的路径。例如,Sitemap:这两个路径都是网站地图,主要说明网站更新时间、更新频率、网址重要程度等信息。爬虫开发的法律和道德约束一些数据涉密或者具有很高的商业价值,私自爬取会触犯法律,面临被追究刑事责任的风险。《刑法》及《刑法修正案》、《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》肆意攻击服务器,使用爬虫技术破
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年酒店健身房改造升级投资预算方案
- 机械工程教案
- 皮肤科疱疹病毒感染防治方案
- 淋巴瘤免疫治疗指南
- 企业创新与创业精神培养指南
- 弘扬雷锋精神 绽放青春风采
- 胫骨骨折术后康复训练方案
- 2025年公务员(环境保护实务)试题及答案
- 神经内科中风患者康复训练计划
- 水自然知识科普
- 部编人教版小学4四年级《道德与法治》下册全册教案
- 歌词:半生雪(学生版)
- 2025高考数学一轮复习-7.6-利用空间向量求空间角、距离-专项训练【含解析】
- 《 大学生军事理论教程》全套教学课件
- 反推装置 (1)课件讲解
- 英文科技论文写作
- XX县群文阅读课题中期成果报告:县域性推进小学群文阅读教学实践研究中期研究成果报告课件
- LY/T 2271-2014造林树种与造林模式数据库结构规范
- GB/T 38658-20203.6 kV~40.5 kV交流金属封闭开关设备和控制设备型式试验有效性的延伸导则
- GB/T 19409-2013水(地)源热泵机组
- GB/T 15856.4-2002六角法兰面自钻自攻螺钉
评论
0/150
提交评论