版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
爬虫开发中遵守的法律与道德数据采集技术与应用内容/contentRobots协议01爬虫开发中的法律和道德约束02总结与思考03Robots协议Robots协议又称爬虫协议,它是国际互联网界通行的道德规范,用于保护网站数据和敏感信息,确保网站用户的个人信息和隐私不受侵犯。为了让网络爬虫了解网站的访问范围,网站管理员通常会在网站的根目录下放置一个符合Robots协议的robots.txt文件,通过这个文件告知网络爬虫在抓取该网站时存在哪些限制,哪些网页是允许被抓取的,哪些网页是禁止被抓取的。Robots协议当网络爬虫访问网站时,应先检查该网站的根目录下是否存在robots.txt文件。若robots.txt文件不存在,则网络爬虫可访问该网站上所有被口令保护的页面;若robots.txt文件存在,则网络爬虫应按照该文件的内容确定访问网站的范围。Robots协议robots.txt文件中的内容有着一套通用的写作规范。下面以豆瓣网站根目录下的robots.txt文件为例,分析robots.txt文件的语法规则。Robots协议User-agent:用于指定网络爬虫的名称。若该选项的值为“*”,则说明robots.txt文件对任何网络爬虫均有效。带有“*”号的User-agent选项只能出现一次。例如,示例的第一条语句User-agent:*。Disallow:用于指定网络爬虫禁止访问的目录。若Disallow选项的内容为空,说明网站的任何内容都是被允许访问的。在robots.txt文件中,至少要有一个包含Disallow选项的语句。例如,Disallow:/subject_search禁止网络爬虫访问目录/subject_search。Robots协议Allow:用于指定网络爬虫允许访问的目录。例如,Allow:/ads.txt表示允许网络爬虫访问目录/ads.txt。Sitemap:用于告知网络爬虫网站地图的路径。例如,Sitemap:这两个路径都是网站地图,主要说明网站更新时间、更新频率、网址重要程度等信息。爬虫开发的法律和道德约束一些数据涉密或者具有很高的商业价值,私自爬取会触犯法律,面临被追究刑事责任的风险。《刑法》及《刑法修正案》、《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》肆意攻击服务器,使用爬虫技术破
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 精准医疗视角下的代谢病菌群移植策略
- 精准医疗社区慢病管理绩效评价
- 精准医疗的经济成本与效益评估路径
- 精准医疗与分级诊疗的医养结合
- 精准医学跨境营养方案的个性化定制
- 精准医学背景下IBD的诊疗误区与对策
- 工业过程监控与过程智能控制-洞察及研究
- 激光治疗与药物治疗联合应用-洞察及研究
- 电报码在工业互联网中的应用研究-洞察及研究
- 精索扭转细胞凋亡的细胞间通讯-洞察及研究
- 内科质控会议管理制度
- 电气防火防爆培训课件
- 彝族文化和幼儿园课程结合的研究获奖科研报告
- 空调安装免责协议
- 湖北省襄樊市樊城区2023-2024学年数学四年级第一学期期末质量检测试题含答案
- 新北师大版八年级数学下册导学案(全册)
- 常用实验室检查血常规演示文稿
- 生命第一:员工安全意识手册
- cimatron紫藤教程系列gpp2运行逻辑及block说明
- GB/T 32473-2016凝结水精处理用离子交换树脂
- CB/T 1233-1994水面舰船螺旋桨脉动压力测量规程
评论
0/150
提交评论