版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
5.2.1数据采集的方法和工具
学习目标明确数据应用项目的需求能制定数据采集的需求清单知道数据采集的方法和工具一、系统日志采集法——临时文件1.概念:记录系统硬件、软件和系统问题的信息文件查看日志的方法:控制面板系统安全管理工具查看事件日志2.内容一、系统日志采集法——临时文件1.概念:记录系统硬件、软件和系统问题的信息文件2.内容:操作系统日志、应用程序日志、安全日志3.作用:监视系统中发生的事件检查错误发生的原因寻找受到攻击时攻击者留下的痕迹二、
网络数据采集法1.概念:通过网络爬虫、网络公开API(应用程序接口)等方法从网站上获取数据信息在网址后加robots.txt,可以查看本网页是否能被爬取例如:/robots.txt二、
网络数据采集法2.网络爬虫的基本工作流程:根据网页代码的标签名和属性,提取数据控制器解析器存储器二、
网络数据采集法2.网络爬虫的基本工作流程如下:首先,选取一部分精心挑选的种子URL;然后,将这些URL放入待抓取URL队列;接着,从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。最后,分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。二、
网络数据采集法2.网络爬虫。例如:百度的爬虫Baiduspider360的爬虫叫360Spider百度spider用户其他网站关键字主要内容网址时间索引索引数据库检索保存二、
网络数据采集法3.HtmlHtml:超文本标志语言的缩写,网页代码的基本组成部分Html元素:决定网页的内容和结构,包含标签、注释等标签:网页代码最基本的组成单位<标签名属性1属性2
…>标签内容</标签名>开始标签结束标签属性格式:属性名称=属性值浏览器网页显示的内容二、
网络数据采集法3.Html标签<标签名属性1属性2
…>标签内容</标签名>开始标签结束标签浏览器网页显示的内容<p>我有一双蓝色的眼睛</p><p>我有一双<fontcolor=bluesize=7>蓝色</font>的眼睛</p>属性格式:属性名称=属性值二、
网络数据采集法3.Html标签查看网页代码的方法:例如:鼠标指向需爬虫数据右击审查元素二、
网络数据采集法3.Html标签<标签名属性1属性2
…>标签内容</标签名>开始标签结束标签浏览器网页显示的内容属性格式:属性名称=属性值span标签名class属性二、
网络数据采集法4.扩展库导入模块importmodule导入指定模块的指定函数frommoduleimportname导入模块(函数)并新名字替代importmoduleas新名字(首字母)模块名语句——《数据与计算》P106语句作用importnumpyasnpimportmatplotlib.pyplotaspltfrompylabimport*引入numpy库模块,用np替代引入matplotlib库模块中的pyplot方法,用plt替代引入pylab库模块中的所有方法函数名二、
网络数据采集法5.网络爬虫的具体案例all_title=soup.find_all('span',class_="title")forjinall_title: soup_title=bs4.BeautifulSoup(str(j),"html.parser",) title.append(soup_title.span.string)#把爬取的数据添加并存储到title#爬取title并赋值给all_title#爬取title并赋值给soup_title三、
其他数据采集法1.概念传感器等特定接口采集数据传输到数据库管理系统四、
课堂小结数据采集的方法与工具系统日志采集法记录系统中硬件、软件和系统问题的信息文件系统日志应用程序日志安全日志网络数据采集法网络爬虫:从URL开始网站公开API扩展库导入模块importmodule导入指定模块的指定函数
frommoduleimportname导入模块(函数)并新名字替代importmoduleas新名字(首字母)五、
课堂练习1.网络数据采集法,主要通过网络爬虫或网站公开API的方式获取,网络爬虫从网页的()开始获取。A.URL B.WWWC.HTMLD.XML2.利用Python采集网络数据时,导入扩展库的关键字是import。(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 木工组长奖惩制度
- 机修工厂奖惩制度
- 机关部门奖惩制度
- 林业局蛇场奖惩制度
- 2025-2026学年第二学期学校防溺水安全教育工作总结报告
- 2026广东中山市桂山中学教育集团博爱中学招聘初中语文临聘教师笔试备考题库及答案解析
- 中国建筑集团2026届春季全球校园招聘笔试备考题库及答案解析
- 2026重庆市永川区南大街街道办事处招聘公益性岗位人员2人笔试备考试题及答案解析
- 蒙牛2026届春季校园招聘笔试备考题库及答案解析
- 2026中国融贸农发集团有限公司筹备组社会招聘4人笔试备考题库及答案解析
- 初中语文中考主旨探究与表达题知识清单
- 2026江苏徐州丰县综合检验检测中心招聘编外工作人员10人笔试备考题库及答案解析
- 2026年微机电系统(MEMS)设计原理
- 2026年黑龙江艺术职业学院单招综合素质考试题库含答案解析
- 2026广东事业单位招聘(公基)考试真题及答案
- 2026年春季开学收心大会校长讲话:马年春风送暖奋楫逐梦启新程
- 深圳爆破证考试题库及答案
- 宁夏德渊集团招聘笔试题库2026
- 安全启航逐梦新学期2026年寒假开学第一课
- 高速护栏施工培训课件
- 庐山课件教学
评论
0/150
提交评论