版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据分析通用流程数据分析是基于商业目的,有目标的进行数据收集、处理、加工、分析,提炼出有价值的信息的过程,整个过程大致可分为以下阶段:确定需求数据准备数据清洗数据分析数据可视化业务场景还原分析需求洞察指标业绩衡量解决问题思路数据特征分析数据分类聚类业务场景建模指标量化分析自动生成图表报表动态组合大屏智能播报辅助经营决策确定数据来源数据获取规范爬虫工具抓取数据库获取数据处理异常数据处理遗漏数据处理噪音数据处理不一致的数据数据采集随着大数据时代的到来,通过对海量数据进行分析,能够产生极大的商业价值,那么,我们如何才能获取大量数据呢?数据获取方式:企业产生的数据:在企业生产运营中会产生与自身业务相关的大量数据;数据平台购买的数据:数据平台是以数据交易为主营业务的平台;数据管理咨询公司的数据:数据管理咨询公司为提供专业的咨询服务,会收集大量与特定业务相关的数据作为支撑;政府、机构公开的数据:政府会发布一些公开的统计数据或信息,成为行业内权威信息的来源;爬取的网络数据:利用爬虫技术,即可自动抓取所需要的数据,获取更多数据源,提高数据分析的效率和效果。了解爬虫目录0102什么是爬虫爬虫基本流程01什么是爬虫什么是爬虫?爬虫(即网络爬虫),是一种按照一定规则,自动抓取网络信息的程序。网络爬虫可以理解为在网络上爬行的一只蜘蛛,互联网就像一张大网,爬虫便是在这张网上爬来爬去的蜘蛛,如果遇到猎物(即所需的资源),就会将其抓取下来。利用Python爬虫:Python是一门非常适合网络爬虫的编程语言,提供了许多爬虫相关的库,可以高效实现网页抓取,并可用极短的代码完成网页的标签过滤功能。什么是爬虫?浏览网页的过程在日常学习中,我们经常需要浏览网页上信息,只需要打开浏览器,输入网址即可浏览网页上的文字、图片,那么,这一过程是如何实现的呢?浏览网页的过程:用户输入网址,计算机提取域名;浏览器查找域名对应的IP地址;浏览器获取IP地址后,向此IP地址发起对该资源的访问请求;服务端响应请求,并把相应的数据传给浏览器(返回html页面),浏览器将html页面解析后就是我们看到的文字和图片。提示HTML(超文本标记语言)是用来描述网页的一种语言。用户看到的网页实质是由HTML代码构成的。爬虫原理简单来说,爬虫就是模拟用户浏览网页的操作,通过模拟浏览器向网站发送请求,获取资源后提取有用的数据并保存。原则上,只要浏览器能做的事情,爬虫都能做到。爬取数据类型:HTML文档json格式化文本二进制文件,包括图片和视频其他提示JSON是一种轻量级的数据交换格式,易于编写和阅读,也易于机器解析,是理想的数据交换语言。JSON文本格式类似于Python中的字典,在爬虫中使用非常广泛。02爬虫基本流程爬虫基本流程爬虫基本流程:发送请求→获取响应内容→解析内容→保存数据发送请求:通过url向服务器发送HTTP请求;获取响应内容: 若服务器正常响应,会返回一个Response响应(即所要获取的页面内容,可能为html、json、二进制数据等);解析内容:对返回的响应内容进行解析,提取所需数据;保存数据:可将数据保存为各种形式,如数据库或特定格式的文件(如:json、csv文件等)。HTTP协议在访问网页时,服务器把网页传给浏览器,实际上就是把网页的HTML代码发送给浏览器,让浏览器显示出来。而浏览器和服务器之间的传输协议是HTTP。HTTP协议:即超文本传输协议,是互联网上应用最为广泛的一种网络协议,所有网页文件都必须遵守这个标准,设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。HTTP协议是一种基于“请求与响应”模式的、无状态的应用层协议,采用URL作为定位网络资源的标识符。URL的含义URL:统一资源定位符,也就是我们所说的网址,URL是对互联网上资源位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。爬虫爬取数据时,必须有一个目标URL才可以获取数据,URL是爬虫获取数据的基本依据。一个网页对应一个URL,网页中加载的图片、视频、文件也同样对应一个唯一的URL,在一个HTML页面中可能存在多个URL,想要获取一个页面内所有URL链接,则需在爬取网页后,利用python解析库对爬取的页面进行解析,提取所有URL。提示本课程中爬虫涉及的URL均为最内层,爬虫过程中无需使用解析库解析响应内容。课堂小结爬虫:按照一定规则,自动抓取网络信息的程序爬虫原理:模拟浏览器请求网
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025关于新工程合同范本
- 多文言文翻译方法
- 血糖监测宣教手册
- 2025版帕金森病症状与康复护理培训
- 2025版肛肠科痔疮症状分析及饮食护理培训
- 小儿腹泻护理宣教
- 2025版干眼症状综合分析及护理护理建议
- 海底捞定价方法
- p89-解决问题的策略(替换)
- 2025年水利岗位竞聘考试题及答案
- 《人民警察制式服装及其标志管理规定》知识培训
- 2025年海南省辅警招聘考试题库及答案
- 3D数字展品展示与互动体验方案
- 天津市卓越中学2025-2026学年九年级上学期第一次月考道德与法治试题(含答案)
- 2025杭州桐庐县统计局编外招聘2人考试参考试题及答案解析
- 国际道路运输的安全管理制度
- 2025年广州市事业单位招聘考试卫生类康复治疗学专业知识试卷
- 河北省保定市五校2025-2026学年高一上学期9月月考语文试卷(含答案)
- 申请查业主清册申请书
- 深圳婚姻家事法律课件
- ODM研发承揽协议
评论
0/150
提交评论