数据采集技术课件第1章 绪论_第1页
数据采集技术课件第1章 绪论_第2页
数据采集技术课件第1章 绪论_第3页
数据采集技术课件第1章 绪论_第4页
数据采集技术课件第1章 绪论_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

能力要求能通过学习本章知识,对数据采集有一个整体的简单了解。对常用的网络爬虫类型、框架、方法有一定的理解,为今后的学习打下基础。1数据采集概述2数据采集的典型应用场景3数据采集技术框架目录4567网络爬虫概述网络爬虫的结构与类型Scrapy爬虫介绍Scrapy安装与配置1.1数据采集概述1.1.1什么是数据采集数据采集又称数据获取,是指从传感器和其他待测设备等模拟和数字被测单元中自动采集信息的过程。在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分布式领域。本书的数据采集主要讨论的是如何从各种系统每天产生并存放在各类数据库、文件系统的数据、服务器或互联网以及移动互联网每天产生的日志文件中,又或者是各种图像、音频、视频文件、信息等中,采集相应的数据并汇总、入库。数据分类新一代数据体系中,将传统数据体系中没有考虑过的新数据源进行归纳与分类,可将其分为线上行为数据与内容数据两大类,分别如。(1)线上行为数据:页面数据、交互数据、表单数据、会话数据等。(2)内容数据:应用日志、电子文档、机器数据、语音数据、社交媒体数据等。传统数据与大数据的数据采集区别随着大数据时代的来临,数据采集面临着更多新的难题。大数据的数据采集与传统数据采集相比,具有以下不同的特点。传统数据采集大数据的数据采集来源单一来源广泛结构单一数据类型丰富,包括结构化、半结构化、非结构化关系数据库和并行数据仓库分布式数据库1数据采集概述2数据采集的典型应用场景3数据采集技术框架目录4567网络爬虫概述网络爬虫的结构与类型Scrapy爬虫介绍Scrapy安装与配置内容导航数据采集概述数据采集的典型应用场景数据采集技术框架网络爬虫概述网络爬虫的结构与类型Scrapy爬虫介绍Scrapy安装与配置1.1.2数据采集的典型应用场景1.知识信息储备客户服务、保险、汽车、维修、医药等行业需要储备规模巨大的资料库,而庞大繁杂的解答手册和知识系统会造成重复查询,导致系统延迟和成本上升,而数据采集技术有效缓解了这类问题。2.搜索技术搜索是大家几乎天天都在使用的应用,它使用的是爬虫技术。搜索引擎爬虫(又被称为网页蜘蛛,网络机器人)是一种按照一定的规则,自动抓取万维网信息的程序或者脚本。搜索引擎离不开爬虫,比如百度搜索引擎的爬虫叫作百度蜘蛛(Baiduspider)。3.其他网络爬虫应用(1)新闻网站集中阅读(2)过滤广告(3)精准营销(4)网站用户信息进行分析1数据采集概述2数据采集的典型应用场景3数据采集技术框架目录4567网络爬虫概述网络爬虫的结构与类型Scrapy爬虫介绍Scrapy安装与配置数据采集技术框架1.2.1数据采集技术架构图数据采集技术框架1.2.1两种主流的数据采集架构Flume的技术架构中,每一个代码都由资源、管道和下沉组成。资源负责接收输入数据,并将数据写入管道。Flume的资源支持HTTP、JMS、RPC、NetCat、Exec、SpoolingDirectory。数据采集技术框架1.2.1Kafka技术架构Kafka是一种高吞吐量的分布式发布订阅消息系统。它的工作原理类似于微博的订阅,因其分布式及高吞吐率而被广泛使用,现已与ClouderaHadoop、ApacheStorm、ApacheSpark集成。1数据采集概述2数据采集的典型应用场景3数据采集技术框架目录4567网络爬虫概述网络爬虫的结构与类型Scrapy爬虫介绍Scrapy安装与配置网络爬虫概述1.1.1网络爬虫概述网络爬虫(又称为网页蜘蛛,网络机器人或网页追逐者)是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。它针对既定的抓取目标,有选择地访问网页及相关的链接,获取所需要的数据资源。由于网络爬虫系统能为搜索引擎系统提供数据来源,所以很多大型的网络搜索引擎系统都被称为基于Web数据采集的搜索引擎系统,甚至包括Google、百度等著名搜索引擎,由此可见网络爬虫的重要性。1数据采集概述2数据采集的典型应用场景3数据采集技术框架目录4567网络爬虫概述网络爬虫的结构与类型Scrapy爬虫介绍Scrapy安装与配置网络爬虫的基本结构及工作流程网络爬虫的结构与类型1.2.5网络爬虫的类型网络爬虫的结构与类型网络爬虫的类型主要有如下四种1.通用网络爬虫2.聚焦网络爬虫3.增量式网络爬虫4.深层网络爬虫1数据采集概述2数据采集的典型应用场景3数据采集技术框架目录4567网络爬虫概述网络爬虫的结构与类型Scrapy爬虫介绍Scrapy安装与配置1.3Scrapy爬虫Scrapy爬虫介绍Scrapy的官方文档是这样介绍Scrapy的:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,可以应用在包括数据挖掘、信息处理或存储历史数据等一系列的程序中,其最初是为了页面抓取(更确切来说,网络抓取)所设计的。Scrapy是一套用Python编写的异步爬虫框架,基于Twisted实现,运行于Linux/Windows/MacOS等多种环境,具有速度快、扩展性强、使用简便等特点。Scrapy爬虫介绍1.2.1Kafka技术架构Scrapy框架是一套比较成熟的Python爬虫框架,是使用Python开发的快速、高层次的信息爬取框架,可以高效地爬取Web页面并提取出结构化数据。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求就可以对它进行修改。1数据采集概述2数据采集的典型应用场景3数据采集技术框架目录4567网络爬虫概述网络爬虫的结构与类型Scrapy爬虫介绍Scrapy安装与配置1.3.5Scrapy安装与配置Scrapy安装与配置Scrapy可在Windows及Linux下安装,Scrapy框架运行平台及相关辅助工具可通过相关网站下载安装。项目WindowsLinux版本Windows764位Centos7.0Python3.4.43.4.41.3.6Windows7下的安装配置Scrapy安装与配置1.安装Python3.4.42.安装pywin323.安装pip4.安装pyOpenSSL5.安装lxml6.初次安装Scrapy框架7.安装Twisted8.安装Scrapy框架9.Scrapy测验1.3.7Linux(CentOS)下的安装配置Scrapy安装与配置1.源码编译前准备2.编译安装3.创建软链接4.测试python3是否安装成功5.安装scrapy爬虫6.在python3shell中验证scrapy7.创建软scrapy链接8.在shell中验证scrapy本章小结本章介绍了数据采集的概念、数据采集

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论