《人工智能技术概论》课件-3.数据采集_第1页
《人工智能技术概论》课件-3.数据采集_第2页
《人工智能技术概论》课件-3.数据采集_第3页
《人工智能技术概论》课件-3.数据采集_第4页
《人工智能技术概论》课件-3.数据采集_第5页
已阅读5页,还剩3页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

TECHNOLOGY触/碰/未/来

智/慧/科/技数据采集1.数据采集的概念大数据开启了一个大规模生产、分享和应用数据的时代,它给技术和商业带来了巨大的变化。大数据技术,就是从各种类型的数据中快速获得有价值的信息的技术。数据采集作为大数据生命周期的第一个环节,是指通过传感器、摄像头、射频识别(即RFID)数据以及互联网等方式获取各种结构化、半结构化与非结构化的数据。其中,结构化数据常指存储关系在数据库中的数据,非结构化数据常指不规则或不完整的数据,而半结构化数据常指有一定的结构与一致性约束,但在本质上不存在关系的数据。目前,电商企业中80%的数据都是非结构化数据,并且这些数据的量每年都在不断增长。2.数据采集的常见方法区别于小数据采集,大数据采集不再仅仅使用问卷调查、信息系统的数据库取得结构化数据。大数据的数据来源有很多,主要包括使用网络爬虫获取的网页文本数据、使用日志收集器收集的日志数据、从关系型数据库中获得的数据和由传感器收集到的时空数据等。而对于获取到的图像和语音数据

则需要通过技术处理才能使其变成大数据分析所需要的数据。2.1日志数据采集许多公司的平台每天会产生大量的日志(一般为流式数据),处理这些日志需要特定的日志系统,因此,日志采集系统的主要工作就是收集业务日志数据,供离线和在线的分析系统使用。这种大数据采集方式可以高效地收集、聚合和移动大量的日志数据,并且能提供可靠的容错性能,高可用性、高可靠性和可扩展性是日志采集系统的基本特征。目前常用的开源日志采集平台有ApacheFlume,Fluentd等,这些采集平台大部分采用的是分布式架构,能满足每秒数百兆位的日志数据采集和传输需求。 2.2网络数据采集网络数据采集是指利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取,并按照一定规则和筛选标准进行数据归类,形成数据库文件的一个过程。目前网络数据采集采用的技术基本上是利用垂直搜索引擎技术的网络爬虫(或数据采集机器人)、分词系统、任务与索引系统等技术进行综合运用而成的,并且随着互联网技术的发展和网络海量信息的增长,对信息进行获取与分拣的需求会越来越大。目前常用的网络爬虫系统主要采用多个系统并行抓取数据能充分利用计算机的计算资源和存储能力,大大提高系统抓取数据的能力,同时大大降低了开发人员的开发速率,使得开发人员可以很快地完成一个数据系统的开发。此外,网络数据采集支持图片、音频、视频等文件或附件的采集,其中附件与正文可以自动关联。除了网络中包含的内容之外,对于网络流量的采集可以使用DPI或DFI等带宽管理技术进行处理。3.数据库采集数据库采集是将实时产生的数据以记录的形式直接写入企业的数据库,并使用特定的数据处理系统进行进一步分析。目前比较常见的数据库采集主要有MySQL、Oracle、Redis及MongoDB等。这种方法通常在采集端部署大量数据库,并对如何在这些数据库之间进行负载均衡和分片进行深入的思考和设计。4.其他数据采集方法对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据,如API采集。API即应用程序接口,是网站的管理者为了使用方便而编写的一类程序接口,该类接口可以屏蔽网站底层的复杂算法,而仅通过简单调用即可实现对数据的请求功能,目前主流的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论