版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目一数据采集与预处理准备言示网66网站原创,侵权必究Project1Datacollectionandpre-processingpreparation任务一Task1言示网66网站原创,侵权必究认识数据采集技术,熟悉数据采集平台言示网66网站原创,侵权必究任务描述(1)学习数据采集等相关知识内容,熟悉大数据的定义、大数据的基本
特征及数据采集的相关技术、工具和产品等(2)熟悉数据采集的来源和方法。(3)完成Scrapy平台的搭建。(4)完成ApacheFlume平台的搭建。
任务目标(1)掌握数据采集的来源和采集的方法。(2)学会搭建数据采集平台。言示网66网站原创,侵权必究知识准备1.数据采集的概念数据采集是大数据价值挖掘中重要的一环,其后的分析挖掘都建立在数据采集的基础上。数据的采集有基于物联网传感器的采集,也有基于网络信息的采集。数据采集过程中涉及数据的抽取(Extract)、数据的清洗转换(Transform)、数据的加载(Load)3个过程,其英文缩写为ETL。数据采集的ETL工具负责将分布的、异构数据源中的不同种类和结构的数据,抽取到临时中间层,然后进行清洗、转换、分类、集成,最后加载到对应的数据存储系统(如数据仓库)中,成为联机分析处理、数据挖掘的基础。针对大数据的ETL处理过程有别于传统的ETL处理过程,在ETL的架构和工具选择上,会采用如分布式内存数据库、实时流处理系统等现代信息技术。言示网66网站原创,侵权必究知识准备2.数据采集的来源根据MapReduce产生数据的应用系统分类,大数据的采集主要有4种来源:管理信息系统、Web信息系统、物理信息系统、科学实验系统。3.数据采集的方法(1)数据采集的新方法:
①系统日志采集方法
②网络数据采集方法:对非结构化数据的采集
③其他数据采集方法
言示网66网站原创,侵权必究知识准备3.数据采集的方法(2)网页数据采集的方法
①网页数据采集的基本流程互联网网页数据采集就是获取互联网中相关网页内容的过程,并从中抽取出用户所需要的属性内容。网络爬虫是一个自动提取网页的程序,从一个或若干初始网页的URL开始,获得初始网页的URL,在抓取网页的过程中,不断从当前页面中抽取新的URL放入队列,直到满足系统的一定停止条件。上图:网络爬虫自动提取网页的过程言示网66网站原创,侵权必究知识准备3.数据采集的方法(2)网页数据采集的方法
②网页数据采集的工作过程a.将需要抓取数据网站的URL信息写入URL队列。b.爬虫从URL队列中获取需要抓取数据网站的URL信息。c.获取某个具体网站的网页内容。d.从网页内容中抽取该网站正文页内容的链接地址。e.从数据库中读取已经抓取过内容的网页地址。f.过滤URL。对当前的URL和已经抓取过的URL进行比较。g.若该网页地址没有被抓取过,则将该地址写入数据库。
已经被抓取过,则放弃对这个地址的抓取操作。h.获取该地址的网页内容,并抽取出所需属性的内容值。i.将抽取的网页内容写入数据库。言示网66网站原创,侵权必究知识准备3.数据采集的方法(2)网页数据采集的方法
③Web信息数据自动采
Web数据自动采集涉及Web数据挖掘、信息检索、信息提取
、搜索引擎等概念和技术④链接过滤
链接过滤是数据采集的关键技术,实质就是判断一个链接是不是在一个链接集合中。在对网页大数据的采集中,可以采用布隆过滤器来实现对链接的过滤。⑤Web引擎和通用搜索引擎的差别
Web引擎更多地关注“结构化信息”的抽取,搜索引擎更多关注搜索条件,信息一般不进行结构化处理。⑥结构化信息抽取的方式
Web结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽取成结构化数据,属于垂直搜索。言示网66网站原创,侵权必究任务实施1.Scrapy系统环境搭建(1).安装所需要的环境右键单击Ubuntu操作系统桌面,在弹出的快捷菜单中选择“OpenTerminal”命令,打开命令行窗口,在其中输入命令“sudoapt-getinstallpython-pip”如下图所示。pip是一个现代的、通用的Python包管理工具,提供了对Python包的查找、下载、安装、卸载的功能。需要将pip更新到最新版本,即在命令行窗口中执行命令“pipinstall--upgradepip”如下图所示。pip更新完成后,即可安装Scrapy。在命令行窗口中执行命令“pipinstallscrapy”,如下图所示。言示网66网站原创,侵权必究任务实施1.Scrapy系统环境搭建(2)验证Scrapy框架安装是否成功在命令行窗口中输入命令“scrapy”,若显示下图所示的内容,即表示成功安装Scrapy框架。言示网66网站原创,侵权必究任务实施2.日志系统环境搭建(1).安装FlumeFlume需要JDK环境的支持,可以使用“java–version”命令查看系统是否配置了JDK环境,若显示如下图所示的结果,即表示配置了JDK环境。否则,需要先下载并安装JDK环境①
到官方网站下载执行以下命令,完成压缩包的解压与安装。言示网66网站原创,侵权必究任务实施2.日志系统环境搭建(1).安装Flume②
修改权限和命名首先,使用“id”命令确定本机的用户和组,如下图所示。其次,使用以下命令更改用户和组修改文件的权限修改文件名称,如下图所示。言示网66网站原创,侵权必究任务实施2.日志系统环境搭建(2).配置环境变量①
配置环境变量执行“sudogedit/etc/profile”命令,在profile文件中配置环境变量,如下图所示。配置完成并保存后,需要使用以下命令使环境变量生效②
修改配置文件flume-env.sh进入/usr/local/flume/conf目录,进行下图所示的操作。在flume-env.sh文件开头加入下图所示的语句言示网66网站原创,侵权必究任务实施2.日志系统环境搭建(3)验证Flume框架安装是否成功执行以下语句。若显示下图所示的信息,则表示Flume安装成功。言示网66网站原创,侵权必究任务实施3.MongoDB的安装(1)下载MongoDB的安装包到MongoDB官网下载MongoDB的安装包(mongodb-win32-x86_64-2012plus-4.2.24.zip),注意选择与自己电脑系统版本匹配的软件安装包,下载完成后解压至任意一个目录即可(D:\mongodb)。(2)添加MongoDB的环境变量将解压后的MongoDB安装包所在目录,添加至环境变量中,方便在命令行中使用。具体方法如下:在Windows系统中,按下Win+R键打开运行窗口,输入sysdm.cpl进入系统属性界面,单击“高级”选项卡,单击“环境变量”按钮,然后在“系统环境变量”中将bin所在目录(D:\mongodb\bin)添加至“Path”环境变量中即可,注意,在添加环境变量前,必须保证MongoDB安装包已经在电脑上进行了解压,否则环境变量添加无效言示网66网站原创,侵权必究任务实施3.MongoDB的安装(4)启动MongoDB服务使用管理员权限打开命令行窗口,进入MongoDB的安装目录,然后输入以下命令来启动MongoDB服务:其中“dbpath”参数表示MongoDB的数据存储路径,“logpath”参数表示日志文件存储的路径,“install”参数表示将MongoDB服务安装在系统中,“serviceName”参数指定MongoDB服务的名称(可以自定义名称)。(5)创建MongoDB数据库以及集合在MongoDB服务启动后,打开命令行窗口,在任意路径下输入命令“mongo”,运行后进入mongodb的命令行中,即可使用命令进行数据库的创建以及集合的操作。执行命令如下此处的数据库名和集合名可以依据实际情况进行设定,其中use命令用来选择要操作的数据库,db.createCollection用来创建集合。任务二Task2言示网66网站原创,侵权必究认识数据预处理技术言示网66网站原创,侵权必究任务描述(1)学习数据预处理技术等相关知识内容,如数据清洗的主要任务和常用方法,数据集成的
主要任务和常用方法,数据转换的主要任务和常用方法,数据归约的主要任务和常用方法。(2)完成Kettle系统环境的搭建。(3)完成Python开发环境的搭建
任务目标(1)了解原始数据存在的主要问题。(2)明白数据预处理的作用和工作任务。(3)学会数据处理工具平台的搭建。言示网66网站原创,侵权必究知识准备1.数据预处理的概念数据预处理是指在对数据进行数据挖掘的主要处理以前,先对原始数据进行必要的清理、集成、转换、离散、归约、特征选择和提取等一系列处理工作,达到挖掘算法进行知识获取、研究所要求的最低规范和标准。数据挖掘的对象是从现实世界采集到的大量的、各种各样的数据,这些数据主要具有以下特征。
①不完整性;
②含噪声;
③杂乱性(不一致性);言示网66网站原创,侵权必究知识准备2.数据预处理常见的问题(1)数据采样:
数据采样技术分为加权采样、随机采样和分层采样3类,其目的是从数据集中采集部分样本进行处理。(2)数据清理:
数据清理技术通常包括填补遗漏的数据值、平滑有噪声数据、识别或除去异常值,以及解决不一致
问题。填补遗漏的数据值,处理不完备数据集的方法主要有以下三大类。
①删除元组;
②数据补齐;
③平滑有噪声数据;(3)数据集成:
数据集成指将来自多个数据源的数据合并,形成一致的数据存储,如将不同数据库中的数据集成
一个数据仓库中存储。在数据集成时需要考虑很多问题。(如实体识别问题、冗余和相关分析、元
组重复、数据值冲突的检测与处理、数据转换、特征选择、特征提取等问题)言示网66网站原创,侵权必究任务实施1.Kettle环境的搭建(1).下载Kettle在官方网站下载pdi-ce--25.zip,并解压到/usr/local目录,解压操作如图所示。言示网66网站原创,侵权必究任务实施1.Kettle环境的搭建(1).下载Kettle解压完成后进入/usr/local,将文件“data-integration”重命名为“kettle”,以方便后续使用,如图所示。言示网66网站原创,侵权必究任务实施1.Kettle环境的搭建(2).配置环境变量打开命令行窗口,输入“sudovim~/.bashrc”,配置环境变量,如图所示。环境变量配置完成并保存后,执行“Source~/.bashrc”命令,使配置的环境变量生效。言示网66网站原创,侵权必究任务实施1.Kettle环境的搭
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 酒店岗位招聘笔试题及解答(某大型国企)
- 2026年空军专业技能类文职人员招聘考试(教学训练)历年参考题库
- 大学基础英语教程 4
- 2026年病历书写规范考试题库含真题答案解析
- Levocloperastine-d4-S-Cloperastine-d-sub-4-sub-生命科学试剂-MCE
- 上海市浦东新区周家渡街道工作人员招聘考试真题2025
- LacCer-d18-1-24-0-生命科学试剂-MCE
- 日喀则市2025届三下数学期末质量跟踪监视试题(含解析)
- 日喀则地区2025届数学三年级下学期期末达标测试试题含解析
- 2026年饭店管理概率测试题及答案
- 湘教版七年级下册地理期末复习全册知识点提纲
- 耕作学实习报告
- 达必妥药品说明书
- NB-T 47013.15-2021 承压设备无损检测 第15部分:相控阵超声检测
- 司马光《与王介甫书》原文注释赏析译文
- 照明线路的安装与检修2
- 湘教版 八年级下册 数学全册教案
- YY/T 0698.2-2022最终灭菌医疗器械包装材料第2部分:灭菌包裹材料要求和试验方法
- GH/T 1326-2021冻干水果、蔬菜
- YYH-第九章水环境污染控制与治理的生态工程及微生物学原理
- GB/T 9386-2008计算机软件测试文档编制规范
评论
0/150
提交评论