大数据系统分析实验报告（学生版）

上传人：青*** IP属地：安徽上传时间：2026-05-16 格式：DOCX 页数：14 大小：92.97KB 积分：6 举报 版权申诉

已阅读5页，还剩9页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

《大数据技术与应用》实验报告至年第学期专业班级姓名学号指导教师

实验1安装Hadoop和熟悉常用的HDFS操作实训目的（1）掌握Linux虚拟机的安装方法。Hadoop在Linux操作系统上运行可以发挥最佳性能。鉴于目前很多读者正在使用Windows操作系统，因此，为了完成本书的后续实验，这里有必要通过本实验让读者掌握在Windows操作系统上搭建Linux虚拟机的方法。（2）掌握Hadoop的分布式安装方法。很多读者并不具备集群环境，需要在一台机器上模拟一个小的集群，因此，需要通过本实验让读者掌握在多个虚拟机上进行Hadoop的分布式安装方法。（3）理解HDFS在Hadoop体系结构中的角色。（4）熟悉使用HDFS操作常用的Shell命令。（5）熟悉HDFS操作常用的JavaAPI。实验平台安装Hadoop操作系统:

Windows

系统或者Ubuntu

(推荐)。虚拟机软件:推荐使用的开源虚拟机软件为VirtualBox，VirtualBox是一款功能强大的免费虚拟机软件，不仅具有丰富的特色、优异的性能，而且简单易用，可虚拟的系统包括Windows、MacOSx、Linux、OpenBSD、Solris、IBM

052,甚至Android4.0系统等。读者可以在Windows系统上安装VirtualBox软件，然后在VirualBox上安装并且运行Linux操作系统。本次实验默认的Linux发行版为Ubuntu14.01。熟悉常用的HDFS操作操作系统：Linux Hadoop版本：2.7.3或以上版本 JDK版本：1.7或以上版本 JAVAJDE：EclipseHadoop安装实验内容和要求

任务1：1、安装Linux虚拟机2、进行Hadoop分布式安装在Linux环境下完成分布式环境的搭建。任务2： 1、编程实现一下指定功能，并利用Hadoop提供的Shell命令完成相同的任务。 ①向HDFS中上传任意文本文件，如果指定的文件在HDFS中已经存在，由用户指定是追加到原有文件末尾还是覆盖原来的文件。 ②从HDFS中下载指定文件，如果本地文件与要下载的文件名称相同，则自动对下载的文件重命名。 ③将HDFS中指定文件的内容输出到终端。④显示HDFS中指定的文件读写权限、大小、创建时间.路径等信息。⑤给定HDFS中某一个目录，输出该目录下的所有文件的读写权限、大小、创建时间、路径等信息，如果该文件是目录，则递归输出该目录下所有文件相关信息。⑥提供一个HDFS内的文件的路径，对该文件进行创建和删除操作。如果文件所在目录不存在，则自动创建目录。⑦提供一个HDFS的目录的路径，对该目录进行创建和删除操作。创建目录时，如果目录文件所在目录不存在则自动创建相应目录;删除目录时，由用户指定当该目录不为空时是否还删除该目录。⑧向HDFS中指定的文件追加内容，由用户指定内容追加到原有文件的开头或结尾。⑨删除HDFS中指定的文件。⑩在HDFS中将文件从源路径移动到目的路径。2、编程实现一个类“MyFSDataInputStream”，该类继承“org.apache.hadoop.fs.FSDataImpuStream”,要求如下：①实现按行读取HDFS中指定文件的方法“readLine()"，如果读到文件末尾，则返回空，否则返回文件一行的文本。②实现缓存功能，即利用“MyFSDatalnputSream”读取若干字节数据时，首先查找缓存，如果缓存中有所需数据，则直接由缓存提供，否则向HDFS读取数据。实验步骤注意事项：任务1：只需截最终效果图、检测程序运行成功的界面，再加说明。任务2：第一小题要有程序和对应的HDFS的shell命令，所有结果过程要截图和说明。

《大数据技术与应用》实验报告（二）至年第学期专业班级姓名学号指导教师实验2大数据采集与预处理学习目标能够部署基本大数据采集环境掌握运用Flume框架进行日志采集的方法熟练掌握网络爬虫的基本流程掌握运用Scrapy爬虫框架进行网络数据采集的方法，掌握运用Selenium+ChromeDriver模拟浏览器操作的方法基本实验实训任务1）基于Flume框架的日志采集环境搭建2）使用Flume设计一种网络数据监控方案3）验证Scrapy框架官方案例4）使用Scrapy设计一种爬取某电商网站商品信息的方案5）运用Selenium库设计一种模拟浏览器爬取豆瓣影评的方案基本实验实训任务报告主要内容要求：请按实验步骤插入实验截图及核心代码任务一：基于Flume框架的日志采集环境搭建

1、安装地址1）Flume官网地址/2）文档查看地址/FlumeUserGuide.html3）下载地址/dist/flume/

2、安装部署1）将apache-flume-1.9.0-bin.tar.gz上传到linux的/opt/software目录下。2）解压apache-flume-1.9.0-bin.tar.gz到/opt/module/目录下。3）修改apache-flume-1.9.0-bin的名称为flume。4）将flume/conf下的flume-env.sh.template文件修改为flume-env.sh，并配置flume-env.sh文件。使用Flume监控端口数据1、需求：使用Flume监听一个端口，收集该端口数据，并打印到控制台。否符合该文法的语法规则。2、编写配置文件。3、启动FlumeAgent服务端。4、使用Telnet发送数据。5、在控制台上查看Flume收集到的日志数据。任务二：Scrapy框架官方案例1、Scrapy下载地址。/download/2、Scrapy安装。使用命令：pipinstallscrapy3、完成Scrapy官方案例，爬取网页。案例代码参考接:/en/latest/intro/overview.html4、将爬取的数据以JSON格式保存至本地文件夹。任务三：使用Scrapy爬取某电商网站商品的信息1、创建一个Scrapy项目。2、定义Item。使用scrapy.item.Item创建Item,并使用scrapy.item.Field对象来定义属性。3、编写Spider。4、启动Spider爬取数据。5、提取Item,采用JSON格式对爬取的数据进行序列化，并生成items.json文件。任务四：运用Selenium库模拟浏览器爬取某电影的豆瓣影评使用Selenium库获取网页源代码使用XPath进行网页解析通过翻页实现循环爬取保存爬取的豆瓣影评数据，格式不限任务五：Kettle安装与使用Kettle安装Kettle使用实验总结及分析要求：请根据本次实验，从数据采集技术层面进行总结，并分析在实验过程中遇到的问题及解决方案。（200-300字）

实验二大数据预处理一、实验目的1掌握数据清洗方法2掌握数据变换方法3掌握数据规范化方法4掌握其他预处理方法5掌握kettle工具的安装方法6初步掌握kettle的数据流处理过程7掌握Pandas数据清理的方法；8初步掌握Pandas的基本数据结构9掌握数据预处理的综合方法二、基本实验实训任务1数据预处理基本方法2数据预处理工具kettle工具使用3数据预处理综合实例Pandas运用三、实训任务报告主要内容任务一：数据预处理基本方法1餐饮系统中的销量数据可能出现缺失值，下表为某餐厅一段时间的销量表，其中有一天的数据缺失，用拉格朗日插值与牛顿插值法对缺失值补缺。2分别对给定的数据集用最小-最大规范化、零-均值规范化、小数定标规范化进行规范化处理。3属性构造进行防窃漏电诊断建模时，已有的属性包括进入线路供入电量、该条线路上各大用户用电量之和，记为供出电量。理论上供入电量和供出电量应该是相等的，但是由于在传输过程中的电能损耗，会使得供入电量略大于供出电量，如果该条线路上的一个或多个大用户存在窃漏电行为，会使供入电量远大于供出电量。反过来，为了判断是否存在有窃漏电行为的大用户，需要构造一个新的关键指标--线损率，该过程就是构造属性。新构造的属性线损率计算公式如下：线损率＝（供入电量-供出电量）/供入电量，线损率的范围一般在3%~15%，如果远远超过该范围，就可以认为该条线路的大用户很大可能存在窃漏电等用电异常行为。对数据集进行属性构造。学生实验主要过程：任务二：数据预处理工具使用（注：在正式进入实验前，请确保你的计算机已经配置好java环境。）（一）下载并安装Kettle1.下载Kettle安装包

2.新建文件夹/usr/local/kettle

3.解压zip包

4.复制MySQL驱动JAR包

5.启动kettle

（二）使用Kettle1启动MySQL2创建数据库kettle3创建user,product,orders表，并插入测试数据

(三)建立并执行作业1建立作业JOB

1.1新建转换并保存转换文件

1.2连接数据库

1.3切换到核心对象，拖动3个表输入控件到设计区域

1.4双击表输入控件，设置表输入控件的属性信息

1.5拖动2个流查询到设计区域，并设置流查询的属性信息

1.6拖动1个文本文件输出到设计区域，并设置输出的属性信息

1.7连接控件2执行JOB2.1点击启动按钮执行JOB

2.2查看执行结果学生实验主要过程：任务三：数据预处理综合实例1将2004～2016年的流感数据，保存在flu_data文件夹的by_year文件夹中。flu_data还包含people文件用于展示各年各省市的人口数据。2流感数据的读取与清洗（3）自定义函数Preprogress批量读取连接数据3检查数据：先对地区一列进行计数，然后修改4人口数据的清洗与重塑5拼接数据6将输入数据保存在csv文件中学生实验主要过程：四反思与总结要求：请根据本次实验，从数据预处理层面进行总结，并分析在实验过程中遇到的问题及解决方案。（200-300字）五教师评定实验报告评分标准实验情况得分严格按照要求即时完成；结构严谨，内容充分；应用大数据技术准确进行数据处理；具备大数据思维能力。>=90严格按照要求即时完成；结构严谨，内容充分；应用大数据技术进行数据处理略有瑕疵；基本具备大数据思维能力。80~90基本按照要求即时完成；结构严谨，内容充分；应用大数据技术进行数据处理纰漏较多；大数据思维能力不足。60~80作业没有按要求完成；或者交了作业，但实验流程不清，不具备大数据思维能力。<60学生得分教师评语：签字：日期：年月日

《大数据技术与应用》实验报告至年第学期专业班级姓名学号指导教师

实验3常用的HBase操作实验目的了解HBase基础知识掌握HBase的安装部署掌握HBaseshell常用指令掌握HBaseJavaAPI的使用实验涉及知识点HBase基础知识HBase安装部署HBaseshell常用

人人文库> 全部分类> 教育资料 > 作文作品

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据系统分析实验报告（学生版）

文档简介

温馨提示

最新文档

评论

大数据系统分析实验报告（学生版）

文档简介

温馨提示

最新文档

评论

相关文档