实验一Spark课程B计划1

上传人：我*** IP属地：北京上传时间：2020-06-18 格式：DOCX 页数：12 大小：796.56KB 积分：9.6 举报 版权申诉

已阅读5页，还剩7页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、1.Spark window安装过程参考简书：/p/c5190d4e8aaawindows下安装spark-python首先需要安装Java卸载java7安装java8Jdk选择E:javajdkJre选择E:javajre设置环境变量系统变量新建 JAVA_HOME 变量。变量值填写jdk的安装目录（本人是 E:javajdk1.8.0_66) 系统变量寻找 Path 变量编辑在变量值最后输入 %JAVA_HOME%bin;%JAVA_HOME%jrebin;（注意原来Path的变量值末尾有没有;号，如果没有，先输入;号再输入上面的代码）系统

2、变量新建 CLASSPATH 变量变量值填写 .;%JAVA_HOME%lib;%JAVA_HOME%libtools.jar（注意最前面有一点）系统变量配置完毕检验是否配置成功运行cmd 输入 java -version （java 和 -version 之间有空格）若如图所示显示版本信息则说明安装和配置成功。下载安装scala直接安装选择e:/scala下载安装并配置Spark从官方网站Download Apache Spark下载相应版本的spark，因为spark是基于hadoop的，需要下载对应版本的hadoop才行，这个页面有对hadoop的版本要求，点击Download

3、 Spark:spark-2.3.1-bin-hadoop2.7.tgz就可以下载压缩包了，对应的hadoop版本要在Hadoop2.7及其以后。这里解压到D:spark-2.3.1-bin-hadoop2.7，为了后续操作简便，这里将解压以后的文件夹名称改为spark，这样解压的路径就是D:spark配置环境变量右键我的电脑，依次点击属性-高级系统设置-环境变量新建用户变量 SPARK_HOME D:spark找到系统变量Path 点击按钮新建，然后添加文本%SPARK_HOME%bin，按回车enter，继续新建一个，添加文本%SPARK_HOME%sbin，按键回车，一直点击确定，就保存

4、了更改，这样就将bin、sbin文件夹中的程序放到了系统变量中%SPARK_HOME%bin; %SPARK_HOME%sbin;pyspark：到这里spark的配置完成了一部分，还有pyspark需要配置，pyspark等anaconda安装后在下文中讨论，pyspark的安装有几种方式，其中解压以后的spark文件夹中就有pyspark库，可以安装到python的库当中去；还可以不复制，pyspark可以通过pip单独安装，还有一种是单独下载pyspark的安装包，解压以后安装到python库当中去。安装并配置Hadoop上面安装spark的时候有对hadoop的版本要求，这里要求的是2

5、.7及以后的版本，进入官方网站Apache Hadoop Releases下载2.7.6 binary版本，其中source版本是该版本hadoop的源代码，下载以后解压到D:hadoop-2.7.6，为了后续操作方便，解压以后修改文件夹名称为hadoop，这样文件夹就是D:hadoop配置环境变量：右键我的电脑，依次点击属性-高级系统设置-环境变量新增用户变量 HADOOP_HOME D:hadoop然后找到系统变量Path 点击按钮新建，然后添加文本%HADOOP_HOME%bin，按回车enter，继续新建一个，添加文本%HADOOP_HOME%sbin，按键回车，一直点击确定，就保存了

6、更改，这样就将bin、sbin文件夹中的程序放到了系统变量中从网站中下载点击打开链接一个压缩包，然后解压出来，复制其中的winutils.exe和winutils.pdb到hadoop的安装文件夹中，复制目录为：D:hadoopbin，复制到这个目录中当输入命令pyspark出现以下结果时表明spark安装配置完成了安装并配置anaconda在anaconda官方网站中下载并安装对应版本的anaconda，安装路径这里的是C:Anaconda，其中需要注意的一点是，需要勾选第一个将anaconda加入环境变量的选项，这样就不需要我们自己将它的路径加入到环境变量中去了安装anaco

7、nda不是必须的，必须安装的是python，单独只安装python也是可以的，但是anaconda当中集成了很多需要用到的库，为了方便起见，这里安装的是anaconda。配置pyspark库 anaconda包含pyspark之前在安装spark的时候，提到过pyspark库的安装有几种方法，一种方法是直接将spark自带的pyspark库安装到python的库当中去；一种是使用命令pip install pyspark安装；还有一种是单独下载pyspark的安装包，解压以后安装到python库当中去。这几种方法，这里都会进行讲解。将spark自带的pyspark库安装到python：以管理员

8、身份打开cmd，按一下键盘上的window键，依次选中Windows 系统，右键命令提示符，点击更多，点击以管理员身份运行进入spark安装目录的python文件夹，cdD:sparkpythonC:cd D:sparkpythonC:d:D:sparkpython输入命令 python setup.py install，等待安装完成，D:sparkpythonpython setup.py install出现这个图时pyspark就安装好了pip install pyspark命令行方式安装：同上面打开cmd的方式相同，需要以管理员身份运行，按一下键盘上的window键，依次选中Window

9、s 系统，右键命令提示符，点击更多，点击以管理员身份运行输入命令pip install pyspark，等待安装完成，这里需要注意的是，pyspark本身的安装包占用磁盘空间很多，有几百M，这种方式安装需要在线下载pyspark，网速不错的话，是非常推荐的，这种方式最简单，只需要一行命令就行了。单独下载安装pyspark：进入pyspark的PyPI的网站，点击左侧的Download files，下载pyspark的安装包，然后解压好，这里解压的路径是D:pyspark-2.3.1同上面打开cmd的方式相同，需要以管理员身份运行，按一下键盘上的window键，依次选中Windows 系统，右键

10、命令提示符，点击更多，点击以管理员身份运行进入解压以后文件夹的目录输入命令行 python setup.py install ，等待安装完成，pyspark就安装完成了D:pyspark-2.3.1python setup.py install以上几种方式都可以安装pyspark，其中最方便的方式是使用命令行 pip install pyspark，下面将讲解pycharm的安装配置过程，并演示一个python编写spark的示例。安装并配置Pycharm在Pycharm的官方网站中下载pycharm的community版本，这个版本是免费的，按照默认配置安装就可以安装好以后打开pycharm

11、，根据自己的喜好配置界面，到这一步时，可以安装一些插件，这里安装的是Markdown进入打开界面时打开settings选择好Project Interpreter，点击右侧的下拉链，然后点击show all点击+号，添加项目解释器，选中其中的Conda Environment，然后点击Existing environment，点击右侧的选择按钮，进入目录C:Anaconda，选中其中的python.exe文件，然后一直点击OK等待库载入完成以后，点击OK，就完成了Project Interpreter的配置，等待更新完成，或者让它在后台运行这个是在最开始的时候配置Project

12、Interpreter，进入界面以后，可以在File-Settings或者File-Default_Settings中设置设置自己的字体，在File-Settings-Editor-Font当中设置使用python来编写spark的WordCount程序实例流程新建一个项目，编辑好项目的存放目录以后，需要注意选择Existing interpreter，而不是New interpreter，上一步就是在配置Project interpreter，需要点击选择已经配置好的解释器。新建一个项目还依次点击按钮File-Setting-New Project等待pycharm配置好，右下角会有提示的，

13、等这个任务完成以后，就可以新建python文件了点击Create就创建好了一个项目，鼠标放在左侧项目然后右键，依次点击New-Python File，创建一个python文件WordCount.py进入WordCount.py文件写入如下代码，就是中文版WordCount，很经典的分布式程序，需要用到中文分词库jieba，去除停用词再进行计数新建两个文件jieba分词/project/jieba/#files下载完后将导入项目中from pyspark.contextimport SparkContextimport jiebasc = SparkContext(

14、local, WordCount)#初始化配置data = sc.textFile(rD:WordCount.txt)#读取是utf-8编码的文件with open(rd:中文停用词库.txt,r,encoding=utf-8)as f:x=f.readlines()stop=i.replace(n,)for iin xprint(stop)stop.extend(，,的,我,他,。, ,n,？,；,：,-,（,）,！,1909,1920,325,B612,II,III,IV,V,VI,“,”,、)#停用标点之类data=data.flatMap(lambda line: jieba.cut(

15、line,cut_all=False).filter(lambda w: wnot in stop).map(lambda w:(w,1).reduceByKey(lambda w0,w1:w0+w1).sortBy(lambda x:x1,ascending=False)print(data.take(100)最终结果是：2.在notebook上运行spark程序import os import sys spark_name = os.environ.get(SPARK_HOME,None) if not spark_name: raise ValueErrorError(spark环境没有配置好) sys.path.insert(0,os.path.join(spark

人人文库> 全部分类> 应用文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

实验一Spark课程B计划1

文档简介

温馨提示

最新文档

评论

实验一Spark课程B计划1

文档简介

温馨提示

最新文档

评论

相关文档