无法在这个位置找到: head2.htm
当前位置: 建站首页 > 新闻动态 > 行业新闻 >

Linux下构建Spark 的 Python 程序编写自然环境的方式

时间:2021-04-02 05:53来源:未知 作者:jianzhan 点击:
Spark 能够单独安裝应用,还可以和Hadoop 一起安裝应用。在安裝 Spark 以前,最先保证你的电脑上上早已安裝了 Java 8 或是高些的版本号。Spark 安裝浏览 Spark 免费下载网页页面 ,并挑选全

Spark 能够单独安裝应用,还可以和Hadoop 一起安裝应用。在安裝 Spark 以前,最先保证你的电脑上上早已安裝了 Java 8 或是高些的版本号。

Spark 安裝

浏览 Spark 免费下载网页页面 ,并挑选全新版本号的 Spark 立即免费下载,当今的全新版本号是 2.4.2 。免费下载好以后必须缓解压力缩到安裝文档夹中,看自身的爱好,大家是安裝来到 /opt 文件目录下。

tar -xzf spark-2.4.2-bin-hadoop2.7.tgz
mv spark-2.4.2-bin-hadoop2.7/opt/spark-2.4.2

以便能在终端设备中立即开启 Spark 的 shell 自然环境,必须配备相对的自然环境自变量。这儿我因为应用的是 zsh,因此必须配备自然环境到 ~/.zshrc 中。

沒有安裝 zsh 的能够配备到 ~/.bashrc 中

# 编写 zshrc 文档
sudo gedit ~/.zshrc
# 提升下列內容:export SPARK_HOME=/opt/spark-2.4.2export PATH=$SPARK_HOME/bin:$PATH
export a href="ews.aspx?tid=17" target="_blank" title="Python" Python /a PATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH

配备进行后,在 shell 中键入 spark-shell 或是 pyspark 便可以进到到 Spark 的互动式程序编写自然环境中,前面一种是进到 Scala 互动式自然环境,后面一种是进到 Python 互动式自然环境。

配备 Python 程序编写自然环境

在这里里详细介绍二种程序编写自然环境, Jupyter 和 Visual Studio Code。前面一种便捷开展互动式程序编写,后面一种便捷最后的集成化式开发设计。

PySpark in Jupyter

最先详细介绍怎样在 Jupyter 中应用 Spark,留意这儿 Jupyter notebook 和 Jupyter lab 是通用性的方法,这里以 Jupyter lab 中的配备为例子:

在 Jupyter lab 中应用 PySpark 存有二种方式:

pyspark 将全自动开启一个 Jupyter lab;
findSpark 包来载入 PySpark。

第一个选择项迅速,但特殊于Jupyter手记本,第二个选择项是一个更普遍的方式,使PySpark在你随意喜爱的IDE上都能用,明显强烈推荐第二种方式。

方式一:配备 PySpark 起动器

升级 PySpark 起动器的自然环境自变量,再次在 ~/.zshrc 文档中提升下列內容:

export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='lab'

假如要应用 jupyter notebook,则将第二个主要参数的值改成 notebook

更新自然环境自变量或是重新启动设备,并实行 pyspark 指令,将立即开启一个起动了 Spark 的 Jupyter lab。

pyspark

 

方式二:应用 findSpark 包

在 Jupyter lab 中应用 PySpark 也有另外一种更通用性的方式:应用 findspark 包在编码中出示 Spark 左右文自然环境。

findspark 包并不是特殊于 Jupyter lab 的,您还可以其他的 IDE 中应用该方式,因而这类方式更通用性,也更强烈推荐该方式。

最先安裝 findspark:

pip install findspark

以后开启一个 Jupyter lab,大家在开展 Spark 程序编写时,必须先导进 findspark 包,实例以下:

# 导进 findspark 并原始化import findspark
findspark.init()from pyspark importSparkConf,SparkContextimport random
# 配备 Spark
conf =SparkConf().setMaster("local[*]").setAppName("Pi")# 运用左右文起动 Spark
sc =SparkContext(conf=conf)
num_samples =definside(p): 
 x, y = random.random(), random.random()return x*x + y*y 1
count = sc.parallelize(range(0, num_samples)).filter(inside).count()
pi =4* count / num_samples
print(pi)
sc.stop()

运作实例:

 

PySpark in VScode

Visual Studio Code 做为一个出色的编写器,针对 Python 开发设计十分便捷。这儿最先强烈推荐本人常见的一些软件:

Python:必装的软件,出示了Python語言适用;

Code Runner:适用运作文档中的一些片断;

另外,在 VScode 上应用 Spark 也不必须应用 findspark 包了,能够立即开展程序编写:

from pyspark importSparkContext,SparkConf
conf =SparkConf().setMaster("local[*]").setAppName("test")
sc =SparkContext(conf=conf)
logFile ="file:///opt/spark-2.4.2/README.md"
logData = sc.textFile(logFile,2).cache()
numAs = logData.filter(lambda line:'a'in line).count()
numBs = logData.filter(lambda line:'b'in line).count()print("Lines with a: {0}, Lines with b:{1

小结

之上上述是网编给大伙儿详细介绍的Linux下构建Spark 的 Python 程序编写自然环境的方式,期待对大伙儿有一定的协助,假如大伙儿有一切疑惑热烈欢迎帮我留言板留言,网编会立即回应大伙儿的!

(责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
无法在这个位置找到: ajaxfeedback.htm
栏目列表
推荐内容


扫描二维码分享到微信