spark能跑Python么?
spark是可以跑Python程序的。python編寫好的算法,或者擴展庫的,比如sklearn都可以在spark上跑。直接使用spark的mllib也是可以的,大部分算法都有。
Spark 是一個通用引擎,可用它來完成各種各樣的運算,包括 SQL 查詢、文本處理、機器學習等。
本次實驗是搭有spark環(huán)境的linux下跑的,spark版本為1.6.1,相當于在在spark本地執(zhí)行,spark文件放在/opt/moudles/spark-1.6.1/(代碼中會看到)
編寫python測試程序
#test.py文件 # -*- coding:utf-8 -*- import os import sys #配置環(huán)境變量并導入pyspark os.environ['SPARK_HOME'] = r'/opt/moudles/spark-1.6.1' sys.path.append("/opt/moudles/spark-1.6.1/python") sys.path.append("/opt/moudles/spark-1.6.1/python/lib/py4j-0.9-src.zip") from pyspark import SparkContext, SparkConf appName ="spark_1" #應(yīng)用程序名稱 master= "spark://hadoop01:7077"#hadoop01為主節(jié)點hostname,請換成自己的主節(jié)點主機名稱 conf = SparkConf().setAppName(appName).setMaster(master) sc = SparkContext(conf=conf) data = [1, 2, 3, 4, 5] distData = sc.parallelize(data) res = distData.reduce(lambda a, b: a + b) print("===========================================") print (res) print("===========================================")
執(zhí)行python程序
執(zhí)行如下命令
python test.py
執(zhí)行與結(jié)果分別如下圖所示: