Spark Job Submit_link管理

link管理
链接快照平台
输入网页链接，自动生成快照
标签化管理网页链接
相关文章推荐
英俊的大葱 · webpack + Travis CI ...· 4 周前 ·
慷慨大方的火腿肠 · 科学网—中国龙龟“现身”云贵· 7 月前 ·
一身肌肉的松球 · 2022年河南信阳淮滨小学心理健康特岗教师考 ...· 7 月前 ·
沉着的毛衣 · 张振谦· 7 月前 ·
无邪的创口贴 · 河南省人民政府 ...· 8 月前 ·
会搭讪的大葱 · 中新地产前主席郦松校涉诈骗遭香港廉署通缉_手 ...· 9 月前 ·
SPARK_HOME/bin/spark-submit \ # 执行spark-submit脚本
		# 指定提交jar包的主类
		--class com.neusoft.client.xxxxxxxx \ 
		# 4核cpu
		--master local[4] \ 
		# jar包路径，对于Python应用，在此位置传入一个.py文件并且以--py-files的方式搜索路径下加入Python.zip、.egg、.py文件
		/usr/zhangqiang/xxxx.jar 
		# 额外的参数，传递给main函数的args
		[application-arguments]
python file 提交
# 环境变量指定 python 版本
export SPARK_HOME=/usr/hdp/current/spark2-client
export PYTHONPATH=/usr/bin/python3
export IPYTHON=1
export PYSPARK_PYTHON=/usr/bin/python3
export PYSPARK_DRIVER_PYTHON=ipython3
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
SPARK_HOME/bin/spark-submit \ # 执行spark-submit脚本
		# 4核cpu
		--master local[4] \ 
		# 在此位置传入一个.py文件并且以--py-files的方式搜索路径下加入Python.zip、.egg、.py文件
		--py-files test.py
		# main
		test.py
Standalone 模式提交模板
# 在环境变量中配置了SPARK_HOME/bin后就可以直接调用此脚本
spark-submit \ 
		--class com.neusoft.SimpleApp \
		# spark集群master的地址
		--master spark://10.4.120.83:7077 \ 
		# 每个executor的内存大小
		--executor-memory 2G \	
		# 所有executors一共使用10个核
		--total-executor-cores 10 \ 
		/usr/zhangqiang/xxxx.jar
		[application-arguments]
YARN 模式提交模板
# 与standalone一一对应
spark-submit \
		--class com.neusoft.SimpleApp \
		# 默认是client模式，该集群的位置可以在HADOOP_CONF_DIR变量中找到
		--master yarn \
		--executor-memory 2G \
		--num-executors 10 \
		/usr/zhangqiang/xxxx.jar
		[applications-arguments]
YARN 模式提交的两种方式
# 提交到yarn，默认以client模式提交
	# 客户端方式提交
		spark-submit --master yarn --deploy-mode client ...
	# 集群模式提交
		spark-submit --master yarn --deploy-mode cluster ...
导入第三方依赖
直接将依赖包打入提交的jar包里面
  Library Files 这种方式是把.jar文件打入到artifact.jar中，反编译后是这样的
  
Extracted Directory 是直接把.class文件打入到artifact.jar中，相当于maven-assembly的fat-jar。如下：
指定 –jars
--jars 即 Spark Runtime Environment Property saprk.jars，指定一个以,分割的jar包文件列表。注意只能指定文件。
spark-submit \
--class com.neusoft.SimpleApp \
--jars /opt/neu/jars/mysql-connector-java-5.1.27-bin.jar,/opt/neu/jars/hanlp-1.6.3.jar
指定 –packages
--packages 即 Spark Runtime Environment Property spark.jars.packages，包含在 driver 和 executors classpath 中的 jar 的 Maven 坐标的逗号分隔列表。 坐标应该是groupId:artifactId:version。 如果给出spark.jars.ivySettings，则会根据文件中的配置来解析artifacts，否则将在本地 Maven 库中搜索 artifacts，然后是 Maven Central 或者是--repositories指定的其他远程资源库
spark-submit \
--class com.neusoft.SimpleApp \
--packages mysql:mysql-connector-java:5.1.27,com.hankcs:hanlp:portable-1.6.3 \
--repositories https://maven.neusoft.com/nexus/content/groups/public/                                                     
添加到 SPARK_CLASSPATH
直接将依赖的jar包发送到各个节点的$SPARK_HOME/jars中，这个文件夹包含了Spark本身所需要的所有依赖，直接将额外的依赖包放到里面容易混淆。
更好的方式如下：
# Note: Env variable `SPARK_CLASSPATH` has been deprecated in Spark 1.0+.
vim $SPARK_HOME/conf/spark-env.sh
SPARK_CLASSPATH=$SPARK_CLASSPATH:/opt/spark/external_jars/*
# 指定 spark.driver.extraClassPath，不要在程序 SparkConf 中指定，因为那时候 JVM 已经启动了。
spark-submit --driver-class-path /somepath/project/mysql-connector-java-5.1.30-bin.jar --jars /somepath/project/mysql-connector-java-5.1.30-bin.jar
然后将所有依赖的jars包放到external_jars文件夹下就可以了。
上面所说的所有路径，集群所有节点都需要复制一份完全相同jar文件。
Spark On YARN
  方式1：YARN Application 依赖的路径在 YARN 中的yarn.application.classpath配置。将 jar 包放在该配置项指定的路径下即可。
  方式2：在conf/spark-defaults.conf配置spark.yarn.archive或spark.yarn.jars。详细介绍
客户端模式和集群模式的最主要的区别
客户端模式比较适合开发调试，因为它是在同一物理位置（即同一网关）的服务器上提交应用程序，Driver直接在用户的spark-submit进程(client)中启动，应用程序的输入和输出连接到控制台，能够快速的看到application的输出，比较适合开发和测试
如果应用程序是在远离Worker节点的某台机器上提交的(比如你远程开发的电脑)，一般使用Cluster模式，这样可以使Drivers和Executors之间的网络延迟最小化，比较适合生产环境。
从深层次讲，他们的区别就是Application Master进程的区别，yarn-cluster模式下，driver运行在am（application master）中，他（driver）负责向yarn申请资源，并监督作业的运行状况，当用户提交了作业之后就可以关掉client了，作业会继续在yarn上运行。而client模式下am仅仅向yarn请求executor。driver运行在client中，client会和请求的container通信来调度他们的工作，也就是说不能关掉client(client 模式下你的 spark-submit 启动的进程，ctrl + c 你提交的任务就停了！)。
client模式下，am向yarn请求资源，client进行监督调度，所以spark yarn-client模式的配置都是以spark.am开头
cluster模式下，driver向yarn请求资源，并监督作业运行，所以spark yarn-cluster模式的配置以spark.driver开头
附：cluster模式的日志是下面这个样子的，因为具体的 driver 日志都返回到 driver 了，因此你看不到具体的日志信息，只能看到心跳信息。
17/04/07 18:27:10 INFO yarn.Client: Application report for application_1491557185266_0001 (state: RUNNING)
17/04/07 18:27:11 INFO yarn.Client: Application report for application_1491557185266_0001 (state: RUNNING)
17/04/07 18:27:12 INFO yarn.Client: Application report for application_1491557185266_0001 (state: RUNNING)
17/04/07 18:27:13 INFO yarn.Client: Application report for application_1491557185266_0001 (state: RUNNING)
17/04/07 18:27:14 INFO yarn.Client: Application report for application_1491557185266_0001 (state: RUNNING)
17/04/07 18:27:15 INFO yarn.Client: Application report for application_1491557185266_0001 (state: RUNNING)
Spark 指定执行用户
在shell中指定环境变量
export HADOOP_USER_NAME=hdfs
在程序中指定环境变量
System.setProperty("HADOOP_USER_NAME", "hdfs")
在 spark executor 指定执行用户
val sparkConf = new SparkConf()
sparkConf.set("HADOOP_USER_NAME", "hdfs")
SparkSubmit 源码
spark-submit具体的执行逻辑都在spark-core org.apache.spark.deploy.SparkSubmit的main方法中。
SparkShell
  What do the numbers on the progress bar mean in spark-shell?
    [Stage7:===========>                              (14174 + 5) / 62500]
      What you get is a Console Progress Bar, [Stage 7: shows the stage you are in now, and (14174 + 5) / 62500] is (numCompletedTasks + numActiveTasks) / totalNumOfTasksInThisStage]. The progress bar shows numCompletedTasks / totalNumOfTasksInThisStage.
  It will be shown when both spark.ui.showConsoleProgress is true (by default) and log level in conf/log4j.properties is ERROR or WARN (!log.isInfoEnabled is true).
# Help
$ spark-shell -h
$ spark-shell \
    --master yarn \
    --driver-cores 4 \
    --driver-memory 8G \
    --num-executors 40 \
    --executor-memory 30G \
    --executor-cores 4 \
    --conf "spark.yarn.maxAppAttempts=1" \
    --packages com.databricks:spark-avro_2.11:4.0.0