大数据Hadoop之——Spark集群调动（Standalone）

发布时间：2025年09月25日 12:17

，Driver在目标送交的本地微电脑上列车运行，Driver开启后向Master申请人分析方法程序，Master根据submit脚本的水资源供给找到之外水资源至少可以开启一个Executor的所有Worker，然后在这些Worker彼此之间相应Executor，Worker上的Executor开启后就会向Driver反向申请人，所有的Executor申请人已完成后，Driver开始执行者main函数，此后执行者到Action算子时，开始分成stage，每个stage分解成对应的taskSet，此后将task派送到各个Executor上执行者。2）Standalone Cluster 手段在 Standalone Cluster 手段下，目标送交后，Master 就会找到一个 Worker 开启 Driver意味着，Driver 开启后向 Master 申请人分析方法程序，Master 根据 submit 脚本的水资源供给找到之外水资源至少可以开启一个 Executor 的所有 Worker，然后在这些 Worker 彼此之间相应 Executor，Worker 上的 Executor 开启后就会向 Driver 反向申请人，所有的 Executor 申请人已完成后，Driver 开始执行者 main 函数，此后执行者到 Action 算子时，开始分成 stage，每个 stage 分解成对应的 taskSet，此后将 task 派送到各个 Executor 上执行者。

【警惕】Standalone的两种手段下（client/Cluster），Master在打来Driver申请人Spark分析方法程序的恳请后，就会获取都能管理的剩余水资源能够开启一个Executor的所有Worker，然后在这些Worker彼此之间派送Executor，此时的派送只顾虑Worker上的水资源是否足够分析方法于，直到当前分析方法程序所须的所有Executor都相应即刻，Executor反向申请人即刻后，Driver开始执行者main程序。

四、Spark 战略性配备（Standalone）1）微电脑及角色分成 2）三台微电脑配备JDK状况

之前配备Hadoop战略性的时候早已配备过了，这里就略过了，不清楚的可以参阅我之前的社论：大数据Hadoop定律参阅+配备+实弹配备（HDFS+YARN+MapReduce）

3）串流

Spark串流IP：

这里必须警惕版本，我的hadoop版本是3.3.1，这里spark就串流最新版本的3.2.0，而Spark3.2.0相反的Scala的2.13，所以后面用到Scala编程时警惕Scala的版本。

$ cd /opt/bigdata/hadoop/software# 串流$ wget # 解压$ tar -zxvf spark-3.2.0-bin-hadoop3.2.tgz -C /opt/bigdata/hadoop/server/# 重写配备目录英文名称$ cp -r /opt/bigdata/hadoop/server/spark-3.2.0-bin-hadoop3.2 /opt/bigdata/hadoop/server/spark-standalone-3.2.0-bin-hadoop3.24）配备spark

1、配备slaves邮件

$ cd /opt/bigdata/hadoop/server/spark-standalone-3.2.0-bin-hadoop3.2/conf$ cp workers.template workers# slaves邮件内容如下：hadoop-node1hadoop-node2hadoop-node3

hadoop-node1即是master，也是worker

2、配备spark-env.sh

$ cd /opt/bigdata/hadoop/server/spark-standalone-3.2.0-bin-hadoop3.2/conf# 始创data目录（所有节点都得始创这个目录）$ mkdir -p /opt/bigdata/hadoop/data/spark-standalone# copy一份状况变量邮件$ cp spark-env.sh.template spark-env.sh# 加入以下内容：export SPARK_MASTER_HOST=hadoop-node1export SPARK_LOCAL_DIRS=/opt/bigdata/hadoop/data/spark-standalone

3、配备spark-defaults.conf 这里不要用重写，如果必须重写，自行重写就行，普通用户客户端7077

$ cp spark-defaults.conf.template spark-defaults.conf$ cat spark-defaults.conf 5）将配备好的包copy另外两台战略性$ scp -r spark-standalone-3.2.0-bin-hadoop3.2 hadoop-node2:/opt/bigdata/hadoop/server/$ scp -r spark-standalone-3.2.0-bin-hadoop3.2 hadoop-node3:/opt/bigdata/hadoop/server/5）开启1、开启Master（在hadoop-node1节点上执行者）$ cd /opt/bigdata/hadoop/server/spark-standalone-3.2.0-bin-hadoop3.2/sbin$ ./start-master.sh# 拍照意味着客户端，spark master web ui 普通用户客户端为8080$ ss -tnlp|grep :8080# 如果客户端武装冲突，重写start-master.sh脚本里的客户端即可$ grep SPARK_MASTER_WEBUI_PORT start-master.sh

访问spark master web ui：

2、开启Worker节点（在所有节点上都执行者）$ cd /opt/bigdata/hadoop/server/spark-standalone-3.2.0-bin-hadoop3.2/sbin$ ./start-worker.sh spark://hadoop-node1:7077 五、测试验证

spark-submit 详尽常量说明：

；还有master：master 的IP，送交目标到哪里执行者，例如 spark://host:port, yarn, local；还有deploy-mode：在本地 (client) 开启 driver 或在 cluster 上开启，普通用户是 client；还有class：分析方法程序的主类，仅针对 java 或 scala 分析方法；还有name：分析方法程序的英文名称；还有jars：用逗号隔开的本地 jar 包，特设后，这些 jar 将包含在 driver 和 executor 的 classpath 下；还有packages：包含在driver 和executor 的 classpath 中就会的 jar 的 maven 坐标；还有exclude-packages：为了避免武装冲突而指定不包含的 package；还有repositories：远程 repository；还有conf PROP=VALUE：指定 spark 配备属性的数值，例如 -conf spark.executor.extraJavaOptions="-XX:MaxPermSize=256m"；还有properties-file：加载的配备邮件，普通用户为 conf/spark-defaults.conf；还有driver-memory：Driver内存，普通用户 1G；还有driver-java-options：想得到 driver 的额外的库路径；还有driver-class-path：想得到 driver 的额外的类路径；还有driver-cores：Driver 的核数，普通用户是1。在 yarn 或者 standalone 下分析方法于；还有executor-memory：每个 executor 的内存，普通用户是1G；还有total-executor-cores：所有 executor 总共的核数。仅仅在 mesos 或者 standalone 下分析方法于；还有num-executors：开启的 executor 量。普通用户为2。在 yarn 下分析方法于；还有executor-core：每个 executor 的核数。在yarn或者standalone下分析方法于1）driver client手段（；还有deploy-mode client）$ cd /opt/bigdata/hadoop/server/spark-standalone-3.2.0-bin-hadoop3.2/bin$ ./spark-submit ；还有class org.apache.spark.examples.SparkPi ；还有master spark://hadoop-node1:7077 ；还有deploy-mode client ；还有driver-memory 1G ；还有executor-memory 1G ；还有total-executor-cores 2 ；还有executor-cores 1 /opt/bigdata/hadoop/server/spark-standalone-3.2.0-bin-hadoop3.2/examples/jars/spark-examples_2.12-3.2.0.jar 10

这种手段列车运行结果，实际上在客户端看出出来了。

2）driver cluster手段（；还有deploy-mode cluster）$ cd /opt/bigdata/hadoop/server/spark-standalone-3.2.0-bin-hadoop3.2/bin$ ./spark-submit ；还有class org.apache.spark.examples.SparkPi ；还有master spark://hadoop-node1:7077 ；还有deploy-mode cluster ；还有driver-memory 1G ；还有executor-memory 1G ；还有total-executor-cores 2 ；还有executor-cores 1 /opt/bigdata/hadoop/server/spark-standalone-3.2.0-bin-hadoop3.2/examples/jars/spark-examples_2.12-3.2.0.jar 10

这种手段基本上有点驱动信息，必须登录web网页拍照

拍照driver日志信息

最终在driver日志里拍照列车运行结果了。

【温馨提示】现在企业里用的最多的手段还是on yarn手段，Standalone手段理解就行。

。

深圳白癜风医院那家比较好
杭州白癜风专科医院
云南皮肤病医院哪里最好
昆明皮肤病治疗哪家好
常州妇科检查
新冠药
便秘
尿很浑浊
口臭病
哪种止咳糖浆止咳比较好

上一篇：安信证券：未来CPI或将温和下沉

下一篇：百度信号：一次匪夷所思的干部轮岗