sparkonyarn的两种提交方式分别是什么-乐山大橙子建站

新闻中心

这里有您想知道的互联网营销解决方案

sparkonyarn的两种提交方式分别是什么

这篇文章给大家介绍spark on yarn的两种提交方式分别是什么，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。

为冀州等地区用户提供了全套网页设计制作服务，及冀州网站建设行业解决方案。主营业务为成都网站设计、网站制作、冀州网站设计，以传统方式定制建设网站，并提供域名空间备案等一条龙服务，秉承以专业、用心的态度为用户提供真诚的服务。我们深信只要达到每一位用户的要求，就会得到认可，从而选择与我们长期合作。这样，我们也可以走得更远！

和yarn-cluster模式一样，整个程序也是通过spark-submit脚本提交的。但是yarn-client作业程序的运行不需要通过Client类来封装启动，而是直接通过反射机制调用作业的main函数。下面就来分析：
1、通过SparkSubmit类的launch的函数直接调用作业的main函数（通过反射机制实现），如果是集群模式就会调用Client的main函数。
2、而应用程序的main函数一定都有个SparkContent，并对其进行初始化；
3、在SparkContent初始化中将会依次做如下的事情：设置相关的配置、注册MapOutputTracker、 BlockManagerMaster、BlockManager，创建taskScheduler和dagScheduler；其中比较重要的是创建 taskScheduler和dagScheduler。在创建taskScheduler的时候会根据我们传进来的master来选择 Scheduler和SchedulerBackend。由于我们选择的是yarn-client模式，程序会选择YarnClientClusterScheduler和YarnClientSchedulerBackend，并将YarnClientSchedulerBackend 的实例初始化YarnClientClusterScheduler，上面两个实例的获取都是通过反射机制实现的，YarnClientSchedulerBackend类是CoarseGrainedSchedulerBackend类的子类，YarnClientClusterScheduler是TaskSchedulerImpl的子类，仅仅重写了TaskSchedulerImpl 中的getRackForHost方法。
4、初始化完taskScheduler后，将创建dagScheduler，然后通过taskScheduler.start()启动 taskScheduler，而在taskScheduler启动的过程中也会调用SchedulerBackend的start方法。在 SchedulerBackend启动的过程中将会初始化一些参数，封装在ClientArguments中，并将封装好的 ClientArguments传进Client类中，并client.runApp()方法获取Application ID。
5、client.runApp里面的做是和前面客户端进行操作那节类似，不同的是在里面启动是ExecutorLauncher（yarn-cluster模式启动的是ApplicationMaster）。
6、在ExecutorLauncher里面会初始化并启动amClient，然后向ApplicationMaster注册该 Application。注册完之后将会等待driver的启动，当driver启动完之后，会创建一个MonitorActor对象用于和 CoarseGrainedSchedulerBackend进行通信（只有事件AddWebUIFilter他们之间才通信，Task的运行状况不是通过它和CoarseGrainedSchedulerBackend通信的）。然后就是设置addAmIpFilter，当作业完成的时候，ExecutorLauncher将通过amClient设置Application的状态为 FinalApplicationStatus.SUCCEEDED。
7、分配Executors，这里面的分配逻辑和yarn-cluster里面类似，就不再说了。
8、最后，Task将在CoarseGrainedExecutorBackend里面运行，然后运行状况会通过Akka通知CoarseGrainedScheduler，直到作业运行完成。
9、在作业运行的时候，YarnClientSchedulerBackend会每隔1秒通过client获取到作业的运行状况，并打印出相应的运行信息，当Application的状态是FINISHED、FAILED和KILLED中的一种，那么程序将退出等待。
10、最后有个线程会再次确认Application的状态，当Application的状态是FINISHED、FAILED和KILLED中的一种，程序就运行完成，并停止SparkContext。整个过程就结束了。

关于spark on yarn的两种提交方式分别是什么就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

标题名称：sparkonyarn的两种提交方式分别是什么
文章路径：http://lswzjz.com/article/ggepog.html

新闻中心

其他资讯